STT · 廣播級語音轉文字
即時 · 多語言 ·
聲音變字幕 0.5 秒。
端點 STT 是廣電專屬的即時語音辨識引擎。中文、台語、客語、英語混合辨識,端到端延遲 < 500ms,字幕準確率 98%。新聞直播、賽事轉播、節目後製,一條 pipeline 全覆蓋。
<500ms
端到端延遲
98%
字幕準確率
4
中 / 台 / 客 / 英
24/7
無人值守自動上字
WHY NOW
從人工聽打 + 後期校對,
到 AI 即時上字幕,是字幕室的工程節奏躍遷。
舊式工作流程:直播同步派 2 名速錄員聽打,VOD 後期再請外包校對。新聞 30 分鐘節目要 4 小時上完字幕,預算逐年壓縮,人力越來越難找。 STT 把聽打搬上 GPU:即時辨識,< 500ms 延遲;多語言混合(中 + 台 + 客 + 英),自動標點;輸出 SRT / EBU-STL 直接送 Playout / MAM。一個系統,三班輪值的工作量。
傳統人工上字 · LEGACY
速錄員聽打、後期校對、外包成本
直播派 2-3 名速錄員,VOD 外包逐字稿;30 分鐘節目要 4 小時校對;台語 / 客語要再加錢;夜班與假日加倍計薪;人事流動造成術語庫斷層。
STT · 端點 AI 字幕
即時辨識、多語混合、自動上字
GPU 即時辨識 < 500ms 延遲;中 / 台 / 客 / 英混合辨識;自動標點與斷句;客製術語庫與口音模型;輸出 SRT / VTT / EBU-STL 直送 Playout / MAM;24/7 無人值守。
CAPABILITIES · 三層能力
三層能力,串成一條
即時字幕自動化線。
多語言辨識 → 即時推論 → 廣電整合。每一層都可獨立評估、按通道數與語言模型授權、後續逐步擴展。
多語言辨識 · Multilingual ASR
中文(繁 / 簡)、台語、客語、英語、廣東話混合辨識;自動語言切換;廣電術語庫客製訓練;新聞 / 體育 / 綜藝 / 戲劇場景模型;數字 / 專名 / 縮寫智慧轉寫。
- 中 / 台 / 客 / 英 / 廣 5 語
- 自動語言切換
- 術語庫與場景模型
- 口音與背景噪音抗干擾
即時推論引擎 · Real-time Inference
GPU 加速推論,端到端延遲 < 500ms;自動標點與斷句;多人辨識(speaker diarization);多通道並行;節點故障自動接手;24/7 不間斷服務。
- < 500ms 端到端延遲
- 98% 字幕準確率
- 多人辨識(diarization)
- 多通道並行 + 故障接手
廣電整合與輸出 · Broadcast Output
輸出 SRT / VTT / TTML / EBU-STL;直送 Playout 播出系統與 Marquee 跑馬燈;回寫 MAM 作為時間碼級索引;REST API 與 webhook;NCC 字幕規範;HLS / DASH OTT 平台支援。
- SRT / VTT / TTML / EBU-STL
- Playout / Marquee / MAM 整合
- REST API + webhook
- NCC 字幕規範相容
WORKFLOW
字幕是 聽說讀寫的橋樑,
聲音進,字幕出,自動化全鏈路。
STT 把聲音翻譯成字幕,過程即時、準確、可追溯,並直接寫入廣電工作流。
FIGURE 01 · 即時字幕工作流(AUDIO → ASR → PUNCTUATE → FORMAT → DELIVER)
SPECIFICATIONS
工程規格。
完整規格表與技術評估可預約技術顧問現場演示。
| 支援語言 | 中文(繁 / 簡)· 台語 · 客語 · 英語 · 廣東話 · 自動語言切換 · 客製術語庫 |
|---|---|
| 辨識性能 | 端到端延遲 < 500ms · 字幕準確率 98%(標準場景)· 多人辨識(speaker diarization) |
| 輸入格式 | SDI / NDI / RTMP / SRT 即時串流 · WAV / MP4 / MXF VOD 檔案 · 多通道並行 |
| 輸出格式 | SRT · VTT · TTML · EBU-STL · CEA-608/708 · 即時 RTMP / SRT caption track |
| 系統整合 | Playout 播出 · Marquee 跑馬燈 · MAM 媒資 · REST API · webhook · OTT(HLS / DASH) |
| 硬體需求 | NVIDIA GPU(T4 / A10 / L4 起跳)· Linux 作業系統 · 容器化部署 · 通道數依 GPU 規模擴展 |
| 授權模式 | 依語音辨識通道數與語言模型授權;按月或年度方案;軟體授權 + 年度維護 |
HOW TO START
三步,從評估到上線。
申請試用
填寫聯絡表單,業務將於一個工作天內回覆,安排技術顧問評估。
系統整合評估
技術顧問協助評估辨識通道數、語言模型需求與既有 Playout / Marquee / MAM 整合,規劃 GPU 配置與試用方案。
部署與上線
完成 GPU 部署與術語庫客製後進行驗收測試(含直播 + VOD 場景),分階段導入確保現有字幕作業不受影響。
FAQ
常見問題。
如果我想用 STT 進行語音辨識作業,它目前支援哪些語言?
STT 支援普通話、台語、英語、廣東話等多語言語音辨識,可針對廣播環境的術語與口音進行客製化模型訓練,確保在背景噪音、多人交談情境下依然精準轉錄。
STT 自動化方案與傳統人工字幕相比有哪些具體優勢?
STT 端到端延遲低於 500ms,字幕準確率高達 98%,可同時處理多路即時串流。相較人工字幕,可節省大量人力成本,並支援 24/7 不間斷自動字幕生成服務。
STT 支援哪些字幕格式輸出?
STT 支援 SRT、VTT、TTML、EBU-STL 等主流字幕格式輸出,可直接整合至 Playout 播出系統、MAM 媒資管理及 OTT 平台,符合廣播業界標準。
STT 的授權方式是如何計算的?
STT 依語音辨識通道數與語言模型授權,提供按月或年度授權方案。詳細報價請洽業務顧問,依實際語音辨識需求提供最適授權方案。
使用 STT 需要什麼系統規格?
STT 需搭配 GPU 運算資源以支援即時 AI 推論,支援 Linux 作業系統。具體規格依同時辨識通道數及語言模型複雜度需求而定,技術顧問將協助評估最適配置。
我要如何開始評估和試用 STT?
請填寫聯絡表單,業務將於一個工作天內回覆,安排技術顧問進行語音辨識需求評估,並規劃適合的試用方案。
AI 字幕和傳統人工上字幕相比有什麼優勢?
端點 STT 的 AI 字幕功能可即時將語音自動轉換為字幕,相較傳統人工聽打速度提升超過 10 倍,且支援中文、台語、客語及英語混合辨識。AI 字幕特別適合新聞直播、體育賽事轉播等即時性高的場景,也可應用於節目後製的批次字幕生成,大幅降低人力成本與製作時間。