STT · 廣播級語音轉文字

即時 · 多語言 ·
聲音變字幕 0.5 秒

端點 STT 是廣電專屬的即時語音辨識引擎。中文、台語、客語、英語混合辨識,端到端延遲 < 500ms,字幕準確率 98%。新聞直播、賽事轉播、節目後製,一條 pipeline 全覆蓋。

<500ms

端到端延遲

98%

字幕準確率

4

中 / 台 / 客 / 英

24/7

無人值守自動上字

WHY NOW

人工聽打 + 後期校對
到 AI 即時上字幕,是字幕室的工程節奏躍遷。

舊式工作流程:直播同步派 2 名速錄員聽打,VOD 後期再請外包校對。新聞 30 分鐘節目要 4 小時上完字幕,預算逐年壓縮,人力越來越難找。 STT 把聽打搬上 GPU:即時辨識,< 500ms 延遲;多語言混合(中 + 台 + 客 + 英),自動標點;輸出 SRT / EBU-STL 直接送 Playout / MAM。一個系統,三班輪值的工作量。

傳統人工上字 · LEGACY

速錄員聽打、後期校對、外包成本

直播派 2-3 名速錄員,VOD 外包逐字稿;30 分鐘節目要 4 小時校對;台語 / 客語要再加錢;夜班與假日加倍計薪;人事流動造成術語庫斷層。

STT · 端點 AI 字幕

即時辨識、多語混合、自動上字

GPU 即時辨識 < 500ms 延遲;中 / 台 / 客 / 英混合辨識;自動標點與斷句;客製術語庫與口音模型;輸出 SRT / VTT / EBU-STL 直送 Playout / MAM;24/7 無人值守。

CAPABILITIES · 三層能力

三層能力,串成一條
即時字幕自動化線。

多語言辨識 → 即時推論 → 廣電整合。每一層都可獨立評估、按通道數與語言模型授權、後續逐步擴展。

i.

多語言辨識 · Multilingual ASR

中文(繁 / 簡)、台語、客語、英語、廣東話混合辨識;自動語言切換;廣電術語庫客製訓練;新聞 / 體育 / 綜藝 / 戲劇場景模型;數字 / 專名 / 縮寫智慧轉寫。

  • 中 / 台 / 客 / 英 / 廣 5 語
  • 自動語言切換
  • 術語庫與場景模型
  • 口音與背景噪音抗干擾
ii.

即時推論引擎 · Real-time Inference

GPU 加速推論,端到端延遲 < 500ms;自動標點與斷句;多人辨識(speaker diarization);多通道並行;節點故障自動接手;24/7 不間斷服務。

  • < 500ms 端到端延遲
  • 98% 字幕準確率
  • 多人辨識(diarization)
  • 多通道並行 + 故障接手
iii.

廣電整合與輸出 · Broadcast Output

輸出 SRT / VTT / TTML / EBU-STL;直送 Playout 播出系統與 Marquee 跑馬燈;回寫 MAM 作為時間碼級索引;REST API 與 webhook;NCC 字幕規範;HLS / DASH OTT 平台支援。

  • SRT / VTT / TTML / EBU-STL
  • Playout / Marquee / MAM 整合
  • REST API + webhook
  • NCC 字幕規範相容

WORKFLOW

字幕是 聽說讀寫的橋樑
聲音進,字幕出,自動化全鏈路。

STT 把聲音翻譯成字幕,過程即時、準確、可追溯,並直接寫入廣電工作流。

01
Audio In
直播訊號 / VOD 檔案 · 多通道輸入
02
ASR
GPU 推論 · 多語言混合辨識
03
Punctuate
標點 + 斷句 + 多人分離
04
Format
SRT / VTT / EBU-STL · NCC 規範
05
Deliver
Playout · Marquee · MAM · OTT

FIGURE 01 · 即時字幕工作流(AUDIO → ASR → PUNCTUATE → FORMAT → DELIVER)

SPECIFICATIONS

工程規格

完整規格表與技術評估可預約技術顧問現場演示。

支援語言 中文(繁 / 簡)· 台語 · 客語 · 英語 · 廣東話 · 自動語言切換 · 客製術語庫
辨識性能 端到端延遲 < 500ms · 字幕準確率 98%(標準場景)· 多人辨識(speaker diarization)
輸入格式 SDI / NDI / RTMP / SRT 即時串流 · WAV / MP4 / MXF VOD 檔案 · 多通道並行
輸出格式 SRT · VTT · TTML · EBU-STL · CEA-608/708 · 即時 RTMP / SRT caption track
系統整合 Playout 播出 · Marquee 跑馬燈 · MAM 媒資 · REST API · webhook · OTT(HLS / DASH)
硬體需求 NVIDIA GPU(T4 / A10 / L4 起跳)· Linux 作業系統 · 容器化部署 · 通道數依 GPU 規模擴展
授權模式 依語音辨識通道數與語言模型授權;按月或年度方案;軟體授權 + 年度維護

HOW TO START

三步,從評估到上線。

i.

申請試用

填寫聯絡表單,業務將於一個工作天內回覆,安排技術顧問評估。

ii.

系統整合評估

技術顧問協助評估辨識通道數、語言模型需求與既有 Playout / Marquee / MAM 整合,規劃 GPU 配置與試用方案。

iii.

部署與上線

完成 GPU 部署與術語庫客製後進行驗收測試(含直播 + VOD 場景),分階段導入確保現有字幕作業不受影響。

READY?

準備好讓字幕
跟著聲音同步出了嗎?

即刻預約 Demo,看 AI 字幕如何重塑新聞、賽事、後製作業。

FAQ

常見問題

如果我想用 STT 進行語音辨識作業,它目前支援哪些語言?

STT 支援普通話、台語、英語、廣東話等多語言語音辨識,可針對廣播環境的術語與口音進行客製化模型訓練,確保在背景噪音、多人交談情境下依然精準轉錄。

STT 自動化方案與傳統人工字幕相比有哪些具體優勢?

STT 端到端延遲低於 500ms,字幕準確率高達 98%,可同時處理多路即時串流。相較人工字幕,可節省大量人力成本,並支援 24/7 不間斷自動字幕生成服務。

STT 支援哪些字幕格式輸出?

STT 支援 SRT、VTT、TTML、EBU-STL 等主流字幕格式輸出,可直接整合至 Playout 播出系統MAM 媒資管理及 OTT 平台,符合廣播業界標準。

STT 的授權方式是如何計算的?

STT 依語音辨識通道數與語言模型授權,提供按月或年度授權方案。詳細報價請洽業務顧問,依實際語音辨識需求提供最適授權方案。

使用 STT 需要什麼系統規格?

STT 需搭配 GPU 運算資源以支援即時 AI 推論,支援 Linux 作業系統。具體規格依同時辨識通道數及語言模型複雜度需求而定,技術顧問將協助評估最適配置。

我要如何開始評估和試用 STT?

請填寫聯絡表單,業務將於一個工作天內回覆,安排技術顧問進行語音辨識需求評估,並規劃適合的試用方案。

AI 字幕和傳統人工上字幕相比有什麼優勢?

端點 STT 的 AI 字幕功能可即時將語音自動轉換為字幕,相較傳統人工聽打速度提升超過 10 倍,且支援中文、台語、客語及英語混合辨識。AI 字幕特別適合新聞直播、體育賽事轉播等即時性高的場景,也可應用於節目後製的批次字幕生成,大幅降低人力成本與製作時間。