STT · 廣播級語音轉文字

即時 · 多語言 ·
聲音變字幕 0.5 秒。

端點 STT 是廣電專屬的即時語音辨識引擎。中文、台語、客語、英語混合辨識，端到端延遲 < 500ms，字幕準確率 98%。新聞直播、賽事轉播、節目後製，一條 pipeline 全覆蓋。

預約 Demo

<500ms

端到端延遲

98%

字幕準確率

中 / 台 / 客 / 英

24/7

無人值守自動上字

WHY NOW

從人工聽打 + 後期校對，
到 AI 即時上字幕，是字幕室的工程節奏躍遷。

舊式工作流程：直播同步派 2 名速錄員聽打，VOD 後期再請外包校對。新聞 30 分鐘節目要 4 小時上完字幕，預算逐年壓縮，人力越來越難找。 STT 把聽打搬上 GPU：即時辨識，< 500ms 延遲；多語言混合（中 + 台 + 客 + 英），自動標點；輸出 SRT / EBU-STL 直接送 Playout / MAM。一個系統，三班輪值的工作量。

傳統人工上字 · LEGACY

速錄員聽打、後期校對、外包成本

直播派 2-3 名速錄員，VOD 外包逐字稿；30 分鐘節目要 4 小時校對；台語 / 客語要再加錢；夜班與假日加倍計薪；人事流動造成術語庫斷層。

STT · 端點 AI 字幕

即時辨識、多語混合、自動上字

GPU 即時辨識 < 500ms 延遲；中 / 台 / 客 / 英混合辨識；自動標點與斷句；客製術語庫與口音模型；輸出 SRT / VTT / EBU-STL 直送 Playout / MAM；24/7 無人值守。

CAPABILITIES · 三層能力

三層能力，串成一條
即時字幕自動化線。

多語言辨識 → 即時推論 → 廣電整合。每一層都可獨立評估、按通道數與語言模型授權、後續逐步擴展。

多語言辨識 · Multilingual ASR

中文（繁 / 簡）、台語、客語、英語、廣東話混合辨識；自動語言切換；廣電術語庫客製訓練；新聞 / 體育 / 綜藝 / 戲劇場景模型；數字 / 專名 / 縮寫智慧轉寫。

中 / 台 / 客 / 英 / 廣 5 語
自動語言切換
術語庫與場景模型
口音與背景噪音抗干擾

ii.

即時推論引擎 · Real-time Inference

GPU 加速推論，端到端延遲 < 500ms；自動標點與斷句；多人辨識（speaker diarization）；多通道並行；節點故障自動接手；24/7 不間斷服務。

< 500ms 端到端延遲
98% 字幕準確率
多人辨識（diarization）
多通道並行 + 故障接手

iii.

廣電整合與輸出 · Broadcast Output

輸出 SRT / VTT / TTML / EBU-STL；直送 Playout 播出系統與 Marquee 跑馬燈；回寫 MAM 作為時間碼級索引；REST API 與 webhook；NCC 字幕規範；HLS / DASH OTT 平台支援。

SRT / VTT / TTML / EBU-STL
Playout / Marquee / MAM 整合
REST API + webhook
NCC 字幕規範相容

WORKFLOW

字幕是聽說讀寫的橋樑，
聲音進，字幕出，自動化全鏈路。

STT 把聲音翻譯成字幕，過程即時、準確、可追溯，並直接寫入廣電工作流。

Audio In

直播訊號 / VOD 檔案 · 多通道輸入

ASR

GPU 推論 · 多語言混合辨識

Punctuate

標點 + 斷句 + 多人分離

Format

SRT / VTT / EBU-STL · NCC 規範

Deliver

Playout · Marquee · MAM · OTT

FIGURE 01 · 即時字幕工作流（AUDIO → ASR → PUNCTUATE → FORMAT → DELIVER）

SPECIFICATIONS

工程規格。

完整規格表與技術評估可預約技術顧問現場演示。

支援語言	中文（繁 / 簡）· 台語 · 客語 · 英語 · 廣東話 · 自動語言切換 · 客製術語庫
辨識性能	端到端延遲 < 500ms · 字幕準確率 98%（標準場景）· 多人辨識（speaker diarization）
輸入格式	SDI / NDI / RTMP / SRT 即時串流 · WAV / MP4 / MXF VOD 檔案 · 多通道並行
輸出格式	SRT · VTT · TTML · EBU-STL · CEA-608/708 · 即時 RTMP / SRT caption track
系統整合	Playout 播出 · Marquee 跑馬燈 · MAM 媒資 · REST API · webhook · OTT（HLS / DASH）
硬體需求	NVIDIA GPU（T4 / A10 / L4 起跳）· Linux 作業系統 · 容器化部署 · 通道數依 GPU 規模擴展
授權模式	依語音辨識通道數與語言模型授權；按月或年度方案；軟體授權 + 年度維護

HOW TO START

三步，從評估到上線。

申請試用

填寫聯絡表單，業務將於一個工作天內回覆，安排技術顧問評估。

ii.

系統整合評估

技術顧問協助評估辨識通道數、語言模型需求與既有 Playout / Marquee / MAM 整合，規劃 GPU 配置與試用方案。

iii.

部署與上線

完成 GPU 部署與術語庫客製後進行驗收測試（含直播 + VOD 場景），分階段導入確保現有字幕作業不受影響。

READY?

準備好讓字幕
跟著聲音同步出了嗎？

即刻預約 Demo，看 AI 字幕如何重塑新聞、賽事、後製作業。

預約 Demo

FAQ

常見問題。

如果我想用 STT 進行語音辨識作業，它目前支援哪些語言？

STT 支援普通話、台語、英語、廣東話等多語言語音辨識，可針對廣播環境的術語與口音進行客製化模型訓練，確保在背景噪音、多人交談情境下依然精準轉錄。

STT 自動化方案與傳統人工字幕相比有哪些具體優勢？

STT 端到端延遲低於 500ms，字幕準確率高達 98%，可同時處理多路即時串流。相較人工字幕，可節省大量人力成本，並支援 24/7 不間斷自動字幕生成服務。

STT 支援哪些字幕格式輸出？

STT 支援 SRT、VTT、TTML、EBU-STL 等主流字幕格式輸出，可直接整合至 Playout 播出系統、MAM 媒資管理及 OTT 平台，符合廣播業界標準。

STT 的授權方式是如何計算的？

STT 依語音辨識通道數與語言模型授權，提供按月或年度授權方案。詳細報價請洽業務顧問，依實際語音辨識需求提供最適授權方案。

使用 STT 需要什麼系統規格？

STT 需搭配 GPU 運算資源以支援即時 AI 推論，支援 Linux 作業系統。具體規格依同時辨識通道數及語言模型複雜度需求而定，技術顧問將協助評估最適配置。

我要如何開始評估和試用 STT？

請填寫聯絡表單，業務將於一個工作天內回覆，安排技術顧問進行語音辨識需求評估，並規劃適合的試用方案。

AI 字幕和傳統人工上字幕相比有什麼優勢？

端點 STT 的 AI 字幕功能可即時將語音自動轉換為字幕，相較傳統人工聽打速度提升超過 10 倍，且支援中文、台語、客語及英語混合辨識。AI 字幕特別適合新聞直播、體育賽事轉播等即時性高的場景，也可應用於節目後製的批次字幕生成，大幅降低人力成本與製作時間。

即時 · 多語言 ·聲音變字幕 0.5 秒。

從人工聽打 + 後期校對，到 AI 即時上字幕，是字幕室的工程節奏躍遷。