AI 自動上字幕完整教學:CapCut 與 Whisper 中文語音辨識實戰比較
老實說,我以前最討厭的剪片環節就是上字幕。一支 10 分鐘的影片,光打字幕加對時間軸就要花掉兩三個小時,簡直是精神折磨。直到 AI 自動上字幕工具出現,整個遊戲規則才徹底改變。
今天這篇文章,我會用實際測試的方式,把 CapCut(剪映國際版)的自動字幕功能跟 OpenAI 的 Whisper 做一個正面對決,特別針對繁體中文語音辨識的表現來比較。如果你也在煩惱該用哪個工具,這篇應該能幫你省下不少摸索時間。
為什麼你需要 AI 自動上字幕?
先講一個殘酷的事實:根據多項研究,超過 80% 的社群媒體影片是在靜音狀態下被觀看的。沒有字幕,你的影片等於少了八成的觸及機會。
但手動上字幕實在太耗時了。以我自己的經驗,一支 10 分鐘的影片手動打字幕大約需要 2-3 小時,而用 AI 工具只要 5-15 分鐘就能搞定初稿,頂多再花 20 分鐘校對修正。這個效率差距是數量級的。
目前市面上最主流的兩條路線:一是像 CapCut 這類整合在剪輯軟體裡的方案,另一條是用 OpenAI Whisper 這種開源語音辨識模型自己跑。兩者各有優缺點,接下來我們一個一個看。
CapCut 自動字幕功能實測
如果你還不熟悉 CapCut,可以先看看這篇 CapCut 剪映影片剪輯完整教學,裡面有從零開始的操作介紹。
CapCut 的自動字幕功能藏在「文字 → 自動字幕」裡,操作步驟非常簡單:
- 匯入影片:把你的影片素材拖進時間軸。
- 點選自動字幕:到上方選單的「文字」分頁,選擇「自動字幕」。
- 選擇語言:這裡選「中文(繁體)」,CapCut 有直接支援。
- 等待辨識:通常 10 分鐘的影片大概 1-2 分鐘就跑完。
- 校對修正:逐條檢查辨識結果,修正錯字和斷句。
CapCut 的優勢在於一站式體驗。辨識完的字幕直接出現在時間軸上,你可以立刻調整樣式、字體、位置,不需要在不同軟體之間跳來跳去。而且它的繁體中文支援度算是不錯,日常口語的辨識率大約在 85-90% 左右。
不過缺點也很明顯:遇到專業術語、英文夾雜、或是口音比較重的情況,錯誤率會明顯上升。另外免費版有使用次數限制,重度使用者可能需要付費訂閱。
OpenAI Whisper 安裝與使用教學
Whisper 是 OpenAI 在 2022 年底開源的語音辨識模型,完全免費,而且辨識能力相當強悍。不過它需要一點技術門檻來設定。
- 安裝 Python:先確認你的電腦有 Python 3.8 以上版本。
- 安裝 Whisper:打開終端機,執行
pip install openai-whisper。 - 安裝 ffmpeg:Whisper 需要 ffmpeg 來處理音訊,Mac 用
brew install ffmpeg,Windows 則要手動下載安裝。 - 執行辨識:在終端機輸入
whisper your-video.mp4 --language zh --model medium。 - 取得字幕檔:Whisper 會自動產出 SRT、VTT 等格式的字幕檔,你再匯入剪輯軟體即可。
Whisper 有五種模型大小:tiny、base、small、medium、large。模型越大辨識越準,但速度越慢、吃的記憶體也越多。以中文辨識來說,我建議至少用 medium 以上的模型,才會有比較好的效果。
如果你的電腦有不錯的顯示卡(NVIDIA GPU),Whisper 可以用 CUDA 加速,速度會快非常多。沒有 GPU 的話,跑 medium 模型大概要花影片長度 2-3 倍的時間。
中文語音辨識準確率實戰比較
我用同一段 5 分鐘的繁體中文影片(內容是科技產品開箱,語速中等,偶爾夾雜英文品牌名稱)來測試兩者的表現:
| 比較項目 | CapCut 自動字幕 | Whisper (medium) |
|---|---|---|
| 整體準確率 | 約 87% | 約 92% |
| 繁體中文辨識 | 直接支援,偶有簡體混入 | 需指定 zh,預設可能輸出簡體 |
| 英文夾雜處理 | 中等,常見品牌還行 | 較佳,英文辨識能力強 |
| 斷句品質 | 不錯,適合直接用 | 偏長句,需手動調整 |
| 處理速度 | 非常快(雲端運算) | 較慢(取決於硬體) |
整體來說,Whisper 在純辨識準確率上略勝一籌,特別是在中英文夾雜的場景。但 CapCut 的斷句比較自然,產出的字幕更接近「可以直接用」的狀態。
成本與工作流程分析
這是很多人在意的部分,我直接整理一個比較:
CapCut:免費版每月有限制額度,Pro 版月費約 NT$270。優點是不需要任何技術背景,打開就能用,字幕直接在剪輯環境裡調整。適合用 CapCut 當主力剪輯工具的人。
想了解更多 AI 剪輯工具的選擇,推薦看看 2026 免費 AI 影片剪輯工具推薦這篇整理。
Whisper:完全免費開源,但需要自己安裝設定。產出的字幕檔需要再匯入剪輯軟體(像是 DaVinci Resolve 或 Premiere Pro)。適合有一點技術底子、追求最高辨識品質、或是大量影片需要批次處理的人。
如果你的工作流程是大量產出,Whisper 的批次處理能力是一大優勢。你可以寫一個簡單的腳本,一次丟 20 支影片進去跑,隔天早上起來字幕就全部好了。CapCut 就沒辦法做到這種程度的自動化。
該選哪一個?我的建議
講到這裡,我的建議其實很簡單:
- 新手、個人創作者:直接用 CapCut,省時省力,品質已經夠用了。
- 進階使用者、工作室:用 Whisper,辨識品質更好,還能客製化和批次處理。
- 兩者搭配:其實很多人(包括我自己)是混著用的。日常短影片用 CapCut 快速搞定,重要的長影片或訪談用 Whisper 跑出更精準的結果。
不管選哪一個,AI 自動字幕已經把上字幕的痛苦降低了至少 80%。剩下 20% 的校對工作,目前還是人類做比較可靠,但我相信再過一兩年,這塊也會被 AI 吃掉。
常見問題
Whisper 可以直接辨識繁體中文嗎?
Whisper 的語言參數設定為 zh 時,預設輸出可能是簡體中文。你可以用 --initial_prompt 參數加上繁體中文的提示詞來引導輸出繁體,或是後續用工具做簡繁轉換。
CapCut 的自動字幕有字數或時間限制嗎?
免費版有每月使用次數限制,通常足夠輕度使用者。如果你每天都在產影片,建議直接訂閱 Pro 版,不然額度很快就用完了。
有沒有辦法提高 Whisper 的辨識準確率?
有幾個技巧:使用 large 模型而非 medium、確保音訊品質乾淨(降噪處理)、用 --initial_prompt 提供領域相關的詞彙提示。這些都能有效提升辨識結果。
繼續閱讀
DaVinci Resolve Fairlight 音效設計入門:免費做出專業級影片音效
相關文章
你可能也喜歡
探索其他領域的精選好文