OpenAI WhisperとRemotionで字幕制作時間を5時間から35分に短縮する方法

308人のフォロワー

フォロー

1/2

0人が保存しました

「60分番組のテロップ入れに毎週5時間かかっています。これ以上案件を受けられない状況です」——受注を断らざるを得なくなっていた動画の学校の受講生にこう伝えた。「その5時間、来週から35分になる」

OpenAI Whisperのword_timestamps機能で音声から単語単位のタイムスタンプを自動取得する。このデータを@remotion/captionsのcreateTikTokStyleCaptions()に渡すと、「2,000ms以内の間隔にある単語群」が自動的に1ページとしてグループ化され、アクティブワードのリアルタイムハイライト付きの字幕コンポーネントが生成される。処理時間はWhisper文字起こし（60分音声で約13分）、JSON変換（約30秒）、Remotion書き出し（約20分）——合計35分以内だ。

人間が介在すべきは固有名詞の認識誤りの修正のみになる。

「解放された時間で、新しい案件の提案書を書きました」と彼は翌週話してくれた。技術の進化とは、クリエイターが「やりたかったのにできなかった仕事」を可能にすることだ。字幕という反復作業を35分に圧縮した先に、本来のクリエイティブが待っている。

https://note.com/videolife/n/n95e2e6673de8?sub_rt=share_sb

5/2 に編集しました

動画制作における字幕作成は多くのクリエイターにとって時間的負担の大きい作業です。私自身も以前は60分の番組のテロップ入れに5時間以上費やしており、同時に複数案件を抱えるのが困難な状況でした。しかし、OpenAI Whisperのword_timestamps機能を使い、音声から単語ごとのタイムスタンプを自動取得してから、@remotion/captionsのcreateTikTokStyleCaptions()にデータを渡すことで、2,000ミリ秒以内の単語群を自動でグループ化し、リアルタイムハイライト付きの字幕を生成できます。この方法を導入したところ、文字起こしに約13分、JSON変換に約30秒、動画書き出しに約20分と、合計35分以内で字幕制作が完了。字幕作成にかかる時間が劇的に短縮されたことで、本来注力したかったクリエイティブな部分に時間を割くことができ、新たに企画提案を行う余裕も生まれました。使ってみて感じたのは、固有名詞や専門用語の認識誤りは手動で修正する必要がありますが、それ以外は自動で処理されるため大幅な効率化が可能です。特に長時間の動画制作や毎週定期的に字幕をつける必要がある案件では、こうした自動化ツールの活用が生産性向上に直結します。今後も進化し続けるAI技術と連携しながら、繰り返しの単純作業をできるだけ自動化し、クリエイターが本当にやりたい創造的作業に集中できる環境づくりが求められています。もし字幕作りに時間がかかっている方は、ぜひWhisperとRemotionの組み合わせを試してみることをおすすめします。時間短縮が生み出した余裕で、動画制作の幅も大きく広がるはずです。

関連投稿