「60分番組のテロップ入れに毎週5時間かかっています。これ以上案件を受けられない状況です」——受注を断らざるを得なくなっていた動画の学校の受講生にこう伝えた。「その5時間、来週から35分になる」
OpenAI Whisperのword_timestamps機能で音声から単語単位のタイムスタンプを自動取得する。このデータを@remotion/captionsのcreateTikTokStyleCaptions()に渡すと、「2,000ms以内の間隔にある単語群」が自動的に1ページとしてグループ化され、アクティブワードのリアルタイムハイライト付きの字幕コンポーネントが生成される。処理時間はWhisper文字起こし(60分音声で約13分)、JSON変換(約30秒)、Remotion書き出し(約20分)——合計35分以内だ。
人間が介在すべきは固有名詞の認識誤りの修正のみになる。
「解放された時間で、新しい案件の提案書を書きました」と彼は翌週話してくれた。技術の進化とは、クリエイターが「やりたかったのにできなかった仕事」を可能にすることだ。字幕という反復作業を35分に圧縮した先に、本来のクリエイティブが待っている。
https://note.com/videolife/n/n95e2e6673de8?sub_rt=share_sb














































