今どきの文字起こし覚え書き

久しぶりにインタビューの仕事を頂いたので、文字起こしに関する覚え書きを書き付けておく。
録音機材はいつものようにタスカムのレコーダー専用機DR-07を使ったが、今回はバックアップとして、GoogleブランドのスマートフォンPixel 8aでも録音した。
Pixel内蔵のボイレコは文字起こし対応
今回初めて知ったのだが、Pixelシリーズの内蔵ボイスレコーダーアプリを使って録音すると、自動的に文字起こしをしてくれる。

リアルタイムでも、後でまとめてでも可能らしい。今回は機内モードにして50分ほどのインタビューを録音したが、録音後にクラウドにアップし、何十分かすると文字起こしされた。個別の録音を開いている上の画面の3点アイコンをタップし、メニューを開くと、この文章をGoogleドキュメントへ出力できる。
こりゃいいやと思ったが、仕上がった文章を読むとかなり圧縮される傾向があるようで、複数人で話すようなインタビューには不向きと思った。一方的に話し続ける講義などには向いている気がする。
文字起こしするなら録音レベルにも配慮
タスカムDR-07はゲインがオートではないので、録音レベルの設定が難しい。あまり追い込むと、興が乗ってきて声が大きくなってきたときに割れてしまう。ただ、割れるよりは、小さいほうがマシだろう。
今回、録音したままのオーディオファイルとは別に、ノーマライズしたオーディオファイルを作ってみた。使うアプリは何でもよいだろうが、ぼくは手元にあったSound Forge「Audio Studio 17」を使い、「ラウドネスのノーマライズ」という機能を使った。コンプレッサーとリミッターの両方を使わなくても、一発で簡単に聞きやすく処理してくれるようだ。
設定はデフォルトのままだが、処理後の波形を見ると十分そうに思える。次の図は処理前後の波形を表示したもので、下のウインドウが処理前、上のウインドウが処理後である。

これをWindowsにインストールしたWhisper(ラージ辞書)を使って文字起こししてみた。録音時間は50分ほどだが、無修正のファイルでは約15,100文字、ノーマライズしたファイルでは約16,200文字になった。文章としても、「サバ」が「スタバ」に正されるくらいに改善されている。Whisperだって、やはり聞き取りやすいほうがよいわけだ。どんな作業でも、前処理が結果に大いに影響する例は多い。ちなみに、Pixel 8aで起こされた文字数は約14,000文字だった。
ちなみに、ノーマライズでここまで持ち上げてもノイズが出ないのは、デジタル録音のありがたいところだ。ただし、周囲の人の動作の音や、環境音も当然持ち上がる。こればかりは仕方ない。
ただ、逆に言えば、波形で見るとかなり厳しいように思えるオーディオファイルでも、ミスだらけとはいえ案外と聞き取ってくれるとも言える。つまり、オーディオ面では何も処理しなくてもそこそこの文章にはなる。個人的にはむしろそちらに驚いた。ただ、難しい用語が頻出する場合は、こういう前処理がもっと重要な意味を持つかもしれない。
そういうわけで今回は3種類の文字起こしができたが、仕事では最良の結果が得られたもの、つまり、DR-07で録音し、ノーマライズしてからWhisperにかけたものを採用した。もっとも、文章はそのままでは使い物にならないので、録音を聞きながら修正していった。
結局は手で修正することになるわけだが、それでも、少しでもマシな文章から始められるほうが少しでもありがたいことに変わりはない。今後もインタビューの仕事が来たら「DR-07で録音して、ラウドネスノーマライズしてからWhisper」の組み合わせでやろうと思う。