太宰の妻──音声入力雑感

macOS 14 Sonomaから、音声入力を使って文章を入力している間に、キーボードからの操作を割り込ませられるようになった。また、iOS 17でもほぼ同じように操作できる。デスクトップでもモバイルでも操作性が変わらないのは、両方を同じ系列のOSで展開しているAppleの強みだろう。

→「macOS Sonomaで 利用できる新機能。」(PDF)

割り込みするときに、特別な操作は必要ないことがポイントだ。たとえば、音声入力して、かな漢字変換がおかしかったら、その場でキーボードを操作して修正できる。修正を終えたら、また音声入力を続けられる。キーボード操作を終えて少し待つと、すぐに音声入力を待つ状態になる。

「少し待つ」のタイミングは機種によると思うが、おおよそ、かな漢字変換を終えてすべての文字列を確定し、一息つくくらいのわずかな間で音声入力の待機へ戻るだろう。もはや、音声入力とキーボード入力を区別する必要はなくなった(音声入力でもATOKやかわせみを使えればさらに喜ばしいのだが)。

ただし、音声入力を最初に始めるときは、所定の操作をする必要がある。Macであればcontrolキーをダブルクリック、iOSであればキーボードに割り込んでいるマイクのアイコンのキーをタップする。また、音声入力を待機させたまま一定時間が経過すると、タイムアウトして音声入力は終了する。

この機能は以前からあったような気もするが、おもしろいのは、音声入力を待機させたまま別の箇所をクリックしても、やはり音声入力は待機しているということだ。推敲するときにあちこちに言い足りないことがあったと発覚しても、音声入力を有効にしたまま全体を推敲して回ることもできる。

ちなみにScrivenerであれば、別のテキストをクリックしてエディタに表示しても、音声入力は待機し続けている。あらかじめインスペクタの「注釈」あたりに、あとで書き足したいことをきちんとメモしておいて、あらかじめ内容を決めておくと、推敲の迅速化を図れそうだ。

ところで、太宰治に『駈込み訴え』という短編小説がある。イエス・キリストに対する思いを、どこかに駆け込んだユダが延々と訴えるという体裁で、全編台詞のみである。段落も数えるほどしかない。長さはルビを加えても13,000文字ほどである。

→「駈込み訴え」(青空文庫)

太宰はこれを書くときに、自ら字を書くのではなく、全文を一気に口述し、それを妻が筆記したとされる。このとき彼は、淀みもなく、言い直しもしなかったという。この字数であれば、1時間前後はかかっただろう。筆記することも考えると、2時間近くかかっても不思議ではない。

→「駈込み訴え」(Wikipedia)

もしも今、MacやiPhoneに向かって同じことをやろうとしたらどうなるだろうか。

筆者はこれまで、自分のジャンルの原稿では音声入力に有用性を見いだせず、あまり真面目に使ってこなかったが、最近必要が出てきていろいろ調べたり使ったりしている。

OpenAIがオープンソースでリリースしている「Whisper」というプログラムを使って、30分ほどの講演のビデオを文字起こししてみた。Whisperには4種類のサイズが異なる辞書があり、文字起こしする作業時間と認識性能が異なる。

最小サイズの辞書は、作業時間は最短で済むが、できあがった文章は話にならない。上から3番目のサイズだと少しマシになるが、実用性はまだ低い。2番目のサイズになると、手を入れる必要はあるが、結構実用性のあるレベルになる。1番大きいものだと、作業時間が段違いに長くなるが、その割に結果は期待したほどではない。結局、作業時間と認識性能のバランスを取って、2番目のものを使うことにした。

その原稿をいま直しているのだが、理解に苦しむところがある。たとえば、コピー機の「ふくしゃき」を「噴射機」や「輻射機」と認識して、どうしても「複写機」としてくれなかった。前後の文章では、ゼロックス、リコー、キヤノンといった企業の名前が出ているにもかかわらず、「ふくしゃき」が分からないのだ。

その一方で、言い淀みや言い直しの部分が見事に削除されていたりする。これまで文字入力というと、そういう無意識的に発してしまう語句もご丁寧に文字化してくれて削除して回る手間があったが、もうそういう段階は終わったようだ。

MacとiOSの音声入力も、以前に比べて一段性能が上がっているように感じる。実際、でかい声で「えー」とか「あー」とか言っても、見事に無視してくれる。ほかにも、音声入力しながら画面を見ていると、いったんおかしな語句へ変換されても、さかのぼって再変換してくれることがある。また、読点を入力すると、その直前に自動入力されていた読点が自動的に削除されたりする。これはライブ変換の賜物だろう。だから、奇妙な日本語に変換されても気にせず、できれば目をつぶって、ひとまとまりのアイデアは一気に出し切ってしまうほうがよさそうだ。

アイデアをつらつらと書くときのフリーライティング(自由記述)が人気だが、よほど頭脳と指が直結している人でないかぎり、音声で入力したほうが圧倒的に入力しやすいだろう。しかも、いまどきの音声入力であれば、太宰がユダを自らに乗り移らせたほどには、意識を集中する必要もなさそうだ。なお、家族に気持ち悪がられるからキーボードのほうがいいというケースはありそうだが、それは今回の話とは関係がない。

口述の特徴は、区切りを意識しない、しにくいことかもしれない。『駈込み訴え』も段落はほとんどないし、後半にはまったくない。キーボードで入力していると、しかもかな漢字変換が必要な日本語を打っていると、どうしてもrerurnキーで区切りを入れたくなってくる。口述ならばそういう意識は薄くなってくるように思える。なお、口述でも区切りを入れたい場合のアイデアについては、Scrivenerでの利用を前提にS2ファンサイトで書いた。

→「Scrivener HowTo|音声入力と分割セパレータ

ともあれ、それでも、誤変換や誤認識がゼロになるわけではない。太宰であれば妻が気を利かせて最適な語句に変換してくれただろうが、そうでなければ自分でキーボードから修正してやる必要がある。

このときに覚えておきたいMacのキーボードショートカットは、再変換の「control+shift+Rキー」である。再変換したい範囲を選択してからこのショートカットを押すとひらがなまで戻し、候補や文節を修正できる状態になる。ただし、期待通りのひらがなへ戻らないこともある。その場合は、あらためてひらがなから入力する必要がある。

iOSの場合は、再変換したい単語を選択すると、別の候補が再度表示される。ただし、この方法では連続する複数の単語もまとめて修正できないなど、利用環境は限定されている。場合によっては打ち直したほうが早いかもしれない。

最後に一言余計なことを書くと、筆者は個人的には太宰があまり得意ではない。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)