音声認識AIの実用性

シンポジウムなどの内容を、最終的に決められたページ数内に文章で表現するためには、通常、以下の手順を踏みます。
①録画や録音などの音声ソースを用意する
②そのソースを元に文字を起こす
③全体を見渡し、取捨選択を施し、要約する
これらのうち、②の手順については、「テープ起こし技術者」などに外注することができます。ただし、この部分の作業は、ヒトが音声ソースを耳で聞き取り、理解した箇所を逐次ワープロソフトで入力し、それなりの時間をかけて文字データ化するのが現状ですので、多額の労務費(1文字=1円が相場?)が必要となります。

当方は、②の手順について、「音声認識アプリ」を活用しようと考えていました。「UDトーク」というスマホアプリがあり、これは、スマホに向かって喋ると、片っ端から文字に変換してくれるという、夢のようなアプリで、しかも無料です。今年の春頃に、山口明日香先生がデモしてくれたのを見て、「これは使える!」と大いに喜んだものです。ヒトが行っていた作業をキカイが替わってスマートに行う、これは今流行の「AI化」と呼べるのでしょうね。

さて、いざ、シンポジウムの当日に会場の客席中ほどに設置したビデオカメラでキレイに撮れた録画映像をPCで再生し、スピーカからの音声をスマホに聞かせてみると、これが全然マトモに変換されません!なんでや~!デモの時にはほぼマトモに変換したやないか~!期待外れとはこのことです。結局、自分で②の作業をやる羽目に陥ってしまい、大いに慌てました。そこで、映像を再生しながら、シンポジウムの各登壇者の喋っている言葉を文字に起こしていったのですが、もちろん、1回再生した程度ですべてを理解できるわけではないので、まずは流れや内容を掴むために、何度も(他事をしながら、とくにゲーム)再生しました。正味、合計2時間45分程度のボリュームです。通しで換算して5、6回聞いた後に、少しずつ部分的に再生し、真剣に聞き取りながら、その部分を文字に起こしていきました、そして、同時に要約を行っていったのでした。

さて、現状では、AIと呼ばれるモノを活用してのシンポジウムなどの文字起こしは実用にならないのでしょうか?少しネット検索してみると、現在は、UDトークに限らず、各種の音声認識アプリ(ソフト)が出回っています。そして、①の手順において、「発言者毎に高性能のマイクの前で、正しい文法を念頭に置きつつ、丁寧に滑舌よく喋る」、「聴衆を含めて、周囲は雑音を漏らさない」、「複数人の同時発言は控える」などの工夫を徹底すると、95%程度の精度で正しい文字に変換してくれるようです。

つまり、質のよい音声ソースであれば、②の手順でAIが使い物になる可能性が高まる、ということなのでしょう。しかし、そのような環境下では、登壇者も聴衆も、キカイさまに大いに気を遣い、堅苦しくならざるを得ず、自由闊達な意見交換などはできないでしょうね(ぜひ、その場面を想像してください)。ついでに、③の手順についても、「AI要約」などがすでに開発されています。ただ、②の手順で100語のうち5語程度の誤りを含んだものをそのまま要約しても、担当者はおちおち安心しておれず、さらに話し言葉はそのまま文章にはならないことも多く、結局、加筆修正のために自ら音声ソースを何度か聞くことにならざるを得ず、これではあまりスマートとは言えないのではないでしょうか。

当方は、このように現状を捉えたのですが、今後、音声認識AIのさらなる発展とともに、その時々までに到達した性能を活かして作業を最適化していくことはあり得ますね。テープ起こし技術者は「引き籠もり」に適した職業であるとも言え、この技能を磨いてみるのも、人生の選択肢を増やすことに有効かも。ただし、ヒトの話を正確に理解するスキルは必要ですし、大学としては引き籠もりを推奨できるはずもなく、技能だけを磨いていただきたいのですが...。(正岡 利朗)