三菱電機株式会社は、2019年2月13日、AI技術「Maisart®(マイサート)」を用いて、世界で初めて不特定多数のユーザーが何語を話すか分からない状況でも高精度な音声認識を実現する「シームレス音声認識技術」を開発したと発表しました。多言語の音声認識を1つのシステムで構築することで、事前の言語設定なしに、5言語で90%以上、10言語でも80%以上の高い音声認識率を達成したということです。今後は、自動車内の会話や、施設案内などのさまざまな状況において、話す言語を意識することなく自由に話せる利便性の高い音声インターフェースの実現を目指して、さらに開発が進められるとのこと。複数言語の自動判別ができる時代なんですね。
「AIの画像認識率が既に人類を超えてる件」の記事でも御紹介致しましたが、ディープラーニング技術の改良により、AI画像認識の能力は既に人類を凌駕しているのですが、「画像」も「音声」も、様々な周波数の波形が合成されたスペクトラムデータであることに違いは無いですから、ニューラルネットに読み込ませれば同じように深層学習することが出来て、人類の認識率を超えることが可能になるわけです。
更に、ディープラーニングの改良と、コンピューター処理能力の向上により、文章の理解=読解力の観点でも、人類の認識率を超えてくる可能性が指摘されています。そうなりますと、「人類よりも、普通に話して受け答えがちゃんとしているAI」というものが実現可能となってきます。現時点で、計算速度と記憶容量の観点では、コンピューターは人類を軽く追い越していますから、そこに読解力の向上まで加わりますと、これはもう、ほとんどの普通の仕事はコンピューターにより置き換え可能となってくることになります。AIロボットを連れてきて、普通に仕事の指示を与えれば、人間よりも円滑に仕事をこなしてくれると言うわけです。
画像と音声認識の精度が高まると言うことは、逆に、画像生成と音声合成の精度も高まることを意味します。例えば電話で話している場合、相手が人間なのかAIなのか、判別ができない(チューリングテスト、中国語の部屋)という時代がやってくるわけです。なんかSFみたいな話ですが、もう目前に迫ってきています。