AIの音声認識率も既に人類を超えてる件

Google’s speech recognition technology now has a 4.9% word error rate

2017/5/17の開発者会議でグーグルCEOのSundar Pichaiは、同社の音声認識技術(automatic speech recognition=ASR)が4.9%の単語誤り率(word error rate=WER)を達成したと発表しました。

https://blogs.technet.microsoft.com/jpai/2017/08/24/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/

マイクロソフトは、2017/8/20に、同社研究チームが開発した音声認識システムによる 5.1%の誤認識率が達成されたことを発表しました。

両社とも、2017年には5%程度という人類のエラー率に肩を並べ、凌駕する領域に達したことになります。

画像認識も2015年頃に人類の認識率をAIが凌駕したと言われています。画像データも音声データも、ディープラーニングニューラルネットワークにとっては同じものです。データ量が多少違いますが、やることは同じなのです。特徴を抽出して、分類することを繰り返すだけです。人間みたいに難聴になったり、空腹で集中力が低下したり、眠くなったりせず、ひたすら5%のエラー率で音声認識をしつづけることができます。

画像認識、音声認識と人類を超えましたので、次は「意味認識」です。これは「機械翻訳」の出来具合を見れば認識率が毎年上がっていることが分かります。もう「そこらへんの中高生程度」の受け答えなら、マイクとカメラを搭載したAIコンピューターに代行させることができる時代が目前まで来ているのです。これはシンギュラリティが来るか来ないかの問題ではありません。それはシンギュラリティの手前の「必ず実現されるレベル」の話なのです。

※参考書籍(東ロボくんがMARCH合格レベルを既に達成)

 新井紀子、AIvs教科書が読めない子どもたち

※参考記事

ニューラルネットワーク、ディープラーニング

AIの画像認識率が既に人類を超えてる件

コメントする

メールアドレスが公開されることはありません。