Google’s speech recognition technology now has a 4.9% word error rate
2017/5/17の開発者会議でグーグルCEOのSundar Pichaiは、同社の音声認識技術(automatic speech recognition=ASR)が4.9%の単語誤り率(word error rate=WER)を達成したと発表しました。
マイクロソフトは、2017/8/20に、同社研究チームが開発した音声認識システムによる 5.1%の誤認識率が達成されたことを発表しました。
両社とも、2017年には5%程度という人類のエラー率に肩を並べ、凌駕する領域に達したことになります。
画像認識も2015年頃に人類の認識率をAIが凌駕したと言われています。画像データも音声データも、ディープラーニングニューラルネットワークにとっては同じものです。データ量が多少違いますが、やることは同じなのです。特徴を抽出して、分類することを繰り返すだけです。人間みたいに難聴になったり、空腹で集中力が低下したり、眠くなったりせず、ひたすら5%のエラー率で音声認識をしつづけることができます。
画像認識、音声認識と人類を超えましたので、次は「意味認識」です。これは「機械翻訳」の出来具合を見れば認識率が毎年上がっていることが分かります。もう「そこらへんの中高生程度」の受け答えなら、マイクとカメラを搭載したAIコンピューターに代行させることができる時代が目前まで来ているのです。これはシンギュラリティが来るか来ないかの問題ではありません。それはシンギュラリティの手前の「必ず実現されるレベル」の話なのです。
※参考書籍(東ロボくんがMARCH合格レベルを既に達成)
※参考記事
ニューラルネットワーク、ディープラーニング
AIの画像認識率が既に人類を超えてる件
コメントを残す