カテゴリー
用語集

SQuAD

Screenshot of rajpurkar.github.io

SQuADは、Stanford Question Answering Datasetの略で、スタンフォード大学による、wikipedia 記事に対してクラウドワーカー(ネット経由の協力者)が作成した質問と回答の組み合わせデータベースです。記事を読んで回答を読み取ることが出来る場合もありますし、記事の中に回答が含まれていない質問もあります。自然言語を読み込んで理解し、国語の問題のように質問に回答するという課題です。質問と回答がペアになっているデータを学習させるので、教師あり学習とよばれる機械学習です。

英語でsquadは分隊とか、団とか、チームなどの意味ですから、自然言語を機械学習させるチームという感じの意味でしょうか。一緒に自然言語を克服しようぜ!と呼びかけているようです。

SQuAD2.0はSQuAD1.1に含まれる10万個の質問の他に、5万個以上の回答不能な質問が含まれています。SQuAD2.0の課題にうまく対処するには、自然言語処理システムは可能な限り質問に答えるだけでなく、段落内に回答が含まれているかどうかを適切に判断し、時には回答を棄権することも必要です。

例えば、歌手ビヨンセの項目を読んで次のような質問に回答する課題です。

Screenshot of en.wikipedia.org

When did Beyonce start becoming popular? → in the late 1990s

What areas did Beyonce compete in when she was growing up? → singing and dancing

When did Beyonce leave Destiny’s Child and become a solo singer? → 2003

In what city and state did Beyonce grow up? → Houston, Texas

In which decade did Beyonce become famous? → late 1990s

In what R&B group was she the lead singer? → Destiny’s Child

What album made her a worldwide known artist? → Dangerously in Love

Who managed the Destiny’s Child group? →Mathew Knowles

What role did Beyonce have in Destiny’s Child? → lead singer

When did Beyonce release Dangerously in Love? → 2003

How many Grammy awards did Beyonce win for her first solo album? → five

この回答が完全に一致する割合を、exact match EM率と言います。平均的な部分一致の割合をF1率と言います。EMが正解で、F1が部分点(ほぼ正解)という感じです。

このSQuADのページには、認識率のランキングが掲載されているのですが、驚くべき事に既に人間の認識率を超えている自然言語エンジンも出現しています。

SQuAD2.0 人間の正答率EM=86.831%

1位、ALBERT (ensemble model)
Google Research & TTIC 2019/9/18=89.731%

2位、XLNet + DAAF + Verifier (ensemble)
PINGAN Omni-Sinitic 2019/7/22=88.592%

3位、UPM (ensemble)
Anonymous 2019/7/26=88.231%

wikipedia読解という限定的な課題ですが、SQuAD1.1で人間の認識率を超えたのは、人間の正答率82.304%に対し、2018年1月5日のSLQA+ (ensemble)Alibaba iDST NLPの正答率82.440%となります。この2018年1月5日は、限定された課題ですが、自然言語処理でAIが人類を越えた日と言えるでしょう。

シンギュラリティ年表

2012年は奇跡の年です。ディープラーニングニューラルネットワークによる画像認識エンジンが画像認識コンテストで初優勝した年であり、キャットペーパー論文が発表され、同時に遺伝子編集のクリスパーキャス9酵素が論文発表され、ビットコイン財団が設立された年です。シンギュラリティ革命の萌芽が全て出現し、もの凄い勢いで拡大し始めた年なのです。
シンギュラリティ年号起こった出来事
シンギュラリティ元年(2012年)DNNが画像認識コンテスト優勝。グーグルのキャットペーパー論文発表(教師無し学習だけでコンピューターが猫を認識できた)。音声認識ソフトgoogle now公開(apple siri は2011年公開)。クリスパーキャス9酵素の論文発表。ブロックチェーンを運営するビットコイン財団設立。
シンギュラリティ2年(2013年)カナダバンクーバーのWavesコーヒーショップに世界初のビットコインATMであるRobocoinマシンが稼働開始。NASA,Google,USRA(米国大学宇宙研究協会)が共同で、Quantum Computing AI Lab(量子コンピューターAI研究所)を設立。
シンギュラリティ3年(2014年)ケビン・エスベルトの遺伝子ドライブ論文発表。クリスパーキャス9を使って、クリスパーキャス9の遺伝子を組み込むことにより、種全体の遺伝子を操作できることが判明した。amazonがスマートスピーカーECHOを発売。
シンギュラリティ4年(2015年)DNNディープニューラルネットを用いた画像認識エンジンが人類のエラー率を下回った。中国で、ヒト生殖細胞の遺伝子編集実験。Google brain が ディープラーニング機械学習ライブラリTensorFlow のソースコードを無料公開。国連総会でSDGs採択。
シンギュラリティ5年(2016年)クレイグベンターの研究グループが、53万塩基対の人工細胞DNA合成に成功し、JCVI-syn3.0 ミニマルセル(最小細胞)と名付けられた。人工生命体(原核細胞)の誕生である。スイス連邦工科大学のソーラープレーンが世界一周飛行に成功。太陽光エネルギー時代の幕開け。DNNディープニューラルネットを用いたalphagoが世界戦で優勝経験のある韓国のトップ棋士イセドル9段に4勝1敗と勝ち越した。IBMが量子コンピューターのクラウドサービス IBM Quantum Experience を公開。
シンギュラリティ6年(2017年)DNNディープニューラルネットを用いた音声認識エンジンが人類のエラー率を下回った。機械学習を用いた囲碁AIソフトalphagoが囲碁チャンピオン中国の柯潔9段に3連勝し、将棋AIソフトponanzaが将棋名人に勝利した。Alibaba子会社Alipayが顔認証決済サービスを開始。
シンギュラリティ7年(2018年)DNNディープニューラルネットを用いた自然言語認識エンジンがwikipedia読解問題で人類の正答率を超えた。LIDARレーザースキャナを搭載した世界初の市販車アウディA8発売。遺伝子編集によりHIV感染しにくくなった赤ちゃんが中国で誕生。米国アリゾナ州フェニックスでwaymoの自動運転タクシー商用運転開始(運転手なし自動運転レベル4)。
シンギュラリティ8年(2019年)グーグルが量子超越性(量子コンピューターが特定課題においてシリコンなどの半導体による古典コンピューターの性能を超えていること)を実証。ビットコインで支払うことができるVISAデビットカードcoinbase cardサービス開始。
シンギュラリティ9年(2020年)ロチェスター大学の研究グループは15℃で超電導状態を示す炭素質水素化硫黄化合物を発見し、常温超電導の扉を開いた。

 

コメントを残す

メールアドレスが公開されることはありません。