kaggle

Screenshot of www.kaggle.com

https://en.wikipedia.org/wiki/Kaggle

kaggle はgoogle傘下でAIプログラムのコンテストを提供するコミュニティサイトです。AI機械学習により解決できそうな課題を持つ企業と、データサイエンティストやAIエンジニアの橋渡しをしているサイトです。用意された機械学習環境のプログラミング言語はPythonとR言語が使えます。

コンテスト主催者は、AI機械学習処理の対象となるデータセットと課題説明を提示します。企業などの主催者は100万円以上、時には1億円もの賞金を提示することがあります。無償テーマでCVPR学会発表の権利を競う場合もあります。

例えば病変したリンゴの葉っぱの写真を数千枚と、リンゴの病気の種類を正しく分類するという課題が出題されたりします。あるいは病院グループが、数千枚のCTスキャン画像とガン細胞の検出と進行度(ステージ)を正しく分類するという課題を提出したりします。

kaggleはデータサイエンティストやAIエンジニアの登竜門と言われます。勉強や研究の材料となる様々なデータが多数公開されているのですから、彼らにとっての「遊び場 Playground 」みたいなところとも言えます。Notebookという開発環境が提供され、優秀なエンジニアの公開コードを読むこともできるので勉強にもなります。

kaggleではオンラインで勉強もできるしお金を稼ぐこともできるのです。kaggleには入学試験も資格試験もありませんし、入社面接や雇用契約も、通勤通学電車もありません。AIエンジニアという限定分野に限って言えば、大学や資格や会社という枠組みは撤廃されつつあるのです。オンラインですので国境もありません。「そんな面倒なことはしていられない、オンラインで今すぐやろうぜ!」ということなのです。googleのドレスコード”wear something”と同じフィロソフィーです。もちろん、だからといって勉強しなくて良いというわけではありません。公用語である英語と、大学前期課程の線形代数や、プログラミングの基礎は必修となっています。

今までに施行された1億円以上のコンテストの課題をいくつかリストアップします。

・米国運輸保安局(TSA)が、空港のゲートで撮影された多数のミリ波スキャン画像を提示し、空港の安全性と快適性を高度に両立する機械学習モデルを募集した。(賞金150万ドル)

・不動産仲介業者ZillowのZestimate住宅価格見積もりの精度を上げるために、多数の不動産取引データを読み込んで新しい見積り価格算出モデルを作成する。(賞金120万ドル)

・国立がん研究所が数千の高解像度肺スキャンのデータセットを提供し、参加者は肺画像にガンがあるかどうかを正確に画像診断するアルゴリズムを開発する。(賞金100万ドル)

・Amazon、Facebook、Microsoftなどがディープフェイクの合成動画を提供し、この合成偽物動画を検出するアルゴリズムの性能を競います。(賞金100万ドル)

どのようなプログラムが提出されて、どのような性能で、誰が優勝したのか、もちろんすべて理解できたほうが良いに決まっていますが、Pythonプログラミングができなくても気にすることはありません。AIの最先端の雰囲気を感じるだけでよいと思います。最先端のAIエンジニアたちはどういうことを競っているのか、それを知るだけでよいでしょう。

コンテストの締め切りが過ぎるとただちに各アルゴリズムの採点が行われ受賞者が決定されます。コンテストの主催者は、受賞したプログラムを使用するための、世界中における永久的な取消不能でロイヤルティフリーのライセンス供与を受けるのと引き換えに賞金を支払います。このライセンスは原則として非独占的利用権です。

※参考記事

ILSVRCが終了している件

Kaggleで勝つデータ分析の技術

PythonではじめるKaggleスタートブック

データサイエンスの森 Kaggleの歩き方

石井大輔、機械学習エンジニアになりたい人のための本

コメントする

メールアドレスが公開されることはありません。