グーグル子会社の人工知能開発会社deepmind社は、2次元画像から3次元構造を認識するディープラーニング技術GQNを開発しています。Generative Query Network は、3次元構造を生成 generate できるニューラルネットという意味です。
視覚データを解釈して抽象化された対象物と認識することは、知的行動のための前提要件となります。ニューラルネットワークによる機械学習により、この課題に対するAI技術は大きく進歩してきましたが、従来の画像認識エンジンでは、画像に写っていない、画像の裏側に何が存在しているのかは、認識することができませんでした。画像に写っていないものを認識することはできませんので、これは当たり前のことでもあります。しかし人間は、目の前に見える物の裏側に何があるか、想像して予測して行動することができます。
GQNでは、2次元画像のみから、撮影された画像の裏側の3次元構造を予測・推測することが試行されています。人間の助けや、事前の地図情報などの知識無しで、自律的に周囲の3次元構造を学習する機械の誕生への道が切り開かれようとしているのです。自動運転車にこの技術が搭載された場合、事前にストアされた地図データと、現実に撮影されたデータを融合し、人間よりも遙かに安全な運転動作が可能になると考えられます。
これは、World Models の技術と同じように、コンピューターの画像認識技術が2次元から3次元へ、新たなステップに進んでいることを示唆する技術動向になります。