WordNet

Screenshot of wordnet.princeton.edu

 
Screenshot of ja.wikipedia.org

 

wordnet ワードネットは、アメリカのプリンストン大学の認知科学研究所のジョージミラー教授らによって開設された、英語の同義語データベースです。1985年から開発が始められ、2012年時点で、このデータベースには17万5979個のsynset(同義語)に分類された20万7016個の単語が含まれています。ソフトウェアも含めて全て無料で提供され、機械翻訳など自然言語AI研究に役立てられています。

日本では、国立研究開発法人情報通信研究機構(NICT)が2009年から日本語版のwordnetを無償提供開始しています。これは57,238 概念 (synset数)、93,834単語の規模になっています。

※国立研究開発法人情報通信研究機構(NICT)、日本語wordnet
http://compling.hss.ntu.edu.sg/wnja/index.ja.html

国立研究開発法人情報通信研究機構(NICT)では、外国語と日本語訳のセット(機械翻訳のための教師データ)を2017年9月より「翻訳バンク」として収集公開しており、当面の目標として1億文の収集を目指しています。

Screenshot of h-bank.nict.go.jp

 

wordnet や 翻訳バンクの成果物として機械翻訳のスマホアプリ voicetra が公開されていますので試してみると良いでしょう。

Screenshot of voicetra.nict.go.jp