特徴量エンジニアリング

Screenshot of www.ohmsha.co.jp

事例で学ぶ特徴量エンジニアリング(アマゾン)

さあ、AI革命に立ち向かうために、誰も彼も、あなたも私も、みんなで特徴量エンジニアリングを学びましょう!

AI技術の中核はニューラルネットワーク(学習モデルの形成)ですが、実際に利用する場合は、データの「下ごしらえ」が極めて大事になってきます。料理するときにジャガイモの皮をむいたり、タケノコのあく抜きしたりするのと同じです。データをそのまま流しただけでは学習できないのです。事前にデータを「整形」して、コンピューターが学習しやすいように準備する必要があるのです。データに含まれる特徴量を抽出して、学習用データに造り変えるのです。その作業が特徴量エンジニアリングです。

今は「ノーコードプログラミング」も流行していますし、「ノーコードAIツール」、データを用意するだけの「自動学習AI」なども流行し始めています。利用者にはプログラミングの知識は不要になりつつあります。データをぶち込むだけで学習ができる時代です。しかし、AIの仕組みとか、特徴量エンジニアリングについては、知識があった方が良いでしょう。勿論、特徴抽出についても自動化しようとされているわけですが、利用する人が、データの性質を理解してデータを入力した方が効率よく学習できるのです。極端に言えば、特徴量エンジニアリングさえ分かっていれば、エクセルだけでも機械学習は出来てしまうのです。

オライリーの最新刊「事例で学ぶ特徴量エンジニアリング」はそういうわけで興味深く読みましたが、中でも、第7章の時系列分析、みんなが大好きな株価データ学習の項目で参考になったものがありましたので、ご紹介したいと思います。

日付時刻特徴量

これは、日付とか曜日とか、休前日かどうか、などの情報や、時刻、午前中の寄り付きか、午後の引け際か、などの情報を特徴量として抽出するものです。月曜日は騰がりやすいのか、下がりやすいのか、もしも機械学習で判明したら投資に使えますよね。過去の通例に従って投資する方法を、「アノマリー投資」と言いますが、AIによって新しいアノマリーが発見されるかもしれないのです。良く言われるのは、「セルインメイ(5月に売れ)」とか、「カムバックインセプテンバー(9月には市場に戻って投資せよ)」とか、「クリスマスラリー(年末に向かって騰がるよ)」というアノマリーですね。

ラグ特徴量

過去の特徴量(t-1,t-2など)を使う特徴量のことをラグ特徴量と言います。タイムラグの特徴量ということですね。過去のデータと現在のデータを引き算すれば、それは事実上の微分係数ということになり、いわば「微分特徴量」と言ってさしつかえないことになります。数値微分の特徴量ですね。微分特徴量には、1階微分と2階微分、それに、3階、4階、n階微分の特徴量も観念することができます。しかしまあ、現実的なのは2階微分までじゃあないでしょうか。変曲点を感知する特徴量ですね。日本語で言えば、「これから増えるのか、減るのか」、「増える量が、増えるのか、減るのか」という感じですね。増える量が増えている、つまり2階微分がプラスなら、超強気で買い注文でも良いかも知れません。

ローリング特徴量

これは一定期間の過去にさかのぼるデータの塊から統計量を算出して特徴量とするものです。例えば過去1週間のデータを合算すれば、それは移動平均を特徴量として抽出していることになります。それはまあ、積分特徴量ということですね。移動平均の他、中央値や標準偏差を用いる場合もあるようです。株価の他に出来高も使えば、ボラティリティ(変動度合い)を検知することもできそうです。ボラティリティが高い時は、上昇でも下降でも、当面一方向に動きやすい特性がありますね。この特徴量は、過去の一定期間のデータを使いますが、それ以上も昔のデータはどんどん捨てていきます。どんどん忘却していく特徴量といいことになります。

エクスパンディング特徴量

これは過去の一定期間の統計値を用いるという意味では、ローリング特徴量と同じですが、一定期間の開始時期を固定している特徴量です。そのため時間枠がどんどん拡大=エクスパンディングしていきます。ローリング特徴量の「忘却」という特性を回避しています。例えば、2000年1月1日比の株価を常に計算したりするものです。長期的なトレンドを見つけるのに適した特徴量ということになります。出来高や終値の、絶対基準を知ることができるかも知れません。

ドメイン固有特徴量

投資対象物の特性に着目した特徴量のことをドメイン固有特徴量と言います。上記書籍では、前日終値からの変化率を用いる「日足価格特徴量」や、長期と短期の移動平均差である「MACD特徴量」や、TwitterなどのSNSデータ量を用いる特徴量が紹介されていました。

特徴量選択、特徴量抽出

上記のような個々の特徴量のうち、株価予測に有用な特徴量を選び出したり、破棄したり、取捨選択する作業を特徴量選択と言い、複数の特徴量を混ぜ合わせて多項式として作り変えます。その時の混ぜ具合、多項式の係数も自動的に計算してくれるプログラム(scikit-learn の PolynomialFeatures)があります。


投稿日

カテゴリー:

投稿者:

タグ:

コメント

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です