python学習しながら株価予測AI作ってみる第4回 AI実装方法を考える

筆者について

python初心者(使ったことはある)、AIは知識0、どちらも勉強してみたい
あわよくば儲けたい(これが勉強のモチベにもなる気がする)
普段はS&P500やオルカンに長期投資しているが、短期的な儲けにも少額で挑戦してみたい

このブログは試行錯誤しながら勉強する過程を残していきます。
最短で最強のAIを作る方法ではないのでご了承ください！

前回までのあらすじ

第1回：おおまかな投資方針と、AIの構築指針を決定
 第2回：AI構築環境の選定、Google Colabの登録
 第3回：Google Colab使ってみる

AI実装方法を考える

今回からいよいよAIの実装に入っていきます！
とはいえAIといってもいろんな種類があるので、ChatGPTに株価予測AIの実装を想定して色々教えてもった。

前提として、今回実装する株価予測AIの概要は下記。(詳細は以前のブログ参照)

日本個別株を対象とする
1日後-1か月後までの株価を予測する
テクニカル指標、ファンダメンタル、TOPIXなどの指数、直近のニュースなどを読み込ませる

AI分析手法、実装難易度、予測精度

下記が分析手法ごとの実装難易度、予測精度をChatGPTが教えてくれたもの。当然だが、あくまでChatGPTが考える一般論であることに注意。

分析手法一覧

分析手法	実装難易度	予測精度
教師なし学習	★★☆☆☆	★★☆☆☆
教師あり学習	★★★☆☆	★★★☆☆
ChatGPT	★★★★☆	★★★☆☆
時系列解析	★★★★☆	★★★★☆
強化学習	★★★★★	★★★☆☆

分析手法の選定

上記から実装難易度が低く予測精度が高いものを選定し、早く手を動かして実装してみる。
実装難易度がと予測精度が比例しているので上記だけで1つに絞るのが難しいが、
まずは“教師あり学習”をまず実装してみることにした！

はじめてAIを作成することので難易度が高すぎないもの、ある程度の予測精度がないとモチベが下がってしまうのでそれなりの予測精度があるものを選定。

教師あり学習について

ChatGPTによると下記。

教師あり学習(Supervised Learning)は、機械学習の1つの手法で、ラベル付きデータを用いて訓練します。ラベル付きデータとは、各入力データに対応する正解(ラベル)が含まれているデータセットのこと。モデルはこのデータセットを学習することで、入力と出力の関係を把握し、未知のデータに対しても正しい出力を予測できるようになります。

つまり、今回の株価予測AIで言えば、

過去の株価データやほかの情報を渡す
どの指標がどの程度株価に影響していたのかを分析する
その分析結果をもとに未来の株価を予測する

という感じ。

AI実装の流れ

AI実装の流れもChatGPTに考えてもらった。下記でやってみる。

データ収集
- 過去の株価データを収集
- その他インプットデータを収集(ファンダメンタル、ニュース、市場平均など)
データの前処理
- データをクリーニングし、欠損値や異常値を処理
- 日付データなどを適切なフォーマットに変換し、必要な特徴量を抽出
特徴量エンジニアリング
- 株価からテクニカル指標を計算
- 他インプットデータを統合(ニュースは感情分析した結果を統合)
データの分割
- データを訓練データとテストデータに分割(通常8割訓練データ、2割テストデータ)
モデルの訓練
- 選定したモデルを使って訓練データを学習させる
モデルの評価
- テストデータを使ってモデルを評価
(評価が良かったら)株価予測の実行、売買開始

まとめ

今回はpython学習しながら株価予測AI作ってみる第4回として、
AI分析手法の選定、実装の流れを決めました！

次回から実装の流れに沿ってpython実装していきます！