日本取引所グループ ファンダメンタルズ分析チャレンジに参加して
自分でシステムを作りテクニカル分析にのっとった売買ストラテジーにより運用益はプラスにはなっていますが、教科書に書いてあるような既存のテクニカル分析が教えてくれるサインはあまり有効的とは言えず(だましがあり、高値掴みになりやすく)、時に感覚で銘柄の売買をする場合もあることあり、傷口を広げてしまい1年以上銘柄を塩づけにしてしまったなどの失敗があります。銘柄売買ストラテジーを構築し根拠をもって、株の売買ができるというのが、トレード成績を上げる必須条件であると思っていたのですが、日本では米国に比べ個人がITやデータサイエンス系の知識を使いトレードをするということはあまり一般的ではないので、情報が少なく苦慮しておりました。
J-Quants の株式分析チュートリアルの出来が素晴らしかった。評価指標を選択した背景、累積調整係数による調整済み株価によるリークの可能性、詳しく知りたい人への参考文献などなど完成度が高い https://t.co/tTRbFs5gYj
— smly (@smly) January 31, 2021
3 コンペでやったこと
- 第1部 本決算発表後の、20営業日を経過した期間における、各銘柄株価の変化率上限、下限を予測する。
- 第2部 ある週の週初営業日に始値で購入、その週の週末営業日に売却するとした場合に高い利益を得るポートフォリオを組む。
第1部は、活動期間が1月下旬から3月下旬と2カ月ありました。1月下旬でしたが、モーニングサテライトで決算後の銘柄選別方法の特集がされていたので、そこで得た知識であったり、経験的に分かっていたことがあったのでそれらを実装してみようと思っておりました。しかしながら、実装するまでに主に下記の2点に苦労し思っていた以上に時間を消費してしまいました。
まず初めに環境構築から始めましたが、環境構築に予想外に時間を消費してしまいました。Versionなどを合わせないと、モデルの提出の段階でエラーがでるとのことでしたので、Docker環境を構築しましたがwindowsなので苦労しました。ただ、運営サイドの方、参加者のフォローがありclearできました。
次にモデルの提出ですが、サーバーに上げたあとにバッチ形式で実行されるためエラーが出力されてもよく分からず苦労しました。ただこちらも運営サイドの方、参加者のフォローをもらい、clearしました。
4 コンペに参加して学んだこと
第1部で学んだこと
- 日ごろの株価ボラティリティーは、決算発表後の株価の変動を説明する強い特徴量になる。普遍性がある。
- 日ごろの株価ボラティリティーが、高い銘柄ほど決算発表後の株価の変動が大きくなること
- 株価のような正規分布に従わないデータを扱う場合、使用する機械学習アルゴは決定木系がよい
- Testデータでの予測精度を向上されるには、特徴量の選択追加が効果大。決定木系のアルゴリズム(例LGB)の選択により多少予測精度は向上できる。
- 決定木系の特徴量寄与解析につかうSHAP分析
第2部で学んだこと
第6章の内容を簡単に要約すると
チュートリアルを実行してみましたが、自身の環境では再現性がなく出力される結果のばらつきが大きかったです。下記が6章で記載されたコードを200回実施し、2020年後半の週のfeaturesとweekly_fwd_returnsのspearman相関係数のヒストグラムを記載したですが、ベストのときは、0.6以上となりますがワーストのときは-0.4以下となります。ただし、200回の試行の平均をとったところ、spearman相関係数平均が0.07となっており正規分布の形が正数側に寄っているので、本チュートリアルの第6章で紹介された手法は、有意なアルファを見つける手法として有効であると思われます。
5 今後チャレンジしたいこと
(1) 保有銘柄ごとに株価データのボラティリティーの計算し、決算をまたいでホールドすることのリスク見積を行うシステムを作る。
(2) すでに学習させたモデルに現在週の日経新聞ヘッドラインを読み込ませ、次週のTOPICSが上昇するか、下降するか予測する。
6 コンペに参加しての感想
- We will deliver articles that match you
By following users and tags, you can catch up information on technical fields that you are interested in as a whole
【SIGNATE】JPX ファンダメンタルズ分析チャレンジ
学習記録
データについて
- stock_list:各銘柄の情報が記録されたデータ
- stock_price:各銘柄の株価情報(始値・高値・安値・終値等)が記録されたデータ
- stock_fin:各銘柄のファンダメンタル情報(決算数値データや配当データ等)が記録されたデータ
- stock_labels:本コンペティションで学習に用いるラベル(目的変数)が記録されたデータ
stock_list
- 2020年12月末日時点で、東京証券取引所に上場していること
- 普通株式であること(種類株ではないこと) ファンダメンタルズ分析の特徴
- ETF、ETN、REIT、優先出資証券、インフラファンド、外国株のいずれにも該当しないこと
- 2020年12月末日時点で、上場後2年を経過していること
また、stock_listには2020年12月30日時点の発行済み株式数の情報があります。発行済み株式数を用いて過去の株価から各時点の時価総額を算出することは リークとなるので注意 が必要です。時価総額を利用したい場合は各時点の発行済み株式数が必要ですが、今回のコンペのデータには含まれていなかったので、利用することはできませんでした。
stock_price
stock_fin
stock_label
ファンダメンタルズ分析の特徴
- 最高値・最安値を予測するモデル
- 中間値・幅(最高値ー最安値)を予測し、それらを用いて最高値・最安値を算出するモデル
- 1と2を合わせたモデル(アンサンブル・ブレンド):予測値の平均をとる
特徴量(説明変数)の生成
- 移動平均乖離率(5日、25日、75日)ファンダメンタルズ分析の特徴
- ヒストリカルボラティリティ(5日、25日、75日)
- 過去n日間の最高値(最安値)に対する終値・高値(安値)との乖離率(ファンダメンタルズ分析の特徴 n=5, 10, 20)
- キリ番との乖離率
- RSI
- 売上高営業利益率, 売上高経常利益率, 売上高当期純利益率
- 前期比(成長率)
- 来期予想成長率
- 自己資本比率
- ROE(当期純利益÷自己資本)
- ROA
- キャッシュフローの正負
- 配当利回り
説明変数間の分析
説明変数と目的変数の分析
- HVは最高値・最安値に関するラベルデータに対して相関が見られる。各変化率の差分に関しては、かなり相関がある。
- 移動平均乖離率(MADR)は期間が短いほうがラベルとの相関が高い
- 過去n日間の最高値との乖離(MXDR)と最高値や差分のラベル(n=5, 10, 20)との間に負の負の相関がある(-0.2程度)。最安値との乖離率(MNDR)は、逆方向に同様のことがいえる。
- ファンダメンタル指標はテクニカル指標に比べ全体的に相関関係が低い。
キャッシュフローや配当利回りは相関が高い。 - 期間の異なるラベルデータ同士はかなり相関がある。
- 株価に対する1日当たりの値幅
- (高値-安値) / 終値の20日間移動平均
- 各HVの20日間移動平均
- 出来高
- ボラティリティの平均(MA20_HV)も相関がある
- 値幅(高値ー安値)は相関がある
- セクター情報も相関がみられる
- 決算種別も相関がみられる
モデル構築
- 訓練期間 :2016-01-01 – 2017-11-30
- 評価期間 :2018-01-01 – 2018-12-01
- テスト期間:2019-01-01 – 2020-12-31
機械学習モデルの選定
- 線形回帰
- リッジ回帰
- 決定木
- バギング
- アダブースト
- ランダムフォレスト
- 勾配ブースト
- LightGBM
- ニューラルネットワーク(隠れ層:128×3)
ここまでの結果を踏まえ、今回は ランダムフォレストと勾配ブースティングの二刀流 でコンペに参加することにしてみます。
提出モデルの構築
説明変数の重要度
- 値幅に関する特徴量(H-L_C)がかなり重要であることがわかる
- 出来高(EndOfDayQuote Volume)も重要である
- カテゴリ変数はあまり意味がない
- ボラティリティの重要度がかなり高い
- キリ番(RNDR)が意外と効いている
- 配当利回りも意外と重要
- 来期予測系もかなり効いている
モデルのブレンド(アンサンブル)
- Brend_Center: RFとGBの各中間値ベースモデルのブレンド
- Brend_GBRF: RFとGBの標準モデルのブレンド
- Brend_GB_Center: GBの標準モデルと中間値ベースモデルのブレンド
- Brend_RF_Center: GBの標準モデルと中間値ベースモデルのブレンド
- GB_base_Center: GBの中間値ベースモデル
- RF_base_Center: RFの中間値ベースモデル
- Brend_ALL: RFとGBのそれぞれの標準モデルと中間値ベースモデルの計4モデルのブレンド
上記のモデルを提出してみた結果、最終評価は”1.4038523”で現時点で211人中95位という悲しい結果でした。上位に表示される人のうち何名かは2020年のデータを用いたモデル(未来情報をリークしたモデル)を投稿している人と考えると多少順位は上がるかもしれませんが、今回のモデルでは上位は狙えないだろうなと思っております。学習期間をぎりぎりまで伸ばした(ファンダメンタルズ分析の特徴 学習データを増やした)モデルではリーダーボードのスコアが若干改善されたものの提出期限に間に合いませんでした(笑)
思いもかけない知識との出会いが、視野を広げる
最強の記者集団
独自データ保有
もっとも長い歴史
通常価格36,500円が、
1冊あたり730円→560円。年間8,500円もお得!
他にも、多様なプランをご用意しています
ここが違う!週刊東洋経済
60日間 徹底取材による練られた記事
3800社 上場企業の情報が手元に
120年以上 日本で最も古い週刊誌
定期購読だけの特典
バックナンバー読み放題
申し込み前の過去記事にも遡って検索できるデジタルサービスが使い放題。なんとその数、1000冊以上。
比較して読み比べれば業界の流れを俯瞰できます。
バックナンバー読み放題
申し込み前の過去記事にも遡って検索できるデジタルサービスが使い放題。なんとその数、1000冊以上。比較して読み比べれば業界の流れを俯瞰できます。
デジタル版が無料で読める
デジタル版無料は週刊東洋経済だけ
毎週雑誌が届くほか「週刊東洋経済プラス」が無料で読めます。
雑誌発売日前に読める
特別セミナーに無料ご招待
有料セミナーに特別ご招待いたします。各界の専門家や東洋経済記者が、『週刊東洋経済』で取りあげたテーマをより深掘りしてお話しいたします。
<ご好評いただいた過去のセミナー>
世界最高齢アプリ開発者 若宮正子さんと考える、これからの生き方・働き方(オンライン開催)/ビジネスに生かす!「本物の価値を伝える」最強の話術/ビジネスパーソン向け「はじめてのプログラミング体験」/再開発バトル~「まちづくり」の光と影~
第3回:ファンダメンタルズ分析の基礎「定量分析」を効率よく行う方法
Expert Column
第8回「超富裕層のための22年の見通し 15業種」
Expert Column
1Q決算の着目点と戦い方
Expert Column
保有資産三億円のポートフォリオ戦略
Expert Column
シリーズ「10億円の不動産資産をつくるための成功法則」第5回「金利上昇の可能性と…
最近の投稿
Expert Column
第13回 超富裕層のための「円安対策」
IFA Walker
内田まさみのマーケットコラム 第2回「金融相場と業績相場の次に来る相場に警戒せよ…
- 内田まさみ
- 2022年5月30日
- IFA Walker
IFA Walker
気になるIFAの運用ポートフォリオ
Expert Column
第12回 超富裕層のための「地政学」―連続、経常赤字から見る危機
IFA Walker
内田まさみのマーケットコラム 第1回「日本のグロース株投資は復活するのか?」
- 内田まさみ
- 2022年5月23日
- IFA Walker
IFA Walker
コメント