競馬のデータ予想と情報収集【マイニングの意味なくすタイムラグとノイズ】
「競馬のデータ予想。正確に数字であることに疑いはない。情報収集する手段、方法、コツは様々。しかし、競馬のデータにマイニングの意味をなくすタイムラグとノイズは必ず生じてるとしたらどう考えるでしょう。
日頃頼りにしている競馬予想データにしても、有料無料、どんな集め方をして情報収集分析するにしても。データ分析にpythonを使うにしても。また、マイニング的なことをしない、自作でアナログに法則を見つけるとしても。
どれだけ競馬のデータを収集、集計して解析しても、分析や見方を考える上で変わらない大切なことは、タイムラグから生じるノイズを取り除かないと競馬のデータとして使い勝手が悪くなることです。データにある回収率や的中率にノイズが混じってるが基本という話。気をつけることとも言えます。
どんな方法や手段、サイトで手に入れた競馬情報も、スマホアプリもエクセルで整えてたとしてもです。競馬aiや人工知能のする機械学習の方向性おかしくするのも、タイムラグとノイズのせいでしょう」。
競馬予想AI「Mamba(まんば)」のツイート、ブログを読んで危惧した話
競馬予想AI人工知能「Mamba(まんば)」。回収率と的中率、馬券と感情
競馬のデータがあてにならない、意味がないと思われる要因はある
競馬のデータを収集して、集計して、解析することは安価にできます。
しかし、より使える状態にするのには手間がかかります。競馬のデータに意味を持たせるのにはデータそのものでは不十分になってるということです。期待値を見てもデータの期待値とデータ入力、分析を泥臭くした人の期待値は別物です。
その分析や作業を競馬予想と言っても悪くはないわけで……。
競馬情報を収集した手段や方法をよりよくするヒントとアイデアについて書きました。
競馬のデータがあてにならない、意味がないと思われる要因でもあるかと。
データは過去の結果を見ていて、収集習得されて抽出されているもの。データとデータの間はあまり見られていなく……。
競馬のデータ予想と情報収集。マイニングの意味なくすタイムラグとノイズ
競馬で回収率高く計算できるデータがあっても、馬券の成績がイマイチな理由
中央競馬(JRA)も、地方競馬にしてもデータ情報は、かなり揃っている現代競馬
なんとも、競馬のデータ予想をする上で不気味なタイトルの本を紹介します。
アンディ・ミリガン他『できない人ほど、データに頼る』(ダイヤモンド社)。
競馬予想している人からすると、ムッとする人がいるかもしれません。
競馬のケの字も出て来ない本ですが、関係のない話かというとそうでもない。競馬にはデータはつきものですから。条件別データ、出遅れ、前半3ハロン、ラップタイムなどなど。馬柱はデータの固まりに間違いない。
データのあるところ、分析や味方はあるもの。最終的に予想するわけで、競馬とは関係がある話です。
博才がない。上げる作戦。鍛えるコツは自分だけの確率の手数を増やせるか
競馬の一番人気複勝率、確率約65%飛ぶ35%。2番人気3番人気4番人気と割合変わるが…
競馬のデータを確認しやすい時代になった
競馬の予想において、数字で馬券を買えるか買えないか、これをパッと表してくれるデータはとてつもなくありがたいもの。このデータがないと予想できないよ、そんなデータは予想する人にあるでしょう。
オッズ、過去10年、騎手、クラス別、血統傾向、種牡馬傾向、レース結果、コース枠、東京、中山、京都に阪神データ、新馬戦に障害戦、ハンデ戦。
データというデータは大抵あります。
ハズレ馬券裁判の卍氏はこのデータ分析をうまくやって馬券で儲けました。
競馬ブックwebは予想必須。新聞の代用。値段料金まずまず。見方を模索する楽しみ
競馬のデータ予想しやすくなった
JRA中央競馬の売り上げも底を打って上昇ムード。地方競馬の売り上げはどんどん良くなっていってるのもうなづけます。
良くなっていった影響として、競馬予想のデータを見やすくなった(そういう競馬ソフトがたくさん出て来た)ことはあるでしょう。データ分析の見方やり方がしやすくなれば参加者も増えます。
参考になるデータは欲しいものです。赤ペンで線引いたり、枠でかこったり。
しかし、できない人ほどデータに頼ると言われるとドキッとします。ページめくるのがちょいとコワイヨ。
スクレイピング!(呪文じゃねぇーよ)。
競馬で借金。破産回避には掛け金を授業料に考え得意レース作ること
データに生じるタイムラグの話は競馬予想にも通ずる
「多くのチェアマンやCEOは、市場調査や損益計算書といったデータを頼りにしています。しかし、グリーンはデータが必要なことは理解しつつも、同時にそれだけでは足りないこともわかっています。データには必ずタイムラグが生じるので、実際に店舗を見て確認しないと不足している情報を見つけられないのです。経営がうまくいってる店とそうでない店の違いは、実際に自分の目で確かめない限りわかりません。グリーンは仕入れから店舗設計、マーチャンダイジングまで、すべてのプロセスに携わることでもよく知られています」。
(※ グリーンとは、フィリップ・グリーンのこと)
アンディ・ミリガン他『できない人ほど、データに頼る』(ダイヤモンド社)32-33p より
ありとあらゆるデータにおける、タイムラグ。生まれてしまう、時間差。時間のずれ。
それを精査するには実際に自分の目で確認する必要がある……。データの最前線、まさに積み重なっていこうとしている場所を見る。
競馬予想のデータはその点で取得は間接的に出来てる。
競馬のデータと大数の法則
『できない人ほど、データに頼る』を読んでて、以前、競馬のデータの回収率を保証するのに「大数の法則」を持ち込むのは正しいのか。という記事を書いたのを思い出したのです。
「コイン投げやポーカーに使う、コインやトランプには「体力」「気力」という概念はありません。物ですから、消耗という概念はありますが、トランプの体力の回復を待ってポーカーをなんて言いません。だから、短時間に回数をこなすことが可能です。
1日に何百、何千とゲームをカジノで行うことは言うまでもなく可能で、今この時間でも世界のどこかのカジノにてゲームは行われているでしょう。その上でのデータ集積もできる。コインやトランプの都合なんて考えなくていいのです。
ところが、競走馬はどうでしょうか。
一度、1600mなり2000mなり全力疾走した馬が3分後また走るということはありません。レース前に馬場に入って騎手を振り落とし、それなりの距離を走った馬は競走除外となることもしばしば。それは「体力」という概念があるからです。
レース前にたくさんの距離を走ってしまうと、公平な競走に支障を来すから、競走除外になるのです。言うまでもなく、データは取れません。
騎手も同様でしょう。体力を必要としています。数レースひっかかりっぱなしな馬に続けて騎乗したら腕の疲労度ははんぱないはずです。ズブイ馬を追いまくった場合も同様。
人間(賭けに参加する人・体力)×人間(騎手・体力)+馬(体力)……出走させるために関わる人たち
次のデータを蓄積するまでに「体力」を回復させる必要がある。データのひとひとつを蓄積するのにとにかく時間がかかる。
ゆえに、体力という概念がないものほど、薄いものほど大数の法則として精度が増すのではないだろうかというわけです(いろいろ調べれば面白い表が作れそうな話だな……)」。
競馬のデータは1件1件集めるのに時間がかかります。
1件と1件の間に「体力の回復」という時間差が生まれる形で集積されてゆきます。タイムラグが生じます。ノイズが生じます。
プール調教の時計を測ったら面白いんじゃ? 苦手な競走馬も競馬で違う?
サイコロやコイン、トランプと同じ形でデータ集積されない
サイコロやコイン、トランプと同じ形ではデータは集積されません。
ロト6やロト7、ミニロトにナンバーズ、ビンゴ5とは考え方が違います。競馬のデータをコイン投げやサイコロを振ることと同じような概念で収集していると考えていたらそれは大きな間違いです。
どうやっても、競馬のデータには体力という概念がある以上、無理です。コイン投げ同様の考えをしていたら、競走馬が壊れてしまいますし、騎手も疲弊します。競輪、競艇、ボートレース、toto、プロ野球のデータ予想も同様。
ゆえに、生き物×生き物な競馬のデータというのはタイムラグが生じる形でないとデータを集めることができないのです。どの競馬のデータにもノイズが混じってるということです。
その上で、回収率ありますよという切り口が提示され、数字が現れるというわけです。「いいですよ、わるいですよ、どうですか?」。
そこで恐いポイントは、何度も書いてるとおり、データ収集に時間差があることによって「ノイズがまじってる」ということ。
競馬の追い切り重視するならこのサイトが正確。タイム評価・調教
阿佐田哲也の名言。ギャンブルや博打に通用。「ばくちというものは……」
競馬データには確実にタイムラグがあって集計されてる前提でノイズを除去していく行為が、競馬予想である
いくら有益性があると提示されてても、実際に有益にしようとした場合ノイズと取り除く作業をする必要が出て来る。それが、競馬予想におけるデータです。
どれだけ競馬のデータを収集して、集計して、解析、分析して、見方を作り上げていたとしても、タイムラグによるノイズを取り去っていないデータを使い続けると天井(上限)は見えてしまう。回収率の上限は見えてしまってるというわけです。
馬券がより当たるようにはならない。利益が増して行かない。
ベタ買いで回収率が高かったとしても、ノイズを取り除くことができれば、もっと儲けが増すはず。
競馬予想 亀谷敬正×じゃい。血統の3割WIN5高目的中の2割。なんの数字?
馬券上手はデータのノイズを取り除く
別のいい方をすれば、ノイズの取り除き方がうまくなるかどうか。そういう人を馬券上手というのだろうと。外れ馬券裁判の卍氏が惜しいなぁと思うのは、ノイズをあまり取り除いてないデータを使ってたからじゃないかな……と推測するのです。
競馬のデータにあるノイズをうまいこと取り除いてる人たちは、回収率が微妙なデータでもよく見立てて、使える状態に持って行けるでしょう(複勝回収率が微妙でも、複勝率があるデータは特に)。
競馬予想というのは有益なデータからノイズを取り、使えるデータにする作業とも言えます。
データの中にどのようなノイズが混じっているのか、また、混じりやすいのか。
いやはや、試行錯誤という絶大な楽しみは続きます……。
以上、競馬のデータ予想と情報収集【マイニングの意味なくすタイムラグとノイズ】でした。
【競馬ネタ】おすすめ記事
競馬の穴馬とは。予想に馬券に見つけ方の法則。共通点激走パターンかきわけて
競馬の指数。中央地方の予想に作り方気になるも使ったことがない話
競馬の複勝とはオッズの見方を勝ってる人に近づける馬券-買い方-
競馬で100円が2000万円馬券に。当てた人すごい。最高額を余裕で更新
競馬の資金配分。破産確率について学ぶ。『馬券裁判/卍著』感想。
競馬の血統。予想に勉強。初心者がハマり母父データを研究してた話
小林弘明 競馬予想TV回収率3冠の話。動画の見方に狙い目あり
競馬予想 亀谷敬正×じゃい。血統の3割WIN5高目的中の2割。なんの数字?
競馬新馬戦。荒れるレースの見極め、条件コースを角居調教師の話から考察