俺が機械学習で導き出したここ10年で一番ハイレベルな条件戦 [無断転載禁止]©2ch.net
■ このスレッドは過去ログ倉庫に格納されています
2009年西宮S(ナムラクレセント)
http://db.netkeiba.com/race/200909040409/
違和感ない?学習アルゴリズム変えたほうがいい? 重賞馬が5頭?
もっと、G1馬が2頭、重賞馬が4頭出てる!みたいなレースないの >>1
去年と今年のレース限定ならどれ?
昔のはよくわからん 超懐かしい
名馬揃いどうにかなったドモナラズもいるなw ダノンカモンが下位にいるのが過大評価されてるんじゃないの
芝とダート分けた方がいい >>2
出走馬の格とかは知らん
決着タイムと推定タイムの差でスコア付けてる
>>3
今年の青嵐賞
ってこれ1000万やんけ 問題ないだろう。
ナムラクレは特別に強い馬だったし。
しかし、全ての中間距離1800mになるのが感慨深いな。 >>8
これは納得
というか俺この次のレースでルックトゥワイス単勝5万買っててハナ差とかで負けて悶絶したわ
絶対重賞級なのに戸崎め 割といい線な気もする
ぱっと思いついたのはアイポッパーの古都Sだがあれもう13年も前か… >>10
納得してもらえる結果ならうれしい
>>12
スピード指数の枠組みをもっと科学的な手法で再構築してる感じ
原則はスピード指数の基準タイムと似たようなもんだけど、
その推定に使ってるのはベイズ統計の技術(MCMCってやつ)
まだ計算がうまくいかないところもあるから仮モデルなんだけど、
今の方向性で大枠ずれてないかちょっとチェックしたかった >>14
一発で納得した(笑)
すげえな
ほかに2016からで高レベルなレースあったら聞かせてほしい >決着タイムと推定タイムの差でスコア付けてる
それは単にSP指数が大きく間違えたレースを評価しちゃってるね。
そういうのをハイレベルとは言わないな。 >>14
そのアプローチだと推定タイムの精度が高くなりそうなイメージはつくんだけど
それと実際のタイムとの差でレベルを判断するってのはどういう考え方?
無知ですまんが、噛み砕いて教えてもらえないだろうか 夢を与えられるとか賭け事以外の面白さがあるとか所詮競馬ファンの主観でしかねーのよ。賭博場であることに変わりはないし客の99%が馬券買ってるわけでそんな場所に未成年だけて遊びに来るなんて場違いだろどう考えたって。
http://i.imgur.com/BT7sZKh.jpg >>15
ちょっと計算の収束甘いところがあったから結果残してなくて、
特徴的なレースしか覚えてないんや、すまんこ
うまいモデルになったらいつかもう一度スレ立ててうまくいってるか聞いてみたい
>>17
ごめん表現に齟齬があった
正確には、「今の馬場状況で想定される基準タイム」からの差を見てる
基準タイムは適当にクラス間の補正して計算させてる
(コースによって低級条件割合が高かったりするから、それを補正させてる)
500万よりちょい速くて1000万より遅いくらいの時計が基準になってるみたい
ただ、単純に差を取ると振れ幅の大きい長距離のほうがスコア高めについちゃうから、
そこも補正してる >>19
なるほど
現状だと全体タイムが速いものが高レベルと判断されるんだよね
例えば2400のレースで1400まではドスローだけど
後半の1000のラップがとんでもなくハイレベル
みたいなレースは凡レース扱いよね? >>20
そうなる
いつかはそういうのも勘案させたいけど、まずはそのへんは割り切らないと難しい
ちなみにペース流れやすいダート戦の方がその点ではぶれなく推定できるかなとも思うが、
ダートは中山ダ1200戦がやけに高評価される不具合と戦ってる
他場の1200戦に比べて、このコースはクラス間の推定タイムの差がでかすぎるのが原因っぽい >「今の馬場状況で想定される基準タイム」からの差を見てる
それだったら単なるSP指数だな。機械学習でもなんでもない。
なんか他にも反芻処理をやってるなら別だが。 >>22
多分、機械学習に対して幻想を抱きすぎだと思う
機械学習はなんでもかんでも解決できる賢者の石なんかじゃなくて、
あくまで人間が教え込ませたルールに対して大量のデータをもって
リーズナブルな推定値を返すってのが現状の機械学習の本質だよ >>2
2004年の古都ステークスはどうだ?
天皇賞馬、海外GT二着馬、GU2勝馬、GV勝馬がいるぞ >>22
まったく違うね。
https://www.sas.com/ja_jp/insights/analytics/machine-learning.html
機械学習とは、データから反復的に学習し、そこに潜むパターンを見つけ出すことです。
そして学習した結果を新たなデータにあてはめることで、
パターンにしたがって将来を予測することができます。
人手によるプログラミングで実装していたアルゴリズムを、大量のデータから自動的に構築可能になるため、
さまざまな分野で応用されています。
https://ja.wikipedia.org/wiki/%E6%A9%9F%E6%A2%B0%E5%AD%A6%E7%BF%92
機械学習(きかいがくしゅう、英: machine learning)とは、人工知能における研究課題の一つで、
人間が自然に行っている学習能力と同様の機能をコンピュータで実現しようとする技術・手法のことである。
センサやデータベースなどから、ある程度の数のサンプルデータ集合を入力して解析を行い、
そのデータから有用な規則、ルール、知識表現、判断基準などを抽出し、アルゴリズムを発展させる。
なお、データ集合を解析するので、統計学との関連が深い。
つまりな、人間が入れたデータをコンピュータが解析して、その解析結果を使って2次的な処理結論を出すのを機械学習っていうわけ。
君のはただのSP指数評価。だって分析した結果を使って新しい判定基準を作っているわけじゃないから。
>あくまで人間が教え込ませたルールに対して大量のデータをもって
>リーズナブルな推定値を返すってのが現状の機械学習の本質だよ
本当に機械学習させるなら、
人間が教え込ませたルールに対して大量のデータをもってリーズナブルな推定値を算出し
それを使ってSP指数なりに補正や判定を加えるなら、それは機械学習。
これでもかなり未熟な機械学習だけどな。 機械学習なら、
データ入力 → 解析分析結論 → 分析結果を使って評価
これを何度も繰り返すと、次第に解析分析結果が充実して来るし、分析結果すらも再評価処理するから、
その結果として分析結果がより良くなる。
これが学習というものだ。 後のG1馬がとか後の重賞勝ち馬がとか関係なく、このレース単体でてことでしょ? >>25
多分、機械学習に関して個人的な「べき論」を持ってるんだろうけど、
現実的に今現在の機械学習の枠組みで行われているのは「損失関数の最小化」だけで、
焦点はどんなモデルをもって損失関数とするか、そしてそれをどう最小化するかだけだよ
俺がやっているのは、現実の時計と想定される時計との差を損失関数(正規分布を仮定しているので、二乗誤差)として
基準タイムを形成するパラメータを推定するのを試みてる >>26
機械学習は統計学の範疇だよ
>>27
それを自動でやるのは強化学習だね
ただそれをやるためには解析結果を自動的に評価してくれる教師データが必要なんだが、
それは多分この世には存在しないので、難しい
なので、それを手動でやるために、、スレ立ててどうだか競馬板の知識ある人達に
この結果が妥当っぽいかどうか確認しようと思ったんだな >>29
そう
出走馬のステータスはいっさい考慮しないで、
レースの走破時計を評価してる >>30で語られている内容にはほぼ同意でけど、唯一間違いがある。
それは、「損失関数の最小化」の為に現在の機械学習でさえも「反芻して学習」していること。
あなたのやっている事は「反芻して学習」だけはすっぽりと抜け落ちている。
例えば、ディープラーニングとか、それを使ったアルファー碁とかでも、ちゃんと内部で学習を蓄積して
それによってより良い処理結果を出している。
だから1年前のAIソフトとバージョンUPした同じ今現在のソフトでは学習分だけ良くなっている。
学習しているのだから当然だが。 スレ違いかもしれないけど、タガジョーノーブル、サンエムエックス、ホットシークレットのドンカスターSが好きだな
4着のトウカイオーザもアルゼンチン共和国杯も勝ってるしな >>31
>解析結果を自動的に評価してくれる教師データが必要なんだが
>それは多分この世には存在しないので、難しい
チェスでも囲碁でも将棋でもちゃんとソフト内で評価してやってるし、その評価基準さえも更なる学習で
高めているから、競馬でもできるよね。
>なので、それを手動でやるために、、スレ立ててどうだか競馬板の知識ある人達に
>この結果が妥当っぽいかどうか確認しようと思ったんだな
それは2chネラーの良い使い方だし、わたしも楽しい。
けど、人間に評価せさるなら機械学習じゃなくて1さんの学習だ。
それでも良い結果に近付くから正しい手法だとは思うけどね。 キンシャサノキセキの桂川Sが一番だと思ってたが、もう10年以上前だったか。
俺のソフトでも芝なら2009年西宮Sが一番だった。 >>33
なるほど
その反芻して学習って言う点では、アルファ碁と競馬において決定的に違う点があるんだよ
碁であればコンピュータ同士で戦わせて明確に白黒がつくからそれを更に学習に用いれる
ただ、これができるのは碁とか将棋とか、極めて限られたカテゴリだから、
一般的応用にはあんまり現実的じゃない
競馬はシミュレーション結果が正しいかどうかを保証してくれるものが何もないから、
それを更に学習に用いることはできない
例えば、仮想的にディープインパクトとオルフェーヴルを戦わせたとしても、
そのシミュレーション結果が正しいかどうかをジャッジしてくれる根拠は何もないわけだから、
そのシミュレーションを用いた反芻した学習はできない
だから、今手持ちの現実のデータだけを使って推定するしかないんだよね
もしこの制約を取っ払って学習を進められる方法があるというのであれば、
俺の知らないところでもあるから、俺の不勉強ということになるが
多分無理と思う 古いとなると
2001年スカイアンドリュウの朱雀S
同じ開催のマルカキャンディの下鴨S
がすぐに思い当った >>35
そのうち計算させる…
>>36
チェス・囲碁・将棋と競馬は決定的に違うよ、>>38で言ったとおりだけど
ディープラーニングで言えば、画像を投げてこの画像は「猫の画像だ」、「人が笑ってる」、「こんな文字が書かれてる」、
みたいなのを判別するのが典型的にはあるけれど、この学習結果が正しいかどうかは
結局人がジャッジしているんだよ
機械学習には自動的に正しいかどうかをジャッジする機構はないからね
(機械学習はジャッジの結果が正しいと思っているのだから)
正しさを客観的な勝ち負けって形でジャッジできる囲碁や将棋みたいなゲームとは違って、
学習結果が正しいかどうかを判断するのは、一般的には残念ながら常に人間だよ
機械学習はそこまで万能じゃない
ただ、俺は競馬歴があんまり長くないから、この学習結果が正しいかどうかもわからんので、
問うてみたってだけだ 競馬は着順があるし、タイムもあるけど
そして教師なし学習もあるけど >>42
レースに寄って出走頭数がまちまちだから着順による学習は辛いかなーと思ってスピード指数の発想にいった
教師なし学習はクラスタリングが主だから優劣の判別には使いづらいと思う それはそれとしてこのモデルで何かを予測するんちゃうの >>38
>>40
>正しさを客観的な勝ち負けって形でジャッジできる
1さんが本気で囲碁や将棋にはジャッジが存在するのに、競馬にはそれが無いと考えているなら
1さんには、システム設計の知識が決定的に欠けているよ。
そういうレベルの人が機械学習とか言っちゃ駄目だ。
余談だけど
>ディープラーニングで言えば、画像を投げてこの画像は「猫の画像だ」、「人が笑ってる」、「こんな文字が書かれてる」、
>みたいなのを判別するのが典型的にはあるけれど、この学習結果が正しいかどうかは
>結局人がジャッジしているんだよ
これはあべこべだね。
AIの始まりから説明しなきゃならなくなるから解説まではしないけど。
結局、1さんは、とことん機械学習という意味が解っていないじゃないか。 >>44
もちろん、競馬に勝ちたい
ただ、何も考えずに変数をディープラーニングとかに放り込むと爆死することがわかったから
距離・コース・馬場状況を問わないレースレベルの規格化をしたいなと思って今モデル作ってる >>45
>1さんが本気で囲碁や将棋にはジャッジが存在するのに、競馬にはそれが無いと考えているなら
>1さんには、システム設計の知識が決定的に欠けているよ。
じゃあ、仮想的な(現実とは違う)シミュレーション結果の正しさを証明するものって何?
東京芝2400でディープインパクトとオルフェーヴルが戦ったとして、勝つのはどっちだと
明確に示せる根拠があるのだとすれば、あなたが正しいと思うよ
>これはあべこべだね。
現実として、正解ラベルに1/0の教師データを振って学習させてるんだけど…
あべこべって何だ? >>43
http://jra-van.jp/fun/dm/game_mining.html
JRAのマイニングだけど、これは(多分単純な)ニューラルネットワークで
着順をそのまま使わずに2頭の勝敗で学習してるよ。 (´・ω・`)この函館開催のアホみたいな時計で「え!?あれ!?え!?」ってならなかったの? >>48
これでやっとこさ控除率程度(≒馬券購入者の平均程度)ってことは
考慮しきれてない見えない要因がいっぱいあるんだろうなって思う
その大きな要因の一つがレースレベルなんじゃないかなって思ってる
多分このモデルのまま多層化してディープラーニングにしても対して向上しないんじゃないかなって気する
競馬って難しいわ >>49
まだ実装してないからわからんけど、馬場補正の推定が割りと引っ張られそうでちょっと嫌な予感はしてる
不良馬場の振れ幅が大きいのは考慮してるんだけれどなあ… >>38
ディープとオルフェは無理やけど
例えば07年までデータぶっこんでそれをもとに08年のレースを予想させてそれを修正それをもとに09年のレースを予想させてってやればいいんじゃないのか? >>38
横槍ですまないが、あなたのやってることは機械学習ではないよ。
他の人からもレスあったけど、
>センサやデータベースなどから、ある程度の数のサンプルデータ集合を入力して解析を行い、
そのデータから有用な規則、ルール、知識表現、判断基準などを抽出し、アルゴリズムを発展させる。
なお、データ集合を解析するので、統計学との関連が深い。
例えば、過去のレースを学習させて、その分析結果を元に、このレースからGI馬が出る可能性が高いとかそういう判定は可能だと思うけど、一番レベルの高いレースっていうのは何?っていう話になる時点で機械学習のアプローチは使えないよ。
そこを分析するための一ファクターを機械学習使って、、、というならまだわからんでもないけども。(それも内容次第だけど)
機械学習を専門に研究していた競馬キチからのお節介w >>52
もし統計学の知識がなくてその発想が出たなら、頭いいと思う
それは機械学習の世界で最もスタンダードな検証方法だよ
ただ、いくらやっても手持ちのデータ以上の情報を得ることはできないから、そこが壁 馬券は馬や馬場や過去レース結果とかだけでは情報量としては現状物足りないよな。 >>53
んーまあそこはハイレベルっていう単語の齟齬だね
キャッチーにする上でハイレベルって言葉を使ったけれど、
実際にはハイレベルっていう単語の指し示すものが人によって違うから、
それに一般的な解決はできないって話だよね?
機械学習やってたなら以下理解できると思うが、
想定される時計と想定される誤差に対して、最も速い方に逸脱した時計のレースはどれか、
というのが推定したいものだよ
モデル上は簡易的に正規分布を想定してるから、まあ要するに偏差値みたいなもんだ >>55
考慮しなくちゃいけない情報が多すぎるから(しかも数値的とは限らない)、競馬予想は難しいね 夏の暑さの1度2度の差は?
芝の不良、重、稍重、良は?
加味するデータにはならないか? レースをAIに評価させて何になるんだよw
そのレースのレベルが高いなんて、機械に頼るまでもなく
一目瞭然じゃん
アプローチが間違っているよ
囲碁や将棋のソフトが人間を圧倒するような「判断」「判定」をするような部分で
競馬にも切り込まないと
そうなると「馬やレースの評価」というより「馬券の買い方」ということになる >>58
気温は難しすぎるからいれない、というか考慮したこともなかった
まあデータ取りきるのが難しいから多分これからも考慮しない
馬場状況は考慮してる、芝で言えば馬場が重くなるにつれて時計は遅くなるし、時計のばらつきは大きくなる >>47
>じゃあ、仮想的な(現実とは違う)シミュレーション結果の正しさを証明するものって何?
その質問自体が間違い。
なぜなら囲碁も将棋もチェスも現実なのだから。もちろん競馬も現実。
>あべこべって何だ?
これは説明が長くなり過ぎるから無理。
説明じゃなくて概要だけ書くと、機械学習とはAI(人工知能)を作るのに重要な要素だろうという事で開発される事になったもの。
そういう事でそもそもAIとは?からになってしまうから。 >>61
囲碁で言えば、CPUとCPUが戦ってその結果をもって学習する、
それを反芻って言ってるんじゃないの?
いずれにしても、結局何一つ情報を持ってないレスにはこれ以上反応しようがないよ
ごめんね >>60
これから夏競馬の中間に入っていき
どの馬も疲労困ぱいの中連戦してサマーシリーズを戦い抜く
この時期にこそ温度差は意味を持つのだと思うけどね
観てて欲しい、温度に直結した超弩級の荒れる状況が来週から見れると思うよ
開催週を追うごとに脚質の推移も少し勘案しても面白いかも
すごい穴馬がいるかもしれないよ? >>64
入力層を下にして出力層を上にしたNNの図って斬新だな。
ものごとの流れからしてせめて逆、普通は左から右だけど 競馬におけるデータマイニングの基本は「情報は少ないほうがベター」だ
気温だ馬体重だタイムだ、あれこれぶっこむと、予測が濁るわけ
同時に取り扱うファクターは5つまで
(それも各情報の重要度に大きく違いを持たせる)
よくある加点法の評価では本当に買いたい馬券が買えないことが多い >囲碁で言えば、CPUとCPUが戦ってその結果をもって学習する
CPUとCPUが戦うのを1さんは仮想的なシミュレーションだと考えたわけですね。
でも、それは実戦の囲碁ですよ。実戦を無数に積んで学習して強くなるのが囲碁AI こういうのは馬券下手の奴が作るのは大変だと思うよw
せめて全レースやって単回値100%複回値90%ぐらいの人間でないと
上手い奴なら自分の思考パターンをコピーして
前述のように買い方の部分だけ考えればいいんだけど
競馬のセンスのない人間に学習機能を持った勝てるAIが作れるかは
興味深いが疑問だよなあ・・・ 囲碁や将棋と違うのは、それらには定石があって
正誤が明確だ
競馬にそれはない
後付けの評価含めて、やればやるほど分からないことばかり
コンビニでどんな商品が売れるか・・みたいなもの >>56
機械学習は基本的にデータから何かを予測することに重きを置くので(supervised、unsupervisedともに)、やっぱり機械学習というのは違和感があるかな。
とはいえ、言ってることは理解できたし、どっちかというと統計って言ったほうがしっくりくるかもね。余談だけど、正規分布
想定した偏差値って、競馬じゃないけどそういうのを計算して出力する開発の仕事最近やったなw >囲碁や将棋と違うのは、それらには定石があって
>正誤が明確だ
深い言葉だ。
>>69
質問だけど、定石は序盤、終盤は詰め将棋(詰め碁?)に存在するのだけれど、
中盤のカオス部分はどう考えます?やはり中盤にも正誤が存在し得るのでしょうか?
私個人では中盤局面にも正誤が存在すると考えているけど、そこには例外としての千日手などの
不完全性を内包していると考えてる。 >>71
人間の能力の限界ゆえカオスなのであって
有限かつ目に見える要素だけで構成されているのものには
「正誤がある」と考えているけど
競馬にはない
麻雀は微妙・・と言ったところかなあ 馬券で儲けることじゃなく、データを作ること自体が目的にならないことを祈る( -人-)ナムー 馬券の精度向上とか実利がないと意味ないような
あとタイムが基準だとG1レースが同日同コースの条件戦よりタイムが遅いなんてことはザラだけど、そういう条件戦はハイレベルって評価されるの? >>73
なるほどやはり、囲碁将棋は1手目から終局まで貫き通す
定石が存在すると考えるわけですね。
つまり、中盤などという概念自体が定石の完成で存在しなかった事になると。
>競馬にはない
>麻雀は微妙・・と言ったところかなあ
競馬の場合は仮に定石が存在するとしても
それを計算するには外宇宙の動きを計算するレベルくらいの計算処理能力が
必要そうですね。
麻雀は、そもそも定石とは相容れないゲームでしょうね。
極端な話、人間にもAIにも相手の配牌は読めない。
よって相手の手牌も余程の事が無いと読めない。
かといって、確率重視の効率打法であるデジタル打法でも勝てない。
定石泣かせですね^^ ■ このスレッドは過去ログ倉庫に格納されています