データ上級者への塔


 競馬予想を真面目に取り組んだ方は頭の中に自分の予想スタイルにおける注意事項・判断材料が、渾然としているにせよ少なからずあると思います。どんな予想手法にも、より馬券を的中させるための技術や理論が存在するでしょう。私にとっての予想手法は実績データ予想なので、このリニューアルの機会にこれまで私がデータについて考えてきたことをまとめてみたいと思います。

 データ予想と言えば消去法や井崎の法則等が有名であり、競馬雑誌や新聞等においても消去項目を列挙するコーナーが設けられているなど、かなり広く用いられている手法です。「これまで来ていないパターンだから消す」あるいは「絶対来ているパターンだから軸」などといった考え方は見た目わかりやすく合理性があるため、それなりの支持者を持つこととなりました。しかし、データのサンプルとする期間や利用する項目、取り上げ方が自由であることからデータはある程度操作することが可能で、簡単に量産することもできます。そして一番厄介なことは、一般的に用いられるが故に、データ的に不安材料に乏しい馬(近走着順が良い)は人気になりやすく、データで消去法に該当しやすい馬(近走着順が悪い)は人気になりにくい傾向があり、馬券的妙味を得られにくいこと。データを芯に据えて馬券勝負を行うならば、留意すべき点はたくさんあります。


1F 〜データとジンクスの境界〜

「秋の天皇賞は1番人気が勝てないというデータがある(府中の魔物説)」
「弥生賞馬は皐月賞を連対できないというデータがある(弥生賞馬疲労説)」
「ダービーのみ一冠馬は出世しないというデータがある(最も幸運な馬が勝つ説)」

 上記は過去によく言われていた文句ですが、これを見てあなたは違和感を覚えますか? 無論、テイエムオペラオーやシンボリクリスエスらが天皇賞秋を一番人気で勝ち、アグネスタキオンやコスモバルクが皐月賞を連対し、スペシャルウィークが古馬戦線において大将格の実績をあげたからこれらは当たっていないことになるのですが、その結果を受けて「これらのデータは誤りだった」と言うのは私にとって違和感があります。

 私は上のような文句に出会うと心の内でツッコミを入れます。そりゃあデータじゃない、ジンクスだよ! と。私の言うデータというものは、その示すものが投資判断に直結するものと考えています。上記の文句を「データ」とするならば、秋の天皇賞では1番人気を消して馬券を買うことになります。しかし、1番人気だから消しというのは、馬券的中を目指すに当たって、あまりにも適当すぎる判断基準だと思いませんか? 

 とはいえ、ジンクスがくだらぬものと言うつもりもありません。合理性のある切り口から導き出されたジンクスは何らかの傾向を表しています。将来データに作り上げられる貴重な原石かもしれません。

 上記の例に戻ってみれば、「秋の天皇賞は1番人気が勝てない」とは歯切れのよい文句ですが、昭和62年ニッポーテイオーが勝って以来負け続けていただけで、勝ち馬がいない訳ではありませんでした。それでは、なぜニッポーテイオー(やテイエムオペラオー、シンボリクリスエス)は勝てて、他の馬達は負けたのか、という疑問にぶつかるでしょう。調べていけばオグリキャップ、メジロマックイーン、トウカイテイオー、ライスシャワー、ビワハヤヒデ、ナリタブライアン、サクラローレル、バブルガムフェロー、サイレンススズカ、セイウンスカイ、テイエムオーシャンら負け馬にもそれぞれの負けタイプがあることがわかります。

故障、アクシデントで負けた組(91、94、98)
休養明け復帰戦に選んだ組(90、92、95)
ちょっとした不利に泣いた組(89、96、01)
能力または適性で負けた組(88、93、97、99、02)

 ざっとこんな風に。これだけで、このレースは紛れが起きやすく大勝負はしないほうがよいと判断でき、休み明けの馬や、能力が過大評価されている馬がいないか注意できるようになります。能力で負けた馬については、その評価方法を掘り下げていけばいい。本命がコケた裏で好走した馬の研究を重ねていけば、例えば、「去年の天皇賞秋、有馬記念、今年の安田記念、宝塚記念、毎日王冠で5着以内、または前5走で左回りコースの1800m(ダートは1600m)以上OP以上で連対してない馬は連対できない」というデータができます。範囲が広いのであまり切れ味のいいデータではないが、2000mになった昭和59年以降、この条件を満たさないで連対した馬はいません。

 このレース選択が意味するのは、「自力(有馬、宝塚と5着ライン)があるか、またはコース適性(その他)がなければ天皇賞秋は勝ち負けできません」ということ。常識的な話であり、その判断基準を得られたことは馬券検討に役立ちます。ここから、さらに各レースとの関連を調べてもいいし、絞れるデータを探したり、配点を決めて軸選定に走ってもいい。ジンクスから始まったデータ(=判断基準)探求の旅はどこまででも続けられます。
(怪しげなデータと言いながら、こうしていく過程でデータとその関連性の見方がわかってくるのです)

 しかし、これをデータと呼べるかどうかは、最終的にはデータを扱う者のセンスに帰結するものなので、どこまで極めてもジンクスに過ぎないと思う方もいるかもしれないし、それもひとつの見解です。なぜ5着以内なのか、なぜ4着でも、6着でもなく5着なのか、そういった線引きは作成者の都合によって決まります。「だって、5着の馬、来ちゃってるんだもん。6着以下だとみんな全滅なんだぜ」所詮こんなもんです。あとは、客観的合理性があるかどうか、という辺りになっていきます。

 ジンクスは傾向であり、データは洗練されたジンクスで馬券選択に直結するものである。

 データとジンクスの定義を強制するつもりは全くありませんが、「データ」を品格のあるものとして捉える感覚はデータを扱う者にとって大事だと思います。そのレベルに持っていくためには、過去の該当馬を調査したり、該当例の人気と着順の比較等を行って吟味する必要があります。


2F 〜客観的合理性重視のススメ〜

 先ほどのステップを踏んでいただければ、データがジンクスではなくデータであるためには、データを作る人間自身がその判断基準を相当信頼していることが前提となります。作者は自信を持って「この消去法に該当する馬は買わない」と言える。つまり主観的合理性がある状態なんですね。ただ、作者本人だけが使えると思っていても、それは他者が見ると全然合理的でないかもしれない。

 冒頭の文句のひとつをちょっとひねって「ラジオたんぱ杯2歳Sを勝っていない弥生賞馬は皐月賞を連対できない」というデータを作った人がいたとして、その本人はそれで満足している場合を考えてみます。
私が反論するとして、こう言ってみましょうか。
「過去20年程度の歴史を見てみると、a.1983年ミスターシービー、84シンボリルドルフ、87サクラスターオーがそのデータに該当しながら皐月賞も勝っているし、b.88サクラチヨノオー、90メジロライアン、92アサカリジェント、98スペシャルウィーク、99ナリタトップロード、02エイシンチャンプら3着馬は量産されていますよ。更に、弥生賞出走馬の最先着馬として皐月賞に出走した中では、96イシノサンデー、00エアシャカールが優勝しています。近い切り口でこれだけの活躍馬が出てしまっているその判断基準を使うのは危険ではないですか?」
対してデータの作者は「私のデータは過去10年で作っています。多頭数でやっていた昔とは競馬の状況が違うから、昔のデータは関係ありません。3着は確かに多いですが2着には入れていないのは事実でしょう。私の条件は弥生賞の勝ち馬であって、最先着馬が活躍していることはあるとはいえ、弥生賞で1着するのと2着では疲労度が違うのです」などと言うのではないでしょうか。

 さて、あなたはこのデータを信用できますか?
 この判断基準を用いて馬券を買えますか?

 私は上記コメントを言っているくらいだから買えません。もしもレースの結果、この判断基準に該当する馬が連対できなかったとしても、これをデータとは呼びません。この判断基準とは別のところでの問題だと思います。きっと、お読みの方もそのように感じられるのではないでしょうか。私があげたa.データに反する事実の該当例、b.データに反する近似した該当例による反論は、人間の理性に強く訴えるものがあると思います。

 結果としてこの消去に該当した馬が連対したときに、このデータの作者はどう思うでしょうか? 私の反論を振り返って、言われてみればそうだなぁと思うしかないです。悔しいですが、理で負けている上に結果で負けたらどうしようもありません。「あくまでも傾向だった」なんて言い逃れる人はデータ予想家として失格。この作者がどうすればよかったかを考えると、このデータには客観的合理性がないと理解をし、予想前にジンクスに格下げしておけばよかったのです。更に言えば、他人から指摘される前に客観に耐えられる合理性があるかどうかしっかり見直しておくべきです。

 皆の見方が違うから割がいいと考えるのは早計、データはあくまでも理が土台になっています。理を軽視すれば餌食になるのは自分です。いかに誰も見出せていない切り口で、合理性があり効率の良いデータを作るか、そこにデータ予想家の腕がかかっています。

 どのように客観的合理性があるかを注意すればよいかというのは難しいテーマですが、先ほどの中身を精査する方法の他には、募数を多くする方法があります。(0.0.0.1.4.195)とか。←あるデータが200頭該当してその内馬券に絡んだ馬が1頭もいないという意味です。これと比べると、(1.3.1.0.2.6)とかって、全然合理性ないと思えますよね。後者は2000年の天皇賞秋直前時点の「天皇賞秋1番人気馬の成績」です。これで1番人気は勝てないとまでは言えないなと感じられるのです。

 一方、前者の200頭で3着以内なし。このくらいにしておくと、例外となって激走する馬が現れる確率は低くなると思われます。それでも絶対破られないとは思えないのは、100m走の世界記録が今後絶対破られないとは思えないのと似ているでしょうか。(無論、世界記録のレベルを上げれば上げておくほど壁は高くなる)

 しかし、募数だけがたくさんあっても合理性があると言えないケースもあります。大袈裟に考えればサインです。切り口が馬の能力やコース形態など、一般的に考えられる予想手法から逸脱してしまっているのです。時事問題から、レース名に騎手名に種牡馬名に馬主名、全然関係ない他のレースのビリ馬の枠などなど、何でもアリです。そこから引き出していくのだから後づけは可能であり、合理性に欠けてしまいます。

 昔、本屋でいくつかのサイン本を見てみましたが、疑問ばかりでした。「正・逆ってナニ!?」「なんで隣枠なの!?」思い込み抜群の宇宙法則を打ち立てる空想に付き合っているだけのように感じました。もちろん全否定はしません。本人は作っている時は楽しいのでしょうし、一時期テロ馬券とかありましたからね(苦笑)、それもいいのかもしれない。いろいろな予想があるから競馬は楽しいのです。

 さて、このようにサインほどではないにせよ、募数だけにこだわる絞り方をしていると客観的合理性から逆に遠ざかってしまうことがあり、注意が必要です。理がなければ不的中だったときに悔いが残ります。理がないデータで馬券予想をすることは、戦場に向かう時に周りから「お前の防弾チョッキは穴が空いているぞ」と指摘されているのに、そのまま突撃するのと同じです。データはしっかり見直して扱いましょう。

 データによる馬券勝負を行うにはデータ厳選の努力、切り口の独自性の追究が求められます。

 今後、雑誌や新聞に掲載されている「データ」を見たときは、自分にとってもデータなものか考えてみるとよいでしょう。また、自分がデータを作ったときは、それが使えるデータであることを結果が出る以前に如何に説明できるか、考えてみることです。


3F 〜理性が求めるもの〜

 データの土台である理=客観的合理性について、もう少し掘り下げてみましょうか。階下で挙げた合理性の判定としては、似たような切り口で好走してしまっているから信用できないというようなデータの中身に関する事項(以下、内面理と呼ぶ)と、集計した数字のようなデータの外見(以下、外面理と呼ぶ)がありました。そして、外面理ばかり気にしていると、内面理が伴わず、結果として客観的合理性がなくなってしまうという話を、サインを例にお話しました。

 より重要なのは内面理のほうです。というのも、データ作成者は「(2.3.1.8.5.30)で消去データ」というような形で出してくることはまずありませんから、外面理は当然意識しています。内面理の線引きを高くして、「前3走が全て10着以下かつ1.5秒以上離されて負けた馬は(0.0.0.0.0.4)」というような判断基準であれば、サンプルが少なくてもデータと扱うことも可能ですし(効率性の問題はありますが)、逆に「直前のレースの勝ち馬の隣枠の馬の前走が一桁着順の場合、その馬番の数を、今回の出走表の岡部騎手の馬番から正・逆に数えた馬(岡部騎手がいない場合で西暦偶数年開催のときは武豊騎手とする)は(0.0.0.1.4.195)」のような意味不明な切り口では外見理があっても客観的合理性はなくなってしまうのです。

 では、内面理とは何なのでしょうか。考えていくと、それは人間の理性で納得のいくものであり、普通に競馬をしている人がそう思うだろうなぁというアナログ的な思考に合う合理性なのです。簡単に例示列挙すれば能力・馬場・展開・騎手・血統・実績・時計とかいった種類の要素について、あるレースの1着馬は2着馬以下よりも普通能力が高いと考えられたり、同じ日の馬場で似たような展開であればより時計の速い馬のほうが強いと考えられたり、持ち時計は同じでもレベルの高いレースを好走している馬のほうが格上だろうと思うような、アナログ思考的な合理性です。いろいろな言葉を使いましたので、わかりにくいと思います。またひとつ例を考えてみましょう。

 データ予想家Aさんがあるレースを調べていたら、過去10年での2番人気の連対が7回という情報を見つけました。更に、連対できた7頭とできなかった3頭を調べてみたところ、連対した7頭は前走負けていて、連対できなかった3頭は前走1着という情報を得ました。そこで、データ予想家Aさんは次のデータを作成しました。
「前走負けている2番人気馬は鉄板軸である」

 さて、どうでしょう。Aさんの「データ」で馬券を買えますか? 買える人、いないんじゃないかなぁ。Aさんが見つけたこのデータの外面理は(3.4.0.0.0.0)とかで問題ないのですが、内面理に問題があります。まず、2番人気という切り口。人気を切り口にする自体、あるいは合理性に欠けて見えることも多いのですが、データの使い方では、例えば着順との組み合わせによって効率的な消去データにすることもできますので、人気という切り口自体はアリだと私は思っています。実際、人気がある馬は能力が高く、人気薄の馬は能力が低い傾向はあるのですから。でも、そう考えてみれば、2番人気が軸とできるデータであれば、それ以上に人気をしている1番人気の馬はどうなんだ、という疑問が当然に湧きます。1番人気の馬のほうが多分強いから人気しているんですよ。もしこういう切り口にするなら「2番人気以上」としなければなりません。1番人気の馬も6連対くらいしていれば、人気馬が好走しやすいレースと考えてもよさそうです。1番人気の馬の成績が悪かったら、なぜ2番人気が良いのかわかりません。いろんな疑問に対して、その答えを更なる切り口や選別基準でもって説明できればよいとも思います。

 また、Aさんのデータは連対できた馬とできなかった馬との選別基準がおかしい。前走勝った馬が消しで、前走負けた馬が買いになっているんですよ。負けている馬より勝っている馬のほうが一般的には強そうなのに、そのアナログ的思考に逆らっているのです。Aさんは「勝った馬のほうが疲労しているから」と言うかもしれませんが、勝っている馬は楽勝という形もありうるし、負けた馬のほうが僅差の接戦で死力を尽くすこともあります。かなり合理性が曖昧です。逆に、前走負けた馬が消しで、前走勝っている馬が買いとしてもさっきよりましになったもののまだまだ怪しげです。GIで負けた馬とOPを勝ってきた馬を比べようものなら、前者のほうが強いとアナログ的思考が判断する可能性も高いのですから。今回の例では、根本から絞り直したほうが良さそうです。

 内面理は普通の競馬ファンが納得できる、アナログ的な思考による理です。
 客観的合理性のあるデータを作るなら、内面理に注意しましょう。


4F 〜平等かつ総合的な視点〜

 2000年のマイルCS予想時の話です。事前に作ったデータではエイシンプレストン、ダイタクリーヴァが筆頭で、相手候補にダイワカーリアン、ダイタクヤマト、ブラックホーク、メイショウオウドウ、アグネスデジタルが残っていました。7頭も残ってしまったので私はどうにかあと1頭消したいと思い、一番弱そうなアグネスデジタルの馬柱から「前走ダート戦で負けている馬は消し」という消去データを作りました。結果はご存知の通り、1着アグネスデジタル、2着ダイタクリーヴァ。残った中で一番人気薄だった馬の馬券を取り逃がす大失態でした。

 気をつけたいのは、データに将来の出走馬の先入観を入り込ませないこと。データを使っていると、トライアルの成績等から馬柱が決まってきて、思わずとも本番となるレースのデータ作成に、これから出走する馬の先入観が入ってしまうことがあります。例えば、「自分の好きなダイワメジャーがセントライト記念2着だった。前走連対していた3歳馬の天皇賞挑戦は過去どうだったのだろう。(天皇賞も勝ち負けできるとするデータはないかな)」とか、「メイショウボーラーは南部杯6着だった。前走ダート着外からマイルCSに挑戦した馬で好走した3歳馬はいるんだろうか?(こりゃあ通用しないよな〜)」のように、カッコ書きにした心理面が作成され、データに大きな影響を与えます。データは少なくともトライアル前に作っておきましょう。

 それでも、直前になると消去データにぎりぎり該当しなかった弱そうな馬や、軸データまであと一歩の強そうな馬の判断等、非常に悩ましいことが必ず起こります。消去データとしているラインを上げてみて、また過去何年もの出走表を調べ、全く好走馬がいなければ今回の弱そうな馬も一緒に消えるデータに変更する方法もあります。このような場合は、自分のデータセンスに従って、変更するもよし、一応買うもよしで構いません。客観的合理性を土台にしているデータであれば、多少のラインの上下は修正許容範囲内です。募数が多いほうが安心ですけどね。

 冒頭の例で再度注意したいのは、アグネスデジタルも平等にデータ分析して残った馬なのに、勝手に弱そうだと思い、その馬の弱点だけを探したことです。過去10年以上のデータ構築を行うと、1,2頭、何とかして消去しなければならない(例外規定を作ってでも救わなければならない)馬が出てくるものです。150頭とかいるのでしょうがない部分もあるのですが、そこで、この1,2頭の馬に着目して消去データを追加すると、他の該当馬がほんの4,5頭しかいない、などといった無理をしたゆえのいびつなデータになりがちです。精密なデータは美しいですが、それが実際に将来の予想に必要なものであるのかどうか、次にこんな馬が来たらしっかり消せるか(客観的合理性があるか)、考えてみましょう。疑問が浮かんだら、無理して調整することもないのです。また、そうなってしまうならデータとして採用せず、違った面から検討し直す手もあります。これらは次の階の効率性という点でも役立ちます。

 今は昔になってきましたが、キングヘイローが大好きだった井崎先生はスーパー競馬の予想で、彼が出走するレースは毎回キングヘイローを本命にしていました。キングヘイローが来ると言えるためのデータを探してくるのです(笑)あれはデータを遊びにまで昇華させている井崎さんだからいいけれど(自分で「今回も見つけてきました(笑み)」とか言ってるんだもん)、データの本道からすると真似てはいけない駄目予想です。他の馬にはいいデータはないのか、もしあったらその比較はどうされるのか、他の馬は消えるのか、全然わからないのです。

 データは事前に作成し、全馬通して使えるようなものを心がけ、平等なひとつの軸で予想することを念頭におきましょう。

 また、全体のレベルを把握するためには、3着4着あたりにも注目するほうがいいです。巷でよく見かけるデータ予想は、勝利条件や連対条件といった形で、勝ち馬だけ、あるいは連対馬だけをサンプルにしてデータを作っているものが多いのですが、そのやり方だと、レベルの違う一年一年を混ぜこぜにしてしまい、思わぬ間隙を突かれることがあります。私はそこで、データの集計を原則(1着.2着.3着.4着.5着.6着以下)で行なっていて、レベルの落ちる年に、例年3.4着くらいのデータ実績がある馬を狙えるようにしています。3着は、2着馬が出走してなかったら連できた可能性の高い馬。4着5着もそういう風に考えていきます。


5F