2011年9月16日金曜日

データとの闘いは自分との闘い



こんにちは。玉置卓也です。
最近は夜になるとすっかり涼しくなり、秋の訪れを感じます。
皆さんはいかがお過ごしですか。

私は月明かりに包まれて虫の合奏を聞きながら記事を書いています。

さて、今日は合宿から今までの「データとの戦い」を中心に紹介していきます。おさらいですが、F1班は合宿で≪先行研究の枠組みにF1を当てはめる≫こととなりました。
ここで問題が1つ、私たちの前に立ちはだかります...





今まで読んだ論文からそのまま取り入れられない…

どの論文もF1にあてはめようとしてもしっくりきません。

突き詰めてみると、その原因は意外…でもない当たり前なところにありました。

原因1.データが圧倒的に少ない

定量研究を進めるには豊富なデータがあるにこしたことはありません。
私たちが手に入れられるF1の統計データは6年分くらいです。


では、先行研究はどのくらいのデータを用意しているのでしょうか
MLBの研究では何と1901年から100年分あります。さすがアメリカと言ったところでしょうか。

先駆者たちはこのデータから1年のチームの成績や入場者数の数字を使って分析をしています。

100年分あれば100回分析が出来ますが、6年分では6回しか分析が出来ないのです。

これでは同じ分析の仕方をしていては…いい結果が出そうにありません。
そこで、私たちはF1で分析をするためにこんな解決策を考えました。

解決策1.1年単位ではなく、1レース単位で分析をする

こうすれば、1年単位では6つしかなかったデータを一気に100個に増やせます。

100年と比べても遜色がないくらいに数を増やすことが出来ました。どうしてこんな荒業ができるのかと言うと、先行研究で扱われている野球などのスポーツはリーグに属する全てのチームの強さを測るには、各チームとも同じ期間、同じ試合数で測らなくてはいけません。

たとえば、ジャイアンツとタイガースが戦ってジャイアンツが勝ったとします。それと同じ日にドラゴンズがベイスターズに勝ってもドラゴンズがジャイアンツより強い、ベイスターズがジャイアンツより弱いということはできません。


1シーズン通算の成績で見るほかないのです。
一方のF11レースで全チーム全ドライバーが出走します。そして、1つのレースで全ての順位が決まります。
野球の1年を疑似的に1レースで再現することが出来るんです!
これで順風満帆。と思いきや
分析単位をいじると次なる問題が出てきたのです。

原因2.レース単位では勝率のばらつきが出ない

お手本の研究たちは、1年の各チームの勝率のばらつきを見て分析をしていました。
1年の勝率が上位のチームから60%、50%、40%…
次の年は80%、60%、30%…
毎年勝率の分布が変わっていますね。

が、私たちはデータの制約を解決するために分析単位を1年から1試合へ変更しました。
1試合の勝者は必ず1
どのレースも上位から勝率100%、0%、0%、0%、0%、0%、0%、0%、0%・・・です。これっぽっちも差が出ません。
この難題にもF1の特性が打開策を与えてくれました。

解決策2.勝率ではなくタイムで戦力を測る

勝率が毎試合変わらないなら、毎試合違う数字が出る指標を使ってしまえばいいんです。
幸いにもF1には毎レース、各ドライバーのゴールしたタイムが記録されます。
この数字を用いて分析することにしました。
うまくF1仕様モデルを作ることができましたが、まだまだデータとの闘いは続きます。

次回はいよいよ統計分析です!


たまき

0 件のコメント:

コメントを投稿