数字遊び

趣味で時々データ分析をするブログ

【プロ野球】過去50年のデータから勝ちやすい本拠地球場を分析してみた

分析の背景と趣旨

野球というスポーツは、使用する球場の大きさが厳格に規定されていないという、他競技では見られない特徴がある。実際に 2021年では、セリーグで最も小さい神宮球場では、最も大きいナゴヤドームよりも 2.4倍も本塁打が出やすいというデータが出ている。

また、球場の大きさだけではなく、内野グランドの種類(天然芝、人工芝、土)やピッチャーマウンドの傾斜なども統一されておらず、結果への影響が言及されることも多い。

このような球場の違いが、本拠地とするチームの実績にどのような影響を与えるのか?、その傾向を分析する。

今回は特に球場の大きさに偏りが大きいセリーグを対象に、過去50年間での「本拠地の得点しやすさ」と「勝率」や「優勝し易さ」の関係について分析してみた。

得られた結果(サマリー)

  • 過去50年間のセリーグにおいては、「平均的な球場」を本拠地とすることが極端に大きい/小さい球場を本拠地とするよりも勝率が高い傾向がある
  • この傾向はその年の勝率よりも、5年後の勝率に対してより強く表れる
  • つまり、「地の利を活かして勝つ」といった短期的な影響というよりは、「選手育成」や「選手のプレースタイル」のような中期的な影響を及ぼしている可能性がある
  • 2022年現在、本拠地が有利なチームは「広島」、「巨人」の2チーム、本拠地が不利なチームは「横浜」、「ヤクルト」、「中日」の3チームであり、今後の優勝回数の配分に大きな偏りを発生させる可能性がある

1. 球場の得点しにくさ(≒大きさ)の数値化

球場の大きさを表す指標としては、「パークファクター(PF)」という指標が存在し、よく利用されている。
PF は、「得点数」や「本塁打数」などの指標が他の球場よりも、どの程度大きくなりやすいのかを表す。例えば、本塁打PF が 1.2 だった場合、この球場は他の球場よりも1.2倍、本塁打が出やすいということになる。

PF という指標は、その球場を本拠地とする球団の打力や投手力の影響を一定排除した指標という意味で有用である一方で、今回の分析において以下のような問題がある。

  • ジーズン単位で計算される指標だが、シーズンごとで差が大きく安定しない
  • 異なるシーズン間での比較ができない

前者の例としては、2016年の東京ドームの本塁打PF は 0.99 であるが、翌年は 1.28 となっている。この間東京ドーム含め、他の本拠地球場で大きさは変更されておらず、この差は確率的な揺らぎによるとものと思われる。

後者の例としては、1977年までしか使用されていない川崎球場と 2009年から使用されているマツダスタジアムの比較ができないといった問題が存在する。

そこで、新たな指標として、50年間での全球場の平均 PF を導出することにした。以降、この指標を「グローバル パークファクター(GPF)」と呼ぶことにする。

感覚的な例としては、下記のような PF のデータがある場合に、

球場A 球場B 球場C 球場D
2021 0.60 1.21 1.19 -
2020 - 0.85 0.87 1.28


下記のような指標を導出するイメージである。

球場A 球場B 球場C 球場D
2020 - 2021 0.50 1.00 1.00 1.50


ここでは、球場Aは、球場B, Cの 0.5倍 、球場Dは、球場B, Cの 1.5 倍という関係を保存しつつ、球場Aと球場Dの比較を可能にしている。また、球場B, C は、同程度の PF であるという平均化もされている。

具体的な導出方法としては、以下の式により計算する。
この後、統計的な説明が続くため、興味のない人は先まで読み飛ばしていただきたい。


 \boldsymbol{gpf} = \underset{\boldsymbol{x} \in \mathbb{R}^{P}}{\mathrm{arg min}} \displaystyle \sum_{\mathrm{y} \in \{1972-2021\}} \sum_{\mathrm{p} \in P_{\mathrm{y}}} \mathrm{E} (x_{\mathrm{p}} - c_\mathrm{y} \ pf_\mathrm{p,y})

式の意味合いとしては、各シーズンの PF の結果と齟齬が最も少ない値を GPF とする計算式である。

 c_\mathrm{y} は、対象シーズンで使用した球場の GPF の平均値 である。PF はそのシーズン内での相対値であるため、GPFとの比較にあたり、 c_\mathrm{y} を乗算している。

 \mathrm{E} は損失関数で、今回は計算上の都合で 2乗誤差を使用する。つまり、 \mathrm{E}(x) = x^2 である。

導出過程は省略するが、上記は解析的に解け、

 
gpf_\mathrm{p} =   \dfrac
{\displaystyle \sum_{\mathrm{y}} \sum_{\mathrm{i}} x_\mathrm{ip}^{(y)} \sum_{\mathrm{j}\neq p} x_\mathrm{ij}^{(y)}}
{\displaystyle  \sum_{\mathrm{y}} \sum_{\mathrm{i}} x_\mathrm{ip}^{(y)} \ ^{2}}
 

と求めることができる。行列  X^{(y)} は「球場数」を次元に持つ正方行列であり、
各成分 x_\mathrm{ij}^{(y)} は下記のように定義される。



x_\mathrm{ij}^{(y)} 
= \left\{ \begin{array}{}
0 & if(\mathrm{i} \notin \mathrm{P_{y}} or \ \mathrm{j} \notin \mathrm{P_{y}})\\
1 - \dfrac{pf_{\mathrm{i,y}}}{6} & else\ if(i=j)\\
\dfrac{-pf_{\mathrm{i,y}}}{6} & else
\end{array} \right.

この計算式で歴代球場の GPF を求めた結果は、以下の通りである。

球場名 GPF(得点) GPF(本塁打
甲子園1 (~1975) 0.812814 0.674752
ナゴヤドーム 0.826317 0.519507
甲子園4 (1992~) 0.865136 0.634095
甲子園2 (1976~1987) 0.894876 0.853922
甲子園3 (1988~1991) 0.928345 1.046137
マツダスタジアム 0.938241 0.755011
東京ドーム 0.981574 1.073088
中日球場 1.001729 1.029538
後楽園1 (~1975) 1.002244 0.959607
後楽園2 (1976~) 1.007521 1.146586
明治神宮2 (1982~2007) 1.018577 1.079048
広島市 1.020926 1.025422
明治神宮1 (~1981) 1.077475 0.988909
川崎 1.079190 1.348271
横浜スタジアム 1.084308 0.925897
明治神宮3 (2008~) 1.120157 1.340153


同じ球場であっても、改修によるフェアグラウンドの拡大/縮小や内野グランドの素材変更が行われた場合は別の球場として計算している。逆に名前だけ変更された場合は同じ球場として扱っている。

結果を見ると、明治神宮球場や甲子園球場において、球場の大きさを拡大したにも関わらず、PF が大きくなっているという直感とはズレる結果が起きている。詳細は割愛するが、以下のような可能性が考えられる。

  • サンプル数が少なく確率的に収束していない
  • 2011年以前は球場により異なるボールを使用していたため、その影響を受けている
  • 球場の大きさよりも、ピッチャーマウンド、土/芝などの影響の方が強く出ている
  • 球場集合が異なっても、特定球場間の PF 値は線形性が保存されるという前提条件に誤りがある
  • 損失関数に2乗誤差を使用しているため、外れ値の影響を受けている

特に使用ボールの違いが与える影響はかなり大きいと思われるが、今回は考慮できていない。

直感と異なる部分について補正したい気持ちもあるが、恣意的な変更は行いたくないので、このまま使用する。

ちなみに、今回導出した GPF 以外の方法として、「レフトフェンスの高さ」、「レフトポールまでの距離」など、球場の静的な値などに回帰させて、静的な指標を導出する方法も考えられる。この方法では、例えば本塁打PFに関しては、「左中間/右中間までの距離」と「フェンスの高さ」で概ね説明できそうである。

2. 勝率に対する回帰分析

上記で求めたGPF(得点)をベースに、各シーズンのPF(得点)を再計算する。

 pf_{\mathrm{p,y}} = \dfrac {gpf_{\mathrm{p}}} {{\displaystyle \sum_{\mathrm{i} \in P_{\mathrm{y}}} \dfrac{gpf_{\mathrm{i}}}{6}}}


以降、この再計算した PF(得点)を単に PF と呼ぶ。
下図に、このPFを各シーズン内で [0, 1] になるように正規化し、0.03 刻みでまとめた値を横軸に、縦軸に平均化した勝率を取り描写した。


グラフ描写にあたり、最も得点の入りやすい球場が左に来るように、PF- として左右反転させている。各点の大きさについては、サンプル数に比例して大きくなるように描写している。

結果を見ると、どうやら非常に小さい球場では勝率が5割を切っていることが多く、非常に大きい球場では5割近辺のようである。一方で、大きく勝率が5割を超えているのは、平均からやや小さめの球場であることが分かる。

3. 時間差を持たせた勝率の回帰分析

球場が与える影響を考えた時に、シーズン中の単純な有利/不利だけではなく、選手の成長やプレイスタイルへの影響といった、中期的な影響も考えられる。

例えば、最優秀防御率賞とは異なり、PF の影響を受けにくいと思われる最多勝というタイトルであっても、近年、本拠地球場の小さいヤクルト、横浜からの受賞者は非常に少ない。
また、広い球場を本拠地とする阪神、中日において、30本塁打以上を打った最後の日本人選手* が金本、和田というFA移籍選手であることも踏まえると、「選手の成長」という中期的な影響は十分あり得そうである。

若手選手が主力プレイヤーに成長するまでには一定の期間があることから、数年後の勝率に対して、回帰分析を行なった。
下図は「勝率」を「4〜6年後の平均勝率」に置き換えてプロットしたものである。

「4〜6年後の平均勝率」の方がより強く、平均的な球場の優位性を示すことが分かる。

さらに細かく見ると、「完全に平均的な球場」よりも「少し得点が入りにくい球場」の方が有利な傾向がありそうである。
この曲線に対して、2022年現在の各チームの本拠地状況をプロットしてみた。

縦軸の勝率については、セリーグ最後の球場改変(2009 マツダスタジアム移転)の5年後(2014年)以降の平均勝率を表示している。

両端(ヤクルト、中日)については、期待値から少し差があるが、全体としてはかなりフィットしているように見える。

また、この回帰結果では、最も勝率の期待値が高い球場と最も低い球場では、勝率の期待値が1割ほど異なることが分かる。
NPBにおいては、シーズンの勝率が6割を超えるとほぼ優勝でき、逆にどれだけ強いチームでも勝率が7割を超えることはない。

バスケットボールやサッカーのプロリーグでは、優勝チームの勝率が9割近くになることを考えれば、野球というスポーツは実力差が勝率に表れにくく、少しの勝率差が非常に重要になることが分かる。

実際に縦軸を「4〜6年後の優勝確率」にして、描写したグラフが下記になるが、「勝率」以上に「優勝確率」が平均的な球場に偏っている

ちなみに、統計的な意味合いを考えた時、このグラフは優勝確率というよりは、「優勝し易さ」と捉える方が適切と思われる。

この結果をそのまま適用すれば、この先のセリーグでは、10年中、7年の優勝を広島、巨人で分け合い、残り3年を他のチームで争うような構図となってしまう。

1年間143試合で計算される連続的な値である勝率とは異なり、優勝できるか否かは1年に一度、0/1 で決まる変数であり、確率的な収束は起こりにくい。その結果、この先10年、20年優勝できないチームが出てきてもおかしくない。

4. 個別球団の推移例

最後に、具体例として、個別球団の球場のPFと勝率の推移を確認する。

対象として、セリーグの中でFAによる大物選手の獲得が少なく、ドラフトによる戦力育成が重要になると思われる広島、ヤクルトの2球団を見てみる。

まず、広島を見てみると、球場のPFの推移と勝率の推移が非常に同期していることが分かる。
勝率については、その年の勝率に加え、前後1年の勝率を加えた3年間の平均勝率をプロットしている。
PF については、5年ほど右にずらし、上下を反転させている。

甲子園ラッキーゾーン撤廃(1992年)、ナゴヤドーム移転(1997年)などにより、PFが大きくなるにつれ、見る見るうちに勝率が下がっていき、マツダスタジアム建設から5年前後で勝率が上昇し始めている。

広島については、球場が取り残されていく期間とドラフト逆指名制度(1993年 - 2006年)の期間が重複しており、2要因のダブルパンチにより、極端な結果が出ているものと思われる。

次にヤクルトを見ると、広島ほどではないが、全体的に同期をしているように見える。
神宮球場改修(1982年)、ナゴヤドーム移転(1997年)、神宮球場改修(2008年)、マツダスタジアム移転(2009年)が、PFに変化を与えており、その5年前後での勝率の上昇/下降が見て取れる。

ちなみに、1992年にラッキーゾーン撤廃後に低迷していた阪神が 5年連続最下位から脱出したのは、甲子園より点が入りにくい球場であるナゴヤドームができた 5年後の 2002年であり、18年ぶりに優勝したのは 6年後となる 2003年である。

2002年から就任した星野監督やFA移籍により加盟した金本選手による影響も大きいだろうが、この 「5年」という数字はマジックナンバーなのかもしれない。

まとめ

近年、超一流選手は NPB 内のFA移籍ではなく、MLB に挑戦することが多くなった。また、球団経営の努力により、多くの球団が黒字化しており、以前のように必ずしも特定の球団だけに、一流選手が集まるような状況ではなくなっているように見える。

ドラフトについても、金銭力が物を言うような逆指名制度も撤廃され、選手の育成能力や育成環境は重要になってきていると思われる。

特に、2011年から導入された統一球により、変更が容易なボールによる影響はなくなり、球場の形状が与える相対的な影響も大きくなっていると思われる。

例えば、ソフトバンクの3軍制度など、「育成環境」が言及されることも多いが、実践の中で選手が育ちやすい球場という視点も今後重要になるかもしれない。

注意事項

多くのタイミングで平均値を取りまとめているように、あくまで本分析は傾向を示すものであり、本拠地のPFだけで勝率や優勝チームが決まるようなことはない。

実際に、特定選手の活躍、怪我、不振などにより、その年のチーム勝率は大きく左右し、また、シーズン終了後の総評では、それらを要因として説明されることが多い。

一方で、そのような説明しやすい要因の背後に隠れた「構造的な要因」により、「出目が不均一な歪んだサイコロ」が作り出されている可能性について、本分析は言及したものである。

以下に、データの解釈として注意が必要な点やより細かな分析が求められる点について、簡単に言及して終わりとしたい。

【PF は何によって決まるのか?】

PF が球場の形状により影響を受けることは、おそらく間違いないだろう。ただし、本当にそれだけで決まるのかは疑問が残る。

PF は本拠地とするチームの打撃能力や守備能力には影響されないような意図で設計されているが、その球場を本拠地とするチームの対戦成績によってのみ決まるのも事実である。

そのため、本拠地チームの実力やスタンスが反映されている可能性がある。
極端な例だが、チームの打撃方針として、とにかくHR狙いの打撃を行った場合、本拠地では得点が取れるが、その他の球場では得点が取れない傾向が、球場特性で決まる値以上に強くなるだろう。

もしかすると、そのような「本拠地のみでしか通用しないようなプレースタイル」によりチームは勝率が低くなり、概ねホームであっても、ビジターであっても同じようなプレースタイルで戦えているチームは勝率が高いということかもしれない。

その場合、変えるべきは球場ではなく、チームの方針である。
この辺りの真偽は、PF をさらに分解してみたり、ホームとビジターでの勝率差による全体勝率の影響を調べてみると見えてくるものがあるだろう。

【PFの正規化について】

前述の通り、PF に対して、各シーズン単位で正規化を行っている。
これはシーズン内で最も得点しやすい球場は必ず 0、得点しにくい球場は必ず 1 に調整され、どのくらい突出して小さいのか/大きいのかという情報は欠落している。

感覚的には、シーズン内での正規化は不自然に思えるが、実際にはこの処理を入れた方が回帰分析の当てはまりが良くなった。

この要因については、

6チームの勝率合計は必ず3.0で一定になるという条件を満たすにあたり、シーズン内の正規化がうまく機能した

ということなのではないかと考えている。

例えば、すべての球場が同じになり、PFがすべて 1.0 になった場合でも、すべてのチームの勝率が 50% を超えることはあり得ない。

つまり本来は、勝ちやすさのスコアを回帰させ、そのスコア分布からシーズン勝率を求めるという2段階の回帰が必要な問題に対する「場当たり的な対処」として、シーズン内の正規化が機能したのではないかと思われる。

【相関と因果関係の違い】

多くのデータ分析の落とし穴として、相関関係は必ずしも因果関係を意味しないという問題があり、本分析でも PF とは異なる別の因果関係が存在し、その要因を仲介した疑似相関である可能性は捨てきれない。

また、本拠地球場というものは、毎年変わるということはないため、ある特定時期の特定チームの PF は一定になることが多い。
そのため、本質的なデータサンプル数は、実際のサンプル数(50年× 6チームの300)よりも少なく、たまたま、うまく説明できただけの可能性もあり得る。

【選手成績への回帰】

今回の分析から得られた仮説である、選手の育成やプレースタイルへの影響を検証するために、個人の成績やレギュラー格の選手が育っているか否かに対する分析を行うことが望ましい。