代表値とは分布を代表するような値のことであり、平均、中央値・パーセンタイル、最頻値がその例として挙げられる。代表値は数値として表れるものであるため、グラフなどの人間の視覚能力に頼るものよりもデータの特徴を把握しやすいというメリットがある。
平均は、観測値の合計をデータの総数で割ったものである。観測値全てを用いて計算をするため、全てのデータが反映された値であるといえる。しかし、データの中に極端に大きい・小さい観測値を持つものが含まれていた場合、その影響を受けやすいというデメリットもある。
そのような場合に有効なのが中央値である。中央値は、観測値を小さいものから順に並べたときに中央に位置する場所にある値である。また、パーセンタイルも中央値を拡張したようなもので、観測値を小さいものから順に並べ、各観測値の位置をパーセント表示したものである。50%のパーセンタイルが中央値と一致する。これらは平均のように外れ値に影響されることが少ないことがメリットとして挙げられるが、全てのデータを反映するわけではないため、時間変化などの比較はしにくい。
最頻値は、データ中で最も多い観測値であるため、中央値よりもデータ全体の分布を反映した値であるといえる。しかし、観測値のばらつきが大きい場合などにはあまり意味をなさないというデメリットもある。以上のように、それぞれの代表値にはお互いの欠点を補い合うような性質がある。目的に応じて適切な指標を用いることが必要となってくる。
プロ野球では様々なデータをもとに各チームの強さを計るが、各代表値によってどのような違いが見られるかを確かめたいと思う。各チームに所属する選手の打率や防御率などがその指標となることが多いが、今回は最頻値も考えたいということから、離散的な数値を扱いたい。さらに普段あまり目にしないような指標からチームの強さを判断してみたいということから、パリーグ各チームに所属する選手の2022年における球団在籍年数について、代表値を考えることにした。NPB在籍年数や年齢によってチームの強さを計っている場面は時々見かけるが、所属球団の在籍年数で計っているのは今までに見たことがない。FA移籍、トレード、戦力外からの復帰などでNPB在籍年数と球団在籍年数が異なる選手が多々存在する。球団在籍年数とチームの強さに相関があるのかを、代表値をもとにして考える。
それぞれの代表値の計算はExcelを用いて行った。プロ野球データFreak(https://baseball-data.com/22/ranking-year/f/)から各球団所属選手のNPB在籍年数をコピーし、さらに2022年度プロ野球名鑑をもとにして球団の移籍があった選手については手動で球団在籍年数を計算してコピーしたデータに上書きした。これにより各球団所属選手の球団在籍年数のデータを作成できたため、関数を利用して各代表値の計算を行った。その結果は以下の通りである。これは、2022年度の順位順に並んでいる(1位オリックス~6位日ハム)。
この結果から、どのチームにおいても平均、中央値、最頻値が異なる値を取っていることが分かる。中央値と比較して最頻値が小さく出ていることから、プロ野球界の傾向として球団在籍年数は右側(球団在籍年数が長い側)の裾が長くなるような分布にあることが伺える。どのチームにおいても毎年一定の数の選手が入団してくるにもかかわらず、移籍や引退があることによって、在籍年数が長くなる選手は少ないことからこのようになると考えられる。
それぞれの指標について、順位との関連を考える。平均については、4.2年の日ハム、約4.5年のオリックス・西武・楽天、約4.7年のソフトバンク・ロッテの3つに分類できる。顕著に値が小さい日ハムが最下位であることから、平均球団在籍年数の短いと順位が低くなる傾向があることが考えられる。しかし、値の大きいグループが2、5位と首位を逃したり下位に位置していたりすることから、平均球団在籍年数が長すぎても高い順位を取ることができないと考えた。中央値についても、3年、3.5年、4年の3つに分類でき、平均と同様の傾向が考えられる。それに対して、最頻値については、平均、中央値とは異なる考え方ができる。値が小さい最頻値1年のグループが上位を占めているからである。球団在籍年数が1年の選手は、新人選手の他に、他球団から移籍してきた選手が考えられる。FAやトレードなど他球団からの補強が上手くいくことにより、上位を取ることができたと考えられる。最下位の日ハムも球団在籍年数の最頻値が1年であるが、この年の他球団からの補強は1人と少ないことから、各選手の球団在籍年数のばらつきが他のチームより大きいことが原因であると考えられる。
球団在籍年数の代表値からチームの強さを考えると一口に言っても、平均、中央値、最頻値のどれを取るかに応じて異なる考え方ができることが分かった。今回はパリーグの1年分のみ考えたが、2つのリーグの比較をしてみたり、年度による傾向の違いを検討したりするのも面白いと思う。
参考文献
・松原望, 統計学入門, 東京大学出版会, 1991
・プロ野球データFreak(https://baseball-data.com/22/ranking-year/f/)
・GMORESEARCH, 平均値・中央値・最頻値の意味と使い分け