セクション7 「社会人に必要な数のセンス」 コース001111

セクション7
「データ解析(多変量統計解析)の概論」

一連のセクションの最後に、経営企画部門やマーケティング部門で働く人にとって、比較的身近な数学の応用として、データ解析(多変量解析あるいは統計解析などとも呼ばれる)について触れておこう。これも具体的手法を細かく言い出すとキリがないのだが、ここでは「相関係数」と「重回帰分析」と「主成分分析」について、ごく概念的なことを説明する。参考書もさまざまなものが出ており、また下記のようなデジタル資料もある。

■データ解析についてのデジタル資料(教材)
http://www008.upp.so-net.ne.jp/contents/datakaiseki.html

実際のビジネス・データを使うのではなく、ここでは2006年のプロ野球セリーグのデータを使おう。一年間トータルで、各チームは、攻撃面で以下のような実績を残している。とりあえずこの表をながめるだけでも、わかってくることはある。たとえば、得点数が多いのは中日とヤクルトだが、前者はチーム打率がリーグ一高く、後者は本塁打数と盗塁数で、ダントツともいえる数字を残している。特に中日の得点効率の良さは特筆ものだ。一方、広島は横浜と比べ、本塁打数は同じで打率や盗塁数では勝っている。
しかし得点数では後れをとっている。広島というと1980年前後の最盛期を知る者にとっては「ソツのない野球」というイメージが何となくあるのだが、実際には少なくとも攻撃面で、そうでもないようだ。巨人は2005年には本塁打数でダントツだったのだが2006年はそれも振るわず、しかも打率も低いので、広島に並ぶ程度の得点数しかあげていない。

そういった直感的な発見に対し、もう少しきちんとした数学的根拠を与えるのがデータ解析である。
たとえば常識的にいって、チーム打率が高ければ、得点数も多いと考えていいだろう。6チームを見比べても、何となくそういう傾向は見てとれる。しかし実際にそれを検証するには、「相関係数」という値を計算する必要がある。複数(今回でいえば6)のサンプルに対して測定された2種類のデータ量の大小関係が、どれだけ一致するかをみるものである。まったく同じデータ量の場合、相関係数は1となる。大小関係がお互いまったく無関係の場合、相関係数は0となる。片方が「昼の時間」でもう片方が「夜の時間」といった具合に、大小関係が完全に相反する場合、相関係数はマイナス1となる。今回、実際にチーム打率と得点数の間で相関係数を計算すると、約0.697となった。やはりそれなりに、正の関係にはなっているわけである。

重回帰分析というのは、得点数のようにさまざまな要因が絡むデータ量を、実際にどんな要因がどう関係しているか、検証するものである。今回の場合、重回帰分析を行うことで、得点数というものは大まかにいって次のように近似できることがわかる。

得点数 = 1.117×本塁打数 + 3896×チーム打率 + 1.380×盗塁数 - 666

ただし残念ながら、これはそれほどピッタリとした良い近似ではないことも同時にわかる。実際、2005年のデータを元に重回帰分析を行うと、本塁打の数はむしろマイナスで効いてくる。そういった近似の良さの検証も含めて、重回帰分析という手法が確立されているわけだ。
重回帰分析は、要因(上記の例では、本塁打数やチーム打率や盗塁数)から結果(得点数)を予測するという目的のほか、望ましい結果のために必要な要因の数値を知る、あるいは要因と結果の関係を知る、といった目的で広く用いられている。

一方、主成分分析というのは、「得点数」のように何かの量をほかの量で説明するのではなく、特徴的な量により各データを主要な二次元にプロットする際に使われる。今回は、本塁打数、チーム打率、盗塁数という3つの特徴量を元に、2つの主成分を求め、プロットしてみた。
2つの主成分がどんな意味を持つのかは自明ではなく、それを読み取るのが、分析者の腕の見せどころということになる。阪神、広島、横浜という3球団は攻撃面では比較的似た特徴を持っていること、また優勝した中日は、全体に平均的(バランスが取れている)こと、などがわかるだろう。この主成分分析は、企業イメージ調査やタレント・ポジショニングなどにもよく使われる。

数学的にいえば、相関係数というのは、内積をはじめとしたベクトル演算が中心である。重回帰分析は平たくいえば一次連立方程式であり、これは逆行列計算をはじめとした行列(マトリクス)演算が中心となる。
ただし、効果の検定などのためには、より進んだ統計学知識が必要だ。主成分分析も行列演算だが、こちらは固有値問題という難問を解かねばならない。その過程で、たとえば上記の例のように特徴量の種類が3(本塁打数、チーム打率、盗塁数)なら、三次方程式を解く必要がある。特徴量の種類が4なら四次方程式だ。ベクトルや行列の演算、固有値問題などは総称して「線形代数学」と呼ばれ、データ解析を理論的に理解するのに必須の分野である。



『多数決とジャンケン/ものごとはどうやって決まっていくのか』
加藤良平著/講談社/本体1200円
■子どもの視線で、多数決、選挙、ジャンケン、くじびきなどの仕組みやコツ、
雑学を説明しました。もちろん数のセンスも身に付きます。


数字のホント? ウソ!
加藤良平著/KKベストセラーズ/ベスト新書
税込み 819円た。もちろん数のセンスも身に付きます。

ご案内 from 情報ハブ株式会社
「内部統制の資料販売と社内導入サポート」


<目次に戻る>