hirohirohirohirosのブログ

地方国立大学に通う情報系学部4年

統計学入門 第3章 練習問題 解答まとめ

3.1

 pythonで散布図を記述する.なお,データ量が多いため先頭10個に省略して記述している.



r=(xiy¯¯¯)(yiy¯¯¯)(xix¯¯¯)2(yiy¯¯¯)2

相関係数は定義から

\begin{align}
r = \frac{\displaystyle \sum(x_{i} - \overline{y})(y_{i} - \overline{y})}{\sqrt{\sum(x_{i} - \overline{x})^{2}}\sqrt{\sum(y_{i} - \overline{y})^{2}}}
\end{align}

であるため,定義通り計算し

となる.

3.2

 A氏:喫煙者にはストレス解消の為に吸っている人が多い.タバコと肺がんに関係があるので無くストレスと肺がんに関係があるのではないか.私はストレスを抱えてないため肺がんにはなりにくいはずだ.

 コメント:A氏の主張はタバコと肺がんは見かけ上の相関であるという主張である.これを反論するにはタバコとストレスの関係,ストレスと肺がんの関係を調べたり,偏相関係数を求める必要がある.

3.3

 (2)の短期大学生と(3)の経営者団体で求めてみる.

 スピアマンの順位相関係数

\begin{align}
r_{s} = 1 - \frac{6}{n^{3}-n} \sum (R_{i} - R_{i}')^{2}
\end{align}

で定義される.よって,

となる.ケンドールの順位相関係数

\begin{align}
r_{k} = \frac{G - H}{n(n-1)/2}
\end{align}

である.(G, Hについては第三章まとめを参照)よって,

となる.

3.4 ブーストラップ

 標本集団から標本集団と同じ数だけランダムに値を再抽出し,そのデータセットに対し統計量を求め,それを何回も繰り返すことで母集団の性質を求めようとする手法をブートストラップと言う.

i)

 pythonで整数の乱数はrandomモジュールのrandint関数で発生できる

ii)

 今後のため相関係数を求める関数を用意しておく.

この関数を使い,11個のランダムな番号からデータを抽出し,その相関係数を求めると

となる.

iii)

 ii)を200回繰り返し,得られた相関係数200個をヒストグラムにする.コードは

である.得られたヒストグラム

である.この統計手法をブーストラップという.