χ2検定(ノンパラメトリック手法) 適合度の検定、独立性の検定

χ2検定(ピアソンのχ2検定)

 

このページではピアソンのχ2値を用いたχ2検定について解説します。

 

通常のχ2値(こちらで解説しています)とピアソンのχ2値は厳密に言うと異なるため区別して考えます。

 

ピアソンのχ2値は各値自体から算出できるためノンパラメトリック手法の一部と考えられます。
パラメトリック手法、ノンパラメトリック手法についてはこちら で解説しています)。

 

・適合度の検定(ピアソンのχ2検定とも呼ばれます)
・独立性の検定(こちらもピアソンのχ2検定と呼ばれます)

 

をこのページでは解説しています。

 

 

 

適合度の検定(ピアソンのχ2検定)

 

適合度の検定とは、χ2分布を用い実際のデータと理論値(期待値)とのズレを検定するものといえます。
(統計的検定の概要はこちらで解説しています)。

 

ピアソンのχ2値は下記式で表されます。

 

 

 

 

具体的には、母集団の理論値がわかっている場合(例えば5ケタの数字の組み合わせで宝くじを作った場合、当選くじにおいて各々の数字が出る確率は各々1/10であること等)、ある標本データが理論値に従っているかどうかを判断する際などに使用します。

 

下記データを元に実際に検定してみましょう。これは、上述しました5ケタの宝くじの当選くじ10枚における各数字の出現回数の結果です(架空のデータです))。各々の数字の出現回数は以下の通りであり、理論値は0~9の数字各々において1/10です(最も大きい位が0の場合も有りとします)。

 

ここで
・帰無仮説H0:実測値と理論値に差はない(つまり同じ)。
・対立仮説H1:実測値と理論値に差がある。
とします。

 

ピアソンのχ2値の式に基づき、計算を進めると以下のようになります。

 

 

すると、ピアソンのχ2値は17.2となります。

 

ここで有意水準5%として片側検定にかけるとしますと、χ2分布表(自由度は10-1で9となります)より限界値は16.92と読み取れます。(片側検定と両側検定の違いはこちらで解説しています。)

 

よって、有意水準5%の限界値を超えているため、帰無仮説が棄却され、理論値からズレている結果という判断ができます。

 

今回のデータはあえてズレが大きいデータを用いましたが、ズレが少なすぎる場合(理論値に近すぎる場合)もデータに何かしらの問題がある可能性が高くなります(ズレが少ない側を検定するには、両側検定もしくは片側検定(低い側)にかける必要があります。)

 

 

 

関連記事
 

 パラメトリック手法、ノンパラメトリック手法の違いは?

 

 

独立性の検定(ピアソンのχ2検定)

 

独立性の検定とは、クロス集計表における行と列が関係しているかどうかを判断する検定のことです

 

ピアソンのχ2値は適合度の検定においても記載した値を使用します。ただしこの場合の和はクロス集計表すべての値を足したものです。

 

2×2のクロス集計表を元に考えると理解しやすいため、下記データを用い考えていきましょう。
TV、PCの鑑賞時間5時間/日以上見る場合と見ない場合とで、視力矯正の有無(メガネやコンタクトの装着の有無)に影響を与えるかどうかの検定を行います。

 

ここで
・帰無仮説H0:TV、PCを5時間/日以上見るか見ないかは、視力矯正有無に影響しない。
・対立仮説H1:TV、PCを5時間/日以上見るか見ないかは、視力矯正有無に影響する。
とします。

 

 

下の表1つ目が実測値、下の表2つ目が期待値を表しています。また、期待値は帰無仮説をベースに考えます。よって、期待値はTV、PCを5時間/日以上見る見ないに関わらず、同数で視力矯正有り、無しが発生すると考えられるため、下の表の通りになります。

 

 

 

すると、ピアソンのχ2値=(150-105)2/105 + (85-50)2/85・・・と計算していき67.2となります。

 

ここで自由度は片方につき2水準ある中から基準の1水準を引き、掛け合わせるため
自由度=(2-1)×(2-1)=1となります。

 

ここで有意水準5%として片側検定にかけるとしますと、χ2分布表(自由度1)より限界値は3.841と読み取れるため、帰無仮説は棄却され、対立仮説TV、PCを5時間/日以上見るか見ないかは、視力矯正有無に影響するが採用されます(この架空データのケースでは)。

 

関連記事
 

 パラメトリック手法、ノンパラメトリック手法の違いは?

 

 

 

また、当サイトのメインテーマであるリチウムイオン電池、電気化学関連の用語は以下でまとめています。

 

興味がある方は参考にしてみてください。

 

ピアソンのχ2検定(ノンパラメトリック手法) 適合度の検定、独立性の検定 関連ページ

Excelデータ分析ツール使用の前準備
度数分布表とヒストグラム
【Excel】平均とは?(算術平均と加重平均) AVERAGEIF関数で条件付き(〜以上かつ以下、〜以上かつ未満、不等号、日付の範囲指定)の平均値を算出してみよう
【Excel】平均とは?2 (幾何平均、移動平均)
【Excel】分散と標準偏差とは?基本統計量とは?Excel関数(VARP関数、STDEVP関数)で分散と標準偏差を計算してみよう
【Excel】変動係数(CV)とは?エクセルで計算してみよう!【演習問題】
標本と母集団
信頼区間の推定
信頼区間の推定をExcelを用いて行ってみよう!
【演習問題】信頼区間の推定を実際に行ってみよう CONFIDENSE.T関数とCONFIDENCE関数の違いは?【Excel】
二項分布
【Excel】正規分布とは?NORM.S.DIST関数で正規分布を描いてみよう【演習問題】
【Excel】ポアソン分布とは?POISSON関数、POISSON.DIST関数の使用方法【演習問題】
正規分布の応用技術(自動運転車におけるAI)
推測統計学とt分布
χ2分布
【Excel】正規分布における歪度と尖度をSKEW関数、KURT関数で計算してみよう【演習問題】
【Excel】RAND関数、RANDBETWEEN関数を用いて乱数を作ってみよう 正規分布に従う乱数発生方法は?【演習問題】
F分布
統計的検定の概要
2群の差の検定(t検定)と検定フロー
F検定(等分散かどうかの検定)
F検定(等分散かどうかの検定)を分析ツールを使用せずに行う方法
Excel関数(FINV、F.INV.RT関数)でF検定時の上側確率に対応するF値を算出する方法
Excel関数(TINV、T.INV.2RT関数)でt検定時の両側確率に対応するt値を算出する方法
等分散の時のt検定
等分散でない時のt検定(ウェルチの検定)
パラメトリック手法とノンパラメトリック手法の違い ノンパラの紹介
マン・ホイットニーのU検定
【Excel】マクネマー検定とは?Excelを使用して演習問題を解いてみよう!
【Excel】Wilcoxonの符号付順位和検定とは?Excelを使用して演習問題を解いてみよう!
【Excel】相関、相関係数とは?COOREL関数、PEASON関数、分析ツールで算出しよう【演習問題】
【Excel】共分散とは?COVAR関数,COVARIANCE.P関数を使用して共分散を求めてみよう COVARIANCE.P関数と.S関数の違いは?【演習問題】
【Excel】階乗の計算方法 FACT関数で階乗を求めてみよう【演習問題】
参考文献
【Excel】関数を使わずにデータを間引く方法
【Excel】関数を使用してデータを間引く方法(INDIRECT関数)
【Excel】関数を使わずにn行ずつ空欄を追加する方法
【Excel】数字の間にハイフンを一括して入れる方法
【Excel】−(ハイフン)を入力した郵便番号の−を消す、再度つける方法
【Excel】Forecast関数で直線補間してみよう!Trend関数との違い
【Excel】SUMPRODUCT関数で積の合計を計算しよう!SUM関数との違い
【Excel】SUMIFS関数で複数条件の和の計算を行ってみよう!〜以上かつ以下、〜以上かつ未満、不等号、日付の範囲指定【演習問題】
【Excel】°(度)とrad(ラジアン)の変換方法【計算の考え方】
【Excel】勾配の計算方法 Excelを用いて勾配を計算してみよう
【Excel】sin曲線(サインカーブ)・cos曲線(コサインカーブ)を書く方法
【Excel】RMS(Root Mean Square)を算出する方法は?計算問題を解いてみよう【演習問題】
【Excel】工程能力指数のCP,CPK,PPKとは?CPKから不良率を算出する方法は?計算問題を解いてみよう【演習問題】
【Excel】Vlookup関数の使用方法
【Excel】STDEV関数とSTDEVP関数の違い
【Excel】5ずつ切り上げる方法 1-5を5、6-10を10とする方法
【Excel】2つのif関数でデータを3種類に分類する方法 (A以上B以下)
【Excel】条件に合うデータの数量の数え上げ Countif,Countifs関数
【Excel】Excelソルバーで最適化問題を解こう!生産計画,線形計画問題【演習問題】
【Excel】Excelソルバーで最適化問題を解こう!二次関数の問題【演習問題】
両側検定と片側検定の違い
分散分析 対応の無い場合の一元配置の分散分析をExcelで行ってみよう
分散分析 対応の有る場合の一元配置の分散分析をExcelで行ってみよう
分散分析 繰り返しの無い、有る場合の二元配置の分散分析をExcelで行ってみよう
多重比較法とは?分散分析との違い Tukeyの方法
数量化I類とは?Excelを用いて定性的なデータ(質的データ)の重回帰分析を行ってみよう
重回帰分析とは?Excel分析ツールで定量データの重回帰分析を行ってみよう!【リチウムイオン電池のデータ解析】
【Excel】最小二乗法とは?INTERCEPT関数とSLOPE関数の使用方法【単回帰分析、重回帰分析】
【Excelまとめ】Excel関数、分析ツールで統計解析を行おう
品質工学におけるFTA(故障の木解析)とは何か?FTAの原理とやり方
品質工学におけるFMEA(故障モード影響解析)とは何か?FMEAの原理とやり方
多変量解析 主成分分析と因子分析とは?違いは?
実験計画法
【Excel】Excelで対数関数の計算・グラフを書いてみよう!

HOME プロフィール お問い合わせ