무지개타고

ZTest, TTest, FTest, ChiTest 함수의 용도 본문

Population

ZTest, TTest, FTest, ChiTest 함수의 용도

OnRainbow 2010. 1. 29. 12:01
쉽게 생각해 보자.

집단 A와 B가 있다.
만일 "A와 B는 차이가 있다"라고 한다면
뭘 보고, 어떻게 판단한 것일까?

일단 둘 사이에 차이가 얼마나 발생하는지를 계산해야 할 것이다.
그러기 위해선 차이를 나타내는 측도가 먼저 개발되어 있어야 할테다.
그래야 차이를 계산 할 수 있을테니 말이다.

그리고 또 필요한게 있다.
"차이가 있다"라고 말 할 수 있는 기준이 있어야 한다.

즉 차이를 나타내는 측도와 차이를 판단하는 기준, 이 둘이 필요하게 된다.

이를 통계의 시각에서 접근하면...

차이를 나타내는 측도를 통계에서는 검정통계량이라고 하는데,
차이가 클수록 계산된 값 즉 검정통계량도 크게 나오는게 상식적일 것이다.
만일 검정통계량이 작을수록 차이가 큰 것을 의미하게 된다면 많이 헷갈릴테니 말이다.

그래서 보통의 경우 귀무가설이 "A와 B는 같다"
즉 "집단 간에 차이는 없다"에서 출발하는게 상식에 맞는 것이다.
때문에 말도 생소한 귀무(歸無)가설이라고 부르게 된 것일테다.
(언제도 얘기했듯이 귀무가설은 평등하면서도 보수적이다.)

이번엔 차이의 판단.
판단은 매우 주관적인 개념이다.
동일한 결과를 갖고서도 난 이렇게 판단하지만,
다른 누구는 저렇게 판단 할수도 있으니 말이다.
그래서 계산된 검정통계량을 보고 어느 누구도 인정 할 수 있는 판단의 기준이 필요하고
이를 통계에서는 기각역이라 한다.

그런데 기각역은 유의수준(α)에 종속된다.
바꿔 말하면 유의수준을 먼저 결정해야 기각역을 구할 수 있다는 얘기다.
따라서 유의수준이 클수록 기각역은 작고, 유의수준이 작을수록 기각역은 커진다.

그리고 앞서 구한 검정통계량이 귀무가설을 따를 확률을 유의확률(p-값)이라 하는데
검정통계량이 작을수록 유의확률은 크고, 검정통계량이 클수록 유의확률은 작다.

얘기를 종합하면...
집단 간에 차이가 있는지 없는지를 보기 위해선
귀무가설을 정하고,
검정통계량의 유의확률을 구해,
유의확률(p-값)이 유의수준(α) 보다 작은지 큰지를 보면
집단 간에 차이가 있는지 없는지를 판단 할 수 있게 되는 것이다.

유의확률(p-값) < 유의수준(α) → 유의수준(α) 일 때 귀무가설 기각

엑셀에는 차이 검정을 지원하는 함수가 몇 있다.
물론 캘크에도 있는 함수들이다.
ZTest, TTest, FTest, ChiTest 함수 말이다.(엑셀2010에서는 이들 함수명이 변경됐다.)
이들 함수가 보여주는 값은 유의확률(p-값)이다.
즉 검정통계량이 귀무가설을 따를 유의확률을 바로 구해 준다.

이 유의확률을 갖고 유의수준과 비교하면 차이 검정은 간단히 끝나고,
"집단 간에 차이가 있다/없다"고 말 할 수 있는 밑천이 생기게 된다.

Comments