무지개타고

면적 구하기 본문

Population

면적 구하기

OnRainbow 2009. 5. 4. 11:27

몇번 인용한 한국의 산하에 등록한 산 정보를 참고해 간단한 도수분포표와 히스토그램,
그리고 도수분포표로 계산된 평균과 분산을 이용해 누적정규분포를 그려 봤다.
※ 주의 : 인용 및 처리 과정에 오류가 있을 수 있습니다.

음...
누적상대빈도와 누적정규분포 간에 차이가 느껴진다.
계급간격을 좀더 좁혀 보면 어떨까?

계급간격이 좁을수록 좀더 차이는 줄어드는거 같아 보이는데...
그래도 차이는 있어 보인다.

이에 SPSS를 이용해 정규성 검정을 돌려봤더니,
정규성을 만족하지 않는 것으로 나타났다.

이는 당연한 결과다.
정규분포는 기본적으로 평균이 높고, 평균을 중심으로 대칭인 특징을 갖고 있는데...
히스토그램을 암만 봐도 평균은 치우쳐 있고 대칭도 아니게 보이기 때문이다.

그리고 이는 복잡한 수식이나 히스토그램이 아닌 간단한 도표로도 그 차이를 보일 수 있다.

만일 자료가 정규분포를 따른다면 Q-Q 도표에서
정규화한 값은 정규분포와 겹치거나 근접한 직선으로 나타나게 된다.

이렇게 우리나라 산의 높이는 정규분포를 따르지 않음을 확인할 수 있지만,
계산의 편리를 위해 정규분포를 따른다고 가정하고 엑셀을 이용해 아래를 구해 보자.

정규분포
P{500≤X≤1000}
=NORMDIST(1000,703.3,301.4,TRUE)-NORMDIST(500,703.3,301.4,TRUE)

역시나 도수분포표의 누적상대빈도를 이용해 구한 값과 정규분포를 이용해 구한 값에
차이가 있다.

그런데 만약 그 차이가 용인되는 범위에 포함되어 있다면
정규분포를 참고한다고해서 큰 문제를 야기한다고 보긴 어려울 것이다.
(어렴풋한 기억으로 통계학과에서 수치해석을 배우는 이유가 아마도 이 때문지 않을까 한다.)

물론 적합한 분포를 찾아내, 분포함수로 나타내는게 순서이나...
결코 쉽지 않은 과정이다. -_-;;

참고로 확률은 집합이고,
이를 구한다는 것은 집합의 면적 비(Ratio)를 구하는 것이고,
위에서 처럼 계급간격을 좁힌다는 것은 미분이고,
미분을 합한다는 것은 적분이고,
이는 다시 확률이다.
말이 맞나? -_-a

Comments