목록회귀분석 (14)
무지개타고
간단한 예제를 이용해 엑셀에서 단순회귀모형을 구해보자 LinEst 함수로 회귀계수를 추정해야 겠지만, 이번엔 그냥 분산형 차트 그린 후 추세선 기능을 이용해 단순회귀모형을 구하련다. 언제도 얘기했지만 추세선 기능으로 추정된 회귀계수는 정밀도가 떨어져 정확하지 않다. 그래서 LinEst 함수로 구해야 한다고 했고. 여기서!!! 창조적 발상(?)으로 중학교 때인가 배웠던 방정식 떠올리며 X를 추정한답시고 역함수 구하는 이들이 있는데... 결론을 먼저 얘기하면... 틀렸다. 다르다가 아니라 틀렸다!!! 그네들이 떠올린 것은 수학에서는 맞을지 모르지만 통계학에서 단연코 틀렸다. 나부터도 회귀모형 즉 회귀방정식을 Y = b0 + b1X 라고 간단히 써버리는 습관이 있지만 정확하게는 Y = b0 + b1X + ε ..
두 달 걸렸다. 괜한 호기심에 부동산 실거래가 사이트에서 노원구 아파트 매매 자료 불러들여 씨름한지도. 맨땅에 헤딩 수차례 하고나니, 조금 정리가 됐다. 이에 살짝~ 정리해볼까 한다. 출처 : 국토부 부동산 실거래가 사이트 지역 : 노원구 기간 : 2006년 1월 ~ 2011년 12월 대상 : 아파트 매매 ※ 주의 : 이하 자료 인용 및 처리에 오류가 있을 수 있습니다. 처음엔 간편하게 선형회귀모형으로 처리했다. 그런데 안정된 동(洞)이 있는 반면, 점점 벌어지는 동(洞)도 있고... 즉 모형이 부적절하다는 반증. 이거 잡느라 액세스로 작성한 DB를 세 번 정도 뒤집어야 했다. 선형회귀모형에서 로그변환 회귀모형으로 변경. 부동산에 '부'자도 모르는지라, 논문을 검색해보니 내가 설정한 모형의 부류(?)를 ..
회귀분석을 돌리면 필히 결정계수를 확인해야 하는데... 엑셀에서는 크게 두 가지 방식으로 결정계수를 구할 수 있다. 막강한 LinEst 함수와 단순회귀분석용 RSQ 함수. 아래 자료에 대해 몇가지 모형을 가정해 추정치를 구해봤다. Trend 함수를 활용하면 아래와 같은 방식으로 손쉽게 추정치를 구할 수 있다. e3 셀 (Y=X³+X²+X) =TREND($A$3:$A$9,$B$3:$B$9^{3,2,1},$B3^{3,2,1}) 그럼 결정계수는? LinEst 함수를 이용해 구하는 방법은 여러 차례 소개했다. e13 셀 (Y=X³+X²+X) =INDEX(LINEST($A$3:$A$9,$B$3:$B$9^{3,2,1},TRUE,TRUE),3,1) 그리고 RSQ 함수는 단순회귀모형에서 간편히 쓰는 함수이나 중회귀모형..
언제도 한번 봤듯이, 이 듣보잡 블로그를 방문하는 유입어 중 회귀분석과 관련된 검색어가 제법 된다. 그래봤자 추세선, LinEst, LogEst, Trend 정도지만. 그리고 로지스틱 회귀분석도 의외로 조금 된다. 그런데 로지스틱 회귀분석은 비선형모형이고, 이를 지원하는 엑셀 함수가 따로 있는 것도 아니라 조금 복잡하다. 로지스틱 회귀분석 이론을 알고 있다면 그닥 어려울건 없겠지만... 미력한 재주이나 엑셀 갖고 로지스틱 회귀분석하는 방법을 몇번 소개한 적이 있는데, 유튜브를 검색하면 로지스틱 회귀분석을 엑셀에서 돌리는 사용법을 알려주는 동영상이 있다. 아무래도 글 보다는 동영상이 사용법 익히기는 좀더 수월하지 않을까 해서 참고하면 좋을듯. 위에 동영상에 나온 예제를 따라해 보자. 자료가 충분히 많고 집..
블로그에 회귀분석에 대해 몇몇 글을 올렸다. 그리고 다루는 내용은 회귀분석에 대해 이미 기초적인 지식은 갖고 있다는 전제하에서 엑셀이나 기타 표 계산 프로그램에서 어떻게 사용하는 지를 소개하는 정도다. 즉 회귀분석에 대한 기초지식이 없는 이에겐 도움될 내용은 거의 없다. 이런게 있다는 정도 외에는... 그럼 이 말을 왜 하냐? 안타까와서다. 추세선 기능 하나 안다고 회귀분석이 끝나는게 아니다. 차트에서 지원하는 추세선 기능으론 단편적인 분석 밖에 하지 못 한다. 결국 회귀분석을 공부해야 한다. 그런 이후에 엑셀에서 회귀분석을 돌리고 싶을 때, 그때 다시 찾아오기 바란다. 아마 그때쯤이면 함수 도움말 보면서 스스로 돌릴 수 있을 것이다.
지난 서울 아파트 관리비 총계 자료를 갖고 집단 간 차이 검정을 하련다. 25개 구를 모두 포함하긴 거시기 하니... 내 사는 노원구, 노원구와 비슷한 인구를 자랑하는 송파구. (그러나 송파구는 재정자립도 상위에 속하는 반면 노원구는 재정자립도 하위에 속한다.) 그리고 평균이 가장 낮았던 성동구. 언제나 내 맘대로 선정 끝. 이제 각 구별로 무작위로 단지를 몇개 추출해 관리비 총계를 정리하면... 음... 무작위로 추출한 관리비 총계가 노원이 높게 나왔군. -_- 그러나 무작위 추출에 조작은 결코 없시요~ 아무튼... 인자가 하나고 인자의 수준이 세 개인 일원배치법을 적용해 분산분석표를 작성하면... 위 결과를 얻기 위한 수식 중 주요한 것 몇개만 보면... b22 셀 (처리 제곱합) =SUMPRODUC..
얼마 전 신종 인플루엔자 누적확진환자에 대해, 관찰값 3개로 사기를 친 적이 있다. 그러나 실제 누적확진환자는 보란 듯이 추정치를 벗어나고 있다. 역시 사기는 아무나 치는게 아니었다. T_T 애초에 추정하기를 8월말 까지 약 3,280명 정도를 내다봤으나, 오늘 이미 누적확진환자는 3,312명을 기록했다. 갑작스런 추세의 변화로 인해 약 4,230명 까지도 가능해 보인다. 사후 약 방문이지만... 그래프만 봐서는 서로 다른 회귀모형이 접목한 형태 처럼 보이는 만큼 8월19일 전후에 추세 변화가 발생된 것으로 가정해 본다. 그리고 질병관리본부 홈페이지에 보면, 신종 인플루엔자는 잠복기는 1~7일 정도라 하니 8월12일 부터 변화의 전조가 울려퍼졌다고 가정할 수 있겠다. 그리고 8월 15일 첫 사망자가 발생..
월 초에 감기로 보건소 다녀온 후 신종 인플루엔자 소식에 좀더 관심 갖게 되었다. 그래서 간단히 계산해 봤다. 몇몇 기사 검색를 통해 신종 인플루엔자 누적확진환자수를 확인했다. 이 중 8월 자료, 즉 관찰값 3개 갖고 단순회귀분석과 로지스틱 회귀분석을 돌렸다. 그리고 로그변환 회귀분석도 하나. 점 3개로 사기치긴 뭐하지만... 회귀계수와 결정계수를 구한 후 추정치를 계산한다. 뭐지? 오류 표시는. 로그변환 회귀분석분에서 LinEst 함수를 계열과 LogEst 함수 계열 간에 차이 발생. e2 셀 (로그_LinEst) =EXP(SUMPRODUCT(LINEST(LN($B$3:$B$5),$A$3:$A$5,TRUE,FALSE),A2^{1,0})) f2 셀 (로그_Trend) =EXP(TREND(LN($B$3:$..