안녕하세요. Growth Scientist입니다.
오늘은 R에서 쓰이는 가장 필수적인 함수 Summary에 대한 해석법을 알려드릴게요.
Summary는 R에서 기본적으로 제공하는 함수로
회귀모델에 대한 베타값, 표준오차, t검정통계량, 유의확률, 결정계수 등을 보여줘요.
요약된 결과를 보고 유의하지 않은 회귀계수<B>와 회귀식의 설명력을 가늠할 수 있답니다.
[ 사용 데이터 및 변수 ]
SUBJECT : 식습관을 제외한 변수 중 비만에 영향을 미치는 요인 분석
DATA : 국민건강영양조사(2019) - hn_dat
Y <- hn_dat$HE_BMI #BMI
X1 <- hn_dat$age #연령
X2 <- hn_dat$BO1;#주관적 체형인식
X3 <- hn_dat$ainc #소득
X4 <- hn_dat$BP1 #스트레스 인지율
X5 <- hn_dat$LQ_8HT #행복감
X6 <- hn_dat$educ #학력
X7 <- hn_dat$LQ_3HT #우울감
X8 <- hn_dat$BO2_1 #체중 조절 여부
X9 <- hn_dat$HE_insulin #인슐린 수치
X10 <- hn_dat$sex;X10 #성별
[ Summary 함수 ]
이번 주제에서 사용될 변수 모두를 동시입력방법으로 삽입한 모델이에요.
빨간 박스의 맨 왼쪽<Intercept>부터 맨 오른쪽 ***까지 총 6개의 열이 보이시죠?
첫번째 열 Inertcept<회귀절편>을 시작으로 삽입된 설명변수 10개가 있고,
두번째 열은 Estimate<추정치> 즉, 회귀계수값<B값>을 의미해요.
★여기서, 가끔 추정치와 추정량을 헷갈려하는 분들이 계시는데,
추정치는 정해진 숫자 (수치)가 있을 때, 추정량은 β,σ<표준편차>,ρ<상관계수> 등 수치를 측정할 수 있는 통계량의 개념입니다!
세번째 열은 standard error로 각 추정치에 대한 표준오차를 의미하고,
네번째 열은 t-value로 각 회귀계수의 검정통계량이며,
다섯번째 열은, 해당 t값의 유의확률을 나타내요.
여섯번째 열은 유의수준이 몇 %에서 유의한지 간편하게 볼 수 있게 해줍니다.<파란박스 참고>
어느정도 통계를 배우신 분들이라면, 이제 쉽게 해석하실 수 있을텐데,
하나를 예를 들어 해석해보면, X1의 회귀계수는 β1 = 0.017이며, 표준편차는 0.002, t-value는 7.603이네요.
β1의 유의확률은 0에 매우 가까우므로 해당 회귀계수는 회귀모델에서 유의미하다고 판단할 수 있어요.
반면, 맨 오른쪽 열에 *이 안 붙어있는 친구들은 유의하지 않다고 판단하여
즉, 반응변수 Y에 의미있는 영향을 끼치지 못한다고 판단하여 제거를 할 수 있답니다.
두번째, 결정계수<노란박스>를 소개할게요.
결정계수는 설명변수들이 Y를 얼마나 잘 해석하는지 나타내주는 설명력 측도예요.
결정계수(R)은 0≤R≤1의 값을 가지고 R이 1에 가까울 수록 회귀모델에 성능이 좋다고 판단해요.
자 그럼, 여기서 생각을 해볼게요.
A 회사의 매출액의 상승 요인에 대한 회귀분석을 하는데,
설명변수로 광고비, 판촉비, 인건비, 관리비 등 여러가지의 변수가 들어가면 들어갈수록
매출액을 설명하는 부분이 많아져 결정계수 값이 높아지겠죠?
한마디로, 무작정 변수를 늘리면 설명력이 증가한다는 거예요.
이를 방지하기 위해 연구에서는 수정 결정계수 Adjusted - R squared를 사용한답니다.
수정 결정계수는 설명변수가 늘어날 때마다 자유도를 나누어주어 설명력에 패널티를 부여해요.
자유도로 나누어줌에도 높은 수치를 보이면, 믿을만한 설명력이 된다는 것이죠.
그래서 노란 박스 속 Multiple R squared와 Adjusted - R squared의 값 차이가 나게돼요.
다중회귀분석을 할 때는 보통 Adjusted - R squared를 읽어준답니다.
Adjusted - R squared를 보니, 0.6206으로 Y<BMI>의 62%를 설명해주고 있네요.
사실 사회과학분야의 다중회귀분석에서 수정결정계수는 20%를 넘어도 큰 설명력이라고 인정돼요.
그런데 지금은 무려 62%나 설명이 되어서 어떤 변수가 BMI와 굉장히 유사한 움직임으로
많은 부분을 설명하고 있다고 의심할 수 있겠어요. 이를 찾아내는 것은 이후에 다뤄볼게요.
이를 해석해보면 구성된 설명변수 X1~X10은 Y<BMI>의 62%를 설명하고 있으며,
유의확률은 0에 가까우므로 '구성된 회귀모델의 성능은 좋은 수준이다'라고 말할 수 있어요.
오늘은 Summary 함수를 이용해서 회귀모델을 해석하는 법을 알아보았는데요.
다음 포스팅엔 ANOVA를 이용한 회귀계수 해석법을 알려드릴게요~
그럼 BYE~
'Data Analysis > [Project] Regression With R' 카테고리의 다른 글
[R 프로그래밍 회귀분석] 부분 F 검정과 ANOVA를 통한 모델 비교 (0) | 2022.06.29 |
---|---|
[R 프로그래밍 회귀분석] ANOVA 함수와 해석 (0) | 2022.06.28 |
[R 프로그래밍 회귀분석] 변수선택 - 동시/단계별 변수입력 (0) | 2022.06.25 |
[R 프로그래밍 회귀분석] 탐색적데이터 분석(EDA) - 2 상관관계 분석 (0) | 2022.06.22 |
[R 프로그래밍 회귀분석] 탐색적데이터 분석(EDA) - 1 데이터 분포 살펴보기 (0) | 2022.06.21 |