안녕하세요. Growth Scientist입니다.
오늘은 지난 번 포스팅에 이어서 탐색적 데이터 분석의
두 번째, 상관관계 분석을 해볼 거예요.
특히 다중선형회귀모델은 반응변수(Y)와 설명변수(X)의 선형성을 유심히 봐야해요.
X가 Y에 영향을 전혀 미치지 않는다(상관관계가 없다)면 유의미한 회귀모델이 나오지 않겠죠?
반대로 설명변수들끼리의 선형성을 보는 일도 아주 중요하답니다.
분석을 하시다보면 나중에 다중공선성이라는 문제가 생기게 되는데
다중공선성은 쉽게 말해서 Y를 설명하는 변수들이 상관성이 높아 겹치는 문제입니다.
즉, 매출액(Y)이 늘어나는 현상을 상관성이 높은 광고비와 판매촉진비로 설명하려 했더니
두 설명변수의 상관관계가 높아 둘 중 하나를 버려도 되는 일이 발생하거든요.
지금은 탐색적 데이터 분석 단계이니, 향후 분석에서 중심적으로 다뤄야 할 부분만
머리 속에 넣는다고 생각하고 시작해보죠!
DATA : 국민건강영양조사(2019) - hn_dat
Y <- hn_dat$HE_BMI #BMI
X1 <- hn_dat$age #연령
X2 <- hn_dat$BO1;#주관적 체형인식
X3 <- hn_dat$ainc #소득
X4 <- hn_dat$BP1 #스트레스 인지율
X5 <- hn_dat$LQ_8HT #행복감
X6 <- hn_dat$educ #학력
X7 <- hn_dat$LQ_3HT #우울감
X8 <- hn_dat$BO2_1 #체중 조절 여부
X9 <- hn_dat$HE_insulin #인슐린 수치
X10 <- hn_dat$sex;X10 #성별
[ 산점도 행렬 그리기 ]
R의 내장함수를 이용하여 산점도 행렬을 그려볼게요. 아주 쉽고 간단해요
기본 명령 : plot(df)
wow.. 이게 뭔가싶죠..? 아마 행렬을 아시는 분들이라면 이해가 쉽겠지만,
모르시는 분들을 위해서~ 행렬은 행과열로 이루어진 데이터(숫자)들의 집합인데요.
이런식으로 A1,1은 1번째 행과 열 A3,2는 3번째 행과 2번째 열의 형태로 구성되어있어요.
다중회귀분석에서는 이 행렬 개념이 필수적으로 들어갑니다.
위의 산점도 행렬의 빨간 박스는 Y와 X1의 산점도이구요, 파란박스는 Y와 X2의 산점도예요.
그리고 유심히 보시면 대각선을 기준으로 대칭인 것을 볼 수 있죠? 이러한 행렬을 대칭행렬이라고 해요.
그런데 문제는 변수가 너무 많아서 한 눈에 보기 쉽지 않다는 거예요. 그래서 함수를 하나 더 소개해드릴게요.
기본 문법 : pairs(~변수1+변수2+변수3+ ... , data=df)
pairs 함수는 보고싶은 변수들만 불러와서 산점도 행렬을 구해주는 함수예요.
보아하니 Y와 다른 설명변수들은 양의 상관관계를 띄고 있는 듯 선형성이 보이네요.
설명변수들 간에는 상관성이 보이지 않는 것으로 보여요.
더 정확히 알아보려면 cor.test함수를 사용하면돼요.
기본문법 : cor.test(변수1,변수2)
Y와 X1의 상관관계는 pearson의 상관계수 기준으로 0.4가 나왔네요.
0.4 정도면 두 변수의 '상관관계가 있다'고 해석할 수 있어요.
즉, 연령이 증가할수록 비만도(BMI)가 올라간다고 할 수 있는 것이죠.
상관관계에 대한 T검정과 p-value까지 나오니 바로 검정할 수도 있어요.
이와 같이 여러분이 관심있는 변수들에 대한 상관성을 분석해볼 수 있겠네요!
탐색적 데이터 분석은 정해진 절차가 없어요.
객관적으로 데이터를 다뤄야 함에도 불구하고, 어떤 인사이트를 뽑을 수 있을지 창의적으로 생각해야 한답니다.
다음 시간에는 다중회귀분석 첫번째 포스팅을 할게요~
그럼 BYE~
'Data Analysis > [Project] Regression With R' 카테고리의 다른 글
[R 프로그래밍 회귀분석] ANOVA 함수와 해석 (0) | 2022.06.28 |
---|---|
[R 프로그래밍 회귀분석] Summary 분석 해석 (0) | 2022.06.26 |
[R 프로그래밍 회귀분석] 변수선택 - 동시/단계별 변수입력 (0) | 2022.06.25 |
[R 프로그래밍 회귀분석] 탐색적데이터 분석(EDA) - 1 데이터 분포 살펴보기 (0) | 2022.06.21 |
[R 프로그래밍 실습] 데이터 불러오기 및 전처리 (0) | 2022.06.18 |