안녕하세요. Growth Scientist입니다. 오늘은 여러가지 회귀모델을 비교할 수 있는 방법에 대해서 알아볼 거예요. 부분 F 검정(Partial F - Test)는 앞선 포스팅에서의 F 검정과 유사하게 연구자가 검정하고 싶은 부분을 개별적으로 유의성을 검정해줘요. 또한, 앞에선 하나의 모델로 ANOVA Table을 봤지만, 오늘은 두 개의 모델을 비교하여 두 모델의 적합성을 판단하는 작업을 해볼게요. 그럼 시작해볼까용? DATA : 국민건강영양조사(2019) - hn_dat Y
안녕하세요. Growth Scientist입니다. Summary 함수를 알아봤던 저번 시간에 이어서 회귀분석에서 필수적인 ANOVA 함수를 알아볼 거예요. ANOVA는 Analysis of Variance로 각 변수들의 분산분석을 해주는 방법론이에요.예를들어 서울, 대전, 춘천, 부산의 부동산 가격의 분산에 대하여 분석하여 각 집단별 차이를 보기위한 방법처럼, 여러 집단의 평균차이를 검증할 수 있게 해준답니다. 회귀분석에서의 ANOVA는 조금 다른 개념으로 접근하셔야 해요.그럼 이해하기 쉽게 이론부터 시작해볼까요? DATA : 국민건강영양조사(2019) - hn_dat Y
안녕하세요. Growth Scientist입니다. 오늘은 지난 번 포스팅에 이어서 탐색적 데이터 분석의 두 번째, 상관관계 분석을 해볼 거예요. 특히 다중선형회귀모델은 반응변수(Y)와 설명변수(X)의 선형성을 유심히 봐야해요. X가 Y에 영향을 전혀 미치지 않는다(상관관계가 없다)면 유의미한 회귀모델이 나오지 않겠죠? 반대로 설명변수들끼리의 선형성을 보는 일도 아주 중요하답니다. 분석을 하시다보면 나중에 다중공선성이라는 문제가 생기게 되는데 다중공선성은 쉽게 말해서 Y를 설명하는 변수들이 상관성이 높아 겹치는 문제입니다. 즉, 매출액(Y)이 늘어나는 현상을 상관성이 높은 광고비와 판매촉진비로 설명하려 했더니 두 설명변수의 상관관계가 높아 둘 중 하나를 버려도 되는 일이 발생하거든요. 지금은 탐색적 데이터..
안녕하세요. Growth Scientist입니다. 오늘은 전통적인 통계 패키지죠. R 프로그램을 이용하여 데이터를 다루는 법을 소개하겠습니다. 실습에 사용할 데이터는 공공데이터인 국민건강영양조사 자료입니다. 자 그럼 시작해볼까요? 1. 데이터 불러오기 먼저 R STUDIO를 켜줍니다. 그리고 데이터가 있는 폴더에 가서 폴더 경로를 복사해줍니다. 그런 다음 R STUDIO에서 setwd('파일경로')를 넣어줍니다. 그런데 여기서 주의할 점은 저기있는 '역슬래시'를 '슬래시'로 바꿔야합니다. 그렇지 않으면 오류가나요ㅠㅠ 데이터가 있는 폴더에 도착했으면, read.csv('파일명.csv')를 입력해줍니다. 그리고 변수에 저장해줍니다. hn_dat