r

안녕하세요. Growth Scientist입니다. 오늘은 회귀모형을 훈련하고 성능을 테스트 해볼거예요. 다중회귀모형은 아주 기본적인 모델이고, 머신러닝에서도 쓰이는 학습 모델이에요. 학습을 반복하며 모델의 성능을 높여 최적의 모델로 만드는 것이 목적이죠.하지만 오늘 포스팅은 한 개의 데이터 셋으로 학습과 테스트를 할 수 있는 방법을 알려드릴게요. 먼저 충분한 양의 표본이 있다면 학습자료와 테스트 자료로 분리시켜요.학습 자료를 새로운 다중 회귀모형으로 구성하고, 이 모형으로 테스트 자료를 이용하여 예측값(Y_hat)을 구해요.마지막으로 원시 반응변수(Y)와 예측값을 비교하며 유사성을 체크하면 끝입니다. 그럼 바로 실습으로 가볼까요? DATA : 국민건강영양조사(2019) - hn_dat Y
안녕하세요. Growth Scientist입니다. 오늘은 주어진 회귀모델에 대한 표준화 회귀계수를 구해볼거예요. '표준화'라는 말은 다른 두 객체를 비교할 수 있도록 하나의 기준으로 재구성하는 것을 말하죠? 회귀계수에서도 마찬가지로 단위가 각각 다른 설명변수들에 대해 하나의 기준으로 일치시키는 표준화 작업으로 반응변수에 미치는 영향력 크기를 한 눈에 비교할 수 있어요. 지금까지 하고있는 프로젝트로 예를 들어볼까요? 저는 반응변수 비만 미치는 설명변수들로 나이, 주관적 비만의식, 인슐린수치, 성별을 선정했어요. 네 변수 모두 단위가 달라 회귀계수의 정확한 비교를 할 수 없겠죠? 가령, 100cm = 1m는 같은데 그 수치가 달라 숫자로만 보면 100배의 크기를 가진다고 오해할 수 있으니까요. 그래서 단위의..
안녕하세요. Growth Scientist입니다. 오늘은 지난번 변수변환까지 완료된 모델에 대한 독립성 검정을 할거예요. 정확히 오차항의 독립성에 대해서 검정할 건데, 회귀분석의 이론을 잠깐 살펴보면, 회귀계수β를 추정할 때, ε는 설명할 수 없는 부분이자 알지못하는 부분이기 때문에, 일반적으로 ε(오차항)은 독립적이고 정규분포를 띈다고 가정해요. 반대로 가정이 깨지면, 회귀모델이 의미가 없어지는 것이죠. 오차항이 독립이다라는 말은 무엇일까요? Y = β0 + β1X1 +β2X2 + ε ε 라는 회귀식이 있다고합시다.주어진 데이터(X,Y)로 Y에 대한 회귀추정식을 만들건데,설명변수(X)는 변하지 않는 상수로 취급이되고, 반응변수(Y)는 예측값으로 확률변수로 취급돼요. 질문 상수(X)로 설명되는 변수가 어..
안녕하세요. Growth Scientist입니다. 지난번 잔차도 분석에 이어서, 오늘은 오차의 정규성을 교정하기 위해 BOXCOX 메소드를 활용한 변수변환에 대해서 소개할거예요. 변수변환은 정규성 이외에도 회귀모형의 선형성, 등분산성을 위해서도 이용할 수 있는데요. 반응변수 Y를 Log, 역수, sqrt(루트)와 같이 수학적으로 변형시키는 방법이에요. 그렇다면 들어가기 전, 변수 변환의 효과에 대해서 살펴볼까요? [ 변수변환 효과 ] 변수변환은 데이터의 선형성을 위해서 실시되기도 해요. 포유류의 몸무게와 뇌몸무게를 비교한 scatter plot을 봅시다. 자료를 보니 2개 정도의 극단치가 보이네요. 가장 구석에 있는 저 동물은 아프리카 코끼리예요. 자료끼리의 텀을 살펴보면 x와 y값 모두 차이가 큰 것을..
안녕하세요. Growth Scientist입니다. 오늘은 R 프로그래밍을 이용하여 잔차도를 분석해볼거예요. 회귀식이 설명하지 못하는 모집단의 부분을 오차라고 하고,회귀식이 설명하지 못하는 표본집단의 부분을 잔차라고 해요.표본집단을 대상으로 진행되는 연구는 모두 잔차를 다루죠.표본 평균이 모평균을 추정하는 도구가 되듯이,잔차도 모집단의 오차를 추정하는 도구가 돼요. 회귀분석을 위해선 몇가지 가정을 충족해야해요. 오차의 등분산성, 독립성, 정규성, 회귀식의 선형성 을 말이죠.위 조건들이 충족되면 회귀모델로 사용할 수 있는데,이를 검증하기 위해선 잔차도를 그려봐야 한답니다. 자 그럼 바로 시작해볼까요? DATA : 국민건강영양조사(2019) - hn_dat Y
안녕하세요. Growth Scientist입니다. 오늘은 여러가지 회귀모델을 비교할 수 있는 방법에 대해서 알아볼 거예요. 부분 F 검정(Partial F - Test)는 앞선 포스팅에서의 F 검정과 유사하게 연구자가 검정하고 싶은 부분을 개별적으로 유의성을 검정해줘요. 또한, 앞에선 하나의 모델로 ANOVA Table을 봤지만, 오늘은 두 개의 모델을 비교하여 두 모델의 적합성을 판단하는 작업을 해볼게요. 그럼 시작해볼까용? DATA : 국민건강영양조사(2019) - hn_dat Y
안녕하세요. Growth Scientist입니다. Summary 함수를 알아봤던 저번 시간에 이어서 회귀분석에서 필수적인 ANOVA 함수를 알아볼 거예요. ANOVA는 Analysis of Variance로 각 변수들의 분산분석을 해주는 방법론이에요.예를들어 서울, 대전, 춘천, 부산의 부동산 가격의 분산에 대하여 분석하여 각 집단별 차이를 보기위한 방법처럼, 여러 집단의 평균차이를 검증할 수 있게 해준답니다. 회귀분석에서의 ANOVA는 조금 다른 개념으로 접근하셔야 해요.그럼 이해하기 쉽게 이론부터 시작해볼까요? DATA : 국민건강영양조사(2019) - hn_dat Y
안녕하세요. Growth Scientist입니다. 오늘은 지난 번 포스팅에 이어서 탐색적 데이터 분석의 두 번째, 상관관계 분석을 해볼 거예요. 특히 다중선형회귀모델은 반응변수(Y)와 설명변수(X)의 선형성을 유심히 봐야해요. X가 Y에 영향을 전혀 미치지 않는다(상관관계가 없다)면 유의미한 회귀모델이 나오지 않겠죠? 반대로 설명변수들끼리의 선형성을 보는 일도 아주 중요하답니다. 분석을 하시다보면 나중에 다중공선성이라는 문제가 생기게 되는데 다중공선성은 쉽게 말해서 Y를 설명하는 변수들이 상관성이 높아 겹치는 문제입니다. 즉, 매출액(Y)이 늘어나는 현상을 상관성이 높은 광고비와 판매촉진비로 설명하려 했더니 두 설명변수의 상관관계가 높아 둘 중 하나를 버려도 되는 일이 발생하거든요. 지금은 탐색적 데이터..
bat_huni
'r' 태그의 글 목록