'다중회귀분석' 태그의 글 목록

2022.07.08· Data Analysis/[Project] Regression With R

안녕하세요. Growth Scientist입니다. 오늘은 회귀모형을 훈련하고 성능을 테스트 해볼거예요. 다중회귀모형은 아주 기본적인 모델이고, 머신러닝에서도 쓰이는 학습 모델이에요. 학습을 반복하며 모델의 성능을 높여 최적의 모델로 만드는 것이 목적이죠.하지만 오늘 포스팅은 한 개의 데이터 셋으로 학습과 테스트를 할 수 있는 방법을 알려드릴게요. 먼저 충분한 양의 표본이 있다면 학습자료와 테스트 자료로 분리시켜요.학습 자료를 새로운 다중 회귀모형으로 구성하고, 이 모형으로 테스트 자료를 이용하여 예측값(Y_hat)을 구해요.마지막으로 원시 반응변수(Y)와 예측값을 비교하며 유사성을 체크하면 끝입니다. 그럼 바로 실습으로 가볼까요? DATA : 국민건강영양조사(2019) - hn_dat Y

[R 프로그래밍 회귀분석] 변수선택 - 동시/단계별 변수입력

2022.06.25· Data Analysis/[Project] Regression With R

안녕하세요. Growth Scientist입니다. 오늘은 다중회귀분석 4번째 포스팅으로 가장 설명력이 높은 변수들을 선택하는 방법을 알려드리려고 합니다. 회귀모델에 들어갈 변수를 선정하는 것은 연구자의 몫입니다. 그 중에서도 설명력이 높고 효율적인 모델(변수의 개수 최소화)을 만드는 것도 연구자의 몫이지요. 변수들을 일일이 넣어보셔서 비교해보신 분들은 아시겠지만, 반복적이고 피곤한 작업이라 프로그램의 도움을 받아야 한다는 것을 느끼실 거예요. 그래서 오늘은 다중회귀모델의 변수입력 방법 중 동시입력방법과 단계별 입력 방법을 소개할게요. 자 그럼 시작해볼까요? SUBJECT : 식습관을 제외한 변수 중 비만에 영향을 미치는 요인 분석 DATA : 국민건강영양조사(2019) - hn_dat Y

[R 프로그래밍 실습] 데이터 불러오기 및 전처리

2022.06.18· Data Analysis/[Project] Regression With R

안녕하세요. Growth Scientist입니다. 오늘은 전통적인 통계 패키지죠. R 프로그램을 이용하여 데이터를 다루는 법을 소개하겠습니다. 실습에 사용할 데이터는 공공데이터인 국민건강영양조사 자료입니다. 자 그럼 시작해볼까요? 1. 데이터 불러오기 먼저 R STUDIO를 켜줍니다. 그리고 데이터가 있는 폴더에 가서 폴더 경로를 복사해줍니다. 그런 다음 R STUDIO에서 setwd('파일경로')를 넣어줍니다. 그런데 여기서 주의할 점은 저기있는 '역슬래시'를 '슬래시'로 바꿔야합니다. 그렇지 않으면 오류가나요ㅠㅠ 데이터가 있는 폴더에 도착했으면, read.csv('파일명.csv')를 입력해줍니다. 그리고 변수에 저장해줍니다. hn_dat

티스토리툴바