R프로그래밍

안녕하세요. Growth Scientist입니다. 오늘은 회귀모형을 훈련하고 성능을 테스트 해볼거예요. 다중회귀모형은 아주 기본적인 모델이고, 머신러닝에서도 쓰이는 학습 모델이에요. 학습을 반복하며 모델의 성능을 높여 최적의 모델로 만드는 것이 목적이죠.하지만 오늘 포스팅은 한 개의 데이터 셋으로 학습과 테스트를 할 수 있는 방법을 알려드릴게요. 먼저 충분한 양의 표본이 있다면 학습자료와 테스트 자료로 분리시켜요.학습 자료를 새로운 다중 회귀모형으로 구성하고, 이 모형으로 테스트 자료를 이용하여 예측값(Y_hat)을 구해요.마지막으로 원시 반응변수(Y)와 예측값을 비교하며 유사성을 체크하면 끝입니다. 그럼 바로 실습으로 가볼까요? DATA : 국민건강영양조사(2019) - hn_dat Y
안녕하세요. Growth Scientist입니다. 오늘은 주어진 회귀모델에 대한 표준화 회귀계수를 구해볼거예요. '표준화'라는 말은 다른 두 객체를 비교할 수 있도록 하나의 기준으로 재구성하는 것을 말하죠? 회귀계수에서도 마찬가지로 단위가 각각 다른 설명변수들에 대해 하나의 기준으로 일치시키는 표준화 작업으로 반응변수에 미치는 영향력 크기를 한 눈에 비교할 수 있어요. 지금까지 하고있는 프로젝트로 예를 들어볼까요? 저는 반응변수 비만 미치는 설명변수들로 나이, 주관적 비만의식, 인슐린수치, 성별을 선정했어요. 네 변수 모두 단위가 달라 회귀계수의 정확한 비교를 할 수 없겠죠? 가령, 100cm = 1m는 같은데 그 수치가 달라 숫자로만 보면 100배의 크기를 가진다고 오해할 수 있으니까요. 그래서 단위의..
안녕하세요. Growth Scientist입니다. 오늘은 지난 번 포스팅에 이어서 탐색적 데이터 분석의 두 번째, 상관관계 분석을 해볼 거예요. 특히 다중선형회귀모델은 반응변수(Y)와 설명변수(X)의 선형성을 유심히 봐야해요. X가 Y에 영향을 전혀 미치지 않는다(상관관계가 없다)면 유의미한 회귀모델이 나오지 않겠죠? 반대로 설명변수들끼리의 선형성을 보는 일도 아주 중요하답니다. 분석을 하시다보면 나중에 다중공선성이라는 문제가 생기게 되는데 다중공선성은 쉽게 말해서 Y를 설명하는 변수들이 상관성이 높아 겹치는 문제입니다. 즉, 매출액(Y)이 늘어나는 현상을 상관성이 높은 광고비와 판매촉진비로 설명하려 했더니 두 설명변수의 상관관계가 높아 둘 중 하나를 버려도 되는 일이 발생하거든요. 지금은 탐색적 데이터..
안녕하세요. Growth Scientist입니다. 오늘은 지난번 데이터 불러오기와 전처리에 이어서 본격적인 분석에 방향성을 잡게해주는 탐색적 데이터 분석을 하려고해요. 탐색적 데이터 분석은 (Exploratory Data Analysis) 주어진 데이터 셋(Data Set)을 포괄적이고 직관적으로 바라보면서 데이터를 이해하는 과정이라고 생각하시면 됩니다. 정해진 목적지를 가기 전, 갈 수있는 경로에 대해서 알아보는 것이 되겠네요. 오늘 보여드릴 EDA는 데이터의 분포 및 이상치 확인, 상관관계 분석을 보여드릴 거에요. 실습 파일은 이전 글에서 소개드렸던 국민건강영양조사 데이터를 사용하도록 할게요. hn 데이터를 잘 불러오셨다면 먼저 데이터들의 분포를 확인해볼까요? 너무 한쪽으로 치우친 분포는 없는지, 이..
안녕하세요. Growth Scientist입니다. 오늘은 전통적인 통계 패키지죠. R 프로그램을 이용하여 데이터를 다루는 법을 소개하겠습니다. 실습에 사용할 데이터는 공공데이터인 국민건강영양조사 자료입니다. 자 그럼 시작해볼까요? 1. 데이터 불러오기 먼저 R STUDIO를 켜줍니다. 그리고 데이터가 있는 폴더에 가서 폴더 경로를 복사해줍니다. 그런 다음 R STUDIO에서 setwd('파일경로')를 넣어줍니다. 그런데 여기서 주의할 점은 저기있는 '역슬래시'를 '슬래시'로 바꿔야합니다. 그렇지 않으면 오류가나요ㅠㅠ 데이터가 있는 폴더에 도착했으면, read.csv('파일명.csv')를 입력해줍니다. 그리고 변수에 저장해줍니다. hn_dat
bat_huni
'R프로그래밍' 태그의 글 목록