Data Analysis

안녕하세요. Growth Scientist입니다. 오늘은 지난 번 포스팅에 이어서 탐색적 데이터 분석의 두 번째, 상관관계 분석을 해볼 거예요. 특히 다중선형회귀모델은 반응변수(Y)와 설명변수(X)의 선형성을 유심히 봐야해요. X가 Y에 영향을 전혀 미치지 않는다(상관관계가 없다)면 유의미한 회귀모델이 나오지 않겠죠? 반대로 설명변수들끼리의 선형성을 보는 일도 아주 중요하답니다. 분석을 하시다보면 나중에 다중공선성이라는 문제가 생기게 되는데 다중공선성은 쉽게 말해서 Y를 설명하는 변수들이 상관성이 높아 겹치는 문제입니다. 즉, 매출액(Y)이 늘어나는 현상을 상관성이 높은 광고비와 판매촉진비로 설명하려 했더니 두 설명변수의 상관관계가 높아 둘 중 하나를 버려도 되는 일이 발생하거든요. 지금은 탐색적 데이터..
안녕하세요. Growth Scientist입니다. 오늘은 지난번 데이터 불러오기와 전처리에 이어서 본격적인 분석에 방향성을 잡게해주는 탐색적 데이터 분석을 하려고해요. 탐색적 데이터 분석은 (Exploratory Data Analysis) 주어진 데이터 셋(Data Set)을 포괄적이고 직관적으로 바라보면서 데이터를 이해하는 과정이라고 생각하시면 됩니다. 정해진 목적지를 가기 전, 갈 수있는 경로에 대해서 알아보는 것이 되겠네요. 오늘 보여드릴 EDA는 데이터의 분포 및 이상치 확인, 상관관계 분석을 보여드릴 거에요. 실습 파일은 이전 글에서 소개드렸던 국민건강영양조사 데이터를 사용하도록 할게요. hn 데이터를 잘 불러오셨다면 먼저 데이터들의 분포를 확인해볼까요? 너무 한쪽으로 치우친 분포는 없는지, 이..
안녕하세요. Growth Scientist입니다. 오늘은 전통적인 통계 패키지죠. R 프로그램을 이용하여 데이터를 다루는 법을 소개하겠습니다. 실습에 사용할 데이터는 공공데이터인 국민건강영양조사 자료입니다. 자 그럼 시작해볼까요? 1. 데이터 불러오기 먼저 R STUDIO를 켜줍니다. 그리고 데이터가 있는 폴더에 가서 폴더 경로를 복사해줍니다. 그런 다음 R STUDIO에서 setwd('파일경로')를 넣어줍니다. 그런데 여기서 주의할 점은 저기있는 '역슬래시'를 '슬래시'로 바꿔야합니다. 그렇지 않으면 오류가나요ㅠㅠ 데이터가 있는 폴더에 도착했으면, read.csv('파일명.csv')를 입력해줍니다. 그리고 변수에 저장해줍니다. hn_dat
bat_huni
'Data Analysis' 카테고리의 글 목록 (5 Page)