세상의 데이터는 세분화가 되어있다.
A집단은 보수정당을 B집단은 진보정당을 C집단은 중립이라고 해보자.
설문조사를 수집할 때 임의로 Random하게 샘플링을 했더니
우연스럽게 A집단의 샘플이 50%가 포함이 되었다.
해당 결과는 자연스럽게 보수 정당의 우세라는 결과를 가져온다.
이를 방지하고 더 좋은 샘플링을 하는 방법이 층화추출이다.
층을 지어서 추출한다 -> 집단 세분화를 해놓고 샘플링한다.
A에선 몇 개, B에선 몇 개, C에선 몇 개를 정해놓고 샘플링한다.
자연스럽게 집단 내 대표성을 띄는 샘플이 어느정도 보장되고
집단 간 샘플의 비율이 나름 일정하게 유지될 것이다.
이것만 기억하자
세분화, 샘플링