리사이클 혁명 시대다. 사출기에 쓰레기를 넣으면 예쁜 작품이 나오지만, 데이터는 그렇지 않다. 쓰레기같은 데이터를 넣으면 쓰레기같은 결과가 나오게된다. 그만큼 데이터의 질은 데이터 분석 업무에서 중요한 요소가 된다. 때문에 어떤 데이터를 수집하는지, 전처리는 어떤식으로 수행하는지 신중해야한다. [데이터 정의] 수집데이터는 당일 날짜에 게재되어있는 70,000건 이상의 채용공고 데이터이다. 워크넷은 사람인과 잡코리아 등 여러 플랫폼에서 올라오는 채용공고도 랜딩할 수 있도록 연결해주는데, 이번 분석의 경우 워크넷 API를 활용하기 때문에 민간업체의 공고는 수집되지 않은 채로 진행하였다. 워크넷 채용공고는 민간 업체의 것과 특성이 다르다. 보통 대기업, 중견기업의 공고보다 군소업체에서 구하는 직무가 더 많은 ..
요즘 ChatGPT의 열기가 뜨겁다 알파고의 등장때까지만해도 몰랐다 '저 녀석은 바둑만 잘하니까'의 마인드로 아직은 인공지능이 라이프 스타일을 바꿀 수 없다는 안도감에 취할 수 있었지만.. 이번엔 확실히 다르다 알파고에 들어간 CNN과 강화학습이 불러온 패러다임은 단지 시작에 불과했고 자연어를 이용한 챗봇, 컴퓨터 비전(CV)까지 삽입된 자율주행, 공정 결함을 예측하는 머신러닝 모델 등 여러 산업 전반에 걸쳐 빠르게 변화되고 있다 이젠 ChatGPT가 또 다른 시작을 예고했다 작동방식은 텍스트 -> 토큰화 -> 인코딩 / 텍스트 정보 이해 -> 디코딩 / 답변 생성이라는 비교적(?) 간단한 구조를 가지고 있지만 학습된 양이 무지하게 크기 때문에 정교한 대답을 얻을 수 있다. ChatGPT는 기사와 연설문..