Data Analysis/[Project] Job Description RecSys

리사이클 혁명 시대다. 사출기에 쓰레기를 넣으면 예쁜 작품이 나오지만, 데이터는 그렇지 않다. 쓰레기같은 데이터를 넣으면 쓰레기같은 결과가 나오게된다. 그만큼 데이터의 질은 데이터 분석 업무에서 중요한 요소가 된다. 때문에 어떤 데이터를 수집하는지, 전처리는 어떤식으로 수행하는지 신중해야한다. [데이터 정의] 수집데이터는 당일 날짜에 게재되어있는 70,000건 이상의 채용공고 데이터이다. 워크넷은 사람인과 잡코리아 등 여러 플랫폼에서 올라오는 채용공고도 랜딩할 수 있도록 연결해주는데, 이번 분석의 경우 워크넷 API를 활용하기 때문에 민간업체의 공고는 수집되지 않은 채로 진행하였다. 워크넷 채용공고는 민간 업체의 것과 특성이 다르다. 보통 대기업, 중견기업의 공고보다 군소업체에서 구하는 직무가 더 많은 ..
지난 챕터에 추출된 아이디어 기획을 제품으로 구현시킨 방법론에 대해서 얘기해보도록하겠다. 먼저 개발을 위한 디자인 작업이 필요하다. [서비스 INPUT & OUTPUT 정의] 우리 서비스의 Input은 매일 수집되는 약 70,000건의 채용공고 자연어 데이터이다. output은 각 채용공고별 추천 세트가 되겠다. 특히 output은 데이터베이스에서 수집하고 프론트에 노출되기 용이하도록 각 채용공고의 고유ID로 구성되도록하고 피추천ID : {추천ID[1], 추천ID[2] ...}의 딕셔너리 형태로 전달하도록하였다. [서비스의 기능별 분절] 잘 설계된 개발을 위해서 우리의 서비스를 기능별로 분절을 해야한다. 먼저 크게 두 가지 기능으로 나뉠 수 있다. [추천을 위한 모듈]과 [학습을 위한 모듈]이다. 추천 ..
Minimum Value Product 우리의 제품을 가장 작은 단위로 쪼개어 최소한의 기능을 정의하면 유사한 문서를 유용한 형태로 제공하는 것이다. 추천의 유용성은 유사성에 일부 종속된다. 유사성의 임계치는 어디일까? 직종이 유사하거나, 지역이 유사할 때도 우리는 두 공고가 유사하다고 말할 수 있다. 기존 서비스를 분석했을 때 채용공고가 가지고있는 고유한 키워드를 기준으로 유사한 채용공고를 필터링하고 있다는 것을 알았다. 이를테면 서울 강남구, 요양보호사, 보건, 의료같은 키워드들을 포함하는 채용공고가 노출되는 셈이다. 아쉽게도 키워드 기반의 접근법은 여러가지 문제가 존재한다는 것을 알 수 있었다. 직종과 요구하는 역량은 유사하다고 판단했지만 부산 거주자에게 대전의 일자리를 추천해주거나 신입 지원자에게..
도전을 원했던 이유 2023년 3월 20일부터 2023년 8월 17일까지 고용노동부에서 주관하는 공공데이터 활용 공모전에 참여하였다. 내가 나간 분야는 [제품 및 서비스 개발] 부문이었다. 어떤 비즈니스 문제를 풀어낼 것인지, 이를 어떻게 돌파할지에 대해 구체화 된 프로덕트를 내놓는 방식이었다. 사실은 창업자, 직장인들을 대상으로 모집하는 분야였으나, 주제넘게도 많은 학생들이 갈법한 [아이디어 기획] 부문이 아니라 이 길을 선택했다. 선택의 가장 큰 이유는 학생 콤플렉스를 벗어던지기 위해서이다. 대학교에 다닌 4년 동안 내가 들었던 모든 수업들의 한계점은 아이디어와 기획까지였다. 즉, 누구나 할 수 있고, 수업을 듣는 학생이었다면 누구든 해야했다. 내가 생각하는 학생 콤플렉스는 한계점에 갇힌 채로 만족하..
bat_huni
'Data Analysis/[Project] Job Description RecSys' 카테고리의 글 목록