Data Analysis

리사이클 혁명 시대다. 사출기에 쓰레기를 넣으면 예쁜 작품이 나오지만, 데이터는 그렇지 않다. 쓰레기같은 데이터를 넣으면 쓰레기같은 결과가 나오게된다. 그만큼 데이터의 질은 데이터 분석 업무에서 중요한 요소가 된다. 때문에 어떤 데이터를 수집하는지, 전처리는 어떤식으로 수행하는지 신중해야한다. [데이터 정의] 수집데이터는 당일 날짜에 게재되어있는 70,000건 이상의 채용공고 데이터이다. 워크넷은 사람인과 잡코리아 등 여러 플랫폼에서 올라오는 채용공고도 랜딩할 수 있도록 연결해주는데, 이번 분석의 경우 워크넷 API를 활용하기 때문에 민간업체의 공고는 수집되지 않은 채로 진행하였다. 워크넷 채용공고는 민간 업체의 것과 특성이 다르다. 보통 대기업, 중견기업의 공고보다 군소업체에서 구하는 직무가 더 많은 ..
강화학습 모델로 주식 매매 에이전트를 개발하던 중 들었던 의문점들과 해결해 나간 부분을 따로 정리하려고 한다. 먼저 내가 만들어야 하는 알고리즘은 Policy based Algorithm이다. 크게 두 가지 뿌리로 나뉘는데, Q-Learning과 SARSA와 같이 Value-function을 기반으로 하는 Value-based Algorithm과 Policy Gradient를 활용한 Policy-based Algorithm으로 나뉜다. 두 알고리즘의 차이는 아래와 같다. Value-based : $ Q(S_{t}, a_{t}) $ 을 Maximize하는 기법 Policy-based : $ P(a_{t}, | S_{t}) $ ..
지난 챕터에 추출된 아이디어 기획을 제품으로 구현시킨 방법론에 대해서 얘기해보도록하겠다. 먼저 개발을 위한 디자인 작업이 필요하다. [서비스 INPUT & OUTPUT 정의] 우리 서비스의 Input은 매일 수집되는 약 70,000건의 채용공고 자연어 데이터이다. output은 각 채용공고별 추천 세트가 되겠다. 특히 output은 데이터베이스에서 수집하고 프론트에 노출되기 용이하도록 각 채용공고의 고유ID로 구성되도록하고 피추천ID : {추천ID[1], 추천ID[2] ...}의 딕셔너리 형태로 전달하도록하였다. [서비스의 기능별 분절] 잘 설계된 개발을 위해서 우리의 서비스를 기능별로 분절을 해야한다. 먼저 크게 두 가지 기능으로 나뉠 수 있다. [추천을 위한 모듈]과 [학습을 위한 모듈]이다. 추천 ..
추천시스템에서 side information을 활용하는 것은 성능 향상에 의미있는 결과를 보여준다. 하지만 해당 정보를 Neural Net에 어떤 방식으로 입력하는지에 따라 성능이 다르다. 트랜스포머에 기반하여 SI를 임베딩 시키는 방법엔 기존 상품의 ID 값에 SI를 Summation하거나, Concatenation하는 방법으로 입력해왔다. 해당 연구는 SI를 기존과 같은 방식으로 입력했을 때 모델의 추천 성능은 비슷하거나, 오히려 떨어지는 결과를 문제점으로 삼았다. 저자는 문제의 원인을 Invasive한 입력방식이라고 언급했고, 위 입력이 self-attention을 수행할 때 Query, Key, Value값에 일괄적으로 입력되어선 안된다고 주장한다. 때문에 SI를 새롭게 self-attention..
Minimum Value Product 우리의 제품을 가장 작은 단위로 쪼개어 최소한의 기능을 정의하면 유사한 문서를 유용한 형태로 제공하는 것이다. 추천의 유용성은 유사성에 일부 종속된다. 유사성의 임계치는 어디일까? 직종이 유사하거나, 지역이 유사할 때도 우리는 두 공고가 유사하다고 말할 수 있다. 기존 서비스를 분석했을 때 채용공고가 가지고있는 고유한 키워드를 기준으로 유사한 채용공고를 필터링하고 있다는 것을 알았다. 이를테면 서울 강남구, 요양보호사, 보건, 의료같은 키워드들을 포함하는 채용공고가 노출되는 셈이다. 아쉽게도 키워드 기반의 접근법은 여러가지 문제가 존재한다는 것을 알 수 있었다. 직종과 요구하는 역량은 유사하다고 판단했지만 부산 거주자에게 대전의 일자리를 추천해주거나 신입 지원자에게..
도전을 원했던 이유 2023년 3월 20일부터 2023년 8월 17일까지 고용노동부에서 주관하는 공공데이터 활용 공모전에 참여하였다. 내가 나간 분야는 [제품 및 서비스 개발] 부문이었다. 어떤 비즈니스 문제를 풀어낼 것인지, 이를 어떻게 돌파할지에 대해 구체화 된 프로덕트를 내놓는 방식이었다. 사실은 창업자, 직장인들을 대상으로 모집하는 분야였으나, 주제넘게도 많은 학생들이 갈법한 [아이디어 기획] 부문이 아니라 이 길을 선택했다. 선택의 가장 큰 이유는 학생 콤플렉스를 벗어던지기 위해서이다. 대학교에 다닌 4년 동안 내가 들었던 모든 수업들의 한계점은 아이디어와 기획까지였다. 즉, 누구나 할 수 있고, 수업을 듣는 학생이었다면 누구든 해야했다. 내가 생각하는 학생 콤플렉스는 한계점에 갇힌 채로 만족하..
금융권에서 시계열 분석은 중요한 역할을 하는데 외생변수가 너무 많다보니 예측에 제한이 많이 걸린다. 예를 들어서 다음날 주가를 예측할 때, $ y_{t+1} = y_{t} + x_{t} + e_{t}$로 $x_{t}$라는 feature들과 $e_{t}$라는 노이즈가 예측의 정확성에 큰 영향을 준다. 보통은 RNN, LSTM 계열의 모델을 많이 사용해왔지만 많은 사례에서 공통적으로 예측값이 오른쪽으로 밀리는 Lagging이 되는 현상을 심심치않게 목격한다 주가 예측의 경우 고려하는 feature에 비해 고려하지 못하는 노이즈의 양이 엄청 커버리게 되는데 고려하지 못하는 변수들의 사이즈가 커질 수록 모델은 한정적인 정보로 다이나믹한 예측을 할수 없게된다. 예를 들면 오너리스크가 터진 긴급한 상황에서 모델이 ..
물가연동국채(Inflation Linked Treasury Bond) 투자금과 이자에 물가상승률이 반영된 국채. 물가가 오르면 수익이 생긴다. 예시: 투자자 A는 표면 이율 1%짜리 일반국채 100만원을, 투자자 B는 표면 이율 1%짜리 물가연동국채를 사들였다. 연간 물가 상승률이 5%라고 했을 때, 투자자 A는 물가 상승과 관계없이 1만원의 이자를 상환받지만, 투자자 B는 투자 원금에 물가 상승률이 반영되고 해당 금액에 대한 이자를 상환받는다. 106.05만원 = 105$(조정된 원금)$ + 100*105/100*0.01$(이자)$ 따라서 두 투자자의 상환액 차이는 5.05만원이되고 물가 상승한 상황에서 승자는 B가 된다. 반대로 디플레이션일때는, 투자자B는 조정된 원금이 하락하기 때문에 손실을 보게된..
bat_huni
'Data Analysis' 카테고리의 글 목록 (2 Page)