bert

리사이클 혁명 시대다. 사출기에 쓰레기를 넣으면 예쁜 작품이 나오지만, 데이터는 그렇지 않다. 쓰레기같은 데이터를 넣으면 쓰레기같은 결과가 나오게된다. 그만큼 데이터의 질은 데이터 분석 업무에서 중요한 요소가 된다. 때문에 어떤 데이터를 수집하는지, 전처리는 어떤식으로 수행하는지 신중해야한다. [데이터 정의] 수집데이터는 당일 날짜에 게재되어있는 70,000건 이상의 채용공고 데이터이다. 워크넷은 사람인과 잡코리아 등 여러 플랫폼에서 올라오는 채용공고도 랜딩할 수 있도록 연결해주는데, 이번 분석의 경우 워크넷 API를 활용하기 때문에 민간업체의 공고는 수집되지 않은 채로 진행하였다. 워크넷 채용공고는 민간 업체의 것과 특성이 다르다. 보통 대기업, 중견기업의 공고보다 군소업체에서 구하는 직무가 더 많은 ..
추천시스템에서 side information을 활용하는 것은 성능 향상에 의미있는 결과를 보여준다. 하지만 해당 정보를 Neural Net에 어떤 방식으로 입력하는지에 따라 성능이 다르다. 트랜스포머에 기반하여 SI를 임베딩 시키는 방법엔 기존 상품의 ID 값에 SI를 Summation하거나, Concatenation하는 방법으로 입력해왔다. 해당 연구는 SI를 기존과 같은 방식으로 입력했을 때 모델의 추천 성능은 비슷하거나, 오히려 떨어지는 결과를 문제점으로 삼았다. 저자는 문제의 원인을 Invasive한 입력방식이라고 언급했고, 위 입력이 self-attention을 수행할 때 Query, Key, Value값에 일괄적으로 입력되어선 안된다고 주장한다. 때문에 SI를 새롭게 self-attention..
Minimum Value Product 우리의 제품을 가장 작은 단위로 쪼개어 최소한의 기능을 정의하면 유사한 문서를 유용한 형태로 제공하는 것이다. 추천의 유용성은 유사성에 일부 종속된다. 유사성의 임계치는 어디일까? 직종이 유사하거나, 지역이 유사할 때도 우리는 두 공고가 유사하다고 말할 수 있다. 기존 서비스를 분석했을 때 채용공고가 가지고있는 고유한 키워드를 기준으로 유사한 채용공고를 필터링하고 있다는 것을 알았다. 이를테면 서울 강남구, 요양보호사, 보건, 의료같은 키워드들을 포함하는 채용공고가 노출되는 셈이다. 아쉽게도 키워드 기반의 접근법은 여러가지 문제가 존재한다는 것을 알 수 있었다. 직종과 요구하는 역량은 유사하다고 판단했지만 부산 거주자에게 대전의 일자리를 추천해주거나 신입 지원자에게..
전반부에 이어서 적는 BERT4Rec 리뷰 Embedding Layer BERT 모델의 Embedding은 Input값과 Positional Encoding이 합쳐진 형태로 구성된다. 이들은 첫번째 Hidden state로 구성이되는데, $h_{i}^{0} = v_{i} + p_{i}$ 로 두 개의 인풋이 summation된 형태이다. Transformer는 RNN과 다르게 병렬적으로 학습하기 때문에 단어의 시퀀스를 인지할 수 없다. 때문에 각 포지션을 인지할 수 있게 Positional Encoding 작업이 추가되어야한다. (Positional Encoding 참고링크) 여러가지 방법으로 포지션을 할당할 수 있지만 해당 논문에서는 고정된 sinusoid 벡터가 아닌 '학습 가능한' 포지션을 부여하길 ..
오늘은 2019년에 나온 BERT4Rec 논문 리뷰다 BERT는 2018년 구글이 만들어낸 양방향 트랜스포머이며 Bidirectional Encoder Representations from Transformers라는 풀네임을 가지고있다. 이름에서 볼 수 있듯이 Transformer가 기존에 갖고있던 인코더-디코더 구조가 아닌 인코더만 존재하는 것을 알 수 있다.Transformer와 BERT의 가장 큰 차이점은 학습 방식에 있다 Transformer는 다음 단어를 예측하기위한 학습을 하는 반면,BERT는 마치 빈칸 넣기 문제처럼 MASK된 단어를 학습한다 GPT와 같이 BERT 역시 거대한 말뭉치를 가지고 자연어를 처리하기 위해 학습된 모델이다. 그런데 이 모델을 추천시스템에 적용하기 위해서 나온 논문이..
bat_huni
'bert' 태그의 글 목록