positional encoding

전반부에 이어서 적는 BERT4Rec 리뷰 Embedding Layer BERT 모델의 Embedding은 Input값과 Positional Encoding이 합쳐진 형태로 구성된다. 이들은 첫번째 Hidden state로 구성이되는데, $h_{i}^{0} = v_{i} + p_{i}$ 로 두 개의 인풋이 summation된 형태이다. Transformer는 RNN과 다르게 병렬적으로 학습하기 때문에 단어의 시퀀스를 인지할 수 없다. 때문에 각 포지션을 인지할 수 있게 Positional Encoding 작업이 추가되어야한다. (Positional Encoding 참고링크) 여러가지 방법으로 포지션을 할당할 수 있지만 해당 논문에서는 고정된 sinusoid 벡터가 아닌 '학습 가능한' 포지션을 부여하길 ..
트랜스포머 작동 원리를 하나하나 이해하다가 Positional Encoding은 어떻게 이루어지는지 궁금했다. 처음 이 부분을 보자마자 든 생각은 '단순히 각 시퀀스에 인덱스처럼 번호를 부여하면 될까?'였다 만약 시퀀스가 너무 길어진다면 충분히 큰 n이라는 정수값과 Input Embedding이 합쳐졌을 때와 처음 시퀀스(pos=0)와의 차이가 토큰의 의미를 상쇄해버리지 않을까라는 생각이 들었다 Positonal Encoding의 주요 목적은 다음과 같다 1.Input Embedding과 합쳐질 수 있어야한다 2.각 Position 별로 유일한 벡터가 구성되어야한다. 3.서로 다른 길이의 시퀀스의 인덱스 간격이 동일해야한다. 그럼 가장 쉽게 구현할 수 있는 인코딩부터 해보면서 가장 최선의 인코딩이 무엇인..
bat_huni
'positional encoding' 태그의 글 목록