
트랜스포머 작동 원리를 하나하나 이해하다가 Positional Encoding은 어떻게 이루어지는지 궁금했다. 처음 이 부분을 보자마자 든 생각은 '단순히 각 시퀀스에 인덱스처럼 번호를 부여하면 될까?'였다 만약 시퀀스가 너무 길어진다면 충분히 큰 n이라는 정수값과 Input Embedding이 합쳐졌을 때와 처음 시퀀스(pos=0)와의 차이가 토큰의 의미를 상쇄해버리지 않을까라는 생각이 들었다 Positonal Encoding의 주요 목적은 다음과 같다 1.Input Embedding과 합쳐질 수 있어야한다 2.각 Position 별로 유일한 벡터가 구성되어야한다. 3.서로 다른 길이의 시퀀스의 인덱스 간격이 동일해야한다. 그럼 가장 쉽게 구현할 수 있는 인코딩부터 해보면서 가장 최선의 인코딩이 무엇인..