금융권에서 시계열 분석은 중요한 역할을 하는데
외생변수가 너무 많다보니 예측에 제한이 많이 걸린다.
예를 들어서 다음날 주가를 예측할 때,
$ y_{t+1} = y_{t} + x_{t} + e_{t}$로 $x_{t}$라는 feature들과 $e_{t}$라는
노이즈가 예측의 정확성에 큰 영향을 준다.
보통은 RNN, LSTM 계열의 모델을 많이 사용해왔지만
많은 사례에서 공통적으로 예측값이 오른쪽으로 밀리는 Lagging이 되는 현상을 심심치않게 목격한다
주가 예측의 경우 고려하는 feature에 비해 고려하지 못하는 노이즈의 양이 엄청 커버리게 되는데
고려하지 못하는 변수들의 사이즈가 커질 수록 모델은 한정적인 정보로 다이나믹한 예측을 할수 없게된다.
예를 들면 오너리스크가 터진 긴급한 상황에서 모델이 해당 정보를 캡처하지 못하면,
최선의 예측으로 현재값과 가장 유사한 안전한 예측을 하는 경향을 보일 것이다.

하루, 일주일 늦은 예측은 당연히 필요가 없는데
위에서 언급했듯이 예측에 반영하는 정보가 한정적이라면
노이즈를 최소화 시킨 채로 모델을 학습시킬 수 있다.
MA와 GF<Gaussian Filtering>, BF<Bilateral Filtering> 등 노이즈를 제거하는 방법은
여러가지가 제시되었다. 이 중 가우시안 필터는 모든 변수에 대해 정규분포의 형식을
강제한다는 점에서 역동적인 예측에 부합하지 않는다는 점이 지적되었다.
실제로도 주식 시장에서는 극단적 경우가 빈번하게 등장하는데(비트코인..?)
이러한 경우 양극단의 분포가 더 증가하는 모양의 형태가 되겠다.
MA같은 경우 역시 과거 관측치에 의존하기 때문에 Lag<시차>를 얼마나 잡느냐에 따라 lagging이 발생한다
이렇게 노이즈와 lagging을 잘 방지하기 위해서는 BF가 활용이될 수 있는데,
해당 방법이 denoising에 효과적인 것으로 여겨지고 있다
이는 어디까지나 주요 부분을 extracting하기 위한 filter의 개념으로 feature engineering에 가깝다.
이러한 효과적인 전처리 과정을 거치지 않고 Raw한 데이터를
그대로 모델에 넣으면 Garbage prediction이 나올 가능성이 높다.
그래서 결론은 아주 무수한 feature가 존재하는 금융 도메인에서는 노이즈가 많기 때문에
Dataset의 성격<Macro, Raw resource, Market, Consumer 등>에 맞는 적절한 전처리가 필요하다.
그런데 한 가지 의문이 든다.
딥러닝은 강아지와 고양이를 분류하는 비교적 확실한 문제는 곧 잘 풀어왔지만,
투자는 어떤가? 일반인은 물론이고 퀀텀이라해도 실패할 가능성이 농후한게 투자이다.
물론 과거 데이터를 모두 학습한 상태라면 이야기가 달라지기도하겠지만
생각보다 주식시장에서 사용할 수 있는 데이터는 극히 적다.
'지난 20년간의 주식 데이터'라고 생각하면 굉장히 많다고 생각하겠지만
코스피에 대해 월단위로 데이터를 추출할 때는 240개
주 단위로 추출할때는 많아봐야 1040개이다.
이 정도 데이터로 다음 주가를 예측한다는 것은 흔히 빅데이터라고 부르는 분석 방법론과는 결이 다르다.
어쨌든 딥러닝 모델이 학습할 수 있는 데이터가 한정적이어서 모든 예측을 모델에 위임하는건 잘못된 방법이다.
이를 반대로 말하면 딥러닝이 해결할 수 없는 직관의 영역이 있다는 것이다.
퀀텀 애널리스트와 같은 직관적인 통찰을 반영할 수 있어야한다.
'Data Analysis > [Project] Financial Reinforce Agent' 카테고리의 다른 글
| 주식 강화학습 에이전트 만들기 - 전체 리뷰 (7) | 2023.12.05 |
|---|---|
| 즉각 보상을 계산할 수 없는 상황일 때, 과연? (5) | 2023.11.14 |
| 강화학습 REINFORCE ALGORITHM의 업데이트 (3) | 2023.10.23 |
| Policy Based Reinforce Learning in Stock Trading - 정책기반 강화학습과 주식 (0) | 2023.10.22 |
| 투자 용어 간단 정리 - 물가연동국채, 전환사채, 권리락 (1) | 2023.07.11 |