강화학습

2023.10.23· Data Analysis/[Project] Financial Reinforce Agent

REINFORCE ALGO의 학습 매커니즘을 더 와닿게 만들겠다 learning_rate = 0.0002 gamma = 0.98 # Policy Network: 4개의 state를 입력으로 받아서 2개의 action 출력 class Policy(nn.Module): def __init__(self): super(Policy, self).__init__() self.data = [] self.fc1 = nn.Linear(4, 128) self.fc2 = nn.Linear(128, 2) self.optimizer = optim.Adam(self.parameters(), lr=learning_rate) def forward(self, x): x = F.relu(self.fc1(x)) x = F.softmax(..

티스토리툴바