본문 바로가기
AI & CS 지식/메타러닝

[메타러닝] 3. Meta Reinforcement Learning

by rahites 2024. 12. 16.

이번에 알아볼 내용은 Meta Reinforcement Learning에 관한 내용이다.

 

강화학습을 이전에 공부해본 적이 없어서 기본적인 강화학습에 대한 내용을 가볍게 정리하고 넘어가도록 하겠다.


1. Reinforcement Learning

강화학습은 Agent가 Environment와 상호 작용을 수행하며 최적의 Policy를 학습하는 방법이다. 강화학습의 목표는 Agent가 Reward를 최대화하도록 학습시키는 것이다.

  • Agent: 학습을 수행하는 주체, Environment와 상호작용하며 행동을 수행함
  • Environment: Agent가 행동을 수행하고 Reward를 받는 곳
  • State: Agent가 현재 위치한 Environment의 상태를 나타내는 정보
  • Action: Agent가 State에서 선택할 수 있는 행동
  • Reward: Agent가 특정 Action을 수행한 후 Environment로부터 받는 신호
  • Policy: State에서 어떤 action을 취할지 결정하는 전략
  • Value Function: 특정 State에서 시작하였을 때 장기적으로 받을 Reward의 기댓값
  • Q-Function: 특정 State에서 특정 Action을 취했을 때의 장기 Reward 기대값
  • Trajectory: Agent가 Environment와 상호작용하며 생성한 State, Action, Reward의 시퀀스로 Policy를 평가하고 개선하는데 활용됨

 

강화학습은 MDP(Markov Decision Process) 가정으로 디자인되며 이는 Markov Process에 Reward와 Action 요소가 추가된 형태를 의미한다(Markov는 현재 시점 t에서의 state는 t-1의 영향만을 받는다는 개념).

 

Environment는 2가지 주요 가정을 지니고 있는데 Reward Function에 대한 가정과 Markov state transition Probability에 대한 가정이다. 내용은 현재 State가 미래에 대한 모든 정보를 포함한다는 것과, Environment의 Transition Probability와 Reward가 시간에 따라 바뀌지 않는다는 것이다.

이 때 Environment에 대한 정보를 잘 모르기 때문에 Model-Free 방법으로 경험에 기반하여 Policy를 학습하는 Q-LearningSARSA 기법이 존재한다. Q-learning은 Off-policy, SARSA는 On-policy 기법이다. 

On-policy: 학습에 사용하는 Policy와 Agent가 Action을 선택하는 Policy가 동일. Agent는 자신이 실제로 Action하면서 따르는 Policy를 기반으로 학습한다(ex. SARSA).
Off-policy: 학습에 사용하는 Policy와 Agent가 Action을 선택하는 Policy가 다름. Action Policy와 다른 Target Policy를 기반으로 학습된다(ex. Q-Learning). 

 

2. Deep Reinforcement Learning

이러한 전통적인 Reinforcement Learning에 딥러닝을 결합할 수 있다. 크게 Value-based, Policy-based 그리고 두 가지의 특징을 모두 가진 Actor Critic 방법이 존재한다. 

  • Value-based: State나 State-Action 쌍의 Value Function을 학습하며 최적의 Policy를 도출하는 방법(ex. DQN)
  • Policy-based: Agent가 직접 Policy를 학습하여 최적의 Action을 선택하게 하는 방법(ex. PPO)
  • Actor-Critic: Actor는 Policy-based, Critic은 Value-based의 방법을 사용해 Actor가 선택한 Action에 대해 Critic이 Policy update를 위한 신호를 제공한다.

 

3. Meta Reinforcement Learning

강화학습에 메타러닝 기법이 적용된다는 것은, 새로운 Task에 대해 새로운 Agent와 Environment가 주어졌을 때에도 잘 적응할 수 있다는 것을 의미한다.

 

MetaRL에서는 일반적인 메타러닝에서 사용하는 Task를 MDP로 본다. 즉, Markov Decision Process로 각 Task를 모델링한다는 의미이다. 일반적으로 MDP가 $<S, A, P, R, \gamma>$로 정의되므로 각 Task를 이 값들이 정의되는 고유한 문제로 생각한다는 것이다.

 

MetaRL은 학습과정에서 특정 Task에서 얻은 Trajectory에 대해 Policy를 먼저 적응시킨다. 그리고는 동일한 Task에서 해당 Policy를 사용하여 Trajectory를 구하고 그렇게 얻은 Trajectory와 Task-specific parameter간의 Loss를 계산해서 전체 메타 파라미터를 업데이트 한다.

 

RL^2

Fast Reinfocement Learning을 사용하는 대신 Slow Reinforcement Learning 기법을 사용함. 대표적인 예시는 미로의 예시로  Agent가 처음 보는 미로를 탐색한다고 가정할 때, RL^2에서는 이전 단계에서 얻은 Reward와 Action의 결과를 바탕으로 미로의 구조를 학습하며 최적의 경로를 찾아간다.

 

앞서 Optimization-based 방법으로 공부한 MAML(Model-Agnostic Meta-Learning) 기법도 강화학습 방법론을 적용하여 활용할 수 있다. 

 

추가적인 특징

- PPG(Parameterized Policy Gradients)와 Black-Box 기반의 모델은 새로운 Task에 대한 일반화 성능에 있어 Trade-off 관계를 가진다. 

- Learned Loss를 적용한 Meta-imitation Learning도 존재하며 Complex한 문제에서는 Many-shot MetaRL을 활용하기도 한다.


본 개념 정리 글은 제가 수업을 듣고 이해한 내용과 인터넷 검색을 통해 찾은 정보를 바탕으로 작성되었습니다. 잘못된 개념이 있다면 언제든 알려주시면 감사하겠습니다.

 

 

 

 

 

 

댓글