본문 바로가기
AI & CS 지식/메타러닝

[메타러닝] 4. Bayesian Meta-Learning

by rahites 2024. 12. 16.

이번에 정리할 내용은 Bayesian Meta-Learning이다.

 

많이 다뤄본 Bayesian과 관련된 내용이며 추후 내가 이 글을 다시 보았을 때 어떤 내용이 있었는지 간단하게 짚고 넘어갈 수 있도록 핵심 위주로 작성해보도록 하겠다.


1. Bayesian Learning

일반적으로 우리가 Bayes' Rule을 왜 사용하는지를 생각해보면 Posterior를 바로 알기 어려워 Prior와 Likelihood만으로 이를 계산하려 하거나, 사용하려는 데이터가 작기 때문에 불확실성이 커서 Stochastic Model을 사용하는 것이 큰 이유이다. 모델의 파라미터를 확률분포로 계산하여 데이터에서 얻은 정보와 Prior를 결합하며 학습하는 과정을 거친다. 

 

Bayesian Modeling 과정에서는 Latent variable과 data사이의 Dependence를 Probabilistic하게 표현하여 Prior와 Likelihood를 모델링한다. Bayesian Inference시에는 사후 분포에서 샘플링을 하며 근사하는 MCMC(Markov Chain Monte Carlo) 기법이나 사후 분포를 간단한 분포로 근사하는 Variational Inference 방법이 존재한다.

 

Bayesian 방법을 활용하는 대표적인 예시는 Latent Variable 모델이다. GAN, VAE, Normalizing flow model, Diffusion model 등의 방법등이 있으며, 관찰된 데이터 x와 Latent Variable z 사이를 잘 모델링하고자 한다. $\log{p(x)}$를 Variational Approximation하여 ELBO(Evidence Lower Bound) 형태로 만들어 최적화하는 방법이 다수 사용된다. 

계산이 어려운 Posterior 대신 간단한 분포인 $q(z)$로 근사하여 계산하는 기법은 Variational Inference(VI)이다. VI의 목적은 근사한 분포와 기존 Posterior간의 KL Divergence를 최소화 하는 것인데, 이를 ELBO 형태로 만들어 이 값을 최대화 하는 형태로 최적화를 수행한다.

이 경우 데이터마다 별도의 최적화를 수행해야 하므로 계산비용이 크다는 단점이 존재하는데, 이러한 최적화 과정을 각 데이터마다 진행하지 않고 Neural Network를 사용하여 $q(z|x)$의 파라미터를 직접 예측하는 방법을 적용한 것이 Amortized Variational Inference 방법이다. 이 방법을 적용한 모델이 VAE이며, 데이터 전체에 대해 일반화된 분포를 학습하고 복잡한 고차원 잠재 변수 모델에도 쉽게 적용가능하다는 장점을 가진다.

ELBO를 구하는 과정 등 관련된 디테일한 내용은 내용이 복잡하고 정리할 게 많아 추후에 따로 정리하도록 하겠다.

 

2. Bayesian Meta-Learning

메타러닝에서 Bayesian 기반의 Stochastic한 접근법을 사용하려는 이유는 새로운 Task에 대해서 빠른 Adaptation이 되기 위해서는 적은 Sample만으로 Uncertainty 특징을 잘 찾을 수 있어야 하기 때문이다. 여기서는 Amortized Variational Inference를 메타러닝에 어떻게 적용하는지를 고민하는데, 크게 Model-based 방법과 Optimization-based 방법으로 나누어 확인해보자.

 

Model-based

장점: Test 데이터의 출력 값에 대해 Gaussian Distribution이 아닌 분포도 표현할 수 있다(Bayesian 기반이기에 Uncertainty를 반영하여 더 복잡한 형태의 test 출력을 만들 수 있음). MCMC같은 샘플링 방법을 사용하면 복잡한 분포도 잘 표현할 수 있다.

단점: 주로 Variational Inference 근사 기법을 활용하여 Gaussian Distribution을 가정하므로, 모델이 표현하는 출력 분포가 Gaussain에 맞추어 제한된다는 단점이 존재.

ex. Neural Process(NP)

 

Optimization-based

MAML 기반의 방법들이 다수 존재하며 대표적인 방법은 다음과 같다. 따라서 전체적으로 Hessian을 사용하기에 Complexity 문제는 가지고 있다.

  • Amortized Inference: 간단하지만 출력분포가 Gaussian에 제한
  • Ensembles: 간단하고 잘 적용되지만 Model Instance를 유지해야 한다.
  • Hybrid Inference: Posterior가 Gaussian이 아니고 Model Instance를 하나만 가지지만, 학습 절차가 복잡하다.

본 개념 정리 글은 제가 수업을 듣고 이해한 내용과 인터넷 검색을 통해 찾은 정보를 바탕으로 작성되었습니다. 잘못된 개념이 있다면 언제든 알려주시면 감사하겠습니다.

댓글