본문 바로가기

X:AI8

[X:AI] DDPM 논문 이해하기 『 Denoising Diffusion Probabilistic Models. NeurIPS. 2020 』최근 비전 태스크에서 매우 핫한 Diffusion Model들.. 그 기초가 되는 DDPM 논문을 톺아보도록 하자!! 들어가기 전에... 현재 이미지 생성 모델에는 여러 연구 방향이 존재하고 그 중 대표적으로는 GAN, VAE, Flow-based, Diffusion 방법이 존재한다. GAN과 VAE는 비슷한 시기에 등장하여 생성 모델에 많은 성능 향상을 이끌어 왔고 Diffusion은 최근 가장 핫한 방법론이라 불릴만큼 중요한 모델이다.  이에 Diffusion에 대한 공부를 하기 전에 이 4가지 모델의 차이점이 어떻게 다른지 우선 알아보도록 하겠다.GAN(Generative Adversarial .. 2023. 8. 17.
[X:AI] DINO 논문 이해하기 『 Emerging Properties in Self-Supervised Vision Transformers. ICCV. 2021 』 DINO(Self-Distilation with no Labels)는 Facebook에서 발표한 Self-Supervised Learning 논문이다. 0. Abstract 본 논문은 ViT(Vision Transformer)에 Self-Supervised Learning을 적용하여 그 효과를 확인하였다. 이 때 단순히 성능이 높을뿐만 아니라 두가지 이점이 존재한다. Self-Supervised ViT는 이미지의 Semantic Segmentation에 대한 명시적인 정보를 담고있다. (이는 Supervised ViT나 Convolution Network에서 나타나지 않음.. 2023. 8. 10.
[X:AI] Swin Transformer 논문 이해하기 『 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. ICCV. 2021 』 ViT의 등장 이후 Vision Task에 Transformer 모델을 활용하기 위한 연구자들의 노력은 계속되었다. Swin Transformer는 그중 하나인 모델로 Microsoft Research Asia에서 2021년 발표한 논문이다. 본 논문은 기존 ViT에서 모든 Patch에 대해 Self Attention을 진행하여 많은 Computational Cost가 발생한다는 것을 지적하며 각 Patch를 Window로 나누어 Self Attention을 진행 + 해당 Window를 Shift하여 다시 Self Attention을 진행하는 방법론.. 2023. 7. 20.
[X:AI] Taskonomy 논문 이해하기 『 Taskonomy: Disentangling Task Transfer Learning. CVPR. 2018 』 Computer Vision을 공부하다보면 Object Detection, Pose Estimation 등 Computer Vision 안에도 수많은 Task가 있는 것을 알 수 있다. 일반적으로 우리는 이렇게 나누어진 한 가지 Task 내에서 PreTrained 된 모델을 가지고 와 새로운 데이터를 Transfer Learning 하여 학습, 평가를 진행하는데, Taskonomy 논문에서는 이러한 Transfer Learning 과정이 한 가지가 아닌 여러 Task 사이에서 이루어질 수 있는 방법을 제안한다. 지금까지 딥러닝을 공부해온 사람이라면 참신하다는 생각을 가질 수 밖에 없고 실제로.. 2023. 7. 13.
[X:AI] Inception-v4 논문 이해하기 『 Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. 2016. 』 Inception-v4 논문에서는 기존 Inception-v3 모델보다 더 단순한 구조의 Inception 모델을 제안한다. 기존 Inception 모델은 성능은 높지만 구조가 복잡해 범용적으로 사용하기 어려웠다. Inception보다 상대적으로 구조가 단순한 VGG 모델을 많이 사용하였는데, 이에 본 논문에서는 이전 버전보다 단순하고 빠른 학습이 가능한 Inception-v4 모델을 소개한다. 이전 Inception-v2, v3 모델에 대한 자세한 내용은 아래 리뷰에서 확인할 수 있다. https://rahites.tistory.com/1.. 2023. 7. 1.
[X:AI] VAE 논문 이해하기 『 VAE : Auto-Encoding Variational Bayes. 2014. 』 사전 지식 ※ MLE (Maximum Likelihood Estimation) MLE는 어떤 상황이 주어졌을 때, 해당 상황을 가장 높은 확률로 산출하는 후보를 선택하는 방법을 말한다 (주어진 데이터셋이 나올 확률을 최대로). 예를들어 땅에 떨어진 머리카락을 발견했을 때 이것이 남자의 머리카락인지 여자의 머리카락인지 판단하는 Task가 있다고 해보자, 이 때 우리는 성별별 머리카락 길이의 일반적인 확률분포를 떨어진 머리카락의 길이와 비교하여 성별을 판단하는 추론을 진행할 수 있다. ※ MAP (Maximum A Posterior) MLE가 Likelihood를 최대화 시키는 방법이었다면, MAP는 Posterior를 .. 2023. 5. 12.