본문 바로가기

딥러닝(Deep Learning)56

[X:AI] Swin Transformer 논문 이해하기 『 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. ICCV. 2021 』 ViT의 등장 이후 Vision Task에 Transformer 모델을 활용하기 위한 연구자들의 노력은 계속되었다. Swin Transformer는 그중 하나인 모델로 Microsoft Research Asia에서 2021년 발표한 논문이다. 본 논문은 기존 ViT에서 모든 Patch에 대해 Self Attention을 진행하여 많은 Computational Cost가 발생한다는 것을 지적하며 각 Patch를 Window로 나누어 Self Attention을 진행 + 해당 Window를 Shift하여 다시 Self Attention을 진행하는 방법론.. 2023. 7. 20.
[X:AI] Taskonomy 논문 이해하기 『 Taskonomy: Disentangling Task Transfer Learning. CVPR. 2018 』 Computer Vision을 공부하다보면 Object Detection, Pose Estimation 등 Computer Vision 안에도 수많은 Task가 있는 것을 알 수 있다. 일반적으로 우리는 이렇게 나누어진 한 가지 Task 내에서 PreTrained 된 모델을 가지고 와 새로운 데이터를 Transfer Learning 하여 학습, 평가를 진행하는데, Taskonomy 논문에서는 이러한 Transfer Learning 과정이 한 가지가 아닌 여러 Task 사이에서 이루어질 수 있는 방법을 제안한다. 지금까지 딥러닝을 공부해온 사람이라면 참신하다는 생각을 가질 수 밖에 없고 실제로.. 2023. 7. 13.
[X:AI] Inception-v4 논문 이해하기 『 Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. 2016. 』 Inception-v4 논문에서는 기존 Inception-v3 모델보다 더 단순한 구조의 Inception 모델을 제안한다. 기존 Inception 모델은 성능은 높지만 구조가 복잡해 범용적으로 사용하기 어려웠다. Inception보다 상대적으로 구조가 단순한 VGG 모델을 많이 사용하였는데, 이에 본 논문에서는 이전 버전보다 단순하고 빠른 학습이 가능한 Inception-v4 모델을 소개한다. 이전 Inception-v2, v3 모델에 대한 자세한 내용은 아래 리뷰에서 확인할 수 있다. https://rahites.tistory.com/1.. 2023. 7. 1.
[X:AI] StarGAN 논문 이해하기 『 StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation. 2018. 』 StarGAN은 우리나라에서 나온 논문으로 다양한 Domain에 대해 Image-to-Image Translation을 사용할 수 있는 방법을 제안하였다. 이전에 제안된 모델들을 GAN - Conditional GAN - Pix2Pix - CycleGAN 순서로 이해한 뒤 공부를 하면 조금 더 편하게 이해할 수 있다. https://github.com/yunjey/stargan GitHub - yunjey/stargan: StarGAN - Official PyTorch Implementation (CVPR 2018) St.. 2023. 5. 25.
[X:AI] VAE 논문 이해하기 『 VAE : Auto-Encoding Variational Bayes. 2014. 』 사전 지식 ※ MLE (Maximum Likelihood Estimation) MLE는 어떤 상황이 주어졌을 때, 해당 상황을 가장 높은 확률로 산출하는 후보를 선택하는 방법을 말한다 (주어진 데이터셋이 나올 확률을 최대로). 예를들어 땅에 떨어진 머리카락을 발견했을 때 이것이 남자의 머리카락인지 여자의 머리카락인지 판단하는 Task가 있다고 해보자, 이 때 우리는 성별별 머리카락 길이의 일반적인 확률분포를 떨어진 머리카락의 길이와 비교하여 성별을 판단하는 추론을 진행할 수 있다. ※ MAP (Maximum A Posterior) MLE가 Likelihood를 최대화 시키는 방법이었다면, MAP는 Posterior를 .. 2023. 5. 12.
[Paper Review] GLocal-K 논문 이해하기 『 GLocal-K: Global and Local Kernels for Recommender Systems. 2021. 』 이번 논문은 추천 시스템 캡스톤 발표를 위해 읽은 GLocal-K 논문이다. 이 논문에서 소개한 GLocal-K 모델은 Sparse Rating Matrix의 중요한 feature를 잡아내는 것에 집중하여 Side Information을 사용하지 않고도 SOTA를 기록하였다. AutoEncoder 구조, Convolution, Kernel Trick 등 여러 기법을 혼합하여 모델의 성능을 높였다. 이번 논문을 읽기 전 2가지 개념을 짚고 넘어가겠다. 벡터의 내적 두 벡터가 얼마나 비슷한 방향을 향하고 있는지를 측정하는 것으로 내적 값이 양수이면 두 벡터는 서로 유사한 방향, 음수인.. 2023. 4. 27.