본문 바로가기

전체 글334

[X:AI] DDPM 논문 이해하기 『 Denoising Diffusion Probabilistic Models. NeurIPS. 2020 』최근 비전 태스크에서 매우 핫한 Diffusion Model들.. 그 기초가 되는 DDPM 논문을 톺아보도록 하자!! 들어가기 전에... 현재 이미지 생성 모델에는 여러 연구 방향이 존재하고 그 중 대표적으로는 GAN, VAE, Flow-based, Diffusion 방법이 존재한다. GAN과 VAE는 비슷한 시기에 등장하여 생성 모델에 많은 성능 향상을 이끌어 왔고 Diffusion은 최근 가장 핫한 방법론이라 불릴만큼 중요한 모델이다.  이에 Diffusion에 대한 공부를 하기 전에 이 4가지 모델의 차이점이 어떻게 다른지 우선 알아보도록 하겠다.GAN(Generative Adversarial .. 2023. 8. 17.
[X:AI] DINO 논문 이해하기 『 Emerging Properties in Self-Supervised Vision Transformers. ICCV. 2021 』 DINO(Self-Distilation with no Labels)는 Facebook에서 발표한 Self-Supervised Learning 논문이다. 0. Abstract 본 논문은 ViT(Vision Transformer)에 Self-Supervised Learning을 적용하여 그 효과를 확인하였다. 이 때 단순히 성능이 높을뿐만 아니라 두가지 이점이 존재한다. Self-Supervised ViT는 이미지의 Semantic Segmentation에 대한 명시적인 정보를 담고있다. (이는 Supervised ViT나 Convolution Network에서 나타나지 않음.. 2023. 8. 10.
[X:AI] Swin Transformer 논문 이해하기 『 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. ICCV. 2021 』 ViT의 등장 이후 Vision Task에 Transformer 모델을 활용하기 위한 연구자들의 노력은 계속되었다. Swin Transformer는 그중 하나인 모델로 Microsoft Research Asia에서 2021년 발표한 논문이다. 본 논문은 기존 ViT에서 모든 Patch에 대해 Self Attention을 진행하여 많은 Computational Cost가 발생한다는 것을 지적하며 각 Patch를 Window로 나누어 Self Attention을 진행 + 해당 Window를 Shift하여 다시 Self Attention을 진행하는 방법론.. 2023. 7. 20.
[X:AI] Taskonomy 논문 이해하기 『 Taskonomy: Disentangling Task Transfer Learning. CVPR. 2018 』 Computer Vision을 공부하다보면 Object Detection, Pose Estimation 등 Computer Vision 안에도 수많은 Task가 있는 것을 알 수 있다. 일반적으로 우리는 이렇게 나누어진 한 가지 Task 내에서 PreTrained 된 모델을 가지고 와 새로운 데이터를 Transfer Learning 하여 학습, 평가를 진행하는데, Taskonomy 논문에서는 이러한 Transfer Learning 과정이 한 가지가 아닌 여러 Task 사이에서 이루어질 수 있는 방법을 제안한다. 지금까지 딥러닝을 공부해온 사람이라면 참신하다는 생각을 가질 수 밖에 없고 실제로.. 2023. 7. 13.
[X:AI] Inception-v4 논문 이해하기 『 Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. 2016. 』 Inception-v4 논문에서는 기존 Inception-v3 모델보다 더 단순한 구조의 Inception 모델을 제안한다. 기존 Inception 모델은 성능은 높지만 구조가 복잡해 범용적으로 사용하기 어려웠다. Inception보다 상대적으로 구조가 단순한 VGG 모델을 많이 사용하였는데, 이에 본 논문에서는 이전 버전보다 단순하고 빠른 학습이 가능한 Inception-v4 모델을 소개한다. 이전 Inception-v2, v3 모델에 대한 자세한 내용은 아래 리뷰에서 확인할 수 있다. https://rahites.tistory.com/1.. 2023. 7. 1.
[X:AI] StarGAN 논문 이해하기 『 StarGAN: Unified Generative Adversarial Networks for Multi-Domain Image-to-Image Translation. 2018. 』 StarGAN은 우리나라에서 나온 논문으로 다양한 Domain에 대해 Image-to-Image Translation을 사용할 수 있는 방법을 제안하였다. 이전에 제안된 모델들을 GAN - Conditional GAN - Pix2Pix - CycleGAN 순서로 이해한 뒤 공부를 하면 조금 더 편하게 이해할 수 있다. https://github.com/yunjey/stargan GitHub - yunjey/stargan: StarGAN - Official PyTorch Implementation (CVPR 2018) St.. 2023. 5. 25.
[X:AI] VAE 논문 이해하기 『 VAE : Auto-Encoding Variational Bayes. 2014. 』 사전 지식 ※ MLE (Maximum Likelihood Estimation) MLE는 어떤 상황이 주어졌을 때, 해당 상황을 가장 높은 확률로 산출하는 후보를 선택하는 방법을 말한다 (주어진 데이터셋이 나올 확률을 최대로). 예를들어 땅에 떨어진 머리카락을 발견했을 때 이것이 남자의 머리카락인지 여자의 머리카락인지 판단하는 Task가 있다고 해보자, 이 때 우리는 성별별 머리카락 길이의 일반적인 확률분포를 떨어진 머리카락의 길이와 비교하여 성별을 판단하는 추론을 진행할 수 있다. ※ MAP (Maximum A Posterior) MLE가 Likelihood를 최대화 시키는 방법이었다면, MAP는 Posterior를 .. 2023. 5. 12.
[23.04.28] SKT AI Fellowship 준비 # 바쁜 일주일의 시작 1. SKT AI Fellowship 준비 지금까지 팀 구성, 주제 선정 모두 하지 못했던 SKT AI Fellowship 5기 준비를 드디어 시작했다. 팀 구성, 주제 선정을 끝내고 이제 시작하는데 아직은 막막한 시점인 것 같다. 주제는 6번 X-Ray 영상 AI 모델을 이용한 자동 진단으로 정했고, 관련 자료를 찾기 위해 X-Ray 데이터, Self Supervised Learning에 대한 리서치를 우선 진행하였다. https://www.sktuniv.com/46d62b06-5ac2-4892-b46b-b21984f5ad02 Fellowship 5기 모집 참가 대상 www.sktuniv.com 특히 Self Supervised Learning은 이론적으로는 논문에서 여러번 들어.. 2023. 4. 28.
[Paper Review] GLocal-K 논문 이해하기 『 GLocal-K: Global and Local Kernels for Recommender Systems. 2021. 』 이번 논문은 추천 시스템 캡스톤 발표를 위해 읽은 GLocal-K 논문이다. 이 논문에서 소개한 GLocal-K 모델은 Sparse Rating Matrix의 중요한 feature를 잡아내는 것에 집중하여 Side Information을 사용하지 않고도 SOTA를 기록하였다. AutoEncoder 구조, Convolution, Kernel Trick 등 여러 기법을 혼합하여 모델의 성능을 높였다. 이번 논문을 읽기 전 2가지 개념을 짚고 넘어가겠다. 벡터의 내적 두 벡터가 얼마나 비슷한 방향을 향하고 있는지를 측정하는 것으로 내적 값이 양수이면 두 벡터는 서로 유사한 방향, 음수인.. 2023. 4. 27.
[23.04.24] GLocal-K 2 # 다시 한 번 월요일 1. GLocal-K 수업을 다 들은 뒤 오늘은 블로그에 GLocal-K 논문 리뷰를 작성했다. 어제 논문을 읽으며 정리했던 Word와 번역본을 보며 정리를 시작했는데, 분명히 어제 이해했다고 생각했던 내용도 오늘 다시보니 어려웠던 부분이 많았다. 확실히 SOTA 논문이라 최신 기술들을 많이 결합하여 사용했다보니 이 개념들을 완전히 파악하려면 끝없이 내려가야하는 상황이 발생했다. Bipartite Graph(이분 그래프), Hadamard Product(아다마르 곱) 등 여러 개념을 추가적으로 찾아보았고, 하나하나 찾아가며 정리하다보니 오늘 마무리 할 수 있다고 생각했던 리뷰 작성이 늦춰지게 되었다. 속도보다는 이해하는 것이 중요하니까 조급해 하지말고 찬찬히 정리해 보도록 하자.... 2023. 4. 24.
[23.04.23] GLocal-K # 이번 주 공부를 하고도 TIL을 제때 작성하지 못했는데 다시 힘내서 기록을 남겨보도록 하자! 1. 빅데이터분석기사 필기 합격 우선 2주 전에 본 빅데이터 분석기사 필기시험에 합격하였다! ADP 필기 시험을 본지 얼마 안되어서 하루만 공부하고 봤는데도 다행이 좋은 성적으로 통과할 수 있었다. 아마 우리 과를 3학년까지 열심히 들은 사람은 필기는 쉽게 통과할 수 있을거라 생각한다.. 실기시험이 6월에 있는데 틈틈히 공부해서 잘 준비해보도록 하자 2. 캡스톤 논문 읽기 오늘은 아침부터 나가 캡스톤 논문을 읽었다. 이번에 읽은 추천 시스템 논문은 현재 SOTA를 기록하고 있는 GLocal-K 논문이었다. SOTA이기도 하고 최신 논문이기에 어려울 거라 생각했지만, 글도 잘 쓰여있고 길이도 길지 않아 쉽게 읽.. 2023. 4. 23.
[X:AI] SegNet 논문 이해하기 『 SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation. 2015. 』 SegNet은 도로를 달리면서 촬영한 영상에 대해 pixel-wise semantic segmentation을 수행하기 위해 설계된 모델이다. 기존 semantic segmentation 모델들이 해상도가 떨어진다는 단점을 Encoder-Decoder 구조를 통해 극복하였고, 이후 semantic segmentation task에 많은 영향을 끼친 모델이다. 0. Abstract 본 논문에서는 Semantic pixel-wise segmentation에 사용하는 SegNet 모델을 제안한다. 이 모델은 Encoder-Decoder에 pixel.. 2023. 4. 19.