본문 바로가기

딥러닝(Deep Learning)56

[Paper Review] HRNet 논문 이해하기 『 Deep High-Resolution Representation Learning for Visual Recognition. IEEE. 2020. 』 이번에는 Pose 모델의 BackBone으로 자주 활용되는 HRNet 모델을 리뷰해보도록 하겠다. Segmentation Task에서도 활용가능한 모델이지만, 최근 Pose 관련 연구를 진행 중이기 때문에 이번 리뷰는 Pose Estimation Task 관련된 내용 위주로 리뷰하도록 하겠다. 코드로는 이미 여러번 활용해 본 모델이며 대강의 방법론도 알고 있었지만, 디테일 한 분석을 하기 위해 이번 논문 리뷰를 작성하였다. 본 논문을 읽으면서 Resolution이라는 단어를 해상도라고 직역하는게 올바른 표현인지 의문이 들었다. 이미지에서 해상도는 픽셀의 .. 2024. 3. 24.
[Paper Review] HybrIK 논문 이해하기 『 HybrIK: A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D Human Pose and Shape Estimation. CVPR. 2021. 』 최근 Pose 관련 여러 논문을 읽었지만 차분히 논문을 정리할 시간이 부족해 리뷰를 작성하지 못했던 것 같다. 따라서 이번 리뷰를 시작으로 다시 논문 리뷰를 꾸준히 작성해 보려한다. 본 논문은 3D Human Pose 분야의 논문으로 하나의 Monocular RGB 카메라로 촬영한 이미지를 가지고 3D Mesh를 만드는 새로운 모델인 HybrIK를 소개한다. 관련 3D Mesh 모델의 기본이 되는 SMPL에 대한 공부가 선행되어야 좋으며 해당 논문은 추후에 리뷰하도록 하겠다. 0. Abstrac.. 2024. 3. 7.
[Paper Review] METER 논문 이해하기 『 An Empirical Study of Training End-to-End Vision-and-Language Transformers. ICCV. 2021. 』 본 논문은 실험 위주의 논문으로 이전까지 주로 사용하던 CNN 기반의 방법 대신 Transformer 기반의 Vision-Language Pretraining 모델을 만드는 것을 목표로 한다. VQA Task에서 사용되는 모델이며 Fully Transformer VLP 모델을 End-to-End로 구성하였다. 0. Abstract 본 논문에서는 Fully Transformer-based Vision-Language model인 METER(Multimodal End-to-end TransformER)를 소개한다. 모델 구조는 크게 5가지로 나누.. 2023. 11. 4.
[ToBig's] BERT 논문 이해하기 『 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. 2019. 』 BERT는 구글에서 발표한 논문으로 기존 RNN 기반의 모델들의 순차적으로 데이터를 입력해야한다는 문제점을 극복하여 양방향으로 정답을 보고 단어를 예측할 수 있도록 학습시킬 수 있는 방법을 제안한다. 0. Abstract BERT : Bidirectional Encoder Representations from Transformers BERT는 Unlabeled 데이터로 Pre-train한 후 특정 Task에 대해 Fine-Tuning을 진행하는 모델이다. 기존에 Pre-trained BERT에 output layer를 추가하는 것.. 2023. 9. 13.
[X:AI] DDPM 논문 이해하기 『 Denoising Diffusion Probabilistic Models. NeurIPS. 2020 』 최근 비전 태스크에서 매우 핫한 Diffusion Model들.. 그 기초가 되는 DDPM 논문을 톺아보도록 하자!! 들어가기 전에... 현재 이미지 생성 모델에는 여러 연구 방향이 존재하고 그 중 대표적으로는 GAN, VAE, Flow-based, Diffusion 방법이 존재한다. GAN과 VAE는 비슷한 시기에 등장하여 생성 모델에 많은 성능 향상을 이끌어 왔고 Diffusion은 최근 가장 핫한 방법론이라 불릴만큼 중요한 모델이다. 이에 Diffusion에 대한 공부를 하기 전에 이 4가지 모델의 차이점이 어떻게 다른지 우선 알아보도록 하겠다. GAN(Generative Adversarial.. 2023. 8. 17.
[X:AI] DINO 논문 이해하기 『 Emerging Properties in Self-Supervised Vision Transformers. ICCV. 2021 』 DINO(Self-Distilation with no Labels)는 Facebook에서 발표한 Self-Supervised Learning 논문이다. 0. Abstract 본 논문은 ViT(Vision Transformer)에 Self-Supervised Learning을 적용하여 그 효과를 확인하였다. 이 때 단순히 성능이 높을뿐만 아니라 두가지 이점이 존재한다. Self-Supervised ViT는 이미지의 Semantic Segmentation에 대한 명시적인 정보를 담고있다. (이는 Supervised ViT나 Convolution Network에서 나타나지 않음.. 2023. 8. 10.