본문 바로가기

논문 paper 리뷰41

[Paper Review] MIPNet 논문 이해하기 『Multi-Instance Pose Networks: Rethinking Top-Down Pose Estimation. ICCV. 2021. 』여러 2D Pose Estimation 모델들을 실행하보면 은근 성능이 좋다는 걸 느낄 수 있다. 하지만, 대부분의 Pose Estimation 모델들이 성능이 확 떨어질 때가 발생하는데 이는 사람의 신체가 Occlusion 되었을 때이다. 이 경우에는 모델이 우리 신체를 전부 잡기 위해 내가 위치하지도 않은 곳에 신체가 위치해있다고 말하는 경우가 많은데, MIPNet이라는 모델은 이러한 Occlusion 문제를 해결하기 위해 등장한 모델이다. 기존 2D Human Pose Estimation에서 발생하는 Occlusion 문제를 완화하여 Occlusion 현상.. 2024. 8. 28.
[Paper Review] Stable Diffusion 논문 이해하기 『High-Resolution Image Synthesis with Latent Diffusion Models. CVPR. 2022. 』이번에 정리할 논문은 Stable Diffusion이다. Stable Diffusion 모델이 공개된 후 생성 모델에 대한 대중적인 관심도가 급속도로 높아졌으며 지금은 LLM에 대한 관심도에 살짝 밀린 감이 있지만, 생성 이미지를 만들어내는 Task에 큰 기여를 한 모델이다. 실제로 HuggingFace 라이브러리를 활용해 모델을 사용해보면 원하는 이미지가 잘 만들어지는 것을 확인할 수 있고 이후 후속 연구들 또한 많이 등장하고 있다. Githubhttps://github.com/CompVis/stable-diffusion GitHub - CompVis/stable-di.. 2024. 8. 14.
[Paper Review] HRNet for Visual Recognition 논문 이해하기 『 Deep High-Resolution Representation Learning for Visual Recognition. TPAMI. 2019. 』이번에는 Pose 모델의 BackBone으로 자주 활용되는 HRNet for Visual Recognition모델을 리뷰해보도록 하겠다. Segmentation Task에서도 활용가능한 모델이지만, 최근 Pose 관련 연구를 진행 중이기 때문에 이번 리뷰는 Pose Estimation Task 관련된 내용 위주로 리뷰하도록 하겠다(for Human Pose Estimation 논문 리뷰는 다음 링크를 참고).코드로는 이미 여러번 활용해 본 모델이며 대강의 방법론도 알고 있었지만, 디테일 한 분석을 하기 위해 이번 논문 리뷰를 작성하였다.본 논문을 읽으면서.. 2024. 3. 24.
[Paper Review] HybrIK 논문 이해하기 『 HybrIK: A Hybrid Analytical-Neural Inverse Kinematics Solution for 3D Human Pose and Shape Estimation. CVPR. 2021. 』 최근 Pose 관련 여러 논문을 읽었지만 차분히 논문을 정리할 시간이 부족해 리뷰를 작성하지 못했던 것 같다. 따라서 이번 리뷰를 시작으로 다시 논문 리뷰를 꾸준히 작성해 보려한다. 본 논문은 3D Human Pose 분야의 논문으로 하나의 Monocular RGB 카메라로 촬영한 이미지를 가지고 3D Mesh를 만드는 새로운 모델인 HybrIK를 소개한다. 관련 3D Mesh 모델의 기본이 되는 SMPL에 대한 공부가 선행되어야 좋으며 해당 논문은 추후에 리뷰하도록 하겠다. 0. Abstrac.. 2024. 3. 7.
[Paper Review] METER 논문 이해하기 『 An Empirical Study of Training End-to-End Vision-and-Language Transformers. ICCV. 2021. 』 본 논문은 실험 위주의 논문으로 이전까지 주로 사용하던 CNN 기반의 방법 대신 Transformer 기반의 Vision-Language Pretraining 모델을 만드는 것을 목표로 한다. VQA Task에서 사용되는 모델이며 Fully Transformer VLP 모델을 End-to-End로 구성하였다. 0. Abstract 본 논문에서는 Fully Transformer-based Vision-Language model인 METER(Multimodal End-to-end TransformER)를 소개한다. 모델 구조는 크게 5가지로 나누.. 2023. 11. 4.
[ToBig's] BERT 논문 이해하기 『 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. NAACL. 2019. 』 BERT는 구글에서 발표한 논문으로 기존 RNN 기반의 모델들의 순차적으로 데이터를 입력해야한다는 문제점을 극복하여 양방향으로 정답을 보고 단어를 예측할 수 있도록 학습시킬 수 있는 방법을 제안한다. 0. Abstract BERT : Bidirectional Encoder Representations from Transformers BERT는 Unlabeled 데이터로 Pre-train한 후 특정 Task에 대해 Fine-Tuning을 진행하는 모델이다. 기존에 Pre-trained BERT에 output layer를 추가하는 것.. 2023. 9. 13.