본문 바로가기

논문 paper 리뷰43

[Paper Review] CMT 논문 이해하기 『CMT: Convolutional Neural Networks Meet Vision Transformers. CVPR. 2022.』이번에 소개할 논문은 Convolutional Neural Networks Meet Vision Transformers 이다. ViT의 등장 이후 기존의 CNN에 활용된 기술을 그대로 사장시키는 것이 아니라 어떻게 하면 ViT에 Convolution을 녹일 수 있을까? 하는 호기심에서 비롯된 논문으로 최근까지도 CNN, RNN, Transformer의 여러 조합으로 새로운 모델들이 등장하고 있는 것을 생각하면 충분히 Contribution이 있는 논문이라고 생각한다. 어떻게 Vision Transformer와 CNN의 장점을 합쳤는지 그 방법에 집중하면서 읽어보도록 하자.0.. 2025. 3. 3.
[Paper Review] Titans 논문 이해하기 『Titans: Learning to Memorize at Test Time. arXiv preprint. 2024.』 2025년 1월 인공지능 학계를 떠들썩하게 만든 2가지 연구 결과가 발표 되었다. 그 중 하나는 대중적으로 이미 많이 알려진 DeepSeek이고 다른 하나는 상대적으로 조용하지만 강한 파급력을 가지고 있는 Titans 모델이다. 그 중 이번에는 Transformer의 대체제라는 이야기가 나오고 있는 Titans 모델에 대해 정리해 보려 한다. 기존 RNN이나 Transformer 모델들에 비해 어떤 장점을 가지는지를 위주로 논문을 정리하였다. NLP 분야가 메인 연구 분야는 아니기에 실험 내용을 자세히 파악하기보다는 새로운 방법론을 파악하는 것을 위주로 논문을 읽어 보았다.0. Abst.. 2025. 2. 26.
[Paper Review] ControlNet 논문 이해하기 『 Adding Conditional Control to Text-to-Image Diffusion Models. ICCV. 2023. 』 생성 모델을 사용하여 사람 이미지를 만들다보면 드는 생각이 있다. "생성 모델을 활용하여 내가 원하는 포즈를 가진 사람의 이미지를 만들 수 있을까?" 이번 논문은 그 해답에 대한 방법을 소개하는 ControlNet 논문이다. 사실 사용자가 원하는 Condition이라는 것이 텍스트건 이미지건 잘 반영되기 쉽지 않다. ChatGPT를 쓰더라도 사람의 검토가 필요하고, 원하는 글자를 생성 이미지로 만들어달라고 하더라도 아직 완벽한 이미지를 만들지 못하는 것이 현실이다.  이러한 상황에서 Low-level의 Condition일지라도 이미지에 사용자가 원하는 정보를 반영해준.. 2024. 12. 2.
[Paper Review] RTMPose 논문 이해하기 『 RTMPose: Real-Time Multi-Person Pose Estimation based on MMPose. arxiv. 2023. 』 이번에 소개할 논문은 이전에 리뷰했던 SimCC 모델의 방법론을 활용하여, 더 빠른 속도로 모델 추론이 가능하게끔 설계한 RTMPose 논문이다. 지금까지 내가 실제 테스트를 돌려보았을 때 가장 속도와 성능의 밸런스가 좋았던 모델이었던 것 같고, 아직 논문이 Publish는 되지 않았지만, 아래 Github 링크와 같이 MMPose Framework에 녹아져 있어 학습이나 추론에 충분이 활용할 수 있는 모델이다. 정말 많은 모델에 대해 실험을 진행하였으며, 따라서 실험과 방법, 저자가 말하는 Contribution에 초점을 맞추어 논문을 읽어보려 한다. Git.. 2024. 11. 26.
[Paper Review] SimCC 논문 이해하기 『 SimCC: a Simple Coordinate Classification Perspective for Human Pose Estimation. ECCV. 2022. 』 이번에 소개할 논문은 기존 Human Pose Estimation의 Head 부분에서 주로 사용하던 Heatmap 방식을 Classification으로 다르게 해석하여 더 효율성을 높인 방법을 소개한 SimCC 논문이다. 기존 Heatmap 방식에서 발생하던 문제점을 해결하고 성능을 해결한 방식을 소개하고 있다. SimCC는 추후 변형을 통해 성능 개선을 많이 이끌어 내었으므로 꼭 주목하여 읽어볼 것! (초창기 이름은 SimDR이었다고 한다) doi : https://link.springer.com/chapter/10.1007/978.. 2024. 11. 24.
[Paper Review] HRFormer 논문 이해하기 『 HRFormer: High-Resolution Transformer for Dense Prediction. NeurIPS. 2021. 』이번에 소개할 논문은 HRNet 구조에 Transformer 기법을 적용한 HRFormer 논문이다. HRNet이 등장한 이후 전체 네트워크 동안 고해상도를 유지하는 것이 성능을 높이는 데 도움을 주었다는 것이 입증되었고, ViT 모델이 등장하며 한단계 더 발전한 기법을 활용할 수 있게 되었다. 이 논문은 이러한 2가지 성공적인 기법을 잘 믹스하여 Pose Estimation, Semantic Segmentation Task에서 특히 좋은 성능을 낼 수 있었다. 본 논문에서는 Image Classification, Pose Estimation, Semantic Seg.. 2024. 10. 8.