2025/04/251 [Paper Review] Video-LLaVA 논문 이해하기 『Video-LLaVA: Learning United Visual Representation by Alignment Before Projection. EMNLP. 2024.』이번에 소개할 논문은 Video-LLaVA 논문이다. 논문에서는 기존 다양한 Video-Image-Text를 같이 다루던 모델들이 Video-Text 만을 다루는 모델보다 성능이 낮다는 점을 지적하며, Image, Video의 Representation을 LLM에 넣기 전에 먼저 합치는 방법(Alignment)을 통해 LLM 모델이 비전 정보와 Text 정보를 잘 학습할 수 있도록 설계한 Video-LLaVA를 제안한다. 내가 연구하고자 하는 Motion에 대해서는 빠져있지만 Video 자체를 Input으로 받아 좋은 성능을 내고 있.. 2025. 4. 25. 이전 1 다음