본문 바로가기

AI 공부하는 대학감자 감자소개

2025/04/251

[Paper Review] Video-LLaVA 논문 이해하기 『Video-LLaVA: Learning United Visual Representation by Alignment Before Projection. EMNLP. 2024.』이번에 소개할 논문은 Video-LLaVA 논문이다. 논문에서는 기존 다양한 Video-Image-Text를 같이 다루던 모델들이 Video-Text 만을 다루는 모델보다 성능이 낮다는 점을 지적하며, Image, Video의 Representation을 LLM에 넣기 전에 먼저 합치는 방법(Alignment)을 통해 LLM 모델이 비전 정보와 Text 정보를 잘 학습할 수 있도록 설계한 Video-LLaVA를 제안한다. 내가 연구하고자 하는 Motion에 대해서는 빠져있지만 Video 자체를 Input으로 받아 좋은 성능을 내고 있.. 2025. 4. 25.

이전 1 다음

최근글

인기글

태그

백준 딥러닝 혼공컴운 Today I Learned POSE ESTIMATION 파이썬 머신러닝 완벽 가이드 D&A LG Aimers 메타러닝 X:AI opencv TiL SKT AI 영어 회화 추천시스템

전체 방문자

Today :

Yesterday :

티스토리툴바