[AI Q&A] Computer Vision 모델의 Input 해상도 크기는 왜 작을까?

Computer Vision 모델들을 살펴보면 들어가는 Input 이미지의 크기와 관계없이 224*224, 640*480 등 과 같이 작은 크기의 특정 해상도로 먼저 바꿔준 후 모델에 넣어주는 경우가 많은 것을 알 수 있다.

최근 FHD, QHD, UHD 와 같이 최근 고해상도의 사진이 많이 등장하고 있는 시점에 아직 모델이 처리하는 이미지의 입력 크기가 작은 이유는 무엇일까?

여기에는 몇가지 이유가 존재하는데 검색과 개인적인 견해를 더해 다음과 같이 정리해 보았다.

계산 효율성 & 메모리 사용량 : 모델을 훈련하거나 실행할 때, 입력 이미지의 해상도가 클수록 연산량이 증가하기 때문에 작은 해상도의 이미지를 활용한다.
모델 구축의 용이성 : 이미지가 클 경우 그만큼 해당 이미지에서 정보를 잘 뽑아낼 수 있는 네트워크가 구축되어야 한다.
데이터셋의 통일성: 많은 데이터셋에서 제공되는 이미지들의 해상도가 동일하지 않기 때문에 모델을 일반화하기 위해 사용되는 입력 이미지의 크기를 통일해야 한다.

이외에도 여러 이유가 있을 수 있으며 이는 더 알게 되는대로 추가해보도록 하겠다 🙂

작성한 글은 제가 공부해온 내용을 바탕으로 추론한 개인적인 생각이 들어가 있습니다. 잘못 된 점이 있다면 언제든 수정하여 알려주시면 감사하겠습니다.

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

rahites' AI story