본문 바로가기

AI & CS 지식/인공지능 Q&A6

[AI Q&A] R-CNN 계열 모델 정리하기 Object Detection을 공부하다 보면 가장 먼저 배우는 모델이 바로 R-CNN이다. 처음 이 모델에 대해 접했던 건 학부 3학년 정도로 핵심적인 개념과 대충 이렇구나~ 정도만 외워 넘어간 것 같은데, 지금 다시 강의를 들으며 공부해보니 내가 잘 알지 못했던 부분이 많아  나중에 또 까먹을 것이 뻔하기에 이렇게 정리해두려 한다. R-CNN 계열의 모델 디자인이 당연히 추후 개량되어 등장하였겠지만, 여기서는 가장 대표적인 R-CNN, Fast R-CNN, Faster R-CNN에 대해 정리하려 한다. 글의 흐름은 내가 이 세가지 모델을 이해한 지식의 흐름에 따랐다.우선 본격적으로 R-CNN 모델에 대해 이해하기 전, 우리는 딥러닝에서 어떻게 Object Detection이라는 Task가 이루어질 수.. 2024. 12. 26.
[AI Q&A] OKS(Object Keypoint Similarity)란? 여러 Human Pose Estimation 논문을 읽다보면 대다수의 논문들이 평가지표로 OKS(Object Keypoint Similarity)라는 계산식을 사용하는 것을 알 수 있다. 물론 나도 이미 여러번 보았으며 무엇인지 이해했었지만, 너무나도 많이 나오는 내용이다 보니 논문을 리뷰하는데에도 매번 작성할 수 없어, 한번 제대로 이해하기 쉽게 정리한 후 앞으로 나올 논문 리뷰들에 태그를 달아두려 한다.OKS(Object Keypoint Simiarity)는 HPE(Human Pose Estimation) Task에서 예측된 Keypoint와 실제 Ground Truth Keypoint가 얼마나 유사한지를 측정하는 지표이다. OD(Object Detection)에서 주로 사용하는 평가지표인 IoU(I.. 2024. 11. 22.
[AI Q&A] Attention이란? 대부분 Attention을 처음 접하게 되는 것은 Transformer 모델을 공부하면서부터일 것이다. 나 또한 그랬으며 처음 Transformer 모델을 공부한 후 Attention이라는 단어는 수없이 들었던 것 같다. 하지만, 나는 Attention을 잘 모른다. 정확히 말하면 알았지만 까먹었다가 또 공부하고 또 까먹는 악순환을 반복하는 중이다...  볼 때는 기억나지만 안보면 또 까먹게 되는 마성의 Attention! 이번 기회에 틈틈히 볼 수 있도록 꼼꼼히 정리해보려 한다.Attention은 말 그대로 알고자하는 내용과 관련된 부분을 집중(Attention)하여 모델의 성능을 올리는 기법이다. 기본적인 아이디어는 "전체 벡터를 동일한 비율로 참고하는 것이 아니라, 알고자하는 시점의 벡터와 관련있는.. 2024. 8. 16.
[AI Q&A] Inductive Bias란 무엇일까? Inductive Bias, 처음 CNN을 공부할 때는 알지 못했지만 여러 기술 면접과 논문을 접하다보니 자연스럽게 알게된 용어이다. 처음 기술 면접에 들어갔을 때 "Inductive Bias를 아는가?"라는 질문에 답하지 못했던 당혹감을 잊지 않으며 이번 Q&A를 작성해보려 한다.Inductive Bias가 무엇인지 알기 위해, 우선 단어를 하나하나 분석해보자. Inductive, 우리말로 하면 귀납이다. 우리가 중고등학교에서 배웠던 것처럼 귀납이라는 단어의 뜻은 특정 관찰이나 경험으로부터 일반적인 결론을 이끌어내는 방식을 의미한다. 이를 딥러닝에 빗대어 보았을 때,  인간이 삶을 살아가면서 얻는 관찰이나 경험을 모델이 몇번의 학습으로부터 일반적인 규칙이나 패턴을 알아내는 것으로 이해할 수 있다.👉 .. 2024. 8. 13.
[AI Q&A] GAN 모델이 가지는 문제점은 무엇일까? 인공지능 생성모델을 배우다 보면 2014년에 나온 GAN과 VAE 모델을 기점으로 생성 모델이 한 차례 많은 발전을 이룬 것을 확인할 수 있다. GAN은 정말 신박한 아이디어(두 모델의 경쟁/평가)를 바탕으로 구현되었으며 StarGAN, CycleGAN, StyleGAN 등 여러 변형 모델들과 함께 우리가 더욱 재밌는 프로젝트를 진행할 수 있게 만들었다. 하지만, GAN 모델이 무작정 장점만을 가지고 있는 것은 아니다. 최근 Diffusion 방법론이 등장하며 GAN의 문제점을 많이 언급, 개선한 점에 대해 서술을 하고 있는데 오늘은 이러한 GAN 모델의 단점에 대해 알아보려 한다.GAN 모델의 문제점은 크게 2가지로 나눌 수 있다. 우선 첫번째는 Mode Collapse이다. 여기서 Mode는 최빈값(.. 2024. 8. 12.
[AI Q&A] Computer Vision 모델의 Input 해상도 크기는 왜 작을까? Computer Vision 모델들을 살펴보면 들어가는 Input 이미지의 크기와 관계없이 224*224, 640*480 등 과 같이 작은 크기의 특정 해상도로 먼저 바꿔준 후 모델에 넣어주는 경우가 많은 것을 알 수 있다. 최근 FHD, QHD, UHD 와 같이 최근 고해상도의 사진이 많이 등장하고 있는 시점에 아직 모델이 처리하는 이미지의 입력 크기가 작은 이유는 무엇일까? 여기에는 몇가지 이유가 존재하는데 검색과 개인적인 견해를 더해 다음과 같이 정리해 보았다. 계산 효율성 & 메모리 사용량 : 모델을 훈련하거나 실행할 때, 입력 이미지의 해상도가 클수록 연산량이 증가하기 때문에 작은 해상도의 이미지를 활용한다.모델 구축의 용이성 : 이미지가 클 경우 그만큼 해당 이미지에서 정보를 잘 뽑아낼 수 있.. 2024. 4. 30.