본문 바로가기
TIL

[23.03.21] CoCa

by rahites 2023. 3. 22.

# 오랜만에 농구를 했더니 몸이 힘들다..

 

1. CoCa

오늘은 완전 CoCa의 날이었다. "CoCa: Contrastive Captioners are Image-Text Foundation Models" 논문은 학부연구생 논문 리뷰를 위해 읽게 되었고 Multimodal Task와 관련된 논문이었다. Multimodal과 관련된 논문은 처음 읽어봐서 배경지식이 많이 부족했고, 따라서 관련 모델인 CLIP, Align, SimVLM의 내용까지 찾아보는데 시간을 많이 투자하였다. 

 

비교적 최신 논문이기에 인터넷 자료도 많지 않았고 최대한 해석해 가며 모르는 내용은 찾으면서 이해하려 했다. 이해한 내용을 파일로 따로 리뷰를 작성해 보았는데 (블로그 리뷰는 조금 더 이해를 잘하면 순차적으로 ㅠㅠ) 이게 참 알듯 말듯 말로 표현하기는 힘들지만 전부 이해하지는 못한 것 같다. 

 

짧게나마 이 못난 머리로 이해한 바를 요약해보면 'Contrastive Learning과 Generative Learning을 결합한 방법으로 각 방법의 단점을 극복하였고 이를 위해 3가지의 Encoder, Decoder 구조를 사용하였다' 라고 정의할 수 있는 논문이었던 것 같다. 그래도 어제 Transformer 논문을 읽고 읽어서 그런지 이해가 더 잘되었고, 문장의 표현이 비슷한 부분이 꽤 있다는 것도 알 수 있었다. 예를 들면 Attention, Masking 같은 개념을 쉽게 이해할 수 있었고,  Transformer의 구조에서 attend라는 동사를 많이 사용한다는 점을 알 수 있었다.

 

논문을 읽으면 읽을 수록 여러 논문이 이어져 있기에 주로 사용하는 단어나 표현에 익숙해질 수 있어 좋은 것 같다. 그럼 이제는 수식에만 익숙해지면 될 듯...!!

'TIL' 카테고리의 다른 글

[23.03.22] DCN  (0) 2023.03.23
[23.03.20] 월요일엔 Transformer  (0) 2023.03.21
[23.03.19] Model Soup와 Transformer  (0) 2023.03.20

댓글