본문 바로가기
TIL

[23.03.19] Model Soup와 Transformer

by rahites 2023. 3. 20.

# 벌써 주말이 끝..?

 

1. Model Soups

어제 논문의 핵심 아이디어는 대강 이해해둔 상태였기에 논문을 마저 읽는 데에는 큰 어려움이 없었던 것 같다. 점심을 먹고 카페에 가서 Model Soups 논문 리뷰를 마무리 하였고, 생각보다 시간이 오래 걸려 밖이 어둑어둑해 질 때가 되어서야 카페에서 나올 수 있었다.

 

Model Soup는 작년에 나온 논문으로 이렇게 최신 논문을 읽고 리뷰해본 것은 처음이라 관련 지식들을 파악하는데 시간을 많이 썼던 것 같다. 이 논문에서 파생되는 또 다른 논문들이 많은데, 이 논문들을 다 읽어볼 수는 없으니 핵심적인 내용 위주로 이해하였다. 이번 논문을 읽는 데에도 역시 영어로 된 내용을 정확히 파악하는 것과 수치적인 내용을 이해하는 것이 가장 어려웠다.  매번 그렇지만..

 

그래도 모델을 Ensemble하는 것이 아닌 모델의 Weight를 평균내는 것만으로 좋은 성능, 빠른 시간의 장점을 취할 수 있다는 새로운 논문을 읽게 되어 만족한다. 

 

2. Transformer Code

Model Soup의 리뷰를 마치고 돌아온 뒤, 이번 X:AI 스터디의 코드 과제인 Transformer 코드를 뜯어보기 시작했다. 가볍게 보면서 주석을 달려고 생각했던 나는 시작하자마자 이게 그리 쉽지 않은 작업이라는 것을 느꼈다. 가장 힘든 점은 Transformer 논문에 나온 내용의 코드 부분을 찾는 것이었다. Transformer 논문을 전에 읽어봤었고 내용도 알지만, 막상 코드만을 보고 이걸 찾으려니 여간 쉬운 일이 아니었다. 

 

따라서 어느 정도만 일단 코드 설명을 작성했고 내일 Transformer 논문을 먼저 읽은 뒤에 논문과 비교하며 다시 코드 리뷰를 작성하는 것으로 계획하였다. 

 

다음 주도 바쁜 한 주가 될 것 같다😢

'TIL' 카테고리의 다른 글

[23.03.20] 월요일엔 Transformer  (0) 2023.03.21
[23.03.18] Model Soup와 ControlNet  (0) 2023.03.18
[23.03.17] SPPNet과 X:AI  (0) 2023.03.17

댓글