TIL

[2025.02] 1주차 Today I Learned

rahites 2025. 2. 10. 23:16

02/10 월

1. Titans 논문 리딩

- 지금까지 짬짬이 내용은 파악하고 있었지만, 어제 밤부터 제대로 읽으며 정리하기 시작하였다. 핵심 연구 내용을 파악하고 얼른 내 연구에도 적용시킬 수 있도록!!

2. 영어 회화 스터디

- 왠지 모르게 기분이 다운되어 있었는데 많이 웃을 수 있었던 하루였다.

하루 일정을 마치고 나니 이전에 냈던 논문이 Accept 되었다는 메일을 받았다. 이 한 편의 논문을 쓰기까지 노력했던 내 모습이 떠올라 너무나 감격스러웠고 앞으로 또 이런 순간들을 경험하고 싶다고 생각했다. 세상에 자랑할만한 내 연구가 나오기 까지...

 

02/11 화

1. GPU 사양 찾기

- GPU 구매를 위해 정보를 많이 수집하였다. RTX 5090이 아직 출시되지 않아 RTX 4090 중고가가 높게 형성되어있는데, 딥러닝을 활용하기 위한 최적의 GPU가 무엇일지... 일단 RTX 5090의 물량이 풀리는 걸 기다리려 한다.

 

02/12 수

1. Titans 논문 리딩

- 느려도 꼼꼼하게 논문 리딩 진행중

2. 의족 논문 마무리 및 원본 제출

- 이번에 Accept된 논문을 마지막으로 검토하고 원고 제출

3. 영어 회화 스터디

 

02/13 목

1. 회의 및 줌 미팅

- 거의 하루 종일 회의 및 미팅을 진행한 것 같다. 앞으로 한달동안 할 일을 정리했고, 바쁠 것으로 예상된다. 뭐.. 좋을지도..?

 

02/14 금

1. 연구실 논문 세미나

(1) Human-aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions(NeurIPS 2024)

- Vision-Language Navigation(VLN) Task 관련 논문. VLN이 VQA와 다른점은 입력 언어를 바탕으로 로봇이 카메라를 움직이는 것이라고 볼 수 있다(더 긴 Sequence 처리).

- 최근 VLN 모델들은 주로 특정 가정(Panoramic view, Optimal, Static)을 한채로 모델링에 들어가게 되는데 때문에 Real World에서 제약이 발생한다. 이에 본 논문에서는 현실에서 더 좋은 성능을 낼 수 있도록 가정을 수정한 HA-VLN 모델을 제안한다.

- 모델 구조를 보면 Multi-modal 모델들처럼 Cross Modality Fusion을 하는 모듈이 핵심으로 보이며, Panoramic -> Egocentric, Optimal -> Sub-optimal, Static -> Dynamic으로 바꾸어 모델 성능을 개선하였다.

(2) DeepSeek V3

- LLM이 가지는 현재 문제는 Transformer의 연산량이 너무 많고 이에 학습 효율성이 떨어지고 다양한 Task 처리가 어렵다는 점이다. 이에 DeepSeek 논문에서는 V3(Supervised Fine-tuning + Reinforcement Learning), R1(Reinforce Learning) 모델을 통해 위와같은 문제를 극복하였다.

- V2의 주요 방법론

  • Mixture of Experts: Feed Forward 대신 수많은 Expert를 둠. 이 때 Expert는 입력 데이터의 내용적으로 구분하는 것은 아니고 Layer 별로 특정 모듈에 집중적으로 학습한다고 이해하면 될 것 같다.
  • Auxiliary Loss: Mixture of Experts 기법을 활용하기에 각각 구체화된 가중치인 건 좋지만, 치우치면 안좋기 때문에 사용
  • Multihead Latent Attention: Query-Key를 Latent Vector 형태로 내려 O($N^2$)을 가지는 연산량을 O($M*N$)으로 줄인다.

- V3의 주요 방법론

  • Auxiliary-Loss-Free Load Balancing: Auxiliary-Loss 의 단점을 극복하기 위해 사용(https://arxiv.org/abs/2408.15664).
  • Multi-token Prediction: 한번에 하나의 Token을 예측하는 것이 아니라 4개까지 예측을 수행하도록 설계하여 모델 성능을 높임
  • FP8 Training, Dual Pipeline: Pretrain에 FP8 기법을 활용(FP32와 왔다갔다), 이러한 기법을 활용한건 DeepSeek V3가 최초라고..

- R1의 주요 방법론

  • Only RL Training
  • Cold Start Data의 성능을 높이는 것이 중요하여 사람이 가공함
  • PPO -> GRPO

 

02/15 토

1. In-Context Learning 정리

https://rahites.tistory.com/362

 

[메타러닝] 9. In-Context Learning

In-Context Learning(ICL) 이란 ICL은 모델이 별도의 파인튜닝 없이 입력 Context(Prompt)만을 기반으로 새로운 작업을 학습하는 능력을 의미한다. 즉, 예제 몇 개를 보여주었을 때 다음에 오는 질문에 대해

rahites.tistory.com

2. Titans 논문 리딩

 

02/16 일

1.