[2024.07] 3주차 Today I Learned

TIL

rahites 2024. 7. 15. 10:11

1. CPU/GPU/GPGPU/TPU/NPU와 부동소수점 개념 정리

- 추후 정리 예정

2. Civitai checkpoint + LoRA 조합으로 원하는 결과 만들기 위한 Inference 시도

- Diffusers pipeline으로 생성했을 시 한번에 16개의 이미지까지만 생성되는 것을 확인

- 생각보다 Prompt에 원하는 단어를 넣는 것만으로 결과가 잘 나오지 않는 것을 확인(ex. 노란 헬멧을 쓴 남자 -> 꼭 노란 헬멧만 나오지 않음)

- 추후 Civitai 이외의 더 많은 사이트에서 pretrain 모델을 찾아볼 계획

1. StableDiffusion 모델 Dreambooth 방법으로 학습하기

- 손흥민 선수 사진 20장 정도로 학습을 진행(기본 Diffusion 모델, Civitai에 있는 safetensors 모두 활용)

- 학습 수가 적어서인지 만족말만한 퀄리티를 얻지는 못함

- 학습이 더 잘 이루어질 수 있는 방법을 추후 찾으려 함

1. AWS EC2 Instance 생성 방법 정리

- AWS에서 사용하지 않는데 전용 호스트를 열어두어 과금이 이루어지고 있었던 것 확인

- 문제상황 해결 후 이전에 진행했던 Local Zone Instance 생성 방법을 정리해봄

2. 생성 모델로 원하는 이미지를 대량으로 만들 수 있도록 Pipeline 구축

- 기존 Diffusers pipeline에서 최대 16장을 한번의 출력으로 갖기 때문에 이를 1장으로 변경하고 원하는 수만큼 이미지를 반복, 관련 메타 정보를 동시에 저장할 수 있도록 Pipeline 코드를 구축

- 사용되는 파라미터들을 이해하며 진행하였으며 이는 추후에 정리하려 함

3. 연구실 논문 발표 세션 참석

- pixelSplat

- 두 논문 발표 모두 재밌게 들었고 특히 두번째 논문은 DINOv2를 발전시킨 방법론을 제안한 논문인데 그 방법론이 신기해 논문을 따로 읽어보려 한다.

1. StableDiffusion 모델로 만들 수 있는 최적의 조합 찾기

- "건설 현장에서 일하는 작업자"를 퀄리티 좋게 생성 이미지로 만드려 시도

- 여러 safetensors, prompt, parameter로 시도

- 모델을 돌렸을 때 몇몇 Inference 결과가 마음에 든 모델은 있었지만, 모든 사진이 맘에 들었던 모델은 없음

- 불쾌한 골짜기 이미지들을 많이 봤더니 정신적으로 좋지 않음....

1. StableDiffusion 모델로 만들 수 있는 최적의 조합 찾기(SD 1.5 & SDXL)

- checkpoint와 LoRA의 조합 및 weight 활용 정도 확인

- 생성 모델 조합 및 Prompt 확정

- 만들려는 안전모의 색상별로 최적의 조합을 찾아 데이터 생성 시작(현재 1개 색상)

1. 휴식

1. 혼공컴운

- 3장 명령어