본문 바로가기
대외활동/LG Aimers

[LG Aimers] 비지도학습 - 1. 전통기계학습과 딥러닝에서의 비지도학습

by rahites 2022. 7. 20.

LG Aimers 학습 내용 정리

출처 : https://www.lgaimers.ai/ 

 

 

대표적인 비지도학습 K-means Clustering

: 데이터를 몇 개의 클러스터로 나누어 비교적 비슷한 특징을 가지는 각각의 클러스터로 모으는 것

( 데이터만 존재하고 레이블이 존재하지 않음 )

 

1. 각각의 점은 N개의 다른 특징을 가지는 클러스터 중 하나에 포함

2. 각각의 클러스터에 assign된 점들을 모아서 Centroid에 해당하는 점의 위치를 찾음 ( random하게 assign됐기 때문에 3개의 Centroid가 상당히 가깝게 모여있음 )

3. 2번에서 찾은 Centroid를 기준으로 각각의 점들을 가장 가까운 Centroid에 assign

4. 새로 assign된 점들을 이용해 Centroid를 새로 계산

5. 이를 반복함

 

전통적인 비지도학습에는 Hierarchical clustering, Density estimation, PCA 방법이 있다. 

 

Hierarchical clustering : 여러가지 점이 있을 때 가장 가까운 점끼리를 묶는 방법- Density estimation : 각각의 샘플 값들이 있을 때 어느 값 근처에서 점들이 많이 발생하는지 확률을 계산- PCA : dimension을 줄이기 위한 방법 

 

요즘의 비지도 학습은 이와 다르다!

전통적인 비지도학습은 "적은 dimension, 간단한 개념, 썼을 때 reliable한지 의문점이 듦"의 특징을 지닌다.

따라서 꼭 Cluster validation을 꼭 해주어야 한다. ( Internal, External, Relative ) 

결국 전통적 기계학습에서의 비지도학습은 많은 연구가 진행되었지만 실제 애플리케이션에 사용하기에 걱정이 되는 상황이다.

 

 

딥러닝에서의 비지도학습

- Perceptron(단순한 알고리즘)이 사용하기에 간단한 정보를 중간에 넣어주어야 좋은 성능을 보인다. 

- Feature Engineering이 중요

- $ y \rightarrow X \rightarrow \hat{y} $ 

- 딥러닝의 목표는 y 정보를 다시 뽑아내지 않더라도 $ \hat{y} $ 을 잘 뽑아내는 것이 목표이다.

- 딥러닝에서의 어프로치(Representation learning) : 기계가 진행, 정보가 아닌 딥러닝 모델에 대한 고민, Trial & Error

 

Modern Unsupervised Learning

1. High dimensional data

2. Difficult concepts ( Not well understood, but surprisingly good performance )

3. Deep learning, Unsupervised Representation Learning

 

Representation : 정보를 어떤식으로 정리/표현할 것인가

< 예제 >

- 각도를 어떻게 표현할지? : 하나의 스칼라가 아닌 두개의 스칼라로 표현하는 것 ( 컴퓨터가 0과 2$\pi$를 구분하지 못함 )

- 교통을 어떻게 표현할지? 

 

명확한 Task, 어떻게 Representation? 이 중요한데 비지도학습에서는 어디에서 쓸지 명확하게 지정하지 않음

들어오는 정보를 알아서 중요한 개념이 무엇인지를 파악하고, 스스로 학습한 후 정보를 잘 정리하기를 바랐지만 이는 매우 어렵다

인간이 만들어낸 output representation ( ex. ReLU, cross entropy... )

 

딥러닝 분야에서의 비지도 학습이 어떻게 이루어지는지 알아보자..!

 

 

댓글