본문 바로가기

딥러닝(Deep Learning)/D&A Deep Session16

[D&A Deep Session] 6차시 - 10. ResNet # ResNet - 2015년 ILSVRC에서 우승을 한 알고리즘으로 152개의 층을 가진다. - 일반적으로 생각을 할 때 Layer를 계속 쌓아 층을 깊게하면 무조건 성능이 좋아질 것이라고 생각할 수 있다. 하지만 기존의 방식으로 네트워크를 만들어보면, 과적합때문에 층이 깊더라도 좋은 성능이 나오지 않는다. 따라서 ResNet의 저자는 우리가 일반적으로 생각할 수 있는 'Layer가 깊은 모델이 최소한 Layer가 낮은 모델보다는 더 성능이 좋을 것이다'라는 아이디어를 실현하고자 했다. - Layer가 깊어질 때 생기는 가장 큰 문제점은 Gradient Vanishing 문제이다. Layer가 깊기 때문에 작은 미분값이 여러번 곱해지게 되고 이 때문에 Gradient 값이 0에 가까워지는 것이다. 이는.. 2022. 5. 4.
[D&A Deep Session] 6차시 - 9. GoogleNet # GoogleNet - 2014년 ILSVRC에서 우승을 한 알고리즘으로 총 22개의 layer로 구성되어 있다. - 시간을 줄이면서 더 깊고 효율적인 알고리즘을 만드는 것이 목표이다. - 크게 Prelayer, Inceptions Layer + Auxiliary Classifier, GAP(Global Average Pooling)으로 나눌 수 있다. * 1x1 convolution : GoogleNet의 가장 큰 특징은 1 x 1 convolution을 통해 feature map을 줄이는 것이다. Inceptions Layer에서는 총 4가지의 관점으로 convolution을 진행하였는데, 그 이유는 우리가 주어진 이미지에서 어떤 Filter를 사용할 때 공간의 정보를 많이 담는지를 모르기 때문이다.. 2022. 5. 3.
[D&A Deep Session] 5차시 - 8. CNN 심화 # LeNet, AlexNet, VGG 1. LeNet : 1998년 개발된 CNN 알고리즘으로 LeNet-5가 가장 대표적인 모델이다. 이는 흑백 이미지에서 학습된 7 layer CNN으로 Input - Conv(C1) = Subsampling1(S2) - Conv(C3) - Subsampling(S4) - Conv(C5) - FC6 - FC7(output) 으로 구성된다. output size = (input size - filter size + (2 x Padding)) / stride + 1 Input size : ( 1, 32, 32 ) [ convolution, filter size : 5x5, filter 개수 : 6, stride : 1 ] C1 layer : (6, 28, 28) [ su.. 2022. 4. 12.
[D&A Deep Session] 4차시 - 7. CNN # CNN ( Convolutional Neural Nework, 합성곱 신경망 ) : 지역 정보를 학습시키기 위한 신경망 모형으로 완전연결 신경망과 달리 새롭게 Convolution Layer와 Pooling Layer를 사용한다. 또한 이미지의 Region Feature를 Convolution Layer와 Pooling Layer를 이용해 추출해 나온 Feature를 MLP의 input으로 사용하기 때문에 이미지 처리와 관련된 Vision분야에서 좋은 성능을 보인다. * 완전연결 계층의 단점 : 데이터의 형상이 무시된다!! ( 몇차원의 데이터이든 1차원으로 변환해 입력해주기 때문 ) * 기본 구조 Convolution Layer : 지역 정보를 뽑아내기 위한 층 Pooling Layer : Featu.. 2022. 4. 2.
[D&A Deep Session] 3차시 - 6. 정규화와 오버피팅 억제 # Internal Covariate Shift ( 내부 공변량 변화 ) : 학습 과정에서 계층 별로 입력 데이터의 분포가 달라 나타나는 문제로 학습 속도가 느려지며 Gradient Vanishing에 영향을 준다. 이를 극복하기 위해 정규화를 적용할 필요가 있다!! 정규화의 장점 : - 학습 속도 감소 - 오버피팅 억제 ( 드롭아웃 등의 필요성 감소 ) - 가중치 초기값에 대한 의존성감소 ( 하이퍼파라미터의 설정이 자유로움 ) 1. Batch Normalization ( 배치 정규화 ) : 학습시 미니배치 단위로 매 순간의 input을 N(0,1)로 정규화 장점 : - 오차 역전파법 시 파라미터의 크기에 영향을 받지 않아 학습률을 크게 잡을 수 있어 빠른 학습이 가능하다 - 자체 regularizati.. 2022. 3. 29.
[D&A Deep Session] 3차시 - 5. 최적화와 가중치 초기화 # 최적화란? : 가중치 매개변수의 최적값을 탐색하는 방법 ( 경사 하강법의 단점을 보완 ) - 경사 하강법의 단점 1. 학습할 때마다 모든 데이터 셋을 활용하기 때문에 학습이 오래걸리며 메모리 문제가 발생할 가능성이 높다. 2. 적절한 학습률을 찾기 어렵다 ( 너무 작으면 시간이 오래걸리고, 너무 클 경우에는 최솟값 계산이 어렵고 loss 값이 커지는 방향으로 진행된다 ) 3. 최종 목적인 Global minimum을 찾지 못하고, Local minimum에 갇힐 수 있다. 이러한 경사 하강법의 단점을 보완하여 '확률적 경사 하강법 (Stochastic Gradient Descent)'이 등장하였다. : 모든 데이터 셋 활용 -> 랜덤하게 추출한 일부 데이터만을 사용 ( 잦은 업데이트를 통한 빠른 최적.. 2022. 3. 29.