Dropout: a simple way to prevent neural networks from overfitting

Summary

Deep Neural Network 의 Regularization 방법인 Dropout 을 제시한 논문입니다.
학습 과정에서 일부 Node 를 제외(Drop)하는 것 만으로 Overfitting 을 방지할 수 있는 단순한 방법을 제시했습니다.
Max_norm + Dropout 을 사용했을 때 가장 좋은 성능을 보였습니다.
특정 데이터 셋에 구애받지 않고, 어디든 좋은 성능을 보였습니다.

Introduction

Dropout 이전에도 overfitting 을 해결하기 위한 다양한 방법이 제시되어 왔습니다.

Early Stopping : validation accuracy가 증가하지 않을 때까지 학습
L1/L2 정규화(regularization)
soft weight sharing

논문은 가능한 모든 파라미터의 조합에서 생성된 예측을 학습 데이터의 사후 확률로 가중 평균하였을 때, Bayesian Gold Standard 라 부르는 최고의 정규화 성능을 이룰 수 있다고 말합니다. 그러나 이는 크기가 작고 파라미터 수가 적은 모델이 아닌 경우 적용하기 어렵습니다.

모델을 일반화하기 위한 또다른 방법으로는 Model Combination 이 존재합니다. 구조가 다른 모델이나, 훈련 데이터가 다른 여러 모델의 결과를 종합하는 해당 방법은, 당연하게도 많은 연산량과 학습 시간을 요구합니다. 빠른 결과를 중요시하는 문제에서는 적합하지 않았습니다.

Dropout 은 신경망을 구성하는 각각의 뉴런을 확률적으로 제외하는 것만으로도, 과적합 해결 및 Model Combination 의 비효율성을 해결할 수 있음을 제시합니다.

(a)와 같이 n 개의 뉴런으로 이루어진 신경망 각각에 Dropout 을 적용한다면, (b)와 같은 subnet을 2^n 개 얻을 수 있습니다. 훈련과정에서 이러한 Dropout 을 수행함으로서, 2^n 개의 신경망을 동시에 학습하는 것과 같은 결과를 얻을 수 있게 됩니다.

Screen Shot 2021-11-25 at 5.59.04 PM.png

훈련이 끝나고 모델을 테스트하는 경우에는 모델 구조를 고정해서 사용해야 합니다. 이를 위해, Dropout 을 수행한 뉴런의 가중치에, Dropout 확률을 곱하여 사용합니다. 이 방법으로, 훈련 시기 뉴런의 expected output과 테스트 시기 뉴런의 output을 일치시킬 수 있습니다.

해당 방법을 통해 Test 단계에서는 동일한 연산을 거치지 않고 Original Dataset 을 통하여 계산을 진행하더라도 좋은 성능을 내는 것이 가능해졌습니다.