ImageNet Classification with Deep Convolutional Neural Networks

핵심 요약

기존에 존재하던 ML이 아닌 Deep Learning의 시초를 열어준 CNN Model ( AlexNet ) 제시
ReLu, Dropout, Multi GPU, Local Response Normalization, Pooling, Augmentation 기법 적용
대략 1000 종류의 Image Classifciation의 시초.
모델의 성능과 “깊이” 연관성에 대한 설명.
아래는 직접 구현해본 Alexnet Code 입니다. 코드에서는 CPU 훈련을 사용하지만 GPU를 사용하면 더 좋은 성능을 보일 수 있습니다.

AI_network_papers_exercise/Alexnet.py at master · junsukim97/AI_network_papers_exercise

Introduction

기존에 사용하던 ML 방법의 이미지 인식 방법은 매우 작은 데이터 셋에서 사용되어져 왔습니다.

하지만 최근 들어 엄청나게 실제 object 분류를 위해서는 더 큰 데이터 셋, 수 많은 이미지들을 분류해야 할 필요성이 있습니다. 그 흐름에 맞춰 수 십만 개의 완전 분할 된 이미지로 구성된 Label Me 와 대략 1500만 개의 고해상도 이미지로 구성된 ImageNet이 등장하였습니다.

이러한 대용량의 이미지들을 구분하기 위해서는 Large Learning Capacity가 필요하였고, 해당 저자들은 multi GPU 를 사용하여 해결하였습니다.

논문에서 제시하는 모델을 통하여 ILSVRC 대회에 나갔고 AlexNet을 사용하여 2012년 우승까지 하였습니다.

최종적으로 모델을 구성하였을 때, 깊게 만들수록 성능이 좋아지는 것을 발견하였다고 합니다.

( 이는 후에 틀렸다고 나오게 되지만 이 때에는 Capacity가 좋지 못했기 때문에 아무리 깊게 만들어도 현재와는 엄청나게 큰 차이가 존재함 )

또한 모델에는 훈련 시간을 줄이고 성능을 늘리기 위한 새롭고 특별한 Feature들을 포함하고 있습니다.

The Dataset

사용한 데이터 셋에 대한 설명입니다.

22000 개의 범주로 구분되는 1500 만 개의 데이터