hyperparameters

Yolov5에서는 29개의 하이퍼 파라미터가 존재합니다. 여기에 대해 직접 자신의 데이터에 맞게 커스텀 할 수 있으며, 이렇게 커스텀 작업을 진행하려면 너무 많은 시간과 자원 및 테스트가 필요하기 때문에 보통은 제작자들이 제시하는 값을 사용하는게 효율적이라고 말하고 있습니다.
우선은 하이퍼 파라미터의 종류에 어떠한 것이 있는지 살펴보겠습니다. 대부분이 Image Augmentaiton 작업을 진행하는 것에 사용되어지고 있습니다. 정확하게 어떤 작업을 하는지 알 수 있어야 추가적인 커스텀이 가능할 것이라 생각합니다.
제작자들이 만들어 둔 하이퍼 파라미터 표는 5가지 정도가 있습니다. yolo5→data→hyps 에 들어가면 필요한 파일이 다양하게 존재합니다. (Object365, VOC, scratch-high, scratch-low, scratch-med) 저는 VOC를 기준으로 하이퍼 파라미터에 대한 설명을 적어보도록 하겠습니다.

실제 사용되는 obb 하이퍼파라미터

lr0: 0.01  # initial learning rate (SGD=1E-2, Adam=1E-3)
lrf: 0.1  # final OneCycleLR learning rate (lr0 * lrf)
momentum: 0.937  # SGD momentum/Adam beta1
weight_decay: 0.0005  # optimizer weight decay 5e-4
warmup_epochs: 3.0  # warmup epochs (fractions ok)
warmup_momentum: 0.8  # warmup initial momentum
warmup_bias_lr: 0.1  # warmup initial bias lr
box: 0.05  # box loss gain
cls: 0.3  # cls loss gain
cls_pw: 1.0  # cls BCELoss positive_weight
obj: 0.7  # obj loss gain (scale with pixels)
obj_pw: 1.0  # obj BCELoss positive_weight
iou_t: 0.20  # IoU training threshold
anchor_t: 4.0  # anchor-multiple threshold
# anchors: 3  # anchors per output layer (0 to ignore)
fl_gamma: 0.0  # focal loss gamma (efficientDet default gamma=1.5)

hsv_h: 0.015  # image HSV-Hue augmentation (fraction)
hsv_s: 0.7  # image HSV-Saturation augmentation (fraction)
hsv_v: 0.4  # image HSV-Value augmentation (fraction)
degrees: 0.0  # image rotation (+/- deg)
translate: 0.1  # image translation (+/- fraction)
scale: 0.9  # image scale (+/- gain)
shear: 0.0  # image shear (+/- deg)
perspective: 0.0  # image perspective (+/- fraction), range 0-0.001
flipud: 0.0  # image flip up-down (probability)
fliplr: 0.5  # image flip left-right (probability)
mosaic: 1.0  # image mosaic (probability)
mixup: 0.1  # image mixup (probability)
copy_paste: 0.1  # segment copy-paste (probability)

lrf : 모델이 훈련을 진행하다가 Local Minmum에 도달했을 때, lr이 작다면 빠져나가지를 못합니다. 우리의 목표는 모델 전체가 수렴이 되는 방향으로 학습을 진행하는 것이기 때문에 Global Minimum으로 향하도록 해야합니다. 따라서 LR을 순환하게 하여 적절한 타이밍마다 LR이 높아져 원하지 않는 최소 값에 빠지더라도 금방 빠져나와 계속해서 수렴되도록 할 수 있습니다.
warmup : 위에서 설명한 이야기와 비슷하게 LR을 낮은 값에서부터 서서히 높이는 것을 말합니다.
box, cls, obj loss : Yolo는 1-stage 모델로서 다양한 연산을 동시에 계산하되 독립적으로 구할 수 는 없습니다. 따라서 Loss를 계산 후에 다시받아오는 과정에서 Gain의 값을 변경하여 각 Loss에 가중치를 할당합니다. 예를 들어 일정 cell 안에 object가 존재하는지 존재하지 않는지를 판단하는 Loss인 obj loss는 Obj가 있는 것보다 없는 환경(배경)이 압도적으로 많기 떄문에 적절한 가중치를 주어 훈련에 사용하는 Loss의 비율을 적절하게 설정해야 합니다.
IOUt : iou 의 값의 임계값을 설정합니다. 임계값 이하의 BBox들은 모두 제거함으로써 훈련의 속도와 연산량을 줄이는 역할을 하게 합니다. 하지만 무작정 높이게 되면 예측하는 박스들 내부에 객체가 존재하는지 판단을 진행할수도 없기에 적절한 값 조절이 중요합니다.
mixup : 이미지 여러장을 하나의 Batch에 넣어서 훈련하는 것이 가능하도록 해줍니다. Cutmix와는 또 다르게 이미지들을 특정위치에서 자르지 않고, 원본이미지 그 자체를 사이즈말 조절하여 여러장을 붙여둡니다.
momentum : SGD 및 ADAM에서 사용하는 값입니다. 물리학에서 사용하는 모멘텀과 동일한 의미를 가졌으며, 운동량을 뜻한다. 물체가 하나의 방향으로 지속적으로 이동하려는 특성을 의미합니다.
hsv : 색을 나타내는 표현을 의미합니다. 기존에 사용하던 방식인 RGB가 아니라 Hue, Saturation, value의 좌표를 사용하여 나타냅니다. 여기서는 해당 값을 어느정도로 변화하면서 이미지를 넣을지 정하는 것 같습니다. 실제로 사용된 증강 코드는 아래와 같습니다.
Flip : Augmentation 중 상하좌우로 이미지를 변환하는 증강작업을 의미합니다.

Evolve & Custome Hyper params

해당 값을 위처럼 하나하나 보고 조절해주어도 되지만 편의를 위해서 —evolve라는 옵션을 제작자들이 만들어 둔 것 같습니다. 해당 옵션은 GA 알고리즘이라는 방법을 사용하여 일정부분 훈련을 진행하고, 그에 맞게 하이퍼 파라미터를 자동으로 조절하여 최적의 값을 산출합니다. 해당 옵션을 사용해서 내가 훈련시키기 위한 모델의 하이퍼 파라미터를 미리 파악하고, 해당 값을 사용해서 더 좋은 모델을 훈련해도 좋을 것 같습니다. 물론 모델별로 최적의 하이퍼 파라미터를 가지는 것이 가장 베스트라고 생각하지만, 엄청나게 많은 시간과 자원을 소비합니다.

<aside> 📌 300 Epochs를 돌려 실험해본 결과 300번을 1회 돌고나니 계속해서 반복하는 것을 보았습니다. 이렇게 1G가 생성되어 최적의 하이퍼 파라미터를 산출하고, 계속해서 반복하여 최고의 값을 선출하는 것 같습니다.

</aside>

DOTA 데이터셋에서 미리 설정해 둔 Hyps 가 존재합니다. 버전은 증강 스킬을 사용하는 방법과 사용하지 않는 방법 두가지로 나누어지는데, 증강을 사용하지 않는 것이 훨씬 성능이 잘 나오는 것을 볼 수 있었습니다. 그러한 이유로 Crack이 너무나 작고 세밀해서 이미지에 다양한 변환을 주면 오차가 생기는 것으로 볼 수 있을 것 같습니다.