Babysitting the Learning Process

1. Preprocess the data

데이터 전처리 과정으로 이미지 인식 문제에서는 zero-centered만을 사용한다.

2. Choose the architecture

Hidden layer를 어떻게 구성할 것인지 등을 선택하여 큰 틀을 잡아놓고 진행한다.

3. Check that the loss is reasonable

3강에서 배웠던 sanity check 방법을 활용한다. regularization 추가 후 loss 의 변화를 확인한다.

4. Train 1

작은 데이터 셋을 먼저 넣어 train을 진행한다. regularization을 사용하지 않고, epoch마다 loss는 감소하는지 train accuracy는 증가 확인한다.

데이터 수가 작기 때문에 overfitting 발생해야 하고 train accuracy가 100%가 나오는 것을 확인하면모델이 제대로 작동한다는 것을 의미한다.

5. Train 2

regulaization을 조금씩 주며 learning rate 찾는 과정을 거친다. learning rate가 작으면 gradient 업데이트가 충분히 일어나지 않아 loss가 줄어들지 않고, 너무 크면 NaNs 로 발산하게 된다.