[ DeepML-CS231n ] Lec.03 Loss functions and optimization

나융·2021년 9월 29일

aiffel

목록 보기

1/12

Max(0, Sj - Sy + 1) 과 같이 벡터 형태를 통해 손실을 계산하기 때문에 이런 명칭이 붙은 것으로 보임
Loss 가 어떤 형태를 취할지 예상할 수 있다 -> 디버깅 시 유용하게 사용될 수 있다

테스트 데이터에 대한 정확도가 낮아진다 -> 쉽게 과적합으로 빠지는 문제가 생김

데이터가 정답일 확률의 분포를 계산함
Exponenital 데이터 간의 차이 증폭(?) -> Normalize 1을 최대값으로 가지는 확률을 계산 -> 최대값 선택 등 부가 과정

어떤 전략으로 언덕을 내려갈것인가?

특정 지점에서 경사도를 체크한다 -> 경사도의 변화를 통해 최저점을 찾아감
미분 연산에 부담이 생기므로 근사식을 이용한다

임의의 점에서 시작해 일정 거리의 스텝으로 이동하면서 최저점을 탐색한다
경사 하강법
좀더 조사해보니 학습 도중에도 학습률을 임의로 조정하는 옵션들이 많이 있는 것 같다 -> 스케쥴러

전체 샘플이 너무 클 경우, 데이터 합으로 이루어진 미니 배치를 만들어 사용

강의 중후반으로 가면서 새롭게 시도해볼 수 있는 것들은 없을까? 알려주는 것만 듣다보니 매너리즘에 빠질듯 뭔가 아이디어가 생길만한 것들을 찾아보자
갑자기 노트북+게더타운 서버 연결이 불안정해졌다 빨리 해결해야 강의에 차질이 안생길듯

딥러닝 한발짝