드디어 인공지능 시작!!
설렘 반 두려움 반😋
기계학습 👉 경험/과업/성능
궁극적인 목표
테스트 집합에 대한 높은 성능을 얻는 것 ==> 일반화
필수요소
데이터의 차원이 높으면 높을수록 규칙을 쉽게 찾기 어렵다. 그만큼 데이터가 더 필요하기 때문에!
표현학습(representation learning)
좋은 특징 공간을 자동으로 찾는 작업
심층학습(deeap learning)
표현학습의 하나로 다수의 은닉층을 가진 신경망을 이용하여 최적의 계층적인 특징을 학습
Task 성능을 향상시키기 위해서 적합하고 다양한 데이터를 충분한 양만큼 수집
딥러닝 모델의 성능이 좋다고 무작정 모든 데이터에 사용해서는 안되는구나.
데이터의 개수를 고려해서 모델을 선택해야 하는 것 같다.
🤔그럼 이 데이터 개수의 기준이 뭐지?
데이터가 적으면 차원의 저주와 관련이 있음
그럼 적은 양의 데이터베이스로는 어떻게 높은 성능을?
고차원의 데이터에서 그 양이 충분하지 않지만 성능이 나오는 이유는 매끄러움의 가정이나 매니폴드의 가정 덕분.
즉, 데이터가 생성될 때 그냥 생성되는 것이 아니라 내재되어 있는 규칙에 의해 생성되기 때문에 어떤 희소한 영역에서 데이터들이 생기기 때문에 그런 희소 영역에 있는 데이터들만 가지고도 충분히 학습하고 규칙을 설명할 수 있다.
🤔매니폴드에 대해서는 다시 학습할 필요가 있다. 적은양으로 학습이 가능한 경우가 있다는건 알겠지만 매니폴드 가정이 어떤 영향을 주는건지 아직 이해가 정확히 되진 못한것같다.
데이터를 더 많이 수집하면 일반화 능력이 향상됨
😳이거..! 저번에 U-Net Network
논문 공부할때 언급됐었는데 당시에는 설명해놓은 부분을 읽어도 '???' 했었는데 이번에 이해했다ㅜ!!!
그럼 그 네트워크 구조에서 쓰인 데이터 규제 방식은 데이터 확대였다는거구나!
인공지능 파트 본격적으로 시작한다🤗
과연 얼마나 어려울지 벌써부터 기대되는구먼..
예전에 조금 공부했을때 underfitting/overfitting 개념이랑 편향/분산 관계가 조금 헷갈렸었는데, 이번에 확실하게 이해해서 너무 좋다.
교수님 설명 너무 잘해주시는 듯
크하핫 혜빈님 긍정 에너지 너무 귀엽습니다, 파이팅!