Week1 강의 부분 요약
python data handling
CSV
- 데이터를 쉼표(,)로 구분해 놓은 텍스트 파일
- csv 모듈을 이용하면 csv 파일을 쉽게 처리할 수 있음
Web
- 데이터를 표현할 때 HTML 형식을 사용
- HTML
- Tag를 이용하여 요소들을 표현
- ex) <요소> 값 </요소>
- 정규식(regular expression)
- 일정한 형식이 있는 문자열들을 추출하기 위한 도구
- HTML도 일정한 형식이 존재하므로 정규식을 이용하면 원하는 정보를 추출할 수 있음
- 정규식 연습장(http://www.regexr.com/)을 이용하여 연습 가능
XML
- HTML과 마찬가지로 TAG를 사용하여 데이터를 표현하는 언어
- XML 또한 정규표현식으로 parsing이 가능하지만, beautifulsoup으로 parsing을 더 많이 하는 편
JSON
- Python의 Dictionary 타입과 유사한 형태로 표현되는 자료 형식
- 용량을 적게 차지하고, code로의 전환이 쉽다는 장점이 있음
- json 모듈을 이용하면 쉽게 parsing 및 저장을 할 수 있음
확률적 경사하강법
- 모든 데이터가 아닌 하나 혹은 일부의 데이터를 이용하는 경사하강법을 의미
- 목적식이 볼록(convex)하지 않아도 사용할 수 있음
- 경사하강법보다 연산량이 적다는 장점이 있음
몬테카를로 샘플링
- 확률 분포를 모르는 경우에 기댓값을 계산하기 위한 방법
- 이산형, 연속형에 상관없이 성립
- 독립 추출을 보장하고, 많은 수의 데이터를 샘플링 하면(대수의 법칙) 수렴성을 보장
최대 가능도 추정법
- 가장 가능성이 높은 모수 θ 를 추정하는 방법을 의미
- 여기서 '가능도'란 확률 분포의 모수 θ가 특정 값을 가질 때, 해당 분포에서 x를 관찰할 가능성을 의미
- 최대 가능도 추정법을 이용하여 딥러닝 모델들 또한 학습할 수 있음
- 로그 가능도를 사용함으로써 연산량을 O(n2)에서 O(n)으로 줄일 수 있음
확률 분포의 거리
- 기계학습에서의 손실함수들은 두 개의 확률 분포 P와 Q의 거리를 최소화 하는 것을 이용하여 모델을 최적화함
- 쿨백-라이블러 발산(KL Divergence)
- 이산 확률 변수 : KL(P∥Q)=∑x∈XP(x)log(Q(x)P(x))
- 연속 확률 변수 : KL(P∥Q)=∫XP(x)log(Q(x)P(x))dx
- 분류 모델에서 P를 정답레이블, Q를 모델 예측이라 두면 쿨백-라이블러 발산을 최소화함으로써 최대 가능도를 추정할 수 있음
KL(P∥Q)=−Ex∼P(x)[logQ(x)]+Ex∼P(x)P(x)[logP(x)]
베이즈 정리
- 베이즈 정리를 이용하면 A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B∣A)를 계산할 수 있음
- P(θ∣D)=P(θ)P(D)P(D∣θ)
- P(θ∣D) : 사후확률 (posterior)
- P(θ) : 사전확률 (prior)
- P(D∣θ) : 가능도(likelihood)
- P(D) : Evidence
마스터 클래스 - 임성빈 교수님(고려대학교 통계학과 조교수)
대학원
- 대중화되지 않은 새로운 영역이라면 대학원을 추천
- (현 시점 기준)diffusion의 경우 대중화된 연구는 아님
- 입시의 경우, 교수님들마다 중요하게 보시는 부분이 다름(학점, 랩인턴 경험 유무 등)
- 면접에서는 실제로 제대로 알고 있는 지를 확인
논문 읽기
- 처음부터 논문을 잘 읽을 수는 없음
- 많이 읽기
- point를 잘 끄집어내는 방법을 찾기
- 읽고 여러 사람들과 discussion 하기
- 유튜브를 활용하는 것은 좋으나, 직접 논문을 먼저 읽은 후에 유튜브를 보기
- 논문을 읽고, 논문 구현 코드를 찾아보기
- 최신 논문을 알고 설명하는 것보다 구현할 줄 아는 것이 훨씬 중요
한 주 정리
첫 주에는 다양한 일정과 함께 많은 강의가 있어 다 들을 수 있을까 걱정이 되었지만, 다행히도 이번 주에 들을 강의들이 pre-course에서 들은 강의들과 많은 부분이 겹쳐 한 주 내에 모든 강의를 수강하고 복습까지 마칠 수 있었습니다.
무엇보다 조원분들과 함께 서로 으쌰으쌰하며 공부하고, 토의할 수 있는 시간이 있어 크게 지치지 않고 일정을 소화할 수 있던 것 같습니다:)
2주차도 화이팅 나자신...!!!👊🔥