[부스트캠프 AI Tech 5기] Week 1 정리 및 회고

araseo·2023년 3월 11일
0
post-thumbnail

Week1 강의 부분 요약

python data handling

CSV

  • 데이터를 쉼표(,)로 구분해 놓은 텍스트 파일
  • csv 모듈을 이용하면 csv 파일을 쉽게 처리할 수 있음

Web

  • 데이터를 표현할 때 HTML 형식을 사용
  • HTML
    • Tag를 이용하여 요소들을 표현
    • ex) <요소> 값 </요소>
  • 정규식(regular expression)
    • 일정한 형식이 있는 문자열들을 추출하기 위한 도구
    • HTML도 일정한 형식이 존재하므로 정규식을 이용하면 원하는 정보를 추출할 수 있음
    • 정규식 연습장(http://www.regexr.com/)을 이용하여 연습 가능

XML

  • HTML과 마찬가지로 TAG를 사용하여 데이터를 표현하는 언어
  • XML 또한 정규표현식으로 parsing이 가능하지만, beautifulsoup으로 parsing을 더 많이 하는 편

JSON

  • Python의 Dictionary 타입과 유사한 형태로 표현되는 자료 형식
    • {key : value} 쌍의 형태로 표현됨
  • 용량을 적게 차지하고, code로의 전환이 쉽다는 장점이 있음
  • json 모듈을 이용하면 쉽게 parsing 및 저장을 할 수 있음

확률적 경사하강법

  • 모든 데이터가 아닌 하나 혹은 일부의 데이터를 이용하는 경사하강법을 의미
  • 목적식이 볼록(convex)하지 않아도 사용할 수 있음
  • 경사하강법보다 연산량이 적다는 장점이 있음

몬테카를로 샘플링

  • 확률 분포를 모르는 경우에 기댓값을 계산하기 위한 방법
  • 이산형, 연속형에 상관없이 성립
  • 독립 추출을 보장하고, 많은 수의 데이터를 샘플링 하면(대수의 법칙) 수렴성을 보장

최대 가능도 추정법

  • 가장 가능성이 높은 모수 θ\theta 를 추정하는 방법을 의미
    • 여기서 '가능도'란 확률 분포의 모수 θ\theta가 특정 값을 가질 때, 해당 분포에서 x\mathbf x를 관찰할 가능성을 의미
  • 최대 가능도 추정법을 이용하여 딥러닝 모델들 또한 학습할 수 있음
  • 로그 가능도를 사용함으로써 연산량을 O(n2)O(n^2)에서 O(n)O(n)으로 줄일 수 있음

확률 분포의 거리

  • 기계학습에서의 손실함수들은 두 개의 확률 분포 P와 Q의 거리를 최소화 하는 것을 이용하여 모델을 최적화함
  • 쿨백-라이블러 발산(KL Divergence)
    • 이산 확률 변수 : KL(PQ)=xXP(x)log(P(x)Q(x))\mathbb{K} \mathbb{L}(P \| Q)=\sum_{\mathbf{x} \in \mathcal{X}} P(\mathbf{x}) \log \left(\frac{P(\mathbf{x})}{Q(\mathbf{x})}\right)
    • 연속 확률 변수 : KL(PQ)=XP(x)log(P(x)Q(x))dx\mathbb{K} \mathbb{L}(P \| Q)=\int_\mathcal{X}^{\text {}} P(\mathbf{x}) \log \left(\frac{P(\mathbf{x})}{Q(\mathbf{x})}\right) \mathrm{d} \mathbf{x}
    • 분류 모델에서 P를 정답레이블, Q를 모델 예측이라 두면 쿨백-라이블러 발산을 최소화함으로써 최대 가능도를 추정할 수 있음
      KL(PQ)=ExP(x)[logQ(x)]+ExP(x)P(x)[logP(x)]\mathbb{K} \mathbb{L}(P \| Q)=-\mathbb{E}_{\mathbf{x} \sim P(\mathbf{x})}[\log Q(\mathbf{x})]+\mathbb{E}_{\mathbf{x} \sim P(\mathbf{x})} P(\mathbf{x})[\log P(\mathbf{x})]

베이즈 정리

  • 베이즈 정리를 이용하면 A라는 새로운 정보가 주어졌을 때 P(B)로부터 P(B∣A)를 계산할 수 있음
  • P(θD)=P(θ)P(D)P(Dθ)P(θ∣D)=P(θ)P(D)P(D∣θ)
    • P(θD)P(θ∣D) : 사후확률 (posterior)
    • P(θ)P(θ) : 사전확률 (prior)
    • P(Dθ)P(D∣θ) : 가능도(likelihood)
    • P(D)P(D) : Evidence

마스터 클래스 - 임성빈 교수님(고려대학교 통계학과 조교수)

대학원

  • 대중화되지 않은 새로운 영역이라면 대학원을 추천
    • (현 시점 기준)diffusion의 경우 대중화된 연구는 아님
  • 입시의 경우, 교수님들마다 중요하게 보시는 부분이 다름(학점, 랩인턴 경험 유무 등)
  • 면접에서는 실제로 제대로 알고 있는 지를 확인

논문 읽기

  • 처음부터 논문을 잘 읽을 수는 없음
  • 많이 읽기
  • point를 잘 끄집어내는 방법을 찾기
  • 읽고 여러 사람들과 discussion 하기
  • 유튜브를 활용하는 것은 좋으나, 직접 논문을 먼저 읽은 후에 유튜브를 보기
  • 논문을 읽고, 논문 구현 코드를 찾아보기
  • 최신 논문을 알고 설명하는 것보다 구현할 줄 아는 것이 훨씬 중요

한 주 정리

첫 주에는 다양한 일정과 함께 많은 강의가 있어 다 들을 수 있을까 걱정이 되었지만, 다행히도 이번 주에 들을 강의들이 pre-course에서 들은 강의들과 많은 부분이 겹쳐 한 주 내에 모든 강의를 수강하고 복습까지 마칠 수 있었습니다.
무엇보다 조원분들과 함께 서로 으쌰으쌰하며 공부하고, 토의할 수 있는 시간이 있어 크게 지치지 않고 일정을 소화할 수 있던 것 같습니다:)
2주차도 화이팅 나자신...!!!👊🔥

profile
AI를 공부하고 있는 학생입니다:)

0개의 댓글