[2024.11.19]TIL

DONGMIN SONG (송동민)·2024년 11월 19일
0

TIL

목록 보기
22/72
post-thumbnail

TIL

🍔오늘 할 일

  • 통계학 라이브 섹션 따라가기
  • 파이선 베이직반 따라가기
  • 팀 아티클 해결
  • 정리못한 파이선 라이브 복습 : 시간 부족
  • 머신러닝 개인강의 : 절반 정리

중간에 추가된 일

🍟새로 알게된 내용

머신러닝

머신러닝을 하기전에 데이터가 의미가 있는 데이터인지 사전 확인 할 필요가 있다.
독립변수간 강한 상관관계가 나타나는 것을 다중공선성이라 한다.
예를 들면 키와 몸무게는 서로간 어느 정도 상관관계가 있어 이경우 다중 공선성이 나타난다.
🗨해결법
산점도에서 상관관계가 높은걸 채택
혹은 heatmap을 이용해 상관관계가 높은걸 선택
또한 pca를 이용한 차원 축사 방법도 있으나 어렵다.

🙄차원축소를 왜하는가?

차원이 늘어가면 비용과 시간이 기하급수적으로 커지는데, 이를 적절한 비용과 시간이 나오는 차원까지 줄이는게 합의하는 과정이다. (축소시 정보손실이 생기긴 하나 얼마나 가성비적인지가 중요)
이때 말하는 차원수는 흔히말하는 3차원 공간 4차원공간의 개념이 아니라, 하나의 종속변수에 대한 독립변수의 숫자라고 생각하면 쉽다. (인공 지능적 관점의 차원 수)
예를 들어 색을 결정하는 요소에 📕R📗G📘B 3가지가 있는데 이 경우 📕R📗G📘B는 독립변수 색은 종속변수이므로 3차원에 해당한다.

통계학

오늘 까지 배운 통계학 진도 상황
회귀 분석에서 선형회귀분석과 로지스틱 분석에대해 공부한 날이다.
선형회귀는 우리가 자주본 y=xb+a형태의 1차 방정식 형태를 가진 분석이고 이는 독립변수가 1개냐, 여러개냐의 차이를 가진다. 이때 xb는 독립변수가 진행됨에 따라 어떻게 증감할지의 기울기고, A는 X가0일때의 초기 y값(절편)에 해당한다.
로지스틱 분석은 함수식은 너무 깊게 들어가는 부분이라 언급하기 않고 넘어가셨고 독립변수에 의해 종속변수가 2가지중 1개냐, 3개이상일 경우로 차이를 가졌다.

이를 위해 여러 검증 방법과 신뢰도 확인을 알려 주셨는데.. 가장 핵심된 내용은 p-value라는 것..

또한 OLS(Ordinary Least Squares) 라고 오늘 배운 이론들이 모두 한번에 나오는 summary함수를 알게 되었다.
(신뢰도95프로 기준 F검정, T검정, P-value, 등이 한눈에 나온다.)

🥤계획 및 회고

머신러닝, 파이선 배이직반, 통계학까지 공부가 쉴틈없이 오는 와중에 복습까지 하려니 시간이 너무촉박하다. 하루 12시간이 정신없이 지나가는 기적을 맛보게 된다. 특히나 TIL을 적기위한 시간도 없어서 이렇게 짬내서 적는데 9시가 넘었는지도 몰랐다.;;

내일 계획

  • 머신러닝 완강 (내일이면 기초강의 마무리가 될듯 하다)
  • 복습도 되도록 빠르게 정리하기
  • 각종 라이브섹션 따라가기
  • 6시는.. 당분간 포기다. 오늘도 늦게 잘것 같다. 시험 끝났는데..😥😥😥
profile
데이터 분석가를 꿈꾸고 있습니다.

0개의 댓글

관련 채용 정보