다른 사람과 비교하려 하지 말자완벽하려고 하지 말자 지금은 부족을 채우는 과정이다모르는 내용 위주로 적자소통을 중요시 하자과제는 무조건 9시까지Git은 버전관리를 위한 소프트웨어Github는 Git으로 저장돼서 원격 저장소로 전송된 내역들이 저장되는 공간을 제공하는 서
Outlier detection결측치 처리One hot encodingFeature Engineering의 목적 string 데이터 다루기apply함수를 이용한 데이터 수정NaN은 float type을 column의 데이터들이 float으로 type castNaN,
정말 유용한 판다스 팁들 존재코드concat과 merge를 이용하여 데이터프레임을 합치는 방법을 배웠다.tidy 데이터가 무엇인지, melt와 pivot_table 함수를 통해 데이터를 wide와tidy 형태로 변환하는 법을 배웠다.isin pandas styling&
[학습 내용] Warm-up 장기적인 데이터 사이언스 로드맵 Outlier detection 결측치 처리 One hot encoding Session - n112 Feature Engineering의 목적 string 데이터 다루기 apply함수를 이용한 데이터 수
다른 요구사항은 금방 끝냈지만 거의 모든 시간을 그래프 꾸미는 시간에 쓰는데 사용해서 시각화 과정이 너무 오래 걸렸다.Matplotlib 공부가 아직 많이 부족한 듯특히 annotate을 추가하는 방법과 그 외 색상, 폰트 변경 같은 커스터마이징에 대해 좀 더 공부가
통계학기술 통계치 추리 통계치Sampling 기법 4가지가설 검정표준 오차T-test & P-valueOne-side test vs Two-side test1-sample t-test vs 2-sample t-testScipy<과제 하면서 새롭게 배운 내용>In
자유도 (Degree of Freedom) : 주어진 조건 하에서 통계적 제한을 받지 않고 자유롭게 변화될 수 있는 요소의 수 or 독립변수의 수n - 1행렬의 경우 : (row - 1) \* (column - 1)One-tail vs Two-tail test카이제곱
중심 극한 정리 (Central Limit Theorem)모집단에 관계없이 표본 평균의 분포는 정규분포를 따른다 (정규단, 표본의 평균을 구할 수 있어야 하고 표본의 크기가 충분히 커야 한다 (최소 30이상 )많은 통계 검증에 표본의 평균을 사용하므로 중심 극한 정리
베이즈 정리몬티홀 문제총 확률의 법칙조건부 확률베이지안베이지안을 활용한 다양한 예시<과제 하면서 새롭게 배운 내용>이번 과제 자체는 어렵지 않았지만 도전과제에서 영어를 해석하고 문제를 이해하는 것에서 애를 먹었다...
테스트에 대한 스포 주의범주형 변수와 수치형 변수의 결측치 처리를 다르게 할지 아니면 그냥 간단히 처리하는 것이 좋을지에 대해 고민했다.변수들의 데이터 타입에 따라 분석 방법을 다르게 해야하기 때문에 어떤 통계 분석 방법을 사용해야 할지 생각하는데 많은 시간이 걸렸다.

[Today I Learned] Warm-up 선형대수가 무엇이고 왜 중요한가? + 미적분은 무엇인가? Essence of Linear Algebra -> Vector (벡터) Session - n131 데이터사이언스와 선형대수의 관계 스칼라 vs 벡터 벡터의 크기 (
선형 결합, 생성, 기저 벡터Covariance (공분산) & Correlation (상관계수)Linear Projection \- $a^{||b} = \\frac{a^Tb}{||b||^2}b$ 분산 (Variance) & 표준편차 (Standard deviatio
Eignevalues & EigenvectorsPCALinear transformations & matricesVector transformation고유값과 고유벡터차원의 저주 (The Curse of Dimensionality)Dimension ReductionFea
[Today I Learned] Warm-up PCA++ Scree plot Hierarchical Clustering Session - n133 지도 학습 (Supervised) vs 비지도 학습 (Unsupervised) 강화 학습 (Reinforcement Le
이번 스챌은 상대적으로 매우 쉬웠다.선형대수의 개념이 조금 어려웠던 것에 비해 과제나 스프린트 챌린지는 쉽게 나온거 같다.이번 주에 배운 선형대수는 수학적인 부분을 전부 다 이해하는 것은 힘들었지만 그것을 사용하거나 결과 값을 해석하는 것은 생각보다 쉬웠다.선형대수를
사실 (Fact)시간 분배를 적절히 하지 못했다.느낌 (Feeling)내가 전달하고 싶었던 내용이 있었지만 제대로 정리가 되지 않아 발표 때 횡설수설한 부분이 너무 아쉽게 느껴졌다.교훈 (Finding)다른 사람과 비교하는 것은 좋지 않지만 다들 열심히 발표 준비하신
EDA - 초기 분석 단계시각화 도구를 이용한 데이터 속 패턴 발견데이터가 가진 특이성 확인통계와 그래픽 또는 시각화 표현을 통해서 가설 검정하는 과정Pandas 로 할 수 있는 것들결측치 처리Data Frame 시각화도메인 지식과 창의성을 바탕으로, 데이터셋의 Fea
Section2-Sprint1 선형회귀Introduction to Linear regression1) 관측치 $x, y$의 평균 계산2) $x-\\bar{x}$ , $y-\\bar{y}$ 계산3) $x-\\bar{x}^2$ , $(x-\\bar{x})(y-\\bar{y
$R^2$ = $\\frac{\\sum{(\\hat{y} - \\bar{y})^2}}{\\sum{(y -\\bar{y})2}}$0 ~ 1 사이의 값을 가짐$R^2$ 값이 1에 가까울수록 설명력이 높다Standard Error of the Estimate$\\sqrt{\