깃허브에서 코랩 바로 열기를 하려는데 자꾸 파일 액세스가 안된다고 나와서 찾아보니 비공개 저장소 포함을 누르니 해결됐다.📎구글 코랩(Google Colab)에서 깃허브(GitHub) 연동하는 방법 및 Private Repository에서 소스 코드 가져오는 방법아직
xls.sheet_names엑셀 파일 열 때 sheet name 확인하기 띄어쓰기 있을 수 있음
📎Sigmoid 함수 미분 정리: 수학적 정리📎Derivative of Sigmoid - 시그모이드 미분 함수: numpy 구현
⭐⭐단측검정 설명자료⭐⭐중요중요 내가 이해 못했던 부분!!scipy 공식문서
데이터 분석 초보자를 위한 T-test & Chi-squared test
prior distribution -> 데이터를 업데이트 -> posteriot distribution베이즈 정리 설명 영상
선형대수학이 왜 필요한가?수학에서 쓰이는 표현을 구체화하여 선형화시킨 후, 그 선형화된 관계를 숫자로 계산하는 과정에서 선형대수는 필연적이다.
붓스트랩(Bootstrapping): sample에서 중복가능한 subset of data를 무작위 추출
행렬 A를 선형변환으로 봤을 때, 선형변환 A에 의한 변환 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터를 고유벡터, 이 상수배 값을 고유값이라 한다.즉, n x n 정방행렬(고유값, 고유벡터는 정방행렬에 대해서만 정의된다) A에 대해 Av = λv를 만족하는 0이
Supervised / Unsupervised learning
Data Preprocess & EDA, Statistics, Linear Algebra
변수가 1개일 때 적합하다.독립변수 x만으로 y를 설명할 수 있을 때회귀계수에 대한 검정을 통해 변수 x의 설명력이 존재하는지 확인할 수 있음(p-value 확인)1차항 이하일 때 적합하다.선형관계잔차란, 실제 값과 추정한 값의 차이를 말한다.최소자승법(OLS:Ordi
불순도 감소량이 크다 = 정보 획득량이 많다. = 특성의 중요도가 크다.min_samples_split: 중간 노드를 나누는데 필요한 최소 샘플 수min_samples_leaf: 말단 노드를 나누는데 필요한 최소 샘플 수 뿌리노드에는 불순도 감소량(정보획득량)이 가장
: 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이ε로 표기고정요소(fixed component)와 확률적 요소(random component)로 분류고정요소란, 가정하는 회귀식이 변수들 사이의 참의 관계식을 반영하지 못할때
모델을 만들때 설명하기 아주 유용함f1 score는 precision과 recall을 둘다 보기 위해 많이 쓰임베타를 키웠을 때 recall이 영향이 더 커진다.시나리오에 따라 precision과 recall의 차이를 정확히 알아야 함암진단 recall 중요, 스팸메일
1 예측 문제 정의 2 정보의 누수 3 타겟 분포 변환
: 각각 특성을 모든 트리에 대해 평균 불순도 감소(mean decrease impurity)를 계산한 값high cardinality 특성의 경우 중요도가 높게 나올 수 있음: 모든 특성을 한번씩 제거하고, 제거하기 전/후 성능을 비교함으로써 중요도를 계산해보는 방법
2 SHAP(SHapley Additive exPlanations)
: 1970년대 초반에 개발된 운영체제소프트웨어를 개발하고 실행할 수 있는 플랫폼쉽게 수정해서 다른 컴퓨터에 적용할 수 있음유닉스를 기반으로 하는 다양한 운영체제맥os, 리눅스, 우분투 등이 유닉스에서 파생된 유닉스 운영체제사용하는 커맨드가 비슷함윈도우 운영 체제에 윈