😽11월 4째 주 weekly review

이번 한 주동안 디버깅, 파이썬 함수, 클래스, 데코레이터, 웹 스크레이핑, API, NoSQL등을 배웠다.지난주보다는 마음이 한결 가벼워진 느낌이다. 지난주에는 이해를 못 해서 수업 시간이나 질문할 때 계속 마음에 돌덩이가 쌓이는 기분이었다. 그래서 항상 토요일에는

2일 전
·
0개의 댓글

😸11월 3째 주 weekly review

이번 한 주동안 콘다 가상환경과 github 등 개발 환경과 SQL에 대해 배웠다.이번 스프린트가 나에게 가장 어렵게 느껴졌다. 일단 깃이나 vscode, 디비버가 처음이라 다루기가 어려웠고, 연결하다가 오류가 나서 컴퓨터를 싹 포맷하기도 했다..ㅎ 스프린트 과제를 하

2021년 11월 23일
·
0개의 댓글
post-thumbnail

[TIL] 유닉스 커맨드

: 1970년대 초반에 개발된 운영체제소프트웨어를 개발하고 실행할 수 있는 플랫폼쉽게 수정해서 다른 컴퓨터에 적용할 수 있음유닉스를 기반으로 하는 다양한 운영체제맥os, 리눅스, 우분투 등이 유닉스에서 파생된 유닉스 운영체제사용하는 커맨드가 비슷함윈도우 운영 체제에 윈

2021년 11월 16일
·
0개의 댓글
post-thumbnail

📑 Project2 '씬파일러를 위한 신용평가 예측모형' 회고

이번 프로젝트는 시간에 쫓겨서 해야 할 말을 못하고 부랴부랴 끝낸 것 같아 아쉽다.그래서 발표 영상을 찍을 때 '왜 이렇게 분석을 진행했는지', '어떤 방식이 쓰였는지' 이런 내용이 빠진 것 같다. 다음에는 발표할 때 체크리스트를 작성해서 설명을 추가하자.모델 성능이

2021년 11월 12일
·
0개의 댓글

😺11월 1째 주 weekly review

한 주동안 data leakage, class 불균형, 로그변환, 오버 샘플링, 언더샘플링, wrangling, feature importances, PDP, ICE, SHAP를 배웠다.초반에는 데이터 분석 프로젝트의 틀을 배웠다면, 후반에는 모델을 해석하는 방법들이었

2021년 11월 5일
·
0개의 댓글
post-thumbnail

[TIL] Interpreting ML Model, PDP / ICE / SHAP

2 SHAP(SHapley Additive exPlanations)

2021년 11월 3일
·
0개의 댓글
post-thumbnail

[TIL] Feature Importances / Boosting

: 각각 특성을 모든 트리에 대해 평균 불순도 감소(mean decrease impurity)를 계산한 값high cardinality 특성의 경우 중요도가 높게 나올 수 있음: 모든 특성을 한번씩 제거하고, 제거하기 전/후 성능을 비교함으로써 중요도를 계산해보는 방법

2021년 11월 2일
·
0개의 댓글
post-thumbnail

[TIL] Choose Your ML Problems

1 예측 문제 정의 2 정보의 누수 3 타겟 분포 변환

2021년 11월 1일
·
0개의 댓글

😺10월 3째 주 weekly review

하이퍼 파라미터 튜닝, 특성공학이번 한 주동안 캐글대회를 기반으로 decision trees, random forests, evaluation metrics for classification, model selecion등을 배웠다.모델의 성능개선이 재밌으면서도 어렵게

2021년 10월 29일
·
0개의 댓글
post-thumbnail

[TIL] confusion matrix / model selection

모델을 만들때 설명하기 아주 유용함f1 score는 precision과 recall을 둘다 보기 위해 많이 쓰임베타를 키웠을 때 recall이 영향이 더 커진다.시나리오에 따라 precision과 recall의 차이를 정확히 알아야 함암진단 recall 중요, 스팸메일

2021년 10월 29일
·
0개의 댓글
post-thumbnail

[TIL] 결정트리, 랜덤포레스트

불순도 감소량이 크다 = 정보 획득량이 많다. = 특성의 중요도가 크다.min_samples_split: 중간 노드를 나누는데 필요한 최소 샘플 수min_samples_leaf: 말단 노드를 나누는데 필요한 최소 샘플 수 뿌리노드에는 불순도 감소량(정보획득량)이 가장

2021년 10월 26일
·
0개의 댓글
post-thumbnail

[TIL] 오차 / 잔차, 손실함수/비용함수

: 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이ε로 표기고정요소(fixed component)와 확률적 요소(random component)로 분류고정요소란, 가정하는 회귀식이 변수들 사이의 참의 관계식을 반영하지 못할때

2021년 10월 22일
·
0개의 댓글

😺10월 3째 주 weekly review

이번 한 주간 simple, multiple, ridge, logistic regression등 회귀분석 전반을 배웠다.나는 회귀에 대한 내용보다 feature engineering이 특히나 어렵게 느껴졌다. 분석의 결과는 모델에 데이터만 넣어주면 점수는 나왔다. 그러

2021년 10월 22일
·
0개의 댓글
post-thumbnail

[TIL] Simple Regression

변수가 1개일 때 적합하다.독립변수 x만으로 y를 설명할 수 있을 때회귀계수에 대한 검정을 통해 변수 x의 설명력이 존재하는지 확인할 수 있음(p-value 확인)1차항 이하일 때 적합하다.선형관계잔차란, 실제 값과 추정한 값의 차이를 말한다.최소자승법(OLS:Ordi

2021년 10월 18일
·
0개의 댓글
post-thumbnail

[TIL] Section1 총 정리

Data Preprocess & EDA, Statistics, Linear Algebra

2021년 10월 14일
·
0개의 댓글
post-thumbnail

👾 Project1 '다음분기 어떤 게임을 설계할까' 회고

시각적인 측면에만 초점을 맞추느라, 데이터 분석에 시간을 많이 쏟지 못한것 같다.최종 결과물을 보니, x축 y축, 색 톤 정도만 정리를 하고, 폰트크기나 그래프 제목은 ppt로 만드는 것이 시간대비 효율적인 것 같다.또한 시각화 자료를 조금 더 크게 배치하여 읽기 편하

2021년 10월 14일
·
0개의 댓글

😺10월 1째 주 weekly review

이번 한 주동안 Vector, Metrix, Linear algebra, Dimension Reduction, Clustering에 대해 배웠다.이번 주에 배운 내용들 중 Linear Projection 내용이 특히나 어려웠다. 선형대수학을 배우지 않은 나로써는 용어도

2021년 10월 5일
·
0개의 댓글
post-thumbnail

[TIL] Clustering

Supervised / Unsupervised learning

2021년 10월 1일
·
0개의 댓글
post-thumbnail

[TIL] Dimension Reduction

행렬 A를 선형변환으로 봤을 때, 선형변환 A에 의한 변환 결과가 자기 자신의 상수배가 되는 0이 아닌 벡터를 고유벡터, 이 상수배 값을 고유값이라 한다.즉, n x n 정방행렬(고유값, 고유벡터는 정방행렬에 대해서만 정의된다) A에 대해 Av = λv를 만족하는 0이

2021년 9월 29일
·
0개의 댓글
post-thumbnail

[TIL] Linear algebra

붓스트랩(Bootstrapping): sample에서 중복가능한 subset of data를 무작위 추출

2021년 9월 29일
·
0개의 댓글