더 공부하고 싶은 내용:분할정복, 퀵정렬, 병합정렬이번 스프린트에서는 큐, 스택, 재귀, 트리, 정렬, 분할정복에 대해서 배웠다. 이번 스프린트는 나름 재밌게 배웠다. 처음 봤을 때는 엄청 어려웠던 개념들이 다시 배우니까 조금 이해가 되는것 같고, 새로 배우는 개념들도
이번 프로젝트도 참 쉽지 않았지만 결과보다 과정에 만족한 프로젝트였다. 또한 지난 프로젝트에서 아쉬웠던 부분인 시간 배분 문제를 개선했다.프로젝트 초반엔 많이 힘들었다. 내용 이해가 안 되니까 주제 잡기도 힘들었고, 수업 시간에 느꼈던 답답함이 나를 무기력 상태로 만들
딥러닝 꾸준히 공부이번 한주동안 segmentation, object detection, autoencoder, GAN에 대해 배웠다. 배웠다기보다는 찍먹..ㅎㅎ딥러닝 공부가 이제 시작이라는 생각이 들었다. 초반에는 어렵고 이해를 못하는 것에 대해서 답답함이 느껴졌었
gpt, bert이번 한주동안 NLP에 대해 배웠다.내용을 완전히 이해하진 못했지만 그래도 흐름은 따라가고 있는 느낌이다.지난주에는 이런저런 고민 때문에 집중도 잘 안되고 힘들었는데, 이번 주에는 오늘 배울 내용, 오늘 할 일에만 집중했더니 조금 괜찮아진 것 같다.하지
이번 한 주 동안 신경망의 개념과 신경망 학습, 하이퍼 파라미터에 대해 배웠다.머리속이 복잡한 느낌이다. 딥러닝쪽 내용이 처음 보는 거라 어렵기도 하고, 사실 다른 쪽으로 신경이 쓰여서 집중을 못하고 있는 느낌이다. 이제 부트캠프에서 배우는 개념도 거의 배워가고, 다음
이번 프로젝트에서는 시간 배분을 잘 못한것 같다. 프로젝트 초반에 주제 고민하고 데이터 EDA 하는것에 며칠을 쏟다가 마지막 배포하고 발표 자료를 만드는것에는 시간에 쫓겨 끝냈다.저번 프로젝트 1, 2에서도 아쉬움은 남았지만, 이번엔 조금 다른 느낌의 생각이 들었다.
이번 한주동안 Doker, Flask, 배포와 대시보드, 시간과부호화에 대해 배웠다. '이걸 왜 배우지?'라는 물음을 조금 해결한 느낌이다. 사실 처음에는 데이터 분석 쪽을 더 공부하고 싶고, Flask나 배포를 왜 배워야 하나 의문이 들었다. 이런 생각이 들다보니,
이번 한 주동안 디버깅, 파이썬 함수, 클래스, 데코레이터, 웹 스크레이핑, API, NoSQL등을 배웠다.지난주보다는 마음이 한결 가벼워진 느낌이다. 지난주에는 이해를 못 해서 수업 시간이나 질문할 때 계속 마음에 돌덩이가 쌓이는 기분이었다. 그래서 항상 토요일에는
이번 한 주동안 콘다 가상환경과 github 등 개발 환경과 SQL에 대해 배웠다.이번 스프린트가 나에게 가장 어렵게 느껴졌다. 일단 깃이나 vscode, 디비버가 처음이라 다루기가 어려웠고, 연결하다가 오류가 나서 컴퓨터를 싹 포맷하기도 했다..ㅎ 스프린트 과제를 하
: 1970년대 초반에 개발된 운영체제소프트웨어를 개발하고 실행할 수 있는 플랫폼쉽게 수정해서 다른 컴퓨터에 적용할 수 있음유닉스를 기반으로 하는 다양한 운영체제맥os, 리눅스, 우분투 등이 유닉스에서 파생된 유닉스 운영체제사용하는 커맨드가 비슷함윈도우 운영 체제에 윈
이번 프로젝트는 시간에 쫓겨서 해야 할 말을 못하고 부랴부랴 끝낸 것 같아 아쉽다.그래서 발표 영상을 찍을 때 '왜 이렇게 분석을 진행했는지', '어떤 방식이 쓰였는지' 이런 내용이 빠진 것 같다. 다음에는 발표할 때 체크리스트를 작성해서 설명을 추가하자.모델 성능이
한 주동안 data leakage, class 불균형, 로그변환, 오버 샘플링, 언더샘플링, wrangling, feature importances, PDP, ICE, SHAP를 배웠다.초반에는 데이터 분석 프로젝트의 틀을 배웠다면, 후반에는 모델을 해석하는 방법들이었
2 SHAP(SHapley Additive exPlanations)
: 각각 특성을 모든 트리에 대해 평균 불순도 감소(mean decrease impurity)를 계산한 값high cardinality 특성의 경우 중요도가 높게 나올 수 있음: 모든 특성을 한번씩 제거하고, 제거하기 전/후 성능을 비교함으로써 중요도를 계산해보는 방법
하이퍼 파라미터 튜닝, 특성공학이번 한 주동안 캐글대회를 기반으로 decision trees, random forests, evaluation metrics for classification, model selecion등을 배웠다.모델의 성능개선이 재밌으면서도 어렵게
모델을 만들때 설명하기 아주 유용함f1 score는 precision과 recall을 둘다 보기 위해 많이 쓰임베타를 키웠을 때 recall이 영향이 더 커진다.시나리오에 따라 precision과 recall의 차이를 정확히 알아야 함암진단 recall 중요, 스팸메일
불순도 감소량이 크다 = 정보 획득량이 많다. = 특성의 중요도가 크다.min_samples_split: 중간 노드를 나누는데 필요한 최소 샘플 수min_samples_leaf: 말단 노드를 나누는데 필요한 최소 샘플 수 뿌리노드에는 불순도 감소량(정보획득량)이 가장
: 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이ε로 표기고정요소(fixed component)와 확률적 요소(random component)로 분류고정요소란, 가정하는 회귀식이 변수들 사이의 참의 관계식을 반영하지 못할때
이번 한 주간 simple, multiple, ridge, logistic regression등 회귀분석 전반을 배웠다.나는 회귀에 대한 내용보다 feature engineering이 특히나 어렵게 느껴졌다. 분석의 결과는 모델에 데이터만 넣어주면 점수는 나왔다. 그러