Fact 오늘은 아래 내용을 배웠다. EDA Data-preprocessing 오늘은 아래 과제를 풀었다 ㅇㅇ Feeling - 오늘 오전 9시에 시작해서 오후 11시에 공부 마치는 동안 12시간동안 이것만 했다. 힘들긴 하다. 몸도 몸인데 심적으로
오늘은 아래 내용을 배웠다.Feature EngineeringWhat is Feature Engineering? and Why?datatypestring, replace, apply (!!)list comprehension (for문)오늘은 아래 문제를 풀었다데이터셋
오늘은 아래 내용을 배웠다.Data Manipulationconcat, merge, conditioning, groupby 등merge/join, concat/appendTidy data wide format <-> tidy formatmelt, pivot_tab
오늘은 아래 내용을 배웠다.Derivatives편미분power rule / chain rule경사하강법미분이랑 데이터 사이언스랑 무슨 관련이 있는가?오늘은 아래 문제를 풀었다위에서 배운 것을 통해 실제 미분을 해보는 문제 위주.미분은 고등학교에서도 공부하지 않았다. 오
오늘은 Sprint Challenge 하는 날이었다오늘은 아래 문제를 풀었다Data Preprocessiong load, Explore the datajoin dataFeature EngineeringData Manipulation (mean, top10)EDAplot
오늘은 지난 주 배운 내용을 복습하고, 정리해 블로그에 올렸다데이터 사이언스에서 미분은 왜 필요할까? (+ 기초 미분 )EDA, Preprocessing 기본 개념 (+ 유용한 pandas 함수)Data Manipulation - concat, merge배운 것을 복습
오늘은 아래 내용을 배웠다.기술 통계치(Descriptive Statistics) / 추리 통계치 (Inferential Statistics)4 samplingssimple random, systematic(규칙을 가지고), stratified random, clust
오늘은 아래 내용을 배웠다.T-test를 사용하기 위한 가정독립성, 정규성, 등분산성Type of ErrorType I error (False positive), Tpye II error(False negative)Non-Prametric Methos모집단이 특정 확률
오늘은 아래 내용을 배웠다.ANOVA의 의미, F-stat by scipy큰 수의 법칙 (Law of large numbers)중심 극한 정리 (Central Limit Theorem)신뢰구간 (Confidence Interval)오늘은 아래 문제를 풀었다.공공 데이터
오늘은 아래 내용을 배웠다.이유 불충분의 원리 (The Principle of Insufficient Reason)아무 정보가 없는 상황에서 확률을 동등하게 생각하는 것.조건부 확률 (conditional probability)베이즈 정리 (Bayesian Theory
오늘은 Sprint Challenge 하는 날이었다오늘은 아래 문제를 풀었다데이터 불러오기 / 결측치 확인, 제거 / Feature EngineeringFeature Engineering 중에 새로운 칼럼을 만들되 다른 칼럼의 값이 두 가지 조건을 만족하면 1, 아니면
오늘은 아래 내용을 다시 공부했다.p-value에 대해서 다시 훑어봤다. 기록) p-value는 두 약의 차이가 있는지 없는지를 보여주는 것이지, 얼마나 차이가 나는지를 보여주는 것은 아니다. (p-value가 더 작다가 더 큰 차이가 있다는 것이 아니라는 것)http
이번 주는 선형 대수를 공부한다. 그 시작으로 Vector, Matrix에 대해서 공부했는데, 처음 듣다보니 헷갈리는 개념이 많이 있었다. 지금은 기본적인 개념은 이해를 하긴 했는데, 과연 내일의 내가, 일주일 뒤의 내가, 한 달 뒤의 내가 이걸 기억할 수 있을까 매
오늘은 Eigenvector, Eigenvalue의 의미를 이해하는데 참으로 헤맸다. 그러니 자연스럽게 PCA도.. 😷 지금 이해하고 있는 걸 잊지 않고 싶다! 힘들었지만, 오늘 드디어 선형대수가 데이터 사이언스에서 어떤 의미를 가지는지, 왜 지난 며칠간 벡터며 매트
오늘은 어제에 이어 선형대수 두 번째 시간이다. 중요한 개념들이지만 마찬가지로 아주 헷갈릴 수 있는 부분인 것 같다. 한 달 뒤의 내가 기억할 수 있도록 날 도와줘 TIL! Covariance (공분산)Correlation coefficient (상관 계수)Ortho
어제 eigenvercotr, eigenvalue, PCA에 워낙 뚜드려 맞아서인지, 오늘 배운 것은 그래도 괜찮게 느껴졌다. 😆 오늘 배운 개념 및 파이썬으로의 구현에 대한 기록을 남겨둔다. Key words > - Scree plot K-mean Cluster
오늘은 Sprint Challenge 하는 날이었다오늘은 아래 문제를 풀었다vector 내적 구하기 np.dotmatrix transpose, inverse 하기np.linalg.inv, np.tranpose determinant 구하기determinant가 0이면 해
반성으로 글을 시작한다. 그날 그날 남겼어야 할 TIL을 지난 6일 간 남기지 않았다. 오늘 몰아서 정리해본다. 앞으로는 빼먹지 말고 블로그에도 남기자!
NOTE이번 sprints의 개념 설명, 실습은 캐글의 Prediction of H1N1 vaccination을 주로 이용하였다.백신 접종 여부를 예측하는 분류(Classification) 문제이다.Decision Trees, Gini Impurity, Entrophy
Random Forests, Bagging, OOB, Bootstrap, ensemble(앙상블), Ordinal Encoding개념전날 Decision Tree를 배웠는데, 이어져 나오는 개념이 바로 Random Forest이다. 이름 그대로 나무가 모여 숲을 이룬
NOTE이번 sprints의 개념 설명, 실습은 캐글의 Prediction of H1N1 vaccination을 주로 이용하였다.백신 접종 여부를 예측하는 분류(Classification) 문제이다.Confusion matrix, 정밀도(precision), 재현율(r
model selection, 교차검증(cross validation), hold-out method, k-fold cross validation, 하이퍼 파라미터 최적화, RandomizedSearchCV, GridSearchCV, target encoder교차 검증
오늘은 아래 내용을 배웠다.특성 중요도를 계산하는 방법들 숙지 및 활용MDI(Mean Decrease Impurity), Drop-columns, Permutation importanceMDI는 sklearn 트리 기반 분류기에서 디폴트로 사용되는 특성 중요도이다. 속
오늘은 아래 내용을 배웠다.KeyWordsInterpreting_ML_ModelsPDP (Patial Dependent Plot, 부분의존도)SHAP참고로 이것들은 model-agnostic, 즉 어떤 모델이건 상관없이 사용할 수 있다. 이 개념을 어떤 맥락에서 배웠나
오늘은 Tree Model - Sprint Challenge 하는 날이었다 아래 문제를 풀었다 > NOTE 후에 저와 동일한 스프린트 챌린지를 진행하고 계신 분이 이 글을 보신다면 뒤로가기를 눌러주세요! 문제 및 답 코드가 일부 적혀있습니다. [part1] > 코비
오늘은 Applied Predictive Modeling - Sprint Challenge 하는 날이었다.
오늘은 대학원에서 Computer Vision을 연구하는 친구를 만나서 수학적 관점에서의(수학에 기반한) 머신러닝에 대한 설명을 개괄적으로 들었다.확률에 대해서확률의 기초: event, space, 이산적/연속적 확률 공간에서의 probablity mass fuctio
Section3 - Data Engineering Part START!개발 환경, 터미널과 CLI, 파이썬/콘다 가상환경(Virtual Environment), Git-Github, add-commit-push-pr(⭐) (데이터 엔지니어링의 Introduction 같
Key words > 데이터 베이스, 관계형 데이터 베이스, MySQL, 스키마, ERD(Entity Relation Diagram), SQL(⭐) 1. 데이터 베이스란? 데이터 베이스란 '여러 사람이 공유하여 사용할 목적으로 체계화해 통합, 관리하는 데이터의 집합'
(지방선거 공휴일)선거로 쉬는 날을 맞아 미루어두었던 김영하 작가의 작별인사를 읽었다. 그 중 요즘 배우는 것과 관련하여 생각해볼만한 대목이 있었다. '내일 아침노을의 모양을 수학적으로 정확하게 계산할 수 있냐'는 물음을 받은 한 수학자의 답이다."... 충분한 데이터
트랜잭션(Transaction), ACID, 서브 퀴리, SQL 다양한 구문 연습트랜잭션이란 단어를 처음 들었을 땐 어려울 것 같아서 쫄았는데, 개념 자체는 전혀 어렵지 않았다. 간단하게는 '데이터베이스의 상태를 변화시키는 작업의 모음'이라고 생각하면 된다. 세션에는
인터페이스, DB API, 클라우드 데이터 베이스/온프레미스(on-premise) 데이터 베이스, sqlite3, connect/cursor오늘 웜업영상으로 이걸 봤는데, 인터페이스에 대해 깔끔하고 재밌게 정리해줘서 좋았다. 아침에 깔깔 거리면서 봤네ㅎㅎ인터페이스란 '
어제 도전과제를 일부 풀었다. 다 풀지는 못 했다.문제클라우드 데이터베이스에 'passenger' 라는 테이블을 생성하고 titanic.csv 에 있는 데이터를 'passenger' 테이블로 옮깁니다.1\. 클라우드 DB 서비스인 ElephantSQL를 통해 데이터 베
어제에 이어서..CSV 파일을 불러와서 insert하는 for문을 다시 썼다. IDLE로 직접 테스트하면서 썼다.VALUES (?, ?, ?, ?, ?, ?, ?, ?)를 VALUES (%s, %s, %s, %s, %s, %s, %s, %s)로 수정했다. 어제 ?부분에
어제에 이어서..."Primary Key - Serial start at 0"아래처럼 0 벨류를 하나 먼저 insert 해두는 것으로 해봤으나 원하는 결과가 나오지 않았다.cur.execute("INSERT INTO passenger (Id) VALUES (0);")
오늘은 S3-Week1 : 환경과 관계형 데이터베이스 - Sprint Challenge 하는 날이었다.이전에 Day Difference 구할 때 Cast까지 해서 했었다. year difference는 복잡하게 뭐 할 것 없이 그냥 두 날짜를 빼기만 하면 나왔다. 그리
디버깅, pdb, 함수, 클래스, OOP(객체 지향적 프로그래밍), 데코레이터 (etc ..)디버깅(debugging)은 버그를 찾아 없애는 과정으로만 생각하고 있었는데, 좀 더 넓게 생각하면, 내가 원하는대로 코드가 작동하는지 확인하는 전반의 과정으로도 생각할 수 있
HTML/CSS, 크롤링, 웹 스크레이핑, DOM, beatifulsoup 라이브러리, requests 라이브러리HTML의 기본 구조와 CSS, 자바 스크립트에 대해 개괄적인 공부를 했다. 셋의 차이에 대해서는 아래 그림으로 정리 딱 되는 듯!DOM에 대해서 처음 들었
API, Server/Client, RESTful API, HTTP, 실습(OpenWeather API, Tweeter API)이전 회사에서 API라는 단어를 많이 썼었고, 관련 운영 업무를 진행했었다. 그때 API가 뭐야?! 라고 누가 물어본 적이 있었는데, 그때의
지난 금요일에 섹션2 프로젝트 채점이 마무리 되며 코치님으로부터 Section2 프로젝트 13기 공통/개인 피드백이 공유되었었는데, 오늘 읽어 보았다. 개인 피드백으로 받은 내용 중, 발표 내용 마지막에 모델 성능 개선에 대한 향후 방향성도 넣어주었다면 좋았을 것 같다
NoSQL, MongoDB (specifically MongoDB Atlas), Pymongo, XML/JSON/YAMLNoSQL의 탄생 배경을 알기 위해, 웹상에서 주고 받는 데이터의 형태를 알아야 한다는 의미에서 살펴 본 개념이다.이 영상을 참고하자. 간단히만 요약
오늘은 S3-Week2 : 데이터 수집과 NoSQL - Sprint Challenge 하는 날이었다.문제를 말할 수는 없고,, 암튼 만점 받았으!웹 페이지로 정리 안된 json 볼 때 이 사이트로 보기 쉽게 바꾸고 구조 보니 아주 편했다!처음에 문제 보고 이게 뭘 어떻
Docker, Docker Hub, Docker Image, Docker Container, Docker Compose(오늘 직접 해보진 못함)와, 오전에 Docker에 대한 세션 영상 다 듣고 오랜만에 대체 이게 뭔소리인지 멍했었다. 마치 예전에 선형대수할 때 아이겐
Flask, Jinja, Bootstrap, Template Engine, Web ApplicationFlask란 Micro Web Framework이며, 파이썬을 활용하여 웹 어플리케이션을 작성할 수 있도록 도와준다.장고(Django)와 거의 유사하게 만들어졌지만,
배포, Heroku, WSGI, 대시보드, Metabase어제는 Flask를 통해 웹 어플리케이션을 만드는 걸 배웠다. 하지만 어제 한 것만으로는 내가 만든 어플리케이션을 다른 사람이 쓸 수 있도록 공유할 수는 없다. (물론 설정해서 줄 수는 있긴 한걸로 보았지만 진정
\[python] 환경변수를 사용하여 민감한 정보의 코드 노출 피하기 \[1]짧긴 하지만 오늘 하루를 그냥 넘어가고 싶지는 않아서 요것을 실습해보았다. 몸이 너어어어무 피곤하다. 좀 쉬어줘야지..
\[python] 환경변수를 사용하여 민감한 정보의 코드 노출 피하기 \[2]오늘은 실제로 프로젝트 진행할 때 활용할만한 부분을 실습했다.분석 담당자와 엔지니어가 협업할 때의 이해관계의 차이와 문제점들에 대해서 공부했다. \[데이터 분석을 위한 SQL 레시피] Day
UTC/KST, ISO 8601, Scheduling, APScheduler, 부호화(Encoding), 복호화(=역부호화, Decoding), Pickle/피클링오늘은 배운 내용과 실습해본 내용을 병기하겠다.오늘 첫 개념으로는 시간에 대해서 배웠다. 갑자기 왜 시간에
오늘은 S3-Week3 : API 개발과 대시보드 - Sprint Challenge 하는 날이었다.문제를 말할 수는 없고, 암튼 만점 받았으!비공개 포스트로 풀었을 때 과정, 헷갈렸던 점 등 정리해두었다.전반적으로 지난 일주일 간 무엇을 배웠는지 정리해주어서 잘 들었다
인공신경망, 딥러닝, 퍼셉트론(perceptron), XOR 문제, 입력층(input layer)/은닉층(hidden layer)/출력충(output layer), 활성화 함수(activation funcion), tensorflow, Keras(케라스)Section4
순전파(Forward propagation / Feedforward), 역전파(Backpropagation), 손실함수(Loss function), 옵티마이저(optimizer), 경사하강법(Gradient Descent), 확률적 경사하강법 (Stochastic GD
학습률, 학습률 감소 / 계획법, 가중치 초기화, 과적합 방지 기법(가중치 감소, 드롭아웃, 조기종료) 오늘 배운 것은 신경망 학습이 더 잘되도록 하는 방법에 대한 것이다. 이 점을 기억하며 다음 내용을 읽어보면 된다.
Key words > 하이퍼 파라미터, 교차검증, Grid Search, Keras Tuner
오늘은 S4-Week1 : Neural Networks - Sprint Challenge 하는 날이었다.문제를 공개할 수 없지만, 열심히 풀었다. 신경망에서 배운 개념들을 나만의 언어로 표현하는 부분에서 생각보다 시간이 오래 걸려 당황했다. 나중에 기술면접에서 제대로
Key words > 자연어 처리(자연어 이해, 자연어 생성), 벡터화, SpaCy, 토큰화, 불용어, 통계적 트리밍, 어간추추출, 표제어 추출, Counter-based Representation(Bag of words - TF / TF-IDF, 코사인 유사도
분산표현(Distributed Representation), Word2Vec, 분포가설(Distribution hypothesis), 임베딩(embedding) 지난 노트에서는 벡터화를 하는 2가지 방법 중 Counter-based Representation에 대해 배
Key words > 연속형 데이터, RNN(순환 신경망), LSTM & GRU, Attention
Key words > Transformer, Positional encoding, Self-Attention
오늘은 S4-Week2 : Natural Language Processing - Sprint Challenge 하는 날이었다.오늘 스프린트 챌린지에서는 크게 배운 개념에 대해 내 언어로 정리하는 것과 모델링하는 것에 대해 풀어보았는데, 내 언어로 정리한다는게 생각보다
Key words > 합성곱 신경망(Convolutional Neural Network), 패딩(Padding), 풀링(Pooling), 전이 학습(Transfer Learning), 이미지 증강(Image Argumentation)
Key words > Segmentation(Semantic/Instance Segmentation, UpSampling), 객체 탐지/인식(Object Detection/Recognition)
AutoEncoder, Latent(잠재) 벡터, DAE(Denoising AutoEncoder), 이상치 탐지(Anomaly Detection) 오늘은 배운 개념이 매우 심플하다. AutoEncoder (오토인코더)는 입력 데이터를 저차원의 벡터로 압축한 뒤 원래 크
GAN, DCGAN, CycleGAN 유투브에서 찾아본 Cycle GAN 논문 리뷰 영상인데, cycle gan 뿐 아니라 앞서 gan에 대한 구조 등 설명도 좋아서 [링크](https://www.youtube.com/watch?v=dr9Yf8EY4J4 ) 첨부해
오늘은 S4-Week3 : Deep Learning Applications - Sprint Challenge 하는 날이었다.오늘 스프린트 챌린지에서 지난 스프린트 때 배웠던 것처럼 모델 만드는 과정을 해보았는데, 와 쉽지 않았다. 쉽지 않았어.. 내일부터 프로젝트 시간
반복문, 조건문, 내장 메서드, 컬렉션 자료형, 프로그래밍섹션5 컴퓨터 공학 기본의 첫 날이다. 오늘은 개념을 많이 배우기보단, 다양한 상황에 대해 파이썬으로 어떻게 코드를 짤 수 있는지 보고 직접 실습해보는 시간이 많았다.이건 기억하면 좋을 듯파이썬: 컴퓨터와의 소통
문제해결, 의사코드(슈도코드), 컴프리헨션(comprehension),예외 처리 오늘도 역시 개념 자체를 많이 배운다니보단 여러 상황에 대해 코드를 적고 돌려보는 시간이 많았다. 이번 섹션은 계속 이러려나보다. 기억하자!! section5 전체의 최종목적은 자료구조
OOP(Object Oriented Programming), 클래스 설계CS 섹션에 들어오고 하루 이틀 공부해보면서 파이썬 공부를 하는건가보다 싶었는데 그게 아니었다.그보다는 문제 해결을 위한 컴퓨팅 사고력을 기르는 것과 프로그램을 구성하는 여러 구조를 이해하고 어떻게
자료구조, 알고리즘, 빅오 표기(Big O notation) - 시간복잡도/공간복잡도오늘도 역시 어제 말한 것처럼 파이썬이란 언어 자체에 집중하는게 아니라, 효율적인 프로그래밍을 하기 위해 자료 구조와 알고리즘을 이해하는 것이다! 이번 섹션의 대표 키워드인 효율성 늘
오늘은 S5-Week1 : Python and Problem Solving - Sprint Challenge 하는 날이었다.아~ 오늘 스프린트 챌린지 처음에 너무 스트레스였다. 1-1번문제에서 한 시간 정도 걸렸다. 분명히 따로 돌려보면 요구하는 결과를 출력하는 코드인
자료구조(Data Structure), 추상자료형(ADT), Queue, Stack자료구조를 생각할 때 오늘도 역시 'python'에 집중하기보단 컴퓨터 공학에서 말하는 자료구조의 맥락에서 생각해야 한다! 자료 구조의 목적큰 데이터를 효율적으로 관리하려는 것이다! 이
재귀 함수, 검색, 트리\[warm-up 영상 - 트리 자료 구조의 종류에 대한 설명이 좋다.]트리라고 하면 예전에 머신러닝 트리 모델 배울 때 봤던 거다! 개념이나 구성 자체는 크게 다르지 않은 것 같고, 대신 이걸 자료 구조의 측면에서는 어떤 특징과 효용이 있을지
버블정렬, 선택정렬, 삽입정렬오늘은 최대한 간단하게 핵심 내용만 요약 정리! 특정 문제를 해결하기 위한 방법 또는 절차. 알고리즘을 프로그래밍 언어로 작성한 것이 프로그램.개발자들한테는 기술 면접 단골 질문일 수 있겠다. 좋은 알고리즘이란 뭘까? 안정적(원하는 답을 항
분할정복(divide and conquer), 재귀 호출, 퀵 정렬(Quick Sort), 병합 정렬(Merge Sort)분할 정복은 단어에서 보면 대강 어떤 의미인지 추측은 가능할 것이다. 말 그대로 해결하고자 하는 문제를 통으로 한 번에 풀려고 하지 않고, 문제를
오늘은 S5-Week2 : Data Structure and Algorithm Core - Sprint Challenge 하는 날이었다.오늘 스챌은 크게 어렵지 않았다. 지난 노트에서 재귀와 정렬을 잘 공부했다면 풀 수 있는 문제였다. 스챌 덕분에 머리에서 희미해지려고
부탁을 받아 인스타그램 게시물 스크레이핑하는 코드를 짜보기 시작했다. 셀레니움을 활용하는데, 오늘은 로그인하는 것까지 했다.
인스타그램 게시물 스크레이핑하는 코드 짜는 걸 어제에 이어 했다.어제 말한 레퍼런스 코드의 큰 형태만 쓰고 세부 내용은 내가 필요한 방향에 맞게 다 바꾸었다.
인스타그램, 스크레이핑, selenium인스타그램 게시물 스크레이핑하는 코드 짜는 걸 어제에 이어 했다.코멘트 가져오는게 생각보다 잘 안되서 많이 해맸다. 아무리 css colector를 이리저리 바꿔봐도 안되었는데, 문제는 생각보다 간단했다.
선형대수강의 : 8일간의 선형대수학 1.6절-1: 역행렬의 정의와 성질, 지수법칙 \[행렬, 벡터공간]Python패캠에서 한 번에 끝내는 딥러닝/인공지능 초격차 패키지Online 결제했다. 필요에 맞게 들을 예정. 오늘은 간단한 벡터-벡터 연산, 벡터 norm 등이 뭐
노트 필기 방식에 대해 새로운 걸 시도해보기로 했다. 원래는 그렇게 정리한 내용도 다 옮겨올까 했었는데, 오늘은 밀린거 몰아 들어서 노트까지 다 옮기면 너무 길어질 것 같아 그냥 공부한 리스트만 남긴다.
python | 한 번에 끝내는 딥러닝/인공지능 초격차 패키지Online - lecture4_review
19,20일에 스터디했던 거 TIL 기록 못 했다.. 기회가 있겠지.아무튼 오늘 공부한 것만 기록!선형대수 | 8일간의 선형대수학 2.2절-1: 행렬식의 기하학적 의미: 절댓값편! \[행렬, 벡터공간]Keyword & Implication행렬식의 변환: $R^2 ->
스터디는 잘 하고 있는 중이다.선형대수, 확률과 통계, Python, ML(시계열) 꼭지로 나누어 계속 공부를 하고 있다. 선형대수는 권태원 선생님꺼 오늘 결제해 처음 들어봤는데, 아주 맘에 들었다. 나 같은 사람에겐 딱이다ㅎㅎ