특정한 작업을 위해 데이터를 관련성 있게 모아놓은 것을 데이터셋(Dataset)이라고 하며 여러 형식으로 된 자
쉼표가 섞인 숫자를 replace를 통해 쉼표를 제거하고 apply 함수를 통해 전체 columns에 변경 내용을 적용한다.문자열(string)을 다루는 방법은 여러가지가 있는데 그 중에서 오늘 배운 내용은 바로 replace 함수를 사용하는 것이다. 사실 repla
파이썬 판다스에서는 특정 행이나 열을 선택할 때 사용하는 방법으로 loc과 iloc이 있다.loc은 열의 label로 인덱싱하는 방법이다. 그러니까 쉽게 말해서 열의 label이 매출액이라면 loc'매출액' 으로 작성하면 된다. iloc은 숫자로 인덱싱하는 방법이다.
concat은 concatenation의 줄임말로 연결을 뜻한다. 두개의 데이터프레임을 하나의 데이터프레임으로 만들 때 사용한다.위의 코드를 실행하면 df1에는 다음과 같은 값들이 들어가있다. merge는 concat과 비슷한데 조금 다르다. merge는 공통의 열을
일단..배우긴 배웠는데 제가 수포자라서 대부분 이해를 못했습니다..때문에 그저 개념을 다시 한번 보는 용도로만 정리했습니다그래서 매우\*4 엉성하고 빈약합니다. 파이썬으로 미분하기 전에 미분하는 방법을 간단하게 정리하고 넘어가야겠다.미분을 학교에서 배우긴 했었다. 그냥
오늘 배운 내용은 코드는 나름 괜찮은 거 같은데 개념을 이해하는 난이도가 진짜 헬이었다. 통계를 처음 접한 입장에서는 진짜 어질어질하고 이런 걸 계속 쓴다고? 진짜야? 하는 생각이 많이 들었다.. 오늘 개념을 그래도 이해해놓으면 나중이 편하다고 하셔서 최대한 이해해보려
오늘은 어제 배운 T-test를 이어서 배웠다. 독립성은 두 그룹이 연결되어 있는 (paired) 쌍인지를 확인한다. 만약 서로 짝지어진 자료라면 대응표본 T 검정을 실시한다. 정규성은 데이터가 정규성을 나타내는지를 확인한다. 만약 정규분포가 아니라면 Mann-Whit
오늘은 평일에 다 풀지 못한 과제들을 마무리한 뒤, 도전과제로 넘어갔다. 넘어갔더니 처음보는 Anova Test를 하라면서 Anova Test 과정에 대한 링크를 첨부해주셨는데 이해가 안가는 부분이 많아서 또 열심히 구글링을 했다.물론 아직도 100% 이해했다!! 이건
Sampling이란 데이터 분석을 위해 일부 데이터를 가져오는 것을 Sampling(추출)이라고 한다. 샘플링에는 Random Sampling이 있는데 이는 인위적인 편향을 방지하기 위해 아무렇게나 가져오는 것을 Random Sampling(임의 추출)이라고 한다.Sa
지난주에 카이제곱검정에 대해서 배웠는데 오늘 과제를 풀면서 막히는 부분이 많았다. 그래서 따로 유튜브를 보고 정리를 한번 해봤다. 두번째 듣는 내용이라서 그런지 처음 들었을 때보단 이해가 잘 가는 것 같다 카이제곱검정은 주어진 변수가 모두 독립 변수 (Qualitati
CLT, 즉 중심극한정리는 표본의 데이터가 많아질수록 표본의 평균은 정규분포에 근사한 형태로 나타나는 것이다. 이때 그래프는 종 모양을 띄게 되는데 이 종 모양에 관한 핵심 키워드는 바로 "평균" 이다 여기서 평균은 모집단으로부터 추출한 표본(sample)들을 평균한
우선 베이즈 정리를 정리하기 전에 알고 가야할 개념이 있는데 바로 조건부 확률이다.B라는 사건이 일어났을 때 A라는 사건이 일어날 확률은 위의 공식과 같다. 단, P(B) != 0 이어야한다.이는 두 사건이 동시에 일어날 확률을 B가 일어날 확률로 나눈 것으로, 조건부
벡터 공간의 기저는 공간 전체를 생성하는 선형독립인 벡터의 집합이다.오른쪽을 가리키는 길이 1의 벡터를 x-단위벡터, 위쪽을 가리키는 길이 1의 벡터를 y-단위벡터라고 한다. 두개를 통틀어서 좌표계의 기저(basis)라고 부른다. 선형결합은 두 벡터를 스케일 하고 더해
고유벡터를 설명하기 전에, 먼저 알아야 할 개념이 있는데 바로 선형 변환(Linear transformation)이다. 선형 변환은 임의의 두 벡터를 더하거나 혹은 스칼라 값을 곱하는 것을 말한다. 변환이 선형적이라는 것은 두가지 속성을 의미한다. 모든 선들은 변환 후
설명은 주말에 추가할 예정입니다스칼라는 쉽게 말해서 "상수"이다. 실수와 정수가 모두 가능하며 변수에 저장할 때는 일반적으로 소문자를 이용해서 표기한다.내적의 적은 쌓는다는 뜻의 한자로 여기서는 "곱한다"라는 의미를 가진다. 내적은 벡터를 마치 수처럼 곱하는 개념으로,
선형 회귀는 머신러닝 중 지도 학습(Supervised Learning)의 한가지다. 선형 회귀는 일차함수의 개념인 y = ax + b의 직선을 임의로 그려놓고, 그 직선을 바탕으로 예측하는 것이다.독립변수가 증가하고, 종속 변수도 증가한다면 위의 그림의 검은 점선처럼
다중 선형 회귀는 어제 배운 선형 회귀 모델과 크게 다르지 않다. 다른점은 딱 한가지 있는데 그건 바로 선형회귀모델은 feature를 하나만 쓴다는 점이고, 다중선형회귀는 feature를 여러개 쓸 수 있다는 점이다. 때문에 선형회귀보다 좋은 성능을 갖고 있다.선형회귀
Logistic regression은 이름은 회귀이지만 분류 문제를 푸는 지도 학습 알고리즘 모델이다. 샘플이 특정한 범주에 속할 확률을 추정하는데 사용한다.우선 회귀 문제는 예측하고자 하는 변수와의 관계를 볼 때 많이 사용한다. 회귀 문제가 예측 하고자 하는 것은 c
사실 Ridge Regression은 오늘 배운 건 아니고..수요일에 배웠는데 그 날 정리하는걸 까먹어서 시간이 남는 오늘에서야 작성합니다..😅😅Ridge Regression(릿지 회귀)은 다중 회귀 모델에서 람다로 가중치를 줌으로써 편향 에러를 조금 더 더하는 대
Decision Tree는 우리말로 의사결정트리, 의사결정나무라고도 한다. Decision Tree는 분류와 회귀가 모두 가능한 지도 학습 모델 중 하나이다. 일반적으로 decision tree는 질문을 던진다. 그런 다음 답변을 기반으로 학습을 한다.위의 그림은 de
Random Forests 모델은 Decision Tree의 연장선이라고 생각하면 편하다. decision tree는 하나의 트리만 생성하기 때문에 상부에서 생긴 에러가 하부에게도 영향을 주고 트리의 깊이에 따라서 과적합이 되는 단점을 갖고 있다. 이러한 단점을 보완하
Recall : 실제 Positive 중 올바르게 Positive라고 예측된 비율Precision: Positive라고 예측된 것 중 실제 Positive를 맞춘 비율Roc curve: 다양한 임계점에 대한 TPR과 FPR의 성능을 표시해주는것Recall과 Precis
supervised machine learning(ML)에서는 모델을 평가하기 위한 평가지표가 존재하는데 이미 한번씩 정리를 했던 내용인지라 오늘은 그래도 일단 복습한다는 느낌으로 개념을 짧게 정리하고 넘어가려고 한다. 참고로 unsupervised ml은 non-ta
순열 중요도는 한번에 한개의 특성 값을 섞은 후 특성과 실제 결과 사이의 관계를 없앤 뒤 모델의 예측 오차 증가를 측정하는 방법이다. 오류가 증가하지않고 비슷하다면 해당
PDP는 Partial Dependence Plots(부분의존도그림)의 약자로 개별 특성이 타겟에 어떤 영향을 미쳤는지 그래프로 쉽게 알 수 있는 방법이다.
Anaconda는 머신러닝이나 데이터 분석 등에 사용하는 여러가지 패키지가 기본적으로 포함되어있는 파이썬 배포판으로 가상환경을 만들때도 유용하게 사용할 수 있다. Q. 파이썬에서 가상환경이 필요한 이유는 뭘까?가상환경이 필요한 이유는 모델 A와 모델 B에서 공통적으로
SQL은 Structured Query Language의 약어로 데이터베이스에서 사용되는 구조화된 쿼리 언어이다. 여기서 쿼리란 "질의문"으로 저장되어 있는 정보를 필터링하기 위한 질문으로 볼 수 있다.또한 SQL은 데이터가 구조화된 테이블을 사용하는 데이터베이스 (R
클래스는 함수들과 변수들을 모아서 데이터를 관리할 수 있는 개념이다. 클래스를 생성함으로써 이미 작성된 코드를 또 다시 작성하지 않아도 된다. 그러니까 재사용성을 줄여준다.또한, 클래스는 함수와 변수를 모두 담을 수 있기 때문에 다양한 정보와 기능들을 묶어서 사용할 수
HTML은 Hyper Text Markup Language의 약어로 프로그래밍 언어가 아닌 마크업 언어이다. 웹상에 표시하고 싶은 내용을 HTML 문서로 작성하면 컴퓨터가 웹 브라우저를 통해 HTML 문서를 읽고 표현해 우리가 시각적으로 볼 수 있게 되는 것이다. ''
NoSQL - MongoDB
도커(Docker)
파이썬 웹 개발을 위한 툴들
웹 어플리케이션을 배포할 수 있도록 도와주는 서비스형 플랫폼(=Platform as a Service)
서브쿼리: 쿼리 안에 또 다른 쿼리가 조건문으로 포함이 된 것
퍼셉트론: 다수의 입력을 받고 출력은 하나를 출력하는 구조의 신경망을 이루는 가장 기본 단위
역전파에 대해서 알기 전에 간단하게 신경망이 어떻게 학습하는가를 살펴보려고 한다. 데이터가 입력되고, 신경망의 각 층에서 가중치 및 활성화 함수 연산을 반복적으로 수행한다.출력층에서 계산된 값을 출력한다.손실 함수를 사용해 예측값과 실제값의 차이를 계산한다.경사하강법과
경사 하강법은 손실 함수의 경사(Gradient)가 작아지는 방향으로 업데이트 하는 방법이다. 매 Iteration마다 해당 가중치에서 비용 함수의 도함수(=비용 함수를 미분한 함수)를 계산해 경사가 작아질 수 있도록 가중치를 변경해준다.기울기의 반대로 이동하는 이유는
학습률은 매 가중치에 대해 구해진 기울기 값을 얼마나 경사 하강법에 적용할지 결정하는 하이퍼파라미터이다. 위의 식에서 학습률은 얼마나 이동할지를 조정하는 하이퍼파라미터이다. 경사 하강법이 산을 내려가는 과정이라면 학습률은 보폭을 결정하게 된다. 학습률이 크다면 산을 내
Word2Vec와 fastText
RNN과 LSTM
Attention
Transformer
Section4 Sprint2 정리(1)
Section4 Sprint2 정리(2)
CNN
Segmentation & Object Detection/Recognition
AutoEncoder (AE)
정규표현식 (re)
comprehension & global or local variable
OOP (Object Oriented Programming)
BigO 표기법 (BigO Notation)
최대한 간단히 정리하기
재귀함수는 함수 안에서 그 함수를 다시 호출하는 것을 반복하는 함수 즉, 스스로를 반복적으로 호출하는 함수
bubble sort, selection sort, insertion sort
퀵 정렬, 병합 정렬
그래프 (Graph)
BFS (Breadth First Search) & DFS (Depth First Search)
Section6 Project
BERT