# Data Science

157개의 포스트
post-thumbnail

🐣 Pytorch Tutorial

10개의 클래스(butterfly, dog, spider, horse, sheep, cow, cat, squirrel, elephant, chicken)로 이미지를 분류하는 모델을 만들어봤다. pytorch에서 제공하는 라이브러리를 활용했다. 1. 디렉토리 구조 2. dataset.py (1) 구조 생성자 len 메소드 getitem 메소드 (2) 필요성 로컬, url 등을 통해 데이터를 다운로드 데이터 경로, 데이터 레이블(Ground Truth) 리스트 저장 데이터 길이 저장 데이터 가공(transform) : augmentation, tensor main.py 파일에서 한꺼번에 코드를 작성하

3일 전
·
0개의 댓글
·

Bayes Theorem

Bayes Theorem의 목적 어떤 데이터 x가 y라는 카테고리에 속할 확률을 구한다. Bayes Theorem 기본 원리 x가 y에 속할 확률을 조건부 확률 식으로 나타내면 P(y|x) 그리고 이는 p(y|x) = p(x|y)\*P(y)/p(x) Naive Bayes의 원리 x가 특성이 하나만 있을 땐 간단한 수식이 되지만, x의 특성이 많아질수록 p(y|x)를 구하기가 어려워진다. 따라서 x의 특성들이 모두 독립적이라 가정한 후, p(y|x)를 구하면, p(y|x) = p(x1|y)\p(x2|y)\...\(xn|y)\p(y)/p(x) 처럼 x의 x특성들의 확률을 곱하기만 하면 간단하게 원하는 확률을 구할 수 있다. Naive Bayes의 장점: 어느정도 독립이라는 가정이 맞다면, 멀티 클래스의 분류에서 쉽고 빠르게 예측 가능 학습 데이터도 적게 필요 Naive Bayes의 단점: 학습 데이터에 없는 특성이 테스트

2023년 9월 12일
·
0개의 댓글
·
post-thumbnail

머신러닝/딥러닝 문제해결 전략 - 캐글 수상작 리팩터링으로 배우는 문제해결 프로세스와 전략(5)

이번 포스팅에서는 데이터 관계를 시각화하는 방식들에 대해 글을 작성하겠다. 분량이 얼마 되지 않아 짧은 포스팅이 될것같다. 히트맵, 라인플롯, 산점도, 회귀선을 포함한 산점도를 살펴볼 예정이다. 데이터 관계 시각화 1. 히트맵(Heatmap) 히트맵은 데이터 간 관계를 색상으로 표현한 그래프이다. 비교해야할 데이터가 많을 때 주로 사용하며, heatmap() 함수를 이용한다. 이번에는 비행기 탑승자 수 데이터(연도별, 월별 탑승자 수를 나타내는 데이터)를 활용하여 진행해보겠다. 우선 데이터를 불러와 확인해보자. >Code >Result 데이터 확인 결과 범주형 데이터 2개 (year, month)와 수치형 데이터

2023년 9월 4일
·
0개의 댓글
·
post-thumbnail

머신러닝/딥러닝 문제해결 전략 - 캐글 수상작 리팩터링으로 배우는 문제해결 프로세스와 전략(4)

3. 범주형 데이터 시각화 >seaborn을 import하고 data loading하는 code 이번 포스팅에서 살펴볼 시각화 그래프들 막대 그래프 포인트플롯 박스플롯 바이올린플롯 3.1 막대 그래프(barplot) 막대 그래프 barplot() 범주형 데이터 값에 따라 수치형 데이터 값이 어떻게 달라지는지 파악할 때 사용함. 범주형 데이터에 따른 수치형 데이터의 평균과 신뢰구간을 그려준다. 수치형 데이터의 평균 : 막대 높이, 신뢰구간 : 오차 막대 로 표현한다. 원본 데이터를 복원 샘플링하여 얻은 표본을 활용햐 평균과 신뢰구간을 구함 즉, barplot()은 원본 데이터 평균이 아니라 샘플링한 데이터 평균을 구하는 것!!! 기본적으로 x파라미터에 범주형 데이터를, y파라미터에 수치형 데이터를 전달한다. data파라미터는

2023년 9월 4일
·
0개의 댓글
·
post-thumbnail

[데이터사이언스기초] 데이터 사이언스란? (1)

[데이터사이언스기초] 데이터사이언스를 공부하기 앞서 가장 먼저 알아야 할 기본 지식들 Chapter: 데이터사이언스란? - 데이터 사이언스의 정의 - 데이터 사이언스의 특징 - 데이터사이언스의 활용 - 데이터사이언스에 관한 간단한 고찰 1. 데이터사이언스의 정의 📍 데이터 사이언스의 사전적(학술적) 정의 > Data science encompasses a set of principles, problem definitions, algorithms, and processes for extracting non-obvious and useful patterns from large data sets. (데이터사이언스는 커다란 데이터셋으로부터 불명확하고 유용한 패턴을 추출하기 위한 일련의 원리, 문제 정의, 알고리즘 및 프로세스를 포함한다.) - K

2023년 8월 11일
·
2개의 댓글
·

Handling Outliers

Outliers 이번에는 아웃라이어(Outlier)를 처리하는 방법에 대하여 알아봅니다. 아웃라이어는 Tree-based model에서는 별문제가 되지 않지만 linear model과 같은 선형 결합을 사용하는 모델에서는 모델의 성능을 크게 악화시키는 요인이 될 수 있습니다. 1. Clipping 아웃라이어로 판단되는 데이터를 제거해버리는 방식입니다. data normality를 높여주기 때문에 linear model의 경우 효율적입니다. 하지만 아웃라이어에 중요한 정보가 포함되어 있다면 이를 모델에 반영하지 못하는 생길 수 있습니다. 2. Transformation 데이터를 변환하는 방식입니다. 세부적으로는 전체 데이터에 $log$를 취하는 logarithmatic transformation과 root를 취하는 square root transformation이 있습니다. 극단 값의 데이터들이 더 크게 효과를 받으므로, 좀 더 데이터 분포를 normailz

2023년 6월 20일
·
0개의 댓글
·

Handling Numerical Variable

Handling Numerical Variable Categorical을 핸들링하는 방법에 대해 알아보겠습니다. 1. Binning (Bucketing) 첫번째는 binning입니다. 이는 numerical variables를 범위에 따라 쪼갬으로써 categorical처럼 조작할 수 있게 하는 기법입니다. 통상 categorical을 numerical로 변환하기 때문에 잘 사용되지는 않습니다. 쪼개진 하나의 구간을 우리는 bin 혹은 bucket이라 부릅니다. pd.cut으로 손쉽게 구현 가능 합니다. 다음 샘플을 보시면 numerical value인 Salary 피처를 binning하고 있는 것을 볼 수 있습니다. bins 리스트 변수는 bins 범위를 담고 있습니다. 2. Normalization Normalization과 후술할 Standardization은 합쳐서 Scaling이라 부릅니다. 데이터 간의 범위를 일정 범위 및 통계량 내로 조정

2023년 6월 19일
·
0개의 댓글
·
post-thumbnail

[Data Science] Clustering (2) Partitioning Method; K-Means, PAM(K-Medoids), K-modes, CLARA

0 Partitioning Method > ☑️ what) N개의 데이터를 K개의 클러스터로 나눈다. 클러스터의 representative (e.g. centroid, medoid)를 정하고, 다음 식의 클러스터별 총합이 최소가 되도록 나눈다. 🥲 pb) $K$가 hyper-parameter이다, non-convex 모양의 클러스터는 찾을 수 없다. $$ \sum^K{m=1} \sum^{Nm}{i=1} (cm - t_i^m)^2 $$ where $K$ : the number of clusters (pre-defined) $N_m$ : the number of data points in the m-th cluster $c_m$ : a representative of the m-th cluster $t_i^m$ : i-th data point in the m-th cluster 1 K-Means, PAM(K-Medoids), K-modes, CLARA

2023년 6월 18일
·
0개의 댓글
·

Handling Categorical Variable

Handling Categorical Variable 범주형 변수(Categorical Variable)을 처리하는 주요 방법에 대해서 정리해보도록 하겠습니다. 참고로 Categorical variable을 핸들링하기 전에 가장 중요한 것 중하나는 먼저 Missing values를 어떻게 처리할 것(이미 처리했거나, 하나의 범주 지표로 놔두거나) 인지가 선행되어야 합니다. 특정 라이브러리들은 NaN값을 처리하지 못하기 때문입니다. Categorical Variables의 종류 Nominal variables : 순서가 없는 값 (cat, dog) Ordinal variables : 순서가 있는 값 (low, medium, high) Binary variables : 이진 값 (1, 0) Cyclic variables : 순환 값 (월, 화, 수, 목, 금, 토, 일) Categorical Variable을 나누는 방법 나누는 방법에는

2023년 6월 11일
·
0개의 댓글
·
post-thumbnail

DATA SCIENCE (Project)

...ppt 못만든거 알아여... 공대생이라 그래요.... #slide 1 #slide 2 #slide3 #slide4 ![](https://velog.velcdn.com

2023년 5월 28일
·
0개의 댓글
·
post-thumbnail

DATA SCIENCE (5)

선형모델 선택 및 Regularization 1. Subset Selection : 통계적인 모델링에서 사용되는 변수 선택 기법 중 하나로, 모델의 예측 능력을 향상시키기 위해 가장 중요한 변수들의 부분 집합을 선택하는 과정 01. 전진 선택(Forward Selection) : 변수를 하나씩 추가하면서 가장 예측력이 좋은 변수를 선택 02. 후진 제거(Backward Elimination) : 모든 변수를 포함한 전체 모델에서 하나씩 변수를 제거하면서 예측 성능이 가장 크게 저하되지 않는 변수를 제거 03. 단계적 선택(Stepwise Selection) : 전진 선택과 후진 제거의 조합으로, 변수를 추가하거나 제거하면서 예측 성능이 개선되는 경우에만 변수를 선택 또는 제거 ![](https://velog.velcdn.com/images/hyoseon928/post/58aa5ae1-8813-4b31-9f15-a9a1fa3e726

2023년 5월 28일
·
0개의 댓글
·
post-thumbnail

DATA SCIENCE (3)

분류 (Classification) : 주어진 데이터를 미리 정의된 클래스 레이블로 분류하는 문제를 다루는 기계 학습 방법 Q1) 응급실에 오는 환자는 3가지 의료상태 중 어느 하나에 의한 증상을 가지고 있다. 이 환자는 어느 상태인가? Q2) 온라인 뱅킹 서비스는 사용자의 IP주소, 과거 거래이력 등을 바탕으로 현지에서 진행되고 있는 거래가 사기성인지 결정할 수 있어야 한다. Q3) 다수 환자들에 대한 DNA 염기서열 데이터에 기초하여 생물학자는 어느 DNA 변이가 유해하고 어느 것이 그렇지 않은지 알아내고자 한다. ... 1. 로지스틱 회귀분석(Logistic Regression) 반응변수 y를 직접 모델링 하지 않음, y가 특정 범주에 속하는 확률을 모델링 로지스틱 함수를 사용하여 두 개의 반응변수 클래스에 대해 직접 모델링 > p(x) = 1 / (1 + e^(-z)) ![](https://velog.velcdn.com/images/hyoseon92

2023년 5월 28일
·
0개의 댓글
·
post-thumbnail

DATA SCIENCE (2)

선형회귀(Linear Regression) : 양적 반응변수를 예측하는 유용한 도구. Q1) 광고예산과 판매 사이에 상관관계는? Q2) 광고예산과 판매 사이에 얼마나 강한 상관관계가 있는가? Q3) 어느 매체가 판매에 기여하는가? Q4) 판매에 대한 각 매체의 효과를 얼마나 정확하게 추정할 수 있는가? .... 1. 단순선형회귀 : 하나의 설명변수 x에 기초하여 양적 반응변수 y 예측 > Y = β₀ + β₁X + ε -Y는 종속 변수 -X는 독립 변수 -β₀는 절편(intercept)으로, X가 0일 때의 Y의 값 -β₁은 기울기(slope)으로, X의 증가에 따른 Y의 변화량 -ε은 오차항으로, 모델로 설명되지 않는 잔차 01. 계수 추정값 : 주어진 데이터를 기반으로 모델의 절편(intercept)과 기울기(slope)를 추정하는 과정, 주로 최소제곱법 사용 > β₁ = Σ((Xᵢ - X̄)(Yᵢ - Ȳ)) / Σ((Xᵢ - X̄)²) > β

2023년 5월 27일
·
0개의 댓글
·
post-thumbnail

DATA SCIENCE (1)

1. 통계 학습 : 데이터를 이해하기 위한 도구 > 지도 통계 학습(Supervised statistical learning) 데이터 (x,y)가 주어졌을 때, 통계 모델을 통해 f(x)를 찾아내는 활동 모델 f를 이용하여 새로운 값 x에 대해서 y값 예측 비지도 통계 학습(Unsupervised statistical learning) 입력 데이터 x만 주어지고, 숨겨진 구조 학습 x,y 입력 data만 존재 => 입축력 관계 X 2. Supervised (지도 학습) 1. 용어 01. Prediction(예측) f(x)를 black box 취급하여 예측값인 y에 초점 ![](https://velog.vel

2023년 5월 27일
·
0개의 댓글
·
post-thumbnail

Cross-Validation

Cross-Validation Cross-Validation(이하 CV)는 트레이닝셋을 여러 개의 폴드로 분할하여 트레이닝 하는 것이며 CV를 하는 이유 모델의 트레이닝 셋에 대한 Overfitting을 막기 위함이다. 1. Ways of Cross-Validation 데이터의 형태에 따라 cv를 처리하는 방법이 조금씩 다르다. K-fold cross-validation Stratified k-fold cross-validation Hold-out based validation Leave-one-out cross-validation Group k-fold cross-validation 2. K-fold cross-validation 가장 대표적인 cv방법으로 k-fold가 있는데 트레이닝 셋을 여러개(k)개의 블럭으로 분할한 뒤 k-1개를 트레이닝셋으로, 1개를 검증셋으로 할당한다. 또한 이러한 분할을 총 k번 배타적으로 수행하기

2023년 5월 13일
·
0개의 댓글
·
post-thumbnail

📖2023년 Data Science Roadmap

자료 출처 Simplilearn에서 정리한 2023년 Data Science Roadmap Data Science의 필요성 기업과 여러 기관, 그리고 개인이 생성하는 방대한 양의 데이터로 인해 오늘날 전 세계에서 Data Science의 필요성이 점점 더 중요해지고 있습니다. Data Science는 의미 있는 인사이트를 추출하는 도구와 기술을 활용하여 정보에 입각한 의사 결정을 가능하게 하며 기업이 경쟁 우의를 확보하고 운영을 개선하는 데 필수적이 되었습니다. 또한 의료, 기후 변화 및 사회적 갈등과 같은 세계에서 가장 시급한 문제를 해결하는 데 중요한 역할을 합니다. **Data

2023년 5월 9일
·
0개의 댓글
·
post-thumbnail

데이터 취업 스쿨 15기 OT

마음가짐 데이터 분석을 공부해서 데이터 분석가로 취직하고 싶다. OT 후기 데이터 취업 스쿨에 대한 유용한 정보를 많이 알 수 있어 유익했다. 앞으로의 다짐 강의 밀리지 말고 프로젝트 참여 열심히 해서 취직하자.

2023년 5월 2일
·
0개의 댓글
·
post-thumbnail

데이터 분석 및 시각화 (matplotlib & seaborn) -1

데이터 분석 방법론 CRISP-DM Business Understanding 문제를 정의하고 요인을 파악하기 위해서 가설을 수립 Data Understanding 가설에서 도출된 데이터 식별 및 취득 > EDA와 CDA EDA(Exploratory Data Analysis) : 개별 데이터의 분포, 이상치 파악 CDA(Confirmatory Data Analysis) : 통계적 분석 도구 사용 Data Preparation 결측치 조치, 가변수화, 스케일링, 데이터 분할 등 Modeling 주요 변수들을 선택하고, 적절한 알고리즘을 통해 예측 모델 생성 데이터로부터 패턴을 찾는 과정, 오차를 최소화 하는 패턴 Evaluation 모델

2023년 5월 1일
·
0개의 댓글
·
post-thumbnail

[Data Science] Data Analysis and Pre-Processing (강의 6)

1 Data Objects = 1. Data Set Type Tabular $\ni$ Data Matrix, Table ex) a set of termm-frequence vectors, trx. data Graph and Network ex) Social Network, World Wide Web, Molecular Structure Time Series (ordered) ex) video data, temporal data, sequential data Etc ex) spatial data, image data, multimodal data (video + image) 2. Data Objects > data set은 data

2023년 4월 22일
·
0개의 댓글
·
post-thumbnail

[Data Science] Classification (강의 4-5)

0 What is Classification > ☑️ categorical class label을 예측하는 일 (Discrete value) ➰ ex) spam mail detection cf) Regression -> continuous-value 예측 how) to do Model Construction $$ labeled data로 학습한다. Model Usage (Classification) $$ -> $label$ future, unknown sample을 분류한다.

2023년 4월 22일
·
0개의 댓글
·