
Data Scientist


기본적인 리눅스 명령어

파이썬1991년에 귀도 반 로섬이 만든 프로그래밍 언어문법이 간결하고 읽기 쉬워서 프로그래밍 입문자에게 인기가 많다.다양한 운영체제에서 작동웹 개발, 데이터 분석, 인공지능, 과학 연구, 자동화 등 여러 분야에서 활용풍부한 라이브러리와 프레임워크를 제공하여 개발 생산성


숫자 자료형의 종류 2가지정수형(Integer, int)정수를 나타내는 자료형 양수, 음수, 0을 포함합니다.print(type(0.0)) print(type(3.14)) print(type(-2.5)) \`\`\`덧셈, 뺄셈, 곱셈, 나눗셈, 제곱, 나누기의

리스트(list) 파이썬에서 가장 많이 사용되는 자료구조 중 하나 여러 개의 값을 하나의 변수에 저장할 수 있다 각 값(요소, element)은 순서(인덱스)를 가지고 있다. 대괄호 []로 감싸서 만든다. 리스트의 특징 여러 개의 값을 저장: 하나의 변수에 여러 값

키(Key)와 값(Value)의 쌍을 저장하는 대용량 자료구조파이썬 이외 언어에서는 '연관배열', '해시'라고 한다.리스트나 튜플처럼 순차적으로(=인덱스로) 요소를 꺼낼 수 없음.Key를 통해 Value를 얻는다!요소들의 순서는 의미가 없음.중괄호 {} 안에 Key:V

List & Dictionary

조건문

반복문

람다

함수

일급객체

Module

패키지 & 라이브러리

구문 오류(Syntax Error)n = 10res = n / 0 \`\`\`실행 중에 발생할 수 있는 다양한 예외 상황(예: 파일이 없거나, 0으로 나누기 등)에 대비해 프로그램이 갑자기 종료되지 않도록 안전장치를 마련하는 것이 예외 처리의 목적입니다.조건문으로 미

클래스


데이터는 기록이다현실 세계에서 관찰하거나 측정하여 수집한 사실이나 값숫자, 문자, 기호 등으로 표현된 원시적인 기록자체적으로는 의미가 없으며, 해석이나 가공 과정을 거치기 전의 상태정보는 데이터를 가공, 해석하여 의미와 가치를 부여한 결과물데이터가 처리되어 의사결정에

데이터 다루기

SQL은 데이터를 다루는 데 있어 가장 핵심적인 언어 데이터를 조회하고 분석할 때 필요한 필수 기능 중 LIKE, 와일드카드, 별칭(alias), 정렬, 중복 제거, 조건문, 데이터 타입 변환까지 조회 조건 값 불명확할 경우 사용한다.문자, 숫자 모두 조건에 포함할 수

COUNT, SUM, AVG, MAX, MIN

Join & Union

# 그룹 함수(ROLLUP, GROUPING SETS, CUBE) 그룹함수는 데이터를 그룹으로 묶고, 이 그룹을 기준으로 통계 값을 계산하는 데 사용 주로 GROUP BY 구문과 함께 쓰이며, SUM(), AVG(), COUNT(), MAX(), MIN() 등의 집

Subquery - 하나의 쿼리문 안에 -> 포함되는 또다른 쿼리문! == 중첩 쿼리 (쿼리 재사용) 즉, 메인 쿼리 > 서브 쿼리 포함하는 종속적 관계

PV (Page View)Unique PVVisitsUV (Unique Visits)분석 시 주의 사항ARPU (Average Revenue Per User)ARPPU (Average Revenue Per Paying User)문제 풀이 팁퍼널 분석이란?AIDA 모델A

강의는 인프런에서https://www.inflearn.com/course/%EC%B4%88%EB%B3%B4%EC%9E%90%EB%A5%BC-%EC%9C%84%ED%95%9C-%EB%B9%85%EC%BF%BC%EB%A6%AC-sql-%EC%9E%85%EB%AC%

고객 세그먼트

SQL Project

.

비정제 데이터===> 특정한 구조나 형식으로 정리되어 있지 않은 데이터비정제 데이터의 예시텍스트 데이터: 이메일, 문서 (워드, PDF), 소셜 미디어 게시글, 블로그 게시글, 뉴스 기사, 고객 리뷰, 채팅 로그 등이미지 데이터: 사진, 그림, 스캔 문서, 의료 영상

타이타닉 설명: 결측치, 이상치, 범주형 데이터 등 데이터 클리닝 실습에 최적 https://www.kaggle.com/c/titanic/data

위치, 시간, 요금 등 다양한 결측치와 이상치가 포함된 대용량 데이터https://github.com/toddwschneider/nyc-taxi-data

데이터 전처리


Data Transformation

나이, 성별, BMI, 흡연 여부, 지역 등 다양한 변환(더미 변수, 로그 변환 등) 주소: https://www.kaggle.com/datasets/mirichoi0218/insurance

스피드 데이팅 실험 데이터참가자 특성, 매칭 결과 등 다양한 파생 변수 생성 및 상호작용 변수 실습에 적합주소: https://www.kaggle.com/datasets/annavictoria/speed-dating-experiment

eBay 중고차 판매 데이터설명: 차량 정보, 판매가, 연식, 주행거리 등 다양한 피처 엔지니어링(예: 연식 대비 가격, 주행거리 대비 가격 등)에 활용주소: https://www.kaggle.com/datasets/orgesleka/used-cars-data

신용카드 거래 이상탐지 데이터설명: 거래 패턴, 시간, 금액 등에서 다양한 통계 기반 파생 피처 생성 및 이상탐지 실습주소: https://www.kaggle.com/datasets/kartik2112/fraud-detection


통계 & 시각화

Statistics & EDA

Supervised learning

분류

파이썬 라이브러리 Pandashttps://pandas.pydata.org/docs/index.htmlMatplotlibhttps://matplotlib.org/stable/gallery/index.htmlSeabornhttps://seabo

tableau & Power Bi

N.E.X.T

머신러닝

python을 이용한 머신러닝 툴(도구)데이터 분석 및 예측을 위한 툴사용이 쉽다학습 : fit, 예측 : predict

지도학습(분류)

지도학습 (회귀)

비지도학습

자연어처리

텍스트분석

Credit Card Fraud Detection

N.E.X.T

FINANCE Time Series

시계열 데이터 분석 시작하기

시계열 데이터

시계열 데이터 EDA

시계열 분류

통계 모델을 활용한 시계열 예측 (ARIMA, ARCH)

금융 시계열의 특징

N.E.X.T

NLP 프로젝트 (챗봇 및 텍스트 처리)

N.E.X.T

추천시스템

사이킷런을 활용한 추천 시스템 입문

N.E.X.T

MLOps (Machine Learning Operations)

MLOps

도커(Docker)란? 머신러닝 환경을 손쉽게 옮기는 마법 같은 기술

클라우드 플랫폼 소개 (GCP, AWS, Azure 등)머신러닝 프로젝트를 시작할 때, 강력한 컴퓨팅 자원과 유연한 확장성은 필수입니다.많은 팀과 기업이 클라우드 플랫폼을 활용합니다.가장 널리 사용되는 플랫폼 3가지를 소개합니다:AWS (Amazon Web Servic

Airflow 소개 및 활용 Apache Airflow의 기본 개념DAG(Directed Acyclic Graph) 스케줄링 및 모니터링

머신러닝 파이프라인:데이터 수집 → 전처리 → 모델 학습 → 검증 → 배포 과정을 자동화하고 체계화한 워크플로우목표반복 가능한, 재사용 가능한, 자동화된 머신러닝 프로세스를 만드는 것!