# 데이터분석
기준모델
기준모델(Baseline Model) 예측 모델을 구체적으로 만들기 전에 가장 간단하면서도 직관적이면서 최소한의 성능을 나타내는 기준이 되는 모델을 기준모델 이라고 한다. 문제별로 기준모델은 보통 다음과 같이 설정한다. > - 분류문제: 타겟의 최빈 클래스 회귀문제
테스트 셋 분할
훈련데이터는 모델을 Fit 하는데 사용. 검증데이터는 예측 모델을 선택하기 위해 예측의 오류를 측정할 때 사용. 테스트데이터는 일반화 오류를 평가하기 위해 선택된 모델에 한하여 마지막에 한 번 사용. \-- 테스트세트가 훈련이나 검증과정에서 사용하지 않도록 주의해야 함

2W_ADsP 준비하기
https://www.dataq.or.kr/www/sub/a_06.do🔼 ADsP 데이터분석 준전문가(ADsP : Advanced Data Analytics Semi-Professional)란 데이터 이해에 대한 기본지식을 바탕으로 데이터분석 기획 및 데이터

기획자가 데이터 분석 스터디 처음부터 시작하기
안녕하세요 이번에 처음으로 데이터 분석이라는 낯설은 공부를 시작하게 된 기획자입니다.제가 공부하게 된 스터디를 진행하는 과정을 남겨보도록 하겠습니다.

[퓨처스킬] 베타 유저를 모집합니다. 🔥
안녕하세요.베타 유저 분들을 모시기 위한 목적으로 본 글을 작성합니다. :D저희는 눈깜빡하면 빠르게 바뀌어가는 세상의 속도를 따라잡기 위해서, 학습자를 위한 디지털 학습 공간을 만들고자 하는 꿈을 꾸고 있는 팀입니다.FutureSkill In Seoul인공지능, 데이터

[TIL] 2021.02.12
[Python] DataFrame Select one or two column, [Python] DataFrame 형변환, [데이터분석] 경마 데이터 퀴즈
데이터분석 - 피처 형태의 종류
어떤 구간 안의 모든 값을 데이터로써 가질 수 있다ex) 키, 몸무게셀 수 있으며, 일정 구간 안에서 정해진 몇 개의 값을 가져야 한다ex) 나이 - 나이가 비연속형인 이유 : 19 -> 19.1 (x) 19 -> 20 (o)순서가 있으나 수치는 아니다ex) 학점 (A
Jupyter Notebook을 통한 Numpy 시작
Numpy공식문서numpy는 벡터나 행렬 구조를 위해 만들어진 자료구조이기 때문에 기존 배열과는 다르다.

Anaconda 설치 및 가상환경 구축
Graphical Installer 다운로드 - 아나콘다 다운로드다운로드 후 Mac 유저라면 terminal로 / Window 유저라면 Anaconda prompt로 가상환경 생성명령어 -> conda create -n 가상환경이름 python=3.8conda env

TIL1(3) - 데이터 읽기 및 탐색
데이터를 읽어들이기 위해서는 컴퓨터 내부 데이터에 접근하거나 URL주소를 통해 데이터를 직접 다운받아야한다. 보통 큰 용량의 데이터의 경우 URL주소를 통해 접근해야 하므로 아래와 같은 코드를 입력하여 저장해야한다.import osimport tarfileimport

TIL_1(2) 모델 테스트 및 검증
훈련 세트 / 테스트 세트로 나누기 *일반화 오차 : 모델에 들어가는 새로운 샘플에 대한 오류 비율 *Estimation(추정값) : 테스트 세트에서 모델을 평가해 오차에 대해 얻는 추정값. 홀드아웃 검증 훈련세트를 훈련시킨 후, 테스트 세트를 통해 일반화 오차를

Pandas Profiling, EDA를 위한 최고의 라이브러리 소개
문제가 정의되고, 수행할 Task가 구체화되었을 때,우리는 가장 먼저 데이터를 이리저리 살펴본다.데이터를 잘 표현해 줄 수 있는 여러가지 그래프를 그려볼 수 있고데이터를 잘 요약해 줄 수 있는 다양한 통계량들을 구해볼 수 있다.이러한 과정을 탐색적 데이터 분석(Expl