
과학적, 논리적인 사고와 기술력을 융합하여 다양한 형태의 데이터로부터 새로운 지식과 인사이트를 도출하는 과정

numpy vs pandas

가상 환경 생성 Anaconda Prompt

CRUD 데이터의 생성, 조회, 수정, 삭제를 일컫는 말

공공 데이터 포털 데이터 이용하기 JSON으로 불러오기

데이터 병합 - 각기 다른 두개 이상의 DataFrame을 하나로 병합하여 결과 집합을 만들어냄 데이터 연결 - 하나의 DataFrame에 다른 DataFrame또는 Series를 연결하여 **결과집합**을 만듬

데이터 그룹화 - 특정 데이터 그룹의 특징에 관한 정보를 얻기 위함 데이터 정렬 - sort

순차적인 시간의 흐름으로 기록된 관측치의 집합 ,시계열 데이터는 고정된 시간 구간으로 나타나야 함

결측치(Missing Value) 데이터가 수집되지 않거나 누락되어 정보(값)가 존재하지 않음을 의미 > 결측치가 포함된 데이터는 모델 학습이 불가능하므로 사전에 반드시 결측치 처리를 진행 NULL NA NAN

이상치(Outlier) 관측된 데이터 내 전체적 패턴에서 아주 작게 혹은 아주 크게 벗어난 값 데이터 분석 과정 및 결과에서 영향을 미쳐 분석 결과 및 의사 결정의 왜곡을 불러일으킬 수 있음

데이터 변환 : 여러 형태로 표현된 데이터 값을 다양한 분석 방법론에 적용하기 위해 원시 형태에서 다른 형식으로 바꾸는 과정

Feature Creation : 원본 데이터의 조합/변환 등을 기반하여 새로운 특징들을 구축 및 생성하는 방법 원본 데이터로 특징을 새롭게 생성하여 분석 과정 내 성능과 효율성 확보하고자 함

가장 좋은 성능을 보여줄 수 있는 데이터의 부분 집합(Subset)을 찾아내는 방법 모델 생성에 밀접한 데이터의 부분 집합을 선택하여 연산 효율성 및 모델 성능을 확보

EDA(Exploratory Data Analysis)는 데이터를 다양한 측면에서 바라보고 이해하는 과정 일변량 비 시각화 : 분석 대상 데이터가 하나의 변수로 구성되고 요약 통계량, 빈도 등으로 표현하는 탐색 유형

두 개 이상의 변수로 구성된 데이터의 관계를 교차표 및 상관계수 등으로 파악하는 데이터 탐색 유형주어진 변수 간의 관계를 수치 및 통계적 지표 기반으로 파악하는 것이 목적

하나의 변수로 구성된 데이터를 전체적인 관점으로 파악할 수 있는 데이터 탐색 유형 단일 변수 데이터를 다양한 그래프로 시각화하여 전체적인 관점으로 살펴보는 것이 목적

다변량 시각화 두 개 이상의 변수로 구성된 데이터의 관계를 시각화 기반으로 파악하는 데이터 탐색 유형 > 주어진 변수 간의 패턴 및 관계를 다양한 그래프의 시각화를 통해 전체적으로 파악

가설 검정이란? 모집단에 어떤 가설을 설정한 뒤, 통계 기법을 이용한 가설의 채택 여부를 확률적으로 판정하는 통계적 추론의 방법

상관관계는 변수 간의 상호 관련성을 의미하며 관계성의 정도는 통계적 또는 시각적인 방법으로 파악 가능 > 두 변수 간의 함께 변화하는 경향을 객관적으로 측정할 수 있는 척도

회귀 분석 - 통계학에서 사용되는 방법 중 하나, 두 변수 사이의 관계를 모델링하는 방법

순차적인 시간의 흐름에 따라 기록된 데이터를 의미

직관적으로 정보를 확인하는 효과적인 방법, 적절한 그래프 유형 선택과 옵션 활용이 중요

동적 시각화는 유저와 시각화 결과의 상호작용으로 다양한 정보를 즉각적으로 전달하는 것이 특징 - 기존에는 x, y축에 의존한 2D, 3D형 그래프로 정보를 제한적으로 전달 받음.