파이썬의 기본 자료구조 1.1 데이터의 유형(type) 수치형(Number) : 수치형 데이터, int, float, complex > 123, 123.45, (123+45j) 문자열(String) : 문자 또는 문자의 집합 > 'abc', "abc" 리스트(Lis
배열(array)는 벡터(1D) 또는 행렬(2D이상) \- List와 유사하나 List는 이종의 자료형이 가능하고, 수치 연산의 형태가 상이함 \- 원소의 개수를 바꿀 수 없음Numpy는 배열 연산과 관련된 편리한 기능을 제공 \- 적은 메모리 사용으로 연산속도가
1 Pandas 1.1 판다스(Pandas) Python Data Analysis Library의 약어 R의 data.frame을 벤치마킹하여 Python에서 사용할 수 있는 형태의 Dataframe을 제공해주는 라이브러리 Python을 활용해 데이터 분석을 하기 위해
1 탐색적 데이터 분석 개요 1.1 탐색적 데이터 분석(EDA) EDA(Exploratory Data Analysis)라고 함 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
1 결측치 탐색 1.1 결측치 데이터의 값이 누락된것 = 결측값, Missing Values NA 또는 N/A(Not Applicable or Not Available), NaN(Not a Number), NULL로 표기됨 전산오류, 입력누락, 인위적 누락 등으로
1 노이즈 1.1 노이즈(Noise) 측정된 변수에 무작위의 오류(random error) 또는 분산(variance)이 존재하는 것 1.1-1 정형 데이터의 노이즈 정형 데이터에서 노이즈는 분산(varianve)으로 나타냄 분산 : 데이터의 무작위 변동을 의미
1 Scikit-Learn 1.1 Scikit-Learn python을 대표하는 머신러닝 라이브러리 매우 다양한 전처리 도구와 알고리즘을 제공하고 있어 머신러닝 기법을 배우는 데 적합 분류, 회귀, 클러스터링, 차원 축소 등을 포함한 광범위한 머신러닝 알고리즘을
1 인코딩 1.1 인코딩(Encoding) 많은 실제 데이터셋에는 수치형(numerical)과 범주형(categorical) 변수가 혼재하고 있음 인코딩은 컴퓨터가 처리하기 용이하도록 기존의 데이터를 변경하는 것 범주형 데이터는 일반적으로 텍스트(string)로
데이터 모델(특히, 인공지능)에서 예측을 수행하는 데 사용되는 입력변수를 의미통계학에서는 독립 변수라고 함속성에 따라범주형(categorical): 범주나 순위가 있는 변수수치형(numerical): 수치로 표현되는 변수인과관계에 따라독립변수(independent va
여러 개의 데이터의 처리(preprocessor, classifier, regressor, estimator 등)를 하나의 처리과정(pipeline, sequence)으로 만들어 데이터를 일괄처리해 주는 기능파이프라인을 사용하면 데이터 전처리나 모델 구축 과정 등을 더