📝 불필요한 행과 열을 제거하기 위해 짧게 여러개씩 작성했던 코드들을 새로운 데이터에 적용하기 쉽도록 일괄처리하는 data_cleansing( ) 이라는 일괄처리용 함수를 만들어서 처리를 해보았다. 남산도서관에서 새로운 도서 데이터를 다운로드 했을때 dropna()
여러 개의 데이터의 처리(preprocessor, classifier, regressor, estimator 등)를 하나의 처리과정(pipeline, sequence)으로 만들어 데이터를 일괄처리해 주는 기능파이프라인을 사용하면 데이터 전처리나 모델 구축 과정 등을 더
데이터 모델(특히, 인공지능)에서 예측을 수행하는 데 사용되는 입력변수를 의미통계학에서는 독립 변수라고 함속성에 따라범주형(categorical): 범주나 순위가 있는 변수수치형(numerical): 수치로 표현되는 변수인과관계에 따라독립변수(independent va
1 인코딩 1.1 인코딩(Encoding) 많은 실제 데이터셋에는 수치형(numerical)과 범주형(categorical) 변수가 혼재하고 있음 인코딩은 컴퓨터가 처리하기 용이하도록 기존의 데이터를 변경하는 것 범주형 데이터는 일반적으로 텍스트(string)로
1 Scikit-Learn 1.1 Scikit-Learn python을 대표하는 머신러닝 라이브러리 매우 다양한 전처리 도구와 알고리즘을 제공하고 있어 머신러닝 기법을 배우는 데 적합 분류, 회귀, 클러스터링, 차원 축소 등을 포함한 광범위한 머신러닝 알고리즘을
1 노이즈 1.1 노이즈(Noise) 측정된 변수에 무작위의 오류(random error) 또는 분산(variance)이 존재하는 것 1.1-1 정형 데이터의 노이즈 정형 데이터에서 노이즈는 분산(varianve)으로 나타냄 분산 : 데이터의 무작위 변동을 의미
1 결측치 탐색 1.1 결측치 데이터의 값이 누락된것 = 결측값, Missing Values NA 또는 N/A(Not Applicable or Not Available), NaN(Not a Number), NULL로 표기됨 전산오류, 입력누락, 인위적 누락 등으로
3 데이터 프로파일링을 위한 파이썬 패키지 3.1 klib Pandas 데이터프레임을 기반으로 데이터전처리 및 프로파일링을 제공해주는 패키지 데이터 품질평가, 전처리, 관계 시각화를 목적으로 사용 속도가 매우 빠르며 다양한 시각화 기능을 제공 설치  EDA(Exploratory Data Analysis)라고 함 수집한 데이터를 분석하기 전에 그래프나 통계적인 방법을 이용하여 다양한 각도에서 데이터의 특징을 파악하고 자료를 직관적으로 바라보는 분석 방법
1 Pandas 1.1 판다스(Pandas) Python Data Analysis Library의 약어 R의 data.frame을 벤치마킹하여 Python에서 사용할 수 있는 형태의 Dataframe을 제공해주는 라이브러리 Python을 활용해 데이터 분석을 하기 위해
배열(array)는 벡터(1D) 또는 행렬(2D이상) \- List와 유사하나 List는 이종의 자료형이 가능하고, 수치 연산의 형태가 상이함 \- 원소의 개수를 바꿀 수 없음Numpy는 배열 연산과 관련된 편리한 기능을 제공 \- 적은 메모리 사용으로 연산속도가
파이썬의 기본 자료구조 1.1 데이터의 유형(type) 수치형(Number) : 수치형 데이터, int, float, complex > 123, 123.45, (123+45j) 문자열(String) : 문자 또는 문자의 집합 > 'abc', "abc" 리스트(Lis