AI_Bootcamp_day01

dannialism·2021년 11월 17일
0

Concept

EDA, Data-processing, importing data, transpose, Pandas, colunm, row

내용

EDA. Exploratory data analysis.
데이터를 가공하기 전에 어떤 데이터로 이루어져 있는 지 탐색하고 확인하는 작업.

Uni - Non Graphic
Uni - Graphic
Multi - Non Graphic
Multi - Graphic

각각의 형식마다 사용되는 표가 다르다.
예) box-plot, viloin-plot, bar-plot

Data-processing

cleaning - data를 하나의 일관된 기준을 가지고 정제하는 과정.
(deleting noise, keeping consistancy)

intergration- 흩어진 데이터를 하나로 합치는 과정.
transformation- 데이터를 변환하는 과정.
reduction- 데이터를 의미있게 줄이는 과정.
(Figure need to be redone so that data reduction comes before data transformation.)

사용한 코드

#db = variable
import pandas as pd
pd.read.excel()
.transpose() : column과 row 의 항목 바꾸기.
.iloc[0] : grab the header
db[1:] : take the row that is appointed.
columns = #항목 넣기 : 새로운 columns을 지정한 항목으로 만들기.
.shape : row : column 숫자 세기. 순서는 행과 열.
.info() : data의 non-null 수, entry 수를 알수 있어 결측치를 알 수 있다.
.fillna(0) : 결측치(missing data)를 괄호 안의 정보로 대체한다. 이 코드를 이용하여 결측치를 제거, 대체 등의 방법으로 데이터를 가공한다.
db['FCF'].plot.bar() : 데이터[] 안의 항목을 가져와 bar모양으로 시각화 표를 만든다.
import seaborn as sns
pp = sns.load_dataset('penguins')
pd.crosstab(변수.데이터의 항목,변수.데이터의 항목)
ex) pd.crosstab(pp.species,pp.sex) : cross tabulation code. 원본 데이터에서 원하는 정보들을(columns) 가져와 교집합되는 항목으로 재배열하여 수로 나타내는 방법.
.max() : 데이터 정보 중 가장 큰 수
.min() : 데이터 정보 중 가장 낮은 수

profile
danny + realism

0개의 댓글