1주차 : 빅데이터 분석

우주먼지·2020년 7월 13일
0

인공지능 사관학교

목록 보기
11/15

Pandas 패키지

(20.07.13 1교시)

import pandas as pd
import numpy as np
import os
import matplotlib.pyplot as plt
df0 = pd.read_csv('data_iris.csv')

df = df0.drop(columns='Species')
Y = df0.loc[:, "Species"]
Y.value_counts() # 도수 표를 출력(즉, 각 요소들이 몇개씩 있는지를 출력)

np.round(df.mean(axis=0), 2) # 명목형 칼럼을 제거하고 수치로 이루어진 칼럼만 계산

종류를 뺀 나머지 자료를 묶어서 Y에 저장. df, Y는 같은 결과를 나타낸다.
df, df0를 넣었을때의 결과가 같게 나온다. 이를 보아 수치형 데이터만을 계산해준다는 것을 알 수 있다.

변수 하나하나에 대한 통계치를 구한 것은 일변량 통계치라고 한다.
이변량 통계치는 변수 2개를 사용하는 것으로, 대표적인 예로는 상관계수가 있다.

df['Sepal.Length'] #이름에 .이 있어서 df.Sepal.Length는 불가능
df['Sepal.Length'].corr(df['Sepal.Width'])
np.round(df.corr(), 2)#상관계수 행렬이 출력됨
df.corrwith(df['Petal.Length'] # PetalLength와 나머지 사이의 상관계수 출력

꽃받침의 길이와 폭에 대한 상관계수를 구하는 방법. 상관계수는 0~1사이의 값이다. 나중에 다시 설명할것이다.


profile
안녕하세요 ㅎㅎ

0개의 댓글