pip install pandas
import pandas as pd
list→Series
index, value로 표시됨(index-왼쪽, 순서 / value-오른쪽,실제 데이터 값)
ser = pd.Series(['a','b','c',3])
print(ser)
# 0 a
# 1 b
# 2 c
# 3 3
# dtype: object
dict → Series
Country_Number = {'Korea': 82, 'America': 1, 'Swiss': 41, 'Italy': 39, 'Japan': 81}
ser3 = pd.Series(Country_Number)
print(ser3)
# Korea 82
# America 1
# Swiss 41
# Italy 39
# Japan 81
# dtype: int64
.values
: array형태로 반환print(ser.values) # array(['a', 'b', 'c', 3], dtype=object)
.index
: RangeIndex 반환print(ser.index) # RangeIndex(start=0, stop=4, step=1)
ser2 = pd.Series(['a', 'b', 'c', 3], index=['i','j','k','h'])
print(ser2)
# i a
# j b
# k c
# h 3
# dtype: object
ser2.index = ['Jhon', 'Steve', 'Jack', 'Bob']
print(ser2)
# Jhon a
# Steve b
# Jack c
# Bob 3
# dtype: object
Index
타입의 객체가 표시된다.print(ser2.index) # Index(['Jhon', 'Steve', 'Jack', 'Bob'], dtype='object')
Country_Number = {'Korea': 82, 'America': 1, 'Swiss': 41, 'Italy': 39, 'Japan': 81}
ser3 = pd.Series(Country_Number)
print(ser3['korea']) # 82
print(ser3['Italy':])
# Italy 39
# Japan 81
# dtype: int64
series변수.name = “ 시리즈이름”, series변수.index.name = “인덱스이름”
ser3.name = 'Country_PhoneNumber'
ser3.index.name = 'Country'
print(ser3)
# Country
# Korea 82
# America 1
# Swiss 41
# Italy 39
# Japan 81
# Name: Country_PhoneNumber, dtype: int64
data = {
'Region': ['Korea', 'America', 'Chaina', 'Canada', 'Italy'],
'Sales': [300, 200, 500, 150, 50],
'Amount': [90, 80, 100, 30, 10],
'Employee': [20, 10, 30, 5, 3]
}
s = pd.Series(data)
print(s)
s.columns # Index(['Region', 'Sales', 'Amount', 'Employee'], dtype='object')
s.index # RangeIndex(start=0, stop=5, step=1)
s.index=['one','two','three','four','five']
s.columns = ['a','b','c','d']
print(s)
import os
csv_path = os.getenv("HOME") + "/aiffel/data_represent/data/covid19_italy_region.csv"
data = pd.read_csv(csv_path) # csv파일을 DataFrame객체로 읽음
.head(int)
: 처음 행부터 인자만큼 보여준다.(default=5)
.tail(int)
: 마지막 행부터 인자만큼 보여준다.(default=5)
data.head()
data.tail()
.info()
: 각 컬럼별로 Null값과 자료형을 보여준다.
data.info()
.describe()
: 각 컬럼별로 기본 통계데이터를 보여준다.
.isnull()
: Null인지 체크
.sum()
: 합계
이 두개의 메소드를 이용해서 missing 데이터 개수의 총합을 구할 수 있다.
data.isnull().sum()
.value_counts()
: 컬럼별 데이터 갯수 확인data['RegionName'].value_counts()
.value_counts().sum()
: 컬럼별 통계수치의 합 data['RegionName'].value_counts().sum() # 798
print(data['TotalPositiveCases'].sum()) # 1323913
print(data['TestsPerformed'].sum()) # 6329867
data.sum()
참고 : https://gomguard.tistory.com/173
.corr()
: 상관관계print(data['TestsPerformed'].corr(data['TotalPositiveCases'])) # 0.8555291657820232
data.corr()
drop()
: 컬럼 제거data.drop(['Latitude','Longitude', 'Date','RegionCode','SNo'], axis=1, inplace=True)
[10 minutes to pandas]
https://pandas.pydata.org/pandas-docs/stable/user_guide/10min.html