파이썬 라이브러리
구조화된 데이터를 효과적으로 처리하고 저장
Array 계산에 특화된 NumPy를 기반으로 설계
import pandas as pd
data = pd.Series([1, 2, 3, 4])
data = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])
data['b'] #2
data = pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'], name="Title")
data['c'] = 5
population_dict= {'korea': 5180,
'japan': 12718,
'china': 141500,
'usa': 32676}
population = pd.Series(population_dict)
여러 개의 Series가 모여서 행과 열을 이룬 데이터
population_dict= {'korea': 5180,
'japan': 12718,
'china': 141500,
'usa': 32676}
gdp_dict= {'korea': 169320000,
'japan': 516700000,
'china': 1409250000,
'usa': 2041280000,}
population = pd.Series(population_dict)
gdp= pd.Series(gdp_dict)
country = pd.DataFrame({'population': population,'gdp': gdp})
country['gdp’] # ↑↑
country.index
#Index(['china', 'japan', 'korea', 'usa'], dtype='object’)
country.columns
#Index(['gdp', 'population'], dtype='object’)
gdp_per_capita= country['gdp'] / country['population']
country['gdp_per capita'] = gdp_per_capita
country.to_csv(“./country.csv”) #csv 파일로 저장
country.to_excel(“country.xlsx”) #엑셀 파일로 저장
country = pd.read_csv(“./country.csv”) #csv 파일 불러오기
country = pd.read_excel(“country.xlsx”) #엑셀 파일 불러오기
dataframe= pd.DataFrame(columns=['이름','나이','주소'])
dataframe.loc[0] = ['둘리', '6', '한강'] #리스트 방식
dataframe.loc[1] = {'이름':'길동', '나이':'45', '주소':'쌍문'} #딕셔너리 방식
dataframe.loc[0, '주소'] = '쌍문'
dataframe['전화번호'] = np.nan
dataframe.loc[1, '전화번호'] = '011-7777-7777'
dataframe['이름']
dataframe[['이름','나이']] #대괄호 2개!
dataframe.notnull() #값이 null일 경우 False
dataframe.isnull() #값이 null일 경우 True
dataframe.dropna()
dataframe['전화번호'] = dataframe['전화번호'].fillna('전화번호없음')
A = pd.DataFrame(np.random.randint(0, 10, (2, 2)), columns=list("AB"))
B = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=list("ABC"))
A + B
A.add(B, fill_value=0)
df = pd.DataFrame(np.random.randint(0, 10, (3, 3)), columns=list("ABC"))
df.sum()
df.mean()
df['A'].sum()
df= pd.DataFrame({'col1': [2, 1, 9, 8, 7, 4],
'col2': ['A', 'A', 'B', np.nan, 'D', 'C'],
'col3': [0, 1, 9, 4, 2, 3],})
df.sort_values('col1') #오름차순
df.sort_values('col1', ascending=False) #내림차순
df.sort_values(['col2', 'col1'])