
import pandas as pd
판다스를 pd로 에일리어스해 임포트 하는것이 관례이다
read_csv()read_csv() 와 read_table()의 차이는 필드구분문자가 콤마냐 탭이냐의 차이이다
read_csv()는 csv뿐만 아니라 어떤 필드 구분문자 기반의 파일도 DataFrame으로 변환이 가능하다
read_csv()함수에서 가장 중요한 인자는 filepath이다 filepathㅇ에 로드하려는 데이터 파일의 경로를 포함한 파일명을 입력한다
titanic_df = pd.read_csv('titanic_train.csv')
print('titanic 변수 type:', type(titanic_df))
titanic_df

titanic_df.head(3)print('DataFrame의 크기: ', titanic_df.shape)titanic_df.info()
titanic_df.describe()

value_counts = titanic_df['Pclass'].value_counts()
print(type(value_counts))
print(value_counts)

import numpy as np
col_name1 = ['col1']
list1 = [1, 2, 3]
array1 = np.array(list1)
print('array1 shape:', array1.shape)
# 리스트를 이용해 DataFrame 생성
df_list1 = pd.DataFrame(list1, columns=col_name1)
print('1차원 리스트로 만든 DataFrame:\n', df_list1)
# 넘파이 ndarray를 이용해 DataFrame 생성
df_array1 = pd.DataFrame(array1, columns=col_name1)
print('1차원 ndarray로 만든 DataFrame:\n', df_array1)

dict = {'col1':[1,11], 'col2':[2,22], 'col3':[3,33]}
df_dict = pd.DataFrame(dict)
print('딕셔너리로 만든 DataFrame:\n', df_dict)

# DataFrame을 ndarray로 변환
array3 = df_dict.values
print('df_dict.values 타입:', type(array3), 'df_dict.values shape:', array3.shape)
print(array3)

# DataFrame을 리스트로 변환
list3 = df_dict.values.tolist()
print('df_dict.values.tolist() 타입:', type(list3))
print(list3)
# DataFrame을 딕셔너리로 변환
dict3 = df_dict.to_dict('list')
print('\n df_dict.to_dict() 타입:', type(dict3))
print(dict3)

titanic_df['Age_0']=0
위의 코드로 Titanic DataFrame 의 새로운 칼럼 Age_0을 추가하고 일괄적으로 0 값을 할당한 것이다

titanic_df['Age_by_10'] = titanic_df['Age']*10
titanic_df['Family_No'] = titanic_df['SibSp'] + titanic_df['Parch']+1
위의 코드는 기존 칼럼 Series를 가공해 새로운 칼럼 Age_by_10과 Family_No를 추가한것이다

drop_result = titanic_df.drop(['Age_0', 'Age_by_10', 'Family_No'], axis = 1, inplace = True)
print(' inplace=True 로 drop 후 반환된 값:', drop_result)
titanic_df.head(3)

pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 15)
print('#### before axis 0 drop ####')
print(titanic_df.head(3))
titanic_df.drop([0, 1, 2], axis=0, inplace=True)
print('#### after axis 0 drop ####')
print(titanic_df.head(3))

0, 1, 2 인덱스가 삭제된 모습
Reference 권철민, 파이썬 머신러닝 완벽 가이드, 위키북스2020