º google colab이란
☞ 클라우드 기반의 무료 혹은 유료 Jupyter 노트북 개발 환경
º 데이터 분석을 위한 핵심라이브러리로써 자료구조인 Series와 DataFrame을 활용하여 빅데이터 분석에 사용
º Series와 DataFrame의 경우 numpy(선형대수)의 1차원 및 2차원 array와 유사
☞ 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있는 파이썬 패키지
import os import pandas as pd os.listdir('./drive/MyDrive/machine_learning_data') ['friend.csv'] #데이터 폴더 src 변수 할당 base_src = './drive/MyDrive/machine_learning_data' #head() 데이터 읽어보기 ☞ df.head() 사용 ☞ df.head() => 5개의 데이터만 읽음 name age job 0 John 20 student 1 Jenny 30 developer 2 Nate 30 teacher 3 Julia 40 dentist 4 Brian 45 manager df.head가 아닌 df만 했을 경우(6개의 데이터 읽음) name age job 0 John 20 student 1 Jenny 30 developer 2 Nate 30 teacher 3 Julia 40 dentist 4 Brian 45 manager 5 Chris 25 intern
df.to_csv(new_friend_src, index=False, encoding='uyf-8')
- pandas의 to_csv : 데이터 프레임 저장
- index = True or False # 데이터 저장할 때 새로운 인덱스 생성할 지 결정(index=False를 꼭 써줘야함!)
- encoding : 데이터 인코딩 방식 설정
결과: os.listdir(base_src)를 실행하면
☞ ['friend.csv', 'new_friend.csv']