기초_머신러닝#1(from.거친코딩 youtube)

OH햅삐·2021년 4월 3일

머신러닝_기초

목록 보기

1/2

1. Google Colab 이용

º google colab이란
☞ 클라우드 기반의 무료 혹은 유료 Jupyter 노트북 개발 환경

2. Pandas란?

º 데이터 분석을 위한 핵심라이브러리로써 자료구조인 Series와 DataFrame을 활용하여 빅데이터 분석에 사용
º Series와 DataFrame의 경우 numpy(선형대수)의 1차원 및 2차원 array와 유사

＊numpy란?

☞ 다차원 배열을 쉽게 처리하고 효율적으로 사용할 수 있는 파이썬 패키지

º 실습

import os
import pandas as pd

os.listdir('./drive/MyDrive/machine_learning_data')
['friend.csv']

#데이터 폴더 src 변수 할당
base_src = './drive/MyDrive/machine_learning_data' 

#head() 데이터 읽어보기
☞  df.head() 사용

☞ df.head() => 5개의 데이터만 읽음
		name	age	job
	0	John	20	student
	1	Jenny	30	developer
	2	Nate	30	teacher
	3	Julia	40	dentist
	4	Brian	45	manager


    df.head가 아닌 df만 했을 경우(6개의 데이터 읽음)

	        name   	age	  job
	0	John	20	student
    	1	Jenny	30	developer
    	2	Nate	30	teacher
    	3	Julia	40	dentist
    	4	Brian	45	manager
    	5	Chris	25	intern

df.to_csv(new_friend_src, index=False, encoding='uyf-8')

pandas의 to_csv : 데이터 프레임 저장

index = True or False # 데이터 저장할 때 새로운 인덱스 생성할 지 결정(index=False를 꼭 써줘야함!)

encoding : 데이터 인코딩 방식 설정

결과: os.listdir(base_src)를 실행하면
☞ ['friend.csv', 'new_friend.csv']

... #2탄에서 계속

OH햅삐

#주니어 개발자

다음 포스트