"파이썬 기초 라이브러리부터 쌓아가는 머신러닝" #1

Flash·2021년 10월 13일
0

머신러닝

목록 보기
1/8

#Pandas 데이터 처리

#머신러닝

#거친코딩

#"파이썬 기초 라이브러리부터 쌓아가는 머신러닝"


pandas란?

  • 데이터 분석을 위한 핵심 라이브러리, 고유 자료구조인 Series와 DataFrame을 활용한다.
  • Series와 DataFrame은 numpy의 1, 2차원 array와 유사한데 index의 유무가 차이이다.

구글 코랩을 사용하여 학습을 진행했다.


파이썬 os 모듈 pandas를 import 한다(pandas를 pd로 읽는 게 일반적인 약속).

os 모듈은 내 컴퓨터의 디렉터리(폴더)나 경로, 파일 등을 활용하게 도와주는 모듈이고 추가적인 정보는 아래의 링크를 확인하면 된다.
[os 모듈]

base_src에는 data를 담고있는 디렉토리의 주소를 저장했고
frined_src는 데이터 디렉토리 안에 friend.csv를 읽기 위해 base 주소에 friend.csv를 더했다.

Pandas read.csv()

  • csv 파일을 읽어주는 함수이다.
  • read.csv("주소", encoding=utf-8) => encoding은 csv 파일과 Python의 encoding 방식의 차이를 좁히기 위함.

한글을 깨지지 않고 읽기 위한 방식인 것 같다.(한글이 보통 utf-8을 사용함) df를 csv로 전환할 때 index=False option을 넣어주는 이유이다.

Series 실습

  • Series는 앞서 본 DataFrame의 한 열이라고 생각할 수 있다.
  • Series는 단일 열의 개념이라면 DataFrame은 하나의 집합의 개념

    Series에서 쓰이는 옵션 중 index와 dtype을 소개한다.
  • index는 각 행에 이름을 붙여주는 옵션이다.
  • dtype은 열에 포함된 데이터의 데이터 타입을 설정하는 옵션이다.

DataFrame 실습

항상 데이터를 다룰 때는 데이터의 shape이 어떤 지 파악하고 있는 것이 중요하다.

차원이 너무 크면 차원을 축소하여 유의미한 정보만 얻어내는 것 또한 데이터 분석의 중요한 부분이라고 한다.

[거친코딩님의 velog 참고!!]

profile
Whiplash We Flash

0개의 댓글