✏️ Jupyter notebook
- 주피터(Jupyter)
- 오픈소스 웹 어플리케이션으로, 코드 작성, 시각화 및 문서 작성이 가능한 대화형 환경을 제공하는 도구
- 주피터 노트북은 프로그래밍 언어인 파이썬뿐 아니라 R, Julia 등다양한 언어를 지원
- 명령어 입력후 [shift + tap] 입력시 설명서 확인
- 판다스(Pandas)
- 여러가지 유용한 데이터 자료구조를 제공하는 파이썬 라이브러리
- 공식 홈페이지
💡 intro
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
- 데이터 읽기
- 파일 확장자 : csv / excel /
- encoding = 'utf-8' : 한글 글자깨짐 방지
- 데이터 주소 .. : 현재 폴더의 1단계 상위 폴더
- 데이터 주소 . : 현재 폴더
- thousands = ' , ' : 1000단위 이상 넘어가면 문자로 인식 할 수 있어서, 숫자로 인식 할수 있도록 지정
pd.read_파일 확장자('데이터 주소'),encoding='utf-8'
💡 유용 메서드 (python)
유용 사이트 : https://data-make.tistory.com/125
- .info()
- .unique() : 칼럼에 중복되지 않은 유일한 value 출력
- .isnull() : 누락 데이터(NaN) 값 개수 구하기
- .notnull() : 누락 데이터가 아닌 값만 구하기
- .head(n) : n 지정 없을시 상위 5개, n값만큼 상위 출력
- .tail(n) : n 지정 없을시 하위 5개, n값만큼 하위 출력
- .columns.droplevel([n,m]) : 인덱스 n,m 컬럼 제거 del / drop 사용
- .iterrows ( ) : pandas용 반복문/받을 때, 인덱스와 내용으로 나누어 받는것 주의
- .split( ) : 띄어쓰기대로 나눠 하나의 리스트화
💡 유용 메서드
- (fill_value = 0) :Nan 같은 누락요소 반영 전 '=값'을 반영