[EDA] 주피터 Review & Recap

Soo·2023년 9월 3일
0

✏️ Jupyter notebook

  • 주피터(Jupyter)
    • 오픈소스 웹 어플리케이션으로, 코드 작성, 시각화 및 문서 작성이 가능한 대화형 환경을 제공하는 도구
    • 주피터 노트북은 프로그래밍 언어인 파이썬뿐 아니라 R, Julia 등다양한 언어를 지원
    • 명령어 입력후 [shift + tap] 입력시 설명서 확인
  • 판다스(Pandas)
    • 여러가지 유용한 데이터 자료구조를 제공하는 파이썬 라이브러리
    • 공식 홈페이지

💡 intro

  • import
    • numpy : 수치적 해석이 많을 때
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
  • 데이터 읽기
    • 파일 확장자 : csv / excel /
    • encoding = 'utf-8' : 한글 글자깨짐 방지
    • 데이터 주소 .. : 현재 폴더의 1단계 상위 폴더
    • 데이터 주소 . : 현재 폴더
    • thousands = ' , ' : 1000단위 이상 넘어가면 문자로 인식 할 수 있어서, 숫자로 인식 할수 있도록 지정
pd.read_파일 확장자('데이터 주소'),encoding='utf-8'

💡 유용 메서드 (python)

유용 사이트 : https://data-make.tistory.com/125

  • .info()
  • .unique() : 칼럼에 중복되지 않은 유일한 value 출력
  • .isnull() : 누락 데이터(NaN) 값 개수 구하기
  • .notnull() : 누락 데이터가 아닌 값만 구하기
  • .head(n) : n 지정 없을시 상위 5개, n값만큼 상위 출력
  • .tail(n) : n 지정 없을시 하위 5개, n값만큼 하위 출력
  • .columns.droplevel([n,m]) : 인덱스 n,m 컬럼 제거 del / drop 사용
  • .iterrows ( ) : pandas용 반복문/받을 때, 인덱스와 내용으로 나누어 받는것 주의
  • .split( ) : 띄어쓰기대로 나눠 하나의 리스트화

💡 유용 메서드

  • (fill_value = 0) :Nan 같은 누락요소 반영 전 '=값'을 반영
profile
데린이인데요 ໒꒰ྀ ˶ • ༝ •˶ ꒱ྀིა (잘못 된 부분은 너그러이 알려주세요.)

0개의 댓글

관련 채용 정보