[EDA] 주피터 Review & Recap

Soo·2023년 9월 3일

데린이 입학 👼🏻 (데이터 기초)

목록 보기

30/42

✏️ Jupyter notebook

주피터(Jupyter)

오픈소스 웹 어플리케이션으로, 코드 작성, 시각화 및 문서 작성이 가능한 대화형 환경을 제공하는 도구

주피터 노트북은 프로그래밍 언어인 파이썬뿐 아니라 R, Julia 등다양한 언어를 지원

명령어 입력후 [shift + tap] 입력시 설명서 확인

판다스(Pandas)

여러가지 유용한 데이터 자료구조를 제공하는 파이썬 라이브러리

공식 홈페이지

참고 자료 : 따라하면서 쉽게 배우는 판다스 / Jupyter Notebook이란?

💡 intro

import
- numpy : 수치적 해석이 많을 때

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

데이터 읽기
- 파일 확장자 : csv / excel /
- encoding = 'utf-8' : 한글 글자깨짐 방지
- 데이터 주소 .. : 현재 폴더의 1단계 상위 폴더
- 데이터 주소 . : 현재 폴더
- thousands = ' , ' : 1000단위 이상 넘어가면 문자로 인식 할 수 있어서, 숫자로 인식 할수 있도록 지정

pd.read_파일 확장자('데이터 주소'),encoding='utf-8'

💡 유용 메서드 (python)

유용 사이트 : https://data-make.tistory.com/125

.info()
.unique() : 칼럼에 중복되지 않은 유일한 value 출력
.isnull() : 누락 데이터(NaN) 값 개수 구하기
.notnull() : 누락 데이터가 아닌 값만 구하기
.head(n) : n 지정 없을시 상위 5개, n값만큼 상위 출력
.tail(n) : n 지정 없을시 하위 5개, n값만큼 하위 출력
.columns.droplevel([n,m]) : 인덱스 n,m 컬럼 제거 del / drop 사용
.iterrows ( ) : pandas용 반복문/받을 때, 인덱스와 내용으로 나누어 받는것 주의
.split( ) : 띄어쓰기대로 나눠 하나의 리스트화

💡 유용 메서드

(fill_value = 0) :Nan 같은 누락요소 반영 전 '=값'을 반영

Soo

데린이인데요 ໒꒰ྀ ˶ • ༝ •˶ ꒱ྀིა (잘못 된 부분은 너그러이 알려주세요.)

[EDA] 주피터 Review & Recap

데린이 입학 👼🏻 (데이터 기초)

✏️ Jupyter notebook

💡 intro

💡 유용 메서드 (python)

💡 유용 메서드

[EDA] 데이터 시각화를 통한 경향 분석(Numpy)

[EDA] Pandas_Pivot Table

0개의 댓글