KPMG Future Academy AI 활용 데이터 분석가 3기 32일차 수업을 2025년 1월 2일에 참석했다. 지난 수업에 이어 판다스 수업이 시작되었다.
판다스(Pandas)란?
빠르고 유연한 데이터 구조를 제공하는 파이썬 라이브러리이다.
행과 열로 이루어진 2차원 데이터를 효율적으로 가공할 수 있다.
Pandas 데이터 구조
시리즈(Series)
1차원 배열로, 데이터와 인덱스를 가지며 리스트와 유사
각 데이터는 고유한 인덱스를 가지고 있어 접근 및 조작이 쉬움
데이터프레임(DataFrame)
2차원 배열로, 행과 열로 구성된 테이블 형태의 데이터 구조
각 열은 Series 객체로 구성되며, 다양한 데이터 타입을 가질 수 있음
인덱스 기본은 0
데이터프레임
리스트로 만들기
딕셔너리로 만들기
문제
csv(Comma-Seperated Values) 파일 읽어오기
[주요옵션]
※ 참고
한글이 포함된 파일을 읽을 때 다음과 같은 encoding 오류가 발생하면 encoding='CP949' 로 지정
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xb1 in position 0: invalid start byte
인덱스 설정
방법1
방법2
인덱스 열 이름 삭제
인덱스 초기화
기존 인덱스명을 제거
연습 문제
데이터 내용 확인하기
head()
: 상위 데이터 확인tail()
: 하위 데이터 확인shape
: 데이터프레임(행, 열) 크기 확인index
: 인덱스 정보 확인values
: 값 정보 확인columns
: 열 이름 확인dtypes
: 열 자료형 확인info()
: 데이터프레임의 열에 대한 요약 정보 확인describe()
: 기초통계정보 확인상위 데이터 확인
하위 데이터 확인
데이터 크기 확인
행과 열 확인
값 조회시 배열로 조회됨
데이터 형식 확인
열 값 개수 확인
기술 통계 확인
데이터 정렬해서 보기
단일 열 정렬
내림차순
복합 열 정렬
체인 방식으로 조회
고유값 확인
최빈값 (가장 자주 나오는 값) : mode() 메소드로 확인
통계 메소드
열 합계 조회
최대값 조회
중앙값 조회
표준편차
평균값
문제 풀기
데이터 탐색 문제 풀기
범주형 시각화
특정 열 조회
아래 형태에서 생략한 것.
열 범위 조회
& 연산자
| 연산자
isin() 메소드
아래와 같은 의미
between 메소드
아래와 같은 의미
loc 조회
인덱스 초기화
인덱스 초기화
iloc[ ]로 필터링하기
범위 선택시 마지막 값은 제외됨.
데이터프레임 조회 실습