[Python] 데이터 전처리 & 시각화 02
[Python] 데이터 전처리 & 시각화 02
데이터 전처리 & 시각화 - 내용 정리
01. 데이터 전처리
1. 데이터 전처리
- 내가 원하는 데이터를 보기 위해 하는 모든 활동 = 데이터 전처리
2. 데이터 전처리를 왜 해야하나?
- 데이터 분석을 하기 위해 데이터를 깔끔하게 정리하기 위해!
3. 데이터 전처리는 어떻게 해야할까?
- 데이터 전처리를 할때, 꼭 방향성을 갖고 있어야 함
- 데이터를 통해 무엇을 확인할 것인지?
- 어떤 의사결정을 위해 필요한지?
- 데이터를 통해 무엇을 얻고자 하는지?
02. Excel vs Pandas
- 자동화와 프로그래밍 기능:
- Pandas는 다양한 라이브러리를 사용하여 데이터를 불러오고, 변환 및 분석가능
이를 통해 반복적이고 복잡한 작업을 자동화
- 엑셀은 시각적 사용자 인터페이스를 통해 데이터를 다루는 스프레드시트 프로그램
작업은 주로 수동으로 수행, 고급 기능을 프로그래밍적으로 확장하기가 어려움
- 대용량 데이터 처리:
- Pandas는 대용량 데이터를 처리하는 데 유용
메모리 내에서 데이터를 처리하거나, 큰 데이터 세트를 조각으로 나누어 처리 가능
- 엑셀은 상대적으로 작은 크기의 데이터셋을 다루는 데 적합
매우 큰 데이터를 처리할 경우에는 처리 속도가 느려지고, 파일 크기 제한 등의 제약이 있음
- 복잡한 데이터 처리 및 분석:
- Pandas는 데이터 분석 및 처리를 위한 다양한 도구와 라이브러리를 활용가능
데이터를 다양한 방식으로 조작하고 분석
이를 통해 복잡한 데이터 작업, 통계 분석, 머신러닝 모델 구축 등이 가능
- 엑셀은 기본적인 수식과 함수를 통해 데이터를 처리하고 시각화 가능
복잡한 데이터 조작이나 분석에는 제약
- 확장성과 유연성:
- Python은 다양한 데이터 포맷을 처리할 수 있는 라이브러리를 지원
데이터베이스와 연동하여 작업할 수 있는 등 매우 유연
- 엑셀은 주로 특정 데이터 형식의 파일(.xlsx, .csv 등)을 다루는 데에 제한
- 버전 관리 및 자동화:
- Python 코드는 버전 관리 시스템(Git 등)을 사용하여 변경 내역을 관리
코드 자체에 주석을 추가하거나 문서화할 수 있어 작업 히스토리 추적 용이
- 엑셀은 사용자가 직접 수정하기 때문에 변경 사항을 추적하거나 문서화하기 어려움