[Python] 데이터 전처리 & 시각화 02

Data_Student·2024년 10월 23일
0

Python

목록 보기
4/7

[Python] 데이터 전처리 & 시각화 02

데이터 전처리 & 시각화 - 내용 정리


01. 데이터 전처리

1. 데이터 전처리

  • 내가 원하는 데이터를 보기 위해 하는 모든 활동 = 데이터 전처리

2. 데이터 전처리를 왜 해야하나?

  • 데이터 분석을 하기 위해 데이터를 깔끔하게 정리하기 위해!

3. 데이터 전처리는 어떻게 해야할까?

  • 데이터 전처리를 할때, 꼭 방향성을 갖고 있어야 함
    • 데이터를 통해 무엇을 확인할 것인지?
    • 어떤 의사결정을 위해 필요한지?
    • 데이터를 통해 무엇을 얻고자 하는지?

02. Excel vs Pandas

  1. 자동화와 프로그래밍 기능:
    • Pandas는 다양한 라이브러리를 사용하여 데이터를 불러오고, 변환 및 분석가능
      이를 통해 반복적이고 복잡한 작업을 자동화
    • 엑셀은 시각적 사용자 인터페이스를 통해 데이터를 다루는 스프레드시트 프로그램
      작업은 주로 수동으로 수행, 고급 기능을 프로그래밍적으로 확장하기가 어려움
  2. 대용량 데이터 처리:
    • Pandas는 대용량 데이터를 처리하는 데 유용
      메모리 내에서 데이터를 처리하거나, 큰 데이터 세트를 조각으로 나누어 처리 가능
    • 엑셀은 상대적으로 작은 크기의 데이터셋을 다루는 데 적합
      매우 큰 데이터를 처리할 경우에는 처리 속도가 느려지고, 파일 크기 제한 등의 제약이 있음
  3. 복잡한 데이터 처리 및 분석:
    • Pandas는 데이터 분석 및 처리를 위한 다양한 도구와 라이브러리를 활용가능
      데이터를 다양한 방식으로 조작하고 분석
      이를 통해 복잡한 데이터 작업, 통계 분석, 머신러닝 모델 구축 등이 가능
    • 엑셀은 기본적인 수식과 함수를 통해 데이터를 처리하고 시각화 가능
      복잡한 데이터 조작이나 분석에는 제약
  4. 확장성과 유연성:
    • Python은 다양한 데이터 포맷을 처리할 수 있는 라이브러리를 지원
      데이터베이스와 연동하여 작업할 수 있는 등 매우 유연
    • 엑셀은 주로 특정 데이터 형식의 파일(.xlsx, .csv 등)을 다루는 데에 제한
  5. 버전 관리 및 자동화:
    • Python 코드는 버전 관리 시스템(Git 등)을 사용하여 변경 내역을 관리
      코드 자체에 주석을 추가하거나 문서화할 수 있어 작업 히스토리 추적 용이
    • 엑셀은 사용자가 직접 수정하기 때문에 변경 사항을 추적하거나 문서화하기 어려움

0개의 댓글