데이터 사이언스란?

Jingi·2024년 1월 26일

Web

목록 보기

2/40

문제 정의 : 해결하고자 하는 문제 정의
데이터 수집 : 문제 해결에 필요한 데이터 수집
- 웹스크래핑(Web Scraping) : 웹 페이지에서 데이터를 추출하는 기술
- 웹 크롤링(Web Crawling) : 웹 페이지를 자동으로 탐색하고 데이터를 수집하는 기술
- Open API 활용 : 공개된 API를 통해 데이터를 수집
- 데이터 공유 플랫폼 활용 : 다양한 사용자가 데이터를 공유하고 활용할 수 있는 온라인 플랫폼
데이터 전처리(정제) : 실질적인 분석을 수행하기 위해 데이터를 가공하는 단계
- 수집한 데이터의 오류제거(결측치, 이상치), 데이터 형식 변환 등
  -불완전하거나 오류가 있는 데이터를 제거하여 데이터의 품질을 개선
- 중복데이터 제거
- 분석하기 적절한 형식으로 데이터를 변환
- 패키지 : Numpy, Pandas, Matplotlib
데이터 분석 : 전처리가 완료된 데이터에서 필요한 정보를 추출하는 단계
결과 해석 및 공유 : 의사 결정에 활용하기 위해 결과를 해석하고 시각화 후 공유하는 단계

다차원 배열을쉽게 처리하고 효율적으로 사용할 수 있도록 지원하는 파이썬 패키지
장점
- Numpy 행렬 연산은 데이터가 많을수록 Python 반복문에 비해 훨씬 빠르다.
- 다차원 해렬 자료 구졸르 제공하여 개발하기 편하다.
특징
- CPython에서만 사용 가능
- 행렬 인덱싱 기능 제공