데이터 분석과 라이브러리

정민·2024년 2월 6일

데이터분석

목록 보기
1/11

1. 데이터 분석


  1. 데이터 추출
    * 다양한 소스에서 데이터 수집 (DB, 크롤링, SQL)

  2. 데이터 전처리
    데이터를 분석에 적합한 형태로 정리 (pandas)
    데이터셋 붙이기, 불러오기, 집계하기 등

  3. 데이터 시각화
    그래픽으로 표현하여 패턴이나 트렌드를 파악 (plotly)
    선그래프, 히스토그램 등

  4. 인사이트 도출
    시각화된 데이터나 분석 결과를 통해 유용한 정보나 지식을 도출 (EDA)
    의사결정에 중요한 역량

  5. 데이터 모델링
    • 예측, 분류 등을 위한 데이터 사용, 머신러닝



2. 라이브러리


라이브러리란?

특정 기능을 수행하는 코드의 모음
다양한 함수를 사용 가능
시각화, 전처리, 수학적 계산을 위한 라이브러리 등 굉장히 다양함

Google Colab, 기본적인 라이브러리 설치되어 있음
설치된 라이브러리 목록을 확인하려면 !pip list 실행
특정 라이브러리 찾으려면 !pip list | grep 사용
라이브러리 사용하려면 import 구문으로 불러와야 함


설치하기 (!pip install)

!pip list #설치된 리스트
!pip list | grep pandas #설치된 특정 라이브러리

!pip install pyforest #pyforest 설치

불러오기 (import)

#import로 math 라이브러리를 불러와야 sqrt 함수를 쓸 수 있음
import math

print(math.sqrt(16)
# 별칭 사용
import math as m
print(m.sqrt(16))
# 특정 함수 또는 클래스만 import
from math import sqrt
print(sqrt(16)) # 직접 sqrt함수 호출

datetime 모듈에서 datetime 클래스만 import하고, 현재 날짜와 시간을 출력하라

profile
데이터 공부하는 예비 데이터 분석가, 김정민입니다.

0개의 댓글