TIL(3WD2)[데이터 전처리&시각화_1~3주차]

최유정·2024년 12월 31일
0
post-thumbnail

| 1주차

1. 데이터 분석가 유형

분석가 유형설명
비즈니스 분석가주로 비즈니스 문제를 해결. 비즈니스 프로세스 및 요구 사항을 파악하고, 데이터 기반으로 의사결정 지원. 업무 프로세스 개선, 비즈니스 모델 분석, 요구 사항 관리 등 수행.
프로덕트 분석가제품 or 서비스의 성과를 평가, 개선. 사용자 행동 및 제품 성능과 관련된 데이터 분석으로 제품개선에 기여. 주로 제품 경험과 사용자 행동에 대한 분석을 수행. A/B 테스트, 사용자 경로 분석 등 담당.
BI 분석가기업의 비즈니스 인텔리전스 플랫폼과 도구를 사용하여 데이터를 시각화, 보고서 작성. 주로 기업 내부 데이터를 시각화하며 의사결정에 필요한 정보 제공. BI 도구(Tableau, Power BI 등)을 사용해 대시보드 구축, 데이터 시각화 및 보고서 작성 담당.
데이터 분석가주로 정형 데이터 분석으로 기업의 의사결정 지원. 데이터베이스에서 데이터를 추출, 정제하여 보고서 및 시각화 생성. 기술적인 스킬이 필요하며 SQL, Excel, 데이터 시각화 등을 활용해 업무를 수행.
데이터 사이언티스트데이터를 활용해 예측, 패턴발견, 분석 등을 수행해 문제를 해결. 통계, 머신러닝, 딥러닝 등의 기술을 사용하여 데이터를 분석하고 모델을 구축. 데이터 수집, 전처리, 모델링, 평가 및 해석을 포함한 전반적인 데이터 분석 작업 수행.

2. 채용공고에서 "데이터 분석가"와 관련된 키워드 정리


| 2주차

1. 엑셀과 비교한 판다스의 장점

  • 자동화와 프로그래밍 기능
  • 대용량 데이터 처리
  • 복잡한 데이터 처리 및 분석
  • 확장성과 유연성
  • 버전 관리

2. 판다스에서 사용되는 대표적인 데이터 오브젝트

  • 시리즈(Series): 1차원 배열의 형태. 인덱스라는 한가지 기준에 의해 데이터 저장.

  • 데이터프레임(DataFrame): 2차원 배열의 형태. 인덱스와 컬럼이라는 두 가지 기준에 의해 표 형태처럼 데이터가 저장.


| 3주차

1. 데이터 전처리

: 가장 먼저 사용할 확장 프로그램과 라이브러리를 설치한다.

  • 확장 프로그램: python, jupyter notebook

  • python 파일.py / jupyter notebook 파일.ipynb

  • 라이브러리: pandas, seaborn

import pandas as pandas
import seaborn as sns

1. 파일 선택, 저장, 확인

#파일 선택

data = sns.load_dataset('tips')					     #seaborn에 내장된 파일 'tips'를 불러옴

## 파일 저장

data.to_csv("파일명/tips_data.csv", index=False)      #index가 unnamed 컬럼으로 들어가기 때문에 이를 삭제

### 파일 확인

df = pd.read_csv("tips_data.csv")                    #저장할 때 indexfmf 삭제하지 못한 경우, index_col=0을 해줘도 됌

2. 인덱스(Index)

  • 기본 인덱스: 따로 지정할 필요 x. DataFrame을 만들면 알아서 0부터 시작.

  • 지정 인덱스: DataFrame 생성 시, index를 리스트 형식으로 따로 지정할 수 있음.


3. 컬럼(Columns)

: 원래는 컬럼도 인덱스. 다만 행의 인덱스와 열의 인덱스를 구분하기 위해서 행의 인덱스를 index, 열의 인덱스를 columns로 부르는 것.

4. 데이터 확인

  • head()

  • info()

  • describe()

  • 결측치 확인
    - isna() : 빈 값이 있으면 True로 반환.

  • 데이터 타입
    - astype(): 기존 데이터 유형을 바꾸는 것.
    - .dtypes: 컬럼별로 어떤 데이터 타입인지 보여주는 것.

5. 데이터 선택

  • iloc(): 특정 행과 열을 선택

  • loc(): 특정 이름을 이용해 선택

  • 슬라이싱 사용

6. 불리언 인덱싱(Boolean indexing)

  • isin()

7. 데이터 병합

  • concat()
  • merge()

8. 데이터 집계

  • groupby()
  • pivot table

9. 데이터 정렬

  • sort_values(by= , assending=[T/F])


0개의 댓글