분석가 유형 | 설명 |
---|---|
비즈니스 분석가 | 주로 비즈니스 문제를 해결. 비즈니스 프로세스 및 요구 사항을 파악하고, 데이터 기반으로 의사결정 지원. 업무 프로세스 개선, 비즈니스 모델 분석, 요구 사항 관리 등 수행. |
프로덕트 분석가 | 제품 or 서비스의 성과를 평가, 개선. 사용자 행동 및 제품 성능과 관련된 데이터 분석으로 제품개선에 기여. 주로 제품 경험과 사용자 행동에 대한 분석을 수행. A/B 테스트, 사용자 경로 분석 등 담당. |
BI 분석가 | 기업의 비즈니스 인텔리전스 플랫폼과 도구를 사용하여 데이터를 시각화, 보고서 작성. 주로 기업 내부 데이터를 시각화하며 의사결정에 필요한 정보 제공. BI 도구(Tableau, Power BI 등)을 사용해 대시보드 구축, 데이터 시각화 및 보고서 작성 담당. |
데이터 분석가 | 주로 정형 데이터 분석으로 기업의 의사결정 지원. 데이터베이스에서 데이터를 추출, 정제하여 보고서 및 시각화 생성. 기술적인 스킬이 필요하며 SQL, Excel, 데이터 시각화 등을 활용해 업무를 수행. |
데이터 사이언티스트 | 데이터를 활용해 예측, 패턴발견, 분석 등을 수행해 문제를 해결. 통계, 머신러닝, 딥러닝 등의 기술을 사용하여 데이터를 분석하고 모델을 구축. 데이터 수집, 전처리, 모델링, 평가 및 해석을 포함한 전반적인 데이터 분석 작업 수행. |
시리즈(Series): 1차원 배열의 형태. 인덱스라는 한가지 기준에 의해 데이터 저장.
데이터프레임(DataFrame): 2차원 배열의 형태. 인덱스와 컬럼이라는 두 가지 기준에 의해 표 형태처럼 데이터가 저장.
: 가장 먼저 사용할 확장 프로그램과 라이브러리를 설치한다.
확장 프로그램: python, jupyter notebook
python 파일
은 .py / jupyter notebook 파일
은 .ipynb
라이브러리: pandas, seaborn
import pandas as pandas
import seaborn as sns
#파일 선택
data = sns.load_dataset('tips') #seaborn에 내장된 파일 'tips'를 불러옴
## 파일 저장
data.to_csv("파일명/tips_data.csv", index=False) #index가 unnamed 컬럼으로 들어가기 때문에 이를 삭제
### 파일 확인
df = pd.read_csv("tips_data.csv") #저장할 때 indexfmf 삭제하지 못한 경우, index_col=0을 해줘도 됌
기본 인덱스: 따로 지정할 필요 x. DataFrame을 만들면 알아서 0부터 시작.
지정 인덱스: DataFrame 생성 시, index를 리스트 형식으로 따로 지정할 수 있음.
: 원래는 컬럼도 인덱스. 다만 행의 인덱스와 열의 인덱스를 구분하기 위해서 행의 인덱스를 index, 열의 인덱스를 columns로 부르는 것.
head()
info()
describe()
결측치 확인
- isna() : 빈 값이 있으면 True로 반환.
데이터 타입
- astype(): 기존 데이터 유형을 바꾸는 것.
- .dtypes: 컬럼별로 어떤 데이터 타입인지 보여주는 것.
iloc(): 특정 행과 열을 선택
loc(): 특정 이름을 이용해 선택
슬라이싱 사용