시리즈 | 데이터 EDA & 전처리

1.[데이터 전처리] 데이터 불러오기

opne(경로+파일 이름)딥러닝에서 coco.json파일을 통해 데이터의 '경로/파일 이름'으로 지정하거나 수정할 때 쓰이며, 텍스트 파일 안의 내용을 읽거나 쓰기 위해 자주 사용된다.열려는 파일의 경로와 파일 이름을 입력하여 읽어 온다.r'path'윈도우에서는 경로

2023년 10월 2일

2.[데이터 전처리] 데이터 합치기

하나 이상의 데이터를 합쳐보자.두 개의 데이터를 합칠 때, 중복되어 key가 되는 컬럼이 있을 때 사용한다.기본적으로 python은 키가 될 수 있는 컬럼을 자동으로 찾아서 합치며, 옆으로 이어 붙일 때 자주 사용된다.on, left_on, right_on자동으로 하게

2023년 10월 2일

3.[데이터 전처리] 데이터 집계

pivot_table()과 groupby()를 통해 데이터를 집계해보자.피벗 테이블은 데이터에 조건을 줘서 변수들의 통게량을 요약하고 보기 위함이다.입력 인자들은 다음과 같다.data: 해당 데이터index: 행에 들어갈 조건columns: 열에 들어갈 조건values

2023년 10월 2일

4.[데이터 전처리] 데이터 정렬과 인덱싱

sort_values()Series 데이터를 정렬할 때 쓰이며, 주요 인자는 다음과 같다.ascending : True(오름차순), False(내림차순)key : 정렬 기준(보통 lambda() 함수 사용)na_position : 결측치의 배치 위치(first, las

2023년 10월 2일

5.[데이터 전처리] 시각화 - 라인 그래프

데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로 출

2023년 10월 3일

6.[데이터 전처리] 시각화 - 산점도 그래프

데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로

2023년 10월 3일

7.[데이터 전처리] 시각화 - 막대 그래프

데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로

2023년 10월 3일

8.[데이터 전처리] 시각화 - 파이 차트

데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로

2023년 10월 3일

9.[데이터 전처리] 시각화 - 박스 플롯

데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로

2023년 10월 3일

10.[데이터 전처리] 대표 통계량

k번째까지 관측치 합 / 전체 n개 관측치로 나타낼 수 있다.각각의 관측치 값은 가중치가 같기에 매우 작은 값이나 매우 큰 값에 영향을 많이 받는다.주어진 수들의 역수의 산술 평균의 역수를 말하며, 전체 n개 관측치 / ( 1 / 각각의 관측치)의 합로 나타낼 수 있다

2023년 10월 6일

11.[데이터 전처리] 산포 통계량

산포란 데이터가 얼마나 퍼져있는지를 나타내며 산포 통계량은 산포를 나타내는 통계량이다.편차 : 한 샘플이 평균으로부터 떨어진 거리 i번째 관측치 - 평균분산 : 편차들의 합은 항상 0이되어 계산이 되지 않기에, 각각의 편차에 제곱하여 관측치 개수 - 1로 나눈 값표준

2023년 10월 6일

12.[데이터 전처리] 분포 통계량

해당 분위의 값이 무엇인지 계산한다.다음과 같은 값이 있을 때넘파이를 활용하여 백분위수는 np.percentile()로 사분위수는 np.quantile()로 확인할 수 있다. 이름만 다를 뿐 사실상 같은 형식으로 계산한다.왜도(skewness)는 분포의 비대칭도를 나타

2023년 10월 6일

13.[데이터 전처리] 가설 검정 - 단일 표본 t검정

가설 검정수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우단계 : 영 가설(

2023년 10월 11일

14.[데이터 전처리] 가설 검정 - 독립 표본 t검정

가설 검정 수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정 수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분 통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우 단계 :

2023년 10월 11일

15.[데이터 전처리] 가설 검정 - 쌍체 표본 t검정

가설 검정 수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정 수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분 통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우 단계 :

2023년 10월 11일

16.[데이터 전처리] 가설 검정 - 일원분산분석(One-way ANOVA)

가설 검정수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우단계 : 영 가설(

2023년 10월 11일

17.[데이터 전처리] 가설 검정 - 상관 분석

가설 검정수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정.수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분.통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우.단계 : 영

2023년 10월 11일

18.[데이터 전처리] 가설 검정 - 카이제곱 검정

가설 검정 수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정. 수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분. 통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우. 단계

2023년 10월 12일

19.[데이터 전처리] 군집화 - 계층적 군집화 with sklearn

군집화 하나 이상의 특징을 바탕으로 유사한 샘플을 하나의 그룹으로 묶는 작업을 말한다. 샘플들을 소수의 군집으로 묶어 각 군집의 특성을 파악하여 데이터의 특성을 이해하기 위함. 군집 특성을 바탕으로 각 군집에 속하는 샘플들에 대한 세부화된 의사결정 수행. > 거리와

2023년 10월 13일

20.[데이터 전처리] 군집화 - k-평균(K-Means) 군집화 with sklearn

군집화 하나 이상의 특징을 바탕으로 유사한 샘플을 하나의 그룹으로 묶는 작업을 말한다. 샘플들을 소수의 군집으로 묶어 각 군집의 특성을 파악하여 데이터의 특성을 이해하기 위함. 군집 특성을 바탕으로 각 군집에 속하는 샘플들에 대한 세부화된 의사결정 수행. > 거리와

2023년 10월 13일

21.[데이터 전처리] 빈발 패턴 탐색 - 연관규칙

'A가 발생하면 B도 발생'라는 형태의 규칙으로 '트랜잭션 데이터'를 탐색하는데 사용.트랜잭션 데이터는 트랜잭션에서 수집한 정보를 말하는 것으로, 거래가 진행된 시간, 발생한 장소, 구매한 항목의 기준 소매 가격, 사용된 지불 방법, 할인(있는 경우), 거래와 관련된

2023년 10월 13일

22.[데이터 전처리] 빈발 패턴 탐색 - 시퀀스

각 요소가(순서, 값) 형태로 구성된 데이터로, 분석 시에 반드시 순서를 고려해야 한다.로그 데이터 대부분이 순서가 있는 시퀀스 데이터.고객 구매 기록고객 여정웹 서핑 기록 등지지도(support)아이템 집합이 전체 트랜잭션 데이터에서 발생한 비율S(A->B) = N(

2023년 10월 13일

23.[데이터 전처리] 빈발 패턴 탐색 - 시계열

시계열 데이터 각 요소가(시간, 값) 형태로 구성된 데이터로, A의 발생시간 후에 B가 발생한 것을 분석하는 것으로 반드시 시간 및 순서를 고려해야 한다. 엄밀히 말해 시계열 데이터도 시퀀스 데이터에 속하지만, 시계열 데이터의 인덱스는 시간이고 값은 연속형이 주를 이루

2023년 10월 14일

24.[데이터 전처리] 빈발 패턴 탐색 - 이탈 고객

고객 로그 데이터를 바탕으로 이탈한 고객과 이탈하지 않은 고객이 보이는 주요 행동 패턴 탐색참고 : 빈발 시퀀스 탐색이탈 고객과 비이탈 고객 분리이탈 고객과 비이탈 고객 데이터 내 주요 행동 패턴 추출주요 행동 패턴의 등장 비율 비교고객 여정 데이터가 있고행동의 종류는

2023년 10월 14일