opne(경로+파일 이름)딥러닝에서 coco.json파일을 통해 데이터의 '경로/파일 이름'으로 지정하거나 수정할 때 쓰이며, 텍스트 파일 안의 내용을 읽거나 쓰기 위해 자주 사용된다.열려는 파일의 경로와 파일 이름을 입력하여 읽어 온다.r'path'윈도우에서는 경로
하나 이상의 데이터를 합쳐보자.두 개의 데이터를 합칠 때, 중복되어 key가 되는 컬럼이 있을 때 사용한다.기본적으로 python은 키가 될 수 있는 컬럼을 자동으로 찾아서 합치며, 옆으로 이어 붙일 때 자주 사용된다.on, left_on, right_on자동으로 하게
pivot_table()과 groupby()를 통해 데이터를 집계해보자.피벗 테이블은 데이터에 조건을 줘서 변수들의 통게량을 요약하고 보기 위함이다.입력 인자들은 다음과 같다.data: 해당 데이터index: 행에 들어갈 조건columns: 열에 들어갈 조건values
sort_values()Series 데이터를 정렬할 때 쓰이며, 주요 인자는 다음과 같다.ascending : True(오름차순), False(내림차순)key : 정렬 기준(보통 lambda() 함수 사용)na_position : 결측치의 배치 위치(first, las
데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로 출
데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로
데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로
데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로
데이터를 시각화하기 위한 모듈로 matplotlib를 사용하여 다양한 그래프를 나타낼 수 있다. 대표적으로 라인, 산점도, 막대, 히스토그램, 박스 그래프 등이 있다. jupyter notebook에서 %matplotlib inline을 설정하여 셀에 그래프를 바로
k번째까지 관측치 합 / 전체 n개 관측치로 나타낼 수 있다.각각의 관측치 값은 가중치가 같기에 매우 작은 값이나 매우 큰 값에 영향을 많이 받는다.주어진 수들의 역수의 산술 평균의 역수를 말하며, 전체 n개 관측치 / ( 1 / 각각의 관측치)의 합로 나타낼 수 있다
산포란 데이터가 얼마나 퍼져있는지를 나타내며 산포 통계량은 산포를 나타내는 통계량이다.편차 : 한 샘플이 평균으로부터 떨어진 거리 i번째 관측치 - 평균분산 : 편차들의 합은 항상 0이되어 계산이 되지 않기에, 각각의 편차에 제곱하여 관측치 개수 - 1로 나눈 값표준
해당 분위의 값이 무엇인지 계산한다.다음과 같은 값이 있을 때넘파이를 활용하여 백분위수는 np.percentile()로 사분위수는 np.quantile()로 확인할 수 있다. 이름만 다를 뿐 사실상 같은 형식으로 계산한다.왜도(skewness)는 분포의 비대칭도를 나타
가설 검정수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우단계 : 영 가설(
가설 검정 수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정 수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분 통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우 단계 :
가설 검정 수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정 수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분 통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우 단계 :
가설 검정수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우단계 : 영 가설(
가설 검정수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정.수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분.통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우.단계 : 영
가설 검정 수집된 데이터를 바탕으로 모집단의 특성의 가설에 대한 통계적 유의성을 검정하는 일련의 과정. 수집된 데이터는 대부분 샘플이며(모집단의 부분집합) 모집단 전체를 알 수 없는 경우가 대부분. 통계적 유의성 : 수집된 데이터가 확률적으로 의미가 있는 경우. 단계
군집화 하나 이상의 특징을 바탕으로 유사한 샘플을 하나의 그룹으로 묶는 작업을 말한다. 샘플들을 소수의 군집으로 묶어 각 군집의 특성을 파악하여 데이터의 특성을 이해하기 위함. 군집 특성을 바탕으로 각 군집에 속하는 샘플들에 대한 세부화된 의사결정 수행. > 거리와
군집화 하나 이상의 특징을 바탕으로 유사한 샘플을 하나의 그룹으로 묶는 작업을 말한다. 샘플들을 소수의 군집으로 묶어 각 군집의 특성을 파악하여 데이터의 특성을 이해하기 위함. 군집 특성을 바탕으로 각 군집에 속하는 샘플들에 대한 세부화된 의사결정 수행. > 거리와
'A가 발생하면 B도 발생'라는 형태의 규칙으로 '트랜잭션 데이터'를 탐색하는데 사용.트랜잭션 데이터는 트랜잭션에서 수집한 정보를 말하는 것으로, 거래가 진행된 시간, 발생한 장소, 구매한 항목의 기준 소매 가격, 사용된 지불 방법, 할인(있는 경우), 거래와 관련된
각 요소가(순서, 값) 형태로 구성된 데이터로, 분석 시에 반드시 순서를 고려해야 한다.로그 데이터 대부분이 순서가 있는 시퀀스 데이터.고객 구매 기록고객 여정웹 서핑 기록 등지지도(support)아이템 집합이 전체 트랜잭션 데이터에서 발생한 비율S(A->B) = N(
시계열 데이터 각 요소가(시간, 값) 형태로 구성된 데이터로, A의 발생시간 후에 B가 발생한 것을 분석하는 것으로 반드시 시간 및 순서를 고려해야 한다. 엄밀히 말해 시계열 데이터도 시퀀스 데이터에 속하지만, 시계열 데이터의 인덱스는 시간이고 값은 연속형이 주를 이루
고객 로그 데이터를 바탕으로 이탈한 고객과 이탈하지 않은 고객이 보이는 주요 행동 패턴 탐색참고 : 빈발 시퀀스 탐색이탈 고객과 비이탈 고객 분리이탈 고객과 비이탈 고객 데이터 내 주요 행동 패턴 추출주요 행동 패턴의 등장 비율 비교고객 여정 데이터가 있고행동의 종류는
지도 학습의 경우 feature와 label이 하나의 통합된 데이터 집합으로 되어 있어야 한다.데이터가 큰 경우 대부분 두 개 이상으로 나눠져 있어 통합해야 하는 전처리를 수행해야 한다.ex) 센서, 로그, 거래 데이터 등(ID, 날짜, 시간, 지역 등에 따라 분할되어
지도 학습의 경우 feature와 label이 하나의 통합된 데이터 집합으로 되어 있어야 한다.데이터가 큰 경우 대부분 두 개 이상으로 나눠져 있어 통합해야 하는 전처리를 수행해야 한다.ex) 센서, 로그, 거래 데이터 등(ID, 날짜, 시간, 지역 등에 따라 분할되어
지도 학습의 경우 feature와 label이 하나의 통합된 데이터 집합으로 되어 있어야 한다.데이터가 큰 경우 대부분 두 개 이상으로 나눠져 있어 통합해야 하는 전처리를 수행해야 한다.ex) 센서, 로그, 거래 데이터 등(ID, 날짜, 시간, 지역 등에 따라 분할되어
지도 학습의 경우 feature와 label이 하나의 통합된 데이터 집합으로 되어 있어야 한다.데이터가 큰 경우 대부분 두 개 이상으로 나눠져 있어 통합해야 하는 전처리를 수행해야 한다.ex) 센서, 로그, 거래 데이터 등(ID, 날짜, 시간, 지역 등에 따라 분할되어
지도 학습의 경우 feature와 label이 하나의 통합된 데이터 집합으로 되어 있어야 한다.데이터가 큰 경우 대부분 두 개 이상으로 나눠져 있어 통합해야 하는 전처리를 수행해야 한다.ex) 센서, 로그, 거래 데이터 등(ID, 날짜, 시간, 지역 등에 따라 분할되어
데이터에 결측치가 있어 모델 학습이 되지 않는 문제가 발생할 때,NaN : 값이 없는 결측으로 대체, 추정, 예측으로 처리None : '값이 없는 것'이 값인 결측으로 새로운 값으로 정의하는 방식으로 처리해당 도메인 지식이 있으면 좀 더 정확하게 대처 가능.행 삭제결측
데이터에 결측치가 있어 모델 학습이 되지 않는 문제가 발생할 때,NaN : 값이 없는 결측으로 대체, 추정, 예측으로 처리None : '값이 없는 것'이 값인 결측으로 새로운 값으로 정의하는 방식으로 처리해당 도메인 지식이 있으면 좀 더 정확하게 대처 가능.Simple
데이터에 결측치가 있어 모델 학습이 되지 않는 문제가 발생할 때,NaN : 값이 없는 결측으로 대체, 추정, 예측으로 처리None : '값이 없는 것'이 값인 결측으로 새로운 값으로 정의하는 방식으로 처리해당 도메인 지식이 있으면 좀 더 정확하게 대처 가능.'시계열 변
데이터에 결측치가 있어 모델 학습이 되지 않는 문제가 발생할 때,NaN : 값이 없는 결측으로 대체, 추정, 예측으로 처리None : '값이 없는 것'이 값인 결측으로 새로운 값으로 정의하는 방식으로 처리해당 도메인 지식이 있으면 좀 더 정확하게 대처 가능.결측이 발생
범주형 변수는 상태 공간의 크기가 유한한 변수를 의미하며, 반드시 도메인이나 변수의 상태 공간을 바탕으로 판단.단순히 문자형은 범주형, 숫자형이면 연속형이라고 판단하면 위험할 수 있으며, 변수의 상태 공간 확인 작업을 해야한다.(ex. 5(월))데이터에 범주형 변수가
일반화된 모델을 학습하는데 어려움이 있는 분포를 가지는 변수가 있어, 일반화된 모델을 학습하지 못하는 문제 발생.특징과 라벨 간 관계가 없거나 매우 약하다면, 어떠한 전처리 및 모델링을 하더라도 예측력이 높은 모델을 학습할 수 없음.특징과 라벨 간 비선형 관계가 존재한
일반화된 모델을 학습하는데 어려움이 있는 분포를 가지는 변수가 있어, 일반화된 모델을 학습하지 못하는 문제 발생.변수 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값으로, 일반화된 모델을 생성하는데 악영향을 끼치는 값으로 이상치를 포함하는 레코드를 제거하는 방법IQ
변수 분포 문제 일반화된 모델을 학습하는데 어려움이 있는 분포를 가지는 변수가 있어, 일반화된 모델을 학습하지 못하는 문제 발생. 문제 정의 변수 범위에서 많이 벗어난 아주 작은 값이나 아주 큰 값으로, 일반화된 모델을 생성하는데 악영향을 끼치는 값으로 이상치를 포함
일반화된 모델을 학습하는데 어려움이 있는 분포를 가지는 변수가 있어, 일반화된 모델을 학습하지 못하는 문제 발생.회귀, 신경망, SVM과 같이 선형식이 모델에 포함되는 경우, 특징 간 상관성이 높으면 파라미터 추정이 어렵고 추정할 때마다 결과가 달라질 수 있다.트리 계
일반화된 모델을 학습하는데 어려움이 있는 분포를 가지는 변수가 있어, 일반화된 모델을 학습하지 못하는 문제 발생.모델링에 있어 가장 적합한 확률 분포는 정규 분포이나 실제 데이터는 변수가 특정 방향으로 치우쳐 있는 경우가 많다.한 쪽으로 치우친 변수에서 치우친 반대 방
일반화된 모델을 학습하는데 어려움이 있는 분포를 가지는 변수가 있어, 일반화된 모델을 학습하지 못하는 문제 발생.특징 간 스케일이 달라서 발생하는 문제로, 스케일이 큰 변수에 의해 혹은 스케일이 작은 변수에 의해 모델이 크게 영향을 받는 문제.스케일이 큰 변수에 영향을
클래스 변수가 하나의 값에 치우친 데이터로 학습한 분류 모델이 치우친 클래스에 대해 편향되는 문제.클래스 불균형 문제가 있는 모델은 정확도는 높지만, 재현율이 매우 낮은 경향이 있다.다수 클래스 : 대부분의 샘플이 속한 클래스소수 클래스 : 대부분의 샘플이 속하지 않은
클래스 변수가 하나의 값에 치우친 데이터로 학습한 분류 모델이 치우친 클래스에 대해 편향되는 문제.클래스 불균형 문제가 있는 모델은 정확도는 높지만, 재현율이 매우 낮은 경향이 있다.다수 클래스 : 대부분의 샘플이 속한 클래스소수 클래스 : 대부분의 샘플이 속하지 않은
클래스 변수가 하나의 값에 치우친 데이터로 학습한 분류 모델이 치우친 클래스에 대해 편향되는 문제.클래스 불균형 문제가 있는 모델은 정확도는 높지만, 재현율이 매우 낮은 경향이 있다.다수 클래스 : 대부분의 샘플이 속한 클래스소수 클래스 : 대부분의 샘플이 속하지 않은
차원이 증가함에 따라 필요한 데이터의 양과 시간 복잡도가 기하급수적으로 증가하는 문제.차원이 증가함에 따라 모델 학습 시간이 정비례하게 증가함차원이 증가함에 따라서 각 결정 공간에 포함되는 샘플 수가 적어져, 과적합으로 인해 성능 저하 발생.분류 및 예측에 효과적인 특
차원이 증가함에 따라 필요한 데이터의 양과 시간 복잡도가 기하급수적으로 증가하는 문제.차원이 증가함에 따라 모델 학습 시간이 정비례하게 증가함차원이 증가함에 따라서 각 결정 공간에 포함되는 샘플 수가 적어져, 과적합으로 인해 성능 저하 발생.특징과 라벨이 얼마나 관련이
실제 프로세스에서는 데이터 탐색과 전처리 사이에 피드백 루프가 존재한다.탐색을 한 번에 다하고 전처리를 한 번에 다 하는 것이 아니다.데이터 탐색1 -> 데이터 전처리1(파라미터 튜닝) -> 데이터 탐색2 -> 데이터 전처리2(파라미터 튜닝) -> ... ->일반적으로