- 이 예는 1982년부터 1993년까지 호주의 강수량을 기반으로 한다.
- 연평균 강수량은 평균 월간 강수량보다 변동성이 작습니다.
- 모든 강수량 측정값(및 해당 표준 편차)은 센티미터 단위입니다.
- 호주의 0.5º x 0.5º 그리드 셀 3,030개에 대한 월평균 강수량의 표준편차에 대한 히스토그램
- 동일한 위치에 대한 평균 연간 강수량의 표준 편차에 대한 히스토그램.
샘플링은 데이터 축소에 사용되는 주요 기술
통계학자는 관심 있는 전체 데이터 세트를 얻는 것이 너무 비싸거나 시간이 많이 걸리기 때문에 표본을 추출하는 경우가 많다.
샘플링은 일반적으로 관심 있는 전체 데이터 집합을 처리하는 데 너무 비싸거나 시간이 많이 걸리기 때문에 데이터 마이닝에 사용된다.
효과적인 샘플링의 핵심 원칙
샘플링 크기
샘플링 타입
이산화는 연속 속성(analog)을 순서 속성으로 변환하는 프로세스
비지도 이산화 (Unsupervised Discretization)
예
지도 이산화 (Supervised Discretization)
이진화는 연속 또는 범주 속성을 하나 이상의 이진 변수로 매핑
보통 객체는 다중 속성을 가지고 있다.
유클리드 거리
예시
유클리디언 디스턴스 일반화
r = 1인 경우, City block (Manhattan, taxicab, L1 norm) 거리
r = 2 인 경우, 유클리디언 디스턴스
r → ∞, 벡터 구성원들 간의 차이 중 최대값이 된다.
인도의 통계학자 마할라노비스가 만든 비유사도 측정방법
표준편차를 사용해서 척도의 차이, 분산의 차이로 발생하는 왜곡을 피할 수 있는 방법
표준편차를 사용하는 통계적 거리와 두 객체 간의 상관성을 고려한 측정방법
특징 1
특징 1을 만족하는 거리를 metric이라고 한다.
x, y가 데이터의 객체라고 했을 때, x, y는 2가지 특징을 가진다.
x와 y 객체가 binary attribute로만 구성이 되어 있을 때, 벡터들의 유사도를 구할 수 있다.
4가지의 attribute가 있다.
심플 매칭 계수와 자카드 계수
예시
보통 두 개의 document 벡터의 유사도를 측정할 때 사용한다.
예시
x, y 객체가 있을 때 두 객체 attribute의 관계, 30개 정도의 attribute가 있을 때,
상관관계 범위가 -1 ~ 1 까지의 산점도 (변화를 보여줌)
설명
예시
올바른 유사성 측정은 도메인에 의존해서 선택이 된다.