데이터마이닝 자기평가 - Cluster Analysis

coding_bird·2022년 5월 1일

cluster analysis data mining

intra-cluster distance와 inter-cluster distance의 차이를 설명하시오
cluster analysis에서는 data object 들에 대해 intra-cluster distance와 inter-cluster distance를 모두 고려하여야 한다. 물음에 답하시오
1. intra-cluster distance만 고려하고, inter-cluster distance를 고려하지 않는 경우 어떠한 형태의 잘못된 clustering이 발생할 수 있는지 말하시오
2. inter-cluster distance만 고려하고, intra-cluster distance를 고려하지 않는 경우 어떠한 형태의 잘못된 clustering이 발생할 수 있는지 말하시오
다음은 cluster analysis를 어떠한 경우에 활용할 수 있는지에 대한 설명이다. 빈칸을 채우시오
1. (?)
  
  (?) the size of large data sets.
  instead of applying the (?) to the entire data set, it can be applied to a (?) data set consisting only of clustering (?).
2. (?)
  
  cluster (?) can be used for data (?)
  each objects is represented by the (?) of the (?) associated with its (?)
다음은 cluster analysis가 아닌 예시들이다. 이 예시들이 어떤 점에서 cluster analysis에 해당하지 못하는지 설명하시오
1. Supervised classification
2. Simple segmentation
3. Results of a query
4. Graph partitioning

다음은 분석하고자 하는 분야에 따라 이상적인 cluster analysis의 결과가 다를 수 있음을 설명하는 지문 내용이다. 빈칸을 채우시오

The definition of a cluster is (?) and that the best definition depends on the (?) of data and the (?) results.
다음은 "Clustering"이라는 용어에 관련한 설명이다. 빈칸을 채우시오
- A Clustering if a (?) of (?)
Clustering은 여러 기준에 따라 여러 가지 형태를 가질 수 있다. 어떠한 것들이 있는지에 대해 아래의 빈 칸을 채우시오
- (?) vs (?)
- (?) vs non - (?)
- (?) vs non - (?)
- Partial vs Complete
- Heterogeneous vs Homogeneous
Clustering을 Partitional과 Hierarchical의 두 가지로 분류할 때, 각각에 대해 설명하시오. 단, 아래의 키워드를 포함하여야 한다.

Traditional, Non-traditional, Dendrogram, Overlapping
Clustering을 생성하는 알고리즘들에는 여러 가지가 있다. 어떠한 것들이 있는지 3가지를 말하시오
다음의 데이터를 토대로 Basic K-means Algorithm을 수행하였다. 아래의 물음에 답하시오

Initial Centroid : (1, 1), (2, 1)
Dataset : (1, 1), (2, 1), (4, 3), (5, 4)

1. 첫번째 Iteration에서의 D 행렬과 G 행렬을 계산하시오
2. 1번의 결과를 토대로 Centroid를 업데이트 할 때, D 행렬과 G 행렬 중 Centroid 업데이트에 필요하지 않은 행렬을 고르시오
3. Centroid를 1회 update 하시오
4. 알고리즘 상에서 iteration은 "Centroid가 변화하지 않을 경우"에 탈출하는 것으로 되어 있다. 이 조건과 "G 행렬이 변화하지 않는 경우"라는 조건은 동치인가?
5. K의 개수와 입력 차원의 수와 관계없이, G 행렬의 원소를 모두 더한 값은 항상 Data의 개수와 같다. - 이 말은 옳은가?
6. 최종적으로 계산된 G 행렬과 Centroid를 구하시오
Initial Centroids Problem을 해결하기 위한 방법들에 관해 4가지를 말하시오. (단, 단순히 여러 번 시행해 보는 방법은 제외한다)
다음은 Bisecting K-means 알고리즘 중, Bisecting 과정에 관한 질문들이다.
1. 어떠한 알고리즘을 사용하는가?
2. 1번의 알고리즘은 어느 데이터 내에서 진행되는가?
3. 이때 K는 몇으로 설정하는가?
다음은 Bisecting K-means 알고리즘에 관한 질문들이다.
1. Bisecting 과정을 여러번 수행하여 최적의 결과를 얻기도 한다. 이 과정에서 얻어진 여러 결과들 중, 최적의 결과를 선택하는 기준에 대해 말하시오
2. "Best SSE" 는 SSE가 높음을 의미한다 -> (O,X)
3. Bisecting K-means 알고리즘이 종료된 후, cluster analysis의 정확도 향상을 위해 어떠한 과정을 추가로 수행하는지 말하시오
Basic K-means 알고리즘은 때때로 예상치 못한 결과를 일으키기도 하는데, 이 문제와 이러한 문제가 일어날 수 있는 상황에 대해 말하시오
14번의 문제점을 극복하기 위한 전략에는 대표적으로 두 가지가 있다. 관련하여 아래의 질문에 답하시오
1. 기존의 cluster에서 centroid와 가장 멀리 떨어진 지점을 찾은 후, 이 지점을 ( ~ )
2. centroid를 업데이트 하는 과정에서, 기존의 방식 대신 ( ~~ ) 을 사용한다.
다음은 15번의 질문 중 2번의 방법과 관련된 질문들이다. 물음에 답하시오
1. 이 과정에서도 초반에는 Basic K-means Algorithm과 동일하게 진행한다. 어느 과정까지 동일한지 말하시오
2. 이 과정에서 매 centroid를 업데이트 하는 과정마다, (0개, 1개, 2개)의 centroid가 업데이트된다. 옳은 말을 모두 고르시오
3. 이 과정은 Empty cluster를 절대로 만들지 않는 방법이다 -> (0, X)
4. 이 과정을 진행하기 위해서는, Data Object들 사이의 순서를 정해야만 한다 -> (0, X)
다음은 cluster analysis의 전처리 과정에 관한 설명이다. 빈칸을 채우시오
1. (?) the data
2. Eliminate (?)
다음은 cluster analysis의 후처리 과정에 관한 설명이다. 빈칸을 채우시오
1. Eliminate (?) clusters which may represent (?)
2. (?) 'loose' clusters, which means clusters with relatively (?) (?).
3. (?) clusters that are (?) and that have relatively (?) (?).
K-means algorithm은 dataset이 어떠한 특징을 가지는 경우, 제대로 적용되지 않을 수 있다. 어떠한 경우가 되는지 4가지를 말하시오
19번에서 언급한 한계점들을 극복하기 위한 대표적인 방법에 대해 설명하시오.

coding_bird

소프트웨어 세상 날아다니는 중입니다

이전 포스트

Initial Centroids Problem

다음 포스트

데이터마이닝 자기평가 - Cluster Analysis

Initial Centroids Problem

알고리즘분석 기말고사 대비 - Greedy Algorithm

0개의 댓글