intra-cluster distance와 inter-cluster distance의 차이를 설명하시오
cluster analysis에서는 data object 들에 대해 intra-cluster distance와 inter-cluster distance를 모두 고려하여야 한다. 물음에 답하시오
intra-cluster distance만 고려하고, inter-cluster distance를 고려하지 않는 경우 어떠한 형태의 잘못된 clustering이 발생할 수 있는지 말하시오
inter-cluster distance만 고려하고, intra-cluster distance를 고려하지 않는 경우 어떠한 형태의 잘못된 clustering이 발생할 수 있는지 말하시오
다음은 cluster analysis를 어떠한 경우에 활용할 수 있는지에 대한 설명이다. 빈칸을 채우시오
(?) the size of large data sets.
instead of applying the (?) to the entire data set, it can be applied to a (?) data set consisting only of clustering (?).
cluster (?) can be used for data (?)
each objects is represented by the (?) of the (?) associated with its (?)
다음은 cluster analysis가 아닌 예시들이다. 이 예시들이 어떤 점에서 cluster analysis에 해당하지 못하는지 설명하시오
다음은 분석하고자 하는 분야에 따라 이상적인 cluster analysis의 결과가 다를 수 있음을 설명하는 지문 내용이다. 빈칸을 채우시오
The definition of a cluster is (?) and that the best definition depends on the (?) of data and the (?) results.
다음은 "Clustering"이라는 용어에 관련한 설명이다. 빈칸을 채우시오
Clustering은 여러 기준에 따라 여러 가지 형태를 가질 수 있다. 어떠한 것들이 있는지에 대해 아래의 빈 칸을 채우시오
Clustering을 Partitional과 Hierarchical의 두 가지로 분류할 때, 각각에 대해 설명하시오. 단, 아래의 키워드를 포함하여야 한다.
Traditional, Non-traditional, Dendrogram, Overlapping
Clustering을 생성하는 알고리즘들에는 여러 가지가 있다. 어떠한 것들이 있는지 3가지를 말하시오
다음의 데이터를 토대로 Basic K-means Algorithm을 수행하였다. 아래의 물음에 답하시오
Initial Centroid : (1, 1), (2, 1)
Dataset : (1, 1), (2, 1), (4, 3), (5, 4)
1. 첫번째 Iteration에서의 D 행렬과 G 행렬을 계산하시오
2. 1번의 결과를 토대로 Centroid를 업데이트 할 때, D 행렬과 G 행렬 중 Centroid 업데이트에 필요하지 않은 행렬을 고르시오
3. Centroid를 1회 update 하시오
4. 알고리즘 상에서 iteration은 "Centroid가 변화하지 않을 경우"에 탈출하는 것으로 되어 있다. 이 조건과 "G 행렬이 변화하지 않는 경우"라는 조건은 동치인가?
5. K의 개수와 입력 차원의 수와 관계없이, G 행렬의 원소를 모두 더한 값은 항상 Data의 개수와 같다. - 이 말은 옳은가?
6. 최종적으로 계산된 G 행렬과 Centroid를 구하시오
Initial Centroids Problem을 해결하기 위한 방법들에 관해 4가지를 말하시오. (단, 단순히 여러 번 시행해 보는 방법은 제외한다)
다음은 Bisecting K-means 알고리즘 중, Bisecting 과정에 관한 질문들이다.
다음은 Bisecting K-means 알고리즘에 관한 질문들이다.
Basic K-means 알고리즘은 때때로 예상치 못한 결과를 일으키기도 하는데, 이 문제와 이러한 문제가 일어날 수 있는 상황에 대해 말하시오
14번의 문제점을 극복하기 위한 전략에는 대표적으로 두 가지가 있다. 관련하여 아래의 질문에 답하시오
다음은 15번의 질문 중 2번의 방법과 관련된 질문들이다. 물음에 답하시오
다음은 cluster analysis의 전처리 과정에 관한 설명이다. 빈칸을 채우시오
다음은 cluster analysis의 후처리 과정에 관한 설명이다. 빈칸을 채우시오
K-means algorithm은 dataset이 어떠한 특징을 가지는 경우, 제대로 적용되지 않을 수 있다. 어떠한 경우가 되는지 4가지를 말하시오
19번에서 언급한 한계점들을 극복하기 위한 대표적인 방법에 대해 설명하시오.