๐Ÿ” Hierarchical Clustering

๊น€์ง€์œคยท2023๋…„ 12์›” 16์ผ
0

์ •๋ณด๊ฒ€์ƒ‰

๋ชฉ๋ก ๋ณด๊ธฐ
9/11

โœ” clustering ์ข…๋ฅ˜

  • Flat clustering : ์ผ๋ฐ˜์ ์ธ clustering

  • Hierarchical clustering : ๊ณ„์ธต์ ์œผ๋กœ ์ƒํ•˜ ๊ด€๊ณ„๊ฐ€ ์žˆ๋Š” Clustering

  • Hard clustering : ํ•˜๋‚˜์˜ ๋ฌธ์„œ๋Š” ํ•˜๋‚˜์˜ cluster์— ์†ํ•ด์žˆ์Œ

  • Soft clustering : ํ•˜๋‚˜์˜ ๋ฌธ์„œ๊ฐ€ ์—ฌ๋Ÿฌ๊ฐœ์˜ cluster์— ์†ํ•  ์ˆ˜ ์žˆ๋‹ค.



โ€ป ์ง€๊ธˆ ์•Œ์•„๋ณผ ๊ฒƒ์€ Hierarchical clustering์ด๊ณ  top-down๊ณผ bottom-up ๋ฐฉ์‹์ด ์žˆ๋‹ค.



๐Ÿ” Hierarchical Agglomerative Clustering (HAC)

  • bottom-up ๋ฐฉ์‹ : ๋งจ ์•„๋ž˜์˜ ๋ฌธ์„œ๋ถ€ํ„ฐ ์œ„๋กœ ์˜ฌ๋ผ๊ฐ€๋Š”๋ฐ, ๋งจ ์•„๋ž˜๋ถ€ํ„ฐ ๊ฐ ๋ฌธ์„œ๊ฐ€ ํ•˜๋‚˜์˜ cluster๋กœ ๊ฐ€์ •ํ•˜๊ณ  ์œ„๋กœ ์˜ฌ๋ผ๊ฐˆ์ˆ˜๋ก ๋” ํฐ cluster๋กœ ๋ฌถ๋Š”๋‹ค.

    ๋ฌธ์„œ๋“ค์„ ์œ ์‚ฌ๋„์— ๋”ฐ๋ผ ์ ์ธต์ ์œผ๋กœ ๋ฌถ์–ด์„œ ์˜ฌ๋ผ๊ฐ„๋‹ค.

  • ์ตœ์ข… ๊ฒฐ๊ณผ๋ฅผ dendrogram์ด๋ผ๊ณ  ๋ถ€๋ฅธ๋‹ค.

  • K-means์—์„œ๋Š” cluster ๊ฐฏ์ˆ˜๋ฅผ ๋ฏธ๋ฆฌ ์ •ํ•ด์ฃผ์–ด์•ผ ํ•˜๋Š” ์–ด๋ ค์›€์ด ์žˆ์—ˆ๋Š”๋ฐ, HAC๋Š” ๊ทธ๋Ÿฌ์ง€ ์•Š์•„๋„ ๋œ๋‹ค.



โœ” Cluster ๋ฌถ์„ ๋•Œ ์œ ์‚ฌ๋„ ๊ตฌํ•˜๋Š” ๋ฒ•

  • โ€ป ๊ฐ cluster๋Š” ํ•˜๋‚˜์˜ ๋ฌธ์„œ๋กœ ์ด๋ฃจ์–ด์ ธ ์žˆ์œผ๋ฏ€๋กœ, ์ฒ˜์Œ์—๋Š” ๊ฐ€๊นŒ์šด ๋ฌธ์„œ๋ผ๋ฆฌ 2๊ฐœ์”ฉ ๋ฌถ๋Š”๋‹ค.

  • single-link (Maximum similarity)

    • ๋‘ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ๊ฐ€์žฅ ๊ฐ€๊นŒ์šด ๋ฌธ์„œ์˜ ์œ ์‚ฌ๋„๋ฅผ cluster์˜ ์œ ์‚ฌ๋„๋กœ ์‚ฌ์šฉ
    • ๊ฒฐ๊ณผ์ ์œผ๋กœ ์ž‘์€ ํด๋Ÿฌ์Šคํ„ฐ๋“ค์ด ๋งŽ์ด ์ƒ๊ฒจ์„œ ๊ท ํ˜•์ด ์ข‹์ง€ ์•Š์€ dendrogram์ด ๋‚˜์˜จ๋‹ค.
    • chaining ๋ฌธ์ œ๊ฐ€ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋‹ค.
  • complete-link (Minimum similarity)

    • ๋‘ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ ๊ฐ€์žฅ ๋จผ ๋ฌธ์„œ์˜ ์œ ์‚ฌ๋„๋ฅผ cluster์˜ ์œ ์‚ฌ๋„๋กœ ์‚ฌ์šฉ
    • banlance๊ฐ€ ์ข‹์€ dendrogram์ด ๋‚˜์˜จ๋‹ค.
    • ์ด์ƒ์น˜๊ฐ€ ์žˆ์„ ๋•Œ ํšจ๊ณผ์ ์ด์ง€ ์•Š๋‹ค.
  • centroid ๋ฐฉ๋ฒ• (Average intersimilarity) : ๋ชจ๋“  pair์˜ ์œ ์‚ฌ๋„์˜ ํ‰๊ท ์„ cluster์˜ ์œ ์‚ฌ๋„๋กœ ์‚ฌ์šฉ (๋‘ ํด๋Ÿฌ์Šคํ„ฐ์˜ centroid์˜ ๊ฑฐ๋ฆฌ๊ณผ ๊ฐ™๋‹ค)

  • Group average (Average intrasimilarity) : average intersimilarity์—์„œ ๊ฐ™์€ cluster ์•ˆ์˜ pair๋„ ํฌํ•จํ•˜์—ฌ ํ‰๊ท ์„ ๊ณ„์‚ฐ





๐Ÿ” Divisive Clustering

  • top-down ๋ฐฉ์‹์ด๋‹ค.

  • ์ฒ˜์Œ์—” ํ•˜๋‚˜์˜ cluster์ด๊ณ , ์ ์  ์ชผ๊ฐ ๋‹ค.

  • ๋ถ„ํ•  ํ• ๋•Œ๋Š” K-means ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•œ๋‹ค.



โœ” Bisecting K-means ์•Œ๊ณ ๋ฆฌ์ฆ˜

  • ๋Œ€ํ‘œ์  top-down clustering

  • ์ฒ˜์Œ์— ๋‘ ๊ทธ๋ฃน์œผ๋กœ ๋ถ„๋ฆฌํ•˜๊ณ , ๋‘ ๊ทธ๋ฃน ์ค‘ ํฌ๊ธฐ๊ฐ€ ๋” ํฐ ๊ฒƒ์„ ์šฐ์„ ์ ์œผ๋กœ ๋ถ„๋ฆฌํ•œ๋‹ค.

  • ์›ํ•˜๋Š” ๊ฐฏ์ˆ˜๋กœ ์ด๋ฃจ์–ด์ง„ cluster๊ฐ€ ๋  ๋•Œ๊นŒ์ง€ ๊ณผ์ •์„ ๋ฐ˜๋ณตํ•œ๋‹ค.

  • ์žฅ์  : ์›ํ•˜๋Š” ๊ฐฏ์ˆ˜๊นŒ์ง€๋งŒ ๋ถ„๋ฅ˜ํ•˜๊ธฐ ๋•Œ๋ฌธ์— HAC๋ณด๋‹ค ๋น ๋ฅด๋‹ค.

  • ๋‹จ์  : k-means ํŠน์„ฑ์ƒ centroid๋ฅผ ์ž„์˜๋กœ ์ •ํ•˜๊ธฐ ๋•Œ๋ฌธ์— centroid ์„ ํƒ์— ๋”ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ€ ๋‹ฌ๋ผ์ง„๋‹ค.



โœ” ์šฉ๋„์— ๋”ฐ๋ฅธ ์‚ฌ์šฉ

  • ๋น ๋ฅธ ์†๋„์˜ ๊ฒฐ๊ณผ๋ฅผ ๋‚ด์•ผํ•  ๋•Œ : 1์ˆœ์œ„.flat clustering ์‚ฌ์šฉ, 2์ˆœ์œ„. bisecting k-means ์‚ฌ์šฉ

  • k ์ˆซ์ž๋ฅผ ์ •ํ•˜๊ธฐ ์–ด๋ ค์šธ ๋•Œ : HAC ์‚ฌ์šฉ

  • ํ•ญ์ƒ ์ผ์ •ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ๋ฅผ ์›ํ•  ๋•Œ : HAC ์‚ฌ์šฉ

  • ๊ณ„์ธต ๊ตฌ์กฐ์˜ ๊ฒฐ๊ณผ๊ฐ€ ํ•„์š”ํ•  ๋•Œ : HAC ์‚ฌ์šฉ

profile
๊พธ์ค€ํ•˜๊ฒŒ ๊ณต๋ถ€ํ•˜๊ณ  ๊ธฐ๋กํ•˜๋Š” ๊ฐœ๋ฐœ์ž

0๊ฐœ์˜ ๋Œ“๊ธ€