๐Ÿ” 6. ๊ฒ€์ƒ‰์„ ์œ„ํ•œ ์–ธ์–ด ๋ชจ๋ธ

๊น€์ง€์œคยท2023๋…„ 10์›” 24์ผ
0

์ •๋ณด๊ฒ€์ƒ‰

๋ชฉ๋ก ๋ณด๊ธฐ
6/11

๐Ÿ“Š ์–ธ์–ด๋ชจ๋ธ์ด๋ž€?

  • ์—ฌ๋Ÿฌ ๋‹จ์–ด๋กœ ์ด๋ฃจ์–ด์ง„ ์—ด์— ํ™•๋ฅ  ๊ฐ’์„ ๋งค๊น€
  • ์Œ์„ฑ ์ธ์‹์— ์‚ฌ์šฉ

  • < unigram language model >

    • ๊ฐ€์ • : ๊ฐ ๋‹จ์–ด์˜ ๋“ฑ์žฅ ํ™•๋ฅ ์€ ์„œ๋กœ ๋…๋ฆฝ์ ์ด๋‹ค.

    • ๊ฐ ๋‹จ์–ด์˜ ํ™•๋ฅ ์„ ๊ณฑํ•ด์„œ ๊ตฌํ•œ๋‹ค. ๋‹ค์Œ์ด ์–ธ์–ด๋ชจ๋ธ์ด๋‹ค.

    • P(d|q) : ์ฟผ๋ฆฌ๊ฐ€ ์ฃผ์–ด์กŒ๋Š”๋ฐ ํ•ด๋‹น ๋ฌธ์„œ๊ฐ€ ์ •๋‹ต์ผ ํ™•๋ฅ 

        1. P(q)๋Š” ๋ชจ๋“  ์ƒํ™ฉ์— ๊ฐ™๊ธฐ ๋•Œ๋ฌธ์— ๋ฌด์‹œํ•œ๋‹ค.
        1. P(d)๋Š” ์งˆ์˜์™€ ์ƒ๊ด€์—†๊ธฐ ๋•Œ๋ฌธ์— ๋ฌด์‹œํ•œ๋‹ค.
        1. ๊ฒฐ๊ตญ P(d|q) โˆ P(q|d) ์ด๋‹ค.
        1. ์งˆ์˜์— ๋งž๋Š” ๋ฌธ์„œ์˜ ํ™•๋ฅ ์„ ๊ตฌํ•˜๋Š” ๊ฒƒ๋ณด๋‹ค, ๋ฌธ์„œ๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ ์ฟผ๋ฆฌ์˜ ํ™•๋ฅ ์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ด ๋” ์‰ฝ๋‹ค.
        1. ํ•˜๋‚˜์˜ ์งˆ์˜๋Š” ์—ฌ๋Ÿฌ๊ฐœ์˜ ๋‹จ์–ด๋กœ ๊ตฌ์„ฑ๋˜์–ด ์žˆ๊ณ , ๊ฐ ๋‹จ์–ด์˜ ํ™•๋ฅ ์€ ๋…๋ฆฝ์ ์œผ๋กœ ์ž‘์šฉํ•œ๋‹ค.
        1. ๊ฐ ๋‹จ์–ด์˜ ๋“ฑ์žฅํ™•๋ฅ ์„ ๊ณฑํ•ด์ค€๋‹ค.

    • ๋ฌธ์„œ d๊ฐ€ ์ฃผ์–ด์กŒ์„ ๋•Œ, term์˜ ๋“ฑ์žฅ ํ™•๋ฅ  : ์ตœ๋Œ€ ๊ฐ€๋Šฅ๋„ (Maximum Likelihood Estimation - MLE)

      - ํ•˜์ง€๋งŒ ํ™•๋ฅ ์ด 0์ธ ์š”์†Œ๊ฐ€ ์žˆ์–ด ๊ฒฐ๋ก ์ด 0์ด ๋˜์–ด๋ฒ„๋ฆฐ๋‹ค. โžœ smoothing ํ•„์š”


    • Mixture model

      ์ „์ฒด ๋ฌธ์„œ๋“ค์—์„œ์˜ tf๋ฅผ ํ™œ์šฉํ•œ๋‹ค.



๐Ÿ“Š ์–ธ์–ด๋ชจ๋ธ VS Vetor Space model

  • ๊ณตํ†ต์ 

      1. tf๊ฐ€ ๋“ค์–ด์žˆ๋‹ค.
      1. |d|์ฒ˜๋Ÿผ ๊ธธ์ด ์ •๊ทœํ™”๊ฐ€ ๋˜์–ด์žˆ๋‹ค.
      1. ์–ธ์–ด๋ชจ๋ธ์—์„œ ์Šค๋ฌด๋”ฉํ•œ ๊ฒฐ๊ณผ๋Š” idf์™€ ๊ฒฐ๊ณผ๊ฐ€ ์œ ์‚ฌํ•ด์ง„๋‹ค.

  • ์ฐจ์ด์ 

      1. ์–ธ์–ด๋ชจ๋ธ์€ ํ™•๋ฅ ์„ ๊ธฐ๋ฐ˜์„ ํ–ˆ๊ณ , vector space๋Š” ํœด๋ฆฌ์Šคํ‹ฑํ•œ ๋ถ€๋ถ„์ด ์žˆ๋‹ค.
      1. ์–ธ์–ด๋ชจ๋ธ์—์„œ๋Š” collection frequency๋ฅผ ์‚ฌ์šฉํ•˜์˜€๋‹ค.
profile
๊พธ์ค€ํ•˜๊ฒŒ ๊ณต๋ถ€ํ•˜๊ณ  ๊ธฐ๋กํ•˜๋Š” ๊ฐœ๋ฐœ์ž

0๊ฐœ์˜ ๋Œ“๊ธ€