๐Ÿ” ๊ฒ€์ƒ‰ ์•Œ๊ณ ๋ฆฌ์ฆ˜ Boolean Retrieval

๊น€์ง€์œคยท2023๋…„ 10์›” 20์ผ
0

์ •๋ณด๊ฒ€์ƒ‰

๋ชฉ๋ก ๋ณด๊ธฐ
1/11

๐Ÿ” Boolean Retrieval

true, false๋ฅผ ์‚ฌ์šฉํ•˜์—ฌ ์ •๋ณด๊ฒ€์ƒ‰



๐Ÿ”Inverted Index

  • ๊ตฌ์„ฑ์š”์†Œ๋กœ๋Š” dictionary์™€ postings๊ฐ€ ์žˆ๊ณ , dictionary๋Š” term๋“ค์˜ ์ง‘ํ•ฉ์ด๋‹ค.

  • Inverterd Index๋Š” term์ด ๋“ฑ์žฅํ•˜๋Š” ๋ฌธ์„œ์˜ ๋ฌธ์„œ๋ฒˆํ˜ธ๋งŒ postings์— ์ €์žฅํ•œ ๋ฐฉ๋ฒ•์ด๋‹ค.



๐Ÿ”์งˆ์˜

  • A๋‹จ์–ด์™€ B๋‹จ์–ด๊ฐ€ ๋“ฑ์žฅํ•˜๋Š” ๋ฌธ์„œ๋ฅผ ๊ฒ€์ƒ‰ํ• ๋•Œ?
    A๋‹จ์–ด์˜ postings์™€ B๋‹จ์–ด์˜ postings๋ฅผ ํ•˜๋‚˜์”ฉ ํฌ์ธํ„ฐ๋ฅผ ์˜ฎ๊ฒจ๊ฐ€๋ฉฐ ๊ฐ™์€ ๊ฒƒ์ด ์žˆ๋Š”์ง€ ๋น„๊ตํ•œ๋‹ค.

  • And ์—ฐ์‚ฐ์—์„œ ์—ฌ๋Ÿฌ๊ฐœ์˜ ๋‹จ์–ด๋ฅผ ๊ฒ€์ƒ‰ํ• ๋–„, ๋น ๋ฅด๊ฒŒ ํ•˜๋ ค๋ฉด?
    document frequency๊ฐ€ ์ž‘์€ ์ˆœ์„œ๋ถ€ํ„ฐ ์—ฐ์‚ฐํ•œ๋‹ค.


term : ์ •๊ทœํ™”ํ•œ ๋‹จ์–ด
token : ์‹ค์ œ ๋‹จ์–ด ์ธ์Šคํ„ด์Šค



๐Ÿ”stemming ์ •๊ทœํ™”

๋‹จ์–ด์˜ ๋’ท๋ถ€๋ถ„์„ ์ž˜๋ผ ๊ณตํ†ต๋œ ๋ถ€๋ถ„๋งŒ ๋‚จ๊ธฐ๋Š” ๋ฐฉ๋ฒ•


๐Ÿ”dictionary

term๋“ค์„ ์ €์žฅํ•œ ์ž๋ฃŒ๊ตฌ์กฐ

  • dictionary์—์„œ term์„ ์ฐพ๋Š” ๋‘๊ฐ€์ง€ ๋ฐฉ๋ฒ•
    (term ๊ฐœ์ˆ˜์˜ ๋ณ€๋™์—ฌ๋ถ€์— ๋”ฐ๋ผ ์„ ํƒํ•œ๋‹ค)
  1. ํ•ด์‹œ : ์ฐพ๋Š” ์†๋„๊ฐ€ ๋น ๋ฅด๋‹ค. ์ƒˆ๋กœ์šด term์„ ๋„ฃ๊ธฐ ์ ์ ˆํ•˜์ง€ ์•Š๋‹ค. ๋น„์Šทํ•œ ๋‹จ์–ด์˜ ์ €์žฅ ์œ„์น˜๊ฐ€ ์ผ์ •ํ•˜์ง€ ์•Š๋‹ค.

  2. ํŠธ๋ฆฌ : prefix search๊ฐ€ ๊ฐ€๋Šฅํ•˜๋‹ค. ํ•ด์‹œ๋ณด๋‹ค๋Š” ๋Š๋ฆฌ๋‹ค.



๐Ÿ”soundax

๋น„์Šทํ•œ ๊ฒƒ์„ ๊ฐ™์ด ๊ฒ€์ƒ‰๋˜๋„๋ก ํ•˜๊ธฐ์œ„ํ•ด ์†Œ๋ฆฌ์— ๊ธฐ๋ฐ˜ํ•˜์—ฌ ์ธ๋ฑ์‹ฑํ•œ ์ •๋ณด๊ฒ€์ƒ‰ ๋ฐฉ๋ฒ•

profile
๊พธ์ค€ํ•˜๊ฒŒ ๊ณต๋ถ€ํ•˜๊ณ  ๊ธฐ๋กํ•˜๋Š” ๊ฐœ๋ฐœ์ž

0๊ฐœ์˜ ๋Œ“๊ธ€