Boolean Retrieval์ ๊ฒ์ ๊ฒฐ๊ณผ๊ฐ ๋๋ฌด ์ ๊ฑฐ๋, ๋๋ฌด ๋ง๊ฑฐ๋ ํ ์ ์๋ค.
Boolean Retrieval ์ง์ ๋ฐฉ๋ฒ์ ์ผ๋ฐ์ฌ์ฉ์๊ฐ ์ฌ์ฉํ๊ธฐ ๋ถํธํ๋ค.
์ด๋ฌํ ๋จ์ ์ ๋ณด์ํ ๊ฒ์ด Ranked Retrieval
์ฟผ๋ฆฌ์ ๋ฌธ์์ ๋งค์นญ ์ ๋๋ฅผ ์ ์๋ก ๋งค๊น
์ง์ํ๋ term์ด ์ฌ๋ฌ๋ฒ ๋ฑ์ฅํ ์๋ก ์ ์๊ฐ ๋ ๋์
"term document incidence matrix(binary incidence matrix)"๋ฅผ ํ์ฅํ์ฌ term ๋ฑ์ฅ ํ์๋ฅผ ๊ธฐ๋กํ๋ค.
count matrix๋ผ๊ณ ๋ถ๋ฆ
๊ณ์ฐ์
์ง์์ ์ฌ๋ฌ ๋จ์ด๊ฐ ๋ฑ์ฅํ ๋
๊ฐ๊ฐ์ ๊ฒฐ๊ณผ๋ฅผ ๋ํ๋ค.
stop word(๊ฒ์์ ์ํฅ์ ์ฃผ์ง์๋)๋ฅผ ๊ณ ๋ คํ์ฌ ๊ณ์ฐํ๋ ๋ฒ
์ ์ฒด collection์์ tf๊ฐ ๋์ผ๋ฉด ํํ ๋จ์ด์ด๋ค.
๊ทธ๋ฌ๋ฏ๋ก df (term์ด ๋ฑ์ฅํ๋ ๋ฌธ์ ๊ฐ์)๋ฅผ ๊ตฌํ๋ค.
ex) 100๊ฐ์ ๋ฌธ์์์ df๊ฐ 100์ด๋ฉด ๋งค์ฐ ํํ๊ธฐ ๋๋ฌธ์ idf๋ 0์ด๋ค.
๊ฒฐ๊ตญ ranking์ ์ํฅ์ ๋ฏธ์น๋ ๊ฒ์ tf์ด๋ค. ํ์ง๋ง term์ด ๋ง์์ก์ ๋, idf๊ฐ ์ค์๋๋ฅผ ํ๋จํด์ฃผ๋ ์ญํ ์ ํ๋ค.
ํ๋์ ๋จ์ด๋ x,y ๋ฑ์ ํ๋์ ์ถ์ ๋ด๋นํ๋ค.
document๋ ์ ์ด๋ ๋ฒกํฐ๋ก ํํ๋ ์ ์๋ค.
์ง์์ด๋ ๋ฒกํฐ๋ก ๋ณํํ ์ ์๋ค.
์ง์์ด g์ document ์ฌ์ด์ ๊ฑฐ๋ฆฌ๊ฐ ์งง์์๋ก ranking์ด ๋์์ง๋ค. ์ ์ฌ๋๊ฐ ๋๋ค.
์ ํด๋ฆฌ๋์ ๊ฑฐ๋ฆฌ ๊ตฌํ๋ ๊ณต์์ ์ ๋ณด๊ฒ์์์ ์ ํฉํ์ง ์๋ค.
๋ ๋ฒกํฐ ๊ฐ์ ๊ฐ๋๊ฐ ์์์๋ก ์ ์ฌํ๋ค๊ณ ํ ์ ์๋ค.
(์์ ์์ ๊ฐ๋๋ฅผ ๋ณด๋ฉด๋๋ค)
(์ด ๊ทธ๋ฆผ์ d์ ๋ด์ฉ์ด ๋๋ฒ ๋ฐ๋ณต๋ d'๋ฌธ์๋ฅผ ๋ง๋ค์ด ์คํํ ๊ฒ)
์ฆ, cosฮธ๊ฐ ํด์๋ก ์ ์ฌ๋๊ฐ ๋๋ค.
length normalization
document์ query์ด ์ต์ข weight๋ฅผ ๊ฐ์ term๋ผ๋ฆฌ ๊ฐ๊ฐ ๊ณฑํ๊ณ ์ ๋ถ ๋ํด ์ ์ฌ๋๋ฅผ ๊ตฌํ๋ค.