BM25 thu t toán x p h ng các văn b n theo đ phù h pậ ế ạ ả ộ ợ
Gi i thi uớ ệ
Trong tìm ki m thông tin, Okapi BM25 là hàm tính th h ng đ c các côngế ứ ạ ượ
c tìm ki m s d ng đ x p h ng các văn b n theo đ phù h p v i truy ụ ế ử ụ ể ế ạ ả ộ ợ ớ
v n nh t đ nh. Hàm x p h ng này d a trên mô hình xác su t, đ c phát ấ ấ ị ế ạ ự ấ ượ
minh ra vào nh ng năm 1970 – 1980. Ph ng pháp có tên BM25 (BM – bestữ ươ
match), nh ng ng i ta th ng g i "Okapi BM25", vì l n đ u tiên công ư ườ ườ ọ ầ ầ
th c đ c s d ng trong h th ng tìm ki m Okapi, đ c sáng l p t i ứ ượ ử ụ ệ ố ế ượ ậ ạ
tr ng đ i h c London nh ng năm 1980 và 1990.ườ ạ ọ ữ
BM25 là m t ph ng pháp x p h ng đ c s d ng r ng rãi trong tìm ộ ươ ế ạ ượ ử ụ ộ
ki m. Trong Web search nh ng hàm x p h ng này th ng đ c s d ng ế ữ ế ạ ườ ượ ử ụ
nh m t ph n c a các ph ng pháp tích h p đ dùng trong machine ư ộ ầ ủ ươ ợ ể
learning, x p h ng.ế ạ
M t trong nh ng k thu t tìm ki m n i ti ng hi n nay đang s d ng thu t ộ ữ ỹ ậ ế ỗ ế ệ ử ụ ậ
toán này là Elasticsearch. Khi tìm ki m, Elascticsearch tr v cho mình ế ả ề
ngoài các k t qu tìm đ c, còn có đánh giá đ liên quan c a k t qu d a ế ả ượ ộ ủ ế ả ự
trên giá tr th c d ng score. Elasticsearch s s p x p các k t qu tr v ị ự ươ ẽ ắ ế ế ả ả ề
c a các query theo th t score gi m d n. Đây là đi m mà mình th y r t ủ ứ ự ả ầ ể ấ ấ
thú v trong Elasticsearch, và mình s dành bài vi t này đ nói v cách làm ị ẽ ế ể ề
th nào ng i ta tính toán và đ a ra đ c giá tr score và t đó hi u đ c ế ườ ư ượ ị ừ ể ượ
thu t toán BM25.ậ
L u ýư
M t s thu t ng r t hay đ c s d ng trong Elasticsearch:ộ ố ậ ữ ấ ượ ử ụ
1. relevance (đ liên quan)ộ
2. index (t ng đ ng v i database trong mysql)ươ ươ ớ
3. type (t ng đ ng v i table trong mysql)ươ ươ ớ
4. document (t ng ng v i record trong mysql)ươ ứ ớ