Ph n A – Tài li u k thu t VietSpiderầ ệ ỹ ậ
I. Vi n c nh v khai thác thông tin.ễ ả ề
S phát tri n c a m nh m c a Internet kéo theo hàng lo t nh ng mô hình truy nự ể ủ ạ ẽ ủ ạ ữ ề
thông m ng nh báo đi n t , blog, forum, trang thông tin cá nhân, t ch c, c quan, côngạ ư ệ ử ổ ứ ơ
ty,...Ti p c n ngu n thông tin phong phú đó làm n y sinh m t nhu c u: khai thác và t ngế ậ ồ ả ộ ầ ổ
h p hi u qu các n i dung t Internet.ợ ệ ả ộ ừ
1. Đi m l c m t vài mô hình khai thác và t ng h p n i dung.ể ượ ộ ổ ợ ộ
Thông tin cũng là m t tài nguyên c n khai thác và Internet gi ng nh m t m thôngộ ầ ố ư ộ ỏ
tin kh ng l đ c c p nh t t ng gi t ng phút. Khai thác thông tin là m t c m t xu tổ ồ ượ ậ ậ ừ ờ ừ ộ ụ ừ ấ
hi n tr c đó r t lâu so v i th i đi m ra đ i c a Internet. Hi n nay, s khai thác thông tinệ ướ ấ ớ ờ ể ờ ủ ệ ự
t Internet đã là m t nhu c u c a m i cá nhân. Không quá xa v i, nh ng phóng viên báo chíừ ộ ầ ủ ỗ ờ ữ
h ng ngày v n tìm ki m t li u, tham kh o các bài vi t ho c th m chí đăng l i n i dung tằ ẫ ế ư ệ ả ế ặ ậ ạ ộ ừ
m t ngu n c th nh website báo đi n t , blog, di n đàn... B ng cách này hay cách khác,ộ ồ ụ ể ư ệ ử ễ ằ
h h ng ngày v n đang khai thác thông tin cho công vi c và nhu c u hi u bi t c a h . Doọ ằ ẫ ệ ầ ể ế ủ ọ
đó, m t công c tr giúp vi c c p nh t, khai thác và qu n lý thông tin hi u qu là c n thi t.ộ ụ ợ ệ ậ ậ ả ệ ả ầ ế
Có nhi u hình thái v khai thác và t ng h p n i dung đã đ c nghiên c u và phát tri n.ề ề ổ ợ ộ ượ ứ ể
Chúng ta có m t lo t khái ni m nh Robot, Search, Web Crawler, Data Wrapper, Web Spider,ộ ạ ệ ư
Web Clipping, Semantic Web,... đ mô t v nh ng hình thái khai thác n i dung thông tinể ả ề ữ ộ
trên Internet. Xin l y mô hình tìm ki m là m t ví d : N i dung sau khi khai thác có thấ ế ộ ụ ộ ể
đ c l u tr trong các h th ng database và phát hành l i t i ng i dùng tr c ti p thôngượ ư ữ ệ ố ạ ớ ườ ự ế
qua h th ng tích h p, tìm ki m, l c, chia s đ t t ,...hay s d ng cho m t m c đíchệ ố ợ ế ọ ẻ ặ ả ử ụ ộ ụ
chuyên bi t đó. Google là minh ch ng c th cho gi i pháp đó, các Website t n t i trênệ ứ ụ ể ả ồ ạ
Internet s đ c Google Crawler ghé thăm và thu th p l i toàn b , sau đó n i dung đ cẽ ượ ậ ạ ộ ộ ượ
l u tr trong c s d li u, đ c đánh ch m c,... và đ c tìm ki m m i khi có yêu c u tư ữ ơ ở ữ ệ ượ ỉ ụ ượ ế ỗ ầ ừ
phía ng i dùng. M t s n ph n khác là GoogleNews l i có nhi m v t ng h p t t c cácườ ộ ả ẩ ạ ệ ụ ổ ợ ấ ả
tin t c di n ra hàng ngày trên Internet. Vi t nam, ta có th tìm ki m nh ng mô hìnhứ ễ Ở ệ ể ế ữ
t ng t nh Baomoi.com hay Thegioitin.com. Ngoài ra, chúng ta còn có nh ng chu n vươ ự ư ữ ẩ ề
chia s đ c t n i dung nh RSS, RDF, Atom,... chúng k t n i thông tin gi a nh ng websiteẻ ặ ả ộ ư ế ố ữ ữ
và cũng cho phép ng i dùng t ng h p các đ c t b ng nh ng công c chuyên bi t nhườ ổ ợ ặ ả ằ ữ ụ ệ ư
RSS Reader. Nh v y, th c t cho ta th y, đã có r t nhi u nh ng mô hình khai thác và t ngư ậ ự ế ấ ấ ề ữ ổ
h p n i dung.ợ ộ
II. Gi i thi u v ph n m m.ớ ệ ề ầ ề
1. Yêu c u bài toán v khai thác và t ng h p n i dung.ầ ề ổ ợ ộ
S phát tri n c a thông tin ti ng Vi t trên m ng Internet và nhu c u khai thác t ngự ể ủ ế ệ ạ ầ ổ
h p nh ng n i dung đó. Nh đã nói ph n I, không có gì m i l v m t ý t ng và cũng đãợ ữ ộ ư ở ầ ớ ạ ề ặ ưở
có nh ng ph n m m ra đ i nh m t th nghi m c a s tìm tòi hay ý t ng kinh doanh. Đãữ ầ ề ờ ư ộ ử ệ ủ ự ưở
có nh ng thành công nh t đ nh, nh ng th tr ng cũng không ph i là s đ c quy n c a chữ ấ ị ư ị ườ ả ự ộ ề ủ ỉ
m t s n ph m ph n m m. S n y sinh nhi u ph n m m khác n a v i nh ng ch c năngộ ả ẩ ầ ề ẽ ả ề ầ ề ữ ớ ữ ứ
t ng t .ươ ự
Ý t ng ban đ u cho ng d ng khai thác và t ng h p n i dung. Gi i pháp đ a ra ch y u t pưở ầ ứ ụ ổ ợ ộ ả ư ủ ế ậ
trung xây d ng ph n back-end (ch ng trình ph tr ) ho c dành cho ng i dùng đ u cu i, làự ầ ươ ụ ợ ặ ườ ầ ố
m t ng d ng d ng Desktop. Gi i pháp có nhi m v khai thác và t ng h p tr c ti p r i l uộ ứ ụ ạ ả ệ ụ ổ ợ ự ế ồ ư
tr vào c s d li u. Nh ng thành ph m s là đ u vào cho nh ng h th ng đ c xây d ngữ ơ ở ữ ệ ữ ẩ ẽ ầ ữ ệ ố ượ ự
v i m c đích khác nhau nh ng cùng có chung yêu c u là c n n i dung phát hành trên Internet.ớ ụ ư ầ ầ ộ