DANH MỤC TÀI LIỆU
Viễn cảnh về khai thác thông tin và lập trình cỏng thông tin qua tài liệu kỹ thuật VietSpider
Ph n A – Tài li u k thu t VietSpider ệ ỹ
Ph n A – Tài li u k thu t VietSpider. ệ ỹ
I - Vi n c nh v khai thác thông tin.ễ ả
1. Đi m l c m t vài mô hình khai thác và t ng h p n i dungể ượ
II - Gi i thi u v ph n m m. ệ ề
1. Yêu c u bài toán v khai thác và t ng h p n i dung. ợ ộ
2. Gi i thi u v ph n m m. ệ ề
3. M t s thông tin c b n. ơ ả
4. M t s yêu c u c b n khi ch y ph m. ơ ả
III - S l c v c s k thu t trong ch ng trình.|outlineơ ượ ề ơ ở ỹ ươ
1. Kh o sát đ nh d ng phát hành n i dung. ị ạ
2. S l c v mô hình bóc tách d li u.ơ ượ
3. K thu t v t ng h p n i dung. ề ổ
IV - Nh ng thành ph n c b n c a ch ng trình. ầ ơ ả ủ ươ
1. B HTMLParser và công c HTML Explorer.ộ ụ
2. Công c c u hình m t kênh khai thác thông tin.ụ ấ
3. Công c bóc tách và t ng h p n i dung. ợ ộ
4. Gi i pháp phát hành nhanh n i dung.ả ộ
V - Mô t c s d li u cho ch ng trình.ả ơ ở ữ ệ ươ
1. B ng Domain.
2. B ng Meta.
3. B ng Content.
4. B ng Relation.
5. B ng Image.
6. B ng Filter.
VI - Ý nghĩa th m c d li u.ư ữ ệ
1. Làm s ch d li u sau bóc tách. ữ ệ
2. C u hình m t s thông s cho ch ng trình. ộ ố ươ
VII - Tài li u và đ a ch tham kh o. ị ỉ
Ph n A – Tài li u k thu t VietSpider ệ ỹ
I. Vi n c nh v khai thác thông tin.ễ ả
S phát tri n c a m nh m c a Internet kéo theo hàng lo t nh ng hình truy n ẽ ủ
thông m ng nh báo đi n t , blog, forum, trang thông tin nhân, t ch c, c quan, công ư ệ ử ơ
ty,...Ti p c n ngu n thông tin phong phú đó làm n y sinh m t nhu c u: khai thác t ngế ậ
h p hi u qu các n i dung t Internet.ợ ệ
1. Đi m l c m t vài mô hình khai thác và t ng h p n i dung.ể ượ
Thông tin cũng m t tài nguyên c n khai thác Internet gi ng nh m t m thông ư ộ
tin kh ng l đ c c p nh t t ng gi t ng phút. Khai thác thông tin m t c m t xu t ượ ờ ừ
hi n tr c đó r t lâu so v i th i đi m ra đ i c a Internet. Hi n nay, s khai thác thông tin ướ ờ ủ
t Internet đã là m t nhu c u c a m i cá nhân. Không quá xa v i, nh ng phóng viên báo chí ầ ủ
h ng ngày v n tìm ki m t li u, tham kh o các bài vi t ho c th m chí đăng l i n i dung t ế ư ệ ế
m t ngu n c th nh website báo đi n t , blog, di n đàn... B ng cách này hay cách khác, ụ ể ư ệ ử
h h ng ngày v n đang khai thác thông tin cho công vi c nhu c u hi u bi t c a h . Doọ ằ ế
đó, m t công c tr giúp vi c c p nh t, khai thác và qu n lý thông tin hi u qu là c n thi t. ụ ợ ế
nhi u hình thái v khai thác t ng h p n i dung đã đ c nghiên c u phát tri n. ợ ộ ượ
Chúng ta có m t lo t khái ni m nh Robot, Search, Web Crawler, Data Wrapper, Web Spider,ộ ạ ư
Web Clipping, Semantic Web,... đ t v nh ng hình thái khai thác n i dung thông tin ả ề
trên Internet. Xin l y hình tìm ki m m t d : N i dung sau khi khai thác th ế ụ ộ
đ c l u tr trong các h th ng database phát hành l i t i ng i dùng tr c ti p thôngượ ư ạ ớ ườ ế
qua h th ng tích h p, tìm ki m, l c, chia s đ t t ,...hay s d ng cho m t m c đích ế ẻ ặ ử ụ
chuyên bi t đó. Google minh ch ng c th cho gi i pháp đó, các Website t n t i trên ụ ể ồ ạ
Internet s đ c Google Crawler ghé thăm thu th p l i toàn b , sau đó n i dung đ cẽ ượ ượ
l u tr trong c s d li u, đ c đánh ch m c,... đ c tìm ki m m i khi yêu c u tư ữ ơ ượ ượ ế
phía ng i dùng. M t s n ph n khác GoogleNews l i nhi m v t ng h p t t c cácườ ụ ổ
tin t c di n ra hàng ngày trên Internet. Vi t nam, ta th tìm ki m nh ng hình Ở ệ ế
t ng t nh Baomoi.com hay Thegioitin.com. Ngoài ra, chúng ta còn nh ng chu n vươ ự ư ẩ ề
chia s đ c t n i dung nh RSS, RDF, Atom,... chúng k t n i thông tin gi a nh ng websiteẻ ặ ả ộ ư ế
cũng cho phép ng i dùng t ng h p các đ c t b ng nh ng công c chuyên bi t nhườ ả ằ ư
RSS Reader. Nh v y, th c t cho ta th y, đãr t nhi u nh nghình khai tháct ngư ậ ế
h p n i dung.ợ ộ
II. Gi i thi u v ph n m m.ớ ệ ầ ề
1. Yêu c u bài toán v khai thác và t ng h p n i dung. ợ ộ
S phát tri n c a thông tin ti ng Vi t trên m ng Internet nhu c u khai thác t ng ể ủ ế
h p nh ng n i dung đó. Nh đã nói ph n I, không có gì m i l v m t ý t ng và cũng đã ư ạ ề ưở
nh ng ph n m m ra đ i nh m t th nghi m c a s tìm tòi hay ý t ng kinh doanh. Đã ư ộ ưở
nh ng thành công nh t đ nh, nh ng th tr ng cũng không ph i s đ c quy n c a ch ư ườ ự ộ
m t s n ph m ph n m m. S n y sinh nhi u ph n m m khác n a v i nh ng ch c năng ẽ ả
t ng t .ươ ự
Ý t ng ban đ u cho ng d ng khai thác t ng h p n i dung. Gi i pháp đ a ra ch y u t pưở ư ủ ế
trung xây d ng ph n back-end (ch ng trình ph tr ) ho c dành cho ng i dùng đ u cu i, ươ ụ ợ ườ
m t ng d ng d ng Desktop. Gi i pháp nhi m v khai thác t ng h p tr c ti p r i l u ứ ụ ạ ổ ợ ế ư
tr vào c s d li u. Nh ng thành ph m s đ u vào cho nh ng h th ng đ c xây d ng ơ ở ượ
v i m c đích khác nhau nh ng cùng có chung yêu c u là c n n i dung phát hành trên Internet. ư ầ ộ
Ph n A – Tài li u k thu t VietSpider ệ ỹ
Công c xây d ng cũng ph i đ m b o ch c năng c u hình m t kênh khai thác m i v i s ớ ự
đ n gi n, thu n ti n nhanh chóng. H th ng t ng h p kh năng ki m soát đ cơ ệ ố ượ
nh ng n i dung liên quan cùng nh ng n i dung đ c đăng t i l i giúp cho s theo dõi ượ ả ạ
h th ng các s ki n x y ra hàng ngày.ệ ố ự ệ
2. Gi i thi u v ph n m m. ệ ề
Cũng gi ng nh Google News, h th ng khai thác và t ng h p n i dung có nhi m v ư ệ ố
khai thác, t ng h p, l u tr r i phát hành l i t i ng i dùng. Crawler nh n c u hình đ u vào ư ữ ồ ườ
c a m t website (tin t c, blog, ...) ti n hành bóc tách, t ng h p ch đ liên quan, l u tr ế ủ ề ư
trong database và phát hành l i t i ng i đ u cu i.ạ ớ ư
Gi i pháp đ xu t không d a trên hình trích xu t d li u gi ng nh các chu n RSS, ữ ệ ư
ATOM... hay các hình khác d a trên n n XML đ c dùng v i m c đích chia s đ c t ượ ẻ ặ
d li u c a n i dung (còn g i meta data - cung c p các thông tin c b n bao g m : tên tin ơ ả
bài, ngày phát hành, s l c n i dung, ng i vi t,...). N i dung đ c bóc tách toàn v n,ơ ượ ườ ế ượ
s ch s đ c t ng h p t nhi u ngu n khác nhau giúp ng i đ c th theo dõi, ki m ượ ổ ườ
soát, tìm ki m, biên so n, l u tr m t cách hi u qu . VietSpider m t ph n m m bóc táchế ư ữ ộ
đúng nghĩa, chúng truy xu t tr c ti p vào n i dung toàn di n r i ti n hành bóc tách. Sau đó ế ệ ồ ế
nh ng đ c t d li u (meta data) đ c xây d ng t đ ng trên n n n i dung đã bóc tách. Sau ả ữ ượ ự ộ
quy trình khai thác, n i dung s tr thành đ c l p v i website ngu n, đ c l u tr tái s ộ ậ ượ ư
d ng cho nh ng m c đích khác nhau. D i đây là mô hình làm vi c c a ng d ng. ướ ủ ứ
Ph n A – Tài li u k thu t VietSpider ệ ỹ
3. M t s thông tin c b n. ơ ả
VietSpider đ c phát tri n trên n n t ng Java. S n ph m ngu n m s d ng :ượ ở ử
Apache HTTPClient-3.x.và các th vi n đi kèm, SWT + JFace 3.x, Apache Lucene 2.x,ư ệ
JChardet Mozilla detect encoding m t s module nh khác... H tr các c s d li u ơ ở
thông d ng bao g m MS SQL Server, MySQL, Oracle, Postgre, Apache Derby. ng d ng Ứ ụ
máy ch đ c phát tri n và tích tr c ti p trên VietSpider.ủ ượ ế
4. M t s yêu c u c b n khi ch y ph m. ơ ả
Yêu c u ph n c ng: ầ ứ
- Chip Pentium III ho c cao h nặ ơ
- c ng tr ng 500 Mb tr lên.Ổ ứ
- Ram 256 Mb tr lên .
- Môi tr ng m ng .ườ ạ
- H qu n tr c s d li u (m c đ nh ch ng trình đã cài s n Apache Derby d ng ơ ở ữ ươ ở ạ
tích h p).
- IE 5.0 tr lên.
- JRE 1.6 tr lên.
III.S l c v c s k thu t trong ch ng trình.ơ ượ ơ ở ỹ ươ
1. Kh o sát đ nh d ng phát hành n i dung. ị ạ
Internet ra đ i v i m c đích chia s thông tin ờ ớ World Wide Web (vi t t t ế ắ Web ) b
sung cách th c đ a n i dung lên Internet. Tài li u trên World Wide Web nh ng văn b nứ ư ộ
đ c l u tr trong các máy tính k t n i v i Internet. Đ xem các tài li u này, ng i dùngượ ư ế ườ
dùng m t trình duy t Web ( Web Browser) m hi n th chúng. HTML (vi t t t ế HyperText
Markup Language ) t m d ch “Ngôn ng đánh d u siêu văn b n” m t đ nh d ng thông ộ ị
d ng cho tài li u Web đ nh nghĩa cách th c trình bày, hi n th n i dung nh th nào phía ị ộ ư ế
trình duy t. HTML hi n t i đã tr thành m t chu n internet do t ch c World Wide Web
Consortium (W3C) duy trì.
M i yêu c u đ c g i t trình duy t t i máy ch s th tr v m t tài li u đ c đ nh ượ ủ ẽ ượ
d ng b ng HTML, chúng t p h p d li u dùng các th đ c đ nh nghĩa tr c đó đ quy ẻ ượ ướ
c n i dung s đ c bày b , hi n th nh th nào phía máy khách. Khi tài li u này đ cướ ẽ ượ ư ế ượ
trình duy t nh n l i t server, chúng s chuy n sang m t hình d li u d s d ng h n ễ ử ơ
g i HTML DOM. DOM vi t t t c a ế Document Object Model t m d ch “Mô hình đ iạ ị
t ng tài li u“ ượ giao di n l p trình ng d ng ệ ậ (API). Thông th ng DOM có c u trúc d ngườ ấ ạ
cây, r t d dàng đ truy xu t các thành ph n trong cây d li u đó, DOM th dùng đ ữ ệ
phân tích HTML, XML hay các đ nh d ng tài li u khác. Sau khi chuy n đ i tài li u HTML ể ổ
sang DOM, trình duy t dùng nó đ hi n th giao di n đ h a t i ng i dùng. ồ ọ ườ
2. S l c v mô hình bóc tách d li u.ơ ượ
Tài li u HTML sau khi đ c chuy n đ i sang cây DOM (Tree DOM) s d dàng truy ượ ẽ ễ
xu t nh ng thành ph n n i dung c n quan tâm thông qua vi c truy xu t các nhánh c a cây. ầ ộ
Nhi u hình bóc tách đ c đ xu t d a trên Tree DOM này, ch ng h n d a kích th c ượ ấ ự ướ
c a các nhánh con (đ l n v m t n i dung ch a trong chúng), ho c d a vào các thu c tính nh ộ ớ ư
Ph n A – Tài li u k thu t VietSpider ệ ỹ
màu s c, font, ... đ nh d ng cho đo n văn b n ch a trong nhánh đó (Tree Item). M t gi i ộ ả
pháp an toàn h n cho vi c nh n bi t các nhánh ch a n i dung ta đáng quan tâm đó ơ ế ứ ộ
d a vào tên nhánh ch s nhánh đ truy h i đ n đúng nhánh con cu i cùng ch a n i ỉ ố ế
dung.
Nh chúng ta đã bi t, h u h t các website hi n nay đ web t ng tác đ ng, m i lo i dư ế ế ươ ạ ữ
li u s đ c đ a vào cùng m t đ nh d ng trang gi ng nhau. Ch ng h n, n i dung c a m i ẽ ượ ư
bài báo s t ng ng v i m t đ nh d ng HTML t ng đ ng v m t c u trúc. S sai l ch ươ ứ ớ ị ạ ươ ồ
di n ra không đáng k biên đ nh , ch c n quan sát k ta s nh n ra đi u này. Hình ỉ ầ
d i đây là m t minh d :ướ ộ ụ
B c c giao di n c a Website th hi n ý đ thi t k c a nhà thi t k ho c nhà phát tri n ể ệ ế ế ế ế
Website đó. Nh ng khoanh vi n màu đ ch ra nh ng phân vùng khác nhau trong m t tin ỏ ỉ
đ c phát hành trên trang Tu i tr online. Nhìn vào hình, ta th y Website m t đ i t ngượ ố ượ
“ki n trúc” thi t k theo m t khuôn m u nh t đ nh đ c c đ nh chung cho m i trangế ế ế ượ ố ị
trong Website. N i dung s đ c đ t vùng trung tâm và nh ng vùng khác s gi nguyên v ượ ặ ở
trí t ng đ i c a chúng cho “ch t l ng” c a n i dung th thay đ i. S n đ nhươ ượ ự ổ
mô hình dàn trang này là căn c ti n hành nh ng k thu t bóc tách an toàn và hi u qu . Hìnhứ ế
nh d i đây s cho chúng ta th y vi c truy xu t vào n i dung này thông qua Tree DOM ướ ấ ệ
c u trúc c a Website đ c th hi n qua d ng cây v i các th . ượ ể ệ
Ph n A – Tài li u k thu t VietSpider ệ ỹ
Hình trên minh h a cho ta th y m t t p tin HTML đ c truy xu t theo d ng cây v i các ộ ậ ượ
nhánh các th HTML làm nhi m v đánh d u đ nh d ng tài li u. Đ truy xu t n i dung ấ ộ
m t bài báo ta có đ c đ ng d n sau: ượ ườ
BODY[0].TABLE[2].TBODY[0].TR[1].TD[2].TABLE[0].TBODY[0].TR[1].TD[0].DIV[0].
N i dung bài báo s s ch, lo i b t t c các thành ph n khác đ c b trí trên trang. Do đó, ỏ ấ ượ
n u truy xu t theo đ ng d n trên cây HTML, chúng ta s bóc tách đ c n i dung c n ế ườ ượ ộ
thi t. Sau khi kh o sát k l ng, đ ng d n trên là n đ nh và chính xác v i b t c n i ế ỹ ưỡ ườ
dung nào phát hành trên trang Tu i tr Online, do đó, chúng là căn c quan tr ng cho vi c ổ ẻ
bóc tách n i dung. Hi n nay, h u h t các website trên m ng đ u là website t ng tác đ ng, ầ ế ươ
nghĩa là chúng có nh ng m u thi t k (template) c th trong đ nh d ng chi ti t n i dung. ế ế ế ộ
Khi áp d ng k thu t trên, chúng ta có th tìm ra quy lu t dàn trang r i t đó th c hi n vi c ồ ừ
bóc tách hàng lo t các bài vi t. Đây là k thu t đ c ng d ng trong ph n m m VietSpider. ế ượ ứ
3. K thu t v t ng h p n i dung. ề ổ
N i dung là m t d ng d li u, nó cho phép chúng ta xây d ng nh ng đ c t v ả ề
d ng d li u này. Bó g n trong lĩnh v c tin t c, b n thân m i tin t c đ u có nh ng thông ữ ệ
tin c b n mô t v nó nh : đ u đ , ng i vi t, ngày gi phát hành, tóm t t,... Nh ng ơ ả ả ề ư ườ ế
thông tin đó s đ c h th ng t ng h p t đ ng và l u vào c s d li u. K thu t c b nẽ ượ ự ộ ư ơ ở ữ ơ ả
v trích rút n i dung s đ m nh n vi c sinh ra meta data (t m d ch là d li u đ c t ). ậ ệ ạ ị
Trong ph n này, xin đ c trình bày s l c k thu t cao c p là kh năng tìm ki m nh ng ượ ơ ượ ế
n i dung có liên quan v i nhau. K thu t này t m quy k t là m t d ng c a data mining: ế ộ ạ
Relation Learning.
thông tin tài liệu
Thông tin cũng là một tài nguyên cần khai thác và Internet giống như một mỏ thông tin khổng lồ được cập nhật từng giờ từng phút. Khai thác thông tin là một cụm từ xuất hiện trước đó rất lâu so với thời điểm ra đời của Internet. Hiện nay, sự khai thác thông tin từ Internet đã là một nhu cầu của mỗi cá nhân. Không quá xa vời, những phóng viên báo chí hằng ngày vẫn tìm kiếm tư liệu, tham khảo các bài viết hoặc thậm chí đăng lại nội dung từ một nguồn cụ thể như website báo điện tử, blog, diễn đàn... Bằng cách này hay cách khác, họ hằng ngày vẫn đang khai thác thông tin cho công việc và nhu cầu hiểu biết của họ. Do đó, một công cụ trợ giúp việc cập nhật, khai thác và quản lý thông tin hiệu quả là cần thiết.
Mở rộng để xem thêm
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×