Viễn cảnh về khai thác thông tin và lập trình cỏng thông tin qua tài liệu kỹ thuật VietSpider - Tailieu123.org

Luận văn - báo cáo

Thạc sĩ cao học

Kinh tế quản lý

Khoa học tự nhiên

Kinh tế - Thương mại

Lý luận chính trị

Kỹ thuật

Báo cáo, luận văn khác

Kỹ năng mềm

Mẫu slide

Mẫu slide cho thuyết trình

Mẫu slide cho giáo án điện tử

Mẫu slide khác

Mẫu slide - Template

Kinh doanh - tiếp thị

Marketing, bán hàng

PR truyền thông

Kế hoạch kinh doanh

Tài liệu kinh doanh, tiếp thị khác

Thương mại điện tử

Kinh tế - Quản lý

Bài giảng, giáo trình

Tài liệu kinh tế khác

Tài chính - Ngân hàng

Tài chính doanh nghiệp

Kế toán, kiểm toán

Ngân hàng - tín dụng

Tài liệu tài chính - ngân hàng khác

Biểu mẫu - Văn bản

Mẫu hợp đồng

Mẫu đơn từ

Biểu mẫu, văn bản khác

Thủ tục hành chính

Giáo dục đào tạo

Tài liệu, đề thi môn Toán

Tài liệu, đề thi môn Ngữ Văn

Tài liệu, đề thi THPT các trường

Tài liệu, đề thi Vật Lý

Tài liệu, đề thi Sinh Học

Tài liệu, đề thi Hóa Học

Tài liệu, đề thi Lịch Sử

Tài liệu, đề thi học sinh giỏi

Tài liệu, đề thi khác

Giải bài tập các môn

Giáo án bài giảng

Giáo án, bài giảng lớp 6

Giáo án, bài giảng lớp 7

Giáo án, bài giảng lớp 8

Giáo án, bài giảng lớp 9

Giáo án, bài giảng lớp 10

Giáo án, bài giảng lớp 11

Giáo án, bài giảng lớp 12

Giáo án, bài giảng tiểu học

Giáo án, bài giảng khác

Công nghệ thông tin

Văn bản pháp luật

Thuế - Lệ phí - Kinh phí

Văn bản pháp luật khác

Học tiếng Anh

Tài liệu học tiếng Anh khác

Y học- sức khỏe

Tài liệu y học - sức khỏe khác

Các bài văn khấn nôm

Lĩnh vực khác

Kinh doanh - tiếp thị

Kinh tế - Quản lý

Tài chính - Ngân hàng

Viễn cảnh về khai thác thông tin và lập trình cỏng thông tin qua tài liệu kỹ thuật VietSpider

1264

307

Định dạng

Báo cáo tài liệu vi phạm

Ph n A – Tài li u k thu t VietSpiderầ ệ ỹ ậ

Ph n A – Tài li u k thu t VietSpider.ầ ệ ỹ ậ

I - Vi n c nh v khai thác thông tin.ễ ả ề

1. Đi m l c m t vài mô hình khai thác và t ng h p n i dungể ượ ộ ổ ợ ộ

II - Gi i thi u v ph n m m.ớ ệ ề ầ ề

1. Yêu c u bài toán v khai thác và t ng h p n i dung.ầ ề ổ ợ ộ

2. Gi i thi u v ph n m m.ớ ệ ề ầ ề

3. M t s thông tin c b n.ộ ố ơ ả

4. M t s yêu c u c b n khi ch y ph m.ộ ố ầ ơ ả ạ ẩ

III - S l c v c s k thu t trong ch ng trình.|outlineơ ượ ề ơ ở ỹ ậ ươ

1. Kh o sát đ nh d ng phát hành n i dung.ả ị ạ ộ

2. S l c v mô hình bóc tách d li u.ơ ượ ề ữ ệ

3. K thu t v t ng h p n i dung.ỹ ậ ề ổ ợ ộ

IV - Nh ng thành ph n c b n c a ch ng trình.ữ ầ ơ ả ủ ươ

1. B HTMLParser và công c HTML Explorer.ộ ụ

2. Công c c u hình m t kênh khai thác thông tin.ụ ấ ộ

3. Công c bóc tách và t ng h p n i dung.ụ ổ ợ ộ

4. Gi i pháp phát hành nhanh n i dung.ả ộ

V - Mô t c s d li u cho ch ng trình.ả ơ ở ữ ệ ươ

1. B ng Domain.ả

2. B ng Meta.ả

3. B ng Content.ả

4. B ng Relation.ả

5. B ng Image.ả

6. B ng Filter.ả

VI - Ý nghĩa th m c d li u.ư ụ ữ ệ

1. Làm s ch d li u sau bóc tách.ạ ữ ệ

2. C u hình m t s thông s cho ch ng trình.ấ ộ ố ố ươ

VII - Tài li u và đ a ch tham kh o.ệ ị ỉ ả

Ph n A – Tài li u k thu t VietSpiderầ ệ ỹ ậ

I. Vi n c nh v khai thác thông tin.ễ ả ề

S phát tri n c a m nh m c a Internet kéo theo hàng lo t nh ng mô hình truy nự ể ủ ạ ẽ ủ ạ ữ ề

thông m ng nh báo đi n t , blog, forum, trang thông tin cá nhân, t ch c, c quan, côngạ ư ệ ử ổ ứ ơ

ty,...Ti p c n ngu n thông tin phong phú đó làm n y sinh m t nhu c u: khai thác và t ngế ậ ồ ả ộ ầ ổ

h p hi u qu các n i dung t Internet.ợ ệ ả ộ ừ

1. Đi m l c m t vài mô hình khai thác và t ng h p n i dung.ể ượ ộ ổ ợ ộ

Thông tin cũng là m t tài nguyên c n khai thác và Internet gi ng nh m t m thôngộ ầ ố ư ộ ỏ

tin kh ng l đ c c p nh t t ng gi t ng phút. Khai thác thông tin là m t c m t xu tổ ồ ượ ậ ậ ừ ờ ừ ộ ụ ừ ấ

hi n tr c đó r t lâu so v i th i đi m ra đ i c a Internet. Hi n nay, s khai thác thông tinệ ướ ấ ớ ờ ể ờ ủ ệ ự

t Internet đã là m t nhu c u c a m i cá nhân. Không quá xa v i, nh ng phóng viên báo chíừ ộ ầ ủ ỗ ờ ữ

h ng ngày v n tìm ki m t li u, tham kh o các bài vi t ho c th m chí đăng l i n i dung tằ ẫ ế ư ệ ả ế ặ ậ ạ ộ ừ

m t ngu n c th nh website báo đi n t , blog, di n đàn... B ng cách này hay cách khác,ộ ồ ụ ể ư ệ ử ễ ằ

h h ng ngày v n đang khai thác thông tin cho công vi c và nhu c u hi u bi t c a h . Doọ ằ ẫ ệ ầ ể ế ủ ọ

đó, m t công c tr giúp vi c c p nh t, khai thác và qu n lý thông tin hi u qu là c n thi t.ộ ụ ợ ệ ậ ậ ả ệ ả ầ ế

Có nhi u hình thái v khai thác và t ng h p n i dung đã đ c nghiên c u và phát tri n.ề ề ổ ợ ộ ượ ứ ể

Chúng ta có m t lo t khái ni m nh Robot, Search, Web Crawler, Data Wrapper, Web Spider,ộ ạ ệ ư

Web Clipping, Semantic Web,... đ mô t v nh ng hình thái khai thác n i dung thông tinể ả ề ữ ộ

trên Internet. Xin l y mô hình tìm ki m là m t ví d : N i dung sau khi khai thác có thấ ế ộ ụ ộ ể

đ c l u tr trong các h th ng database và phát hành l i t i ng i dùng tr c ti p thôngượ ư ữ ệ ố ạ ớ ườ ự ế

qua h th ng tích h p, tìm ki m, l c, chia s đ t t ,...hay s d ng cho m t m c đíchệ ố ợ ế ọ ẻ ặ ả ử ụ ộ ụ

chuyên bi t đó. Google là minh ch ng c th cho gi i pháp đó, các Website t n t i trênệ ứ ụ ể ả ồ ạ

Internet s đ c Google Crawler ghé thăm và thu th p l i toàn b , sau đó n i dung đ cẽ ượ ậ ạ ộ ộ ượ

l u tr trong c s d li u, đ c đánh ch m c,... và đ c tìm ki m m i khi có yêu c u tư ữ ơ ở ữ ệ ượ ỉ ụ ượ ế ỗ ầ ừ

phía ng i dùng. M t s n ph n khác là GoogleNews l i có nhi m v t ng h p t t c cácườ ộ ả ẩ ạ ệ ụ ổ ợ ấ ả

tin t c di n ra hàng ngày trên Internet. Vi t nam, ta có th tìm ki m nh ng mô hìnhứ ễ Ở ệ ể ế ữ

t ng t nh Baomoi.com hay Thegioitin.com. Ngoài ra, chúng ta còn có nh ng chu n vươ ự ư ữ ẩ ề

chia s đ c t n i dung nh RSS, RDF, Atom,... chúng k t n i thông tin gi a nh ng websiteẻ ặ ả ộ ư ế ố ữ ữ

và cũng cho phép ng i dùng t ng h p các đ c t b ng nh ng công c chuyên bi t nhườ ổ ợ ặ ả ằ ữ ụ ệ ư

RSS Reader. Nh v y, th c t cho ta th y, đã có r t nhi u nh ng mô hình khai thác và t ngư ậ ự ế ấ ấ ề ữ ổ

h p n i dung.ợ ộ

II. Gi i thi u v ph n m m.ớ ệ ề ầ ề

1. Yêu c u bài toán v khai thác và t ng h p n i dung.ầ ề ổ ợ ộ

S phát tri n c a thông tin ti ng Vi t trên m ng Internet và nhu c u khai thác t ngự ể ủ ế ệ ạ ầ ổ

h p nh ng n i dung đó. Nh đã nói ph n I, không có gì m i l v m t ý t ng và cũng đãợ ữ ộ ư ở ầ ớ ạ ề ặ ưở

có nh ng ph n m m ra đ i nh m t th nghi m c a s tìm tòi hay ý t ng kinh doanh. Đãữ ầ ề ờ ư ộ ử ệ ủ ự ưở

có nh ng thành công nh t đ nh, nh ng th tr ng cũng không ph i là s đ c quy n c a chữ ấ ị ư ị ườ ả ự ộ ề ủ ỉ

m t s n ph m ph n m m. S n y sinh nhi u ph n m m khác n a v i nh ng ch c năngộ ả ẩ ầ ề ẽ ả ề ầ ề ữ ớ ữ ứ

t ng t .ươ ự

Ý t ng ban đ u cho ng d ng khai thác và t ng h p n i dung. Gi i pháp đ a ra ch y u t pưở ầ ứ ụ ổ ợ ộ ả ư ủ ế ậ

trung xây d ng ph n back-end (ch ng trình ph tr ) ho c dành cho ng i dùng đ u cu i, làự ầ ươ ụ ợ ặ ườ ầ ố

m t ng d ng d ng Desktop. Gi i pháp có nhi m v khai thác và t ng h p tr c ti p r i l uộ ứ ụ ạ ả ệ ụ ổ ợ ự ế ồ ư

tr vào c s d li u. Nh ng thành ph m s là đ u vào cho nh ng h th ng đ c xây d ngữ ơ ở ữ ệ ữ ẩ ẽ ầ ữ ệ ố ượ ự

v i m c đích khác nhau nh ng cùng có chung yêu c u là c n n i dung phát hành trên Internet.ớ ụ ư ầ ầ ộ

Ph n A – Tài li u k thu t VietSpiderầ ệ ỹ ậ

Công c xây d ng cũng ph i đ m b o ch c năng c u hình m t kênh khai thác m i v i sụ ự ả ả ả ứ ấ ộ ớ ớ ự

đ n gi n, thu n ti n và nhanh chóng. H th ng t ng h p có kh năng ki m soát đ cơ ả ậ ệ ệ ố ổ ợ ả ể ượ

nh ng n i dung liên quan cùng nh ng n i dung đ c đăng t i l i giúp cho s theo dõi cóữ ộ ữ ộ ượ ả ạ ự

h th ng các s ki n x y ra hàng ngày.ệ ố ự ệ ả

2. Gi i thi u v ph n m m.ớ ệ ề ầ ề

Cũng gi ng nh Google News, h th ng khai thác và t ng h p n i dung có nhi m vố ư ệ ố ổ ợ ộ ệ ụ

khai thác, t ng h p, l u tr r i phát hành l i t i ng i dùng. Crawler nh n c u hình đ u vàoổ ợ ư ữ ồ ạ ớ ườ ậ ấ ầ

c a m t website (tin t c, blog, ...) ti n hành bóc tách, t ng h p ch đ liên quan, l u trủ ộ ứ ế ổ ợ ủ ề ư ữ

trong database và phát hành l i t i ng i đ u cu i.ạ ớ ườ ầ ố

Gi i pháp đ xu t không d a trên mô hình trích xu t d li u gi ng nh các chu n RSS,ả ề ấ ự ấ ữ ệ ố ư ẩ

ATOM... hay các mô hình khác d a trên n n XML đ c dùng v i m c đích chia s đ c tự ề ượ ớ ụ ẻ ặ ả

d li u c a n i dung (còn g i là meta data - cung c p các thông tin c b n bao g m : tên tinữ ệ ủ ộ ọ ấ ơ ả ồ

bài, ngày phát hành, s l c n i dung, ng i vi t,...). N i dung đ c bóc tách toàn v n,ơ ượ ộ ườ ế ộ ượ ẹ

s ch s và đ c t ng h p t nhi u ngu n khác nhau giúp ng i đ c có th theo dõi, ki mạ ẽ ượ ổ ợ ừ ề ồ ườ ọ ể ể

soát, tìm ki m, biên so n, l u tr m t cách hi u qu . VietSpider là m t ph n m m bóc táchế ạ ư ữ ộ ệ ả ộ ầ ề

đúng nghĩa, chúng truy xu t tr c ti p vào n i dung toàn di n r i ti n hành bóc tách. Sau đóấ ự ế ộ ệ ồ ế

nh ng đ c t d li u (meta data) đ c xây d ng t đ ng trên n n n i dung đã bóc tách. Sauữ ặ ả ữ ệ ượ ự ự ộ ề ộ

quy trình khai thác, n i dung s tr thành đ c l p v i website ngu n, đ c l u tr và tái sộ ẽ ở ộ ậ ớ ồ ượ ư ữ ử

d ng cho nh ng m c đích khác nhau. D i đây là mô hình làm vi c c a ng d ng.ụ ữ ụ ướ ệ ủ ứ ụ

Ph n A – Tài li u k thu t VietSpiderầ ệ ỹ ậ

3. M t s thông tin c b n.ộ ố ơ ả

VietSpider đ c phát tri n trên n n t ng Java. S n ph m ngu n m s d ng :ượ ể ề ả ả ẩ ồ ở ử ụ

Apache HTTPClient-3.x.và các th vi n đi kèm, SWT + JFace 3.x, Apache Lucene 2.x,ư ệ

JChardet Mozilla detect encoding và m t s module nh khác... H tr các c s d li uộ ố ỏ ỗ ợ ơ ở ữ ệ

thông d ng bao g m MS SQL Server, MySQL, Oracle, Postgre, Apache Derby. ng d ngụ ồ Ứ ụ

máy ch đ c phát tri n và tích tr c ti p trên VietSpider.ủ ượ ể ự ế

4. M t s yêu c u c b n khi ch y ph m.ộ ố ầ ơ ả ạ ẩ

Yêu c u ph n c ng:ầ ầ ứ

- Chip Pentium III ho c cao h nặ ơ

- c ng tr ng 500 Mb tr lên.Ổ ứ ố ở

- Ram 256 Mb tr lên .ở

- Môi tr ng m ng .ườ ạ

- H qu n tr c s d li u (m c đ nh ch ng trình đã cài s n Apache Derby d ng ệ ả ị ơ ở ữ ệ ặ ị ươ ẵ ở ạ

tích h p).ợ

- IE 5.0 tr lên.ở

- JRE 1.6 tr lên.ở

III.S l c v c s k thu t trong ch ng trình.ơ ượ ề ơ ở ỹ ậ ươ

1. Kh o sát đ nh d ng phát hành n i dung.ả ị ạ ộ

Internet ra đ i v i m c đích chia s thông tin và ờ ớ ụ ẻ World Wide Web (vi t t t là ế ắ Web ) bổ

sung cách th c đ a n i dung lên Internet. Tài li u trên World Wide Web là nh ng văn b nứ ư ộ ệ ữ ả

đ c l u tr trong các máy tính k t n i v i Internet. Đ xem các tài li u này, ng i dùngượ ư ữ ế ố ớ ể ệ ườ

dùng m t trình duy t Web (ộ ệ Web Browser) m và hi n th chúng. HTML (vi t t t ở ể ị ế ắ HyperText

Markup Language ) t m d ch là “Ngôn ng đánh d u siêu văn b n” là m t đ nh d ng thôngạ ị ữ ấ ả ộ ị ạ

d ng cho tàiụ li u Web đ nh nghĩa cách th c trình bày, hi n th n i dung nh th nào phíaệ ị ứ ể ị ộ ư ế ở

trình duy t. HTML hi n t i đã tr thành m t chu n internet do t ch c ệ ệ ạ ở ộ ẩ ổ ứ World Wide Web

Consortium (W3C) duy trì.

M i yêu c u đ c g i t trình duy t t i máy ch s có th tr v m t tài li u đ c đ nhỗ ầ ượ ử ừ ệ ớ ủ ẽ ể ả ề ộ ệ ượ ị

d ng b ng HTML, chúng là t p h p d li u dùng các th đ c đ nh nghĩa tr c đó đ quyạ ằ ậ ợ ữ ệ ẻ ượ ị ướ ể

c n i dung s đ c bày b , hi n th nh th nào phía máy khách. Khi tài li u này đ cướ ộ ẽ ượ ố ể ị ư ế ở ệ ượ

trình duy t nh n l i t server, chúng s chuy n sang m t mô hình d li u d s d ng h nệ ậ ạ ừ ẽ ể ộ ữ ệ ễ ử ụ ơ

g i HTML DOM. DOM là vi t t t c a ọ ế ắ ủ Document Object Model t m d ch là “Mô hình đ iạ ị ố

t ng tài li u“ có ượ ệ giao di n l p trình ng d ng ệ ậ ứ ụ (API). Thông th ng DOM có c u trúc d ngườ ấ ạ

cây, r t d dàng đ truy xu t các thành ph n trong cây d li u đó, DOM có th dùng đấ ễ ể ấ ầ ữ ệ ể ể

phân tích HTML, XML hay các đ nh d ng tài li u khác. Sau khi chuy n đ i tài li u HTMLị ạ ệ ể ổ ệ

sang DOM, trình duy t dùng nó đ hi n th giao di n đ h a t i ng i dùng.ệ ể ể ị ệ ồ ọ ớ ườ

2. S l c v mô hình bóc tách d li u.ơ ượ ề ữ ệ

Tài li u HTML sau khi đ c chuy n đ i sang cây DOM (Tree DOM) s d dàng truyệ ượ ể ổ ẽ ễ

xu t nh ng thành ph n n i dung c n quan tâm thông qua vi c truy xu t các nhánh c a cây.ấ ữ ầ ộ ầ ệ ấ ủ

Nhi u mô hình bóc tách đ c đ xu t d a trên Tree DOM này, ch ng h n d a và kích th cề ượ ề ấ ự ẳ ạ ự ướ

c a các nhánh con (đ l n v m t n i dung ch a trong chúng), ho c d a vào các thu c tính nhủ ộ ớ ề ặ ộ ứ ặ ự ộ ư

Ph n A – Tài li u k thu t VietSpiderầ ệ ỹ ậ

màu s c, font, ... đ nh d ng cho đo n văn b n ch a trong nhánh đó (Tree Item). M t gi iắ ị ạ ạ ả ứ ộ ả

pháp an toàn h n cho vi c nh n bi t các nhánh có ch a n i dung mà ta đáng quan tâm đó làơ ệ ậ ế ứ ộ

d a vào tên nhánh và ch s nhánh đ truy h i đ n đúng nhánh con cu i cùng có ch a n iự ỉ ố ể ồ ế ố ứ ộ

dung.

Nh chúng ta đã bi t, h u h t các website hi n nay đ là web t ng tác đ ng, m i lo i dư ế ầ ế ệ ề ươ ộ ỗ ạ ữ

li u s đ c đ a vào cùng m t đ nh d ng trang gi ng nhau. Ch ng h n, n i dung c a m iệ ẽ ượ ư ộ ị ạ ố ẳ ạ ộ ủ ỗ

bài báo s t ng ng v i m t đ nh d ng HTML t ng đ ng v m t c u trúc. S sai l chẽ ươ ứ ớ ộ ị ạ ươ ồ ề ặ ấ ự ệ

di n ra không đáng k và có biên đ nh , ch c n quan sát k ta s nh n ra đi u này. Hìnhễ ể ộ ỏ ỉ ầ ỹ ẽ ậ ề

d i đây là m t minh d :ướ ộ ụ

B c c giao di n c a Website th hi n ý đ thi t k c a nhà thi t k ho c nhà phát tri nố ụ ệ ủ ể ệ ồ ế ế ủ ế ế ặ ể

Website đó. Nh ng khoanh vi n màu đ ch ra nh ng phân vùng khác nhau trong m t tinữ ề ỏ ỉ ữ ộ

đ c phát hành trên trang Tu i tr online. Nhìn vào hình, ta th y Website là m t đ i t ngượ ổ ẻ ấ ộ ố ượ

có “ki n trúc” thi t k theo m t khuôn m u nh t đ nh đ c c đ nh chung cho m i trangế ế ế ộ ẫ ấ ị ượ ố ị ọ

trong Website. N i dung s đ c đ t vùng trung tâm và nh ng vùng khác s gi nguyên vộ ẽ ượ ặ ở ữ ẽ ữ ị

trí t ng đ i c a chúng cho dù “ch t và l ng” c a n i dung có th thay đ i. S n đ nhươ ố ủ ấ ượ ủ ộ ể ổ ự ổ ị

mô hình dàn trang này là căn c ti n hành nh ng k thu t bóc tách an toàn và hi u qu . Hìnhứ ế ữ ỹ ậ ệ ả

nh d i đây s cho chúng ta th y vi c truy xu t vào n i dung này thông qua Tree DOM –ả ướ ẽ ấ ệ ấ ộ

c u trúc c a Website đ c th hi n qua d ng cây v i các th .ấ ủ ượ ể ệ ạ ớ ẻ

Ph n A – Tài li u k thu t VietSpiderầ ệ ỹ ậ

Hình trên minh h a cho ta th y m t t p tin HTML đ c truy xu t theo d ng cây v i cácọ ấ ộ ậ ượ ấ ạ ớ

nhánh là các th HTML làm nhi m v đánh d u đ nh d ng tài li u. Đ truy xu t n i dungẻ ệ ụ ấ ị ạ ệ ể ấ ộ

m t bài báo ta có đ c đ ng d n sau:ộ ượ ườ ẫ

BODY[0].TABLE[2].TBODY[0].TR[1].TD[2].TABLE[0].TBODY[0].TR[1].TD[0].DIV[0].

N i dung bài báo s s ch, lo i b t t c các thành ph n khác đ c b trí trên trang. Do đó, ộ ẽ ạ ạ ỏ ấ ả ầ ượ ố

n u truy xu t theo đ ng d n trên cây HTML, chúng ta s bóc tách đ c n i dung c n ế ấ ườ ẫ ẽ ượ ộ ầ

thi t. Sau khi kh o sát k l ng, đ ng d n trên là n đ nh và chính xác v i b t c n i ế ả ỹ ưỡ ườ ẫ ổ ị ớ ấ ứ ộ

dung nào phát hành trên trang Tu i tr Online, do đó, chúng là căn c quan tr ng cho vi c ổ ẻ ứ ọ ệ

bóc tách n i dung. Hi n nay, h u h t các website trên m ng đ u là website t ng tác đ ng, ộ ệ ầ ế ạ ề ươ ộ

nghĩa là chúng có nh ng m u thi t k (template) c th trong đ nh d ng chi ti t n i dung. ữ ẫ ế ế ụ ể ị ạ ế ộ

Khi áp d ng k thu t trên, chúng ta có th tìm ra quy lu t dàn trang r i t đó th c hi n vi c ụ ỹ ậ ể ậ ồ ừ ự ệ ệ

bóc tách hàng lo t các bài vi t. Đây là k thu t đ c ng d ng trong ph n m m VietSpider.ạ ế ỹ ậ ượ ứ ụ ầ ề

3. K thu t v t ng h p n i dung.ỹ ậ ề ổ ợ ộ

N i dung là m t d ng d li u, nó cho phép chúng ta xây d ng nh ng đ c t v ộ ộ ạ ữ ệ ự ữ ặ ả ề

d ng d li u này. Bó g n trong lĩnh v c tin t c, b n thân m i tin t c đ u có nh ng thông ạ ữ ệ ọ ự ứ ả ỗ ứ ề ữ

tin c b n mô t v nó nh : đ u đ , ng i vi t, ngày gi phát hành, tóm t t,... Nh ng ơ ả ả ề ư ầ ề ườ ế ờ ắ ữ

thông tin đó s đ c h th ng t ng h p t đ ng và l u vào c s d li u. K thu t c b nẽ ượ ệ ố ổ ợ ự ộ ư ơ ở ữ ệ ỹ ậ ơ ả

v trích rút n i dung s đ m nh n vi c sinh ra meta data (t m d ch là d li u đ c t ). ề ộ ẽ ả ậ ệ ạ ị ữ ệ ặ ả

Trong ph n này, xin đ c trình bày s l c k thu t cao c p là kh năng tìm ki m nh ng ầ ượ ơ ượ ỹ ậ ấ ả ế ữ

n i dung có liên quan v i nhau. K thu t này t m quy k t là m t d ng c a data mining: ộ ớ ỹ ậ ạ ế ộ ạ ủ

Relation Learning.

LÝ THUYẾT TOÁN

Kinh doanh - tiếp thị

Quản trị, internet, marketing

Giáo dục đào tạo

Các tài liệu, đề thi liên quan đến các môn học của học sinh và bài giảng của giáo viên

Công nghệ thông tin

Tài liệu lĩnh vực công nghệ thông tin

Học tiếng Anh

Các tài liệu liên quan đến học tiếng Anh