DANH MỤC TÀI LIỆU
Giới thiệu chung về hệ thống thông tin đa phương tiện, hệ thống tìm kiếm thông tin (IR), sự khác nhau giữa hệ thống tìm kiếm thông tin và các hệ thống thông tin khác, các mô hình thường gặp trong hệ thống tìm kiếm thông tin
Lu n văn
Nghiên c u phát tri n h ể ệ
th ng đa ph ng ti n ươ ệ
trên c s phân c m dơ ở
li u
Nghiên c u phát tri n h th ng đa ph ng ti n trên c s phân c m d li u ươ ơ ở
L I C M N Ả Ơ
Tôi xin bày t lòng kính tr ng bi t n sâu s c t i PGS.TS ế ơ Đ ng Văn
Đ c, ng i đã tr c ti p h ng d n, giúp đ , đ ng viên tôi trong su t th i gianườ ế ướ ỡ ộ
th c hi n lu n văn này.ự ệ
Con c m n Cha, M gia đình, nh ng ng i đã d y d , khuy n khích,ả ơ ườ ế
đ ng viên con trong nh ng lúc khó khăn, t o m i đi u ki n cho con nghiên c u ọ ề
h c t p.ọ ậ
Tôi cũng xin chân thành c m n các th y trong Vi n Công ngh Thôngả ơ
tin, các th y trong khoa Công Ngh Thông Tin các b n bè, đ ng nghi p t i ệ ạ
tr ng D b Đ i H c Dân t c Trung ng đã giúp đ tôi r t nhi u trong quáườ ự ị Ươ
trình h c t p, s u t m, tìm tòi tài li u trong công tác đ tôi th hoàn thànhọ ậ ư
b n lu n văn này.ả ậ
Dù đã c g ng h t s c cùng v i s t n tâm c a th y giáo h ng d n song ế ự ậ ướ
do trình đ còn h n ch nên khó tránh kh i nh ng thi u sót. R t mong nh n đ c ế ế ậ ượ
s thông c m và góp ý c a th y cô và các b n. ủ ầ
Thái Nguyên, tháng 11 năm 2008
H c viên
L u Th H i Y nư ị ả ế
H c viên: L u Th H i Y n ư ị ả ế 1
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Nghiên c u phát tri n h th ng đa ph ng ti n trên c s phân c m d li u ươ ơ ở
M C L CỤ Ụ
L I NÓI Đ U .........................................................................................................4
CH NG 1: T NG QUANƯƠ Ổ ...................................................................................7
1.1. Đ T V N ĐẶ Ấ ...............................................................................................7
1.2. H TH NG THÔNG TIN ĐA PH NG TI N: ƯƠ ....................................8
1.2.1. Khái ni m v đa ph ng ti n ươ ................................................................8
1.2.2. Media.......................................................................................................9
1.2.3. Multimedia............................................................................................10
1.2.4. CSDL và H qu n tr CSDLệ ả .................................................................10
1.2.5. Truy tìm thông tin tài li u văn b n ........................................................10
1.2.6. Ch m c và truy tìm đa ph ng ti n ươ ....................................................11
1.2.7. Trích ch n đ c tr ng, Bi u di n n i dung và Xây d ng ch m c ư .......11
1.3. S C N THI T PH I CÓ MIRSỰ Ầ ...........................................................11
1.3.1. Mô t s l c d li u MM và các tính ch t c a chúng ơ ượ .......................12
1.3.2. H th ng IR và vai trò c a chúng trong truy tìm đa ph ng ti n ươ ........13
1.3.3. Tích h p truy tìm và ch s hóa thông tin đa ph ng ti n ươ ....................13
1.4. KHÁI QUÁT V MIRS.............................................................................14
1.5. KH NĂNG MONG Đ I VÀ CÁC NG D NG C A MIRS Ứ Ụ Ủ .............15
CH NG 2: H TÌM KI M THÔNG TINƯƠ Ệ ......................................................18
2.1. KHÁI QUÁT CHUNG V TÌM KI M THÔNG TINỀ Ế ............................18
2.1.1. H th ng truy tìm thông tin – IRệ ố ...........................................................20
2.1.2. Các thành ph n c a m t h tìm ki m thông tin ộ ệ ế ...................................24
2.1.3. So sánh h th ng IR v i các h th ng thông tin khácệ ố ệ ố ..........................25
2.1.4. Các h tìm ki m văn b n đ c đánh giá cao hi n nay ế ả ượ ........................27
2.2. H TÌM KI M THÔNG TINỆ Ế ...................................................................28
2.2.1. Ki n trúc c a h tìm ki m thông tin.ế ủ ệ ế ...................................................28
2.2.2. M t s mô hình đ xây d ng m t h tìm ki m thông tinộ ố ế ....................30
2.2.3. Các b c đ xây d ng h th ng truy tìm thông tin – IRướ ệ ố .....................38
2.3. L P CH M C TÀI LI U .......................................................................39
2.3.1. Khái quát v h th ng l p ch m c ......................................................40
2.3.2. C u trúc t p m c l c ............................................................................41
2.3.3. Ph ng pháp l p ch m cươ .....................................................................45
H c viên: L u Th H i Y n ư ị ả ế 2
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Nghiên c u phát tri n h th ng đa ph ng ti n trên c s phân c m d li u ươ ơ ở
2.3.4. L p ch m c t đ ng cho tài li u ti ng Anh ự ộ ế ........................................47
2.3.5. L p ch m c cho tài li u ti ng Vi t ế .....................................................48
2.4. TH C ĐO HI U NĂNGƯỚ Ệ ........................................................................51
CH NG 3: K THU T PHÂN C M D LI U VÀ NG D NGƯƠ Ữ Ệ .............53
3.1. KHÁI QUÁT V PHÂN C M D LI U ..............................................53
3.1.1. Khái ni m:.............................................................................................53
3.1.2. M c tiêu c a phân c m d li u trong tìm ki m thông tin ữ ệ ế ...................54
3.1.3. Các yêu c u c a phân c m ...................................................................56
3.2. CÁC KI U D LI U TRONG PHÂN C M .........................................58
3.2.1. Phân lo i ki u d li u d a trên kích th c mi n ể ữ ệ ự ướ ................................59
3.2.2. Phân lo i ki u d li u d a trên h đo ể ữ ệ ự ..................................................59
3.3. CÁC PHÉP ĐO Đ T NG T VÀ KHO NG CÁCH Đ I V I CÁCỘ ƯƠ
KI U D LI U ................................................................................................60
3.3.1. Khái ni m t ng t và phi t ng t ươ ự ươ ự....................................................60
3.3.2. Thu c tính kho ng ................................................................................61
3.3.3. Thu c tính nh phân ...............................................................................65
3.3.4. Thu c tính đ nh danhộ ị .............................................................................66
3.3.5. Thu c tính có th t ứ ự.............................................................................67
3.3.6. Thu c tính t l ỉ ệ......................................................................................67
3.4. M T VÀI K THU T TI P C N TRONG PHÂN C M D LI U .68
3.4.1. Ph ng pháp phân c m phân ho chươ .....................................................68
3.4.2. Ph ng pháp phân c m phân c pươ ........................................................74
3.4.3. ng d ng trong tìm ki m văn b n đa ph ng ti n ế ươ .............................78
CH NG 4: CH NG TRÌNH DEMOƯƠ ƯƠ ...........................................................81
4.1. M C TIÊU C A H TH NG TÌM KI M VĂN B N: .......................81
4.2. CH C NĂNG C A H TH NG ............................................................81
4.3. CÀI Đ T CH NG TRÌNHẶ ƯƠ ....................................................................82
4.3.1. L p ch m c ..........................................................................................82
4.3.2. Tìm ki m tài li uế ..................................................................................87
K T LU N VÀ H NG PHÁT TRI N ƯỚ ...........................................................88
TÀI LI U THAM KH O ....................................................................................90
H c viên: L u Th H i Y n ư ị ả ế 3
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Nghiên c u phát tri n h th ng đa ph ng ti n trên c s phân c m d li u ươ ơ ở
M C L C CÁC HÌNH VỤ Ụ
15
Hình 2.1: Mô hình tìm ki m thông tin t ng quátế ....................................................21
Hình 2.2: Ti n trình truy v n tài li u c sế ơ ở...........................................................23
Hình 2.3: Môi tr ng c a h tìm ki m thông tinườ ủ ệ ế ..................................................24
Hình 2.4: T ng quan v ch c năng c a m t h tìm ki m thông tin ộ ệ ế .....................25
B ng 2.1: So sánh IRS v i các h th ng thông tin khác ệ ố ........................................27
Hình 2.5: Ki n trúc h tìm ki m thông tin c b nế ế ơ ................................................29
Hình 2.6. H tìm ki m thông tin tiêu bi u ế .............................................................29
B ng 2.2: Cách t p tin ngh ch đ o l u tr ả ư ............................................................42
B ng 2.3: Cách t p tin tr c ti p l u tr ế ư ................................................................42
B ng 2.4: Thêm m t tài li u m i vào t p tin ngh ch đ o ......................................43
Hình 2.7: Các t đ c s p theo th t ượ ứ ự..................................................................46
Hình 2.8. Mô hình x lý cho h th ng l p ch m c ..............................................48
Hình 3.1: Phân c m các véct truy v n ơ .................................................................55
Hình 3.2: Hình thành c m cha................................................................................56
Hình 3.3: Các t l khác nhau có th d n t i các c m khác nhauỉ ệ ..........................62
Hình 3.4: Kho ng cách Euclidean..........................................................................64
B ng 3.1: B ng tham sả ả .........................................................................................65
Hình 3.5: Các thi t l p đ xác đ nh các ranh gi i các c m ban đ uế .....................70
Hình 3.6: Tính các toán tr ng tâm c a các c m m i .............................................70
Hình 3.7: Ví d v m t s hình d ng c m d li u đ c khám phá b i k-meansụ ề ượ 73
Hình 3.8: Các chi n l c phân c m phân c pế ượ .......................................................75
Hình 3.9: Cây CF đ c s d ng b i thu t toán BIRCHượ ử ụ ........................................76
Hình 4.1: Giao di n màn hình l p ch m c ............................................................85
Hình 4.2: Giao di n màn hình c p nh p ch m c ..................................................86
Hình 4.2: Giao di n màn hình tìm ki m ế .................................................................87
H c viên: L u Th H i Y n ư ị ả ế 4
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
Nghiên c u phát tri n h th ng đa ph ng ti n trên c s phân c m d li u ươ ơ ở
DANH M C CÁC T TI NG ANH VÀ VI T T T Ừ Ế
T g cừ ố Nghĩa
IR (Information Retrieval) Truy tìm thông tin
MIRS (MultiMedia Information
H truy tìm thông tin đa ph ng ti n ươ ệ
Retrieval System)
MM (MultiMedia) Truy n thông da ph ng ti n ươ ệ
Exact match Đ i sánh chính xác
Cluster-based C s c mơ ở
DBMS
H qu n tr c s d li u ơ ở
(DatabaseManagementSystem)
Term T
Doc Tài li u
Docs Nhi u tài li uề ệ
Query Truy v n
DSS (DecisionSupportSystems) H h tr ra quy t đ nhệ ỗ ế
IMS (InfomationManagementSystem) H qu n lý thông tinệ ả
QAS (QuestionAnserSystem) H tr l i câu h i ả ờ
Text-partern M u văn b nẫ ả
Ranking X p lo iế ạ
SC (Similarity Coeficient) Đ t ng quanộ ươ
Index Ch m cỉ ụ
Precision Đ chính xác
Recall Kh năng tìm th yả ấ
H c viên: L u Th H i Y n ư ị ả ế 5
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
thông tin tài liệu
Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành công nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thống thông tin tăng nhanh một cách chóng mặt. Bên cạnh đó việc tin học hoá một cách ồ ạt và nhanh chóng các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ khổng lồ. Với một lượng thông tin như vậy thì vấn đề đặt ra là phải làm sao sử dụng chúng vào đúng mục đích và hiệu quả nhất thì cũng là một vấn đề đặt ra hiện nay. Mặt khác, trong môi trường cạnh tranh , người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy, cần phải có các công cụ hỗ trợ để giúp cho việc tìm kiếm thông tin được nhanh và hiệu quả. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu và xây dựng một hệ thống tìm kiếm thông tin cụ thể là tìm kiếm tài liệu văn bản trên cơ sở phân cụm dữ liệu. Nhằm đáp ứng nhu cầu cấp thiết của thời đại
Mở rộng để xem thêm
tài liệu giúp tôi
Nếu bạn không tìm thấy tài liệu mình cần có thể gửi yêu cầu ở đây để chúng tôi tìm giúp bạn!
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×