DANH MỤC TÀI LIỆU
Mô hình gán nhãn từ loại dựa trên song ngữ Anh- Việt
Khoa CNTT - ÐH KHTN TP.HCM
Khoa CNTT - ÐH KHTN TP.HCM
`
TRƯỜNG ĐẠI HC KHOA HC T NHIÊN
KHOA CÔNG NGH THÔNG TIN
B MÔN CÔNG NGH TRI THC
BÙI THANH HUY - 9912567
LÊ PHƯƠNG QUANG - 9912653
NGHIÊN CU VÀ CÀI ĐẶT
B GÁN NHÃN T LOI
CHO SONG NG ANH-VIT
LUN VĂN C NHÂN TIN HC
GIÁO VIÊN HƯỚNG DN
GS.TSKH HOÀNG KIM
NIÊN KHÓA 1999 - 2003
Khoa CNTT - ÐH KHTN TP.HCM
Khoa CNTT - ÐH KHTN TP.HCM
`
Nhn xét ca giáo viên hướng dn
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
TP. HChí Minh, ngày…. tháng ….năm 2003
Giáo viên hướng dn
GS.TSKH Hoàng Kiếm
Khoa CNTT - ÐH KHTN TP.HCM
Khoa CNTT - ÐH KHTN TP.HCM
`
Nhn xét ca giáo viên phnbin
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
….…………………………………………………………………………………………………………
TP. HChí Minh, ngày…. tháng ….năm 2003
Giáo viên phn bin
Khoa CNTT - ÐH KHTN TP.HCM
Khoa CNTT - ÐH KHTN TP.HCM
`
Đầu tiên, chúng em xin chân thành cmơn thy giáo
hướng dn, GS.TSKH Hoàng Kiếm, người đã tn tình
hướng dn bn em trong sut quá trình làm lun văn. Đồng
thi, chúng em xin gi li cmơnđến các thy cô trong
khoa Công Ngh Thông Tin trường Đại hcKhoaHcT
Nhiên đã truyn đạt rt nhiu kiến thc quý báu cho chúng
em.
Chúng em cũng mun cmơn nhng người thân
trong gia đình đãđộng viên, giúp đỡ và to điu kin để
chúng em có th hoàn thành tt lun văn này.
Cui cùng, chúng em xin gi li cmơn thy Đinh
Đin và các bn trong nhóm VCL đã giúp đỡh tr
chúng em rt nhiu để hoàn thành lun văn này.
Tp. HChí Minh, 7-2003
Bùi Thanh Huy - Lê Phương Quang.
Li cmơn.
Khoa CNTT - ÐH KHTN TP.HCM
Khoa CNTT - ÐH KHTN TP.HCM
`
Mc lc
Mc lc............................................................................................ ii
Danh sách các hình........................................................................ vi
Li nói đầu .................................................................................... vii
Chương 1: Tng quan .................................................................... 1
1.1 Gii thiu ............................................................................................... 2
1.2 Tng quan v gán nhãn t loi ............................................................ 3
1.2.1 Gán nhãn t loi là gì? ..................................................................... 3
1.2.2 Vai trò ca gán nhãn t loi............................................................. 4
1.3 Các vn đề gp phi và hướng gii quyết trong bài toán gán nhãn
t loi................................................................................................................ 6
1.3.1 Các vn đề gp phi khi gii quyết bài toán .................................... 6
1.3.2 Hướng gii quyết.............................................................................. 7
1.4 B cc ..................................................................................................... 8
Chương 2: Cơslý thuyết............................................................. 9
2.1 Máy hc và x lý ngôn ng t nhiên................................................. 10
2.1.1 Hướng tiếp cn thng kê................................................................ 11
2.1.2 Hướng tiếp cn theo biu trưng ..................................................... 12
2.1.2.1 Cây quyết định:...................................................................................12
2.1.2.2 Danh sách quyết định..........................................................................13
2.1.2.3 Phương pháp hc hướng li da trên các lut biến đổi trng thái
(TBL) 13
2.1.3 Hướng tiếp cn thay thế biu trưng ............................................... 14
2.1.3.1 Mng Neural .......................................................................................14
2.1.3.2 Thut toán di truyn ( Genetic Algorithm : GA) ................................14
2.2 Mt s gii thut áp dng cho bài toán gán nhãn t loi ............... 15
2.2.1 Gii thut hc chuyn đổi da trên lut ci biến (TBL)................ 15
2.2.1.1 Sơ đồ ca gii thut TBL ....................................................................17
2.2.1.2 Mô t hot động ca gii thut............................................................17
2.2.1.3 Trình bày gii thut.............................................................................20
Khoa CNTT - ÐH KHTN TP.HCM
Khoa CNTT - ÐH KHTN TP.HCM
`
2.2.1.4 Kết lun:..............................................................................................21
2.2.2 Mô hình mng neural..................................................................... 22
2.2.2.1 Gii thiu: ...........................................................................................22
2.2.2.2 Mng neural: .......................................................................................22
2.2.2.3 Gii thut gán nhãn t loi da trên mng neural...............................25
2.2.2.4 T đin:...............................................................................................27
2.2.3 Mô hình Maximum Entropy (ME): ............................................... 28
2.2.3.1 Gii thiu: ...........................................................................................28
2.2.3.2 Các đặc trưng ca gán nhãn t loi:....................................................29
2.2.3.3 Mô hình kim tra:................................................................................33
2.2.4 Mô hình TBL nhanh (FnTBL) ....................................................... 34
2.2.4.1 Gii thiu gii thut FnTBL: ..............................................................34
2.2.4.2 Tính đim và phát sinh lut:................................................................36
2.2.4.3 Gii thut FnTBL:...............................................................................39
Chương 3: Mô hình ...................................................................... 41
3.1 Mt s khái nim s dng trong mô hình: ....................................... 42
3.1.1 Ng liu(Corpus): .......................................................................... 42
3.1.2 Ng liu vàng(Golden Corpus)...................................................... 44
3.1.3 Ng liu hun luyn(Training corpus): ......................................... 45
3.2 Mt s hình kết hp hin nay:..................................................... 46
3.2.1 Mô hình kết hp s dng nhiu mô hình liên kết.......................... 47
3.2.2 Phương pháp kết hp da trên tính đim cho các nhãn ng viên.. 48
3.2.3 Phương pháp kết hp da trên gi ý ca ng cnh. ...................... 50
3.2.4 Phương pháp kết hp da trên tính kế tha kết qu ca gii thut
TBL 51
3.3 Mô hình gán nhãn t loi da trên song ng Anh-Vit.................. 52
3.3.1 Sơ đồ hot động ca mô hình: ....................................................... 55
3.3.1.1 Ng liu hun luyn:...........................................................................56
3.3.1.2 Quá trình khi to: ..............................................................................58
3.3.1.3 Quá trình hun luyn:..........................................................................58
3.3.1.4 Quá trình gán nhãn t loi trên cp câu song ng..............................61
3.3.2 Thut gii ....................................................................................... 63
3.3.3 Khung lut (Template):.................................................................. 64
3.3.4 Ci tiến ........................................................................................... 66
3.3.5 Chiếu sang tiếng Vit..................................................................... 67
Chương 4: Cài đặtthnghimvàđánh giá kếtqu................. 70
thông tin tài liệu
Ngày nay, khi khoa học công nghệ phát triển hết sức mạnh mẽ, yêu cầu nắm bắt thông tin về khoa học, kỹ thuật, công nghệ nhanh chóng và chính xác là hết sức cần thiết. Hiện nay, đa số các tài liệu đều được viết bằng tiếng Anh. Do đó, việc chuyển các tài liệu này về tiếng Việt là điều rất cần thiết. Nếu làm được điều này, mọi người sẽ có được nhiều cơ hội tiếp cận với các thông tin tri thức mới. Nhưng công việc này tương đối khó khăn mặc dù hiện nay có khá nhiều hệ dịch tự động ( như dịch trực tiếp, dịch qua ngôn ngữ trung gian, dịch dựa trên luật hoặc dịch dựa trên thống kê…) nhưng đa số các các hệ dịch này đều chưa đạt kết quả cao.
Mở rộng để xem thêm
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×