DANH MỤC TÀI LIỆU
Báo cáo tốt nghiệp: Xử lý ngôn ngữ tự nhiên và máy dịch- Xây dựng từ điển Việt- Anh cho máy tính
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG…………..
LUẬN VĂN
m hiểu về xử lý ngôn ngữ tự
nhiên và máy dịch. Viết chương
trình mô phng từ điển Việt-Anh
Đồ án tốt nghiệp
1
Lời cảm ơn
Trước hết em xin chân thành cảm ơn thầy giáo Ths. Mạnh Khánh,
người đã hướng dẫn em rất nhiều trong suốt quá trình tìm hiểu nghiên cứu hoàn
thành khóa luận y từ thuyết đến ứng dụng. Sự hướng dẫn của các thầy đã giúp
em có thêm được những hiểu biết về xử ngôn ngữ tự nhiên các ứng dụng của
nó.
Đồng thời em cũng xin chân thành cảm ơn các thầy cô trong bộ môn công
nghệ thông tin cũng như các thầy trong trường đã trang bị cho em những kiến
thức cơ bản cần thiết để em có thể hoàn thành tốt khóa luận này.
Em xin gửi lời cảm ơn đến các thành viên lớp CT1002, những người bạn đã
luôn bên cạnh động viên, tạo điều kiện thuận lợi cùng em tìm hiểu, hoàn thành
tốt khóa luận.
Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè đã tạo mọi điều kiện để
em xây dựng thành công khóa luậny.
Hải Phòng, ngày…….tháng……năm 2010
Sinh viên
Nguyễn Văn Thành
Đồ án tốt nghiệp
2
Mục lục
Đồ án tốt nghiệp
3
Article I. MỞ ĐẦU
Xử ngôn ngữ tự nhiên (natural language processing - NLP) một nhánh
của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong
trí tuệ nhân tạo thì xử ngôn ngữ tự nhiên một trong những phần khó nhất
liên quan đến việc phải hiểu ý nghĩa ngôn ng - công cụ hoàn hảo nhất của duy
và giao tiếp.
Xử ngôn ngữ chính xử thông tin khi đầu vào “dữ liệu ngôn ngữ”
(dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan
đến ngôn ngữ viết (văn bản) nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính
con người có lưu trdưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu y
không cấu trúc hoặc nửa cấu trúc chúng không thể lưu trữ trong các khuôn
dạng cố định như các bảng biểu.
Để máy tính thể hiểu thực thi một chương trình được viết bằng ngôn
ngữ cấp cao, ta cần phải một trình biên dịch thực hiện việc chuyển đổi chương
trình đó sang chương trình ở dạng ngôn ngữ đích.
Xử ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ
thống máy tính hiểu xử được ngôn ngữ con người. Dịch y một trong
những ứng dụng chính của xử ngôn ngữ tự nhiên. Mặc dịch y đã được
nghiên cứu và phát triển trong hơn 50 m qua, song vẫn tồn tại nhiều vấn đề cần
nghiên cứu.
Đồ án tốt nghiệp
4
Article II. Chương 1 : Giới thiệu vxử lý ngôn ngữ tự
nhiên
1.1. Tổng quan
Xử ngôn ngữ chính xử thông tin khi đầu vào “dữ liệu ngôn ngữ”
(dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan
đến ngôn ngữ viết (văn bản) nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính
con người có lưu trdưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu y
không cấu trúc hoặc nửa cấu trúc chúng không thể lưu trữ trong các khuôn
dạng cố định như các bảng biểu. Theo đánh giá của công ty Oracle, hiện đến
80% dữ liệu không cấu trúc trong lượng dữ liệu của loài người đang [Oracle
Text]. Với sự ra đời phổ biến của Internet, của sách báo điện tử, của y tính
nhân, của viễn thông, của thiết bị âm thanh, người người ai cũng có thể tạo ra dữ
liệu văn bản hay tiếng nói. Vấn đề làm sao ta thể xử chúng, tức chuyển
chúng từ c dạng ta chưa hiểu được thành các dạng ta thể hiểu giải thích
được, tức là ta có thể tìm ra thông tin, tri thức hữu ích cho mình.
Giả sử chúng ta có các câu sau trong các tiếng nước ngoài:
- “We meet here today to talk about Vietnamese language and speech
processing.”
- “Aujourd'hui nous nous réunissons ici pour discuter le traitement de langue
et de parole vietnamienne.”
- “Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамском
языке и обработке речи.”
Nếu ai đó dịch, hoặc một chương trình máy tính dịch (biến đổi) chúng
ra tiếng Việt, ta sẽ hiểu nghĩa các câu trên đều là: “Hôm nay chúng ta gặp nhau
đây để bàn về xử ngôn ngữ tiếng nói tiếng Việt.”. Nếu các u này được u
trữ như các tệp tiếng Anh, Pháp, Nga Việt như ta nhìn thấy trên, ta các dữ
liệu “văn bản”. Nếu ai đó đọc các câu y, ghi âm lại, ta thể chuyển chúng o
Đồ án tốt nghiệp
5
máy tính dưới dạng các tệp các tín hiệu (signal) “tiếng nói”. n hiệu sóng âm của
hai âm tiết tiếng Việt có thể nhìn thấy như sau:
Hình 1.1 : Tín hiệu sóng âm của hai âm tiêt Tiếng Việt
Tuy nhiên, một văn bản thật sự (một bài báo khoa học chẳng hạn) có thể
đến hàng nghìn câu, và ta không phải một hàng triệu văn bản. Web một
nguồn dữ liệu văn bản khổng lồ, cùng với các thư viện điện tử khi trong một
tương lai gần các sách báo xưa nay các nguồn âm thanh được chuyển hết vào
máy tính (chẳng hạn bằng các chương trình nhận dạng chữ, thu nhập âm thanh, hoặc
thẳng vào y) sẽ sớm chứa hầu như toàn bộ kiến thức của nhân loại. Vấn đề
là làm sao “xử lý” (chuyển đổi) được khối dữ liệu văn bản và tiếng nói khổng lồ này
qua dạng khác để mỗi người có được thông tin và tri thức cần thiết từ chúng.
Xử ngôn ngữ tự nhiên đã được ứng dụng trong thực tế để giải quyết các
bài toán như : nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếng nói, dịch tự
động, tìm kiếm thông tin, tóm tắt văn bản, khai phá dữ liệu và phát hiện tri thức.
Section 2.01 1.2. Cơ sở khoa học
1.2.1 Một số khái niệm cơ bản
1.2.1.1. Ngôn ngữ tự nhiên
Ngôn ngữ hệ thống để giao thiệp hay suy luận dùng một cách biểu diễn
phép ẩn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêu chuẩn hay
sự thật thuộc lịch sử siêu việt. Nhiều ngôn ngữ sử dụng điệu bộ, âm thanh, ký
hiệu, hay chữ viết, và cố gắng truyền khái niệm, ý nghĩa, và ý nghĩ, nhưng mà nhiều
khi những khía cạnh này nằm sát quá, cho nên khó phân biệt nó.
(a) 1.2.1.2. Xử lý ngôn ngữ tự nhiên
thông tin tài liệu
Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp. Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn dạng cố định như các bảng biểu.
Mở rộng để xem thêm
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×