Đồ án tốt nghiệp
máy tính dưới dạng các tệp các tín hiệu (signal) “tiếng nói”. Tín hiệu sóng âm của
hai âm tiết tiếng Việt có thể nhìn thấy như sau:
Hình 1.1 : Tín hiệu sóng âm của hai âm tiêt Tiếng Việt
Tuy nhiên, một văn bản thật sự (một bài báo khoa học chẳng hạn) có thể có
đến hàng nghìn câu, và ta không phải có một mà hàng triệu văn bản. Web là một
nguồn dữ liệu văn bản khổng lồ, và cùng với các thư viện điện tử − khi trong một
tương lai gần các sách báo xưa nay và các nguồn âm thanh được chuyển hết vào
máy tính (chẳng hạn bằng các chương trình nhận dạng chữ, thu nhập âm thanh, hoặc
gõ thẳng vào máy) − sẽ sớm chứa hầu như toàn bộ kiến thức của nhân loại. Vấn đề
là làm sao “xử lý” (chuyển đổi) được khối dữ liệu văn bản và tiếng nói khổng lồ này
qua dạng khác để mỗi người có được thông tin và tri thức cần thiết từ chúng.
Xử lý ngôn ngữ tự nhiên đã được ứng dụng trong thực tế để giải quyết các
bài toán như : nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếng nói, dịch tự
động, tìm kiếm thông tin, tóm tắt văn bản, khai phá dữ liệu và phát hiện tri thức.
Section 2.01 1.2. Cơ sở khoa học
1.2.1 Một số khái niệm cơ bản
1.2.1.1. Ngôn ngữ tự nhiên
Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểu diễn
phép ẩn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêu chuẩn hay
sự thật thuộc lịch sử và siêu việt. Nhiều ngôn ngữ sử dụng điệu bộ, âm thanh, ký
hiệu, hay chữ viết, và cố gắng truyền khái niệm, ý nghĩa, và ý nghĩ, nhưng mà nhiều
khi những khía cạnh này nằm sát quá, cho nên khó phân biệt nó.
(a) 1.2.1.2. Xử lý ngôn ngữ tự nhiên