Báo cáo tốt nghiệp: Xử lý ngôn ngữ tự nhiên và máy dịch- Xây dựng từ điển Việt- Anh cho máy tính - Tailieu123.org - Chia sẻ và tải tài liệu miễn phí

Luận văn - báo cáo

Thạc sĩ cao học

Kinh tế quản lý

Khoa học tự nhiên

Kinh tế - Thương mại

Lý luận chính trị

Báo cáo, luận văn khác

Kỹ năng mềm

Nghệ thuật sống

Kỹ năng giao tiếp

Kỹ năng thuyết trình

Kỹ năng phỏng vấn

Kỹ năng đàm phán

Kỹ năng mềm khác

Mẫu slide

Mẫu slide cho thuyết trình

Mẫu slide cho giáo án điện tử

Mẫu slide khác

Mẫu slide - Template

Kinh doanh - tiếp thị

Marketing, bán hàng

PR truyền thông

Kế hoạch kinh doanh

Tài liệu kinh doanh, tiếp thị khác

Thương mại điện tử

Kinh tế - Quản lý

Bài giảng, giáo trình

Đề thi, bài tập

Sách kinh tế hay

Quản lý nhà nước

Quy hoạch đô thị

Tài liệu kinh tế khác

Tài chính - Ngân hàng

Tài chính doanh nghiệp

Kế toán, kiểm toán

Ngân hàng - tín dụng

Tài liệu tài chính - ngân hàng khác

Biểu mẫu - Văn bản

Mẫu hợp đồng

Mẫu đơn từ

Biểu mẫu, văn bản khác

Thủ tục hành chính

Giáo dục đào tạo

Tài liệu, đề thi môn Toán

Tài liệu, đề thi môn Ngữ Văn

Tài liệu, đề thi THPT các trường

Tài liệu, đề thi Vật Lý

Tài liệu, đề thi Sinh Học

Tài liệu, đề thi Hóa Học

Tài liệu, đề thi Lịch Sử

Tài liệu, đề thi học sinh giỏi

Tài liệu, đề thi khác

Giải bài tập các môn

Giáo án bài giảng

Giáo án, bài giảng lớp 6

Giáo án, bài giảng lớp 7

Giáo án, bài giảng lớp 8

Giáo án, bài giảng lớp 9

Giáo án, bài giảng lớp 10

Giáo án, bài giảng lớp 11

Giáo án, bài giảng lớp 12

Giáo án, bài giảng tiểu học

Giáo án, bài giảng khác

Công nghệ thông tin

Cơ sở dữ liệu

Đồ họa, thiết kế

An ninh, bảo mật

Tài liệu CNTT khác

Văn bản pháp luật

Thuế - Lệ phí - Kinh phí

Giáo dục - Đào tạo

Quyết định

Luật - pháp lệnh

Văn bản pháp luật khác

Học tiếng Anh

Luyện Thi TOEIC

Luyện thi IELTS

Tiếng Anh phổ thông

Tiếng Anh trẻ em

Luyện thi TOEFL

Tài liệu học tiếng Anh khác

Y học- sức khỏe

Bí quyết làm đẹp

Bệnh thường gặp

Tài liệu y học - sức khỏe khác

Các bài văn khấn nôm

Văn khấn cổ truyền

Văn khấn khác

Lĩnh vực khác

Mẹo vặt trong nấu ăn

Món ngon mỗi ngày

Hoạt động ngoại khóa

Văn hóa - giải trí

Luận văn - báo cáo

Kỹ năng mềm

Kinh doanh - tiếp thị

Kinh tế - Quản lý

Tài chính - Ngân hàng

Biểu mẫu - Văn bản

Giáo dục đào tạo

Giáo án bài giảng

Công nghệ thông tin

Văn bản pháp luật

Học tiếng Anh

Y học- sức khỏe

Các bài văn khấn nôm

Lĩnh vực khác

Luận văn - báo cáo

Báo cáo tốt nghiệp: Xử lý ngôn ngữ tự nhiên và máy dịch- Xây dựng từ điển Việt- Anh cho máy tính

Báo cáo tốt nghiệp: Xử lý ngôn ngữ tự nhiên và máy dịch- Xây dựng từ điển Việt- Anh cho máy tính

70

602

326

Định dạng

Báo cáo tài liệu vi phạm

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG……………..

LUẬN VĂN

Tìm hiểu về xử lý ngôn ngữ tự

nhiên và máy dịch. Viết chương

trình mô phỏng từ điển Việt-Anh

 Đồ án tốt nghiệp

1

Lời cảm ơn

Trước hết em xin chân thành cảm ơn thầy giáo Ths. Vũ Mạnh Khánh, là

người đã hướng dẫn em rất nhiều trong suốt quá trình tìm hiểu nghiên cứu và hoàn

thành khóa luận này từ lý thuyết đến ứng dụng. Sự hướng dẫn của các thầy đã giúp

em có thêm được những hiểu biết về xử lý ngôn ngữ tự nhiên và các ứng dụng của

nó.

Đồng thời em cũng xin chân thành cảm ơn các thầy cô trong bộ môn công

nghệ thông tin cũng như các thầy cô trong trường đã trang bị cho em những kiến

thức cơ bản cần thiết để em có thể hoàn thành tốt khóa luận này.

Em xin gửi lời cảm ơn đến các thành viên lớp CT1002, những người bạn đã

luôn ở bên cạnh động viên, tạo điều kiện thuận lợi và cùng em tìm hiểu, hoàn thành

tốt khóa luận.

Sau cùng, em xin gửi lời cảm ơn đến gia đình, bạn bè đã tạo mọi điều kiện để

em xây dựng thành công khóa luận này.

Hải Phòng, ngày…….tháng……năm 2010

Sinh viên

Nguyễn Văn Thành

 Đồ án tốt nghiệp

2

Mục lục

 Đồ án tốt nghiệp

3

Article I. MỞ ĐẦU

Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh

của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong

trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó

liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy

và giao tiếp.

Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ”

(dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan

đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính

con người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu này

là không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn

dạng cố định như các bảng biểu.

Để máy tính có thể hiểu và thực thi một chương trình được viết bằng ngôn

ngữ cấp cao, ta cần phải có một trình biên dịch thực hiện việc chuyển đổi chương

trình đó sang chương trình ở dạng ngôn ngữ đích.

Xử lý ngôn ngữ tự nhiên là một lĩnh vực nghiên cứu nhằm giúp cho các hệ

thống máy tính hiểu và xử lý được ngôn ngữ con người. Dịch máy là một trong

những ứng dụng chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã được

nghiên cứu và phát triển trong hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần

nghiên cứu.

 Đồ án tốt nghiệp

4

Article II. Chương 1 : Giới thiệu về xử lý ngôn ngữ tự

nhiên

1.1. Tổng quan

Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ”

(dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan

đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính

con người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu này

là không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn

dạng cố định như các bảng biểu. Theo đánh giá của công ty Oracle, hiện có đến

80% dữ liệu không cấu trúc trong lượng dữ liệu của loài người đang có [Oracle

Text]. Với sự ra đời và phổ biến của Internet, của sách báo điện tử, của máy tính cá

nhân, của viễn thông, của thiết bị âm thanh,… người người ai cũng có thể tạo ra dữ

liệu văn bản hay tiếng nói. Vấn đề là làm sao ta có thể xử lý chúng, tức chuyển

chúng từ các dạng ta chưa hiểu được thành các dạng ta có thể hiểu và giải thích

được, tức là ta có thể tìm ra thông tin, tri thức hữu ích cho mình.

Giả sử chúng ta có các câu sau trong các tiếng nước ngoài:

- “We meet here today to talk about Vietnamese language and speech

processing.”

- “Aujourd'hui nous nous réunissons ici pour discuter le traitement de langue

et de parole vietnamienne.”

- “Mы встрачаемся здесь сегодня, чтобы говорить о вьетнамском

языке и обработке речи.”

Nếu có ai đó dịch, hoặc có một chương trình máy tính dịch (biến đổi) chúng

ra tiếng Việt, ta sẽ hiểu nghĩa các câu trên đều là: “Hôm nay chúng ta gặp nhau ở

đây để bàn về xử lý ngôn ngữ và tiếng nói tiếng Việt.”. Nếu các câu này được lưu

trữ như các tệp tiếng Anh, Pháp, Nga và Việt như ta nhìn thấy ở trên, ta có các dữ

liệu “văn bản”. Nếu ai đó đọc các câu này, ghi âm lại, ta có thể chuyển chúng vào

 Đồ án tốt nghiệp

5

máy tính dưới dạng các tệp các tín hiệu (signal) “tiếng nói”. Tín hiệu sóng âm của

hai âm tiết tiếng Việt có thể nhìn thấy như sau:

Hình 1.1 : Tín hiệu sóng âm của hai âm tiêt Tiếng Việt

Tuy nhiên, một văn bản thật sự (một bài báo khoa học chẳng hạn) có thể có

đến hàng nghìn câu, và ta không phải có một mà hàng triệu văn bản. Web là một

nguồn dữ liệu văn bản khổng lồ, và cùng với các thư viện điện tử − khi trong một

tương lai gần các sách báo xưa nay và các nguồn âm thanh được chuyển hết vào

máy tính (chẳng hạn bằng các chương trình nhận dạng chữ, thu nhập âm thanh, hoặc

gõ thẳng vào máy) − sẽ sớm chứa hầu như toàn bộ kiến thức của nhân loại. Vấn đề

là làm sao “xử lý” (chuyển đổi) được khối dữ liệu văn bản và tiếng nói khổng lồ này

qua dạng khác để mỗi người có được thông tin và tri thức cần thiết từ chúng.

Xử lý ngôn ngữ tự nhiên đã được ứng dụng trong thực tế để giải quyết các

bài toán như : nhận dạng chữ viết, nhận dạng tiếng nói, tổng hợp tiếng nói, dịch tự

động, tìm kiếm thông tin, tóm tắt văn bản, khai phá dữ liệu và phát hiện tri thức.

Section 2.01 1.2. Cơ sở khoa học

1.2.1 Một số khái niệm cơ bản

1.2.1.1. Ngôn ngữ tự nhiên

Ngôn ngữ là hệ thống để giao thiệp hay suy luận dùng một cách biểu diễn

phép ẩn dụ và một loại ngữ pháp theo logic, mỗi cái đó bao hàm một tiêu chuẩn hay

sự thật thuộc lịch sử và siêu việt. Nhiều ngôn ngữ sử dụng điệu bộ, âm thanh, ký

hiệu, hay chữ viết, và cố gắng truyền khái niệm, ý nghĩa, và ý nghĩ, nhưng mà nhiều

khi những khía cạnh này nằm sát quá, cho nên khó phân biệt nó.

(a) 1.2.1.2. Xử lý ngôn ngữ tự nhiên

có thể bạn quan tâm

Luận văn thạc sĩ công nghệ điện tử viễn thông: Cảm biến 3D KINECT và ứ...

Thạc sĩ cao học

Xây dựng giải pháp phát triển sản xuất cao su thiên nhiên trong sự ngh...

Thạc sĩ cao học

ĐƠN ĐỀ NGHỊ Công nhận biết tiếng Việt thành thạo hoặc sử dụng thành th...

Mẫu đơn từ

ĐƠN ĐỀ NGHỊ Kiểm tra và công nhận biết tiếng Việt thành thạo hoặc sử...

Mẫu đơn từ

Đánh giá tổng quát và phân tích thực trạng triển khai nghiệp vụ cho va...

Kinh tế quản lý

Hướng dẫn xây dụng dịch vụ thư điện tử Mailing System

Tài liệu CNTT khác

THIẾT KẾ HỆ TRUYỀN ĐỘNG ĐIỆN VÀ TRANG BỊ ĐIỆN TRẠM LẠNH CÔNG NGHIỆP VÀ...

Đề tài: Xây dựng trang website "Xây dựng và hỗ trợ giao dịch chứng kho...

thông tin tài liệu

Xử lý ngôn ngữ tự nhiên (natural language processing - NLP) là một nhánh của trí tuệ nhân tạo tập trung vào các ứng dụng trên ngôn ngữ của con người. Trong trí tuệ nhân tạo thì xử lý ngôn ngữ tự nhiên là một trong những phần khó nhất vì nó liên quan đến việc phải hiểu ý nghĩa ngôn ngữ - công cụ hoàn hảo nhất của tư duy và giao tiếp. Xử lý ngôn ngữ chính là xử lý thông tin khi đầu vào là “dữ liệu ngôn ngữ” (dữ liệu cần biến đổi), tức dữ liệu “văn bản” hay “tiếng nói”. Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở nên kiểu dữ liệu chính con người có và lưu trữ dưới dạng điện tử. Đặc điểm chính của các kiểu dữ liệu này là không có cấu trúc hoặc nửa cấu trúc và chúng không thể lưu trữ trong các khuôn dạng cố định như các bảng biểu.

Mở rộng để xem thêm

tài liệu mới trong mục này

SƠ LƯỢC QUA VỀ TRUYỀN HÌNH ĐEN TRẮNG VÀ KHUẾCH ĐẠI HÌNH VÀ ĐÈN HÌNH (VIDEO AMP - CRT)

GIỚI THIỆU VÀ THIẾT KẾ VỀ ĐỘNG CƠ KHÔNG ĐỒNG BỘ ROTO DÂY QUẤN

Giới thiệu tổng quan về tổng đài SPC, tổng đài NEAX61-E và nghiên cứu Modul giao tiếp trung kế số DTIM

NGHIÊN CỨU THIẾT KẾ ĐỘNG CƠ KHÔNG ĐỒNG BỘ VẠN NĂNG

NGHIÊN CỨU BỘ CHẤN LƯU 3 CHỨC NĂNG CHO ĐÈN NEON

tài liệu hot trong mục này

Tiểu luận quản trị học: Khái niệm quản trị, chức năng quản trị, giới thiệu về MICROSOFT, TOYOTA VÀ VINAMILK và phân tích chức năng quản trị hệ thống

HỆ THỐNG ĐIỆN TRÊN TÀU THỦY, TRẠM PHÁT TÀU 700 TEU VÀ BẢNG ĐIỆN CHÍNH TÀU 700 TEU.

SƠ LƯỢC QUA VỀ TRUYỀN HÌNH ĐEN TRẮNG VÀ KHUẾCH ĐẠI HÌNH VÀ ĐÈN HÌNH (VIDEO AMP - CRT)

GIỚI THIỆU VÀ THIẾT KẾ VỀ ĐỘNG CƠ KHÔNG ĐỒNG BỘ ROTO DÂY QUẤN

Giới thiệu tổng quan về tổng đài SPC, tổng đài NEAX61-E và nghiên cứu Modul giao tiếp trung kế số DTIM

tài liệu giúp tôi

Nếu bạn không tìm thấy tài liệu mình cần có thể gửi yêu cầu ở đây để chúng tôi tìm giúp bạn!

xem nhiều trong tuần

Địa lý 12 Phát triển cây công nghiệp lâu năm Tây Nguyên

Giáo trình Quản trị học của Đại học kinh tế quốc dân

MẪU GIỚI THIỆU CHUYỂN SINH HOẠT HỘI

MẪU GIẤY THI A4

70 câu hỏi trắc nghiệm luyện thi chứng chỉ tin A

Đề thi và lời giải môn xác suất thống kê của trường Học viện ngân hàng

yêu cầu tài liệu

Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN

Kinh doanh - tiếp thị

Quản trị, internet, marketing

Giáo dục đào tạo

Các tài liệu, đề thi liên quan đến các môn học của học sinh và bài giảng của giáo viên

Công nghệ thông tin

Tài liệu lĩnh vực công nghệ thông tin

Học tiếng Anh

Các tài liệu liên quan đến học tiếng Anh

×