DANH MỤC TÀI LIỆU
Trình bày chi tiết về bài toán lựa chọn đơn vị trong tổng hợp ghép nối và mô tả chi tiết hệ thống tổng hợp tiếng Việt theo thuật toán lựa chọn đơn vị không đồng nhất.
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
──────── * ────────
ĐỒ ÁN
TỐT NGHIỆP ĐẠI HỌC
NGÀNH CÔNG NGHỆ THÔNG TIN
LỰA CHỌN ĐƠN VỊ ÂM KHÔNG ĐỒNG
NHẤT TRONG TỔNG HỢP TIẾNG NÓI
TIẾNG VIỆT
Sinh viên thực hiện : Đỗ Văn Thảo
Lớp: CNPM – K51
Giáo viên hướng dẫn: TS. Trần Đỗ Đạt
HÀ NỘI 05-2011
PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP
1. Thông tin về sinh viên
Họ và tên sinh viên: Đỗ Văn Thảo
Điện thoại liên lạc: 01226397323 Email: thaodv.bkit@gmail.com
Lớp: Công nghệ phần mềm K51 Hệ đào tạo: Đại học chính quy
Đồ án tốt nghiệp được thực hiện tại: Trung tâm nghiên cứu Mica Trường Đại học Bách
Khoa Hà Nội.
Thời gian làm ĐATN: Từ ngày 21/02/2011 đến 28/05/2011
2. Mục đích nội dung của ĐATN
Tìm hiểu phương pháp tối ưu hóa lựa chọn đơn vị trong tổng hợp tiếng nói tiếng Việt
và cài đặt thử nghiệm.
3. Các nhiệm vụ cụ thể của ĐATN
Tìm hiểu các vấn đề trong tổng hợp mức thấp của hệ thống tổng hợp tiếng nói và xác định
vấn đề mình tập trung giải quyết.
Đề xuất phương pháp chọn lựa đơn vị âm tối ưu và thực thi, đánh giá phương pháp.
Tổ chức cơ sở dữ liệu cho tìm kiếm đơn vị âm.
4. Lời cam đoan của sinh viên:
Tôi – Đỗ Văn Thảo - cam kết ĐATN công trình nghiên cứu của bản thân tôi dưới sự hướng
dẫn của TS. Trần Đỗ Đạt .
Các kết quả nêu trong ĐATN trung thực, không phải sao chép toàn văn của bất kỳ công
trình nào khác.
Hà Nội, ngày 20 tháng 05 năm 2011
Tác giả ĐATN
Đỗ Văn Thảo
5. Xác nhận của giáo viên hướng dẫn về mức độ hoàn thành của ĐATN cho phép bảo
vệ:
Hà Nội, ngày 28 tháng 05 năm 2011
Giáo viên hướng dẫn
TS. Trần Đỗ Đạt
TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP
Trong những năm gần đây, các phương thức giao tiếp người máy được chú
trọng nghiên cứu phát triển. Các phương thức giao tiếp mới như qua cử chỉ, ánh
mắt, tiếng nói hay suy nghĩ của con người đều hứa hẹn giúp con người nâng cao sự
thuận tiện trong giao tiếp với máy. Tổng hợp tiếng nói một bài toán áp dụng trong
lĩnh vực này. Trong đó, con người sẽ được nghe máy đọc những đoạn văn bản mong
muốn. Với mong muốn tìm hiểu phát triển btổng hợp tiếng nói cho tiếng Việt, đồ
án đã chọn lĩnh vực tổng hợp tiếng nói làm hướng nghiên cứu. Đồ án tập trung vào
phần tổng hợp mức thấp trong tổng hợp tiếng nói, cụ thể quá trình tìm kiếm lựa
chọn đơn vị âm. Với mong muốn cải thiện chất lượng tiếng nói tổng hợp, thuật toán lựa
chọn đơn vị không đồng nhất được sử dụng với mục đích chọn ra đơn vị âm dài nhất,
giảm thiểu số điểm ghép nối.
Trong đồ án này, tác giả tập trung đi tìm hiểu bài toán tổng hợp tiếng nói i
chung và áp dụng cho tiếng Việt nói riêng. Sau đó, đồ án tập trung vào vấn đề tìm kiếm
lựa chọn đơn vị âm trong tổng hợp ghép nối. Phương pháp lựa chọn đơn vị âm
không đồng nhất được đề xuất áp dụng cho tiếng Việt. Tác giả cũng tiến hành cài
đặt và đánh giá hiệu quả của phương pháp. Từ đó đưa ra hướng phát triển tiếp theo cho
đồ án.
LỜI CẢM ƠN
Trước hết, em xin được gửi lời cảm ơn chân thành tới các thầy
giáo trong trường Đại học Bách Khoa Hà Nội cũng như các thầy cô trong
Viện Công nghệ thông tin truyền thông đã truyền dạy cho em những
kiến thức kinh nghiệm quý giá trong suốt quá trình học tập tu dưỡng
trong suốt 5 năm qua.
Em xin được gửi lời cảm ơn tới TS. Trần ĐĐạt Cán bộ nghiên
cứu, Trung tâm nghiên cứu Mica ThS. Nguyễn Thị Thu Trang - Giảng
viên bộ môn Công nghệ phần mềm, Viện Công nghthông tin truyền
thông, trường Đại học Bách Khoa Hà Nội đã hết lòng giúp đỡ, hướng dẫn
và chỉ dạy tận tình trong quá trình em làm đồ án tốt nghiệp.
Em cũng bày tỏ lòng biết ơn tới trung tâm nghiên cứu Mica đã tạo
điều kiện về cơ sở vật chất cho em trong quá trình học tập và nghiên cứu.
Em cũng muốn gửi lời cảm ơn tới tập thể lớp Công nghệ phần mềm
K51 đã tạo một môi trường thi đua học tập lành mạnh, tạo điều kiện cho
sự phát triển của các thành viên trong lớp.
Cuối cùng, em xin được gửi lời cảm ơn chân thành tới gia đình, bạn
đã quan tâm, động viên, đóng góp ý kiến giúp đỡ trong quá trình
học tập, nghiên cứu và hoàn thành đồ án tốt nghiệp.
Hà Nội, ngày 27 tháng 05 năm 2011
Đỗ Văn Thảo
Lớp CNPM – K51
Viện CNTT & TT ĐH Bách Khoa HN
MỤC LỤC
TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP ............................................................. i
LỜI CẢM ƠN ................................................................................................................. ii
MỤC LỤC ...................................................................................................................... iii
DANH MỤC TỪ VIẾT TẮT .......................................................................................... v
DANH MỤC CÁC BẢNG............................................................................................. vi
DANH MỤC CÁC HÌNH VẼ ...................................................................................... vii
ĐẶT VẤN ĐỀ .............................................................................................................. viii
Chương 1.
Tổng hợp tiếng nói .................................................................................... 1
1.1
Tổng quan về bài toán tổng hợp tiếng nói ...................................................... 1
1.2
Các vấn đề trong tổng hợp tiếng nói bằng phương pháp ghép nối ................ 3
1.2.1
Lựa chọn loại đơn vị âm .......................................................................... 3
1.2.2
Xây dựng kho đơn vị âm ......................................................................... 3
1.2.3
Tìm kiếm đơn vị âm tối ưu ...................................................................... 4
1.2.4
Phương pháp ghép nối đơn vị âm. ........................................................... 5
1.3
Kết luận .......................................................................................................... 7
Chương 2.
Lựa chọn và tìm kiếm đơn vị âm trong tổng hợp ghép nối ...................... 9
2.1
Lựa chọn loại đơn vị âm ................................................................................. 9
2.1.1
Âm vị ....................................................................................................... 9
2.1.2
Âm vị kép .............................................................................................. 10
2.1.3
Bán âm tiết ............................................................................................. 10
2.1.4
Âm đầu và vần ....................................................................................... 10
2.1.5
Âm tiết ................................................................................................... 10
2.1.6
Cụm từ ................................................................................................... 11
2.1.7
Nhận xét................................................................................................. 11
2.2
Tìm kiếm đơn vị âm tối ưu ........................................................................... 12
2.2.1
Tiền lựa chọn ......................................................................................... 13
2.2.2
Chọn lựa cuối cùng ................................................................................ 15
2.3
Kết luận ........................................................................................................ 16
thông tin tài liệu
Sau khi thu âm dữ liệu văn bản, việc tiếp theo là phân đoạn tín hiệu thành các đoạn tương ứng với đơn vị âm. Quá trình phân đoạn có thể thực hiện tự động hoặc thủ công. Vấn đề lớn nhất đối với quá trình phân đoạn thủ công là đòi hỏi công sức lớn trong việc xác định ranh giới giữa các đơn vị âm. Đối với phân đoạn tự động, việc kiểm tra thủ công sau khi phân đoạn là cần thiết để đảm bảo rằng quá trình phân đoạn là đúng trong tất cả các trường hợp. Bước tiếp theo là gán nhãn cho đoạn âm thanh. Các thông số liên quan như trường độ, tần số cơ bản, điểm đánh dấu đường biên của tín hiệu cũng được gán cho đơn vị âm. Việc lựa chọn các thông số để gán cho đơn vị âm tùy vào từng hệ thống và ngôn ngữ. Trong tiếng Việt, theo [9] các tham số được dùng là tần số cơ bản, năng lượng trung bình, trường độ, các hệ số khoảng cách phổ MFC … Đây sẽ là các tham số dùng trong việc tính toán khoảng cách ngữ điệu và ngữ âm giữa các đơn vị âm.
Mở rộng để xem thêm
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×