DANH MỤC TÀI LIỆU
Tìm hiểu về mạng Neural và khoảng cách Hamming và ứng dụng mạng neural Hamming trong bài toán nhận dạng các chữ cái Tiếng Việt.
LU N VĂN T T NGHI P CHUYÊN NGÀNH Ố Ệ
KHOA H C MÁY TÍNH
Đ tài: “Tìm hi u m ng Neural Hamming và ng d ng trong bài toán ứ ụ
nh n d ng các ch cái Ti ng Vi t”ậ ạ ế
Sinh viên: Phùng Văn Ki m
L p : Cao h c k10b
Giáo viên h ng d nướ : TS. Lê Quang Minh
PH N M Đ U Ở Ầ
T lâu các nhà khoa h c đã nh n th y nh ng u đi m c a b óc ư ủ ộ
con ng i tìm cách b t ch c đ th c hi n trên nh ng máy tính, t oườ ướ ể ự
cho kh năng h c t p, nh n d ng phân lo i.v y các nhà khoa ọ ậ
h c đã nghiên c u sáng t o ra m ng Neural nhân t o. th c s đ c ự ượ
chú ý và nhanh chóng tr thành m t h ng nghiên c u đ y tri n v ng đ c ộ ướ
bi t lĩnh v c nh n d ng. bài toán nh n d ng t m t bài toán ậ ạ ậ ạ
con trong l p các bài toán nh n d ng, x nh. ậ ạ
Hi n nay trên th gi i, các s n ph m nh n d ng t đã đ c ế ớ ượ
tri n khai t ng đ i r ng rãi. Tuy nhiên đây các s n ph m nh n d ng ươ ố ộ
t ti ng Anh, do đó đ i v i nh n d ng t ti ng Vi t thì ch ự ế ự ế
ng i Vi t Nam m ith phát tri n đ c. n c ta trong m t vài nămườ ượ Ở ướ
g n đây cũng đã m t s s n ph m nh n d ng ti ng vi t đ c tri n ố ả ế ượ
khai trên th tr ng. Nh ng các s n ph m này đ c bán trên th tr ngị ườ ư ượ ị ườ
d i d ng đóng kín nên vi c đ phát tri n thành ph n m m t đ ng c pướ ự ộ
nh t nh đi u không th . v y nên tôi đã ch n đ tài ậ ả “Tìm hi u
m ng Neural Hamming ng d ng trong bài toán nh n d ng các ch ậ ạ
cái Ti ng Vi t”ế .
H th ng ch cái Ti ng Vi t là đ c xây d ng d a trên ch cái ệ ố ế ượ
Latinh có thêm ch ghép và d u ph . Do đó vi c nh n d ng s g p khó ẽ ặ
khăn h n so v i ch cái Latinh thông th ng và c n ph i có thu t toán x ơ ớ ữ ườ
lý đem l i đ chính xác cao. ạ ộ
Trong khuôn kh , th i l ng c a lu n văn, tôi đ a ra m t ch ng ờ ượ ư ươ
trình mô ph ng m ng Neural nh n d ng 29 ch cái Ti ng Vi t t A đ n Y ế ệ ừ ế
và 10 ch s t 0 đ n 9. ố ừ ế
Lu n văn đ c s p x p và chia thành 3 ch ng chính: ượ ắ ế ươ .
- Ch ng 1: T ng quan v hi n tr ng các bài toán nh n d ng thi tươ ề ệ ế
l p bài toán nghiên c u;ậ ứ
- Ch ng 2: Tìm hi u v m ng Neural và kho ng cách Hamming;ươ ề ạ
- Ch ng 3: ng d ng m ng neural Hamming trong bài toán nh n d ngươ ậ ạ
các ch cái Ti ng Vi t. ế ệ
Nhân đây, tôi xin chân thành c m n TS. Lê Quang Minh ng i tr c ti p ả ơ ườ ế
h ng d n, ch b o nhi t tình cho tôi hoàn thành lu n văn này. Tôi xin ướ ỉ ả
chân thành cám n các th y cô trong Tr ng Đ i h c CNTT & TT Đ i ơ ườ ạ ọ
h c Thái Nguyên và toàn th các b n đã giúp đ tôi hoàn thành cu n lu n ố ậ
văn này.
CH NG I: T NG QUAN V HI N TR NG CÁC BÀI TOÁNƯƠ Ề Ệ
NH N D NG VÀ THI T L P BÀI TOÁN NGHIÊN C U Ế Ậ
1.1 T ng quan v bài toán nh n d ng. ậ ạ
Nh n d ng ch m t lĩnh v c đã đ c quan tâm nghiên c u ậ ạ ượ
ng d ng t nhi u năm nay theo hai h ng chính: ụ ừ ề ướ
Nh n d ng ch in: ph c v cho công vi c t đ ng hóa đ c tài li u, ự ộ
tăng t c đ hi u qu nh p thông tin vào máy tính tr c ti p t các ế ừ
ngu n tài li u.ồ ệ
Nh n d ng ch vi t tay: v i nh ng m c đ ràng bu c khác nhau v ữ ế
cách vi t ,ki u ch ... ph c v cho các ng d ng đ c x ch ng t ,ế ụ ụ
hóa đ n, phi u ghi, b n th o vi t tay... Nh n d ng ch vi t tay đ c táchơ ế ế ữ ế ượ
thành hai h ng phát tri n: nh n d ng ch vi t tay tr c tuy n (on-line)ướ ữ ế ế
và nh n d ng ch vi t tay ngo i tuy n (off-line). ữ ế ế
Đ n th i đi m này, bài toán nh n d ng ch in đã đ c gi i quy tế ậ ạ ượ ế
g n nh tr n v n (s n ph m FineReader 11 c a hãng ABBYY th ư ọ
nh n d ng ch in theo 20 ngôn ng khác nhau trong đó c Vi t Nam, ả ệ
ph n m m nh n d ng ch Vi t in VnDOCR 4.0 c a Vi n Công ngh ữ ệ
Thông tinN i có th nh n d ng đ c các tài li u ch a hình nh, b ng ể ậ ạ ượ
văn b n ti ng Vi t v i đ chính xác trên 99%,...). Tuy nhiên trên th ế ệ ớ ộ ế
gi i cũng như Vi t Nam, bài toán nh n d ng ch vi t tay v n còn là v n ữ ế
đ thách th c l n đ i v i các nhà nghiên c u. Bài toàn này ch a th gi i ứ ớ ư
quy t tr n v n ph thu c quá nhi u vào ng i vi t s bi n đ iế ườ ế ự ế
quá đa d ng trong cách vi t tr ng thái tinh th n c a t ng ng i vi t. ế ủ ừ ườ ế
Đ c bi t đ i v i vi c nghiên c u nh n d ng ch vi t tay ti ng Vi t l i ế ế ệ ạ
càng g p nhi u khó khăn h n do b t ti ng Vi t thêm ph n d u,ơ ự ế
r t d nh m l n v i các nhi u.ấ ễ
1.2. C th v bài toán nh n d ng ch cái Ti ng Vi t. ể ề ế
Hi n nay cũng r t nhi u bài báo đ c p đ n bài toán nh n d ng ề ậ ế
t quang h c, nh m c i ti n các ph ng pháp phân đo n nh, nh n ế ươ ạ ả
d ng. Song v n ch a gi i quy t m t cách tri t đ nh ng v n đ khó khăn ư ế ệ ể
c a bài toán th ng g p ph i. Đ c bi t đ i v i vi c nh n d ng các ườ ố ớ
t ti ng Vi t, g p r t nhi u khó khăn, do tính riêng bi t c a ti ng Vi t:ự ế ế
S t nhi u, các t l i d u…Nên bài toán v n còn thu hút đ c ự ạ ượ
s quan tâm, nghiên c u nh m gi i quy t nh ng v n đ khó khăn c a bài ế ấ ề
toán m t cách tri t đ . M t s h nh n nh n d ng văn b n đã đang ố ệ
đ c áp d ng r t nhi u vào ng d ng nh FineReader c a hãngượ ụ ấ ư
AABBYY, OmmiPage c a hãng Scansoft đ c dùng đ nh n d ng các văn ượ ể ậ ạ
b n ti ng Anh,… VNDOCR c a Vi n công ngh thông tin cho các vănả ế
b n ti ng Vi tả ế
Nhìn chung, các s n ph m ph n m m nh n d ng văn b n Ti ng ậ ạ ế
Vi t ch in c a n c ta đã thu đ c k t qu kh quan, đ c bi t ph n ủ ướ ượ ế
m m VNDOCR đã đ c s d ng r ng rãi trong các c quan nhà n c. ượ ử ụ ơ ướ
Riêng ph n nh n d ng t vi t tay v n đang đ c nghiên c u phát ự ế ượ
tri n nh m ph c v cho các yêu c u khác nhau nh đ c và x lý các bi u ư ọ
m u: hóa đ n, phi u đi u tra ... ơ ế ề
Khó khăn l n nh t khi nghiên c u bài toán nh n d ng ch cái ậ ạ
ti ng Vi t s bi n thiên quá đa d ng trong cách vi t c a t ngế ế ế ủ
ng i. Cùng m t ng i vi t nh ng đôi khi cũng nhi u s khácườ ườ ế ư ề ự
bi t trong cách vi t tuỳ thu c vào t ng ng c nh, ki u vi t c a m t ế ữ ả ế
ng i cũng th thay đ i theo th i gian ho c theo thói quen... Đi uườ ể ổ
này gây ra nhi u tr ng i trong vi c nh n d ng cũng nh l a ch n ư ự
mô hình nh n d ng.ậ ạ
1.3. Thi t l p bài toán.ế ậ
Đ tài mà tôi th c hi n là: “ ng d ng m ng Neural Hamming trong bài ự ệ
toán nh n d ng các ch cái Ti ng Vi t”, công vi c chính “Xây d ngậ ạ ế
ch ng trình nh n d ng các ch cái Ti ng Vi t” ý t ng bài toán nh sau:ươ ậ ạ ế ưở ư
Phân tích nh cho t : Chia nh tách t theo t ng vùng gi i ự ừ
h n;
Chuy n đ i kí t sang ma tr n đi m nh; ể ả
Chuy n thành ma tr n tuy n tính và đ a vào m ng neural; ậ ế ư
Đ a vào m ng neural tính giá tr đ u ra.ư ị ầ
Các b c gi i quy t bài toán s d ng m ng neural Hamming nh nướ ế ử ụ
d ng ch cái Ti ng Vi t mô t theo ti n trình chung nh sau: ế ệ ế ư
Hình 1. S đ h th ng nh n d ngơ ồ ệ
1.3.1. nh đ u vàoẢ ầ
V i đ u vào các file nh *ớ ầ .bmp kích c nh là 150 x 150. Sauỡ ả
khi đã n p m u c n nh n d ng ta ti n nh các thao tác x nh đ tách ế ả
ra t . Ta th xác đ nh đ c t d a vào đ ng biên c a t . ượ ự ự ườ
Tr i qua các b c ti n x nh: l c m n nh, nh phân, ch nh nghiêng, ươ ị ả
thông tin tài liệu
Nhận dạng chữ là một lĩnh vực đã được quan tâm nghiên cứu và ứng dụng từ nhiều năm nay theo hai hướng chính: • Nhận dạng chữ in: phục vụ cho công việc tự động hóa đọc tài liệu, tăng tốc độ và hiệu quả nhập thông tin vào máy tính trực tiếp từ các nguồn tài liệu. • Nhận dạng chữ viết tay: với những mức độ ràng buộc khác nhau về cách viết ,kiểu chữ... phục vụ cho các ứng dụng đọc và xử lý chứng từ, hóa đơn, phiếu ghi, bản thảo viết tay... Nhận dạng chữ viết tay được tách thành hai hướng phát triển: nhận dạng chữ viết tay trực tuyến (on-line) và nhận dạng chữ viết tay ngoại tuyến (off-line).
Mở rộng để xem thêm
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×