DANH MỤC TÀI LIỆU
Luận văn thạc sĩ: Nghiên cứu các phương pháp trích xuất dữ liệu từ Web, thực hiện cài đặt thử nghiệm công cụ trích rút thông tin từ các trang tin tức tiếng Việt.
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------------~~~~0~~~~----------------
NGUYỄN THỊ TRANG
NGHIÊN CỨU CÁC PHƯƠNG PHÁP TRÍCH RÚT VĂN BẢN
TỪ TRANG WEB VÀ ỨNG DỤNG
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - NĂM 2013
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: T.S Hoàng Xuân Dậu
Phản biện 1: ……………………………………………………………………………
Phản biện 2: …………………………………………………………………………..
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính
Viễn thông
Vào lúc: ....... giờ ....... ngày ....... tháng ....... .. năm ...............
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 1
MỞ ĐẦU
Sự phát triển nhanh chóng của mạng Web toàn cầu đã sinh ra một khối lượng
khổng lồ các dữ liệu dưới dạng siêu văn bản các trang web. Trong khi dữ liệu trong
các sở dữ liệu (CSDL) truyền thống thường loại dữ liệu đồng nhất (về ngôn ngữ,
định dạng,…), còn dữ liệu Web thường không đồng nhất. dụ về ngôn ngữ, dữ liệu
Web bao gồm nhiều loại ngôn ngữ khác nhau (cả ngôn ngữ diễn tả nội dung lẫn ngôn
ngữ lập trình), nhiều loại định dạng khác nhau (văn bản, HTML, PDF, hình ảnh, âm
thanh,…), nhiều loại từ vựng khác nhau (địa chỉ email, các liên kết (links), các
vùng (zipcode), số điện thoại). Nói cách khác, trang Web thiếu một cấu trúc thống
nhất. Chúng được coi như một thư viện kỹ thuật số rộng lớn, tuy nhiên con số khổng lồ
các i liệu trong thư viện thì không được sắp xếp tuân theo một tiêu chuẩn đặc biệt
nào, không theo phạm trù, tiêu đề, tác giả, số trang hay nội dung... Do dữ liệu Web
không cấu trúc thường không đồng nhất nên việc xử thông tin trên web phục
vụ các yêu cầu tìm kiếm, phân tích thông tin gặp nhiều khó khăn. u cần thiết phải
nghiên cứu các phương pháp hiệu quả để xử dữ liệu Web, chuyển từ dạng dữ liệu
không cấu trúc, không đồng nhất thành dạng dữ liệu cấu trúc đồng nhất hơn.
Bước xử này thể được ứng dụng cho nhiều lĩnh vực như dịch tự động xử
ngôn ngữ tự nhiên.
Luận văn tập trung nghiên cứu các phương pháp trích xuất dữ liệu từ Web. Trên
sở đó, thực hiện cài đặt thử nghiệm công cụ trích rút thông tin từ các trang tin tức tiếng
Việt.
Nội dung luận văn được chia thành 3 chương chính:
Chương 1 Khái quát về khai phá dữ liệu web. Chương y giới thiệu những nội
dung cơ bản nhất, cung cấp một cái nhìn khái quát về khai phá dữ liệu Web. Đồng thời,
luận văn cũng tả bộ các hướng khai phá, các lĩnh vực cũng như bài toán đặt ra
trong khai phá dữ liệu Web.
Chương 2 Các kỹ thuật trích rút văn bản từ trang Web. Chương này trình bày
một cách chi tiết về trích rút thông tin. Đồng thời chương này đưa ra các hướng tiếp
cận trong bài toán trích rút thông tin. Các phương pháp trích lọc văn bản từ Web cũng
được trình bày trong chương này.
Trang 2
Chương 3 i đặt thử nghiệm ứng dụng trích rút n bản từ một số Website tin
tức bằng tiếng Việt. Chương này giới thiệu chương trình viết bằng ngôn ngữ PHP,
sở dữ liệu MySQL dùng để trích rút văn bản từ Web. Chương trình sử dụng nguồn
mở Joomla.
Trang 3
CHƯƠNG I: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU WEB
1.1. Tổng quan về khai phá dữ liệu
1.1.1. Định nghĩa khai phá dữ liệu
Khai phá dữ liệu (data mining) được định nghĩa như là một quá trình chắt lọc
hay khai phá tri thức từ một lượng lớn dữ liệu.
a. Định nghĩa
Khai phá dữ liệu là một bước của quá trình khám phá tri thức (Knowledge
Discovery Process), bao gồm:
Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem
understanding and data understanding).
Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ liệu
(data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data
selection), biến đổi dữ liệu (data transformation).
Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và lựa
chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức thô.
Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc
nguồn tri thức thu được.
Triển khai (Deployment).
Trang 4
Hình 1 – Các bước trong Data mining & KDD
b. Các dạng dữ liệu trong Data mining:
Văn bản (Full text)
Dữ liệu dạng văn bản là một dạng dữ liệu phi cấu trúc với thông tin chỉ gồm các
tài liệu dạng văn bản.
sở dữ liệu văn bản một dạng sở dữ liệu phi cấu trúc dữ liệu bao
gồm các tài liệu thuộc tính của tài liệu. Cơ sở dữ liệu văn bản thường được tổ chức
như một tổ hợp của hai thành phần: Một sở dữ liệu cấu trúc thông thường (chứa
đặc điểm của các tài liệu) và các tài liệu.
Siêu văn bản (Hypertext)
Đó loại văn bản không phải đọc theo dạng liên tục đơn, thể được đọc
theo các thứ tự khác nhau, đặc biệt văn bản ảnh đồ họa (graphic) các dạng
mối liên kết với nhau theo cách mà người đọc có thể không cần đọc một cách liên tục.
Như vậy văn bản siêu văn bản bao gồm dạng chữ viết không liên tục, chúng
được phân nhánh và cho phép người đọc có thể chọn cách đọc theo ý muốn của mình.
thông tin tài liệu
Sự phát triển nhanh chóng của mạng Web toàn cầu đã sinh ra một khối lượng khổng lồ các dữ liệu dưới dạng siêu văn bản là các trang web. Trong khi dữ liệu trong các cơ sở dữ liệu (CSDL) truyền thống thường là loại dữ liệu đồng nhất (về ngôn ngữ, định dạng,…), còn dữ liệu Web thường không đồng nhất. Ví dụ về ngôn ngữ, dữ liệu Web bao gồm nhiều loại ngôn ngữ khác nhau (cả ngôn ngữ diễn tả nội dung lẫn ngôn ngữ lập trình), nhiều loại định dạng khác nhau (văn bản, HTML, PDF, hình ảnh, âm thanh,…), nhiều loại từ vựng khác nhau (địa chỉ email, các liên kết (links), các mã vùng (zipcode), số điện thoại). Nói cách khác, trang Web thiếu một cấu trúc thống nhất. Chúng được coi như một thư viện kỹ thuật số rộng lớn, tuy nhiên con số khổng lồ các tài liệu trong thư viện thì không được sắp xếp tuân theo một tiêu chuẩn đặc biệt nào, không theo phạm trù, tiêu đề, tác giả, số trang hay nội dung... Do dữ liệu Web không có cấu trúc và thường không đồng nhất nên việc xử lý thông tin trên web phục vụ các yêu cầu tìm kiếm, phân tích thông tin gặp nhiều khó khăn. Yêu cần thiết phải nghiên cứu các phương pháp hiệu quả để xử lý dữ liệu Web, chuyển từ dạng dữ liệu không có cấu trúc, không đồng nhất thành dạng dữ liệu có cấu trúc và đồng nhất hơn. Bước xử lý này có thể được ứng dụng cho nhiều lĩnh vực như dịch tự động và xử lý ngôn ngữ tự nhiên.
Mở rộng để xem thêm
tài liệu giúp tôi
Nếu bạn không tìm thấy tài liệu mình cần có thể gửi yêu cầu ở đây để chúng tôi tìm giúp bạn!
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×