Luận văn thạc sĩ: Nghiên cứu các phương pháp trích xuất dữ liệu từ Web, thực hiện cài đặt thử nghiệm công cụ trích rút thông tin từ các trang tin tức tiếng Việt. - Tailieu123.org

Sự phát triển nhanh chóng của mạng Web toàn cầu đã sinh ra một khối lượng khổng lồ các dữ liệu dưới dạng siêu văn bản là các trang web. Trong khi dữ liệu trong các cơ sở dữ liệu (CSDL) truyền thống thường là loại dữ liệu đồng nhất (về ngôn ngữ, định dạng,…), còn dữ liệu Web thường không đồng nhất. Ví dụ về ngôn ngữ, dữ liệu Web bao gồm nhiều loại ngôn ngữ khác nhau (cả ngôn ngữ diễn tả nội dung lẫn ngôn ngữ lập trình), nhiều loại định dạng khác nhau (văn bản, HTML, PDF, hình ảnh, âm thanh,…), nhiều loại từ vựng khác nhau (địa chỉ email, các liên kết (links), các mã vùng (zipcode), số điện thoại). Nói cách khác, trang Web thiếu một cấu trúc thống nhất. Chúng được coi như một thư viện kỹ thuật số rộng lớn, tuy nhiên con số khổng lồ các tài liệu trong thư viện thì không được sắp xếp tuân theo một tiêu chuẩn đặc biệt nào, không theo phạm trù, tiêu đề, tác giả, số trang hay nội dung... Do dữ liệu Web không có cấu trúc và thường không đồng nhất nên việc xử lý thông tin trên web phục vụ các yêu cầu tìm kiếm, phân tích thông tin gặp nhiều khó khăn. Yêu cần thiết phải nghiên cứu các phương pháp hiệu quả để xử lý dữ liệu Web, chuyển từ dạng dữ liệu không có cấu trúc, không đồng nhất thành dạng dữ liệu có cấu trúc và đồng nhất hơn. Bước xử lý này có thể được ứng dụng cho nhiều lĩnh vực như dịch tự động và xử lý ngôn ngữ tự nhiên.

Mở rộng để xem thêm

tài liệu mới trong mục này

Giới thiệu chung về bảo mật vô tuyến- Kiến trúc bảo mật mạng GSM và Kiến trúc bảo mật mạng GSM

Tổng quan về cân bằng nước hệ thống và mô hình IQQM, áp dụng mô hình IQQM tính toán cân bằng nước hệ thống Tổng quan về cân bằng nước hệ thống và mô hình IQQM, áp dụng mô hình IQQM tính toán cân bằng nước hệ thống lưu vực sông Kiến Giang, Quảng Bình

Xây dựng cơ sở dữ liệu về đặc trưng lâm học của một số ưu hợp thực vật ưu thế cây họ Sao – Dầu ở Đồng Nai để làm căn cứ xây dựng những biện pháp khai thác – tái sinh, nuôi dưỡng và bảo tồn những hệ sinh thái rừng ưu thế cây họ Sao – Dầu ở Đông Nam Bộ

So sánh một số yếu tố môi trường nước trong quầng nuôi tôm có trồng Rau nhút và tôm có chất chà ở xã Bình Thạnh Đông, huyện Phú Tân, tỉnh An Giang

Khảo sát và phân tích định lượng để tìm hiểu sự khác biệt của các yếu tố môi trường đào tạo, đặc điểm cá nhân và KQHT ở hai trường và so sánh để tìm hiểu sự khác biệt ở hai môi trường giáo dục khác nhau

tài liệu hot trong mục này

Luận văn về các tác nhân ảnh hưởng đến kết quả học tập của sinh viên chính quy trường Đại Học Kinh Tế- TP HCM

Phân lập và xác định được một số đặc tính sinh học của vi khuẩn Streptococcus spp. phục vụ cho nghiên cứu kit chẩn đoán và vacxin phòng bệnh xuất huyết trên cá rô phi tại một số tỉnh miền Bắc

Luận văn thạc sỹ: Phân tích và đánh giá chiến lược kinh doanh tại công ty sữa Vinamilk

Luận văn thạc sĩ: Tổng quan về thị trường chứng khoán Việt Nam và các giải pháp nhằm hạn chế rủi ro trên thị trường chứng khoán Việt Nam