3.4 Môi trường lập trình song song............................................................................................45
3.4.1 Mô hình MPI (Message Passing Interface)..............................................................46
3.4.2 PVM (Parallel Virtual Machine)......................................................................................46
3.4.3 So sánh giữa MPI và PVM............................................................................................46
3.5 Giao thức truyền thông điệp MPI.........................................................................................47
Chương 2: Giới thiệu về module Crawler trong các máy tìm kiếm.......................13
2.1 Tổng quan:..................................................................................................................................13
2.2 Cấu trúc cơ bản của một crawler..........................................................................................15
2.2.1 Frontier................................................................................................................................16
2.2.2 History và kho chứa trang web....................................................................................17
2.2.3 Tải các trang web (fetching).........................................................................................18
2.2.4 Duyệt nội dung (parsing)...............................................................................................19
2.2.4.1. Quá trình lấy ra và chuẩn hóa các URL..............................................................20
2.2.4.2 Loại bỏ các từ dừng và chuyển các dạng thức của từ sang dạng gốc............21
2.2.4.3 Xây dựng cây các thẻ HTML.................................................................................21
2.3 Các crawler đa luồng (Multi-threaded crawlers).............................................................22
2.4. Các thuật toán crawling.........................................................................................................24
2.4.1 Thuật toán Naïve tốt nhất đầu tiên..............................................................................24
2.4.2 Thuật toán SharkSearch.................................................................................................25
2.4.3 Crawler có trọng tâm (focused crawler)...................................................................26
2.3.4 Các crawler tập trung theo ngữ cảnh (context focused crawler).......................27
2.4. Các tiêu chuẩn đánh giá các crawler..................................................................................29
2.4.1 Độ quan trọng của trang web.............................................................................................29
2.4.2 Các phân tích tổng hợp........................................................................................................31
Chương 4. Giới thiệu về máy tìm kiếm ASPseek và đề xuất giải pháp song
song hóa................................................................................................................................................50
4.1 Giới thiệu chung về máy tìm kiếm ASPseek....................................................................50
4.1.1 Một số tính năng của ASPseek....................................................................................50
4.1.2 Các thành phần của ASPseek.......................................................................................51
a. Module đánh chỉ số (indexing)........................................................................................51
b. Module tìm kiếm (searchd)..............................................................................................52
c. Module tìm kiếm s.cgi.......................................................................................................52
4.2 Cấu trúc cơ sở dữ liệu trong máy tìm kiếm ASPseek....................................................52
4.2.1 Cấu trúc một số bảng chính trong cơ sở dữ liệu của ASPseek...........................53
4.2.2 Cấu trúc một số file nhị phân trong cơ sở dữ liệu của ASPseek........................56
4.2.2.1 Cấu trúc các file nhị phân trong thư mục xxw:..................................................56
4.3 Tìm hiểu về việc thực thi quá trình crawler trong module index của máy tìm
kiếm VietSeek...................................................................................................................................60