-1-
MỞ ĐẦU
Ngày nay, phát hiện tri thức (Knowledge Discovery) và khai
phá dữ liệu (Data mining) là lĩnh vực nghiên cứu đang phát triển
mạnh mẽ. Khai phá dữ liệu được sử dụng với những cái tên như là sự
thăm dò và phân tích bằng cách tự động hoặc bán tự động của một
số lượng lớn dữ liệu theo một thứ tự để tìm kiếm được những mẫu có
ích hoặc các luật.
Mặc khác, trong môi trường cạnh tranh khốc liệt như hiện nay,
người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ
giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất
định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã
có. Với những lý do như vậy dẫn tới sự phát triển một khuynh hướng
kỹ thuật mới đó là kỹ thuật phát hiện tri thức và khai phá dữ liệu
(Knowledge Discovery and Data ming – KDD)
Lý thuyết tập thô được nhà logic học Balan Zdzislak Pawlak
giới thiệu vào đầu những năm 80 [20] được xem như là một cách tiếp
cận mới để phát hiện tri thức. Nó cung cấp một công cụ để phân tích,
trích chọn dữ liệu từ các dữ liệu không chính xác để phát hiện ra mối
quan hệ giữa các đối tượng và những tiềm ẩn trong dữ liệu. Nó cho
ta một cách nhìn đặc biệt về mô tả, phân tích và thao tác dữ liệu cũng
như một cách tiếp cận đối với tính không chắc chắn và không chính
xác của dữ liệu.
Mục đích của lý thuyết tập thô là sự phân loại của dữ liệu ở
dạng bảng biểu gọi là hệ thông tin. Mỗi hàng biểu diễn một đối
tượng (object), mỗi cột biểu diễn một thuộc tính. Nó cung cấp một hệ
thống trợ giúp phân loại tập dữ liệu, rút trích các thông tin hữu ích từ
tập dữ liệu…Với việc áp dụng lý thuyết tập thô vào việc trích chọn
dữ liệu giúp làm giảm đi mức độ đồ sộ của hệ thống dữ liệu, giúp
chúng ta có thể nhận biết trước loại dữ liệu được xử lý.
Ở Việt Nam lý thuyết tập thô được chú ý trong một vài năm
gần đây. Có nhiều đề tài nghiên cứu cho kết quả khả quan và đã được
đưa vào ứng dụng như xử lý ảnh trong y tế, khai phá dữ liệu y tế,
nhận dạng, trí tuệ nhân tạo,…
Cho nên tôi chọn đề tài: “Nghiên cứu ứng dụng lý thuyết tập
thô trong trích chọn dữ liệu” là một kế thừa, phát triển, đóng góp
vào những nghiên cứu về lý thuyết tập thô.