DANH MỤC TÀI LIỆU
Luận văn thạc sĩ khoa học máy tính: Các phương pháp dùng trong trích chọn dữ liệu và nghiên cứu ứng dụng lý thuyết tập thô trong trích chọn dữ liệu
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
Vũ Thị Mai
NGHIÊN CỨU ỨNG DỤNG LÝ THUYẾT TẬP THÔ
TRONG TRÍCH CHỌN DỮ LIỆU
Chuyên ngành: Khoa học máy tính
số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dn khoa học: PGS. TS. Nguyễn Hoàng Phương
Phản biện 1: ……………………………………………………
Phản biện 2: ……………………………………………………
Luận văn s được bảo vệ trước Hội đồng chấm luận văn thạc sĩ
tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: ....... gi ....... ngày ....... tháng ....... .. năm ..........
Có th tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
-1-
MỞ ĐẦU
Ngày nay, phát hiện tri thức (Knowledge Discovery) và khai
phá d liệu (Data mining) là lĩnh vực nghiên cứu đang phát triển
mạnh mẽ. Khai phá dữ liệu được sử dụng với nhng cái tên như là s
thăm dò phân tích bằng cách tự động hoặc bán tự động của mt
số lượng lớn dữ liệu theo một thứ tự để tìm kiếm được những mẫu
ích hoặc các luật.
Mặc khác, trong môi trường cạnh tranh khốc liệt như hiện nay,
người ta ngày càng cn nhiều thông tin với tốc đnhanh đ tr
giúp vic ra quyết định và ngày càng có nhiều câu hỏi mang tính chất
định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã
. Với những do như vậy dẫn tới sự phát triển một khuynh hướng
kthuật mới đó là kthuật phát hiện tri thức và khai phá dliệu
(Knowledge Discovery and Data ming – KDD)
thuyết tập thô được nhà logic học Balan Zdzislak Pawlak
giới thiệu vào đầu những năm 80 [20] được xem như là một cách tiếp
cận mới để phát hiện tri thức. Nó cung cấp mt công cụ để phân tích,
trích chọn dữ liệu tcác dữ liệu không chính xác để phát hiện ra mối
quan h giữa các đối tượng và những tiềm ẩn trong dữ liệu. cho
ta mt cách nhìn đặc biệt về tả, phân tích và thao tác dữ liệu cũng
như một cách tiếp cận đối với tính không chắc chắn và không chính
xác của dữ liệu.
Mục đích của thuyết tập thô là sphân loại của dữ liệu
dạng bảng biểu gọi là h thông tin. Mi hàng biu diễn một đối
tượng (object), mỗi cột biểu diễn một thuộc tính. Nó cung cấp một h
thống trợ giúp phân loại tập dữ liệu, rút trích các thông tin hữu ích từ
tập dữ liệu…Với việc áp dụng thuyết tập thô vào việc trích chọn
dliệu giúp làm gim đi mức độ đồ sộ của hệ thống dữ liệu, giúp
chúng ta thể nhận biết trước loại dữ liệu được xử lý.
Việt Nam thuyết tập thô được chú ý trong một vài năm
gần đây. Có nhiều đề tài nghiên cứu cho kết quả khquan và đã được
đưa vào ứng dụng như xử ảnh trong y tế, khai phá dliệu y tế,
nhận dạng, trí tuệ nhân tạo,…
Cho nên tôi chọn đề tài: Nghiên cứu ứng dụng lý thuyết tập
thô trong trích chọn dữ liệumt kế thừa, phát triển, đóng góp
vào những nghiên cứu về lý thuyết tập thô.
-2-
CHƯƠNG 1: CÁC PHƯƠNG PHÁP DÙNG TRONG
TRÍCH CHỌN DỮ LIỆU
1.1. Tổng quan về khai phá dữ liệu và phát hiện tri thức
1.1.1. Khái niệm về phát hiện tri thức và khai phá dữ liệu
Phát hiện tri thức là lĩnh vực nghiên cứu và ứng dụng tập trung
vào dữ liệu, thông tin và tri thức.
Phát hiện tri thức (Knowledge discovery) trong cơ sở dữ liệu là
quá trình phát hiện các mẫu hay các hình đúng đắn, mới lạ, có lợi
ích tiền tàng và có thể hiểu được trong dữ liệu [11].
Khai phá d liệu (Data mining) mt bước quan trọng của
quá trình phát hiện tri thức bao gồm c giải thuật khai phá dữ liệu
để tìm ra các mẫu hay các hình trong dliệu dưới khnăng có
th chấp nhận được của máy tính điện tử [11].
1.1.2. Quá trình phát hiện tri thức
Các bước của quá trình phát hiện tri thức tả hình 1.1
Bước đầu tiên là khảo sát miền ứng dụng và xác định, phát biểu
vấn đ.
Bước thứ hai là thu thập và tiền xử lý dữ liệu.
Bước thứ ba là s dụng các phương pháp khai pdữ liệu đ
trích rút ra các dạng và các mô hình ẩn trong dữ liệu.
Bước thứ tư giải thích tri thức được phát hiện, sau đó lấy
trung bình các kết quả để đánh giá hiệu năng các luật.
Bước cuối cùng là đưa tri thức được phát hiện sử dụng trong
thực tế.
-3-
1.1.3. Các nhiệm vụ của phát hiện tri thức và khai phá
dữ liệu
- Phát triển sự hiểu biết của miềnng dụng
- Tạo dữ liệu mục tiêu (dữ liệu đầu ra)
- Làm sch dữ liệu tiền xử lý
- Rút gọn dữ liệu và dự báo
- Chọn nhiệm vụ khai phá dữ liệu
- Chọn phương pháp khai phá dữ liệu
- Khai phá dữ liệu để trích xuất các mẫu/mô hình
- Giải thích và đánh giá các mẫu/mô hình
1.1.4. Các thách thức của phát hiện tri thức
- Các cơ sở dữ liệu lớn.
- Dữ liệu nhiều chiu.
- Hiện tượng quá phù hợp (over – fitting).
- Đánh giá ý nghĩa thống kê.
- Dữ liệu động.
- Dữ liệu thiếu và nhiu.
- Các quan hệ phức tạp giữa các trường.
- Khả năng biểu đạt của mẫu.
- Sự tương tác với người dùng và tri thức có sẵn.
- Tích hợp với các hệ thống khác.
1.2. Các phương pháp trích chọn dliệu
Để minh họa cho quá trình trích chọn dliệu tôi xin trình y
dsau: Một tập d liệu hai chiều gồm 23 điểm mẫu. Mỗi điểm
biu thị cho một khách hàng, trục hoành biểu thị thu nhập, trục tung
biu thị tổng nợ. Dữ liệu được chia thành hai lp: dấu x biểu thị
cho khách hàng bvnợ, dấu 0 biu thị cho khách hàng có khng
trnợ. “Nếu thu nhập < t đồng thì khách hàng vay s bị vỡ nợ” như
thình 1.2.
S
ẽ vỡ nợ
0
0
0 0
0
0
0 0
0 0
0
0
Có kh
0
Thu nh
ập
N
Hình 1.2. Tập dữ liệu hai chiều
t
-4-
1.2.1. Cây quyết định
Cây quyết định tả tri thức dạng đơn giản nhằm phân loại
các đối tượng dữ liệu thành mt slớp nhất định. Các nút của y
được gán nhãn là tên các thuộc tính, các cạnh được gán các giá trị
th của các thuộc tính, các lá mô tả các lớp khác nhau. Các đối tượng
được phân lớp theo các đường đi trên cây, qua các cạnh tương ứng
với các giá trị của thuộc tính của đối tượng tới lá.
Hình 1.3 tmt mẫu đầu ra thể của quá trình khai p
dữ liệu dùng phương pháp cây quyết định với tập dữ liệu khách hàng
xin vay vốn.
1.2.2. Phân cụm (Clustering)
Phân cụm hay nhóm là việc tìm ra các nhóm trong d liệu. c
phương pháp phân cụm có thể phân thành hai loại:
- Phân cụm thứ bậc: Mỗi điểm trong dữ liệu được xem như
mt cụm riêng biệt được kết hợp một cách liên tiếp dựa vào các quan
h của nó với các dạng khác.
- Các phương pháp tối ưu hóa dựa trên hàm đối tượng: các
phương pháp này sử dụng một chỉ số hiệu năng để giúp cho việc phát
triển các phân chia tốt của các điểm dữ liệu.
1.2.3. Hồi quy (Regression)
Hồi quy là việc học một hàm ánh xtừ một mu dliệu thành
mt biến dự đoán có giá trị thực.
Hình 1.4 mô t mẫu kết quả dự đoán tổng dư nợ của khách
hàng vi phương pháp khai pdữ liệu là hồi quy. Đường hồi quy
tuyến tính cho thấy rằng nhng khách hàng thu nhp càng cao t
tổng dư nợ càng ln. Mẫu kết quả này không phù hợp với quy luật.
N
ợ <n
N
ợ >
=
n
Không cho vay
Không cho vay Cho vay
Thu nhập < t Thu nhập >= t
Hình 1.3
. Cây
quy
ết định
thông tin tài liệu
Ngày nay, phát hiện tri thức (Knowledge Discovery) và khai phá dữ liệu (Data mining) là lĩnh vực nghiên cứu đang phát triển mạnh mẽ. Khai phá dữ liệu được sử dụng với những cái tên như là sự thăm dò và phân tích bằng cách tự động hoặc bán tự động của một số lượng lớn dữ liệu theo một thứ tự để tìm kiếm được những mẫu có ích hoặc các luật. Mặc khác, trong môi trường cạnh tranh khốc liệt như hiện nay, người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có. Với những lý do như vậy dẫn tới sự phát triển một khuynh hướng kỹ thuật mới đó là kỹ thuật phát hiện tri thức và khai phá dữ liệu (Knowledge Discovery and Data ming – KDD)
Mở rộng để xem thêm
tài liệu giúp tôi
Nếu bạn không tìm thấy tài liệu mình cần có thể gửi yêu cầu ở đây để chúng tôi tìm giúp bạn!
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×