DANH MỤC TÀI LIỆU
Tổng quan về khai phá dữ liệu, mạng nơ ron nhân tạo (Artificial neural network), ứng dụng mạng nơ ron nhân tạo cho bài toán dự đoán phụ tải điện
HC VIN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------
NGUYN TH VÂN ANH
S DNG MẠNG NƠ RON TRONG KHAI PHÁ DỮ LIU
CHUYÊN NGÀNH : TRUYN D LIU VÀ MNG MÁY TÍNH
MÃ S: 60.48.15
TÓM TT LUN VĂN THẠC SĨ K THUT
NGƯỜI HƯỚNG DN KHOA HC : TS. VŨ VĂN THỎA
Hà Ni - 2010
MỞ ĐẦU
Trong môi trường cạnh tranh người ta ngày càng cần có
nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định
và ngày càng nhiều câu hỏi mang tính chất định tính cần phải
trả lời dựa trên một khối lượng khổng lồ dữ liệu đã có. Do đó
thực tế đã làm phát triển một khuynh hướng kỹ thuật mới làm
sao để khai thác tốt cơ sở dữ liệu trong các doanh nghiệp đó là
kỹ thuật khai phá dữ liệu (data mining), vận dụng kỹ thuật đó
thì dữ liệu giao dịch đóng một vai trò rất quan trọng cho việc
hoạch định kế hoạch kinh doanh trên thương trường vào những
năm tiếp theo. Kỹ thuật này đã được sử dụng tại nhiều nơi và đã
cho kết quả khả quan trong nhiều tổ chức trong và ngoài nước
và trên thế giới.
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Mạng nơ ron nhân tạo (Artificial neural network)
Chương 3: Ứng dụng mạng nơ ron nhân tạo cho bài toán dự
đoán phụ tải điện.
Kết luận và hướng nghiên cứu tiếp theo.
Các từ khóa:
Khai phá dữ liệu (datamining), học máy
(machine learning), mạng nơ ron (neural network), MLP
(Multi-layer Perceptron), SOM (Self-organizer map).
32
1
asymmetric fuzzy weight - Decision Support Systems, Vol
24, 1998, 105-126 p.
[12] Rachel Konrad, Data mining: Digging user info for
gold, ZDNET News, February 7, 2001,
[13] Rekesh Arawal, Ramakrishnan Srikant, Fast Algorithms
for Mining Association, IBM Almadem Research Center
650 Harry Road, San Jose, CA 95120.
[14] Stuart Russell and Peter Norvig, Artificial Intelligence -
A Modern Approach. @2003, 1995 by Pearson
Education, Inc.
[15] Trần Bách, Lưới điện và hệ thống điện. NXB Khoa học
và kỹ thuật
[16] The Gartner Group,
[17]
Zhe Liao, Jun Wang - Forecasting model of global stock
index by stochastic time effective neural network- Expert
Systems with Application, Vol.37 (2010), 834-841.
2
31
TÀI LIỆU THAM KHẢO
[1] Ben Krose and Patrick van der Smagt, An Introduction to
Neural Networks, @1996 University of Amsterdam.
[2] David Hand, Heikki Mannila, and Padhraic Smyth,
Principles of Data Mining, MIT Press, Cambridge, MA,
2001.
[3] Daniel T. Larose, Discovering Knowledge in Data: An
Introduction to Datamining, NXB. Wiley Interscience.
[4] The Gartner Group,
[5] Joseph. P. Bigus, Datamining with Neural Network,
@1996 by The McGraw-Hill Companies, Inc.
[6] Lã Văn Út, Phân tích và điều khiển ổn định Hệ thống
điện, NXB Khoa học và kỹ thuật
[7] Martin T. Hagan, Howard B. Demuth, Neural Network
Design, copyright@1996 by PWS Publishing Company,
USA.
[8] Mehmed Kantardzic, Data Mining: Concepts, Models,
Methods, and Algorithms, ©2003 by John Wiley & Sons.
[9] Mehdi Khashei, Mehdi Bijari - An Artificial neural
network (p, d, q) model for timeseries forecasting -
Expert Systems with Application, Vol. 37(2010) 479-489
[10] M. Becvali, M.Cellura, V. Lo Brano, A. Marvuglia-
Forecasting daily urban electric load using artificial
neural networks - Energy Conversion and Management
Vol. 45 (2004) 2879-2900 p.
[11] R. J. Kuo, K. C. Xue - A decision support system for
sales forecasting through fuzzy neural networks with
30
Chương 1. Tổng quan về khai phá dữ
liệu 1.1 Khái niệm
Theo Gartner Group [4] “Khai phá dữ liệu là quá trình
khám phá các tương quan, mẫu các xu thế mới ý nghĩa
bằng việc dịch chuyển thông qua lượng lớn các dữ liệu được
lưu trữ, sử dụng các công nghệ nhận dạng mẫu cũng như
các công nghệ thống kê, toán”.
Ta có thể phân khai phá dữ liệu thành một trong hai loại sau:
1. Khai phá dữ liệu có tính dự đoán: tức là là sản xuất ra
mô hình của hệ thống được mô tả bởi tập dữ liệu được cho.
2. Khai phá dữ liệu có tính mô tả: tức là sản xuất ra thông
tin mới, không tầm thường dựa trên tập dữ liệu có sẵn.
1.2 Các nhiệm vụ của khai phá dữ liệu
1.2.1 tả: Đôi khi, c nhà nghiên cứu phân tích đơn
giản cố gắng tìm cách tả các mẫu và các xu thế nằm
trong dữ liệu. Các hình khai phá dữ liệu nên minh
bạch ở mức có thể.
1.2.2 Ước lượng: Ước lượng tương t như phân loại trừ
việc biến mục đích là số chứ không phải là loại.
1.2.3 Dự đoán: Dự đoán giá cả thị trường ba tháng trong
tương lai, dự đoán tăng phần trăm trong tai nạn giao thông
năm tiếp theo nếu giới hạn tốc độ được tăng lên
3
1.2.4 Phân loại: Trong phân loại, có một biến loại mục đích,
như mức thu nhập, thể được phân đoạn thành ba lớp
hoặc ba loại: thu nhập cao, thu nhập giữa và thu nhập thấp
1.2.5 Phân cụm (Clustering): Phân cụm nhằm vào việc
nhóm các bản ghi, hoặc các trường hợp thành c lớp đối
tượng tương tự.
1.2.6 Luật kết hợp: Nhiệm vụ kết hợp cho khai phá dữ liệu
là công việc tìm kiếm các thuộc tính “đi cùng nhau”, khám
phá c luật cho việc xác định mối quan hệ giữa hai hoặc
nhiều hơn thuộc tính.
1.3 Quá trình khai phá dữ liệu
1.3.1 Phát biểu bài toán và đề ra giả thiết
Trong bước này, một người lên hình thường xác định một
tập các biến cho sự phụ thuộc không biết trước, và nếu có thể, một
dạng chung của sự phụ thuộc này là một giả thiết đầu tiên.
1.3.2 Thu thập dữ liệu
Bước này liên quan tới việc dữ liệu được sưu tập sinh ra
như thế nào. Với hướng tiếp cận này, thì dữ liệu ngẫu nhiên s
được sinh, được giả thiết trong phần lớn các ứng dụng khai phá
dữ liệu.
1.3.3 Tiền xử lý dữ liệu
Trong hướng tiếp cận quan sát, dữ liệu thường được “sưu
tập” từ các sở dữ liệu đang tồn tại, các kho dữ liệu, các
trung tâm dữ liệu. Tiền xử dữ liệu thường bao gồm ít nhất hai
nhiệm vụ sau:
a) Phát hiện (và loại bỏ) các dữ liệu ngoại
lai. 4
như quá trình học nội dung học của chúng. Đến nay,
rất nhiều hình mạng ron nhân tạo, tuy nhiên do giới hạn
của luận văn chúng tôi tìm hiểu sâu về hai hình đó mạng
tự tổ chức (SOM) mạng truyền thẳng đa tầng (MLP) đây
hai mô hình được sử dụng phổ biến và rộng rãi cho các bài toán
dữ liệu lớn, độ biến thiên cao ưu điểm của kỹ thuật
này chính khả năng tính xấp xỉ chính xác cho bất kỳ hàm cần
dự đoán nào.
Cuối cùng, để ứng dụng quá trình khai phá dữ liệu sử dụng
kỹ thuật mạng ron, trong chương 3, chúng tôi giới thiệu bài
toán phụ tải điện năng, một trong những bài toán phù hợp với
việc sử dụng mạng nơ ron, với đầu ra dự đoán phụ tải điện
ngắn hạn trong vòng 24 giờ tới.
Với việc thu thập dữ liệu 2 năm 2005 và 2006, chúng tôi đã
chuẩn hóa hơn 600 vec tơ làm đầu vào cho mạng nơ ron.
Với việc sử dụng mạng SOM, chúng tôi đã xây dựng được
cấu trúc lưới SOM tối ưu nhất 8 8, tiếp theo chúng tôi
tiến hành phân cụm hiệu quả sử dụng giải thuật K-means
với số cụm tốt nhất là 9.
Để dự đoán phụ tải điện năng trong 24 giờ tới, chúng tôi sử
dụng kết quả phân cụm của SOM cùng với một số dữ liệu
phụ tải điện quá khứ để tiến hành huấn luyện cho một mạng
truyền thẳng đa tầng (MLP) với thiết kế 50 nút tầng ẩn và
24 đầu ra cho các giá trị phụ tải điện của các giờ trong ngày.
Kết quả thu được hết sức khả quan khả năng ứng dụng
trong việc dự đoán phụ tải cho bên quản hthống điện miền
Bắc.
29
sai số giữa phtải dự đoán phụ tải thực tế rất nhỏ, trong
khi đó đường phụ tải dự đoán khoảng từ 1h chiều đến 4h chiều
sai số khá lớn. Điều này phần lớn xảy ra do dữ liệu phụ tải
không được đúng trong khoảng đó. Ngoài ra, trong luận văn này,
chúng tôi chỉ dự đoán phụ tải qua dữ liệu phụ tải điện trong quá
khứ, nếu muốn được chính xác hơn ta sẽ cần thêm một số điều
kiện của thời tiết như nhiệt độ, độ ẩm, thì đường dự đoán phụ
tải điện và phụ tải điện thực tế sẽ có sai số bé hơn.
Kết luận
Luận văn trình bày với cấu trúc 3 chương, với mục đích thể
hiện việc khai phá dữ liệu thông qua kỹ thuật mạng ron
minh họa cthể qua bài toán phụ tải điện năng. Các kết quả
chính của luận văn là:
chương 1, chúng tôi đã nghiên cứu tổng quan về khai phá
dữ liệu, phân loại khai phá dữ liệu, đưa ra được các nhiệm vụ
của khai phá dữ liệu đó là mô tả, ước lượng, dự đoán, phân loại,
phân cụm cuối cùng luật kết hợp. Tiếp theo, phân tích
về quá trình khai phá dữ liệu bao gồm 5 bước: Phát biểu bài
toán đề ra giả thiết. Thu thập dữ liệu. Tiền xử dữ liệu.
Ước lượng mô hình. Diễn giải mô hình và đưa ra kết luận.
chương 2, chúng tôi đi vào nghiên cứu về kỹ thuật mạng
ron, một trong các phương pháp được ứng dụng nhiều
mang lại hiệu quả cao trong các nhiệm vụ khai phá dữ liệu. Bắt
đầu với việc giới thiệu về mạng ron sinh học, rồi n
hình toán cụ thể cho một ron nhân tạo, chúng tôi m hiểu
tiếp về kiến trúc của mạng ron nhân tạo gồm mạng truyền
thẳng, mạng hồi quy, và khả năng học sửa lỗi của mạng nơ ron
28
b) Lên tỉ lệ, mã hóa, và lựa chọn các thuộc tính.
Hai lớp nhiệm vụ tiền xử này chỉ các dụ tả của
một phạm vi lớn các hoạt động tiền xử trong một quá trình
khai phá dữ liệu.
1.3.4 Ước lượng mô hình
Sự lựa chọn và thực hiện kỹ thuật khai phá dữ liệu thích hợp
nhiệm vụ chính trong giai đoạn này. Quá trình này không dễ
dàng, trong thực hành việc thực thi dựa trên một vài nh,
m theo nhiệm vụ chọn được cái tốt. Phần đầu tiên của
dữ liệu được gọi tập học, phần tiếp theo được gọi tập xác
nhận, cũng được gọi là tập kiểm tra. Một mô hình được nhận ra
thông qua quá trình khai phá dữ liệu sử dụng c kỹ thuật học
quy nạp thể được ước lượng sử dụng tham số tốc độ lỗi
chuẩn như một phép đo việc thực hiện của nó.
1.3.5 Diễn giải mô hình và đưa ra kết luận
Trong phần lớn các bài toán, các mô hình khai phá dữ liệu hỗ
trợ trong phần ra quyết định. Do vậy, các hình thực sự hữu
ích thì cần thiết phải diễn giải được bởi vì con người không chắc
chắn dựa vào c quyết định của chúng trên các nh “khép
kín” phức tạp. Để ý rằng c đích của sự chính xác của một
hình trái ngược với schính xác của sự diễn giải của nó. Thông
thường, các mô nh đơn giản là diễn giải được nhiều hơn,
nhưng chúng cũng kém chính xác hơn. Các phương pháp khai
phá dữ liệu hiện đại được mong đợi gặt hái các kết quả chính
xác cao sử dụng các mô hình có số chiều cao.
5
thông tin tài liệu
Trong môi trường cạnh tranh người ta ngày càng cần có nhiều thông tin với tốc độ nhanh để trợ giúp việc ra quyết định và ngày càng nhiều câu hỏi mang tính chất định tính cần phải trả lời dựa trên một khối lượng khổng lồ dữ liệu đã có. Do đó thực tế đã làm phát triển một khuynh hướng kỹ thuật mới làm sao để khai thác tốt cơ sở dữ liệu trong các doanh nghiệp đó là kỹ thuật khai phá dữ liệu (data mining), vận dụng kỹ thuật đó thì dữ liệu giao dịch đóng một vai trò rất quan trọng cho việc hoạch định kế hoạch kinh doanh trên thương trường vào những năm tiếp theo. Kỹ thuật này đã được sử dụng tại nhiều nơi và đã cho kết quả khả quan trong nhiều tổ chức trong và ngoài nước và trên thế giới.
Mở rộng để xem thêm
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×