DANH MỤC TÀI LIỆU
Những thuật toán machine learning mà lập trình viên cần biết
T ng h p thu t toán machine learning mà l p trình viên c n bi t ầ ế
Không còn nghi ng gì n a, lĩnh v c h c máy / trí tu nhân t o (AI) đã ự ọ
ngày càng tr nên ph bi n h n trong vài năm qua. M t nhánh nh c a ế ơ ỏ ủ
nó là Big Data đang là xu h ng hot nh t trong ngành công ngh cao ướ ấ
hi n nay, h c máy tr nên r t m nh m đ đ a ra các d đoán ho c ẽ ể ư
g i ý đ c tính d a trên s l ng l n d li u. M t s ví d ph bi n ợ ượ ượ ố ụ ế
nh t v h c máy là các thu t toán c a Netflix đ đ a ra các g i ý v ể ư
phim d a trên nh ng b phim mà b n đã xem trong quá kh ho c các ứ ặ
thu t toán c a Amazon đ xu t các sách d a trên sách mà b n đã mua ề ấ
tr c đây. Nh ng h th ng g i ý đó (Recommended System) s giúp ích ướ ệ ố
khá nhi u cho nh ng ng i dùng trong vi c đ a ra nh ng l a ch n ườ ệ ư
c a mình.
Ngoài ra, AI còn có nh ng kh năng nh nh n d ng bi n s xe t đ ng, ư ự ộ
giúp s a l i chính t , t o các con robot có kh năng giao ti p v i con ả ạ ế
ng i,…Còn nhi u nhi u nh ng kh năng mà AI có th làm đ c. AI đangườ ề ữ ượ
phát tri n và s còn phát tri n m nh trong t ng lai. ể ạ ươ
Machine Learning đ c chia thành 3 nhánh chính: supervised learning (h c ượ ọ
có giám sát), unsupervised learning (h c không có giám sát), và
reinforcement learning (h c tăng c ng). ọ ườ
H c có giám sát đ c dùng trong tr ng h p m t thu c tính (nhãn) ượ ườ ợ ộ
có s n cho m t t p d li u nh t đ nh (t p hu n luy n), nh ng thi u ộ ậ ư ế
và c n đ c d đoán cho các tr ng h p khác. ượ ự ườ
H c không có giám sát thì ng c l i, nó đ c s d ng trong tr ng ượ ượ ử ụ ườ
h p khám phá các m i quan h ti m n trong m t t p d li u không ệ ề ộ ậ ữ ệ
đ c gán nhãn (các m c không đ c ch đ nh tr c).ượ ượ ỉ ị ướ
H c tăng c ng thì n m gi a 2 lo i trên – có m t s hình th c ph n ườ ộ ố
h i có s n cho m i b c tiên đoán ho c hành đ ng, nh ng không có ỗ ướ ư
nhãn chính xác ho c thông báo l iặ ỗ
D i đây là 10 thu t toán r i vào 2 lo i đ u tiên, hi v ng v n đ đ b n ướ ơ ủ ể ạ
quan tâm:
H c có giám sát
1. Cây quy t đ nh (Decision Trees)ế ị
Cây quy t đ nh là công c h tr quy t đ nh s d ng bi u đ d ng cây ế ụ ỗ ế ử ụ ồ ạ
ho c mô hình c a các quy t đ nh và k t qu có th x y ra c a chúng, bao ế ế ả ể ả ủ
g m k t qu s ki n ng u nhiên, chi phí tài nguyên và l i ích. D i đây là ế ả ự ướ
m t ví d đi n hình c a cây quy t đ nh: ụ ể ế ị
Cây quy t đ nh này cho ta g i ý v vi c có đi đá bóng hay không. Ví d , ế ị ề ệ
quang c nh có n ng, đ mộ ẩ trung bình thì tôi s đi đá bóng. Ng c l i, ượ ạ
n u tr iế m aư, gió m nh thì tôi s không đi đá bóng n a.ẽ ữ
Cây quy t đ nh tuy là mô hình khá cũ, khá đ n gi n nh ng v n còn đ c ế ị ơ ượ
ng d ng khá nhi u và hi u qu . Đ ng d i góc nhìn th c t , cây quy t ứ ụ ệ ả ứ ướ ế ế
đ nh là m t danh sách t i thi u các câu h i d ng yes/no mà ng i ta ph i ỏ ạ ườ
h i, đ đánh giá xác su t đ a ra quy t đ nh đúng đ n. ấ ư ế ị
2. Phân lo i Bayes (Naïve Bayes Classification)
Phân lo i Bayes là m t nhóm các phân lo i xác su t đ n gi n d a trên vi c ấ ơ
áp d ng đ nh lý Bayes v i các gi đ nh đ c l p (naïve) gi a các đ c tính. ả ị
Trong đó: P(A|B) là xác su t có đi u ki n A khi bi t B, ế P(A) là xác su t giấ ả
thuy t A (tri th c có đ c v gi i thuy t A tr c khi có d li u B),ế ượ ế ướ ữ ệ P(B|
A) là xác su t có đi u ki n B khi bi t gi thuy t A,P(B) ế ả ế là xác su t c a d ấ ủ
li u quan sát B không quan tâm đ n b t kỳ gi thuy t A nào. ế ấ ế
Thu t toán này đ c áp d ng trong m t s bài toán nh : ượ ộ ố ư
Đánh d u m t email là spam hay không.ấ ộ
Phân lo i bài vi t tin t c thu c lĩnh v c công ngh , chính tr hay th ế ứ ộ
thao.
Ki m tra m t đo n văn b n mang c m xúc tích c c hay tiêu c c. ộ ạ
S d ng cho các ph n m m nh n di n khuôn m t. …ử ụ
3. H i quy tuy n tính (Ordinary Least Squares Regression)ồ ế
N u b n bi t th ng kê, b n có th đã nghe nói v h i quy tuy n tính tr cế ế ề ồ ế ướ
đây. Bình ph ng nh nh tươ là m t ph ng pháp đ th c hi n h i quy ươ ể ự
tuy n tính. B n có th suy nghĩ v h i quy tuy n tính nh là nhi m v k ế ề ồ ế ư ụ ẻ
m t đ ng th ng đi qua m t t p các đi m. Có r t nhi u chi n l c có thộ ườ ế ượ
th c hi n đ c, và chi n l c “bình ph ng nh nh t” s nh th này – ượ ế ượ ươ ư ế
B n có th v m t đ ng th ng, và sau đó v i m i đi m d li u, đo ể ẽ ườ
kho ng cách th ng đ ng gi a đi m và đ ng th ng. Đ ng phù h p nh t ẳ ứ ườ ườ ợ ấ
s là đ ng mà các kho ng cách này càng nh càngẽ ườ
t t.
M t s ví d là ng i ta có th s d ng mô hình này đ d đoán giá c ườ ể ử
(nhà đ t, ch ng khoán), đi m s ,… ể ố
4. H i quy logistic (Logistic Regression)
H i quy logistic là m t cách th ng kê m nh m đ mô hình hóa m t k t ẽ ể ế
qu nh th c v i m t ho c nhi u bi n gi i thích. Nó đo l ng m i quan ộ ặ ề ế ả ườ
h gi a bi n ph thu c phân lo i và m t ho c nhi u bi n đ c l p b ng ế ế ộ ậ
cách c tính xác su t s d ng m t hàm logistic, là s phân b tích lũy ướ ử ụ
logistic.
Thu t toán này đ c s d ng trong m t s tr ng h p: ượ ử ụ ườ
Đi m tín d ng ( quy t đ nh có cho khách hàng vay v n hay không) ế ị
Đo m c đ thành công c a chi n d ch marketingứ ộ ế
D đoán doanh thu c a m t s n ph m nh t đ nh ộ ả
D đoán đ ng đ t …. ộ ấ
5. Support Vector Machines (SVM)
SVM là ph ng pháp phân lo i nh phân. Cho m t t p các đi m thu c 2 ươ ộ ậ
lo i trong môi tr ng N chi u, SVM c g ng tìm ra N-1 m t ph ng đ ườ ố ắ
phân tách các đi m đó thành 2 nhóm. Ví d , cho m t t p các đi m thu c 2 ộ ậ
lo i nh hình bên d i, SVM s tìm ra m t đ ng th ng nh m phân cách ư ướ ộ ư
các đi m đó thành 2 nhóm sao cho kho ng cách gi a đ ng th ng và các ữ ườ
đi m xa nh t có th . ấ ể
Xét v quy mô, m t s v n đ l n nh t đã đ c gi i quy t b ng cách s ề ớ ượ ế
d ng SVM (v i vi c th c hi n s a đ i phù h p) ví d nh hi n th qu ng ư ể
cáo, phát hi n gi i tính d a trên hình nh, phân lo i hình nh có quy mô ệ ớ
l n …
6. K t h p các ph ng pháp (Ensemble Methods)ế ợ ươ
Ph ng pháp này d a trên s k t h p c a m t vài ph ng pháp k trên đươ ự ế ươ
d đoán k t qu , sau đó s đ a ra k t qu cu i cùng d a vào tr ng s c a ế ả ư ế ả
thông tin tài liệu
Machine Learning được chia thành 3 nhánh chính: supervised learning (học có giám sát), unsupervised learning (học không có giám sát), và reinforcement learning (học tăng cường). Dưới đây là 10 thuật toán rơi vào 2 loại đầu tiên, hi vọng vẫn đủ để bạn quan tâm
Mở rộng để xem thêm
xem nhiều trong tuần
yêu cầu tài liệu
Giúp bạn tìm tài liệu chưa có

LÝ THUYẾT TOÁN


×