Teorema Bayes adalah teorema yang digunakan dalam statistika untuk menghitung peluang untuk suatu hipotesis. Bayes Optimal Classifier menghitung peluang dari suatu kelas dari masing-masing kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.

Pengklasifikasian menggunakan Teorema Bayes ini membutuhkan biaya komputasi yang mahal (waktu prosessor dan ukuran memory yang besar) karena kebutuhan untuk menghitung nilai probabilitas untuk tiap nilai dari perkalian kartesius untuk tiap nilai atribut dan tiap nilai kelas. Data latih untuk Teorema Bayes membutuhkan paling tidak perkalian kartesius dari seluruh kelompok atribut yang mungkin, jika misalkan ada 16 atribut yang masing-masingnya berjenis boolean tanpa missing value, maka data latih minimal yang dibutuhkan oleh Teorema bayes untuk digunakan dalam klasifikasi adalah 216 = 65.536 data. Untuk mengatasi kekurangan tersebut maka digunakan Naïve Bayes.
Naïve Bayes Classifier merupakan sebuah metoda klasifikasi yang berakar pada teorema Bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yang sangat kuat (naïf) akan independensi dari masing-masing kondisi atau kejadian.
Menurut Olson dan Delen (2008) menjelaskan Naïve Bayes untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan.
The Naive Bayes Classifier bekerja sangat baik dibanding dengan model classifierlainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages” mengatakan bahwa “Naïve Bayes Classifier memiliki tingkat akurasi yang lebih baik dibandingmodel classifier lainnya”.
Berikut ini skema yang sering digunakan dalam proses klasifikasi, yang tentunya juga menyertakan Naïve Bayes Classifier.


Apabila nilai p di substitusi kedalam x yang bersifat independen tidak saling terkait, maka didapatkan formula baru sebagai berikut

Bila p(x|i) dapat diketahui melalui perhitungan diatas, maka kelas (label) dari data sampel X adalah kelas (label) yang memiliki p(x|i) * p(i) maksimum.
Contoh perhitungan klasifikasi menggunakan Naïve Bayesian Classifier ditunjunkan dalam tabel berikut

Hitung P(x|i) untuk setiap class i :
P(age=“<30” | buys_computer=“yes”) = 2/9=0.222
P(age=“<30” | buys_computer=“no”) = 3/5 =0.6
P(income=“medium” | buys_computer=“yes”)= 4/9 =0.444
P(income=“medium” | buys_computer=“no”) = 2/5 = 0.4
P(student=“yes” | buys_computer=“yes)= 6/9 =0.667
P(student=“yes” | buys_computer=“no”)= 1/5=0.2
P(credit_rating=“fair” | buys_computer=“yes”)=6/9=0.667
P(credit_rating=“fair” | buys_computer=“no”)=2/5=0.4
Bila data baru yang belum memiliki class adalah:
X =(age<=30, Income=medium, Student=yes, Credit_rating= Fair)
Hitung P(x|i) untuk class ‘yes’ dan ‘no’:
P(X|buys_computer=“yes”) = 0.222 x 0.444 x 0.667 x 0.0.667 = 0.044
P(X|buys_computer=“no”) = 0.6 x 0.4 x 0.2 x 0.4 =0.019
P(x|i) * P(i) :
P(x | buys_computer = ‘yes’) * P(buys_computer=’yes’)
= 0.044 * 0.667 = 0.029
P(x | buys_computer = ‘no’) * P(buys_computer=’no’)
= 0.019 * 0.4 = 0.007
Maka dapat disimpulkan X memiliki klas “buys_computer=yes” karena P(X|buys_computer=“yes”) memiliki nilai maksimum pada perhitungan di atas.
Comments
Post a Comment