Skip to main content

NAÏVE BAYES CLASSIFIER


Teorema Bayes adalah teorema yang digunakan dalam statistika untuk menghitung peluang untuk suatu hipotesis. Bayes Optimal Classifier menghitung peluang dari suatu kelas dari masing-masing kelompok atribut yang ada, dan menentukan kelas mana yang paling optimal.




Pengklasifikasian menggunakan Teorema Bayes ini membutuhkan biaya komputasi yang mahal (waktu prosessor dan ukuran memory yang besar) karena kebutuhan untuk menghitung nilai probabilitas untuk tiap nilai dari perkalian kartesius untuk tiap nilai atribut dan tiap nilai kelas. Data latih untuk Teorema Bayes membutuhkan paling tidak perkalian kartesius dari seluruh kelompok atribut yang mungkin, jika misalkan ada 16 atribut yang masing-masingnya berjenis boolean tanpa missing value, maka data latih minimal yang dibutuhkan oleh Teorema bayes untuk digunakan dalam klasifikasi adalah 216 = 65.536 data. Untuk mengatasi kekurangan tersebut maka digunakan Naïve Bayes.

Naïve Bayes Classifier merupakan sebuah metoda klasifikasi yang berakar pada teorema Bayes. Metode pengklasifikasian dengan menggunakan metode probabilitas dan statistik yang dikemukakan oleh ilmuwan Inggris Thomas Bayes, yaitu memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya sehingga dikenal sebagai Teorema Bayes. Ciri utama dari Naïve Bayes Classifier ini adalah asumsi yang sangat kuat (naïf) akan independensi dari masing-masing kondisi atau kejadian.


Menurut Olson dan Delen (2008) menjelaskan Naïve Bayes untuk setiap kelas keputusan, menghitung probabilitas dengan syarat bahwa kelas keputusan adalah benar, mengingat vektor informasi obyek. Algoritma ini mengasumsikan bahwa atribut obyek adalah independen. Probabilitas yang terlibat dalam memproduksi perkiraan akhir dihitung sebagai jumlah frekuensi dari "master" tabel keputusan.


The Naive Bayes Classifier bekerja sangat baik dibanding dengan model classifierlainnya. Hal ini dibuktikan oleh Xhemali, Hinde dan Stone dalam jurnalnya “Naïve Bayes vs. Decision Trees vs. Neural Networks in the Classification of Training Web Pages” mengatakan bahwa “Naïve Bayes Classifier memiliki tingkat akurasi yang lebih baik dibandingmodel classifier lainnya”.


Berikut ini skema yang sering digunakan dalam proses klasifikasi, yang tentunya juga menyertakan Naïve Bayes Classifier.










Apabila nilai p di substitusi kedalam x yang bersifat independen tidak saling terkait, maka didapatkan formula baru sebagai berikut



Bila p(x|i) dapat diketahui melalui perhitungan diatas, maka kelas (label) dari data sampel X adalah kelas (label) yang memiliki p(x|i) * p(i) maksimum.


Contoh perhitungan klasifikasi menggunakan Naïve Bayesian Classifier ditunjunkan dalam tabel berikut




Hitung P(x|i) untuk setiap class i :


P(age=“<30” | buys_computer=“yes”) = 2/9=0.222


P(age=“<30” | buys_computer=“no”) = 3/5 =0.6


P(income=“medium” | buys_computer=“yes”)= 4/9 =0.444


P(income=“medium” | buys_computer=“no”) = 2/5 = 0.4


P(student=“yes” | buys_computer=“yes)= 6/9 =0.667


P(student=“yes” | buys_computer=“no”)= 1/5=0.2


P(credit_rating=“fair” | buys_computer=“yes”)=6/9=0.667


P(credit_rating=“fair” | buys_computer=“no”)=2/5=0.4


Bila data baru yang belum memiliki class adalah:

X =(age<=30, Income=medium, Student=yes, Credit_rating= Fair)
Hitung P(x|i) untuk class ‘yes’ dan ‘no’:


P(X|buys_computer=“yes”) = 0.222 x 0.444 x 0.667 x 0.0.667 = 0.044
P(X|buys_computer=“no”) = 0.6 x 0.4 x 0.2 x 0.4 =0.019


P(x|i) * P(i) :

P(x | buys_computer = ‘yes’) * P(buys_computer=’yes’)
= 0.044 * 0.667 = 0.029


P(x | buys_computer = ‘no’) * P(buys_computer=’no’)
= 0.019 * 0.4 = 0.007


Maka dapat disimpulkan X memiliki klas “buys_computer=yes” karena P(X|buys_computer=“yes”) memiliki nilai maksimum pada perhitungan di atas.

Comments

Popular posts from this blog

How to choose between the Canon 700D or Nikon D5300

Canon EOS   700D   and Nikon   D5300   is a   digital SLR camera   aimed at   novice photographers .   Nevertheless ,   there are   features   on   both cameras are   much the same with   a more   sophisticated   camera   /   semi - pro,   so it   is good enough to   be used   in various   scene conditions .   From the shape   and size ,   at a second glance   something like the   camera .   But   when viewed   more closely ,   overall   more   compact   Nikon   D5300   a few   millimeters   and   about 100   grams lighter .   The new lens   Nikon   18-55mm   VR   II also   shorter   in   the off condition .   This can be achieved   because   the plastic   material   of the   camera   thinner . In   ...

10 Minuman Tradisional Khas Indonesia

1. Cendol  Merupakan minuman khas Indonesia yang terbuat dari tepung beras, disajikan dengan es parut serta gula merah cair dan santan. Rasa minuman ini manis dan gurih. Di daerah Sunda minuman ini dikenal dengan nama cendol sedangkan di Jawa Tengah dikenal dengan nama es dawet. Berkembang kepercayaan populer dalam masyarakat Indonesia bahwa istilah “cendol” mungkin sekali berasal dari kata “jendol”, yang ditemukan dalam bahasa Sunda, Jawa dan Indonesia; hal ini merujuk sensasi jendolan yang dirasakan ketika butiran cendol melalui mulut kala tengah meminum es cendol. Tepung beras diolah dengan diberi pewarna berwarna hijau dan di cetak melalui saringan khusus, sehingga berbentuk buliran. Pewarna yang digunakan awalnya adalah pewarna alami dari daun pandan, namun saat ini telah digunakan pewarna makanan buatan. Di Sunda cendol dibuat dengan cara mengayak kukusan tepung beras yang diwarnai dengan daun suji dengan ayakan sehingga diperoleh bentuk bulat lonjong yang lancip di ...

An Supervised Artificial Neural Network Method for Sattelite Image Segmentation

Image segmentation   is   an important   step   in image processing   ( image processing).   The main purpose   of   segmentation   is   to   simplify   and   or   to   change the   representation   of   an   image   into a form that   is easier   to   analyze.   Already there are   several   methods of   image segmentation   are   found ,   but   most of   these methods are not   suitable   for   satellite imagery   and   -Method   method   requires   a   knowledge of   the initial   ( a priori   knowledge) .   To   overcome these problems ,   a   satellite   image segmentation   method   is developed   using   an   artificial neural network method   without   learning   ( unsupervised )   called ...