Email (Electronic Mail) adalah salah satu media komunikasi dengan metode bertukar informasi secara digital melalui internet atau jaringan komputer lain. Informasi dapat berupa pesan, file (attachment), atau berupa media iklan dan promosi dari suatu perusahaan atau produk tertentu. Dari segi penggunaannya sendiri, email adalah alat komunikasi yang mudah digunakan oleh seluruh kalangan masyarakat baik untuk kepentingan personal maupun kepentingan suatu instansi atau komunitas. Selain itu fasilitas email terhitung murah dan tidak terpatok pada jarak tujuan pengiriman. Penggunaan email juga memiliki dampak positif dan negatif. Dampak positifnya seperti yang telah dijabarkan tadi yaitu mudah digunakan, murah, dan jangkauan tempat luas sedangkan dampak negatif yang ditimbulkan salah satunya adalah spam mail. Spam mail atau biasa disebut junk mail itu sendiri adalah penyalahgunaan sistem pesan elektronik untuk mengirim berita iklan dan keperluan lain secara massal dan tidak dikehendaki penerimanya. Isi dari spam email biasanya berupa iklan produk barang atau jasa, virus, pornografi, dan content – content tidak penting lainnya.
Kerugian yang didapat dari penerimaan spam mail antara lain inbox email akan penuh dengan spam mail yang nantinya menutup email lain yang sekiranya lebih penting. Selain itu untuk menghapus spam mail tersebut satu persatu akan membuang waktu secara percuma. Hal ini belum termasuk apabila pengguna tidak sengaja membuka spam email yang berisi content virus di dalamnya sehingga merusak sistem komputer pengguna itu sendiri.
Langkah antisipasi dari spam mail ini sendiri sudah ada yaitu dengan cara penyaringan email (email filtering) melalui perangkat lunak khusus email filtering atau fasilitas email filtering yang saat ini telah disediakan oleh beberapa host mail. Ada beberapa metode dari email filtering, salah satu metode email filtering yang cukup efektif yaitu naive bayesian filtering. Merode ini merupakan pengaplikasian dari teorema probabilitas yaitu teorema bayes dan klasifikasi naive bayesian. Pengaplikasian kedua teorema tersebut menghasiklan sebuah sistem email filtering yang cukup efektif, memiliki tingkat akurasi cukup tinggi, dan menghasilkan galat minimum sehingga mudah untuk dikembangkan.
PEMBAHASAN
Email Filtering
Dalam penggunaan layanan email tentu saja tidak terlepas dari spam mail yang dari hari ke hari jumlah spam mail yang diterima oleh sebagian besar pengguna email semakin banyak dan tentunya sangat mengganggu. Hal ini belum termasuk kemungkinan dalam spam mail tersebut mengandung virus atau hal – hal yang tentunya tidak diinginkan. Pengguna email biasanya mengalami masalah dalam menghapus spam mail satu persatu sehingga banyak waktu yang tebuang percuma. Salah satu cara yang dapat digunakan yaitu email filtering dimana mengaplikasikan proses pemilahan email
untuk menentukan apakah email tersebut adalah email spam atau bukan spam. Kebutuhan dari email filtering adalah sebagai berikut :
- Binary Class – Email filtering hanya mengklasifikasikan email ke dalam kelas spam mail dan legitimate mail
- Easy Computation – Melakukan komputasi terhadap sifat data email yang memiiki dimensi tinggi
- Prediksi – Mampu memprediksi kelas dari suatu email
- Learning – Mampu melakukan learning (menyimpan memori) dari email – email yang sudah ada sebelumnya
- Kinerja – Memiliki akurasi tinggi, meminimalisir nilai false positif dan mentolerir nilai false negatif yang cukup tinggi
Beberapa metode yang dapat digunakan untuk email filtering antara lain Black listing dan White listing, Signature-Based Filtering, Naive Bayesian (Statistical) Filtering, Keyword filtering, Rule-based filtering, dan Challenge-response filtering. Pada kali ini metode yang disorot adalah Naive Bayesian Filtering.
Teorema Bayes
Nama teorema Bayes diambil dari nama penemu teorema tersebut yaitu Thomas Bayes (1702 – 1761). Teorema Bayes dalam probabilitas dan statistika menunjukkan hubungan antara dua probabilitas kondisional dimana kedua kondisi tersebut saling bertolak belakang dan memperhitungkan bahwa probabilitas suatu kejadian (hipotesis) bergantung pada keadaan lain (bukti). Ringkasnya yaitu teorema tersebut menyatakan bahwa suatu kejadian yang terjadi di masa depan atau yang belum terjadi dapat diprediksi sebelumnya dengan syarat kejadian sebelumnya telah terjadi. Probabilitas itu sendiri dapat dideffinisikan sebagai ukuran kuantitatif dari suatu ketidakpastikan informasi atau peristiwa. Probabilitas memiliki indeks nilai yang berkisr antara 0 sampai 1. Hal ini juga dipengaruhi oleh jumlah total kejadian selama percobaan. Apabila probabilitas suatu keadaan adalah 0 (nol), maka keadaan tersebut dapat diyakinkan pasti tidak akan terjadi. Namun, apabila probabilitas suatu keadaan adalah 1, maka keadaan tersebut dapat diyakinkan pasti akan terjadi. Sedangkan misalkan suatu kejadian memiliki probabilitas 0,5 maka kejadian tersebut memiliki tingkat keraguan yang maksimum. Keadaan probabilitas dapat digambarkan seperti di bawah ini:
Dalam Teorema Bayes sering disebut istilah probabilitas bersyarat. Probabilitas bersyarat adalah suatu kejadian yang mungkin atau tidak tergantung pada terjadinya peristiwa lain. Ketergantungan ini dapat ditulis dalam bentuk probabilitas bersyarat sebagai berikut :
P(A| B)
Maksudnya adalah probabilitas bahwa kejadian A akan terjadi apabila kejadian B terjadi atau bisa disebut sebagai probabilitas gabungan kejadian A dan B. Dari kondisi tersebut dapat dirumuskan suatu hubungan sebagai berikut:
Dengan penjelasan sebagai berikut :
P(A) adalah probabilitas sebelum (tanpa syarat atau probabilitas marjinal) kejadian A. Maksudnya ini adalah kejadian A sebelum memperhitungkan segala informasi tentang kejadian B.
- P(B) adalah probabilitas atau marjinal sebelum kejadian B dan bertindak sebagai konstanta normalisasi.
- P(A|B) adalah probabilitas bersyarat dari kejadian A apabila kejadian B telah terjadi.
- P(B|A) adalah probabilitas bersyarat dari kejadian B apabila kejadian A telah terjadi.
Misalkan kejadian A adalah independen atau saling bebas terhadap kejadian B, maka teorema Bayes dapat dituliskan sebagai berikut :
Umum teorema Bayes dapat dituliskan dalam bentuk :
Jika( Ai ) membentuk partisi dari ruang kejadian untuk setiap ( Ai ) dalam partisi. Teorema Bayes dalam hal ini memberikan representasi secara matematis tentang bagaimana probabilitas bersyarat kejadian A dan B yang diberikan adalah saling berkaitan dengan probabilitas bersyarat B karena A.
Aplikasi Naive Bayesian Filtering dalam Email Filtering
Bayesian Filtering memudahkan kita untuk memprediksi kemungkinan apakah suatu email adalah spam dari hasil tes kata yaitu keadaan dari kata – kata tertentu yang telah ditentukan sebelumnya. Misalnya, kata – kata seperti “viagra” memiliki peluang lebih besar untuk muncul dalam spam mail dibanding email normal. Spam filtering berdasarkan sistem blacklist adalah kurang direkomendasikan karena metode tersebut terlalu ketat dan kemungkinan false positif cukup tinggi. Tetapi, Bayesian filtering memberikan jalan tengah karena konsep yang digunakan adalah probabilitas. Pada saat menganalisa kata – kata dalam sebuah email maka dapat dihitung peluang bahwa email tersebut adalah spam, bukan langsung merujuk pada keputusan ya atau tidak dalam pengidentifikasian awal. Apabila email tersebut memiliki 99% peluang email spam, maka kemungkinan besar email tersebut adalah email spam. Semakin berkembangnya filter makan akan semakin diperbaharui probabilitas kata – kata tertentu yang merujuk pada email spam. Kata – kata tertentu telah ditentukan pada awal. Bayesian filter dapat memeriksa beberapa kata dalam satu baris sebagai jalur data. Aplikasi dari Teorema Bayes dalam Email filtering secara mudahnya adalah sebagai berikut :
a. Kejadian A : Email adalah spam
b. Tes X : Email mengandung kata – kata tertentu (X)
Dalam aplikasi nyata, email filtering menekankan pada konsep Naive Bayesian dengan kasus sebagai berikut :
Misalkan seorang pengguna mendapat sebuah email. Dengan metode Naive Bayesian filtering hal yang dilakukan pertama kali yaitu membagi email tersebut per kata secara independen. Tiap kata tersebut dinyatakan dalam notasi Wi. Untuk mengetahui peluang bahwa email tersebut adalah spam mail maka dapat dinyatakan dalam sebuah pernyataan sebagai berikut :
P(spam|Wi)
Pada langkah ini diaplikasikan Teorema Bayes berdasarkan pengamatan pada kata tersebut :
Berdasarkan persamaan tersebut maka dapat diasumsikan bahwa :
a. Total n kata yang muncul di spam mail maupun non-spam mail telah didata dalam sebuah list
b. Peluang independen dari setiap kata yang muncul apabila email telah dinyatakan spam didata dalam list
c. Kata i W terdapat dalam list
d. Diketahui jumlah total dari spam mail dan nonspam mail Cara untuk mendeteksi apakah email tersebut adalah spam maka dilakukan dua langkah yaitu sebagai berikut :
- Mengidentifikasi jumlah dari setiap kata yang muncul apakah termasuk spam atau non-spam mail, ini mengarahkan kita untuk mendefinisikan P(Wi|spam) dan P(Wi|nonspam) berdasarkan probabilitas kondisional yang tidak terdapat dalam persamaan diatas. Bagaimanapun juga, ini akan muncul dalam perhitungan P(Wi|nonspam)
- Menghitung jumlah total spam dan non-spam emal, ini mengarahkan kita untuk mendefinisikan P(Wi|spam) dan P(Wi|nonspam)
Sampai tahap ini, kita telah menyatakan peluang bahwa email tersebut adalah spam mail berdasarkan pengamatan dari setiap kata yang terdapat dalam email tersebut. Ini merupakan pendekatan sub optimal dimana merupakan pendekatan yang lebih baik dapat di komputasikan sehingga dapat dinyatakan bahwa email tersebut adalah spam mail berdasarkan seluruh data yang tersedia (seluruh kata yang terdapat dalam email tersebut). Ada banyak cara untuk menyelesaikan permasalahan ini, salah satu pendekatan yang mungkin dapat dipertimbangkan yaitu melalui bukti yang disediakan oleh
seluruh kata dalam email tersebut kemudian dikomputasi dengan peluang kombinasi dari seluruh kata tersebut. Pendekatan ini diprediksi dengan asumsi bahwa kondisi dari seluruh kata dalam email tersebut adalah independen (bebas) terhadap satu sama lain. Misalkan asumsi saling bebas itu benar adanya maka kita dapat merumuskan kombinasi peluang sebagai berikut :
Dari persamaan diatas dapat dihitung peluang bahwa email yang masuk adalah spam dengan mengombinasikan peluang independen dari email yang diidentifikasi sebagai spam berdasarkan kemunculan kata dalam email tersebut. Misalkan ada sedikitnya dua implementasi yang berbeda dari persamaan di atas, dalam satu kasus, kita dapat mempertimbangkan hanya kata – kata unik yang terdapat dalam email. Alternatif lain, kita dapat mempertimbangkan setiap kata dalam email tersebut walaupun dipakai secara berulang kali. Dari pernyataan diatas dapat disimpulkan bahwa kemungkinan email yang masuk ke inbox pengguna adalah spam, tetapi ini hanya sebuah kemungkinan, belum pernyataan akhir. Hal yang dapat disimpulkan secara jelas adalah apabila peluang spam email bernilai lebih dari 0,5 maka dapat dipastikan email tersebut adalah spam, apabila peluang bernilai kurang dari 0,5 maka dapat dideklarasikan bahwa email itu bukan spam. Namun, apabila ternyata peluangnyatepat sebesar 0,5 maka nantinya akan diserahkan kepada pengguna email apakah nantinya pengguna mendeteksi dan menolak email tersebut atau tidak.
Kenggulan Naive Bayesian dalam Email Filtering
Naive bayesian filtering memiliki kelebihan dibandingkan dengan metoda filtering yang lain, diantaranya adalah:
- Komputasi yang mudah dan praktis
- Dapat memeriksa email secara keseluruhan yaitu memeriksa token di database spam maupun legitimate.
- Supervised learning yaitu secara otomatis akan melakukan proses learning dari email yang masuk.
- Cocok diterapkan di level aplikasi client/individual user.
- Cocok diterapkan pada binary class yaitu klasifikasi ke dalam dua kelas.
- Metode ini multilingual dan internasional. Bayesian filtering menggenerate token dengan pengenalan karakter sehingga mampu diimplementasikan pada email dengan bahasa apapun.
Referensi Jurnal : Aplikasi Teorema Bayes dalam Penyaringan Email Dyah Diwasasri Ratnaningtyas