Klasifikasi SMS Spam Menggunakan Algoritma Support Vector Machine (SVM)
Green Arther Sandag, Raymond Sambur, Jebriella Bororing
Abstract
Informasi merupakan kumpulan data yang memiliki beragam konten yang dapat bersifat positif dan negative. Konten-konten yang tersebar dalam informasi tersebut dapat dengan mudah kita peroleh lewat berbagai macam jenis media contohnya SMS. Banyak informasi yang dikirim lewat SMS merupakan spam dimana konten yang dikirim berisi informasi yang tidak relevan dengan pengguna. Dengan fakta tersebut, perlu dibuat suatu system dalam mengklasifikasikan Spam dengan menggunakan text mining menggunakan metode Support Vector Machine (SVM), yang nantinya diharapkan dapat memilah komentar spam dalam SMS agar informasi yang diperoleh lebih akurat dan terpercaya. Data SMS yang didapat dari database Kaggle diolah terlebih dahulu dengan menggunakan teknik tokenizing, normalisasi kata, filtering, dan stemming. Selanjutnya peneliti menggunakan cross validation untuk menguji data training yang nantinya digunakan dalam proses klasifikasi. Algoritma SVM mampu mengklasifikasi spam dalam SMS dengan akurasi sebesar 96.72% dibanding naive bayes.
Kata kunci:Spam, SVM, Naive Bayes, tokenizing, filtering, stemming