Tugas kali ini saya menggunakan rapid miner.Rapid Miner adalah software yang dapat digunakan untuk menganalis pada text minig, data mining dan analysis prediksi. Software ini bersifat open source (terbuka).

Model Prediksi menggunakan Decision Tree (algoritma C.45)

decision-tree

Pada gambar tersebut dapat dianalisis sebagai berikut

·    Apabila suara terdiri lebih dari 3082 berarti suara sah caleg : YA

·    Apabila suara kurang dari sama dengan 3082 maka suara sah caleg:
– Lebih dari 2418 suara maka suara caleg
 – Suara lebih dari 2935 diprediksikan tidak sah
–   
Sedangkan sura kurang dari sama dengan 2935 diprediksikan suara sah partai
Apabila suara kurang dari sama dengan 16443 suara diprediksikan tidak sah suara
Sedangkan suara lebih dari 16443 maka suara daerah pemilihan
– Apabila suara terdiri kurang dari sama dengan 1500 suara maka suara terprediksi YA
– Apabila suara lebih dari 1500 suara maka ditinjau kembali suara sah partai dengan:
– Lebih dari 83822 maka tidak kurang dari sama dengan  83822 maka kembali ditinjaU kembali suara sah partai dengan :
              – Kurang dari sama dengan  83822 maka kembali ditinjau kembali suara sah partai:
-Suara lebih dari 2445.5 maka suara terprediksikan YA
Suara kurang dari sama dengan 2445.5 maka suara terprediksikan TIDAK

·    Kurang dari sama dengan 2418 suara maka terdapat peninjauan ulang suara caleg
-Suara kurang dari sama dengan 1436.500 suara maka diprediksikan tidak
Sedangkan sura lebih dari 1436.500 suara maka akan diadakan peninjauan ulang suara sah caleg
-Suara lebih dari 1468 maka diprediksikan TIDAK
-Sedangkan kurang dari sama dengan 1468 maka diprediksikan YA

Model Prediksi dengan Menggunakan Naïve Bayes

naive-bayes
Pada Naïve Bayes mengelompokkan data pemilu berdarkan 2 atribut yaitu YA dan TIDAK dengan distribusi 9.

Model Prediksi dengan Menggunakan K-NNknn

Pada K-NN mengelompokkan data pemilu berdasarkan 2 kelas, yaitu YA atau tidak dengan 9 dimensi yang ada.

10-Fold Cross Validation

Cross Validation merupakan salah satu teknik untuk menilai/memvalidasi keakuratan sebuah model yang dibangun berdasarkan dataset tertentu . Pembuatan model biasanya bertujuan untuk melakukan prediksi maupun klasifikasi terhadap suatu data baru yang boleh jadi belum pernah muncul di dalam dataset. Data yang digunakan dalam proses pembangunan model disebut data latih/training, sedangkan data yang akan digunakan untuk memvalidasi model disebut sebagai data test.

Salah satu metode cross-validation yang populer adalah K-Fold Cross Validation. Dalam teknik ini dataset dibagi menjadi sejumlah K-buah partisi secara acak. Kemudian dilakukan sejumlah K-kali eksperimen, dimana masing-masing eksperimen menggunakan data partisi ke-K sebagai data testing dan memanfaatkan sisa partisi lainnya sebagai data training.

Metode evaluasi standard yaitu  10-fold cross validation. Digunakan angka 10 karena dalam berbagai percobaan yang ekstensif dan pembuktian teoritis, menunjukkan bahwa 10 – fold cross validation adalah pilihan yang terbaik untuk mendapatkan hasil validasi yang akurat. Metode ini akan mengulang pengujian sebanyak 10 kali dan hasil pengukurannya berupa adalah rata-rata 10 nilai pengukuran.

AUC  singkatan  daerah di bawah kurva. Hal ini digunakan dalam analisis klasifikasi untuk menentukan model terbaik yang digunakan dalam memprediksi kelas. Suatu kurva menggambarkan probabilitas dengan variabel sensitivitas dan kekhususan (specificity) dengan nilai batas antara 0 hingga 1. Area di bawah kurva memberikan gambaran tentang keseluruhan pengukuran atas kesesuaian dari model yang digunakan.

Accuracy Decision Tree

accuracy-performance-decision-tree

Accuracy  Naïve Bayes

accuracy-performance-naive-bayer

Accuracy K-NN

accuracy-performance-k-nn

AUC Decision Tree

auc-performance-decision-tree

AUC Naïve Bayes

auc-performance-naive-bayes

AUC K-NN

auc-performance-k-nn

 

Decision Tree Naïve Bayes K-NN
Accuracy 93,16 % 89,14% 89,63%
AUC 0,915 0,838 0,500

 

 

Iklan