Sabtu, 07 April 2018

KONSEP DATA MINING

PENERAPAN ALGORITMA DECISION TREE C4.5 UNTUK DIAGNOSA PENYAKIT STROKE DENGAN KLASIFIKASI DATA MINING PADA RUMAH SAKIT SANTA MARIA PEMALANG

I. PENDAHULUAN
Pada dunia kesehatan  secara teknis sudah mengenal data mining dalam cakupan luas menjadi potensial informasi. Contohnya dalam bidang rekam medis sudah menggunakan beberapa teknik data mining modern pada beberapa kasus yang ada seperti klasifikasi dan data prediktif. Macam-macam kasus tersebut diantaranya yaitu terdapat teknik Naïve Bayes classification (NBC) yang diterapkan pada bidang kesehatan contohnya seleksi embrio, dan teknik data mining Decision Tree untuk mendeteksi dan memvalidasi hipertensi pada kehamilan di rumah sakit ataupun instansi kesehatan lainnya[2].
Untuk menganalisa data dalam jumlah besar yang tersimpan pada database, biasanya digunakan teknik data mining. Meski telah umum digunakan pada industri keuangan dan telekomunikasi, teknik data mining mulai diterapkan secara intensif dibidang kesehatan. Sebagai contoh, Mayo Clinic bekerja sama dengan IBM menerapkan teknik data mining pada pasien dengan kesamaan jenis kelamin, usia dan riwayat kesehatan untuk mengetahui respon terhadap pengobatan tertentu.
Data Mining adalah proses ekstraksi sebelumnya tidak dikenal dan dipahami dari database berukuran besar dan digunakan untuk membuat keputusan bisnis yang penting[1].
Pada dunia kesehatan  secara teknis sudah mengenal data mining dalam cakupan luas menjadi potensial informasi. Contohnya dalam bidang rekam medis sudah menggunakan beberapa teknik data mining modern pada beberapa kasus yang ada seperti klasifikasi dan data prediktif. Macam-macam kasus tersebut diantaranya yaitu terdapat teknik Naïve Bayes classification (NBC) yang diterapkan pada bidang kesehatan contohnya seleksi embrio, dan teknik data mining Decision Tree untuk mendeteksi dan memvalidasi hipertensi pada kehamilan di rumah sakit ataupun instansi kesehatan lainnya.
Dalam hal ini studi kasus yang dibahas adalah mengenai salah satu penyakit berbahaya bagi manusia yang dapat menyebabkan kematian yaitu penyakit stroke, penyakit ini terbagi menjadi dua yaitu stroke mayor dan stroke minor yang  dapat mengancam jiwa seseorang, dan dapat terjadi karena ada gangguan suplai darah pada sebagian atau seluruh organ otak.
Dari hal yang telah dijabarkan diatas, akan dilakukan pengujian mengenai mengangkat permasalahan tersebut sebagai Penerapan Algoritma Decision Tree C4.5 Untuk Diagnosa Penyakit Stroke Dengan Klasifikasi Data Mining Pada Rumah Sakit.

II. METODOLOGI
A. Tahap-tahap Data Mining

Gambar 1.Tahapan Data Mining
1. Pembersihan data (Cleaning data)
Untuk menghilangkan data yang tidak diperlukan, data yang diperoleh dari tahap pengambilan dataset akan disaring untuk menghasilkan data yang benar-benar dibutuhkan. umumnya data tersebut memiliki nilai yang tidak sempurna seperti data yang hilang. Selain itu, ada juga atribut-atribut data yang tidak sesuai dengan pemrosesan data mining yang akan digunakan. Data-data yang tidak relevan itu juga lebih baik dibuang karena keberadaannya bisa mengurangi mutu atau akurasi dari hasil data mining nantinya. Pembersihan data juga akan mempengaruhi performasi dari sistem data mining karena data yang ditangani akan berkurang jumlah dan kompleksitasnya.
2. Integrasi data 
Data yang akan digunakan untuk data mining tidak hanya berasal dari satu database tetapi juga berasal dari beberapa database atau file teks. Integrasi data dilakukan pada atribut-aribut yang mengidentifikasikan entitas-entitas yang unik seperti atribut nama, jenis produk, nomor pelanggan dan lain-lain. Pada tahap ini hal yang perlu dilakukan untuk lebih detail dan cermat karena kesalahan pada integrasi data bisa menghasilkan hasil yang menyimpang dan bahkan menyesatkan pengambilan keputusan pada akhirnya. Dalam integrasi data ini juga perlu dilakukan transformasi dan pembersihan data karena sering kali data dari dua database berbeda tidak sama cara penulisannya atau bahkan data yang ada di satu database ternyata tidak ada di database lainnya.
3. Seleksi Data
Data diseleksi untuk menentukan variabel apa saja yang akan diambil agar tidak terjadi kesamaan dan perulangan yang tidak diperlukan dalam pengolahan teknik data mining. Sebagai contoh, sebuah kasus yang meneliti faktor kecenderungan orang membeli dalam kasus market basket analysis, tidak perlu mengambil nama pelanggan, cukup dengan id pelanggan saja.
4. Transformasi data
Pengubahan data menjadi format ekstensi yang sesuai untuk pengolahan dalamdata mining. Beberapa metode data mining membutuhkan format data yang khusus sebelum bisa diproses dalam teknik data mining. Misalnya sebagian metode standar seperti analisis asosiasi dan klastering hanya bisa menerima input data kategorikal. Karenanya data berupa angka numerik yang berlanjut perlu dibagi menjadi beberapa interval.
5. Proses mining
Untuk memproses  teknik utama saat metode diterapkan agar menemukan pengetahuan berharga, data yang terkumpulkan sesuai prosedur harus di terapkan pada proses mining setelah data melalui tahap transformasi.
6. Evaluasi pola
Tahap ini yaitu mengidentifikasi pola-pola menarik kedalam knowledge based yang diidentifikasikan. Dalam tahap ini hasil dari teknik data mining berupa pola-pola yang khas maupun model prediksi dievaluasi untuk menilai apakah kajian yang ada sudah memenuhi target yang diinginkan. Jika ternyata hasil yang diperoleh tidak sesuai kajian ada beberapa alternatif dengan mencoba metode data mining lain agar lebih sesuai, atau menerima hasil ini sebagai suatu hasil yang di luar dugaan yang mungkin bermanfaat.
7.  Presentasi pengetahuan 
Merupakan visualisasi dan penyajian pengetahuan mengenai metode yangdigunakan untuk memperoleh pengetahuan yang diperoleh pengguna.
Tahap terakhir dari proses data mining adalah bagaimana memformulasikan keputusanatau aksi dari hasil analisis yang didapat. Ada kalanya hal ini harus melibatkan orang-orang yang tidak memahami data mining. Karenanya presentasi hasil data mining.
B. CRISP-DM (Cross Industry Standart Process for Data Mining)
CRISP-DM (CRoss-Industry Standard Process for Data Mining) merupakan proses standar yang biasa digunakan dalam penerapan ilmu  data mining.

Gambar 2.CRISP-DM

1. Business Understanding
Memahami tujuan dan kebutuhan dari sudut pandang bisnis, kemudian menterjemakan pengetahuan ini ke pendefinisian masalah dalam data mining. Selanjutnya akan ditentukan rencana dan strategi untuk mencapai tujuan tersebut. Menerjemahkan tujuan dan batasan dari data yang diambil dari rumah sakit menjadi formula dari permasalahan data mining mulai dari menyiapkan strategi awal hingga metode yang dibutuhkan untuk mencapai tujuan.
2. Data Understanding
Pengumpulan data yang akan dilanjutkan mendeteksi adanya bagian yang menarik dari data yang dapat digunakan untuk hipotesa untuk informasi yang tersembunyi.
3. Data Preparation
Tahap ini meliputi semua kegiatan untuk membangun dataset akhir (data yang akan diproses pada tahap pemodelan) dari data mentah. Tahap ini dapat diulang beberapa kali. Tahap ini adalah pemilihan atribut data yang digunakan, serta pembagian data menjadi dua kelompok yaitu data testing dan data training yang akan diimplementasikan pada analisa dan pembahasan

Tabel 1.atribut pengolahan data
Setelah dilakukan pemilihan atribut pada proses pengolahan data dengan berdiskusi dengan pakar dibidangnya yaitu kepala rekam medis rumah sakit tempat melaksanakannya penelitian sebagai perwakilan dari pakar bidang kesehatan pada rumah sakit umum Santa Maria tersebut, apa sajakah variabel pendukung yang lebih mempengaruhi tingkat keakuratannya dalam pengaruh penyakit stroke, penkonversian atribut ini berbguna untuk memudahkan dalam melakukan perhitungan dan analisa dalam tahap data mining
Table 2.ilustrasi atribut yang akan digunakan dalam pemodelan
Kemudian lakukan pengkonversian data agar mudah dilakukan pengolahan teknik data mining. Table 3.
Table 4.data setelah dikonversi

4. Modeling
Dalam tahap ini akan dilakukan pemilihan dan penerapan berbagai teknik pemodelan dan beberapa parameternya akan disesuaikan untuk mendapatkan nilai yang optimal.  
Gambar 3 Model penelitian yang diusulkan

5. Evaluation
Melakukan evaluasi terhadap keefektifan dan kualitas model tujuan yang ditetapkan pada fase awal (Business Understanding).Kunci dari tahap ini adalah menentukan apakah ada masalah bisnis yang belum dipertimbangkan. Di akhir dari tahap ini harus ditentukan penggunaan hasil proses data mining.
6. Deployment
Pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Tahap deployment dapat berupa pembuatan laporan Dalam banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.
Data yang digunakan dalam penelitian ini adalah sumber data primer. Data yang dikumpulkan yaitu data pasien berpenyakit stroke 

C.    DECISION TREE ALGORITMA C4.5
Decision Tree.Pohon (Tree) adalah sebuah struktur data yang yan terdiri dari simpul (node) dan rusuk (edge). Simpul pada sebuah pohon keputusan dibedakan menjadi tiga, akar simpul, simpul percabangan, dan simpul akhir[12].
Pada pohon keputusan ini bisa memberikan keuntungan berwujud visualisasi dari pemecahan masalah yang diolah menggunakan teknik data mining yang membuat protocol dari prediksinya dapat diamati, maka dari itu konsep ini termasuk fleksibel dan atraktif. Pohon keputusan ini sendiri juga sudah banyak digunakan pada berbagai bidang ilmu pengetahuan, salah satunya yaitu bidang kesehatan untuk diagnosa penyakit pasien, ilmu computer pada struktur data, psikologi untuk teori pengambilan keputusan, dan lain-lain.
Dalam pohon keputusan sangat berhubungan dengan algoritma C4.5, karena dasar algoritma C4.5 adalah pohon keputusan. Algoritma data mining C4.5 merupakan salah satu algoritma yang digunakan untuk melakukan klasifikasi atau segmentasi atau pengelompokan yang bersifat prediktif. Cabang-cabang pohon keputusan merupakan pertanyaan klasifikasi dan daun-daunnya merupakan kelas-kelas atau segmen-segmennya.
Rumus menghitung entropy pada algoritma C4.5 Entropi (S) =  𝑝𝑖 𝑘 𝑖=1 𝑙𝑜𝑔2 𝑝𝑖……..….(2.1) Keterangan : S : Himpunan (dataset) kasus k : Banyaknya partisi S Pi : Probabilitaas yang didapat dari Sum(Ya) atau Sum(Tidak) dibagi total kasus

Setelah mendapatkan entropi dari keseluruhan kasus, lakukan analisis pada setiap atribut dan nilai-nilainya dan hitung entropinya. Langkah berikutnya yaitu dengan menghitung Gain, rumus daripada Gain adalah sebagai berikut:

Gain(A) = Entropi (S) -  |𝑆𝑖| |𝑆| 𝑘 𝑖=1  x  Entropi (Si.) ..………………………………………..………..(2.2)
Keterangan : S : himpunan kasus A : atribut n : jumlah partisi atribut A |Si| : jumlah kasus pada partisi ke-i |S| : jumlah kasus dalam S

D.  MATRIKS KONFUSI
Confusion Matrix adalah tool yang digunakan untuk evaluasi model klasifikasi untuk memperkirakan objek yang benar atau salah. Sebuah matrix dari prediksi yang akan dibandingkan dengan kelas yang asli dari inputan atau dengan kata lain berisi informasi nilai aktual dan prediksi pada klasifikasi.

Table 5.contoh confusion matrix
Rumus untuk menghitung tingkat akurasi pada matriks adalah:


III. ANALISA DAN PEMBAHASAN
a. Pengoperasian Sistem
Gambar 4 Input Data Training pada Sistem

Data diinputkan pada sistem yang dibuat menggunakan matlab versi R2010a, isikan semua data yang dibutuhkan sesuai form yang tersedia. Pada gambar 4.3 langkah yang pertama dijalankan yaitu mengunggah file yang akan diolah dalam sistem, file yang digunakan adalah „data training TA‟ yang berekstensi „.xls‟ yaitu data pasien penyakit stroke setelah dikonversi, data tersebut mengandung empat variabel pendukung yaitu jenis kelamin, usia, jipertensi, dan diabetes.  Serta mempunyai satu variabel target sebagai klasifikasi keputusan Stroke atau Nonstroke. Dalam file „data training.xls‟ tersebut terdapat tingkat akurasi sebesar 82,3077%, dengan cara menghitungnya
yaitu menjumlahkan nilai  Prediksi Stroke(positive) denganPrediksi Nonstroke(positive) kemudian membaginya dengan seluruh elemen variabel yang ada yaitu Prediksi Stroke(positive), Prediksi Stroke(negative), Prediksi Nonstroke(positive), dan Prediksi Nonstroke(negative). Nilainya yaitu (76+31)/(76+16+7+31) x 100% = 82,3077%. b. Pohon Keputusan Untuk mendukung aturan aturan yang terbentuk dari data pasien stroke yang diperoleh kedalam sistem maka dibentuklah pohon keputusan, selain berfungsi sebagai penentuan rulesatau aturan  klasifikasi penyakit stroke, sistem pohon keputusan ini juga mempresentasikan bagaimana seorang pasien bisa terserang stroke dari beberapa variabel yang tersedia dari data pasien penyakit stroke.

Gambar 5. Pohon Keputusan pada Sistem
Berikut penjelasan data training dan data testing yang akan digunakan dalam proses uji coba tingkat akurat data pasien, dari 156 data akan dibagi menjadi dua bagian yaitu data training yang berjumlah 130 data pasien dan sisanya pada data testing yaitu berjumlah 26 data pasien.


Table 6. Pembagian Data Testing dan Data Training  jumlah persentase Data Training 130 83,33% Data Testing 26 16,67% c. Confusion Matrix
Table 7.confusion matrix dari data testing  True Stroke True Nonstroke Prediksi Stroke 15 6 Prediksi Nonstroke 0 5

Pada tabel 7 tersebut menjelaskan bahwa jumlah tabel (Prediksi Stroke - True Stroke) atau (a) yaitu 15 merupakan jumlah pasien diklasifikasikan Stroke, jumlah (Prediksi Stroke – True Nonstroke) atau (b) adalah 6 merupakan jumlah pasien yang diklasifikasikan Stroke tetapi masuk kedalam NonStroke, jumlah (Prediksi NonStroke – True Stroke) atau (c) adalah 0 merupakan jumlah pasien yang
diklasifikasikan NonStroke tetapi masuk kedalam Stroke, sedangkan jumlah (Prediksi NonStroke – TrueNonStroke) adalah 5 merupakan jumlah pasien yang diklasifikasikan NonStroke. Accuracy = (a+d)/(a+b+c+d)  = (15+5)/(15+0+6+5) x 100%  = 76,92%

IV. KESIMPULAN
Berdasarkan hasil penelitian dari permasalahan yang dikembangkan dapat disimpulkan bahwa untuk studi kasus penyakit stroke dapat memanfaatkan  teknik klasifikasi data mining dengan algoritma C4.5 sebagai klasifikasi stroke atau nonstroke. Data yang digunakan sebagai penelitian disini adalah data pasien penyakit stroke rumah sakit yang sifatnya rahasia Dari metode klasifikasi data mining dengan algoritma C4.5 dan pengaplikasian pohon keputusanyang membentuk aturan tersebut  terdapat akurasi pada data training yang berjumlah 130 dari 156 data pasien sebesar 82,31%  sedangkan akurasi pada data testing yang berjumlah 26 dari 156 data pasien sebesar 76,92%. Perhitungan keduanya menggunakanconfusion matrix.

V. DAFTAR PUSTAKA
[1]  R. A. Prasetyo, "Aplikasi Data Mining Asociation Rule Untuk Menampilkan Informasi Pola Penyebaran Penyakit ISPA Menggunakan Algoritma Apriori (Studi Kasus di Poliklinik Universitas Dian Nuswantoro)", Departemen Universitas Dian Nuswantoro, vol. 1, pp. 2, 2013.
[2] Murtanto, A, "klasifikasi biaya pasien rawat inap penyakit jantung menggunakan teknik data mining attribute important (ai) dan algoritma naive bayes," Skripsi Teknik Kendali Universitas Halu Oleo, 2014.
[3] I. K. Gama, I. K. W. Yasa dan I. Hartini "Kepatuhan Kontrol Penderita Hipertensi Dengan Kejadian Stroke", Keperawatan Politeknik Kesehatan Denpasar,vol. 1, pp. 4-5. 2011
[4] M. K. Mukhlis. 2011. “Diagnosa Kemungkinan Pasien Terkena Stroke Dengan Menggunakan Metode Naive Bayes Dan Metode Jaringan Syaraf Tiruan Berbasis Web”. Surabaya: Institut Negeri Sepuluh Nopember
[5]   S.A. Aji, M. Sarosa dan S. Onny. 2014. “Klasifikasi Stroke Berdasarkan Kelainan Patologis Dengan Leraning Vector Quantization”. Surabaya.
[6]   A. Linda. 2012. “Sistem Pakar Pendeteksi Kemungkinan Penyakit Stroke”.Palembang: Universitas Bina Dharma
[7]   dr. pinzon, R. dr Asanti L. “Awas Stroke! pengertian, gejala, tindakan, perawatan, & pencagahan”. Andi 
[8]  E. Prasetyo, DATA MINING – “Konsep dan Aplikasi Menggunakan Matlab”,Yogyakarta: CV. ANDI, 2012 
[9] E. Prasetyo, “DATA MINING - Mengolah Data Menjadi Informasi Menggunakan Matlab”,  Yogyakarta: CV. ANDI, 2014. 
[10]  P.P. Widodo, R.T. Handayanto dan Herlawati, “Penerapan Data Mining Dengan Matlab”,Bandung: Rekayasa Sains, 2013.
[11] D. Retnosari, "Sistem Aplikasi Data Mining Untuk Menampilkan Informasi Tingkat Kelulusan Mahasiswa,", Departemen Teknik Informatika Universitas Islam Kalimantan, vol. 1, pp. 16-17, 2013.
[12] F.A. Himawati, Data Mining, Yogyakarta: ANDI, 2013


Tidak ada komentar:

Posting Komentar