1. Penerapan Model Decision Tree pada Analisis Prediksi Keberhasilan Diet berdasarkan Kadar Trigliserida (Lemak pada Darah) 1Tri Yani Akhirina1, Fitriana Destiawati2 Universitas Indraprasta PGRI, alamat,
[email protected] 2 Universitas Indraprasta PGRI,
[email protected] Dalam makalah ini menjelaskan tentang penerapan model decision tree pada analisis prediksi keberhasilan diet berdasarkan kadar trigliserida atau yang dikenal dengan lemak pada darah. Hasil dari model decision tree pemilik kadar trigliserida tahap akhir pada bulan ke empat lebih dari 140 diprediksi tidak berhasil dalam melakukan diet dan Pemilik kadar trigliserida awal lebih dari 108 diprediksi akan berhasil melakukan diet. Pemilik kadar trigliserida pada tahap akhir kurang dari sama dengan 140 dan memiliki kadar trigliserida awal kurang dari 108 diprediksi tidak berhasil melakukan diet. Sehingga dapat disimpulkan bahwa kadar trigliserida mempengaruhi keberhasilan diet dan pada kadar lebih dari 140 diprediksi tidak akan berhasil melakukan diet. Hasil ini mendekatii pernyataan yang terdapat pada artikel kesehatan bahwa kadar normal adalah kurang dari 150. Kata kunci: decision tree, diet, trigliserida, lemak darah 1. Pendahuluan Pengolahan data memiliki banyak manfaat salah satu dalam membuat keputusan yang lebih dikenal sistem pengambilan keputusan. Tentunya diperlukan analisa dari setiap data yang berjumlah banyak sehingga pada akhirnya sampai pada titik kesimpulan untuk mengambil keputusan berdasarkan data. Salah satu solusi untuk mengambil keputusan adalah Data Mining. Menurut (Abdul K.,2010), Data mining merupakan serangkaian proses untuk menggali suatu informasi terpendam dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Terdapat teknologi data mining yang telah telah dikembangkan diantaranya clustering, classification, association rule, neural network, decision tree, dan lain-lain. Decision tree merupakan salah satu teknik yang dapat digunakan untuk melakukan klasifikasi terhadap sekumpulan objek atau record. Teknik ini terdiri dari kumpulan decision node, dihubungkan oleh cabang, bergerak ke bawah dari root node sampai berakhir di leaf node. Pengembangan decision tree dimulai dari root node, berdasarkan konvensi ditempatkan di bagian atas diagram decision tree, semua atribut dievaluasi pada decision node, dengan tiap outcome yang mungkin menghasilkan cabang. Tiap abang dapat masuk baik ke decision node yang lain ataupun ke leaf node (Wibisono,2007). Persyaratan yang harus dipenuhi dalam penerapan algoritma decision tree (Wibisono, 2007) 1. Algoritma decision tree merepresentasikan supervised learning sehingga membutuhkan target preclassified. 2. Training data set harus kaya dan bervariasi. 3. Kelas atribut target harus diskrit. Dalam decision tree terdapat ruang data sample (S) yang digunakan untuk training. Dalam data sample tersebut terdapat (P+) jumlah data yang bersolusi negative (tidak mendukung) dan yang bersolusi positive (mendukung). Data sample menentukan Entropy. Entropy(S) adalah jumlah bit yang diperkirakan dibutuhkan untuk dapat mengekstrak suatu kelas (+ atau -) dari sejumlah data acak pada ruang sample (S). Persamaan Entropy adalah sebagai berikut: ……………………………………………(1) Untuk menentukan node awal pada tree sehingga menghasilkan rule adalah atribut yang memiliki entropy terkecil (Gambetta, 2003).86 2. Banyak orang yang kerap kali tertarik melakukan diet untuk menurunkan berat badanya karena berat badan yang melebihi batas normal. Berdasarkan ilmu kesehatan dan beberapa artilkel kesehatan berat badan yang berlebihan adalah akibat dari nafsu makan yang terlalu tinggi sehingga lemak dalam darah meningkat. Lemak dalam darah ini disebut Trigliserida. Trigliserida adalah lemak. Semua lemak yang kita makan ialah trigliserida. Mereka lalu ditranspor melalui aliran darah untuk dimanfaatkan sebagai sumber energi tubuh. Asam lemak yang membentuk trigliserida dimanfaatkan sebagai sumber energi yang diperlukan oleh otot-otot tubuh untuk bekerja atau disimpan sebagai cadangan energi dalam bentuk lemak. Mirip dengan yang terjadi dengan kelebihan kolesterol atau gula darah, kadar trigliserida yang berlebihan dalam darah dapat melahirkan berbagai problem kesehatan. Pengukuran kadar trigliserida mesti dikerjakan setelah puasa selama 12-14 jam. Di Amerika Serikat patokan nilai yang digunakan adalah berdasarkan rekomendasi yang berasal dari National Cholesterol Education Program, sebagaimana tersebut di bawah ini: - Acceptable (dapat diterima) kurang dari 200 - Borderline high (perbatasan tinggi) 200-400 - Tinggi 400-1000 - Sangat tinggi lebih tinggi dari 1000 Diet Study ini merupakan salah satu kasus yang cukup menarik bagi penulis. Berdasarkan data dari hasil beberapa orang yang sudah melakukan diet, penulis mencoba menganalisa data tersebut untuk mendapatkan kesimpulan. Penulis menggunakan salah satu teknik dari data mining yaitu menggunakan decision tree dengan case tool Rapid Miner 5. Perangkat lunak ini sebagai Case Tool dalam sistem pengambilan keputusan secara komputerisasi sehingga akan menghasilkan akurasi dan grafik sesuai data yang diolah. Tujuan Penulisan ini adalah untuk menganalisa data dari sejumlah orang yang sudah melakukan diet dan memprediksi apakah kadar trigliserida mempengaruhi keberhasilan diet. Metode yang digunakan penulis adalah pendekatan kualitatif yaitu dalam menentukan variabel-variabel yang sesuai dengan kebutuhan sehingga mendapatkan atribut dan label untuk diubah menjadi rule dalam teknik decision tree. Selanjutnya penulis menggunakan pendekatan kuantitatif dengan melakukan percobaan terhadap sejumlah orang untuk melakukan diet dalam waktu 4 bulan dan merekam setiap bulannya hasilnya secara teratur sehingga penulis memperoleh sejumlah data yang dibutuhkan untuk memprediksi apa yang mempengaruhi dari keberhasilan diet yang dilakukan banyak orang. Selanjutnya penulis akan melakukan perbandingan dengan data kadar trigliserida dari National Cholesterol Education Program (Gambar 1). 2. Pembahasan Variabel yang digunakan penulis berdasarkan data kesehatan adalah usia (age), jenis kelamin (gender), kadar trigliserida pada bulan pertama hingga bulan ke-empat (tg0, tg1, tg2, tg3,tg4 dan berat badan pada bulan pertama hingga bulan keempat. Penelitian dilakukan terhadap 16 orang yang memiliki range usia dari 45-63 tahun. Berikut data yang terkumpul: Tabel 1. Data Diet Study PatidAgeGt0t1t2t3t4w0w1w2w3w4Result1450180148106113100198196193188192Yes2560139941197592237233232228225Yes350015218586149118233231229228226Yes446111214513614982179181177174172Yes56401561041577997219217215213214Yes649116713888107171169166165162161No7630138132146143132222219215215210Yes87 3. 8631160128150118123167167166162161Yes9520107120129195174199200196196193No1045015610312613592233229229229226Yes1161194144114114121179181176173173No1249110793156148150158153155155154No1361114510712986159157151150145143No14590186142128122101216213210210206Yes1552011210710389148257255254252249No1660110410311779130151146144144140NoData yang terkumpul bersumber dari 16 orang yang sudah dipilih untuk melakukan diet dengan memeriksa perubahan kadar trigliserida dan berat badan secar signifikan dari waktu ke waktu selama 4 bulan. Definisi dari variable diatas: a. Patid: id dalam database h. t4: kadar trigliserida bulan keempat b. Age: usia i. w0: berat badan awal c. G: jenis kelamin j. w1: berat badan pada kadar tg1 d. t0: kadar awal trigliserida k. w2: berat badan pada kadar tg2 e. t1: kadar trigliserida bulan pertama l. w3: berat badan pada kadar tg3 f. t2: kadar trigliserida bulan kedua m. w4: berat badan pada kadar tg4 g. t3: kadar trigliserida bulan ketiga Berikut data yang penulis peroleh dari artikel kesehatan:Gambar 1. Data kadar trigliserida Berdasarkan data tersebut dapat dilihat bahwa batas normal kadar trigliserida manusia harus kurang dari 150. Maka melalui data ini penulis mencoba membuktikan apakah benar kadar trigliserida mempengaruhi berat badan seseorang. Sumber data penulis merupakan berekstensi excel agar dapat diolah dengan RapidMiner 5.0 maka data harus dimport untuk dikonversikan. Berikut hasil data yang sudah dikonversi:88 4. Gambar 2. Data View Import data excel menjadi data Respository dalam RapidMiner 5.0 menjadikan variable sebagai atribut yang dibutuhkan untuk dijadika rule dalam pengambilan keputusan. Dari berbagai atribut terdapat satu atribut yang dibuat sebagai target atribut atau label. Sebagian besar data merupakan data yang numerik. Pengolahan data pada RapidMiner 5.0 ini menggunakan model Decision Tree dengan teknik validasi sehingga mencapai akurasi/ kecermatan yang memiliki presentase maksimal. Pada gambar 3 dibawah ini digambarkan proses modeling decision tree dengan menggunakan teknik validasi.Gambar 3. Validasi Data Pada prosesnya data yang akan diolah dihubungkan dengan node split validation yang ada pada folder evaluation. Didalam node split validation inilah akan memvalidasikan data yang dimodelkan kedalam decision tree. Pada gambar 4 ditampilkan proses memvalidasikan model decision tree.Gambar 4. Modeling Decision Tree dalam Node Validation89 5. Sebelumnya sudah dijelaskan bahwa fungsi validation adalah memaksimalkan nilai akurasi pengolahan data. Apakah bisa tanpa validation? Tentu saja bisa akan tetapi nilai akurasinya akan berbeda. Selanjutnya data di Run untuk melihat hasil model decision tree berupa grafis pohon.Gambar 5. Grafik Decision Tree Data yang sudah diolah dengan menggunakan RapidMiner5.0 menghasilkan grafis pohon sehingga tampaklah dengan jelas algoritma pengambilan keputusan.Berdasarkan teori pada studi pustaka sebelumnya dinyatakan bahwa data semple yang memiliki entropy terkecillah yang menjadi node awal. Terlihat melalui Software DSS RapidMiner 5.0 secara otomatis menyatakan bahwa t4 atau tg4 memiliki entropy terkecil. Mengapa bukan gender atau Age atau wtg Karena entropy mereka lebih tinggi dibandingkan kadar trigilserida. Perhatikan perhitungan entropy pada data gender dibawah ini. Tabel 2. Data Gender Gender 0 0 1 1Result Yes No Yes NoJumlah 7 3 2 4Gender=0, q1=-7/10 log2 7/10-3/10 log2 3/10=-0.7*-0.51457317283-0.3*1.73696559417= 0.881291. Gender=1, q2=-2/6 log2 2/6-4/6 log2 4/6 -2/6*-1.59946207042-4/6*0.577766999317= 0.918332. Maka Entropy Gender adalah: =10/16*0.881291+6/16*0.918332= 0.895181=0.9 - merupakan nilai entropy yang tinggi. Penulis tidak menjabarkan nilai entropy semua atribut karena instance pada atribut memiliki nilai yang sangat kecil dan numeric sehingga dapat dipastikan entropy yang dapat dijadikan node awal bukanlah gender. Dan sudah pasti sulit jika secara manual dihitung entropynya oleh karena itu penulis menganalisa menggunakan RapidMiner 5.0 untuk mempermudah analisa. Berikut text view yang dihasilkan:Gambar 6. Text View Decision Tree Berdasarkan Text View makan Rule yang dihasilkan adalah sebagai berikut:90 6. If t4 > 140 then result=no Else If t4 108 then result=yes Else If t0