Clustering Data Mining adalah mengelompokkan benda berdasarkan informasi yang diperoleh dari data yang menggambarkan hubungan antara objek pada prinsipnya untuk memaksimalkan kesamaan antara anggota kelas dan untuk meminimalkan kesamaan antara kelas atau kelompok.
Tujuannya adalah menemukan cluster yang berkualitas dalam waktu yang cepat. Clustering dalam data mining berguna untuk menemukan pola distribusi dalam satu set data yang berguna untuk proses analisis data. Kesamaan objek biasanya diperoleh dari kedekatan nilai-nilai atribut yang menggambarkan objek data, sedangkan objek data biasanya direpresentasikan sebagai titik pada ruang multidimensi.
Itulah ringkasan dari pengertian Clustering Data Mining tahap selanjtnya bagaimana kita akan membuat sebuha aplikasi data mining dengan menggunakan bahasa pemrograman PHP. disini kita akan membahas dalam pembuatan sistem data mining dengan script php dan database MySQL.
Pada aplikasi data mining yang akan dibahas pada postingan ini ialah perhitungan Gain dan Ratio penjualan prodak. Dalam data training set atibut sample dan minimal harus memiliki satu atribut target yang nilainya merupakan kesimpulan sementara permasalahan dari setiap instance( record), pada kasus ini atribut target adalah: laris atau tidak laris. Atribut input yang memiliki gain ratio yang terbesar adalah atribut yang menjadi akar. Contohnya seperti gambar di bawah ini.
No
|
Kode Barang
|
Jenis Barang
|
Merek
|
Tahun
|
Harga
|
Status
|
1
|
3322
|
Laptop
|
Acer
|
2004
|
7500000
|
Tidak Laris
|
2
|
8819
|
PC
|
Toshiba
|
2010
|
13000000
|
Laris
|
Membuat Algoritma
Pada kasus data mining ini kita menggunakan algoritma C4.5. Proses pada pohon keputusan adalah mengubah bentuk data (table) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule.
Dalam kasus yang tertera dibawah ini akan dibuat pohon keputusan untuk menentukan barang yang terjual atau tidak dengan melihat merek, jenis barang, tahun, dan harga. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut :
- Pilih atribut akar.
- Buat cabang untuk tiap-tiap nilai.
- Bagi kasus dalam cabang.
Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain, seharusnya kita harus mencari nilai entropy terlebih dahulu.
Rumusnya seperti persamaan berikut.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain, seharusnya kita harus mencari nilai entropy terlebih dahulu.
Rumusnya seperti persamaan berikut.
Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi S
pi : proporsi dari Si terhadap S
S : himpunan kasus
A : atribut
n : jumlah partisi S
pi : proporsi dari Si terhadap S
Sementara itu, penghitungan nilai gain dapat dilihat pada persamaan 2 berikut.
Keterangan:
S : himpunan kasus
A : atribut
n : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S
Berikut ini adalah penjelasan lebih terperinci mengenai tiap-tiap langkah dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk menyelesaikan permasalahan pada tabel berikut.
NODE
|
Jumlah Kasus (S)
|
Tidak laris (S1)
|
Laris
(S2)
|
Entropy
|
Gain
| ||
1
|
TOTAL
|
25
|
6
|
19
|
0.795040
| ||
Harga
| |||||||
A
|
7
|
2
|
5
|
0,868721
| |||
B
|
16
|
2
|
14
|
0.543564
| |||
C
|
2
|
2
|
0
|
0
| |||
Merek
|
0.180489
| ||||||
Axioo
|
8
|
0
|
8
|
0
| |||
Toshiba
|
11
|
3
|
8
|
0.851252
| |||
Acer
|
6
|
3
|
3
|
1.000000
| |||
Jenis
| |||||||
PC
|
12
|
0
|
12
|
0
| |||
Laptop
|
13
|
6
|
7
|
0.995378
| |||
Tahun
|
0.143717
| ||||||
A
|
8
|
3
|
5
|
0.950672
| |||
B
|
17
|
3
|
14
|
0.671247
|
Dari hasil pada tabel diatas dapat diketahui bahwa atribut dengan Gain tertinggi adalah Merek, yaitu sebesar 0.534188. Ada tiga nilai atribut dari Merek yaitu Axioo, Toshiba dan Acer. Dari ketiga nilai atribut tersebut, nilai atribut Axioo sudah mengklasifikasikan kasus yaitu keputusannya laris dan nilai atribut Toshiba sudah mengklasifikasikan kasus yaitu tidak laris, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut Acer masih perlu dilakukan perhitungan lagi. dengan demikian merek dapat menjadi node cabang dari nilai atribut Laptop.
Itulah proses perhitungan Data Mining, selanjutnya bagaimana kita implemtasikan kedalam script php yang akan menghasilkan sebuah program php dalam perhitungan data mining tersebut. berikut merupakan hasil aoutput dari program data mining yang sudah dibuat dengan script php dan Database MySQL.
program data mining seperti pada gambar diatas dibuat dengan script php MySQL untuk mendapatkan source kode programnya klik DISINI. Database SQLnya di SINI.
Demikianlah sedikit contoh program php dalam membuat aplikasi data mining sederhana, mudah mudahan bermanfaat dan bisa dijadikan sebagai referensi untuk belajar.
Jika ada masalah saat menjalankan programnya silahkan tinggalkan komentar anda dibawah ini.
Mohon bantuannya untuk membuat aplikasi datamining dengan teknik clustering untuk menyimpan dan pencarian dokumen word,trimakasih...
ReplyDeletemau tanya ini yang php clustering data mining user sama passnya apa ya ?
ReplyDelete