Clustering Data Mining

Clustering Data Mining adalah mengelompokkan benda berdasarkan informasi yang diperoleh dari data yang menggambarkan hubungan antara objek pada prinsipnya untuk memaksimalkan kesamaan antara anggota kelas dan untuk meminimalkan kesamaan antara kelas atau kelompok. 
Tujuannya adalah menemukan cluster yang berkualitas dalam waktu yang cepat. Clustering dalam data mining berguna untuk menemukan pola distribusi dalam satu set data yang berguna untuk proses analisis data. Kesamaan objek biasanya diperoleh dari kedekatan nilai-nilai atribut yang menggambarkan objek data, sedangkan objek data biasanya direpresentasikan sebagai titik pada ruang multidimensi.

Itulah ringkasan dari pengertian Clustering Data Mining tahap selanjtnya bagaimana kita akan membuat sebuha aplikasi data mining dengan menggunakan bahasa pemrograman PHP. disini kita akan membahas dalam pembuatan sistem data mining dengan script php dan database MySQL.

Pada aplikasi data mining yang akan dibahas pada postingan ini ialah perhitungan Gain dan Ratio penjualan prodak. Dalam data training set atibut sample dan minimal harus memiliki satu atribut target yang nilainya merupakan kesimpulan sementara permasalahan dari setiap instance( record), pada kasus ini atribut target  adalah: laris atau tidak laris. Atribut input yang memiliki gain ratio yang terbesar adalah atribut yang menjadi akar. Contohnya seperti gambar di bawah ini.

No
Kode Barang
Jenis Barang
Merek
Tahun
Harga
Status
1
3322
Laptop
Acer
2004
7500000
Tidak Laris
2
8819
PC
Toshiba
2010
13000000
 Laris
  
Membuat Algoritma

Pada kasus data mining ini kita menggunakan algoritma C4.5. Proses pada pohon keputusan adalah mengubah bentuk data (table) menjadi model pohon, mengubah model pohon menjadi rule, dan menyederhanakan rule.

Dalam kasus yang tertera dibawah ini akan dibuat pohon keputusan  untuk menentukan barang yang terjual atau tidak dengan melihat merek, jenis barang, tahun, dan harga. Secara umum algoritma C4.5 untuk membangun pohon keputusan adalah sebagai berikut :
  1. Pilih atribut akar. 
  2. Buat cabang untuk tiap-tiap nilai. 
  3. Bagi kasus dalam cabang.
Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
Untuk memilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut-atribut yang ada. Untuk menghitung gain, seharusnya kita harus mencari nilai entropy terlebih dahulu.
Rumusnya seperti persamaan berikut.
Keterangan :
S : himpunan kasus
A : atribut
n : jumlah partisi S
pi : proporsi dari Si terhadap S

Sementara itu, penghitungan nilai gain dapat dilihat pada persamaan 2 berikut.

Keterangan:
 S : himpunan kasus
 A : atribut
 n : jumlah partisi atribut A
|Si| : jumlah kasus pada partisi ke-i
|S| : jumlah kasus dalam S
Berikut ini adalah penjelasan lebih terperinci mengenai tiap-tiap langkah dalam pembentukan pohon keputusan dengan menggunakan algoritma C4.5 untuk menyelesaikan permasalahan pada tabel berikut.

NODE


Jumlah Kasus (S)
Tidak laris (S1)
Laris
(S2)
Entropy
Gain
1
TOTAL

25
6
19
0.795040


Harga







A
7
2
5
0,868721



B
16
2
14
0.543564



C
2
2
0
0


Merek





0.180489


Axioo
8
0
8
0



Toshiba
11
3
8
0.851252



Acer
6
3
3
1.000000


Jenis







PC
12
0
12
0



Laptop
13
6
7
0.995378


Tahun




0.143717


A
8
3
5
0.950672



B
17
3
14
0.671247

Baris total entropy pada tabel diatas dihitung dengan persamaan 1 sebagai berikut :

 

 
Dari hasil pada tabel diatas dapat diketahui bahwa atribut dengan Gain tertinggi adalah Merek, yaitu sebesar 0.534188. Ada tiga nilai atribut dari Merek yaitu Axioo, Toshiba dan Acer. Dari ketiga nilai atribut tersebut, nilai atribut Axioo sudah mengklasifikasikan kasus yaitu keputusannya laris dan nilai atribut Toshiba sudah mengklasifikasikan kasus yaitu tidak laris, sehingga tidak perlu dilakukan perhitungan lebih lanjut, tetapi untuk nilai atribut Acer masih perlu dilakukan perhitungan lagi. dengan demikian merek dapat menjadi node cabang dari nilai atribut Laptop.

Itulah proses perhitungan Data Mining, selanjutnya bagaimana kita implemtasikan kedalam script php yang akan menghasilkan sebuah program php dalam perhitungan data mining tersebut. berikut merupakan hasil aoutput dari program data mining yang sudah dibuat dengan script php dan Database MySQL.
Script php program data mining
program data mining seperti pada gambar diatas dibuat dengan script php MySQL untuk mendapatkan source kode programnya klik DISINI. Database SQLnya di SINI.

Demikianlah sedikit contoh program php dalam membuat aplikasi data mining sederhana, mudah mudahan bermanfaat dan bisa dijadikan sebagai referensi untuk belajar.
Jika ada masalah saat menjalankan programnya silahkan tinggalkan komentar anda dibawah ini.

Subscribe to receive free email updates:

2 Responses to " Clustering Data Mining "

  1. Mohon bantuannya untuk membuat aplikasi datamining dengan teknik clustering untuk menyimpan dan pencarian dokumen word,trimakasih...

    ReplyDelete
  2. mau tanya ini yang php clustering data mining user sama passnya apa ya ?

    ReplyDelete