Cluster Data
- Cluster adalah kumpulan data yang serupa
- Clustering adalah jenis pembelajaran tanpa pengawasan
- Koefisien Korelasi menggambarkan kekuatan suatu hubungan.
Cluster
Cluster adalah kumpulan data berdasarkan kesamaan.
Titik data yang dikelompokkan bersama dalam grafik sering dapat diklasifikasikan ke dalam kelompok.
Pada grafik di bawah ini kita dapat membedakan 3 cluster yang berbeda:
Mengidentifikasi Cluster
Cluster dapat menyimpan banyak informasi berharga, tetapi cluster datang dalam berbagai bentuk, jadi bagaimana kita bisa mengenalinya?
Dua metode utama adalah:
- Menggunakan Visualisasi
- Menggunakan Algoritma Clustering
Kekelompokan
Clustering adalah jenis Pembelajaran Tanpa Pengawasan .
Pengelompokan mencoba untuk:
- Kumpulkan data serupa dalam kelompok
- Kumpulkan data yang berbeda di grup lain
Metode Pengelompokan
- Metode Kepadatan
- Metode Hirarki
- Metode Partisi
- Metode berbasis kisi
Metode Kepadatan menganggap titik-titik di daerah padat memiliki lebih banyak persamaan dan perbedaan daripada titik-titik di daerah padat yang lebih rendah. Metode densitas memiliki akurasi yang baik. Ia juga memiliki kemampuan untuk menggabungkan cluster.
Dua algoritma yang umum adalah DBSCAN dan OPTICS.
Metode Hirarki membentuk cluster dalam struktur tipe pohon. Cluster baru dibentuk dengan menggunakan cluster yang sudah terbentuk sebelumnya.
Dua algoritma yang umum adalah CURE dan BIRCH.
Metode Berbasis Grid memformulasi data menjadi sejumlah sel terbatas yang membentuk struktur seperti grid.
Dua algoritma umum adalah CLIQUE dan STING
Metode Partisi mempartisi objek menjadi k cluster dan setiap partisi membentuk satu cluster.
Salah satu algoritma yang umum adalah CLARAN.
Koefisien Korelasi
Koefisien Korelasi (r) menggambarkan kekuatan dan arah hubungan linier dan variabel x/y pada scatterplot.
Nilai r selalu antara -1 dan +1:
-1.00 | Menuruni bukit yang sempurna | Hubungan linier negatif. |
-0,70 | Menurun yang kuat | Hubungan linier negatif. |
-0,50 | Menurun sedang | Hubungan linier negatif. |
-0,30 | Lemah menuruni bukit | Hubungan linier negatif. |
0 | Tidak ada hubungan linier. | |
+0,30 | Lemah menanjak | Hubungan linier positif. |
+0,50 | Menanjak sedang | Hubungan linier positif. |
+0,70 | Menanjak yang kuat | Hubungan linier positif. |
+1.00 | Menanjak sempurna | Hubungan linier positif. |
Menanjak Sempurna +1.00 :
Sempurna Menurun -1.00 :
Menanjak Kuat +0.61 :
Tidak Ada Hubungan :