Cluster Data

  • Cluster adalah kumpulan data yang serupa
  • Clustering adalah jenis pembelajaran tanpa pengawasan
  • Koefisien Korelasi menggambarkan kekuatan suatu hubungan.

Cluster

Cluster adalah kumpulan data berdasarkan kesamaan.

Titik data yang dikelompokkan bersama dalam grafik sering dapat diklasifikasikan ke dalam kelompok.

Pada grafik di bawah ini kita dapat membedakan 3 cluster yang berbeda:


Mengidentifikasi Cluster

Cluster dapat menyimpan banyak informasi berharga, tetapi cluster datang dalam berbagai bentuk, jadi bagaimana kita bisa mengenalinya?

Dua metode utama adalah:

  • Menggunakan Visualisasi
  • Menggunakan Algoritma Clustering

Kekelompokan

Clustering adalah jenis Pembelajaran Tanpa Pengawasan .

Pengelompokan mencoba untuk:

  • Kumpulkan data serupa dalam kelompok
  • Kumpulkan data yang berbeda di grup lain

Metode Pengelompokan

  • Metode Kepadatan
  • Metode Hirarki
  • Metode Partisi
  • Metode berbasis kisi

Metode Kepadatan menganggap titik-titik di daerah padat memiliki lebih banyak persamaan dan perbedaan daripada titik-titik di daerah padat yang lebih rendah. Metode densitas memiliki akurasi yang baik. Ia juga memiliki kemampuan untuk menggabungkan cluster.
Dua algoritma yang umum adalah DBSCAN dan OPTICS.

Metode Hirarki membentuk cluster dalam struktur tipe pohon. Cluster baru dibentuk dengan menggunakan cluster yang sudah terbentuk sebelumnya.
Dua algoritma yang umum adalah CURE dan BIRCH.

Metode Berbasis Grid memformulasi data menjadi sejumlah sel terbatas yang membentuk struktur seperti grid.
Dua algoritma umum adalah CLIQUE dan STING

Metode Partisi mempartisi objek menjadi k cluster dan setiap partisi membentuk satu cluster.
Salah satu algoritma yang umum adalah CLARAN.


Koefisien Korelasi

Koefisien Korelasi (r) menggambarkan kekuatan dan arah hubungan linier dan variabel x/y pada scatterplot.

Nilai r selalu antara -1 dan +1:

-1.00Menuruni bukit yang sempurnaHubungan linier negatif.
-0,70Menurun yang kuatHubungan linier negatif.
-0,50Menurun sedangHubungan linier negatif.
-0,30Lemah menuruni bukitHubungan linier negatif.
0Tidak ada hubungan linier.
+0,30Lemah menanjakHubungan linier positif.
+0,50Menanjak sedangHubungan linier positif.
+0,70Menanjak yang kuatHubungan linier positif.
+1.00Menanjak sempurnaHubungan linier positif.

Menanjak Sempurna +1.00 :

Sempurna Menurun -1.00 :

'

Menanjak Kuat +0.61 :

Tidak Ada Hubungan :