Ilmu Data - Matriks Korelasi Statistik


Matriks Korelasi

Matriks adalah susunan bilangan-bilangan yang tersusun dalam baris dan kolom.

Matriks korelasi hanyalah sebuah tabel yang menunjukkan koefisien korelasi antar variabel.

Di sini, variabel diwakili di baris pertama, dan di kolom pertama:

Matriks Korelasi

Tabel di atas telah menggunakan data dari kumpulan data kesehatan lengkap.

Pengamatan:

  • Kami mengamati bahwa Duration dan Calorie_Burnage terkait erat, dengan koefisien korelasi 0,89. Ini masuk akal karena semakin lama kita berlatih, semakin banyak kalori yang kita bakar
  • Kami mengamati bahwa hampir tidak ada hubungan linier antara Average_Pulse dan Calorie_Burnage (koefisien korelasi 0,02)
  • Bisakah kita menyimpulkan bahwa Average_Pulse tidak mempengaruhi Calorie_Burnage? Tidak. Kami akan kembali untuk menjawab pertanyaan ini nanti!

Matriks Korelasi dengan Python

Kita dapat menggunakan corr()fungsi dalam Python untuk membuat matriks korelasi. Kami juga menggunakan round()fungsi untuk membulatkan output menjadi dua desimal:

Contoh

Corr_Matrix = round(full_health_data.corr(),2)
print(Corr_Matrix)

Keluaran:

Matriks Korelasi

Menggunakan Peta Panas

Kita dapat menggunakan Peta Panas untuk Memvisualisasikan Korelasi Antar Variabel:

Peta Panas Korelasi

Semakin dekat koefisien korelasi ke 1, semakin hijau kotaknya.

Semakin dekat koefisien korelasi ke -1, semakin coklat kotaknya.


Gunakan Seaborn untuk Membuat Peta Panas

Kita dapat menggunakan perpustakaan Seaborn untuk membuat peta panas korelasi (Seaborn adalah perpustakaan visualisasi berdasarkan matplotlib):

Contoh

import matplotlib.pyplot as plt
import seaborn as sns

correlation_full_health = full_health_data.corr()

axis_corr = sns.heatmap(
correlation_full_health,
vmin=-1, vmax=1, center=0,
cmap=sns.diverging_palette(50, 500, n=500),
square=True
)

plt.show()

Contoh Dijelaskan:

  • Impor perpustakaan seaborn sebagai sns.
  • Gunakan set full_health_data.
  • Gunakan sns.heatmap() untuk memberi tahu Python bahwa kami menginginkan peta panas untuk memvisualisasikan matriks korelasi.
  • Gunakan matriks korelasi. Tentukan nilai maksimal dan minimal dari peta panas. Tentukan bahwa 0 adalah pusatnya.
  • Tentukan warna dengan sns.diverging_palette. n=500 berarti kita menginginkan 500 jenis warna dalam palet warna yang sama.
  • square = True artinya kita ingin melihat persegi.