Ilmu Data - Statistik Korelasi


Korelasi

Korelasi mengukur hubungan antara dua variabel.

Kami menyebutkan bahwa suatu fungsi memiliki tujuan untuk memprediksi suatu nilai, dengan mengubah input (x) menjadi output (f(x)). Kita dapat mengatakan juga bahwa suatu fungsi menggunakan hubungan antara dua variabel untuk prediksi.


Koefisien Korelasi

Koefisien korelasi mengukur hubungan antara dua variabel.

Koefisien korelasi tidak boleh kurang dari -1 atau lebih tinggi dari 1.

  • 1 = ada hubungan linier yang sempurna antar variabel (seperti Average_Pulse terhadap Calorie_Burnage)
  • 0 = tidak ada hubungan linier antar variabel
  • -1 = ada hubungan linier negatif yang sempurna antara variabel (mis. Lebih sedikit jam kerja, mengarah ke pembakaran kalori yang lebih tinggi selama sesi pelatihan)

Contoh Hubungan Linier Sempurna (Koefisien Korelasi = 1)

Kami akan menggunakan scatterplot untuk memvisualisasikan hubungan antara Average_Pulse dan Calorie_Burnage (kami telah menggunakan kumpulan data kecil dari jam tangan olahraga dengan 10 pengamatan).

Kali ini kita ingin scatter plot, jadi kita ubah kind menjadi "scatter":

Contoh

import matplotlib.pyplot as plt

health_data.plot(x ='Average_Pulse', y='Calorie_Burnage', kind='scatter')
plt.show()

Keluaran:

Koefisien Korelasi = 1

Seperti yang kita lihat sebelumnya, ada hubungan linier yang sempurna antara Average_Pulse dan Calorie_Burnage.



Contoh Hubungan Linier Negatif Sempurna (Koefisien Korelasi = -1)

Koefisien Korelasi = -1

Kami telah merencanakan data fiktif di sini. Sumbu x mewakili jumlah jam kerja di pekerjaan kami sebelum sesi pelatihan. Sumbu y adalah Kalori_Pembakaran.

Jika kita bekerja lebih lama, kita cenderung memiliki pembakaran kalori yang lebih rendah karena kita kelelahan sebelum sesi latihan.

Koefisien korelasi di sini adalah -1.

Contoh

import pandas as pd
import matplotlib.pyplot as plt

negative_corr = {'Hours_Work_Before_Training': [10,9,8,7,6,5,4,3,2,1],
'Calorie_Burnage': [220,240,260,280,300,320,340,360,380,400]}
negative_corr = pd.DataFrame(data=negative_corr)

negative_corr.plot(x ='Hours_Work_Before_Training', y='Calorie_Burnage', kind='scatter')
plt.show()

Contoh Hubungan Tanpa Linier (Koefisien korelasi = 0)

Koefisien Korelasi = 0

Di sini, kami telah memplot Max_Pulse terhadap Duration dari kumpulan full_health_data.

Seperti yang Anda lihat, tidak ada hubungan linier antara kedua variabel. Artinya, sesi latihan yang lebih lama tidak menghasilkan Max_Pulse yang lebih tinggi.

Koefisien korelasi di sini adalah 0.

Contoh

import matplotlib.pyplot as plt

full_health_data.plot(x ='Duration', y='Max_Pulse', kind='scatter')
plt.show()