Ilmu Data - Korelasi Statistik vs. Kausalitas


Korelasi Tidak Menyiratkan Kausalitas

Korelasi mengukur hubungan numerik antara dua variabel.

Koefisien korelasi yang tinggi (mendekati 1), tidak berarti bahwa kita dapat menyimpulkan hubungan yang sebenarnya antara dua variabel dengan pasti.

Contoh klasik:

  • Selama musim panas, penjualan es krim di pantai meningkat
  • Secara bersamaan, kecelakaan tenggelam juga meningkat

Apakah ini berarti bahwa peningkatan penjualan es krim merupakan penyebab langsung dari meningkatnya kecelakaan tenggelam?


Contoh Pantai dengan Python

Di sini, kami membuat kumpulan data fiksi untuk Anda coba:

Contoh

import pandas as pd
import matplotlib.pyplot as plt

Drowning_Accident = [20,40,60,80,100,120,140,160,180,200]
Ice_Cream_Sale = [20,40,60,80,100,120,140,160,180,200]
Drowning = {"Drowning_Accident": [20,40,60,80,100,120,140,160,180,200],
"Ice_Cream_Sale": [20,40,60,80,100,120,140,160,180,200]}
Drowning = pd.DataFrame(data=Drowning)

Drowning.plot(x="Ice_Cream_Sale", y="Drowning_Accident", kind="scatter")
plt.show()

correlation_beach = Drowning.corr()
print(correlation_beach)

Keluaran:

Korelasi vs Kausalitas

Korelasi vs Kausalitas - Contoh Pantai

Dengan kata lain: bisakah kita menggunakan penjualan es krim untuk memprediksi kecelakaan tenggelam?

Jawabannya mungkin tidak.

Kemungkinan kedua variabel ini secara tidak sengaja berkorelasi satu sama lain.

Lalu apa yang menyebabkan tenggelam?

  • Perenang tidak terampil
  • Ombak
  • Kejang
  • Gangguan kejang
  • Kurangnya pengawasan
  • Alkohol (salah) penggunaan
  • dll.

Mari kita balikkan argumennya:

Apakah koefisien korelasi yang rendah (mendekati nol) berarti bahwa perubahan x tidak mempengaruhi y?

Kembali ke pertanyaan:

  • Bisakah kita menyimpulkan bahwa Average_Pulse tidak mempengaruhi Kalori_Pembakaran karena koefisien korelasi yang rendah?

Jawabannya adalah tidak.

Ada perbedaan penting antara korelasi dan kausalitas:

  • Korelasi adalah angka yang mengukur seberapa dekat data terkait
  • Kausalitas adalah kesimpulan bahwa x menyebabkan y.

Oleh karena itu penting untuk secara kritis merenungkan konsep kausalitas ketika kita melakukan prediksi!