Ilmu Data - Standar Deviasi Statistik
Standar Deviasi
Standar deviasi adalah angka yang menggambarkan seberapa menyebar pengamatan.
Suatu fungsi matematika akan mengalami kesulitan dalam memprediksi nilai yang tepat, jika pengamatannya “menyebar”. Standar deviasi adalah ukuran ketidakpastian.
Standar deviasi yang rendah berarti bahwa sebagian besar angka mendekati nilai rata-rata (rata-rata).
Standar deviasi yang tinggi berarti bahwa nilai-nilai tersebar pada rentang yang lebih luas.
Standar Deviasi sering diwakili oleh simbol Sigma:
Kita dapat menggunakan std()
fungsi dari Numpy untuk mencari simpangan baku suatu variabel:
Contoh
import numpy as np
std = np.std(full_health_data)
print(std)
Hasil:
Apa arti dari angka-angka ini?
Koefisien variasi
Koefisien variasi digunakan untuk mendapatkan gambaran seberapa besar simpangan bakunya.
Secara matematis, koefisien variasi didefinisikan sebagai:
Coefficient of Variation = Standard Deviation / Mean
Kita dapat melakukan ini dengan Python jika kita melanjutkan dengan kode berikut:
Contoh
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
Hasil:
Kami melihat bahwa variabel Duration, Calorie_Burnage dan Hours_Work memiliki Standar Deviasi yang tinggi dibandingkan dengan Max_Pulse, Average_Pulse dan Hours_Sleep.