Pandas - Membersihkan Sel Kosong


Sel Kosong

Sel kosong berpotensi memberikan hasil yang salah saat Anda menganalisis data.


Hapus Baris

Salah satu cara untuk menangani sel kosong adalah dengan menghapus baris yang berisi sel kosong.

Ini biasanya baik-baik saja, karena kumpulan data bisa sangat besar, dan menghapus beberapa baris tidak akan berdampak besar pada hasilnya.

Contoh

Kembalikan Bingkai Data baru tanpa sel kosong:

import pandas as pd

df = pd.read_csv('data.csv')

new_df = df.dropna()

print(new_df.to_string())

Dalam contoh pembersihan kami, kami akan menggunakan file CSV bernama 'dirtydata.csv'.

Unduh dirtydata.csv . atau Buka dirtydata.csv

Catatan: Secara default, dropna()metode ini mengembalikan DataFrame baru , dan tidak akan mengubah aslinya.

Jika Anda ingin mengubah DataFrame asli, gunakan inplace = Trueargumen:

Contoh

Hapus semua baris dengan nilai NULL:

import pandas as pd

df = pd.read_csv('data.csv')

df.dropna(inplace = True)

print(df.to_string())

Catatan: Sekarang, dropna(inplace = True)TIDAK akan mengembalikan DataFrame baru, tetapi akan menghapus semua baris yang berisi nilai NULL dari DataFrame asli.


Ganti Nilai Kosong

Cara lain untuk menangani sel kosong adalah dengan memasukkan nilai baru .

Dengan cara ini Anda tidak perlu menghapus seluruh baris hanya karena beberapa sel kosong.

Metode fillna()ini memungkinkan kita untuk mengganti sel kosong dengan nilai:

Contoh

Ganti nilai NULL dengan angka 130:

import pandas as pd

df = pd.read_csv('data.csv')

df.fillna(130, inplace = True)

Ganti Hanya Untuk Kolom Tertentu

Contoh di atas menggantikan semua sel kosong di seluruh Bingkai Data.

Untuk hanya mengganti nilai kosong untuk satu kolom, tentukan nama kolom untuk DataFrame:

Contoh

Ganti nilai NULL di kolom "Kalori" dengan angka 130:

import pandas as pd

df = pd.read_csv('data.csv')

df["Calories"].fillna(130, inplace = True)

w3schools CERTIFIED . 2021

Dapatkan Sertifikasi!

Selesaikan modul Pandas, kerjakan latihannya, ikuti ujiannya, dan Anda akan mendapatkan sertifikasi w3schools!

$10 DAFTAR

Ganti Menggunakan Mean, Median, atau Mode

Cara umum untuk mengganti sel kosong adalah dengan menghitung nilai mean, median, atau mode kolom.

Pandas menggunakan metode mean() median()and mode()untuk menghitung nilai masing-masing untuk kolom tertentu:

Contoh

Hitung MEAN, dan ganti nilai kosong apa pun dengannya:

import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].mean()

df["Calories"].fillna(x, inplace = True)

Mean = nilai rata-rata (jumlah semua nilai dibagi jumlah nilai).

Contoh

Hitung MEDIAN, dan ganti nilai kosong apa pun dengannya:

import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].median()

df["Calories"].fillna(x, inplace = True)

Median = nilai di tengah, setelah Anda mengurutkan semua nilai secara menaik.

Contoh

Hitung MODE, dan ganti nilai kosong apa pun dengannya:

import pandas as pd

df = pd.read_csv('data.csv')

x = df["Calories"].mode()[0]

df["Calories"].fillna(x, inplace = True)

Modus = nilai yang paling sering muncul.