Pandas - Menganalisis DataFrames


Melihat Data

Salah satu metode yang paling sering digunakan untuk mendapatkan gambaran singkat tentang DataFrame, adalah head()metodenya.

Metode head()ini mengembalikan header dan sejumlah baris tertentu, mulai dari atas.

Contoh

Dapatkan ikhtisar singkat dengan mencetak 10 baris pertama DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

Dalam contoh kita, kita akan menggunakan file CSV yang disebut 'data.csv'.

Unduh data.csv , atau buka data.csv di browser Anda.

Catatan: jika jumlah baris tidak ditentukan, head()metode ini akan mengembalikan 5 baris teratas.

Contoh

Cetak 5 baris pertama DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Ada juga tail()metode untuk melihat baris terakhir dari DataFrame.

Metode tail()ini mengembalikan header dan sejumlah baris tertentu, mulai dari bawah.

Contoh

Cetak 5 baris terakhir dari DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

Dapatkan Sertifikasi!

Selesaikan modul Pandas, kerjakan latihannya, ikuti ujiannya, dan Anda akan mendapatkan sertifikasi w3schools!

$10 DAFTAR

Info Tentang Data

Objek DataFrames memiliki metode yang disebut info(), yang memberi Anda lebih banyak informasi tentang kumpulan data.

Contoh

Cetak informasi tentang data:

print(df.info()) 

Hasil

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Hasil Dijelaskan

Hasilnya memberi tahu kita bahwa ada 169 baris dan 4 kolom:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

Dan nama setiap kolom, dengan tipe data:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Nilai Null

Metode info()ini juga memberi tahu kami berapa banyak nilai Non-Null yang ada di setiap kolom, dan dalam kumpulan data kami sepertinya ada 164 dari 169 nilai Non-Null di kolom "Kalori".

Artinya ada 5 baris tanpa nilai sama sekali, di kolom "Kalori", untuk alasan apa pun.

Nilai kosong, atau nilai Null, bisa berakibat buruk saat menganalisis data, dan Anda harus mempertimbangkan untuk menghapus baris dengan nilai kosong. Ini adalah langkah menuju apa yang disebut membersihkan data , dan Anda akan mempelajarinya lebih lanjut di bab-bab berikutnya.