Pandas Paketi Nasıl Kullanılır?

Python Pandas, veri manipülasyonu ve analizi için kullanılan bir açık kaynaklı bir kütüphanedir. Pandas, kullanımı kolay ve veri işleme konusunda etkili bir arayüz sunar ve sık kullanılan veri formatlarını destekler.

Pandas kütüphanesi, özellikle büyük veri kümeleri üzerinde çalışmak için tasarlanmıştır ve bu kütüphane sayesinde veri işleme süreci oldukça kolaylaştırılmaktadır.

Pandas, veri işleme için oldukça güçlü bir araçtır ve birçok veri işleme işlevi sağlar. İşte Pandas ile yapılan bazı yaygın veri işlemleri:

  1. Veri okuma ve yazma: Pandas, CSV, Excel, SQL veritabanları, JSON ve daha birçok veri kaynağından veri okumayı ve yazmayı kolaylaştırır.
  2. Veri filtreleme: Veri çerçevelerinde belirli sütunları veya satırları seçmek, belirli koşulları sağlayan satırları filtrelemek için kullanılır.
  3. Veri gruplama ve toplama: Veri çerçevelerindeki verileri belirli sütuna veya sütunlara göre gruplamak, gruplama sonuçları üzerinde toplama, sayma, ortalama alma vb. işlemler yapmak için kullanılır.
  4. Veri birleştirme: Farklı veri kaynaklarından gelen verileri birleştirmek için kullanılır.
  5. Veri dönüştürme: Veri çerçevelerindeki verileri farklı formatta ve farklı yapıya dönüştürmek için kullanılır.
  6. Veri temizleme: Veri çerçevelerindeki boş verileri doldurmak, tekrarlayan verileri silmek, yanlış veri tiplerini düzeltmek vb. işlemler yapmak için kullanılır.
  7. Veri görselleştirme: Veri çerçevelerindeki verileri grafikler, histogramlar, kutu grafikleri, dağılım grafikleri vb. şekillerde görselleştirmek için kullanılır.

Pandas ile yapılabilecek veri işlemleri yukarıdakilerle sınırlı değildir ve veri analizi ve makine öğrenimi uygulamalarında yaygın olarak kullanılır. Pandas, bu işlemleri hızlı ve etkili bir şekilde gerçekleştirmek için optimize edilmiş birçok fonksiyon ve yöntem sağlar.

İşte Python Pandas kütüphanesi hakkında daha detaylı bilgiler:

Pandas Serileri

Pandas serileri, tek boyutlu dizileri temsil eden ve her bir öğenin benzersiz bir etikete sahip olduğu veri yapılarıdır. Pandas serileri, bir liste, dizi veya sözlük gibi farklı veri tiplerinden oluşturulabilir.

import pandas as pd

# Liste kullanarak bir pandas serisi oluşturma
my_list = [1, 2, 3, 4, 5]
my_series = pd.Series(my_list)
print(my_series)

# Output:
# 0    1
# 1    2
# 2    3
# 3    4
# 4    5
# dtype: int64

Pandas Veri Çerçeveleri

Pandas veri çerçeveleri, iki boyutlu bir tablo olarak düzenlenen ve her bir sütunun bir etikete sahip olduğu veri yapılarıdır. Veri çerçeveleri, bir veya daha fazla pandas serisinden oluşur.

import pandas as pd

# Sözlük kullanarak bir pandas veri çerçevesi oluşturma
my_dict = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35]}
my_dataframe = pd.DataFrame(my_dict)
print(my_dataframe)

# Output:
#        name  age
# 0    Alice   25
# 1      Bob   30
# 2  Charlie   35

Pandas Dosya İşlemleri

Pandas, birçok farklı dosya formatını destekler ve bu dosya formatlarını okumak veya yazmak için kullanılabilir. Pandas, veri çerçevelerini CSV, Excel, JSON, HTML, SQL ve daha pek çok farklı formatta okuyabilir veya yazabilir.

import pandas as pd

# CSV dosyasından bir veri çerçevesi okuma
my_dataframe = pd.read_csv('data.csv')
print(my_dataframe)

# Excel dosyasından bir veri çerçevesi okuma
my_dataframe = pd.read_excel('data.xlsx')
print(my_dataframe)

# Veri çerçevesini bir CSV dosyasına yazma
my_dataframe.to_csv('data.csv', index=False)

Pandas Veri İşleme İşlevleri

Pandas, veri manipülasyonu için birçok farklı işlev sağlar. Veri çerçeveleri üzerinde yüzlerce işlem yapılabilir ve bu işlemler sayesinde veri setlerinin anlamlı hale getirilmesi ve analiz edilmesi mümkündür.

İşte Pandas veri işleme işlevlerinden bazıları:

Veri Seçme ve Filtreleme

Pandas, veri çerçevelerinden belirli sütunları veya satırları seçmek için kullanılabilir. Bunun için, veri çerçevesinin sütunlarına veya satırlarına erişmek için loc[] veya iloc[] fonksiyonları kullanılabilir.

import pandas as pd

# Veri çerçevesini oluşturma
data = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35], 'gender': ['F', 'M', 'M']}
df = pd.DataFrame(data)

# Belirli bir sütunu seçme
ages = df['age']
print(ages)

# Belirli bir satırı seçme
row = df.iloc[1]
print(row)

# Belirli bir koşula göre satırları filtreleme
female_rows = df.loc[df['gender'] == 'F']
print(female_rows)

Veri Gruplama

Pandas, veri setlerini belirli bir sütuna veya sütunlara göre gruplamak için kullanılabilir. Gruplama, veri setlerindeki belirli bir özelliği keşfetmek için sıklıkla kullanılır.

import pandas as pd

# Veri çerçevesini oluşturma
data = {'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emily'], 'age': [25, 30, 35, 25, 30], 'gender': ['F', 'M', 'M', 'M', 'F']}
df = pd.DataFrame(data)

# Yaşa göre gruplama ve ortalama yaşın hesaplanması
mean_age_by_gender = df.groupby('gender')['age'].mean()
print(mean_age_by_gender)

Veri Birleştirme

Pandas, farklı veri çerçevelerini birleştirmek için kullanılabilir. Bu işlem, farklı kaynaklardan gelen verilerin birleştirilmesi veya aynı veri kümesinin farklı bölümlerinin birleştirilmesi için kullanılabilir.

import pandas as pd

# İki veri çerçevesi oluşturma
data1 = {'name': ['Alice', 'Bob', 'Charlie'], 'age': [25, 30, 35]}
df1 = pd.DataFrame(data1)

data2 = {'name': ['David', 'Emily', 'Frank'], 'age': [25, 30, 35]}
df2 = pd.DataFrame(data2)

# Veri çerçevelerini birleştirme
merged_df = pd.concat([df1, df2])
print(merged_df)