filter operations در اسپارک

در این نوشته موارد زیر مرور میشود:

  • Filter Operation
  • &,|,==
  • ~

ابتدا دیتای مربوطبه را فراخوانی میکنیم:


df_pyspark=spark.read.csv('salary.csv',header=True,inferSchema=True)
df_pyspark.show()

میخواهیم نفراتی که حقوق آنها کمتر از20000 هست را جدا کنیم:

df_pyspark.filter("Salary<=20000").show()

کد قبلی را به این صورت نیز میتوان نوشت:

df_pyspark.filter(df_pyspark['Salary']<=20000).show()

دستور زیر همان کد قبلی است با این تفاوت که میخواهیم با select فقط نام و سن نفرات را نمایش دهیم:

df_pyspark.filter("Salary<=20000").select(['Name','age']).show()

شرط Or را میتوان به کار برد. یعنی فیلتر کردن افرادی که حقوقشان بین 15000 تا 20000 است:

# using or 
df_pyspark.filter((df_pyspark['Salary']<=20000) | 
                  (df_pyspark['Salary']>=15000)).show()

در کد زیر از گزاره نقیض استفاده شده است. یعنی فیلتر کردن افرادی که شرط موجود را نقض کرده باشند.

# inverse condition
df_pyspark.filter(~(df_pyspark['Salary']<=20000)).show()

منابع :

1- یوتیوب کریش –Tutorial 4

2-گیت کریش

3- گیت خودم

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.