در این نوشته موارد زیر مرور میشود:
- Filter Operation
- &,|,==
- ~
ابتدا دیتای مربوطبه را فراخوانی میکنیم:
df_pyspark=spark.read.csv('salary.csv',header=True,inferSchema=True)
df_pyspark.show()
میخواهیم نفراتی که حقوق آنها کمتر از20000 هست را جدا کنیم:
df_pyspark.filter("Salary<=20000").show()
کد قبلی را به این صورت نیز میتوان نوشت:
df_pyspark.filter(df_pyspark['Salary']<=20000).show()
دستور زیر همان کد قبلی است با این تفاوت که میخواهیم با select فقط نام و سن نفرات را نمایش دهیم:
df_pyspark.filter("Salary<=20000").select(['Name','age']).show()
شرط Or را میتوان به کار برد. یعنی فیلتر کردن افرادی که حقوقشان بین 15000 تا 20000 است:
# using or
df_pyspark.filter((df_pyspark['Salary']<=20000) |
(df_pyspark['Salary']>=15000)).show()
در کد زیر از گزاره نقیض استفاده شده است. یعنی فیلتر کردن افرادی که شرط موجود را نقض کرده باشند.
# inverse condition
df_pyspark.filter(~(df_pyspark['Salary']<=20000)).show()
منابع :
1- یوتیوب کریش –Tutorial 4