در این آموزش موارد زیر را یاد میگیریم:
- Pyspark DataFrame
- reading the data set
- checking the Datatype of the Columns
- Check Describe option similar to pandas
- adding Columns
- Dropping Columns
- renaming columns
موارد اولیه:
با دستور زیر نصب اولیه را انجام میدهیم:
pip install pyspark
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName('Dataframe').getOrCreate()
read:
با دستور زیر فایل مربوطه را میخوانیم:
df_pyspark=spark.read.option('header','true').csv('file2.csv').show()

که در نتیجه مشخص است که دیتای ما سه ستون دارد و سه ردیف.
با دستور زیر سه سطر اول را میخوانیم:
df_pyspark.head(3)
نتیجه:

select action
با دستور زیر اکشن select را اجرا کرده و ستون موسوم به name را فراخوانده ایم:
df_pyspark.select('Name')
حال با متد show آن را نمایش داده ایم:
df_pyspark.select('Name').show()
اگر بخواهیم دو ستون را انتخاب کنیم :
df_pyspark.select('Name','Experience')
اگر بخواهیم نوع داده را در دیتاست خود مشخص کنیم، داریم:
df_pyspark.dtypes
describe:
حال با متد describe داده خود را توصیف کرده ایم:
df_pyspark.describe()
مجددا برای نمایش توضیحات از متد show استفاده کرده ایم:
df_pyspark.describe().show()
نتیجه:

withColumn:
با دستور زیر یک ستون به داده های خود اضافه کرده ایم و با دستور دوم آن را نمایش داده ایم:
new_data_Frame=df_pyspark.withColumn('Experience after 2 years',df_pyspark['Experience']+2)
new_data_Frame.show()

drop column
با دستور زیر یک ستون را حذف کرده ایم:
df_pyspark.drop('Experience after 2 years').show()
rename a column
با دستور زیر نام یک ستون را تغییر داده ایم:
#rename the columns
df_pyspark.withColumnRenamed('name','New_Name').show()
قسمت بعدی: مدیریت missing values
منابع:
1- ویدئو کریش نایک- یوتیوب– tutorial2
2-گیتهاب strumer- قسمت lesson_B