قسمت چهارم- اسپارک

در این آموزش موارد زیر را یاد میگیریم:

  • Pyspark DataFrame
  • reading the data set
  • checking the Datatype of the Columns
  • Check Describe option similar to pandas
  • adding Columns
  • Dropping Columns
  • renaming columns

موارد اولیه:

با دستور زیر نصب اولیه را انجام میدهیم:

pip install pyspark
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName('Dataframe').getOrCreate()

read:

با دستور زیر فایل مربوطه را میخوانیم:

df_pyspark=spark.read.option('header','true').csv('file2.csv').show()

که در نتیجه مشخص است که دیتای ما سه ستون دارد و سه ردیف.

با دستور زیر سه سطر اول را میخوانیم:

df_pyspark.head(3)

نتیجه:

select action

با دستور زیر اکشن select را اجرا کرده و ستون موسوم به name را فراخوانده ایم:

df_pyspark.select('Name')

حال با متد show آن را نمایش داده ایم:

df_pyspark.select('Name').show()

اگر بخواهیم دو ستون را انتخاب کنیم :

df_pyspark.select('Name','Experience')

اگر بخواهیم نوع داده را در دیتاست خود مشخص کنیم، داریم:

df_pyspark.dtypes

describe:

حال با متد describe داده خود را توصیف کرده ایم:

df_pyspark.describe()

مجددا برای نمایش توضیحات از متد show استفاده کرده ایم:

df_pyspark.describe().show()

نتیجه:

withColumn:

با دستور زیر یک ستون به داده های خود اضافه کرده ایم و با دستور دوم آن را نمایش داده ایم:

new_data_Frame=df_pyspark.withColumn('Experience after 2 years',df_pyspark['Experience']+2)
new_data_Frame.show()

drop column

با دستور زیر یک ستون را حذف کرده ایم:

df_pyspark.drop('Experience after 2 years').show()

rename a column

با دستور زیر نام یک ستون را تغییر داده ایم:

#rename the columns
df_pyspark.withColumnRenamed('name','New_Name').show()

قسمت بعدی: مدیریت missing values

منابع:

1- ویدئو کریش نایک- یوتیوب– tutorial2

2-گیتهاب strumer- قسمت lesson_B

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.