حل یک تمرین ساده در اسپارک

ابتدا باید اسپارک را نصب کنیم:

pip install pyspark

سپس کتابخانه مورد نیاز sparksession را ایمپورت میکنیم:

from pyspark.sql import SparkSession

نام دلخواهی انتخاب میکنیم:

spark=SparkSession.builder.appName('Practise').getOrCreate()
spark

فایل CSV را از دایرکتوری میخوانیم:

df_pyspark=spark.read.csv('file.csv')
df_pyspark

دیتای ما در فایل CSV در ستون A و B قرار گرفته است. اما اسپارک در جواب کد بالا مقدارC1 و c2 به آن اختصاص میدهد. c نماینده column است.

با دستور زیر دیتای خود را مشاهده میکنیم:

df_pyspark.show()

نتیجه :

حال با دستور زیر میخواهیم که هدر داشته باشیم. یعنی سطر اول را هدر در نظر بگیرد.

spark.read.option('header','true').csv('file.csv').show()

دستور زیر نوع داده را به ما میدهد:

type(df_pyspark)

و دستور زیر سه ردیف اول داده را میدهد:

df_pyspark.head(3)

و دستور زیر اسکیمای داده را به ما میدهد:

df_pyspark.printSchema()

قسمت بعدی (دیتا فریم و کار با ستون ها)

منابع:

1- کد فایل در گیت هاب (حل تمرین ساده)

2- ویدئو کریش نایک

منتشر شده در
دسته‌بندی شده در spark

دیدگاهی بنویسید

نشانی ایمیل شما منتشر نخواهد شد.