ابتدا باید اسپارک را نصب کنیم:
pip install pyspark
سپس کتابخانه مورد نیاز sparksession را ایمپورت میکنیم:
from pyspark.sql import SparkSession
نام دلخواهی انتخاب میکنیم:
spark=SparkSession.builder.appName('Practise').getOrCreate()
spark
فایل CSV را از دایرکتوری میخوانیم:
df_pyspark=spark.read.csv('file.csv')
df_pyspark

دیتای ما در فایل CSV در ستون A و B قرار گرفته است. اما اسپارک در جواب کد بالا مقدارC1 و c2 به آن اختصاص میدهد. c نماینده column است.
با دستور زیر دیتای خود را مشاهده میکنیم:
df_pyspark.show()
نتیجه :

حال با دستور زیر میخواهیم که هدر داشته باشیم. یعنی سطر اول را هدر در نظر بگیرد.
spark.read.option('header','true').csv('file.csv').show()

دستور زیر نوع داده را به ما میدهد:
type(df_pyspark)
و دستور زیر سه ردیف اول داده را میدهد:
df_pyspark.head(3)
و دستور زیر اسکیمای داده را به ما میدهد:
df_pyspark.printSchema()
قسمت بعدی (دیتا فریم و کار با ستون ها)
منابع:
1- کد فایل در گیت هاب (حل تمرین ساده)
2- ویدئو کریش نایک