معرفی dataBricks

ابتدا به آدرس زیر میریم:

dat bricks

سپس یک اکانت میسازیم. که اگر همه چیر درست پیش برود یک ایمیل خوش آمد گویی مشابه زیر برای شما ارسال میشود:

خدمات سایت:

  • Simplify data ingestion and automate ETL:

Ingest data from hundreds of sources. Use a simple declarative approach to build data pipelines

  • Collaborate in your preferred language
    Code in Python, R, Scala and SQL with coauthoring, automatic versioning, Git integrations and RBAC.
  • 12x better price/performance than cloud data warehouses
    See why over 7,000 customers worldwide rely on Databricks for all their workloads from BI to AI.

ایجاد CLUSTER

از نوار سمت چپ گزینه new و cluster را انتخاب میکنیم:

مشخصات را طبق زیر تکمیل میکنیم. مشخص است که مقداری memory و DBU به ما اختصاص داده شده است. DBU یعنی data base unit. اطلاعات بیشتر

با زدن روی گزینه create داستان ساخته میشه.

از تب ها میتوان کتابخانه ها را اضافه نمود:

افزودن دیتا:

از منوی زیر میتوان دیتا را به این پلتفرم اضاف نمود:

فایل را از pc خود انتخاب میکنیم ودکمه سمت راست (create table in notebook) را میزنیم تا دستور منتهی به ساخت جدول ما ایجاد شود.

بلوک هایی که نمیخواهیم را حذف کرده و سعی میکنیم دیتاست را بخوانیم:

تا دقیقه 8:47

تنها کد زیر را وارد کرده و ران میکنیم:

# File location and type
file_location = "/FileStore/tables/test1_data.csv"
file_type = "csv"

df=spark.read.csv(file_location,header=True,inferSchema=True)

اگر همه چیز به درستی پیش رفته باشد، نتیجه زیر را خواهیم دید:

سپس میتوان دستورات نمونه زیر را وارد نمود:

df.printSchema()
df.show()
df.select()
df.select('Salary').show()

خلاصه:

در این درس توانستیم یک محیط کاری در databricks ایجاد کنیم.

در قسمت بعدی یک مسئله رگرسیون را در این محیط حل میکنیم.

منابع:

1- ویدئو کریش

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.