پلی لیست – لینک
6- تغییر مسیر کاری به دیتا ساینتیست – ویدئو 21 دقیقه – (تسک : بلاگ )
11- پیش بینی خروج مشتری بانک – ANN – ویدئو 25 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
13- randomized Search CV – انتخاب بهترین هایپر پارمتر در مدل کلاسیفیکیشن – ویدئو 12 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
14- ریاضیات Kmeans Cluster – ویدئو 14 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
15- ریاضیات HierArchical Clustering – ویدئو 6 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
16- چرخه عمر داده در پروژه دیتا ساینس – ویدئو 15 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
17- چگونه ML و DL را در Finance به کار بریم – ویدئو 13 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
18- دیپ لرنینگ در علوم پزشکی- ویدئو 16 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
21- ریاضیات رگرسیون – ویدئو 21 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
22- مدیریت فیچرهای Categorical – ویدئو 18 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
23 – الگوریتم DBSCAN – ویدئو 18 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
24- Curse of dimensionality – ویدئو 7 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
25- فیچر سلکشن – ویدئو 23 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
26- Cross validation -ویدئو 9 دقیقه-(تسک : بلاگ – git – LinkedIn – ویدئو)
27- مدیریت missing data – ویدئو 23 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
28- deploy ML by Flask – ویدئو 13 دقیقه -(تسک : بلاگ – git – LinkedIn – ویدئو)
29- Deploy deep learning by Flask -ویدئو 7 دقیقه- (تسک : بلاگ – git – LinkedIn – ویدئو)
30- مصور سازی در مدل Multiple Linear Regression- ویدئو 8 دقیقه – (تسک : بلاگ – git – LinkedIn – ویدئو)
31- پیش بینی بیماری قلبی (اپلیکیشن) -دیتاست کگل- ویدئو 11 دقیقه -(تسک : بلاگ – git – LinkedIn – ویدئو) (مسئله)
32- پیش بینی بیماری lung – دیتا ست کگل -ویدئو 13 دقیقه -(تسک : بلاگ – git – LinkedIn – ویدئو) (مسئله)
33- stock sentiment analysis – ویدئو 13 دقیقه
34- رندوم فورست -bootstrap aggregation به مدت 9 دقیقه
35- hard voting , soft voting
36- credit card fraud detection – مسئله
37- hyperparameter optimization
38- مدیریت دیتاست imbalanced
39- مشابه مورد قبل – ادامه
40- DNA sequensing
41- credit card risk assessment
42- چه زمانی ، چرا و چگونه feature scaling انجام دهیم.
43- تعداد لایه های پنهان و نورون
44- پیش بینی دیابت
45- نحوه خواندن داده در گوگل کولب
46- تشخیص مالاریا
47- پیگیری قیمت محصول آمازون
48- cross validation و انواع آن
49- مقایسه دو مورد train-test-split و K_fold_cross_validation
50- راه من در تبدیل شدن به دیتا ساینتیست
51- چرخه عمر پروژه دیتا ساینس
52- قدم به قدم تا دیتاساینتیست شدن
53- انتظارات دریافتی حقوق در شغل دیتا ساینس
54- در مورد مصاحبه شغلی دیتا ساینس – 12 دقیقه – مشاهده شد-
- رزومه خوب –
- گیت هاب خوب – همه چیز توشضیح داده شده باشد. پایپ لاین دیتا باید مشخص باشد- دیتا از کجا آمده (مثلا از وب اسکرپ و …) و چه مسیری را طی کرده است. فیچر سلکشن ، مدل ، اجرا و …. همه مراحل باید مشخص شده باشد-
- لینکدین : تعداد کانکشن خوب و با کیفیت
55- نقش ریاضیات در دیتا ساینس
56 – ensemble technique what is bagging
- لینک
- 27 اسفند 401
57- رندوم فورست کلاسیفایر – رگرسیون
- لینک
- 27 اسفند 4012
58- کتابخانه های مهم دیتا ساینس-
- لینک –
- 27 اسفند 401
- اگر پروژه یک ماه زمان داشته باشد، یک ماه ممکن است برای فیچر انجینیر صرف شود.
59- نحوه اپلای برای دیتا ساینس در حوزه کاری خود- لینک
- 27 اسفند 401-
- ممکن است در زمینه مالی یا سلامت فعال باشید. دیتا ساینس به چه درد شما میخورد.
- در پیش بینی – در حل مسائل موجود و …
- اگر به کگل نگاه کنیم ، تعداد متنوعی از مسائل از حوزه های متنوع وجود دارد.
- مثلا در بانک- در بیمارستان – و…
- میتوان مسائلی زیادی حل کرد و در رزومه خود اشاره کرد
- باید فکر کرد که چگونه میتوان از علوم داده در حل مسائل استفاده کرد.
60- مهارتهای مورد نیاز دیتا ساینس – 25اسفند – 1401 – لینک –
دو نوع تحلیل داریم descriptive و predictive – کاری که دو شخص دیتا آنالیست و یا دیتا ساینس میکنند متفاوت است. مورد desc فرد آنالیزگر دیتا میخواهد رفتار دیتا را بداند – اینکه – گذشته دیتا را ببیند، و با ابزارها از دیل آن insight بیرون بکشد. در موردpredictive: فرد دیتا ساینتیست – علاوه بر آنالیز داده ، میخواهد بر اساس گذشته داده، آینده داده را پیش بینی کند. برخی از مهارتها :
برای دیتا آنالیست:
ریاضی و آمار- برای descriptive و نیز عملیات ETL – یعنی extract transform and load – انالزگر دیتا باید بتواند منابع دیتا را بشناسد.SQL l, مونگو دیبی- اوراکل- EWS و …. همه این موارد را آنالیزور دیتا باید بشناسد. انالزکر دیتا باید ابزار visilaization را بشناسد. برنامه نویسی بداند. پایتون سیبورن- متپلات لیب- و پانداس و نامپای , …. tablue و power Bi و ….برای مصورسازی داده ها و …همچنین تکنولوژی هایی که بد نیست بداند. NoSQL دیتا بیس و نحوه کوئری زدن به آنها و … مهارت ارتباطی- story telling – صحبت با کارفرما
برای دیتا ساینتیست:
همه مواردی که گفته شد برای آنالیزگر داده+ دانش در حوزه های متنوع-retail – financial- ecommerce و … الگوریتم های متنوع ماشین لرنینگ – زبان R و پایتون – تنسورفلو- پایتورچ- سایکیت لرن- دیپ لرنینگ – بیگ دیتا – هدوپ – اگر بخواهد دیتاساینتیست فول استک باشد – مدیریت دیتاست بزرگ- دیتاست های کثیف و خام و unistructured – زبان R و پایتون –
نکته:
پوزیشن انالیز به دیتا ساینس داده میشود . اما برعکس نه –
61- نحوه متخصص شدن در EDA- لینک – 25اسفند – 1401
- بیش از 60 درصد زمان شما در EDA است
- فیچر انجینیر- سلکشن – miss valu –
- این مرحله که خوب انجام شود، دقت مدل شما بهتر میشود
- به محض دریافت دیتا، لایف سایکا آن شروع میشود.
- اولین قدم ، فیچر انجینیر- میسینگ والیو- که خوراکش، پایتون، نامپاس و vizulization و seaborn و matplotlib است و …و همچنین دانستن مقداری آمار مهم است
- متود ها را ممکن است ندانیم، بهترین جا برای یادگیری متودها:
- kaggle kernel است.
- خواندن بلاگها در مدیوم و سایر سایتها و با موضوع دیتا ساینس
- خواندن مطالب کگل
- راه حل یکتایی وجود ندارد
- مثال زیاد حل کردن
- اگر میخواهید متخصص شوید ، باید تمارین زیادی حل کنید
- روش ها زیاد اند برای مثال بیش از 70 روش برای حل missing value وجود دارد. تسک – پست بلاگ – لینکدین در مورد انواع روشها
- روش برای categorical feature هم زیادند. برای مثال بیش از 7 الی 8 رورش برای مدیریت آن وجود دارد.تسک – پست بلاگ – لینکدین در مورد انواع روشها .
- شکی نیست که نامپای و پانداس و matplot lib و seaborn مهم هساند. کانت پلات – جوین پلات- از مهمترینها هستند. دیست پلات- paiplot –
- من در مورد هعمه این موارد ویدئو دارم و یا به زودی خواهم داشت تسک task
- انواع جدا سازی comma separate – line separate – space separate – tabseperated
- one hot encoding – – مناسب برای numinal variable
- مثلا این متد ستونهای زیادی تولید میکند. مثلا اگر تعداد category هزار تا باشد، تعداد ستونهای تولید شده زیاد میشود و این ممکن است در برخی مسائل ناکارآمد باشد.
- بنابراین باید بدانیم یا سرچ کنیم که چه روشی مناسب است.
- lable encoding – مناسب برای ؟؟؟
62- نحوه آماده شدن برای مصاحبه –لینک – 24 اسفند 1401- کامل شد-
- باید با ml وDL آشنا باشید.
- وب اسکرپ – بسته با تعداد سال تجربه
- اگر قصد دارید حرفه ای شوید:
- 1تا 5 سال :
- سوال در مورد الگوریتم ها
- کدام الگوریتم را بهتر از سایرین میدانی؟
- مثلا knearest معروف ترین است و تعداد k یا – این مورد را باید از اول تا آخر بلد باشید. باید بتوانید کامل این موضوع را از صفر تا 100 توضیح بدهید. دانستن فقط تعریف کافی نیست.
- اگر outlier در دیتا باشد با knearest آن را چه میکنید؟
- دیتاست imbalance را چه میکنید؟
- چرا رندوم فورست؟
- چرا فلان الگوریتم و چرا فلان نه؟
- لایف سیکل دیتا مهم است. از کجا شروع میشود و چه چالش هایی دارید تا دیتا را تمیز کنید.؟
- فیچر انجینیر- فیچر سلکشن چه چالش هایی دارد؟
- رک باشید be frank –
- تمام مواردی را که تجربه کرده اید را بگویید.
- دیتاگر کمتری کسی است- اکثر افراد دولوپر هستند.
- در شرکتهای کوچک و استارتاپ ها ، یک دیتا گر باید کار ماشین لرنینگ هم انجام بدهد. اما در شرکتهای بزرگ وظایف تخصصی تر میشوند. برای مثال ممکن است ماشین لرنینگ کار با دیتا آنالیزر متفاوت باشد.
- بیشتر از 5 سال تجربه- سنیور هستید دیگر و انتطظارات بیشتری از شما میرود.
- xgboost را کامل یاد بگیرید و توضیح بدهید.
- بیشتر از 9 سال- دیگه – API – باید deploy برای موبایل- در مورد اپلیکیشن ها و کار آفلاین و آنلاین و response time کم باشد و کل معماری پروژه رو بداند – چه در اندروید . چه در مورد پلتفرمهای دیگر – بعبارت دیگر باید سناریو برای شرکت و حل مسئله بتواند تعریف کند – تکنولوژی های متعدد را بداند.- جیسون و منگو DB را بداند – معماری را بداند –
- سوال مصاحبه کریش : تفاوت نه، چه زمانی از هر کدام استفاده میکنیم
- difference between k means clustering and hierarchical clustering
- جواب
- The two main types of classification are K-Means clustering and Hierarchical Clustering. K-Means is used when the number of classes is fixed, while the latter is used for an unknown number of classes.
- زمانی که تعداد دسته ها ثابت باشد، از kmeans استفاده میکنیم. اما اگر تعداد دسته ها نامشخص باشد از مورد hierarchical استفاده میشود
- Distance is used to separate observations into different groups in clustering algorithms.
- اطلاعات بیشتر- لینک
63- چه زمانی فیچر اسکیلینگ و نرمالیزیشن کنیم- لینک – 24 اسفند -401
- هر فیچر دو چیز دارد- unit و magnitude –
- برای مثال ارتفاع – inch یا meter
- اگر magnitude متفاوت باشد. محاسبات uklidian به طول خواهد انجامید. در اینجا norm,aliz میکنیم.
- در الگوریتم های مانند رگرسیون – هر بار خطا را میسنجیم. gradient decent
- این ویدئو با ویدئوی محاسبه رگرسیون رابطه دارد.
- حتما ویدئو های انواع گرادینت دیسنت و دیپ لرنینگ کریش دیده شود. تسک tadk
- standard skaler داده ها را استاندارد میکند و بین صفر تا یک قرار میگیرند.
- cnn -چیزی به نام unit scale داریم.
- درهخت تصمیم- اول درخت را تشکیل میدهیم.
64- فلاسک یا جنگو – هر کدام را چه زمانی استفاده کنیم –لینک – تمام شد-
تسک: یادگیری فلاسک و ساخت یک وب API- یادآوری: جنگو یادگیری اش طول میشکد.
- فلاسک و جنگو، فریم ورکهای بر مبنای پایتون هستند. و برای ساخت آپلیکیشن وب بیس مورد استفاده قرار میگیرند.
- وبApi که میگیم ، منظورمان rest Api هست.
- در مراحل آخر پروژه دیتا ساینس ما مدل را دپلوی میکنیم. همچنین، rest api ها با فرانت وب اپلیکیشن یا موبایل اپلیکیشن در ارتباط خواهند بود. اگر بخواهیم وب API دولوپ کنیم، باید از فلاسک و جنگو استفاده کنیم. همچنین فلاسک و جنگو برای ایجاد فریم ورک وب بیس استفاده میشوند.
- یادگیری فلاسک نیاز به مدت یک هفته دارد. ساده است. و میتوان یک اپلیکیشن کوچک ساخت. جنگو هم خوبه اما برای اپلیکیشن های بزرگ مناسب است. با جنگو میتوان هر دو مورد (وب اپلیکیشن، وب API) را ساخت.
- بعنوان یک دیتا ساینس باید روی هر دو آنها مهارت داشته باشیم.حداقل فلاسک را باید بدانیم. مخصوصا برای کار با کلود پلتفرم. و هنگام دپلوی API.
- اکثر پلتفرمها نظیر، AWS و AZUR…
65 – 5 مورد IDE مهم در پایتون –لینک
- ide به معنای integrated development environment است
- اسپایدر – همراه با اناکوندا میاد- خطاها به خوبی مشاهده میشه- وابستگی به جوپییتر نوت بود ک داره-
- پایچارم – دیباگر درونی دارد- inbuild debugger , نیز checkin git repository دارد. ظاهر خوبی دارد.
- ژؤپیتر نوت بوک- با فرمت iypnb – مهم aws نیز بر این اساس است. با هدف درسی و یادگیری استفاده میشه- چون میشه توضیحات نوشتم
- atom – قابلیت ارسال کد به گیت
- vscode – به ظور اتومات با اناکوندا شده-
- مورد ششم -sublime text editor