مطالب زیر یادداشت هایی از دوره آمار در سایت کورسرا هستند.
ادامه خواندن “آمار- کورسرا”دسته: آموزش دیتا ساینس
پیشنهاد فیلم مشابه بر اساس همبستگی-Correlation
سیستمهای پیشنهاد دهنده در محیط های مختلف قابل مشاهده هستند. برای مثال در music Player که بر اساس سلیقه ما پیشنهاداتی برای موسیقی ارائه میشود.در این نوشته قصد داریم به صورت ابتدایی سیستم recommender را پیادهسازی کنیم.
ادامه خواندن “پیشنهاد فیلم مشابه بر اساس همبستگی-Correlation”کاهش ابعاد به روش PCA
PCA که مخفف Principal Component Analysis میباشد، یک الگوریتم یادگیری ماشین بدون نظارت (unsupervised) است که تلاش میکند ابعاد (تعداد ویژگیها) در یک مجموعه را کاهش دهد و در عین حال تا حد ممکن اطلاعات را کاهش دهد. باید توجه داشته باشیم که به بهانه کاهش دادن ابعاد، دیتای ارزشمند را نباید از دست داد. در ادامه روش pca را بررسی میکنیم.
ادامه خواندن “کاهش ابعاد به روش PCA”K means – یادگیری بدون نظارت
در یادگیری بدون نظارت ما اجازه میدهیم، مدل به خودی خود رابطه بین دیتاها را کشف کند. بنابراین در این نوع الگوریتمها ما Train dataset نداریم. یا به عبارتی دیگر نیازی به برچسب زدن دیتاها نداریم. (we dont have labeled y’s). در ادامه این نوشته روش k- means را شرح خواهیم داد.
ادامه خواندن “K means – یادگیری بدون نظارت”تشخیص سرطان سینه به روش svm
روش SVM در زیر مجموعه Supervised learning قرار میگیرد. این روش مانند سایر روشهای Supervised learning نیاز به تعدادی دیتا برای آموزش دادن مدل دارد. بعد از آموزش انتظار داریم با ورود دیتای جدید، مدل بتواند نوع آن را تشخیص بدهد و متناسب با آن خروجی مناسب را تولید کند. در ادامه این نوشته دیتاست مربوط به پیش بینی سرطان سینه را بررسی میکنیم.
ادامه خواندن “تشخیص سرطان سینه به روش svm”یک مسئله با سه روش حل – درخت تصمیم- رندوم فورست- رگرسیون لاجستیک
درخت تصمیم یا Decision tree یکی از روشهای Supervised Learning است. برای توضیح این روش در ادامه از مثال شرایط لازم برای موج سواری استفاده میکنیم.
ادامه خواندن “یک مسئله با سه روش حل – درخت تصمیم- رندوم فورست- رگرسیون لاجستیک”روش KNN- داده جدید مربوط به کدام دسته است؟
عبارت KNN مخفف k Nearest Neighbor و به معنای نزدیکترین همسایگی میباشد. این روش در زیرمجموعه روش Supervised Learning قرار میگیرد و در ادامه بیشتر در مورد آن صحبت خواهیم کرد.
ادامه خواندن “روش KNN- داده جدید مربوط به کدام دسته است؟”کدام مسافر کشتی تایتانیک زنده میماند؟
در این مسئله میخواهیم ببینیم کدام یک مسافران کشتی تایتانیک زنده میمانند. دیتاستی که در اختیار داریم شامل اطلاعاتی مرتبط به سن و جنسیت و کلاس مسافران و مواردی از این قبیل است. میخواهیم پیش بینی کنیم که آیا مسافری با یک مشخصات خاص زنده خواهد ماند یا نه.
ادامه خواندن “کدام مسافر کشتی تایتانیک زنده میماند؟”قیمت خانهای با دو اتاق چند است؟ روش رگرسیون
فرض کنید بخواهیم با داشتن اطلاعات یک خانه ، قیمت آن را تخمین بزنیم. ابتدا تعداد زیادی دیتای مربوط به قیمت خانهها را داریم و یک مدل طراحی میکنیم که با استفاده از دیتاهای موجود بتواند قیمت یک خانه را که در دیتاها وجود ندارد را برای ما پیشبینی کند. در ادامه روش رگرسیون که از ابتدایی ترین روش های مورد استفاده در ماشین لرنینگ هست را بررسی خواهیم کرد.
ادامه خواندن “قیمت خانهای با دو اتاق چند است؟ روش رگرسیون”مدیریت missing value
در مواردی ممکن است دیتایی داشته باشیم که دارای مقادیر ناقص باشد که اصطلاحا به آن missing values میگوییم. در ادامه این پست بلاگ میخواهیم نحوه مدیریت این پدیده را بررسی کنیم.
ادامه خواندن “مدیریت missing value”