پیشنهاد فیلم مشابه بر اساس همبستگی-Correlation

سیستم‌های پیشنهاد دهنده در محیط های مختلف قابل مشاهده هستند. برای مثال در music Player که بر اساس سلیقه ما پیشنهاداتی برای موسیقی ارائه می‌شود.در این نوشته قصد داریم به صورت ابتدایی سیستم recommender را پیاده‌سازی کنیم.

ادامه خواندن “پیشنهاد فیلم مشابه بر اساس همبستگی-Correlation”

کاهش ابعاد به روش PCA

PCA که مخفف Principal Component Analysis می‌باشد، یک الگوریتم یادگیری ماشین بدون نظارت (unsupervised) است که تلاش می‌کند ابعاد (تعداد ویژگی‌ها) در یک مجموعه را کاهش دهد و در عین حال تا حد ممکن اطلاعات را کاهش دهد. باید توجه داشته باشیم که به بهانه کاهش دادن ابعاد، دیتای ارزشمند را نباید از دست داد. در ادامه روش pca را بررسی میکنیم.

ادامه خواندن “کاهش ابعاد به روش PCA”

K means – یادگیری بدون نظارت

در یادگیری بدون نظارت ما اجازه می‌دهیم، مدل به خودی خود رابطه بین دیتاها را کشف کند. بنابراین در این نوع الگوریتم‌ها ما Train dataset نداریم. یا به عبارتی دیگر نیازی به برچسب زدن دیتاها نداریم. (we dont have labeled y’s). در ادامه این نوشته روش k- means را شرح خواهیم داد.

ادامه خواندن “K means – یادگیری بدون نظارت”

تشخیص سرطان سینه به روش svm

روش SVM در زیر مجموعه Supervised learning قرار می‌گیرد. این روش مانند سایر روش‌های Supervised learning نیاز به تعدادی دیتا برای آموزش دادن مدل دارد. بعد از آموزش انتظار داریم با ورود دیتای جدید، مدل بتواند نوع آن را تشخیص بدهد و متناسب با آن خروجی مناسب را تولید کند. در ادامه این نوشته دیتاست مربوط به پیش بینی سرطان سینه را بررسی میکنیم.

ادامه خواندن “تشخیص سرطان سینه به روش svm”

یک مسئله با سه روش حل – درخت تصمیم- رندوم فورست- رگرسیون لاجستیک

درخت تصمیم یا Decision tree یکی از روش‌های Supervised Learning است. برای توضیح این روش در ادامه از مثال شرایط لازم برای موج سواری استفاده می‌کنیم.

ادامه خواندن “یک مسئله با سه روش حل – درخت تصمیم- رندوم فورست- رگرسیون لاجستیک”

روش KNN- داده جدید مربوط به کدام دسته است؟

عبارت KNN مخفف k Nearest Neighbor و به معنای نزدیک‌ترین همسایگی می‌باشد. این روش در زیرمجموعه روش Supervised Learning قرار می‌گیرد و در ادامه بیشتر در مورد آن صحبت خواهیم کرد.

ادامه خواندن “روش KNN- داده جدید مربوط به کدام دسته است؟”

کدام مسافر کشتی تایتانیک زنده می‌ماند؟

در این مسئله می‌خواهیم ببینیم کدام یک مسافران کشتی تایتانیک زنده می‌مانند. دیتاستی که در اختیار داریم شامل اطلاعاتی مرتبط به سن و جنسیت و کلاس مسافران و مواردی از این قبیل است. میخواهیم پیش بینی کنیم که آیا مسافری با یک مشخصات خاص زنده خواهد ماند یا نه.

ادامه خواندن “کدام مسافر کشتی تایتانیک زنده می‌ماند؟”

قیمت خانه‌ای با دو اتاق چند است؟ روش رگرسیون

فرض کنید بخواهیم با داشتن اطلاعات یک خانه ، قیمت آن را تخمین بزنیم. ابتدا تعداد زیادی دیتای مربوط به قیمت خانه‌ها را داریم و یک مدل طراحی می‌کنیم که با استفاده از دیتاهای موجود بتواند قیمت یک خانه را که در دیتاها وجود ندارد را برای ما پیش‌بینی کند. در ادامه روش رگرسیون که از ابتدایی ترین روش های مورد استفاده در ماشین لرنینگ هست را بررسی خواهیم کرد.

ادامه خواندن “قیمت خانه‌ای با دو اتاق چند است؟ روش رگرسیون”

مدیریت missing value

در مواردی ممکن است دیتایی داشته باشیم که دارای مقادیر ناقص باشد که اصطلاحا به آن missing values می‌گوییم. در ادامه این پست بلاگ می‌خواهیم نحوه مدیریت این پدیده را بررسی کنیم.

ادامه خواندن “مدیریت missing value”