کاهش ابعاد به روش PCA

PCA که مخفف Principal Component Analysis می‌باشد، یک الگوریتم یادگیری ماشین بدون نظارت (unsupervised) است که تلاش می‌کند ابعاد (تعداد ویژگی‌ها) را در یک مجموعه داده کاهش دهد و در عین حال تا حد ممکن اطلاعات را کاهش دهد. باید توجه داشته باشیم که به بهانه کاهش دادن ابعاد، دیتای ارزشمند را نباید از دست […]

رزومه خوب چه ویژگی‌هایی دارد؟

در این نوشته نکاتی را که در مورد اصول رایج ارسال رزومه به شرکت‌ها وجود دارد بیان می‌شود: 1- متناسب سازی رزومه برای یک پوزیشن و اینکه نیازی نیست همه مهارت‌هایمان را برای یک پوزیشن کاری بیان کنیم. اصطلاحا به صورت اختصاصی‌سازی رزومه ارسال کنیم. 2- بهتر است یک فایل جامع کلی از مهارتها در […]

K means – یادگیری بدون نظارت

در یادگیری بدون نظارت ما اجازه می‌دهیم، مدل به خودی خود رابطه بین دیتاها را کشف کند. بنابراین در این نوع الگوریتم‌ها ما Train dataset نداریم. یا به عبارتی دیگر نیازی به برچسب زدن دیتاها نداریم. (we dont have labeled y’s). برای مثال فرض کنیم که داده‌های زیر را که مربوط به مشتریان یک فروشگاه […]

آموزش SQL

عبارت SQL به معنای Structured Query Language است. این زبان به ما اجازه می‌دهد به دیتابیس دسترسی داشته و دیتای آن را دستکاری کنیم. این زبان در سال 1986 بعنوان استاندارد standard of the American National Standards Institute یا همان ANSI و همچنین ISO قرار گرفت. بنابراین دارای استاندارد ISO/ANSI می‌باشد. زبان SQL چه کارهایی […]

تشخیص سرطان سینه به روش svm

روش SVM در زیر مجموعه Supervised learning قرار می‌گیرد. این روش مانند سایر روش‌های Supervised learning نیاز به تعدادی دیتا برای آموزش دادن مدل دارد. بعد از آموزش انتظار داریم با ورود دیتای جدید، مدل بتواند نوع آن را تشخیص بدهد و متناسب با آن خروجی مناسب را تولید کند. برای مثال در شکل زیر، […]

یک مسئله با سه روش حل – درخت تصمیم- رندوم فورست- رگرسیون لاجستیک

درخت تصمیم یا Decision tree یکی از روش‌های Supervised Learning است. برای توضیح این روش از مثال شرایط لازم برای موج سواری استفاده می‌کنیم. فرض کنیم شرط لازم برای موج سواری کردن، برقراری هر دو شرط آفتابی و وزش باد با سرعت بیشتر از یک مقدار معین باشد. همان‌گونه که در الگوریتم بالا (درخت تصمیم)مشخص […]

روش KNN- داده جدید مربوط به کدام دسته است؟

عبارت KNN مخفف k Nearest Neighbor و به معنای نزدیک‌ترین همسایگی می‌باشد. این روش در زیرمجموعه روش Supervised Learning قرار می‌گیرد. می‌خواهیم با این روش Classification یا دسته‌‌بندی را انجام دهیم. مثلا در شکل زیر اگر بخواهیم دسته‌بندی انجام دهیم، ممکن است از روش KNN استفاده کنیم. در این روش پارامتر k اهمیت زیادی در […]

کدام مسافر کشتی تایتانیک زنده می‌ماند؟

در این مسئله می‌خواهیم ببینیم کدام مسافران کشتی تایتانیک زنده می‌مانند. در روش رگرسیون، هدف ما عددی است در صورتیکه در روش لاجستیک جنس هدف ما از نوع باینری هست (بلی و خیر یا صفر و یک و …) در حل مسائل به روش رگرسیون لاجستیک از تابع Sigmoid کمک می‌گیریم. رفتار این تابع طوری […]

قیمت خانه‌ای با دو اتاق چند است؟ روش رگرسیون

فرض کنید بخواهیم با داشتن اطلاعات یک خانه ، قیمت آن را تخمین بزنیم. ابتدا تعداد زیادی دیتای مربوط به قیمت خانه‌ها را داریم و یک مدل طراحی می‌کنیم که با استفاده از دیتاهای موجود بتواند قیمت یک خانه را که در دیتاها وجود ندارد را برای ما پیش‌بینی کند. زمانی که به دنبال پیدا […]

مدیریت missing value

در مواردی ممکن است دیتایی داشته باشیم که دارای مقادیر ناقص باشد که اصطلاحا به آن missing values می‌گوییم. در این پست بلاگ می‌خواهیم نحوه مدیریت این پدیده را بررسی کنیم. در پایان این نوشته قادر خواهیم بود مقادر از دست رفته یا missing values را مدیریت کنیم. فرمت داده صحیحی انتخاب کنیم و همچنین […]