جلسه 5 – استاندارد‌سازی داده‌ها- log normal distribution

آدرس ویدئو: لینک

میانه:

مقداری که 50 درصد داده ها از آن کوچکتر و 50 درصد داده ها از آن بزرگتر هستند:

توزیع دیگری داریم به نام log normal distribution :

زمانی است که لگاریتم داده ها توزیع نرمال داشته باشند. مانند موارد زیر

1- طول کامنتهای موجود در سایتها معمولا کوتاه است و تنها درصد کمی از آنها طولانی تر هستند:

2- نمودار درآمد افراد نیز این چنین رفتاری دارد، درصد زیادی از افراد در آمد متوسط دارند. درصد کمی درآمد کم و درصد کمی درآمد بالا دارند:

داده که استاندارد شود، میانگین صفر و انحراف معیار آن یک میشود.

فرض که داده های زیر را داریم: یعنی با توجه به مقادیر هزینه شده برای R&D و marketing و تبلیغات ، میخواهیم مقدار سود را بدست آوریم:

فرض میکنیم که مقادیر موجود در ستون R&d از الگوی gaussian پیروی میکنند. در این صورت باید آنرا فقط standard کنیم. (داده که استاندارد شود، میانگین صفر و انحراف معیار آن یک میشود.)

در مورد ستون marketing فرض کنیم که داده ها از توزیع log normal distribution پیروی کنند. ابتدا از تک تک داده ها لگاریتم (ln) میگیریم تا به gaussian تبدیل شوند و سپس میتوان آن را به standard normal distribution تبدیل کرد. که فرمول آن به شرح زیر است:

حال با استفاده از standard skaler آنرا به اسکیلی میبریم که داده های R&D تبدیل شدند.

حال این کار را برای همه ستونها (فیچرها) میتوان انجام داد.

فایده این کار این است که اجرای مدل روی داده ها باعث افزایش دقت accuracy مدل میشود.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.