جلسه هفت – mean- median- mode

ویدئو – لینک

میانگین mean :

فرض کنید چند عدد داریم. 1 و2و3و4و5

جمع این اعداد 15 میشود و تعداد آنها 5 مورد است. این یعنی میانگین آنها 3 است. یعنی عدد 3 نماینده خوبی برای آنهاست. که به آنcentral tendency گویند.

میانه median :

اما فرض کنید یک داده outlier که برابر 50 است را به این مجموعه اضاف کنیم. 1و2و3و4و5و50

در اینصورت جمع این شش عدد به 65 رسیده و میانگین آن 65/6 برابر با 10.8 خواهد بود.

اما آیا 10.8 نماینده خوبی برای معرفی رفتار این اعداد است . ؟ خیر

در اینجا شاخص میانه را به کار میبریم. به طوری که داده ها را sort میکنیم و وسطی را بعنوان میانه انتخاب میکنیم. (داده های که 50 درصد داده ها از آن بزرگ تر و 50 درصد داده ها از آن کوچکتر هستند). توجه اگر تعدد داده ها زوج باشد، نصف جمع دو عدد میانی برابر با mean یا میانه ما خوهد بود

وجود outlier برای محاسبات آمار harmful است.

کلام آخر اینکه درهنگامی که مقادیر outlier داشته باشیم به جای استفاده از میانگین یا mean از شاخص median یا میانه استفاده میکنیم و همچنین از mode یا مد . (داده ای که بیشترین تکرار را دارد )

Missing value :

فرض کنید داده های مربوط به سن افراد را داریم:

24-26-28-25-24-28-19-20-20-24-؟-؟

دیده میشود که حدود رنج سنی از 19 تا 28 سال است و دو مورد هم missing value داریم.

سوال:

این دو مورد را چه باید کرد؟

اولین و مهمترین کار مدیریت این دو مورد است. داده ما outlier ندارد (این موضوع با استفاده از boxplot به صورت مصور مشخص میشود) بنابراین منعی ندارد که از مقدار mean استفاده کنیم. اما اگر مواردی outlier داشتیم از mode و median میتوانستیم استفاده کنیم.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.