چرا آمار در دیتا ساینس مهم است؟
3 دلیل اصلی داریم:
1- جهت ارزیابی اینکه آیا دیتای موجود برای رسیدن به جواب کافی است یا نه
2- آمار یک چارچوب دقیق برای تعیین کمیت عدم قطعیت ایجاد می کند.
3- تکنیک هایی را برای انتقال موثر یافته های تجزیه و تحلیل ما ارائه می دهد.
لینک دوره: link
میانگین و میانه:
مورد mean به معنای میانگین است. مورد median به معنای مقداری است که نیمی از داده ها از آن کوچکتر و نیمی بزرگ تر از آن هستند.

دلیل استفاده از میانه:
زیرا زمانی که نمودار داده ها به سمت خاصی متمایل باشد، در دست داشتن میانگین ، دید خاصی را به ما نمیدهد. اما مطلع بودن از مقدار میانه ، میتواند سودمند باشد.

نمودار box-plot:

انحراف معیار:
فاصله بین چارک اول تا چارک سوم را انحراف از معیار گویند:

انحراف معیار نشان میدهد که مقدار پراکندگی داده ها چقدر است. این عامل برای ارزیابی اولیه دیتا اهمیت دارد. اینکه بدانیم آیا دیتای ما ترو تمیز و حوالی میانگین هستند یا اینکه پراکندگی زیادی دارند، توسط شاخص انحراف معیار مشخص میشود. بنابراین اگر انحراف معیار کم باشد یعنی چولگی بزرگتر (مرتفع تر)است و مطلوب تر و برعکس.

A standard deviation (or σ) is a measure of how dispersed the data is in relation to the mean.
معنای فرمول:
کاری که این فرمول میکند این است که اختلاف هر داده را از میانگین حساب میکند، آن را بتوان دو میرساند. اسم این مقدار را t میگذاریم. حال (میانگین تمام t ها و سپس جذر) گرفته میشود:

چند نکته:
- بهترین نمودار برای نمایش رنگ چشمان 120 نفر از افراد، نموداری Pie chart است. چون متغیر نوع categorical داریم.
- زمانی که تمام متغیرهای عددی یک مجموعه دیتا، 5 درصد افزایش یابد، مقدار میانگین نیز 5 درصد بیشتر میشود.
- زمانی که تمام متغیرهای عددی یک مجموعه دیتا، 5 درصد افزایش یابد، مقدار میانه نیز 5 درصد بیشتر میشود. چرا؟
- زمانی که تمام متغیرهای عددی یک مجموعه دیتا، 5 واحد افزایش یابد، مقدار میانه ثابت خواهد بود. چرا؟