آمار- کورسرا

مطالب زیر یادداشت هایی از دوره آمار در سایت کورسرا هستند.

لینک دوره: link 

هفته اول

چرا آمار در دیتا ساینس مهم است؟

3 دلیل اصلی داریم:
1- جهت ارزیابی اینکه آیا دیتای موجود برای رسیدن به جواب کافی است یا نه
2- آمار یک چارچوب دقیق برای تعیین کمیت عدم قطعیت ایجاد می کند.
3- تکنیک هایی را برای انتقال موثر یافته های تجزیه و تحلیل ما ارائه می دهد.

میانگین و میانه:

مورد mean به معنای میانگین است. مورد median به معنای مقداری است که نیمی از داده ها از آن کوچکتر و نیمی بزرگ تر از آن هستند.

دلیل استفاده از میانه:

زیرا زمانی که نمودار داده ها به سمت خاصی متمایل باشد، در دست داشتن میانگین ، دید خاصی را به ما نمیدهد. اما مطلع بودن از مقدار میانه ، میتواند سودمند باشد.

نمودار box-plot:

انحراف معیار:

فاصله بین چارک اول تا چارک دوم را انحراف از معیار گویند:

انحراف معیار نشان میدهد که مقدار پراکندگی داده ها چقدر است. این عامل برای ارزیابی اولیه دیتا اهمیت دارد. اینکه بدانیم آیا دیتای ما ترو تمیز و حوالی میانگین هستند یا اینکه پراکندگی زیادی دارند، توسط شاخص انحراف معیار مشخص میشود. بنابراین اگر انحراف معیار کم باشد یعنی چولگی بزرگتر (مرتفع تر)است و مطلوب تر و برعکس.

standard deviation (or σ) is a measure of how dispersed the data is in relation to the mean.

معنای فرمول:

کاری که این فرمول میکند این است که اختلاف هر داده را از میانگین حساب میکند، آن را بتوان دو میرساند. اسم این مقدار را t میگذاریم. حال (میانگین تمام t ها و سپس جذر) گرفته میشود:

چند نکته:

  • بهترین نمودار برای نمایش رنگ چشمان 120 نفر از افراد، نموداری Pie chart است. چون متغیر نوع categorical داریم.
  • زمانی که تمام متغیرهای عددی یک مجموعه دیتا، 5 درصد افزایش یابد، مقدار میانگین نیز 5 درصد بیشتر میشود.
  • زمانی که تمام متغیرهای عددی یک مجموعه دیتا، 5 درصد افزایش یابد، مقدار میانه نیز 5 درصد بیشتر میشود. چرا؟
  • زمانی که تمام متغیرهای عددی یک مجموعه دیتا، 5 واحد افزایش یابد، مقدار میانه ثابت خواهد بود. چرا؟

هفته دوم:

نمونه گیری:

نمونه برداری میتواند خطا داشته باشد. برای مثال اگر برای داشتن یک نمونه 1000 نفری از کل جمعیت ایران ، تنها از جمعیت یک شهر انتخاب کنیم bias خواهیم داشت.

انواع بایاس:

selection bias

non-response bias: parents are less likely to answer a survey request at 6 pm .because they are busy with children and dinner

voluntary response bias: websites that post reviews of businesses are more likely to get responses from customers who had very bad or very good experience

بهترین متود برای نمونه گیری استفاده از شانس (به صورت رندوم)یا simple random sample است.

فایل Pdf برای مطالعه بیشتر

احتمال چیست؟

The probability of an event is defined as the proportion of times this event occurs in many repetitions. احتمال رویداد یک حالت در یک آزمایش (مثلا پرتاب سکه) به صورت نسبت دفعات رخداد یک حالت خاص(مثلا شیر بیاید یا خط) ، زمانی که دفعات زیادی آزمایش را انجام دهیم، تعریف میشود . برای مثال فردی به نام John Kerrich در جنگ جهانی دوم به تعدا 10000 بار سکه ای را پرتاب کرده است و تعداد دفعاتی که خط آمده است 5067 بوده است. (نزدیک به 50 درصد).

4 قانون اصلی در احتمالات:

قانون اول: مکمل یک

* احتمال عددی بین صفر تا یک است. مثلا اگر احتمال پیروزی 20 درصد باشد، احتمال شکست 80 درصد(مکمل 20 تا رسیدن به 100) است.

قانون دوم: برابری رویداد Rule for equally likely outcomes

برای مثال در پرتاب تاس، احتمال هر یک از پیشامدها “…برابر…” است و مقدار آن 1 به 6 است.

دو قانون بعدی در مورد پیشامدهای همزمان است.

تعریف پیشامد متضاد (ناهمزمان) : اگر دو پیشامد نتوانند با هم رخ دهند، متضاد هستند. مثلا در پرتاب یکبار تاس رخداد یک آمدن و شش آمدن متضاد هستند. چون نمیتواند هم شش بیاید و هم یک (یکبار پرتاب داریم). A and B are mutually exclusive if they cannot occur at the same time.

قانون سوم : جمع احتمالات

اگر دو پیشامد متضاد (ناهمزمان) باشند، احتمال رویداد هر دو آنها (A یا B) برابر با جمع احتمال هرکدام به تنهایی است.

قانون چهارم: ضرب

دو پیشامد را مستقل گوییم اگر رخداد یکی تاثیری بر دیگری نداشته باشد. اگر دو رویداد مستقل باشند، احتمال رویداد هر دو آنها (A and B) برابر ضرب احتمال آن دو مورد است.

مثال:

تاسی را– سه بار— پرتاب میکنیم. احتمال اینکه حداقل یکبار شش بیاید چقدر است؟

احتمال شرطی:

احتمال وجود کلمه پول در ایمیل spam بیشتر از احتمال وجود آن در ایمیل معمولی است.

احتمال شرطی B به شرط A به صورت زیر تعریف می‌شود:

مثال : اگر احتمال اسپم بودن ایمیل 20 درصد باشد، احتمال اینکه کلمه پول در آن وجود داشته باشد، چقدر است؟

قانون بیز:

مثال از false positive :

یک درصد جمعیت ، یک نوع بیماری خاص دارند. اگر فرد مبتلا مورد آزمایش قرار گیرد، 95 درصد احتمال دارد که تست مثبت باشد. اگر فرد مبتلا نباشد، 2 درصد احتمال دارد که تست اشتباها مثبت باشد(فرد را مبتلا نشان دهد). که به آن false positive گویند. حال اگر جواب آزمایش فردی مثبت باشد، احتمال مبتلا بودن آن چند درصد است؟

مطالعه بیشتر: فایل pdf شماره سه : probability

هفته 3 – توزیع نرمال و توزیع دو جمله ای

از کجا بفهمیم که نمودار هیستوگرام، مربوط به دیتاهای نرمال است؟

چند مثال از توزیع نرمال: توزیع قد افراد، فشار خون افراد، وزن سگها

نمودار دیتای درآمد افراد از توزیع نرمال تبعیت نمیکند

قوانین Empirical

اگر دیتا از توزیع نرمال برخوردار باشد:

  • 2/3 یا حدود 68 درصد کل دیتاها بین میانگین داده ها +- انحراف معیار قرار میگیرند.
  • 95 درصد آن بین میانگین +- 2 برابر انحراف معیار قرار میگیرند.
  • 99.7 درصد آن بین میانگین +- 3 انحراف معیار استاندارد قرار میگیرند.
  • مثال اگر میانگین قد افراد68.3 اینچ باشد وانحراف از معیار برابر 1.8 اینچ باشد، آنگاه95 درصد تمام افراد قدی بین64.7 اینچ و 71.9 خواهد بود. ویدئو:

قوانین empirical روی نمودار توزیع نرمال :

دیتای استاندارد شده:

برای استاندار کردن هر داده ابتدا تفاضل آن را از میانگین بدست می آوریم و سپس بر انحراف معیار تقسیم میکنیم که به آن z-score گویند:

عدد z واحد ندارد.

برای مثال اگر z-score در یک نمونه برابر 2 باشد، یعنی تفاضل آن نمونه از میانگین دو برابر انحراف معیار است.

یا اگر منفی 1.5 باشد، یعنی تفاضل آن نمونه از میانگین 1.5 واحد منفی بوده است.

نکته یا نتیجه:

اگر دیتا استاندارد باشد(مقدار هر نمونه قبل و بعد از استاندارد سازی برابر باشد)، میانگین آن داده ها صفر و انحراف معیار= یک دارد و نمودار آن به شکل زیر است:

normal approximation

سوال : چند درصد پدران قدشان بین 67.4 تا 71.9 اینچ است؟ فقط میدانیم میانگین برابر 68.3 و انحراف معیار برابر 1.8 اینچ است. (حل این مسئله توسط نرم افزار انجام میشود فعلا. در آینده روشهایی برای حل بدون نرم افزار خواهیم گفت)

راهنمایی:
1-ابتدا دو عدد داده شده را استاندارد کنید.(زد اسکور را بدست آورید.که بترتیب منفی نیم و 2 میشوند.)

ضریب دو جمله ای

دو جمله ای به این دلیل گفته میشود که دو حالت داریم. مثلا پیروزی یا شکست. دختر یا پسر. شیر یا خط و … مثال:

اگر بدانیم احتمال دختر بودن در یک تولد، 49 درصد است، احتمال تولد 2 دختر از میان سه تولد چقدر است؟

ویدئو:

یاد آوری:
1- مستقل بودن منجر به ضرب احتمالات میشود .
2- ناهمزمان بودن منجر به جمع احتمالات میشود.

در فرمول زیر :

1- بخش اول= تعداد دفعاتی که ممکن است رخداد مورد نظرما (پیروزی) رخ دهد که به آن binomial coefficient یا ضریب دو جمله ای گفته میشود. که برای محاسبه تعداد کل حالات استفاده میشود.

2- بخش دوم= احتمال پیروزی. از میان حالات کل تعدادی را بعنوان جواب مطلوب یا پیروزی میشناسیم که محاسبه آن ازبخش دوم فرمول بالا است:

 have is this term p to the power k, times 1 - p to the power n - k and that is simply the probability of having a particular pattern of k successes and n - k failures. 

مثال:

ما یک بازی آنلاین را 10 بار انجام میدهیم. در هر بار بازی

  • احتمال بردن جایزه بزرگ 10 درصد،
  • بردن جایزه کوچک 20 درصد
  • احتمال نبردن 70 درصد است

سوال: احتمال بردن دو جایزه کوچک چقدر است؟ بعبارت دیگر احتمال 2بار جایزه کوچک از میان 10 بار بازی چقدر است؟

سوال : وقتی این مسابقه 3 حالت دارد(1-برد جایزه کوچک 2-برد جایزه بزرگ 3- باخت) چرا از قوانین bionomial یا توزیع دو جمله ای استفاده میکنیم؟

چرا آمار کاربرد دارد؟

برای مثال فرض کنید بخواهیم به این سوال پاسخ دهیم: میانگین قد مردان در آمریکا چقدر است؟

تعداد 120 میلیون مرد در آمریکا وجود دارند. بنابراین میانگین گیری از این تعداد افراد قطعا نیاز به تکنیک آماری دارد. تعریف population و Parameter وچند تعریف دیگر:

تفاوت بین آمار و پارامتر چیست؟:

A parameter is a quantity of interest about the population.
A statistic is a quantity of interest measured in the sample.

401-10-15

Expected Value and Standard Error

حال، اگر یک مرد بالغ را به طور تصادفی از جمعیت انتخاب کنیم، انتظار داریم قد او در حدود میانگین جمعیتی میو باشد. یا حد اقل در بازه حدود یک سیگمای انحراف معیاربالاتر یا پایین ترباشد. از این گذشته، سیگمای انحراف استاندارد sd، پراکندگی جمعیت را نشان میدهد. و بعبارتی بیشتر مشاهدات حدود یک انحراف استاندارد از میانگین مو فاصله دارند.

ما می گوییم که مقدار مورد انتظار یک قرعه کشی تصادفی، میانگین جمعیت m یا میو است. حال، میانگین n قرعه کشی را x bar می نامیم، با زیرنویس n . بنابراین زیرنویس مخفف اندازه نمونه است

بنابراین، معلوم می شود که مقدار مورد انتظار میانگین نمونه، دوباره، میانگین جمعیت mu است. اما به خاطر داشته باشید که میانگین نمونه در واقع تصادفی است، زیرا نمونه گیری یک فرآیند تصادفی است. این بدان معناست که x bar دقیقاً برابر با میانگین جمعیت، که در واقع 69.3 اینچ است، نخواهد بود. برای مثال، ممکن است x bar برابر با 70.1 اینچ داشته باشیم. و اگر نمونه دیگری با اندازه n بگیریم، ممکن است x bar برابر با 69.1 اینچ به دست آوریم. (واضحه)

خطای استاندارد SE

بنابراین سؤال این است که میانگین نمونه چقدر از میانگین جامعه دور خواهد بود؟ این با خطای استاندارد یا SE تعیین می شود. یا خطای استاندارد. این یک کمیت بسیار مهم در آمار است و به شما می گوید که آمار چقدر از مقدار مورد انتظار فاصله دارد. خطای استاندارد SE برای یک آمار برای همه انواع روش های آماری استفاده می شود. خطای استاندارد یک آماره همان نقشی را ایفا می کند که سیگمای انحراف معیار برای یک مشاهده تصادفی . در اینجا یک فرمول کلیدی برای استنتاج آماری وجود دارد که قانون ریشه مربع نامیده می شود:

که “خطای استاندارد میانگین نمونه برابر است با سیگما تقسیم بر جذر تعداد نمونه (نه تعداد جامعه)”

چرا قانون ریشه دوم اینقدر مهم است؟ در واقع دو دلیل برای آن وجود دارد:
1- اول، نشان می دهد که اگر از اندازه نمونه بزرگتر n استفاده کنیم، خطای استاندارد کوچکتر می شود. پس از همه، یک جذر در مخرج وجود دارد. ما در واقع می توانیم از آن فرمول برای تعیین اندازه نمونه مورد نیاز برای بدست آوردن دقت مطلوب برای خطای استاندارد خود استفاده کنیم.(یعنی بگوییم شما بگو چه مقدار دقت میخواهی تا من بگویم اندازه جامعه چقدر باشد.)
2- نکته دوم این است که فرمول به حجم جامعه بستگی ندارد و فقط به حجم نمونه بستگی دارد. به همین دلیل است که آمار در نظرسنجی ها کار می کند.

n مربوط به اندازه نمونه است و نه جمعیت کل

به هر حال، مثال قبلی خود را به یاد بیاورید، جایی که ما 140 میلیون مرد بالغ در آمریکا را در نظر داشتیم. اصلاً مهم نیست که به 140 میلیون نگاه کنیم. اگر نمونه ای به اندازه 1000 بگیریم، بدون توجه به اینکه جمعیت چقدر زیاد باشد، خطای استاندارد مشخصی دریافت می کنیم. در واقع فرمول زیر میگوید، بگو چه مقدار دقتی میخواهی تا من به تو بگویم اندازه نمونه تو چقدر باشد:

n مربوط به اندازه نمونه است و نه جمعیت کل
گزینه 1 هم درسته

401/10/18

EV and SE of Sum, Percentages, and When Simulating

گاهی اوقات ما به جمع کل نمونه n علاقه داریم تا میانگین آن. مشخص است که با جمع کل نمونه ها و تقسیم بر n، میانگین را به دست می‌آوریم و با n برابر کردن میانگین، جمع کل مجموعه را برمی‌گردانیم.

بنابراین، فرمول‌های خطای استاندارد SE مجموع را به صورت زیر نیز بدست آورد:

منظور از E عبارت expected value است.

نکته مهمی که در اینجا باید در نظر داشت این است که خطای استاندارد SE برای مجموع (نه برای میانگین) در واقع با نرخ جذر n افزایش می یابد. این در حالی است که خطای استاندارد میانگین، با افزایش n کاهش می یابد.

آمار مهم دیگری که مدام مطرح می شود درصدها یا percentile هستند.

قبلاً به رتبه‌بندی‌های محبوبیت روسای جمهور ایالات متحده نگاه کردیم. این سوالی است که توسط جورج گالوپ در اواخر دهه 1930 مطرح شد. این نظرسنجی تلاش می‌کند تا مشخص کند که چند درصد از رای‌دهندگان احتمالی روشی را که رئیس‌جمهور ایالات متحده در حال انجام کارش است، تأیید می‌کنند. با دقت به این موضوع، می بینیم که درصد رأی دهندگان احتمالی در واقع یک میانگین است. به آن چارچوبی برای شمارش و طبقه بندی می گویند. در این مثال، جمعیت شامل همه رای دهندگان احتمالی است که حدود 140 میلیون بزرگسال هستند.

هر یک از این رای دهندگان احتمالی در یکی از دو دسته قرار می گیرند. یا با مدیریت رئیس جمهور در این کار موافقت می کنند یا نمی کنند. اکنون کاری که انجام می دهیم این است که برچسب “1” را بر روی هر رای دهنده احتمالی که تایید می کند و “0” روی هر رای دهنده ای که تایید نمی کند می گذاریم. categorizing . دلیل اینکه ما این کار را انجام می دهیم این است که در این صورت تعداد رأی دهندگان احتمالی که تأیید می کنند برابر است با مجموع 140 میلیون برچسب. برای اینکه بفهمیم چرا اینطور است، اجازه دهید به یک مثال ساده با پنج رای دهنده نگاه کنیم.

فرض کنید اولین رأی دهنده تأیید کند، بنابراین ما به او یک برچسب «1» می دهیم.
رای دهنده دوم این کار را نمی کند، بنابراین برچسب “0” می گیرد.
سومین رای نمی دهد، برچسب “0” می گیرد.
رای دهنده بعدی تایید می کند، برچسب “1” می گیرد و
آخرین رای دهنده تایید نمی کند و برچسب “0” می گیرد.

بنابراین، اگر به مجموع برچسب‌ها را بدست بیاوریم، 2 میشود. در واقع 2 رای‌دهنده از 5 رأی‌دهنده مدیریت رئیس‌جمهور در کار خود را تأیید کردند. یعنی 2 از 5 یا 4 از 10 یا 40 درصد افراد نمونه موافق بوده اند.
بنابراین با قرار دادن 0 و 1 بر روی برچسب ها، مجموع برچسب ها به سادگی تعداد تایید کنندگان را محاسبه می کند، و به همین ترتیب فرد می بیند که درصد رای دهندگان احتمالی که تایید می کنند به سادگی درصد 1 ها در بین همه برچسب ها است.

بنابراین، نتیجه این است که پس از معرفی برچسب‌های 0 و 1، درصدها به سادگی میانگین هستند.
میو : میانگین جمعیت کل است. و با اندکی محاسبات ، خطای استاندارد درصد نیز به صورت زیر بدست می آید:

منظور از E عبارت expected value است.



تا اینجا 3 فرمول بدست آوردیم.
اما به یاد داشته باشید که همه این فرمول ها در واقع برای نمونه گیری با جایگزینی هستند. اما نمونه برداری های رایج معمولا از نوع تصادفی ساده و بدون جایگزینی هستند. قبلاً دیدیم که در مورد نمونه گیری بدون جایگزینی، که حجم نمونه بسیار کوچکتر از حجم جامعه است، این دو مورد تقریباً یکسان هستند، بنابراین همه این فرمول ها هنوز تقریباً درست هستند.
در واقع، معلوم می‌شود که فرمول‌های مقادیر مورد انتظار حتی برای نمونه‌برداری بدون جایگزینی دقیقاً درست هستند و برای خطای استاندارد SE نیز درست هستند.

simulating data


همه این فرمول ها نیز درست هستند اگر از جمعیت شبیه سازی شده استفاده کنیم. شبیه سازی داده به این معنی است که ما داده ها را بر اساس یک هیستوگرام احتمال تولید می کنیم، به عنوان مثال، با استفاده از یک کامپیوتر. به یاد داشته باشید، وقتی از یک جمعیت استخراج می کنیم، mu به سادگی میانگین جمعیت و سیگما انحراف استاندارد جمعیت است.

اگر یک متغیر تصادفی X را شبیه سازی کنیم که k رویداد احتمالی داشته باشد، از X1 تا XK، فرمول های مربع mu و سیگما در اینجا آورده شده است.

این فرمول‌ها در واقع در مورد نمونه‌گیری از یک جامعه نیز صدق می‌کنند. زیرا اگر از جامعه‌ای با K رویداد متفاوت (مثلا احتمال آمدن عدد 3 در پرتاب تاس 1 به 6 است.) ممکن نمونه‌گیری کنیم، احتمال وقوع یک رویداد به سادگی 1 بر K است.

The Square Root Law
The Sampling Distribution
The Central Limit Theorem

بیایید به مثالی نگاه کنیم که قانون جذرsquar law را اعمال می کند. ما یک سکه سالم را 100 بار پرتاب می کنیم.
انتظار داریم چند tail ببینیم ؟ در 100 پرتاب تعداد tail را می شمریم.
بنابراین ما برچسب‌هایی را معرفی می‌کنیم، که در آن 1 نماینده tail و 0 مخفف head است.
سپس این 100 پرتاب را یا با 100 بار پرتاب یک سکه یا با استفاده از کامپیوتر شبیه سازی می کنیم و در هر مورد پرتاب تکی احتمال 1 برابر 50 درصد و احتمال 0 نیز برابر 50 درصد است. از آنجا که ما برچسب های 0 و 1 داریم، متوجه می شویم که تعداد tailها در 100 پرتاب برابر با مجموع 100 پرتاب است.

سوال:

جواب:100
سوال:


جواب: سیگما نیم است و رادیکال 200 هم میشود:14.14 و جواب آخر:3.5

The Sampling Distribution

بیایید دوباره به مثال قبلی 100 بار پرتاب سکه نگاه کنیم. اگر به تعداد tail علاقه مند باشیم، نتایج احتمالی زیر وجود دارد. ما می توانیم 0 یا 1، یا 2، تا 100 رویداد TAIL داشته باشیم.
حالا احتمال هر یک از این نتایج چقدر است؟

می دانیم که این توزیع دو جمله ای با n = 100 و p = 0.5 است.

زیرا اگررویداد tail را موفقیت بنامیم، تعداد tailها به سادگی تعداد موفقیت های 100 آزمایش است. بنابراین اگر به آماری که تعداد دنباله‌ها را می‌شمرد، علاقه‌مندیم، این آمار یک متغیر تصادفی است که هیستوگرام احتمال آن با توزیع دوجمله‌ای ارائه می‌شود. این را توزیع نمونه گیری می نامند. (در ادامه شکل 3)

Three Histograms

وقتی 100 بار سکه را پرتاب می کنیم، داده ها را با ترسیم از هیستوگرام احتمال شبیه سازی می کنیم. آن هیستوگرام احتمال می گوید که می توانیم سرها را با احتمال نصف و دم ها را با احتمال نصف به دست آوریم.

بنابراین به یاد داشته باشید که هیستوگرام احتمال یک ساختار نظری است.

شکل 1(اگر تعداد پرتاب بی نهایت باشد، احتمال شیر و خط هرکدام دقیقا50 درصد است)



به سادگی به ما می گوید که شانس شبیه سازی چقدر است. پس از اینکه 100 پرتاب را شبیه سازی کردیم، داده های واقعی داریم. به عنوان مثال، ما می توانیم با 47 سر و 53 دم به پایان برسیم.

احتمال head برابر 47 درصد و دیگری 53 درصد است.



سپس می‌توانیم یک هیستوگرام از آن داده‌ها بسازیم، و هیستوگرام شبیه این می‌شود.

بنابراین می بینید که این هیستوگرام کاملاً شبیه هیستوگرام احتمال در مرحله اول است، اما کمی متفاوت است زیرا 100 پرتاب شامل یک فرآیند شانسی است.

در نهایت، اگر به آماری مانند تعداد دم در 100 پرتاب علاقه مند باشیم، هیستوگرام سومی را دریافت می کنیم که توزیع نمونه آن آمار را نشان می دهد.

شکل 3: توزیع نمونه پرتاب سکه



در این مورد، توزیع دوجمله ای است و خواهید دید که این هیستوگرام کاملاً با دو مورد اول متفاوت است. بعداً وقتی استنتاج آماری انجام می‌دهیم، به راحتی می‌توان این هیستوگرام‌ها را با هم مخلوط کرد. بنابراین بسیار مهم است که به دقت درباره آنچه در آنجا می گذرد فکر کنید.
سوال 1: کدام نمودار داده های مشاهده شده را نشان میدهد

جواب: گزینه 2

سوال: کدام هیستوگرام توزیع نمونه را نشان میدهد؟

جواب: گزینه 3


سوال: کدام هیستوگرام نشان میدهد که شانس شبیه سازی چقدر است؟

جواب: گزینه 1


The Law of Large Numbers

قانون جذر به این معنی است که با افزایش حجم نمونه، خطای استاندارد میانگین نمونه کاهش می یابد.

این بدان معناست که اگر حجم نمونه به اندازه کافی بزرگ باشد، میانگین نمونه نزدیک به مقدار مورد انتظار mu خواهد بود.

این قانون معروف اعداد بزرگ است.

پس در نظر داشته باشید که قانون اعداد بزرگ فقط برای میانگین ها و درصد ها اعمال می شود، اما برای مجموع ها اعمال نمی شود.

زیرا دیدیم که با افزایش حجم نمونه، خطای استاندارد جمع بالا می رود.

همچنین، ما باید نمونه‌برداری را با جایگزینی از یک جمعیت انجام دهیم، یا داده‌ها را با کامپیوتر از یک هیستوگرام احتمال شبیه‌سازی کنیم.

نسخه‌های پیچیده‌تر قانون اعداد بزرگ در واقع بیان می‌کنند که کل هیستوگرام تجربی داده‌ها، که دومین هیستوگرام در بین سه موردی است که قبلاً در نظر گرفتیم، به هیستوگرام احتمال نزدیک است اگر اندازه نمونه به اندازه کافی بزرگ باشد.

سوال

نکته: خطای میانگین کاهش می یابد اما خطای جمع افزایش می یابد.

***

قضیه حد مرکزی یا The Central Limit Theorem

حالا بیایید به بازی آنلاین برگردیم، که قبلاً در نظر گرفتیم که در آن یک جایزه کوچک با احتمال 0.2 برنده می‌شوید.

ما n بار بازی می‌کنیم و تعداد جایزه های کوچک را می‌شماریم و آن را یک متغیر تصادفی X می نامیم.


در آن زمان دیدیم که X توزیع دوجمله‌ای(برنده شدن جایزه کوچک یا برنده نشدن جایزه کوچک) با p = 0.2 دارد.


در اینجا برخی از هیستوگرام های احتمال برای آن توزیع دوجمله ای وجود دارد. اگر n=1 باشد، می بینیم که یک هیستوگرام بسیار اریب است، و برای n=10 همچنان یک دم راست بلند دارد.


و برای n=10 همچنان یک دم راست بلند دارد.



اما برای n = 50، کل چیز تقریباً شبیه یک منحنی معمولی است.


این مثالی از قضیه حد مرکزی معروف است.

می‌گوید

وقتی با جایگزینی نمونه‌برداری می‌کنیم و n بزرگ است، توزیع نمونه‌گیری میانگین نمونه، یا مجموع یا درصد تقریباً از منحنی نرمال پیروی می‌کند. یعنی ما می توانیم از تقریب معمولی برای محاسبه احتمالات استفاده کنیم.

برای استاندارد کردن، مقدار مورد انتظار یا expected value را کم کرده و بر خطای استاندارد SE آن تقسیم می کنیم.

نام قضیه حد مرکزی از این واقعیت ناشی می شود که در نظریه آماری جایگاه مرکزی دارد.

دلیل اهمیت قضیه حد مرکزی این است که نشان می دهد آماره بدون توجه به هیستوگرام جمعیتی دارای توزیع نرمال است.
سوال:

جواب: true

***

بیایید به توزیع درآمد سالانه خانوارها در ایالات متحده نگاه کنیم.


دیدیم که این توزیع بسیار به سمت چپ منحرف شده است.
بنابراین بسیار دور از حالت Normalاست.
میانگین درآمد خانوار 67000 دلار و انحراف معیار 38000 دلار بود.

بنابراین، اگر n درآمد را به طور تصادفی از بین همه خانوارها نمونه برداری کنیم، آنگاه می دانیم که میانگین نمونه از منحنی نرمال پیروی می کند، حتی اگر هیستوگرام خود درآمدها از نرمال فاصله زیادی داشته باشد. (جالبه)

و برای انجام normal approximation ، باید مقدار مورد انتظار آمار (expected value) را کم کنیم، که در این مورد میانگین همه درآمدها، یعنی 67000 دلار است (انتظار ما این است که مقادیر انتخاب شده برابر میانگین باشد که انتظار بیهوده و باطل و بیجایی هم نیست). و سپس باید بر خطای استاندارد SE آماره تقسیم کنیم و…



مثلاً 100 مورد درآمد را در نظر بگیریم. اگر n=100 باشد، جذر n برابر با 10 است و بنابراین خطای استاندارد برابر با 3800 دلار است.



قضیه حد مرکزی می گوید که میانگین نمونه از منحنی نرمال با مرکزیت 67000 دلار و با خطای استاندارد 3800 دلار پیروی می کند. یعنی در نمودار زیر عدد وسط برابر با 67000 که همان میانگین میباشد، است.


بنابر با استناد به قانون empirical ، اگر به اندازه یک خطای استاندارد(یعنی 3800 تا) بالاتر از حد میانگین (یعنی 67000 ) برویم، 16 درصد احتمال دارد که مقدار درآمد تصادفی انتخاب شده، بالاتر از آن عدد قرار بگیریم.
و یک خطای استاندارد بالاتر از حد متوسط دقیقاً برابر 70800 دلار است.
به عبارت دیگر 100-32=68 درصد افراد جامعه ، درآمدشان در بازه63200 تا70800 قرار میگیرد.
***


بیایید به مثال خود در مورد بازی آنلاین بازگردیم.

ما n بازی انجام دادیم و به تعداد جوایز کوچکی را با X نشان دادیم.

به یاد داشته باشید که هنگام شمارش چیزها، از برچسب‌هایی استفاده می‌کنیم که 0 و 1 روی آنها وجود دارد.

در این صورت، هر بار که یک جایزه کوچک می آید، به آن برچسب 1 می دهیم و 0 به بقیه چیزها می رود.
یعنی تعداد جوایز کوچک به سادگی با مجموع این برچسب ها برابری می کند.

و از آنجایی که ما اکنون به جمع نگاه می کنیم، می توانیم از قضیه حد مرکزی استفاده کنیم.
برای اعمال تقریب نرمال، باید میانگین و خطای استاندارد x را پیدا کنیم. (میانگین و خطای استاندارد)


بنابراین به یاد داشته باشید که وقتی شبیه سازی ها را بررسی کردیم، فرمول هایی برای مقدار مورد انتظار(expected value) و خطای استاندارد SE داشتیم.

و اگر به مباحث گذشته نگاه کنیم، متوجه خواهیم شد که در این مورد mu = p یعنی احتمال برابر با میانگین است(برای مثال در توزیع دو جمله ای پرتاب سکه میانگین شیر آمدن با احتمال شیر آمدن یکی و برابر 50 درصد است ). و سیگما از مقدار زیر بدست می آید:



این فرمول یک بازی بود. اکنون ما به جمع n بازی نگاه می کنیم و فرمول هایی برای مقدار مورد انتظارEV و خطای استاندارSE داشتیم و این فرمول ها نشان می دهد که مقدار مورد انتظار به شرح زیر است:

و به یاد داشته باشید، هنگامی که در مورد توزیع دوجمله ای صحبت می کردیم، همین مورد را پیدا کردیم.

When does the Central Limit Theorem Apply?

بیایید الزامات اصلی برای اعمال قضیه حد مرکزی را فهرست کنیم.

1- ابتدا باید با جایگزینی نمونه برداری کنیم یا باید متغیرهای تصادفی مستقل را از همان توزیع شبیه سازی کنیم. به نظر می رسد که در واقع قضایای حد مرکزی نیز برای نمونه برداری بدون جایگزینی وجود دارد. و در هر صورت می دانیم که اگر حجم نمونه بسیار کوچکتر از حجم جامعه باشد، نمونه گیری بدون جایگزینی تقریباً مشابه نمونه با جایگزینی است. و بنابراین، همه چیز درست می شود.


2- دومین شرط مهم این است که آماری که ما به آن نگاه می کنیم باید یک جمع باشد. و به یاد داشته باشید که میانگین ها و درصدها اساساً پس از ضرب حاصل جمع هستند.
3- در نهایت، حجم نمونه باید به اندازه کافی بزرگ باشد. قاعده کلی این است که هر چه هیستوگرام جمعیت زیربنایی منحرف تر باشد، حجم نمونه مورد نیاز n بزرگتر است. به نظر می رسد که اگر چولگی قوی وجود نداشته باشد، اندازه نمونه به تعداد 15 کافی خواهد بود. برای چولگی های بسیار منحرف، ممکن است به اندازه نمونه حداقل 40 نیاز داشته باشیم.
پ ن : آمار علم جذاب و زیبایی است

زیرا شاخص درآمد نرمال نیست و چولگی در توزیع آن منخرف است و بنابر این به تعداد بالایی نیاز داریم تا بتوانیم به نمودار نرمال را تشکیل دهیم.

هفته 4

Prediction is a Key Task of Statistics

احتمالاً رگرسیون مهمترین تکنیک آماری است. این روش همه کاره است و می تواند برای مشکلاتی استفاده شود که در نگاه اول ممکن است انتظار نداشته باشیم که رگرسیون مفید باشد. ما در مورد ایده های اصلی استنتاج و رگرسیون و نحوه انجام تشخیص رگرسیون بحث خواهیم کرد. همچنین برخی از دام ها را بررسی خواهیم کرد.

هیستوگرام زیر قد 928 پسر را نشان می دهد. میانگین ارتفاع 68.1 اینچ است.


حال فرض کنید یکی از این پسران را به صورت تصادفی انتخاب می کنیم و هدف پیش بینی قد او باشد.
در واقع، چیزی که معمولاً در آمار می‌یابیم، گرفتن میانگین است، به نوعی بهترین پیش‌بینی‌کننده است.
حالا فرض کنید اطلاعات بیشتری داریم.ما نه تنها هیستوگرام ارتفاعات پسران را داریم، بلکه قد پدران آنها را نیز می شناسیم. قد این 928 جفت پدر و پسر در نمودار پراکندگی زیر آورده شده است.


دوباره باید قد یک پسر را پیش بینی کنیم، اما حالا فرض کنید می دانیم که قد پدر 72 اینچ است. واضح است که این اطلاعات اضافی باید به نحوی در پیش بینی ما به ما کمک کند. دلیل این امر این است که اگر بدانیم پدر 72 اینچ قد دارد، می دانیم که آنها جایی در میان این گروه از پدران و پسران هستند. و ما می دانیم که برای این گروه قد پسران در انتهای بالاتر است. این بدان معنی است که اطلاعات اضافی از دانستن قد پدر باید به ما امکان دهد که پیش بینی بهتری داشته باشیم. و این دقیقاً همان کاری است که یک regression برای ما انجام می دهد.
سوال:


The Correlation Coefficient


قبل از اینکه بتوانیم رگرسیون انجام دهیم، باید ضریب همبستگی را بدانیم. به یاد داشته باشید که نمودار پراکندگی در تجسم رابطه بین دو متغیر کمی بسیار مفید است.

به عنوان مثال، در پراکندگی سمت چپ که تحصیلات و درآمد را نشان می دهد، می بینیم که به نظر می رسد جهت پراکندگی به سمت بالا وجود دارد. این همچنین در مورد پراکندگی که قد پدران و پسرانشان را در سمت راست نشان می دهد صادق است. با این حال، این دو رابطه تا حدودی متفاوت هستند. اگر به رابطه درآمد بر تحصیل نگاه کنیم، می بینیم که به نظر می رسد نوعی منحنی شیب دار به سمت بالا وجود دارد که پراکندگی آن را دنبال می کند.

از سوی دیگر، اگر به ارتفاعات نگاه کنیم، می بینیم که یک پراکنده تقریباً یک خط را دنبال می کند.



در نهایت، آخرین چیزی که می توانیم از یک طرح پراکنده بیرون بیاییم، قدرت وابستگی است. در مثال ارتفاعات، می بینیم که پراکندگی در اطراف خط کاملاً گسترده است، در حالی که در مثال درآمدها، به دور منحنی نزدیک تر است. در موردی که پراکندگی در اطراف یک خط خوشه می‌شود، خلاصه کردن آن خوشه‌بندی با ضریب همبستگی r بسیار مفید است.
ارزش یادآوری فرمول r را ندارد، اما بیایید ببینیم در آنجا چه خبر است.


می بینید که ما به مقادیر استاندارد شده x و مقادیر استاندارد شده y نگاه می کنیم. و سپس آنها را با هم ضرب می کنیم و میانگین همه مشاهدات را می گیریم. اکنون می بینید که اگر x بالای X bar و y بالای Ybarباشد، ضریب r در اینجا مثبت است و اگر x کمتر Xbar و y نیز کمتر از Ybar باشد، می تواند مثبت باشد.

بنابراین، اگر x و y هر دو در یک جهت از میانگین ها تغییر کنند، این سهم مثبت خواهد بود و اگر در جهت مخالف تغییر کنند، منفی خواهد بود. بنابراین ایده ضریب همبستگی این است که اگر شیب پراکندگی به سمت بالا باشد ضریب همبستگی باید مثبت باشد و اگر به سمت پایین شیب داشته باشد منفی است.

Correlation Measures Linear Association

بنابراین اگر جفت داده داشته باشیم و ببینیم که پراکندگی آنها (نمودار scatter) از فرم خطی پیروی می کند، می توانیم این داده ها را با میانگین x ها، انحراف معیار x ها، میانگین y ها، انحرافات استاندارد خلاصه کنیم. y و در نهایت ضریب همبستگی r که چیزی در مورد رابطه بین x و y به ما می گوید. (در واقع dimension reduction کنیم)

وقتی این جفت‌ها، x و y را رسم می‌کنیم، همیشه از این قرارداد استفاده می‌کنیم که هر چیزی که روی محور افقی می‌رود، متغیر توضیحی یا پیش‌بینی‌کننده نامیده می‌شود و متغیری که روی محور عمودی می رود، متغیر پاسخ نامیده می شود.


معلوم می‌شود که ضریب همبستگی r همیشه بین 1- و 1 است. ایده این است که علامت r جهت ارتباط را نشان می‌دهد، چه شیب بالا یا پایین داشته باشد، و قدر مطلق r قدرت آن را نشان می‌دهد. در اینجا تعدادی از نمونه ها آورده شده است.


در سمت چپ ترین حالت، r برابر با -0.9 داریم. از آنجا که r منفی است، کل پراکندگی به سمت پایین شیب دارد.
0.9 به این معنی است که پراکندگی به طور محکم در اطراف یک خط خوشه شده است. در مثال دوم، r = -0.6 داریم. باز هم، پراکندگی به سمت پایین شیب دارد، اما 0.6 بسیار به 0 نزدیکتر است، بنابراین می بینیم که پراکندگی بسیار گسترده تر است. در نهایت، اگر r = 0 باشد، هیچ روند صعودی یا نزولی محسوسی وجود ندارد.
حال به سراغ ضرایب همبستگی مثبت می رویم. اگر r = 0.2، یک پراکندگی رو به بالا دریافت می کنیم که نسبتاً شل است. در نهایت، اگر r = 1 باشد، پراکندگی به سمت بالا شیب می‌کند و همه چیز کاملاً روی یک خط قرار می‌گیرد.

این مثال ها به شما ایده می دهد که چگونه در مورد ضریب همبستگی فکر کنید. به خاطر داشته باشید که ضریب همبستگی r بدون واحد می آید، و این به این دلیل است که وقتی r را محاسبه کردیم، x و y استاندارد شده بودند. همچنین معلوم می شود که r با تغییر مرکز یا مقیاس هیچ یک از متغیرها تحت تأثیر قرار نمی گیرد. به عنوان مثال، اگر ضریب همبستگی بین قد و وزن را محاسبه کنید، فرقی نمی‌کند که وزن را بر حسب پوند یا کیلوگرم اندازه‌گیری کنید. با این حال، مهم است که به خاطر داشته باشید که ضریب همبستگی فقط برای اندازه گیری ارتباط خطی مفید است.

به این مثال در اینجا نگاه کنید. واضح است که ارتباط بسیار قوی بین این دو متغیر وجود دارد. شما یک پراکندگی کاملاً خوشه ای در اطراف یک منحنی می بینید.


با این حال، اگر ضریب همبستگی را محاسبه کنید، r = 0 را می بینید. r = 0 نشان می دهد که در واقع هیچ ارتباط خطی بین این دو متغیر وجود ندارد.
این درست است، اما نتیجه نهایی این است که r واقعا زمانی مفید است که به پراکندگی خطی نگاه کنیم. در نهایت، دیدن یک ضریب همبستگی بزرگ و نتیجه گیری اینکه باید نوعی همبستگی علی بین این دو متغیر وجود داشته باشد، وسوسه انگیز است.اما مثال پایین سمت چپ نشان می دهد که این درست نیست.



این نمودار پراکندگی اندازه کفش و همچنین نمره آزمون خواندن برای 100 دانش آموز را نشان می دهد.واضح است که ارتباط بسیار قوی بین این دو متغیر وجود دارد. اما ما موافقیم که اندازه کفش به هیچ وجه تأثیر علی بر توانایی خواندن ندارد. در عوض، آنچه در اینجا اتفاق می‌افتد این است که متغیر سومی وجود دارد، یعنی سن دانش‌آموزان، که هم اندازه کفش و هم توانایی خواندن را تعیین می‌کند.
بنابراین، آنچه در اینجا می گذرد این است که همبستگی به معنای علیت نیست و ما قبلاً در مورد آن صحبت کرده ایم.

Regression Line and the Method of Least Squares

بنابراین، رگرسیون چگونه کار می کند؟
بیایید به این پراکندگی نگاه کنیم که سن و درصد چربی بدن تعدادی از افراد را نشان می دهد.


این پراکندگی تقریباً خطی به نظر می رسد. بنابراین این موردی است که ممکن است از رگرسیون استفاده کنیم. ایده این است که ما می خواهیم این پراکندگی را با یک خط خلاصه کنیم.

این خط باید چیزی شبیه به این باشد و سوال این است که چگونه آن را دریافت کنیم؟
به یاد بیاورید که معادله یک خط به شکل زیر است. شما یک ضریب a دارید، به اضافه شیب b که برابر آرگومان x است. بنابراین، اگر متغیر ith x را وصل کنیم، معادله یک خط به ما نقطه ای می دهد که آن را yi hat می نامیم.



ایده یافتن خط این است که می خواهیم به مقادیر a و b را پیدا کنیم که تفاوت بین نقطه روی خط yi hat و مقدار واقعی مشاهده شده yi را به حداقل می رساند. یکی از راه‌های انجام این کار این است که به تفاوت بین y -hat و y نگاه کنیم، آن را مربع کنیم، و آن را بر روی تمام مشاهدات جمع کنیم، و سپس می‌خواهیم a و b را پیدا کنیم تا آن مجموع را به حداقل برسانیم.

به حداقل رساندن این مجموع در a و b می تواند با حساب دیفرانسیل و انتگرال یا به سادگی با استفاده از نرم افزار روی کامپیوتر انجام شود.

کل ایده روش حداقل مربعات نامیده می شود. به نظر می رسد که راه حل ها شامل تمام مقادیر خلاصه ای است که قبلاً به آنها نگاه کردیم. شیب برابر است با ضریب همبستگی ضربدر نسبت دو انحراف استاندارد، و وقفه شامل میانگین و همچنین شیب قبلاً مشتق شده است.



این خط را خط رگرسیون می نامند.

حالا تفسیر دیگری از خط رگرسیون وجود دارد. زمانی که اولین مختصات نزدیک x باشد، مقدار متوسط y را محاسبه می کند. به یاد داشته باشید، ایده در آمار این است که یک میانگین اغلب بهترین پیش بینی کننده است. بنابراین با محاسبه میانگین‌های مقادیر y، در جایی که اولین مختصات نزدیک x است، آن استدلال را تا حدودی دقیق می‌کنیم تا اطلاعاتی را که بر حسب x به ما داده می‌شود، لحاظ کنیم. و ایده این است که این پیش بینی کننده بهتری برای y است تا اینکه صرفاً میانگین همه yها را محاسبه کنید.

سوال:

Regression to the Mean, The Regression Fallacy

کاربرد اصلی رگرسیون پیش‌بینی y از روی x است. و ما به سادگی می توانیم این کار را با وصل کردن x به معادله خط رگرسیون خود انجام دهیم که مقدار پیش بینی شده y hat را به ما می دهد.

اکنون، از فرمول های اسلاید قبلی، می توانید ببینید که اگر x را برابر میانگین تمام x ها پیش بینی کنیم، این پیش بینی به سادگی میانگین y ها را تولید می کند. اما فرمول شیب به این معناست که اگر x را یک انحراف استاندارد بالاتر از میانگین در نظر بگیریم، مقدار y پیش‌بینی‌شده فقط r برابر یک انحراف استاندارد بالاتر از میانگین y است.


اکنون r معمولاً کوچکتر از 1 و بزرگتر از -1 است. و بنابراین این بدان معناست که پیش‌بینی به سمت میانگین است، به این معنا که مقدار پیش‌بینی‌شده y hat انحراف ستاره‌دار کمتری از میانگین آن دارد، سپس x از میانگین x است.
بیایید به نمودار پراکندگی نگاه کنیم که نمرات امتحانات میان ترم و نهایی را برای تعدادی از دانش آموزان نشان می دهد. نمرات میان ترم در محور افقی و نمرات امتحان نهایی در محور عمودی است.

می بینید که خط رگرسیون به وضوح رگرسیون به سمت میانگین را نشان می دهد. به عنوان مثال، اگر به دانش‌آموزانی نگاه کنید که در میان ترم عملکرد بسیار خوبی داشتند، تقریباً آنهایی هستند که در سمت راست بودند. می بینید که نمرات امتحان نهایی آنها که در محور عمودی داده می شود تا حدودی کمتر از نمرات برتر امتحان نهایی است. بنابراین، پسرفت به سمت میانگین در واقع منطقی است.

ما پیش‌بینی می‌کنیم که نمرات برتر میان‌ترم تا حدودی پایین‌تر از نمره‌های برتر در امتحان نهایی باشند.
به همین ترتیب، اگر به بدترین نمرات در میان ترم نگاه کنید، تقریباً آن ها خواهد بود، اما آن دانش آموزان در واقع بدترین امتیاز را در فینال کسب نکردند زیرا بدترین امتیازات در فینال ها در پایین ترم است.
باز هم به درستی پیش‌بینی می‌کنیم که نمرات امتحان نهایی نباید به اندازه نمرات میان ترم از میانگین فاصله داشته باشد.

این رگرسیون به میانگین یا اثر رگرسیون نامیده می شود.

یکی از راه‌های به خاطر سپردن آن، این است که به وضعیت test , etest نگاه کنیم.
دقیقاً به عنوان مثالی که قبلاً به نمرات امتحانات میان ترم و پایان ترم دانش آموزان نگاه کردیم. در چنین وضعیت آزمون مجدد، گروه برتر در آزمون تا حدودی در آزمون مجدد پایین می آید و گروه پایین به سمت بالا حرکت می کند.
چرا چنین می شود؟

در اینجا یک توضیح بسیار اکتشافی وجود دارد.
برای کسب امتیاز در میان بهترین ها در میان ترم دو چیز لازم است.
1- اول از همه، دانش آموز باید خیلی خوب آماده شود، و احتمالاً شانسی نیز در میان است. به عنوان مثال، دانش آموزان ممکن است به خوبی برای سؤالاتی که در میان ترم مطرح می شود، آماده باشند.
2- یکی دیگر از عناصر شانس ممکن است این باشد که دانش آموز شب قبل خواب بسیار خوبی داشته است. حالا وقتی مثل امتحان پایان ترم به حالت تست مجدد می رویم، ممکن است برخی از دانش آموزان دیگر آن شانس را به نفع خود نداشته باشند. و به همین دلیل است که انتظار داریم این گروه اندکی به عقب برگردند.

همین موضوع در مورد گروه پایین نیز صدق می کند. بدترین امتیاز احتمالاً به درجاتی ناشی از بدشانسی است و در وضعیت آزمون مجدد، این امید وجود دارد که این بدشانسی دیگر وجود نداشته باشد. مهم است که بدانیم این فقط یک اثر پراکندگی در اطراف خط است. گاهی اوقات، مردم به آن اثر نگاه می کنند و به این نتیجه می رسند که باید چیز دیگری در حال وقوع باشد. به عنوان مثال، نتیجه ممکن است این باشد که گلزنان برتر در میان ترم ضعیف شده و در فینال بدتر عمل کردند. چنین نتیجه گیری اشتباهی مغالطه رگرسیون نامیده می شود.

Predicting y from x and x from y

حالا بیایید یک پیش بینی انجام دهیم. رگرسیون می گوید که اگر x به ما داده شود، از خط رگرسیون برای پیش بینی y استفاده می کنیم. یعنی ما خط رگرسیون را محاسبه می کنیم، x را وصل می کنیم و می بینیم که چه پیش بینی Yhat به دست می آوریم. همانطور که قبلا ذکر شد، برای محاسبه یک خط رگرسیون، تنها چیزی که باید داشته باشیم پنج پارامتر زیر است.



محاسبه خط رگرسیون را می توان خیلی سریع در نرم افزار انجام داد. به عنوان مثال، دستور lm در زبان کامپیوتر R این کار را برای شما انجام می دهد. اما به نظر می رسد که در واقع می توانید آن را به سرعت با دست انجام دهید.

بیایید به یک مثال نگاه کنیم.
فرض کنید میانگین نمره میان ترم 49.5، میانگین نمره نهایی 69.1، انحراف معیار در میان ترم 10.2، انحراف معیار در پایان 11.8 و ضریب همبستگی r 0.67 بوده است. حالا فرض کنید یکی به شما بگوید دانش آموزی در میان ترم نمره 41 کسب کرده است و شما باید نمره امتحان نهایی آن دانش آموز را پیش بینی کنید. به یاد داشته باشید، اگر ما آن اطلاعات را در مورد نمره میان ترم نداشتیم، بهترین پیش بینی کننده برای فینال به سادگی میانگین 69.1 خواهد بود.



اما رگرسیون ابزاری را در اختیار ما قرار می دهد تا با ترکیب اطلاعات اضافی که دانش آموز در میان ترم نمره 41 کسب کرده است، به پیش بینی بهتری دست یابیم. در اینجا آمده است که چگونه می توانیم آن رگرسیون را با دست خیلی سریع انجام دهیم.

ابتدا توجه داشته باشید که 41 به مقدار 8.5 کمتر از میانگین است.

در اینجا میانگین به میانگین نمرات میان ترم که 49.5 است اشاره دارد. اکنون، ما این را استاندارد می کنیم، 8.5 زیر متوسط به معنای 0.83 انحراف استاندارد زیر متوسط است.

با نگاهی به فرمول شیب خط رگرسیون، پیش‌بینی می‌کنیم که نمره امتحان نهایی فقط r برابر 0.83 انحراف استاندارد کمتر از میانگین باشد.

بنابراین، اکنون، می توانیم به سادگی اعداد را وصل کنیم. برای امتحان نهایی معدل می گیریم، چون زیر حد متوسط هستیم کم می کنیم. پس باید r را کم کنیم که 0.67 برابر 0.83 برابر انحراف معیار برای نمرات امتحان نهایی است که 11.8 است و به 62.5 می رسیم. این پیش بینی ما خواهد بود که از رگرسیون به دست می آوریم. حالا بیایید پیش بینی را برگردانیم.

فرض کنید من به شما گفتم که یک دانش آموز در فینال نمره 89 گرفته است و وظیفه شما پیش بینی نمره میان ترم آن دانش آموز است. در اینجا یک چیز مهم در مورد رگرسیون وجود دارد. وقتی x را از y پیش‌بینی می‌کنید، اشتباه است که از خط رگرسیونی که از پیش‌بینی y بر روی x گرفته‌اید استفاده کنید و به سادگی x را حل کنید.

این تا حدودی وسوسه انگیز است، اما کار اشتباهی است. دلیل اشتباه بودن آن این است که دو خط رگرسیون وجود دارد. یک خط رگرسیون برای پیش‌بینی y روی x و یک خط رگرسیون متفاوت برای پیش‌بینی x روی y وجود دارد.

این دو خط معمولاً بسیار متفاوت خواهند بود. برای جلوگیری از سردرگمی بین این دو خط، همیشه بهتر است روی محور x و هر چیزی که می‌خواهید در محور y محافظت کنید، پیش‌بینی کنید و سپس به سادگی همان کاری را که قبلا انجام دادیم انجام دهید.

بنابراین، در این مورد، به این معنی است که ما به یک محور x که مطابق با نمره امتحان نهایی است، و یک محور y که نمرات میان ترم را به ما نشان می دهد، نگاه می کنیم. به این دلیل که نمره امتحان نهایی چیزی است که ما رگرسیون خود را بر اساس آن قرار می دهیم، یعنی نمره امتحان نهایی پیش بینی کننده است.

بنابراین، می دانیم که میانگین نمرات امتحان نهایی 69.1، میانگین نمرات میان ترم 49.5 بوده است، و اطلاعاتی که به ما داده می شود این است که نمره امتحان نهایی 89 است. بنابراین، بالاتر از میانگین است. می دانیم که خط رگرسیون از نقاطی می گذرد که میانگین در محور افقی و میانگین در محور عمودی است و به دلیل مثبت بودن r به سمت بالا شیب دارد.

بنابراین، خط رگرسیون تا حدودی شبیه به این است. از آنجایی که ما رگرسیون خود را بر اساس نمره امتحان نهایی 89 قرار می دهیم، انتظار داریم در میان ترم در جایی بالاتر از میانگین قرار بگیریم. دقیقاً، این محاسبه ای که قبلاً انجام دادیم چقدر بالاتر از میانگین است؟ بنابراین، ما می گوییم که 89 9.9 بالاتر از میانگین است. بنابراین، اگر استانداردسازی کنیم، 9.9 تقسیم بر انحراف استاندارد 11.8، برابر با 0.84 انحراف استاندارد بالاتر از میانگین است.

بنابراین، پیش‌بینی ما برای میان‌ترم نیز بالاتر از میانگین خواهد بود و نه 0.84 انحراف استاندارد بالاتر از میانگین، بلکه r برابر 0.84 انحراف استاندارد بالاتر از میانگین خواهد بود. و اکنون، شما فقط می توانید وصل کنید.

ما میانگین میان ترم ها را 49.5 می گیریم. از آنجایی که ما بالاتر از حد متوسط هستیم، r را اضافه می کنیم که 0.67 برابر 0.84 برابر انحراف استاندارد است که 10.2 است، و به ما 55.2 می دهد.

این پیش بینی ما برای نمره میان ترم خواهد بود. حال، به خاطر داشته باشید، اگر r منفی بود، آنگاه، خط به سمت پایین شیب می‌کرد و در نهایت به زیر میانگین می‌رسیدیم. بنابراین، اینکه ما بالاتر یا کمتر از میانگین را پیش‌بینی کنیم، بستگی به مثبت یا منفی بودن ضریب همبستگی دارد، و همچنین به این بستگی دارد که از اینجا بالاتر از میانگین شروع کنیم یا پایین‌تر از میانگین، و بهتر است یک تصویر بسازیم و ببینیم از کدام طرف هستید. باید به پایان برسد.

Normal Approximation Given x

بنابراین، به یاد داشته باشید، برای انجام رگرسیون، باید یک طرح پراکنده داشته باشیم که تا حدودی به شکل فوتبالی به نظر برسد.

معلوم می‌شود، در آن صورت، نه تنها می‌توانیم یک خط رگرسیون را محاسبه کنیم، بلکه در واقع می‌توانیم تقریب معمولی نیز انجام دهیم و کمی بیشتر در مورد مقادیر y بگوییم.

برای یک مقدار مشخص از X، ما می توانیم به سادگی با نگاه کردن به نقطه ای که روی خط می افتد، پیش بینی کنیم. اما معلوم می شود که مقادیر y جفت ها، که نزدیک به آن مقدار x هستند، در واقع از منحنی نرمال پیروی می کنند. بنابراین، یک منحنی نرمال برای مقادیر y در اطراف آن نقطه وجود دارد. این بدان معناست که می توانیم از تقریب معمولی برای آن مقادیر y استفاده کنیم.

به یاد داشته باشید، برای انجام تقریب عادی، باید دو چیز را بدانیم. برای استانداردسازی باید مرکز و مقیاس منحنی نرمال را بدانیم.

در صورت رگرسیون، این دو عدد با مقدار پیش‌بینی‌شده y-hat داده می‌شوند. و مقیاس با فرمول ریشه مربع 1 – r مجذور انحراف استاندارد y بدست می آید.

بیایید یک مثال بزنیم.


در بین دانش آموزانی که در میان ترم حدود 41 امتیاز کسب کردند، چند درصد در فینال امتیاز بالای 60 را کسب کردند؟

ما قبلاً محاسبه کرده‌ایم که مقدار پیش‌بینی‌شده برای دانش‌آموزی که در میان ترم نمره 41 می‌گیرد 62.5 است.

این بدان معناست که منحنی نرمال در مرکز 62.5 است.

بنابراین، درصد دانش‌آموزانی که در فینال امتیاز بالاتر از 60 را کسب کرده‌اند از منحنی نرمال پیروی می‌کند که در مرکز 62.5 است.

و ما می‌خواهیم بفهمیم که چه درصدی بالاتر از 60 امتیاز گرفته است.

بنابراین آن ناحیه سایه‌دار خواهد بود.


بنابراین، اکنون ما به سادگی 60 را استاندارد می کنیم. 60 را می گیریم، 62.5 را کم می کنیم و در اینجا بر آن فرمول تقسیم می کنیم. بنابراین، این جذر 1 – 0.67 مجذور انحراف معیار نمرات امتحان نهایی است که 11.8 است، و ما 0.29- را پیدا می کنیم.

بنابراین، یک منحنی نرمال استاندارد دریافت می کنیم و باید ناحیه سمت راست 0.29- را مشخص کنیم. و اگر نرم افزار را جستجو کنید، متوجه خواهید شد که این ناحیه 61.4 درصد است. بنابراین، پاسخ این خواهد بود که از بین تمام دانش آموزانی که در میان ترم نمره حدود 41 کسب کرده اند، حدود 61٪ در امتحان نهایی نمره بالای 60 کسب کرده اند.

Residual Plots, Heteroscedasticity, and Transformations

برای هر مشاهده، یک مقدار y مشاهده شده و یک مقدار y پیش بینی شده داریم. تفاوت بین این دو مقدار y باقیمانده نامیده می شود.

باقیمانده ها برای بررسی مناسب بودن رگرسیونی که انجام می دهیم مفید هستند. ابزار اصلی در اینجا چیزی است که نمودار باقیمانده نامیده می شود.
این به سادگی یک نمودار پراکنده از باقیمانده ها در برابر مقادیر x است.در اینجا یک مثال است.

نمرات میان ترم در محور افقی و نمرات نهایی در محور عمودی داریم و همچنین خط رگرسیون را از طریق پراکندگی می بینیم.بر اساس خط رگرسیون، می‌توانیم باقیمانده‌ها را حساب کنیم و آن‌ها در نمودار سمت راست نشان داده شده‌اند.

آنچه در نمودار باقیمانده می بینیم، پراکندگی است که هیچ ساختاری را نشان نمی دهد(سمت راست). این فقط راهی است که ما دوست داریم آن را داشته باشیم. در اینجا مثال دیگری وجود دارد که در آن نمودار باقیمانده نشان می دهد که رگرسیون ممکن است مناسب نباشد.
نمودار سمت چپ درآمد در مقابل تحصیلات را نشان می دهد.

و با نگاه کردن به پراکندگی، می توانید متوجه شوید که انحنای زیادی در آنجا وجود دارد. وقتی رگرسیون را متناسب می کنیم و به نمودار باقیمانده نگاه می کنیم، الگویی را می بینیم که منحنی بزرگی را نشان می دهد. این نشانه این است که یک پراکندگی خطی نیست و رگرسیون نباید اعمال شود.

با این حال، همه چیز از دست رفته نیست. پس از اینکه آن داده ها را تغییر دادیم، ممکن است همچنان بتوان از رگرسیون برای آن داده ها استفاده کرد. به عنوان مثال، می‌توانیم جذر درآمد یا لگاریتم درآمد را بر روی تحصیلات رگرسیون کنیم.


گاهی اوقات، این منجر به یک الگوی خطی می‌شود، و می‌توانیم از رگرسیون روی آن داده‌های تبدیل‌شده استفاده کنیم، و سپس به سادگی نتایج را برگردانیم. در اینجا انحراف دیگری از پراکندگی خطی وجود دارد که یک نمودار باقیمانده ممکن است آن را بگیرد.


پراکندگی در سمت چپ خطی است. بنابراین تقریباً از یک خط پیروی می کند، اما می بینیم که شبیه یک فن است. باز می شود. و این نیز در نمودار باقیمانده نشان داده می شود.به چنین پراکندگی هتروسکداستیک می گویند. به سادگی به این معنی است که تغییرپذیری با مقادیر x تغییر می کند.

در سمت چپ (از شکل سمت راست)کمی تغییر وجود دارد، اما در سمت راست (شکل راست)تنوع زیادی وجود دارد.
اغلب اوقات می توان این نوع مشکلات را با تبدیل مقادیر y برطرف کرد. با این حال، ممکن است معلوم شود که آن تبدیل روی مقادیر y تغییر می کند که از خطی به غیرخطی پراکنده می شوند.بنابراین ممکن است مجبور شویم برای رفع آن تغییری دیگر در مقادیر x انجام دهیم.

در اینجا یک نمونه از انتخابات ریاست جمهوری سال 2000 در ایالات متحده است.



پراکندگی در سمت چپ نتایج انتخابات را برای هر شهرستان در فلوریدا نشان می دهد، به استثنای شهرستان پالم بیچ. در انتخابات ریاست جمهوری سال 2000، یک نامزد حزب سوم به نام پت بوکانان وجود داشت که نسبت قابل توجهی از آرا را به دست آورد. پراکندگی آرایی را نشان می دهد که بوش در مقابل آرایی که بوکان به دست آورده است.

فقط به پراکندگی نگاه می کنیم، به نظر می رسد که تقریباً خطی است، اما وقتی به نمودار باقیمانده در سمت راست نگاه می کنیم، می بینیم که ناهمسان است. با این حال، اگر لاگ های هر دو متغیر را بگیریم، نتیجه ای به نظر می رسد که کاملا رضایت بخش به نظر می رسد.

به طور خاص، توجه کنید که وقتی به یک نمودار باقی مانده نگاه می کنیم، یک نوار افقی دریافت می کنیم که هیچ ساختاری را نشان نمی دهد.

Outliers and Influential Points

اکنون، بیایید به همان داده ها نگاه کنیم، اما از جمله شهرستان پالم بیچ. کانتی پالم بیچ این یکی از رصدها است که تا آنجا به بالا می رسد. آن را دورافتاده می نامند زیرا مقدار y آن از خط رگرسیون بسیار دور است.
این با نگاه کردن به نمودار باقیمانده در سمت راست بسیار واضح است. باز هم می بینیم که شهرستان پالم بیچ بسیار بالاتر از خط افقی قرار دارد.



چنین نقاط پرت باید مورد بررسی قرار گیرند زیرا می توانند یک پدیده جالب را نشان دهند. آنها همچنین می توانند به سادگی نشان دهنده یک اشتباه تایپی باشند، در این صورت، ممکن است به سادگی تصمیم به حذف آن بگیرید.

این یکی دیگر از کاربردهای نمودار باقیمانده است زیرا تشخیص آن نقاط پرت را آسان می کند. در واقع، در انتخابات ریاست جمهوری سال 2000 جنجال زیادی وجود داشت. دلیل آن این بود که فقط شهرستان پالم بیچ از برگه رأی به اصطلاح پروانه استفاده کرد.

و گمان می رفت که آن رای گیری باعث سردرگمی برخی از رای دهندگان برای رای دادن به بوکانان به جای کاندیدای دموکرات، ال گور شود.

این ممکن است توضیح دهد که چرا بوکانان تنها در شهرستان پالم بیچ چنین تعداد آرا را به دست آورد. اکنون، می‌توانید ببینید که چرا رگرسیون در انواع موقعیت‌ها کاملاً مفید است.

برای مثال، می‌توانید از باقیمانده در اینجا برای تخمین تعداد رأی‌های اشتباه بوکانان استفاده کنید. تا کنون، ما فقط به مقادیر y نگاه کردیم که دور از هم هستند. یک مقدار x، که از میانگین مقادیر x فاصله دارد، گفته می شود که دارای اهرم بالایی است. دلیل استفاده از کلمه اهرم این است که چنین نقطه ای پتانسیل ایجاد تغییر بزرگ در خط رگرسیون را دارد.

بیایید به این نمونه اسباب بازی که در اینجا رسم شده است نگاه کنیم. چهار نقطه وجود دارد و سه تای آنها از یک الگوی تقریبا خطی پیروی می کنند، اما نقطه چهارم کمی از هم فاصله دارد. و علاوه بر این، اهرم زیادی دارد زیرا از نظر مقادیر x بسیار دور است.

اگر رگرسیون را بدون آن نقطه متناسب کنیم، چه اتفاقی می افتد؟ در اینجا خط رگرسیونی است که اگر این نقطه را در اینجا حذف کنیم، به دست می آوریم. می بینیم که این یک نقطه تأثیر زیادی بر خط رگرسیون دارد. به چنین نقطه ای نقطه تأثیرگذار می گویند.

این که آیا یک نقطه تأثیرگذار است یا نه، تنها با تنظیم مجدد خط رگرسیون بدون استفاده از آن نقطه می توان گفت. برای چنین تحلیلی، نمودار باقیمانده چندان مفید نیست. دلیل آن این است که یک نقطه تأثیرگذار ممکن است دارای باقیمانده ای باشد که بسیار کوچک است، بنابراین در نمودار باقیمانده نشان داده نمی شود. دلیل اینکه خیلی کوچک است این است که در وهله اول این نکته تأثیرگذار است.

بنابراین، خط رگرسیون را به سمت خود می کشد. در واقع، در این مثال، می بینید که باقیمانده بسیار کوچک است. در اینجا موارد دیگری وجود دارد که هنگام انجام رگرسیون باید به آنها توجه کنید. به یاد داشته باشید که هدف اصلی رگرسیون پیش بینی است. پیش‌بینی‌ها نباید در مقادیر x که خارج از محدوده مقادیر x استفاده شده برای رگرسیون هستند، انجام شود.

دلیل این امر این است که اغلب اوقات، رابطه خطی فقط برای یک محدوده خاص برقرار است. ما هیچ دلیلی نداریم که شک کنیم که خارج از محدوده مقادیر x که به آنها نگاه می کنیم قرار دارد.

گاهی اوقات، داده هایی که به شما داده می شود در واقع به صورت خلاصه هایی مانند میانگین برخی از داده های دیگر است. این خلاصه ها نسبت به مشاهدات دیگر متغیر کمتری هستند. و یک نتیجه این است که همبستگی ها تمایل دارند قدرت رابطه را بیش از حد بیان کنند.

در نهایت، اکثر تحلیل‌های رگرسیون عددی را گزارش می‌کنند که R-squared نامیده می‌شود. این به سادگی مجذور ضریب همبستگی است. تفسیر R-squared این است که کسری از تغییرات در مقادیر y را که با خط رگرسیون توضیح داده می شود را نشان می دهد.

بنابراین، 1 – r-squared تغییر باقی مانده ای است که در باقیمانده ها باقی مانده است. R-squared بالاتر به این معنی است که خط رگرسیون در توضیح بسیاری از تغییرات در مقادیر y کار خوبی انجام می دهد.

—– پایان هفته——————————————

کوییز – میان دوره

1- سوال – برخی از مردم بر این باورند که فعالیت موسیقایی مانند نواختن ساز موسیقی ، مهارت ریاضی را بهبود میدهد. 100 دانش آموز دبیرستان به طور رندوم انتخاب شدند. برای هر دانش آموز تعداد ساعت فعالیت موسیقایی در هفته ثبت شد و توانایی ریاضی آنها نیز ارزیابی شد. فاکتور همبستگی برابر با 0.85 بدست آمد . آیا این فاکتور بزرگ نشان میدهد که فعالیت موسیقایی بر توانایی ریاضی آنها تاثیر دارد؟

جواب: – خیر – زیرا همبستگی به معنای علیت نیست.

Some people believe that musical activity (e.g. playing an instrument) enhances mathematical ability. 100 high school students were selected at random. For each student, musical activity was recorded in hours per week and mathematical ability was assessed by a test. The correlation coefficient was found to be 0.85.

Does the large correlation coefficient prove that musical activity enhances mathematical ability?

جواب :No – زیرا : Remember that correlation doesn’t imply causation.

2- سوال :اگر بدانید همه دانش‌آموزان در نمونه از یک کلاس آمده‌اند، پاسخ شما به سوال قبلی چیست؟

What would your answer to the previous question be if you learned that all

students in the study came from the same grade؟

answer=NO توضیح: زیرا ممکن است دلیل بالا شدن نمرات آنها کمک گرفتن از والدین آنها باشد.

There could be other confounders, such as level of parental involvement.

سوال 3 – برای گروهی از مسافرانی که در یک روز معین به محل کار رفت و آمد می کنند، ضریب همبستگی بین
الف) زمان صرف شده چراغ راهنمایی و رانندگی، و
ب) کل زمان رفت و آمد، 0.4 است. کدام یک از عبارات زیر در مورد ضریب همبستگی صحیح است؟

1- اگر کل زمان رفت و آمد فرد 10 دقیقه زیاد شود، او به مدت 4 دقیقه در پشت چراق راهنما خواهد بود. به طور میانگین
2- هر چه زمان بیشتری برای رفت وآمد صرف کند ، زمان بیشتری را در پشت چراغ راهنما خواهد بود.
3- به طور میانکین هر فرد 40 درصد زمان رفت و آمد به کار خود را پشت چراغ راهنما خواهد بود.
4- هرچه زمان سپری شده در پشت پراغ راهنما بیشتر باشد، زمان کل رفت و آمد به کار بیشتر خواهد بود.

جواب: گزینه 2 و 4

سوال 4: در مطالعاتی 1000 کودک بررسی شد. نمودار scatter قد افراد یک ساله در برابرقد افراد 2 ساله به حالت زمین فوتبال و با ضریب همبستگی 0.8 است. قد آلیس با یک سال سن در 80 درصد بالا قرار دارد.
پیش بینی میکنید قد او در دو سالگی، زیر یا بالا یا دقیقا در 80 درصد باشد؟

جواب – below

A study followed 1,000 children over time. The scatter plot of heights at age 1 vs. heights at age 2 looks football-shaped with a correlation coefficient r=0.8. Alice’s height at age 1 is at the 80th percentile.

Would you predict her height at age 2 to be below, at, or above the 80th percentile?

سوال:

In the previous question we learned that in a study of children’s height, the correlation coefficient between height at age 1 vs. height at age 2 is r=0.8.

Predict the z-score of Alice’s height at age 2. (You may use the fact that the z-score of the 80th percentile is z=0.85.)

جواب- 0.68

توضیح:

سوال-

Questions (a)-(d) below relate to the following situation:

در کلاس بیولوژی- میانگین نمرات میان ترم و پایان ترم 50 و انحراف معیار استاندارد 10 دارند. نمودارscatter plot شبیه به زمین فوتبال بوده و ضریب همبستگی 0.6 است. کلودیا دوست دارد بداند دوستش امیلی نمره نهایی اش چند شده است

In a biology class, both the midterm scores and the final exam scores have an average of 50 and a standard deviation of 10.
The scatterplot looks football-shaped and the correlation coefficient is 0.6.

Claudia would like to know what score her friend Emily got on the final.

Question (a):

If you have no information on how Emily did on the midterm, what is your prediction for her score on the final?

جواب 10

راهنما : Refer to the videos on Inference in Regression if you need refresh.

Question (b): What is the “give or take” number for your prediction from

Question (a)?

توضیح:

Since we’re only considering information about the final scores in our prediction, just as our predicted score is the average final score, our “give or “take” number is the standard deviation of the final scores.

سوال 8

Now you learn that Emily got exactly the mean score of 50 on the midterm.

Question (c): Given this information, what is your prediction for Emily’s score on the final?

جواب 50

توضیح:

Question (d): What is the “give or take” number for your prediction from Question (c)?

جواب سوال 9:

سوال

A tutoring center advertises its services by stating that students who sign up improve their GPA on tests by 0.5 points on average.

Is this indeed evidence that the tutoring helps or could this be due to the regression effect?

جواب The improvement could be due to the regression effect.

سوال

True or false: If an observation with large leverage has a small residual, then it is not influential.

جواب – False

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.