آمار – هفته چهارم -Coursera

Prediction is a Key Task of Statistics

احتمالاً رگرسیون مهمترین تکنیک آماری است. این روش همه کاره است و می تواند برای مشکلاتی استفاده شود که در نگاه اول ممکن است انتظار نداشته باشیم که رگرسیون مفید باشد. ما در مورد ایده های اصلی استنتاج و رگرسیون و نحوه انجام تشخیص رگرسیون بحث خواهیم کرد. همچنین برخی از دام ها را بررسی خواهیم کرد.

هیستوگرام زیر قد 928 پسر را نشان می دهد. میانگین ارتفاع 68.1 اینچ است.


حال فرض کنید یکی از این پسران را به صورت تصادفی انتخاب می کنیم و هدف پیش بینی قد او باشد.
در واقع، چیزی که معمولاً در آمار می‌یابیم، گرفتن میانگین است، به نوعی بهترین پیش‌بینی‌کننده است.
حالا فرض کنید اطلاعات بیشتری داریم.ما نه تنها هیستوگرام ارتفاعات پسران را داریم، بلکه قد پدران آنها را نیز می شناسیم. قد این 928 جفت پدر و پسر در نمودار پراکندگی زیر آورده شده است.


دوباره باید قد یک پسر را پیش بینی کنیم، اما حالا فرض کنید می دانیم که قد پدر 72 اینچ است. واضح است که این اطلاعات اضافی باید به نحوی در پیش بینی ما به ما کمک کند. دلیل این امر این است که اگر بدانیم پدر 72 اینچ قد دارد، می دانیم که آنها جایی در میان این گروه از پدران و پسران هستند. و ما می دانیم که برای این گروه قد پسران در انتهای بالاتر است. این بدان معنی است که اطلاعات اضافی از دانستن قد پدر باید به ما امکان دهد که پیش بینی بهتری داشته باشیم. و این دقیقاً همان کاری است که یک regression برای ما انجام می دهد.
سوال:


The Correlation Coefficient


قبل از اینکه بتوانیم رگرسیون انجام دهیم، باید ضریب همبستگی را بدانیم. به یاد داشته باشید که نمودار پراکندگی در تجسم رابطه بین دو متغیر کمی بسیار مفید است.

به عنوان مثال، در پراکندگی سمت چپ که تحصیلات و درآمد را نشان می دهد، می بینیم که به نظر می رسد جهت پراکندگی به سمت بالا وجود دارد. این همچنین در مورد پراکندگی که قد پدران و پسرانشان را در سمت راست نشان می دهد صادق است. با این حال، این دو رابطه تا حدودی متفاوت هستند. اگر به رابطه درآمد بر تحصیل نگاه کنیم، می بینیم که به نظر می رسد نوعی منحنی شیب دار به سمت بالا وجود دارد که پراکندگی آن را دنبال می کند.

از سوی دیگر، اگر به قد افراد نگاه کنیم، می بینیم که یک پراکنده تقریباً یک خط را دنبال می کند.



در نهایت، آخرین چیزی که می توانیم از یک طرح پراکنده بیرون بیاییم، قدرت وابستگی است. در مثال قد افراد ، می بینیم که پراکندگی در اطراف خط کاملاً گسترده است، در حالی که در مثال درآمدها، به دور منحنی نزدیک تر است. در موردی که پراکندگی در اطراف یک خط خوشه می‌شود، خلاصه کردن آن خوشه‌بندی با ضریب همبستگی r بسیار مفید است.
ارزش یادآوری فرمول r را ندارد، اما بیایید ببینیم در آنجا چه خبر است.


می بینید که ما به مقادیر استاندارد شده x و مقادیر استاندارد شده y نگاه می کنیم. و سپس آنها را با هم ضرب می کنیم و میانگین همه مشاهدات را می گیریم. اکنون می بینید که اگر x بالای X bar و y بالای Ybarباشد، ضریب r در اینجا مثبت است و اگر x کمتر Xbar و y نیز کمتر از Ybar باشد، می تواند مثبت باشد.

بنابراین، اگر x و y هر دو در یک جهت از میانگین ها تغییر کنند، این سهم مثبت خواهد بود و اگر در جهت مخالف تغییر کنند، منفی خواهد بود. بنابراین ایده ضریب همبستگی این است که اگر شیب پراکندگی به سمت بالا باشد ضریب همبستگی باید مثبت باشد و اگر به سمت پایین شیب داشته باشد منفی است.

Correlation Measures Linear Association

بنابراین اگر جفت داده داشته باشیم و ببینیم که پراکندگی آنها (نمودار scatter) از فرم خطی پیروی می کند، می توانیم این داده ها را با میانگین x ها، انحراف معیار x ها، میانگین y ها، انحرافات استاندارد خلاصه کنیم. y و در نهایت ضریب همبستگی r که چیزی در مورد رابطه بین x و y به ما می گوید. (در واقع dimension reduction کنیم)

وقتی این جفت‌ها، x و y را رسم می‌کنیم، همیشه از این قرارداد استفاده می‌کنیم که هر چیزی که روی محور افقی می‌رود، متغیر توضیحی یا پیش‌بینی‌کننده نامیده می‌شود و متغیری که روی محور عمودی می رود، متغیر پاسخ نامیده می شود.


معلوم می‌شود که ضریب همبستگی r همیشه بین 1- و 1 است. ایده این است که علامت r جهت ارتباط را نشان می‌دهد، چه شیب بالا یا پایین داشته باشد، و قدر مطلق r قدرت آن را نشان می‌دهد. در اینجا تعدادی از نمونه ها آورده شده است.


در سمت چپ ترین حالت، r برابر با -0.9 داریم. از آنجا که r منفی است، کل پراکندگی به سمت پایین شیب دارد.
0.9 به این معنی است که پراکندگی به طور محکم در اطراف یک خط خوشه شده است. در مثال دوم، r = -0.6 داریم. باز هم، پراکندگی به سمت پایین شیب دارد، اما 0.6 بسیار به 0 نزدیکتر است، بنابراین می بینیم که پراکندگی بسیار گسترده تر است. در نهایت، اگر r = 0 باشد، هیچ روند صعودی یا نزولی محسوسی وجود ندارد.
حال به سراغ ضرایب همبستگی مثبت می رویم. اگر r = 0.2، یک پراکندگی رو به بالا دریافت می کنیم که نسبتاً شل است. در نهایت، اگر r = 1 باشد، پراکندگی به سمت بالا شیب می‌کند و همه چیز کاملاً روی یک خط قرار می‌گیرد.

این مثال ها به شما ایده می دهد که چگونه در مورد ضریب همبستگی فکر کنید. به خاطر داشته باشید که ضریب همبستگی r بدون واحد می آید، و این به این دلیل است که وقتی r را محاسبه کردیم، x و y استاندارد شده بودند. همچنین معلوم می شود که r با تغییر مرکز یا مقیاس هیچ یک از متغیرها تحت تأثیر قرار نمی گیرد. به عنوان مثال، اگر ضریب همبستگی بین قد و وزن را محاسبه کنید، فرقی نمی‌کند که وزن را بر حسب پوند یا کیلوگرم اندازه‌گیری کنید. با این حال، مهم است که به خاطر داشته باشید که ضریب همبستگی فقط برای اندازه گیری ارتباط خطی مفید است.

به این مثال در اینجا نگاه کنید. واضح است که ارتباط بسیار قوی بین این دو متغیر وجود دارد. شما یک پراکندگی کاملاً خوشه ای در اطراف یک منحنی می بینید.


با این حال، اگر ضریب همبستگی را محاسبه کنید، r = 0 را می بینید. r = 0 نشان می دهد که در واقع هیچ ارتباط خطی بین این دو متغیر وجود ندارد.
این درست است، اما نتیجه نهایی این است که r واقعا زمانی مفید است که به پراکندگی خطی نگاه کنیم. در نهایت، دیدن یک ضریب همبستگی بزرگ و نتیجه گیری اینکه باید نوعی همبستگی علی بین این دو متغیر وجود داشته باشد، وسوسه انگیز است.اما مثال پایین سمت چپ نشان می دهد که این درست نیست.



این نمودار پراکندگی اندازه کفش و همچنین نمره آزمون خواندن برای 100 دانش آموز را نشان می دهد.واضح است که ارتباط بسیار قوی بین این دو متغیر وجود دارد. اما ما موافقیم که اندازه کفش به هیچ وجه تأثیر علی بر توانایی خواندن ندارد. در عوض، آنچه در اینجا اتفاق می‌افتد این است که متغیر سومی وجود دارد، یعنی سن دانش‌آموزان، که هم اندازه کفش و هم توانایی خواندن را تعیین می‌کند.
بنابراین، آنچه در اینجا می گذرد این است که همبستگی به معنای علیت نیست و ما قبلاً در مورد آن صحبت کرده ایم.

Regression Line and the Method of Least Squares

بنابراین، رگرسیون چگونه کار می کند؟
بیایید به این پراکندگی نگاه کنیم که سن و درصد چربی بدن تعدادی از افراد را نشان می دهد.


این پراکندگی تقریباً خطی به نظر می رسد. بنابراین این موردی است که ممکن است از رگرسیون استفاده کنیم. ایده این است که ما می خواهیم این پراکندگی را با یک خط خلاصه کنیم.

این خط باید چیزی شبیه به این باشد و سوال این است که چگونه آن را دریافت کنیم؟
به یاد بیاورید که معادله یک خط به شکل زیر است. شما یک ضریب a دارید، به اضافه شیب b که برابر آرگومان x است. بنابراین، اگر متغیر ith x را وصل کنیم، معادله یک خط به ما نقطه ای می دهد که آن را yi hat می نامیم.



ایده یافتن خط این است که می خواهیم به مقادیر a و b را پیدا کنیم که تفاوت بین نقطه روی خط yi hat و مقدار واقعی مشاهده شده yi را به حداقل می رساند. یکی از راه‌های انجام این کار این است که به تفاوت بین y -hat و y نگاه کنیم، آن را مربع کنیم، و آن را بر روی تمام مشاهدات جمع کنیم، و سپس می‌خواهیم a و b را پیدا کنیم تا آن مجموع را به حداقل برسانیم.

به حداقل رساندن این مجموع در a و b می تواند با حساب دیفرانسیل و انتگرال یا به سادگی با استفاده از نرم افزار روی کامپیوتر انجام شود.

کل ایده روش حداقل مربعات نامیده می شود. به نظر می رسد که راه حل ها شامل تمام مقادیر خلاصه ای است که قبلاً به آنها نگاه کردیم. شیب برابر است با ضریب همبستگی ضربدر نسبت دو انحراف استاندارد، و وقفه شامل میانگین و همچنین شیب قبلاً مشتق شده است.



این خط را خط رگرسیون می نامند.

حالا تفسیر دیگری از خط رگرسیون وجود دارد. زمانی که اولین مختصات نزدیک x باشد، مقدار متوسط y را محاسبه می کند. به یاد داشته باشید، ایده در آمار این است که یک میانگین اغلب بهترین پیش بینی کننده است. بنابراین با محاسبه میانگین‌های مقادیر y، در جایی که اولین مختصات نزدیک x است، آن استدلال را تا حدودی دقیق می‌کنیم تا اطلاعاتی را که بر حسب x به ما داده می‌شود، لحاظ کنیم. و ایده این است که این پیش بینی کننده بهتری برای y است تا اینکه صرفاً میانگین همه yها را محاسبه کنید.

سوال:

Regression to the Mean, The Regression Fallacy

کاربرد اصلی رگرسیون پیش‌بینی y از روی x است. و ما به سادگی می توانیم این کار را با وصل کردن x به معادله خط رگرسیون خود انجام دهیم که مقدار پیش بینی شده y hat را به ما می دهد.

اکنون، از فرمول های اسلاید قبلی، می توانید ببینید که اگر x را برابر میانگین تمام x ها پیش بینی کنیم، این پیش بینی به سادگی میانگین y ها را تولید می کند. اما فرمول شیب به این معناست که اگر x را یک انحراف استاندارد بالاتر از میانگین در نظر بگیریم، مقدار y پیش‌بینی‌شده فقط r برابر یک انحراف استاندارد بالاتر از میانگین y است.


اکنون r معمولاً کوچکتر از 1 و بزرگتر از -1 است. و بنابراین این بدان معناست که پیش‌بینی به سمت میانگین است، به این معنا که مقدار پیش‌بینی‌شده y hat انحراف ستاره‌دار کمتری از میانگین آن دارد، سپس x از میانگین x است.
بیایید به نمودار پراکندگی نگاه کنیم که نمرات امتحانات میان ترم و نهایی را برای تعدادی از دانش آموزان نشان می دهد. نمرات میان ترم در محور افقی و نمرات امتحان نهایی در محور عمودی است.

می بینید که خط رگرسیون به وضوح رگرسیون به سمت میانگین را نشان می دهد. به عنوان مثال، اگر به دانش‌آموزانی نگاه کنید که در میان ترم عملکرد بسیار خوبی داشتند، تقریباً آنهایی هستند که در سمت راست بودند. می بینید که نمرات امتحان نهایی آنها که در محور عمودی داده می شود تا حدودی کمتر از نمرات برتر امتحان نهایی است. بنابراین، پسرفت به سمت میانگین در واقع منطقی است.

ما پیش‌بینی می‌کنیم که نمرات برتر میان‌ترم تا حدودی پایین‌تر از نمره‌های برتر در امتحان نهایی باشند.
به همین ترتیب، اگر به بدترین نمرات در میان ترم نگاه کنید، تقریباً آن ها خواهد بود، اما آن دانش آموزان در واقع بدترین امتیاز را در فینال کسب نکردند زیرا بدترین امتیازات در فینال ها در پایین ترم است.
باز هم به درستی پیش‌بینی می‌کنیم که نمرات امتحان نهایی نباید به اندازه نمرات میان ترم از میانگین فاصله داشته باشد.

این رگرسیون به میانگین یا اثر رگرسیون نامیده می شود.

یکی از راه‌های به خاطر سپردن آن، این است که به وضعیت test , etest نگاه کنیم.
دقیقاً به عنوان مثالی که قبلاً به نمرات امتحانات میان ترم و پایان ترم دانش آموزان نگاه کردیم. در چنین وضعیت آزمون مجدد، گروه برتر در آزمون تا حدودی در آزمون مجدد پایین می آید و گروه پایین به سمت بالا حرکت می کند.
چرا چنین می شود؟

در اینجا یک توضیح بسیار اکتشافی وجود دارد.
برای کسب امتیاز در میان بهترین ها در میان ترم دو چیز لازم است.
1- اول از همه، دانش آموز باید خیلی خوب آماده شود، و احتمالاً شانسی نیز در میان است. به عنوان مثال، دانش آموزان ممکن است به خوبی برای سؤالاتی که در میان ترم مطرح می شود، آماده باشند.
2- یکی دیگر از عناصر شانس ممکن است این باشد که دانش آموز شب قبل خواب بسیار خوبی داشته است. حالا وقتی مثل امتحان پایان ترم به حالت تست مجدد می رویم، ممکن است برخی از دانش آموزان دیگر آن شانس را به نفع خود نداشته باشند. و به همین دلیل است که انتظار داریم این گروه اندکی به عقب برگردند.

همین موضوع در مورد گروه پایین نیز صدق می کند. بدترین امتیاز احتمالاً به درجاتی ناشی از بدشانسی است و در وضعیت آزمون مجدد، این امید وجود دارد که این بدشانسی دیگر وجود نداشته باشد. مهم است که بدانیم این فقط یک اثر پراکندگی در اطراف خط است. گاهی اوقات، مردم به آن اثر نگاه می کنند و به این نتیجه می رسند که باید چیز دیگری در حال وقوع باشد. به عنوان مثال، نتیجه ممکن است این باشد که گلزنان برتر در میان ترم ضعیف شده و در فینال بدتر عمل کردند. چنین نتیجه گیری اشتباهی مغالطه رگرسیون نامیده می شود.

Predicting y from x and x from y

حالا بیایید یک پیش بینی انجام دهیم. رگرسیون می گوید که اگر x به ما داده شود، از خط رگرسیون برای پیش بینی y استفاده می کنیم. یعنی ما خط رگرسیون را محاسبه می کنیم، x را وصل می کنیم و می بینیم که چه پیش بینی Yhat به دست می آوریم. همانطور که قبلا ذکر شد، برای محاسبه یک خط رگرسیون، تنها چیزی که باید داشته باشیم پنج پارامتر زیر است.



محاسبه خط رگرسیون را می توان خیلی سریع در نرم افزار انجام داد. به عنوان مثال، دستور lm در زبان کامپیوتر R این کار را برای شما انجام می دهد. اما به نظر می رسد که در واقع می توانید آن را به سرعت با دست انجام دهید.

بیایید به یک مثال نگاه کنیم.
فرض کنید میانگین نمره میان ترم 49.5، میانگین نمره نهایی 69.1، انحراف معیار در میان ترم 10.2، انحراف معیار در پایان 11.8 و ضریب همبستگی r 0.67 بوده است. حالا فرض کنید یکی به شما بگوید دانش آموزی در میان ترم نمره 41 کسب کرده است و شما باید نمره امتحان نهایی آن دانش آموز را پیش بینی کنید. به یاد داشته باشید، اگر ما آن اطلاعات را در مورد نمره میان ترم نداشتیم، بهترین پیش بینی کننده برای فینال به سادگی میانگین 69.1 خواهد بود.



اما رگرسیون ابزاری را در اختیار ما قرار می دهد تا با ترکیب اطلاعات اضافی که دانش آموز در میان ترم نمره 41 کسب کرده است، به پیش بینی بهتری دست یابیم. در اینجا آمده است که چگونه می توانیم آن رگرسیون را با دست خیلی سریع انجام دهیم.

ابتدا توجه داشته باشید که 41 به مقدار 8.5 کمتر از میانگین است.

در اینجا میانگین به میانگین نمرات میان ترم که 49.5 است اشاره دارد. اکنون، ما این را استاندارد می کنیم، 8.5 زیر متوسط به معنای 0.83 انحراف استاندارد زیر متوسط است.

با نگاهی به فرمول شیب خط رگرسیون، پیش‌بینی می‌کنیم که نمره امتحان نهایی فقط r برابر 0.83 انحراف استاندارد کمتر از میانگین باشد.

بنابراین، اکنون، می توانیم به سادگی اعداد را وصل کنیم. برای امتحان نهایی معدل می گیریم، چون زیر حد متوسط هستیم کم می کنیم. پس باید r را کم کنیم که 0.67 برابر 0.83 برابر انحراف معیار برای نمرات امتحان نهایی است که 11.8 است و به 62.5 می رسیم. این پیش بینی ما خواهد بود که از رگرسیون به دست می آوریم. حالا بیایید پیش بینی را برگردانیم.

فرض کنید من به شما گفتم که یک دانش آموز در فینال نمره 89 گرفته است و وظیفه شما پیش بینی نمره میان ترم آن دانش آموز است. در اینجا یک چیز مهم در مورد رگرسیون وجود دارد. وقتی x را از y پیش‌بینی می‌کنید، اشتباه است که از خط رگرسیونی که از پیش‌بینی y بر روی x گرفته‌اید استفاده کنید و به سادگی x را حل کنید.

این تا حدودی وسوسه انگیز است، اما کار اشتباهی است. دلیل اشتباه بودن آن این است که دو خط رگرسیون وجود دارد. یک خط رگرسیون برای پیش‌بینی y روی x و یک خط رگرسیون متفاوت برای پیش‌بینی x روی y وجود دارد.

این دو خط معمولاً بسیار متفاوت خواهند بود. برای جلوگیری از سردرگمی بین این دو خط، همیشه بهتر است روی محور x و هر چیزی که می‌خواهید در محور y محافظت کنید، پیش‌بینی کنید و سپس به سادگی همان کاری را که قبلا انجام دادیم انجام دهید.

بنابراین، در این مورد، به این معنی است که ما به یک محور x که مطابق با نمره امتحان نهایی است، و یک محور y که نمرات میان ترم را به ما نشان می دهد، نگاه می کنیم. به این دلیل که نمره امتحان نهایی چیزی است که ما رگرسیون خود را بر اساس آن قرار می دهیم، یعنی نمره امتحان نهایی پیش بینی کننده است.

بنابراین، می دانیم که میانگین نمرات امتحان نهایی 69.1، میانگین نمرات میان ترم 49.5 بوده است، و اطلاعاتی که به ما داده می شود این است که نمره امتحان نهایی 89 است. بنابراین، بالاتر از میانگین است. می دانیم که خط رگرسیون از نقاطی می گذرد که میانگین در محور افقی و میانگین در محور عمودی است و به دلیل مثبت بودن r به سمت بالا شیب دارد.

بنابراین، خط رگرسیون تا حدودی شبیه به این است. از آنجایی که ما رگرسیون خود را بر اساس نمره امتحان نهایی 89 قرار می دهیم، انتظار داریم در میان ترم در جایی بالاتر از میانگین قرار بگیریم. دقیقاً، این محاسبه ای که قبلاً انجام دادیم چقدر بالاتر از میانگین است؟ بنابراین، ما می گوییم که 89 9.9 بالاتر از میانگین است. بنابراین، اگر استانداردسازی کنیم، 9.9 تقسیم بر انحراف استاندارد 11.8، برابر با 0.84 انحراف استاندارد بالاتر از میانگین است.

بنابراین، پیش‌بینی ما برای میان‌ترم نیز بالاتر از میانگین خواهد بود و نه 0.84 انحراف استاندارد بالاتر از میانگین، بلکه r برابر 0.84 انحراف استاندارد بالاتر از میانگین خواهد بود. و اکنون، شما فقط می توانید وصل کنید.

ما میانگین میان ترم ها را 49.5 می گیریم. از آنجایی که ما بالاتر از حد متوسط هستیم، r را اضافه می کنیم که 0.67 برابر 0.84 برابر انحراف استاندارد است که 10.2 است، و به ما 55.2 می دهد.

این پیش بینی ما برای نمره میان ترم خواهد بود. حال، به خاطر داشته باشید، اگر r منفی بود، آنگاه، خط به سمت پایین شیب می‌کرد و در نهایت به زیر میانگین می‌رسیدیم. بنابراین، اینکه ما بالاتر یا کمتر از میانگین را پیش‌بینی کنیم، بستگی به مثبت یا منفی بودن ضریب همبستگی دارد، و همچنین به این بستگی دارد که از اینجا بالاتر از میانگین شروع کنیم یا پایین‌تر از میانگین، و بهتر است یک تصویر بسازیم و ببینیم از کدام طرف هستید. باید به پایان برسد.

Normal Approximation Given x

بنابراین، به یاد داشته باشید، برای انجام رگرسیون، باید یک طرح پراکنده داشته باشیم که تا حدودی به شکل فوتبالی به نظر برسد.

معلوم می‌شود، در آن صورت، نه تنها می‌توانیم یک خط رگرسیون را محاسبه کنیم، بلکه در واقع می‌توانیم تقریب معمولی نیز انجام دهیم و کمی بیشتر در مورد مقادیر y بگوییم.

برای یک مقدار مشخص از X، ما می توانیم به سادگی با نگاه کردن به نقطه ای که روی خط می افتد، پیش بینی کنیم. اما معلوم می شود که مقادیر y جفت ها، که نزدیک به آن مقدار x هستند، در واقع از منحنی نرمال پیروی می کنند. بنابراین، یک منحنی نرمال برای مقادیر y در اطراف آن نقطه وجود دارد. این بدان معناست که می توانیم از تقریب معمولی برای آن مقادیر y استفاده کنیم.

به یاد داشته باشید، برای انجام تقریب عادی، باید دو چیز را بدانیم. برای استانداردسازی باید مرکز و مقیاس منحنی نرمال را بدانیم.

در صورت رگرسیون، این دو عدد با مقدار پیش‌بینی‌شده y-hat داده می‌شوند. و مقیاس با فرمول ریشه مربع 1 – r مجذور انحراف استاندارد y بدست می آید.

بیایید یک مثال بزنیم.


در بین دانش آموزانی که در میان ترم حدود 41 امتیاز کسب کردند، چند درصد در فینال امتیاز بالای 60 را کسب کردند؟

ما قبلاً محاسبه کرده‌ایم که مقدار پیش‌بینی‌شده برای دانش‌آموزی که در میان ترم نمره 41 می‌گیرد 62.5 است.

این بدان معناست که منحنی نرمال در مرکز 62.5 است.

بنابراین، درصد دانش‌آموزانی که در فینال امتیاز بالاتر از 60 را کسب کرده‌اند از منحنی نرمال پیروی می‌کند که در مرکز 62.5 است.

و ما می‌خواهیم بفهمیم که چه درصدی بالاتر از 60 امتیاز گرفته است.

بنابراین آن ناحیه سایه‌دار خواهد بود.


بنابراین، اکنون ما به سادگی 60 را استاندارد می کنیم. 60 را می گیریم، 62.5 را کم می کنیم و در اینجا بر آن فرمول تقسیم می کنیم. بنابراین، این جذر 1 – 0.67 مجذور انحراف معیار نمرات امتحان نهایی است که 11.8 است، و ما 0.29- را پیدا می کنیم.

بنابراین، یک منحنی نرمال استاندارد دریافت می کنیم و باید ناحیه سمت راست 0.29- را مشخص کنیم. و اگر نرم افزار را جستجو کنید، متوجه خواهید شد که این ناحیه 61.4 درصد است. بنابراین، پاسخ این خواهد بود که از بین تمام دانش آموزانی که در میان ترم نمره حدود 41 کسب کرده اند، حدود 61٪ در امتحان نهایی نمره بالای 60 کسب کرده اند.

Residual Plots, Heteroscedasticity, and Transformations

برای هر مشاهده، یک مقدار y مشاهده شده و یک مقدار y پیش بینی شده داریم. تفاوت بین این دو مقدار y باقیمانده نامیده می شود.

باقیمانده ها برای بررسی مناسب بودن رگرسیونی که انجام می دهیم مفید هستند. ابزار اصلی در اینجا چیزی است که نمودار باقیمانده نامیده می شود.
این به سادگی یک نمودار پراکنده از باقیمانده ها در برابر مقادیر x است.در اینجا یک مثال است.

نمرات میان ترم در محور افقی و نمرات نهایی در محور عمودی داریم و همچنین خط رگرسیون را از طریق پراکندگی می بینیم.بر اساس خط رگرسیون، می‌توانیم باقیمانده‌ها را حساب کنیم و آن‌ها در نمودار سمت راست نشان داده شده‌اند.

آنچه در نمودار باقیمانده می بینیم، پراکندگی است که هیچ ساختاری را نشان نمی دهد(سمت راست). این فقط راهی است که ما دوست داریم آن را داشته باشیم. در اینجا مثال دیگری وجود دارد که در آن نمودار باقیمانده نشان می دهد که رگرسیون ممکن است مناسب نباشد.
نمودار سمت چپ درآمد در مقابل تحصیلات را نشان می دهد.

و با نگاه کردن به پراکندگی، می توانید متوجه شوید که انحنای زیادی در آنجا وجود دارد. وقتی رگرسیون را متناسب می کنیم و به نمودار باقیمانده نگاه می کنیم، الگویی را می بینیم که منحنی بزرگی را نشان می دهد. این نشانه این است که یک پراکندگی خطی نیست و رگرسیون نباید اعمال شود.

با این حال، همه چیز از دست رفته نیست. پس از اینکه آن داده ها را تغییر دادیم، ممکن است همچنان بتوان از رگرسیون برای آن داده ها استفاده کرد. به عنوان مثال، می‌توانیم جذر درآمد یا لگاریتم درآمد را بر روی تحصیلات رگرسیون کنیم.


گاهی اوقات، این منجر به یک الگوی خطی می‌شود، و می‌توانیم از رگرسیون روی آن داده‌های تبدیل‌شده استفاده کنیم، و سپس به سادگی نتایج را برگردانیم. در اینجا انحراف دیگری از پراکندگی خطی وجود دارد که یک نمودار باقیمانده ممکن است آن را بگیرد.


پراکندگی در سمت چپ خطی است. بنابراین تقریباً از یک خط پیروی می کند، اما می بینیم که شبیه یک فن است. باز می شود. و این نیز در نمودار باقیمانده نشان داده می شود.به چنین پراکندگی هتروسکداستیک می گویند. به سادگی به این معنی است که تغییرپذیری با مقادیر x تغییر می کند.

در سمت چپ (از شکل سمت راست)کمی تغییر وجود دارد، اما در سمت راست (شکل راست)تنوع زیادی وجود دارد.
اغلب اوقات می توان این نوع مشکلات را با تبدیل مقادیر y برطرف کرد. با این حال، ممکن است معلوم شود که آن تبدیل روی مقادیر y تغییر می کند که از خطی به غیرخطی پراکنده می شوند.بنابراین ممکن است مجبور شویم برای رفع آن تغییری دیگر در مقادیر x انجام دهیم.

در اینجا یک نمونه از انتخابات ریاست جمهوری سال 2000 در ایالات متحده است.



پراکندگی در سمت چپ نتایج انتخابات را برای هر شهرستان در فلوریدا نشان می دهد، به استثنای شهرستان پالم بیچ. در انتخابات ریاست جمهوری سال 2000، یک نامزد حزب سوم به نام پت بوکانان وجود داشت که نسبت قابل توجهی از آرا را به دست آورد. پراکندگی آرایی را نشان می دهد که بوش در مقابل آرایی که بوکان به دست آورده است.

فقط به پراکندگی نگاه می کنیم، به نظر می رسد که تقریباً خطی است، اما وقتی به نمودار باقیمانده در سمت راست نگاه می کنیم، می بینیم که ناهمسان است. با این حال، اگر لاگ های هر دو متغیر را بگیریم، نتیجه ای به نظر می رسد که کاملا رضایت بخش به نظر می رسد.

به طور خاص، توجه کنید که وقتی به یک نمودار باقی مانده نگاه می کنیم، یک نوار افقی دریافت می کنیم که هیچ ساختاری را نشان نمی دهد.

Outliers and Influential Points

اکنون، بیایید به همان داده ها نگاه کنیم، اما از جمله شهرستان پالم بیچ. کانتی پالم بیچ این یکی از رصدها است که تا آنجا به بالا می رسد. آن را دورافتاده می نامند زیرا مقدار y آن از خط رگرسیون بسیار دور است.
این با نگاه کردن به نمودار باقیمانده در سمت راست بسیار واضح است. باز هم می بینیم که شهرستان پالم بیچ بسیار بالاتر از خط افقی قرار دارد.



چنین نقاط پرت باید مورد بررسی قرار گیرند زیرا می توانند یک پدیده جالب را نشان دهند. آنها همچنین می توانند به سادگی نشان دهنده یک اشتباه تایپی باشند، در این صورت، ممکن است به سادگی تصمیم به حذف آن بگیرید.

این یکی دیگر از کاربردهای نمودار باقیمانده است زیرا تشخیص آن نقاط پرت را آسان می کند. در واقع، در انتخابات ریاست جمهوری سال 2000 جنجال زیادی وجود داشت. دلیل آن این بود که فقط شهرستان پالم بیچ از برگه رأی به اصطلاح پروانه استفاده کرد.

و گمان می رفت که آن رای گیری باعث سردرگمی برخی از رای دهندگان برای رای دادن به بوکانان به جای کاندیدای دموکرات، ال گور شود.

این ممکن است توضیح دهد که چرا بوکانان تنها در شهرستان پالم بیچ چنین تعداد آرا را به دست آورد. اکنون، می‌توانید ببینید که چرا رگرسیون در انواع موقعیت‌ها کاملاً مفید است.

برای مثال، می‌توانید از باقیمانده در اینجا برای تخمین تعداد رأی‌های اشتباه بوکانان استفاده کنید. تا کنون، ما فقط به مقادیر y نگاه کردیم که دور از هم هستند. یک مقدار x، که از میانگین مقادیر x فاصله دارد، گفته می شود که دارای اهرم بالایی است. دلیل استفاده از کلمه اهرم این است که چنین نقطه ای پتانسیل ایجاد تغییر بزرگ در خط رگرسیون را دارد.

بیایید به این نمونه اسباب بازی که در اینجا رسم شده است نگاه کنیم. چهار نقطه وجود دارد و سه تای آنها از یک الگوی تقریبا خطی پیروی می کنند، اما نقطه چهارم کمی از هم فاصله دارد. و علاوه بر این، اهرم زیادی دارد زیرا از نظر مقادیر x بسیار دور است.

اگر رگرسیون را بدون آن نقطه متناسب کنیم، چه اتفاقی می افتد؟ در اینجا خط رگرسیونی است که اگر این نقطه را در اینجا حذف کنیم، به دست می آوریم. می بینیم که این یک نقطه تأثیر زیادی بر خط رگرسیون دارد. به چنین نقطه ای نقطه تأثیرگذار می گویند.

این که آیا یک نقطه تأثیرگذار است یا نه، تنها با تنظیم مجدد خط رگرسیون بدون استفاده از آن نقطه می توان گفت. برای چنین تحلیلی، نمودار باقیمانده چندان مفید نیست. دلیل آن این است که یک نقطه تأثیرگذار ممکن است دارای باقیمانده ای باشد که بسیار کوچک است، بنابراین در نمودار باقیمانده نشان داده نمی شود. دلیل اینکه خیلی کوچک است این است که در وهله اول این نکته تأثیرگذار است.

بنابراین، خط رگرسیون را به سمت خود می کشد. در واقع، در این مثال، می بینید که باقیمانده بسیار کوچک است. در اینجا موارد دیگری وجود دارد که هنگام انجام رگرسیون باید به آنها توجه کنید. به یاد داشته باشید که هدف اصلی رگرسیون پیش بینی است. پیش‌بینی‌ها نباید در مقادیر x که خارج از محدوده مقادیر x استفاده شده برای رگرسیون هستند، انجام شود.

دلیل این امر این است که اغلب اوقات، رابطه خطی فقط برای یک محدوده خاص برقرار است. ما هیچ دلیلی نداریم که شک کنیم که خارج از محدوده مقادیر x که به آنها نگاه می کنیم قرار دارد.

گاهی اوقات، داده هایی که به شما داده می شود در واقع به صورت خلاصه هایی مانند میانگین برخی از داده های دیگر است. این خلاصه ها نسبت به مشاهدات دیگر متغیر کمتری هستند. و یک نتیجه این است که همبستگی ها تمایل دارند قدرت رابطه را بیش از حد بیان کنند.

در نهایت، اکثر تحلیل‌های رگرسیون عددی را گزارش می‌کنند که R-squared نامیده می‌شود. این به سادگی مجذور ضریب همبستگی است. تفسیر R-squared این است که کسری از تغییرات در مقادیر y را که با خط رگرسیون توضیح داده می شود را نشان می دهد.

بنابراین، 1 – r-squared تغییر باقی مانده ای است که در باقیمانده ها باقی مانده است. R-squared بالاتر به این معنی است که خط رگرسیون در توضیح بسیاری از تغییرات در مقادیر y کار خوبی انجام می دهد.

—– پایان هفته——————————————

کوییز – میان دوره

1- سوال – برخی از مردم بر این باورند که فعالیت موسیقایی مانند نواختن ساز موسیقی ، مهارت ریاضی را بهبود میدهد. 100 دانش آموز دبیرستان به طور رندوم انتخاب شدند. برای هر دانش آموز تعداد ساعت فعالیت موسیقایی در هفته ثبت شد و توانایی ریاضی آنها نیز ارزیابی شد. فاکتور همبستگی برابر با 0.85 بدست آمد . آیا این فاکتور بزرگ نشان میدهد که فعالیت موسیقایی بر توانایی ریاضی آنها تاثیر دارد؟

جواب: – خیر – زیرا همبستگی به معنای علیت نیست.

Some people believe that musical activity (e.g. playing an instrument) enhances mathematical ability. 100 high school students were selected at random. For each student, musical activity was recorded in hours per week and mathematical ability was assessed by a test. The correlation coefficient was found to be 0.85.

Does the large correlation coefficient prove that musical activity enhances mathematical ability?

جواب :No – زیرا : Remember that correlation doesn’t imply causation.

2- سوال :اگر بدانید همه دانش‌آموزان در نمونه از یک کلاس آمده‌اند، پاسخ شما به سوال قبلی چیست؟

What would your answer to the previous question be if you learned that all

students in the study came from the same grade؟

answer=NO توضیح: زیرا ممکن است دلیل بالا شدن نمرات آنها کمک گرفتن از والدین آنها باشد.

There could be other confounders, such as level of parental involvement.

سوال 3 – برای گروهی از مسافرانی که در یک روز معین به محل کار رفت و آمد می کنند، ضریب همبستگی بین
الف) زمان صرف شده چراغ راهنمایی و رانندگی، و
ب) کل زمان رفت و آمد، 0.4 است. کدام یک از عبارات زیر در مورد ضریب همبستگی صحیح است؟

1- اگر کل زمان رفت و آمد فرد 10 دقیقه زیاد شود، او به مدت 4 دقیقه در پشت چراق راهنما خواهد بود. به طور میانگین
2- هر چه زمان بیشتری برای رفت وآمد صرف کند ، زمان بیشتری را در پشت چراغ راهنما خواهد بود.
3- به طور میانکین هر فرد 40 درصد زمان رفت و آمد به کار خود را پشت چراغ راهنما خواهد بود.
4- هرچه زمان سپری شده در پشت پراغ راهنما بیشتر باشد، زمان کل رفت و آمد به کار بیشتر خواهد بود.

جواب: گزینه 2 و 4

سوال 4: در مطالعاتی 1000 کودک بررسی شد. نمودار scatter قد افراد یک ساله در برابرقد افراد 2 ساله به حالت زمین فوتبال و با ضریب همبستگی 0.8 است. قد آلیس با یک سال سن در 80 درصد بالا قرار دارد.
پیش بینی میکنید قد او در دو سالگی، زیر یا بالا یا دقیقا در 80 درصد باشد؟

جواب – below

A study followed 1,000 children over time. The scatter plot of heights at age 1 vs. heights at age 2 looks football-shaped with a correlation coefficient r=0.8. Alice’s height at age 1 is at the 80th percentile.

Would you predict her height at age 2 to be below, at, or above the 80th percentile?

سوال:

In the previous question we learned that in a study of children’s height, the correlation coefficient between height at age 1 vs. height at age 2 is r=0.8.

Predict the z-score of Alice’s height at age 2. (You may use the fact that the z-score of the 80th percentile is z=0.85.)

جواب- 0.68

توضیح:

سوال-

Questions (a)-(d) below relate to the following situation:

در کلاس بیولوژی- میانگین نمرات میان ترم و پایان ترم 50 و انحراف معیار استاندارد 10 دارند. نمودارscatter plot شبیه به زمین فوتبال بوده و ضریب همبستگی 0.6 است. کلودیا دوست دارد بداند دوستش امیلی نمره نهایی اش چند شده است

In a biology class, both the midterm scores and the final exam scores have an average of 50 and a standard deviation of 10.
The scatterplot looks football-shaped and the correlation coefficient is 0.6.

Claudia would like to know what score her friend Emily got on the final.

Question (a):

If you have no information on how Emily did on the midterm, what is your prediction for her score on the final?

جواب 10

راهنما : Refer to the videos on Inference in Regression if you need refresh.

Question (b): What is the “give or take” number for your prediction from

Question (a)?

توضیح:

Since we’re only considering information about the final scores in our prediction, just as our predicted score is the average final score, our “give or “take” number is the standard deviation of the final scores.

سوال 8

Now you learn that Emily got exactly the mean score of 50 on the midterm.

Question (c): Given this information, what is your prediction for Emily’s score on the final?

جواب 50

توضیح:

Question (d): What is the “give or take” number for your prediction from Question (c)?

جواب سوال 9:

سوال

A tutoring center advertises its services by stating that students who sign up improve their GPA on tests by 0.5 points on average.

Is this indeed evidence that the tutoring helps or could this be due to the regression effect?

جواب The improvement could be due to the regression effect.

سوال

True or false: If an observation with large leverage has a small residual, then it is not influential.

جواب – False

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.