Prediction is a Key Task of Statistics
احتمالاً رگرسیون مهمترین تکنیک آماری است. این روش همه کاره است و می تواند برای مشکلاتی استفاده شود که در نگاه اول ممکن است انتظار نداشته باشیم که رگرسیون مفید باشد. ما در مورد ایده های اصلی استنتاج و رگرسیون و نحوه انجام تشخیص رگرسیون بحث خواهیم کرد. همچنین برخی از دام ها را بررسی خواهیم کرد.
هیستوگرام زیر قد 928 پسر را نشان می دهد. میانگین ارتفاع 68.1 اینچ است.

حال فرض کنید یکی از این پسران را به صورت تصادفی انتخاب می کنیم و هدف پیش بینی قد او باشد.
در واقع، چیزی که معمولاً در آمار مییابیم، گرفتن میانگین است، به نوعی بهترین پیشبینیکننده است.
حالا فرض کنید اطلاعات بیشتری داریم.ما نه تنها هیستوگرام ارتفاعات پسران را داریم، بلکه قد پدران آنها را نیز می شناسیم. قد این 928 جفت پدر و پسر در نمودار پراکندگی زیر آورده شده است.

دوباره باید قد یک پسر را پیش بینی کنیم، اما حالا فرض کنید می دانیم که قد پدر 72 اینچ است. واضح است که این اطلاعات اضافی باید به نحوی در پیش بینی ما به ما کمک کند. دلیل این امر این است که اگر بدانیم پدر 72 اینچ قد دارد، می دانیم که آنها جایی در میان این گروه از پدران و پسران هستند. و ما می دانیم که برای این گروه قد پسران در انتهای بالاتر است. این بدان معنی است که اطلاعات اضافی از دانستن قد پدر باید به ما امکان دهد که پیش بینی بهتری داشته باشیم. و این دقیقاً همان کاری است که یک regression برای ما انجام می دهد.
سوال:

The Correlation Coefficient
قبل از اینکه بتوانیم رگرسیون انجام دهیم، باید ضریب همبستگی را بدانیم. به یاد داشته باشید که نمودار پراکندگی در تجسم رابطه بین دو متغیر کمی بسیار مفید است.

به عنوان مثال، در پراکندگی سمت چپ که تحصیلات و درآمد را نشان می دهد، می بینیم که به نظر می رسد جهت پراکندگی به سمت بالا وجود دارد. این همچنین در مورد پراکندگی که قد پدران و پسرانشان را در سمت راست نشان می دهد صادق است. با این حال، این دو رابطه تا حدودی متفاوت هستند. اگر به رابطه درآمد بر تحصیل نگاه کنیم، می بینیم که به نظر می رسد نوعی منحنی شیب دار به سمت بالا وجود دارد که پراکندگی آن را دنبال می کند.

از سوی دیگر، اگر به قد افراد نگاه کنیم، می بینیم که یک پراکنده تقریباً یک خط را دنبال می کند.

در نهایت، آخرین چیزی که می توانیم از یک طرح پراکنده بیرون بیاییم، قدرت وابستگی است. در مثال قد افراد ، می بینیم که پراکندگی در اطراف خط کاملاً گسترده است، در حالی که در مثال درآمدها، به دور منحنی نزدیک تر است. در موردی که پراکندگی در اطراف یک خط خوشه میشود، خلاصه کردن آن خوشهبندی با ضریب همبستگی r بسیار مفید است.
ارزش یادآوری فرمول r را ندارد، اما بیایید ببینیم در آنجا چه خبر است.

می بینید که ما به مقادیر استاندارد شده x و مقادیر استاندارد شده y نگاه می کنیم. و سپس آنها را با هم ضرب می کنیم و میانگین همه مشاهدات را می گیریم. اکنون می بینید که اگر x بالای X bar و y بالای Ybarباشد، ضریب r در اینجا مثبت است و اگر x کمتر Xbar و y نیز کمتر از Ybar باشد، می تواند مثبت باشد.
بنابراین، اگر x و y هر دو در یک جهت از میانگین ها تغییر کنند، این سهم مثبت خواهد بود و اگر در جهت مخالف تغییر کنند، منفی خواهد بود. بنابراین ایده ضریب همبستگی این است که اگر شیب پراکندگی به سمت بالا باشد ضریب همبستگی باید مثبت باشد و اگر به سمت پایین شیب داشته باشد منفی است.
Correlation Measures Linear Association
بنابراین اگر جفت داده داشته باشیم و ببینیم که پراکندگی آنها (نمودار scatter) از فرم خطی پیروی می کند، می توانیم این داده ها را با میانگین x ها، انحراف معیار x ها، میانگین y ها، انحرافات استاندارد خلاصه کنیم. y و در نهایت ضریب همبستگی r که چیزی در مورد رابطه بین x و y به ما می گوید. (در واقع dimension reduction کنیم)
وقتی این جفتها، x و y را رسم میکنیم، همیشه از این قرارداد استفاده میکنیم که هر چیزی که روی محور افقی میرود، متغیر توضیحی یا پیشبینیکننده نامیده میشود و متغیری که روی محور عمودی می رود، متغیر پاسخ نامیده می شود.
معلوم میشود که ضریب همبستگی r همیشه بین 1- و 1 است. ایده این است که علامت r جهت ارتباط را نشان میدهد، چه شیب بالا یا پایین داشته باشد، و قدر مطلق r قدرت آن را نشان میدهد. در اینجا تعدادی از نمونه ها آورده شده است.

در سمت چپ ترین حالت، r برابر با -0.9 داریم. از آنجا که r منفی است، کل پراکندگی به سمت پایین شیب دارد.
0.9 به این معنی است که پراکندگی به طور محکم در اطراف یک خط خوشه شده است. در مثال دوم، r = -0.6 داریم. باز هم، پراکندگی به سمت پایین شیب دارد، اما 0.6 بسیار به 0 نزدیکتر است، بنابراین می بینیم که پراکندگی بسیار گسترده تر است. در نهایت، اگر r = 0 باشد، هیچ روند صعودی یا نزولی محسوسی وجود ندارد.
حال به سراغ ضرایب همبستگی مثبت می رویم. اگر r = 0.2، یک پراکندگی رو به بالا دریافت می کنیم که نسبتاً شل است. در نهایت، اگر r = 1 باشد، پراکندگی به سمت بالا شیب میکند و همه چیز کاملاً روی یک خط قرار میگیرد.
این مثال ها به شما ایده می دهد که چگونه در مورد ضریب همبستگی فکر کنید. به خاطر داشته باشید که ضریب همبستگی r بدون واحد می آید، و این به این دلیل است که وقتی r را محاسبه کردیم، x و y استاندارد شده بودند. همچنین معلوم می شود که r با تغییر مرکز یا مقیاس هیچ یک از متغیرها تحت تأثیر قرار نمی گیرد. به عنوان مثال، اگر ضریب همبستگی بین قد و وزن را محاسبه کنید، فرقی نمیکند که وزن را بر حسب پوند یا کیلوگرم اندازهگیری کنید. با این حال، مهم است که به خاطر داشته باشید که ضریب همبستگی فقط برای اندازه گیری ارتباط خطی مفید است.
به این مثال در اینجا نگاه کنید. واضح است که ارتباط بسیار قوی بین این دو متغیر وجود دارد. شما یک پراکندگی کاملاً خوشه ای در اطراف یک منحنی می بینید.

با این حال، اگر ضریب همبستگی را محاسبه کنید، r = 0 را می بینید. r = 0 نشان می دهد که در واقع هیچ ارتباط خطی بین این دو متغیر وجود ندارد.
این درست است، اما نتیجه نهایی این است که r واقعا زمانی مفید است که به پراکندگی خطی نگاه کنیم. در نهایت، دیدن یک ضریب همبستگی بزرگ و نتیجه گیری اینکه باید نوعی همبستگی علی بین این دو متغیر وجود داشته باشد، وسوسه انگیز است.اما مثال پایین سمت چپ نشان می دهد که این درست نیست.

این نمودار پراکندگی اندازه کفش و همچنین نمره آزمون خواندن برای 100 دانش آموز را نشان می دهد.واضح است که ارتباط بسیار قوی بین این دو متغیر وجود دارد. اما ما موافقیم که اندازه کفش به هیچ وجه تأثیر علی بر توانایی خواندن ندارد. در عوض، آنچه در اینجا اتفاق میافتد این است که متغیر سومی وجود دارد، یعنی سن دانشآموزان، که هم اندازه کفش و هم توانایی خواندن را تعیین میکند.
بنابراین، آنچه در اینجا می گذرد این است که همبستگی به معنای علیت نیست و ما قبلاً در مورد آن صحبت کرده ایم.
Regression Line and the Method of Least Squares
بنابراین، رگرسیون چگونه کار می کند؟
بیایید به این پراکندگی نگاه کنیم که سن و درصد چربی بدن تعدادی از افراد را نشان می دهد.

این پراکندگی تقریباً خطی به نظر می رسد. بنابراین این موردی است که ممکن است از رگرسیون استفاده کنیم. ایده این است که ما می خواهیم این پراکندگی را با یک خط خلاصه کنیم.

این خط باید چیزی شبیه به این باشد و سوال این است که چگونه آن را دریافت کنیم؟
به یاد بیاورید که معادله یک خط به شکل زیر است. شما یک ضریب a دارید، به اضافه شیب b که برابر آرگومان x است. بنابراین، اگر متغیر ith x را وصل کنیم، معادله یک خط به ما نقطه ای می دهد که آن را yi hat می نامیم.

ایده یافتن خط این است که می خواهیم به مقادیر a و b را پیدا کنیم که تفاوت بین نقطه روی خط yi hat و مقدار واقعی مشاهده شده yi را به حداقل می رساند. یکی از راههای انجام این کار این است که به تفاوت بین y -hat و y نگاه کنیم، آن را مربع کنیم، و آن را بر روی تمام مشاهدات جمع کنیم، و سپس میخواهیم a و b را پیدا کنیم تا آن مجموع را به حداقل برسانیم.

به حداقل رساندن این مجموع در a و b می تواند با حساب دیفرانسیل و انتگرال یا به سادگی با استفاده از نرم افزار روی کامپیوتر انجام شود.

کل ایده روش حداقل مربعات نامیده می شود. به نظر می رسد که راه حل ها شامل تمام مقادیر خلاصه ای است که قبلاً به آنها نگاه کردیم. شیب برابر است با ضریب همبستگی ضربدر نسبت دو انحراف استاندارد، و وقفه شامل میانگین و همچنین شیب قبلاً مشتق شده است.

این خط را خط رگرسیون می نامند.
حالا تفسیر دیگری از خط رگرسیون وجود دارد. زمانی که اولین مختصات نزدیک x باشد، مقدار متوسط y را محاسبه می کند. به یاد داشته باشید، ایده در آمار این است که یک میانگین اغلب بهترین پیش بینی کننده است. بنابراین با محاسبه میانگینهای مقادیر y، در جایی که اولین مختصات نزدیک x است، آن استدلال را تا حدودی دقیق میکنیم تا اطلاعاتی را که بر حسب x به ما داده میشود، لحاظ کنیم. و ایده این است که این پیش بینی کننده بهتری برای y است تا اینکه صرفاً میانگین همه yها را محاسبه کنید.
سوال:

Regression to the Mean, The Regression Fallacy
کاربرد اصلی رگرسیون پیشبینی y از روی x است. و ما به سادگی می توانیم این کار را با وصل کردن x به معادله خط رگرسیون خود انجام دهیم که مقدار پیش بینی شده y hat را به ما می دهد.

اکنون، از فرمول های اسلاید قبلی، می توانید ببینید که اگر x را برابر میانگین تمام x ها پیش بینی کنیم، این پیش بینی به سادگی میانگین y ها را تولید می کند. اما فرمول شیب به این معناست که اگر x را یک انحراف استاندارد بالاتر از میانگین در نظر بگیریم، مقدار y پیشبینیشده فقط r برابر یک انحراف استاندارد بالاتر از میانگین y است.
اکنون r معمولاً کوچکتر از 1 و بزرگتر از -1 است. و بنابراین این بدان معناست که پیشبینی به سمت میانگین است، به این معنا که مقدار پیشبینیشده y hat انحراف ستارهدار کمتری از میانگین آن دارد، سپس x از میانگین x است.
بیایید به نمودار پراکندگی نگاه کنیم که نمرات امتحانات میان ترم و نهایی را برای تعدادی از دانش آموزان نشان می دهد. نمرات میان ترم در محور افقی و نمرات امتحان نهایی در محور عمودی است.
می بینید که خط رگرسیون به وضوح رگرسیون به سمت میانگین را نشان می دهد. به عنوان مثال، اگر به دانشآموزانی نگاه کنید که در میان ترم عملکرد بسیار خوبی داشتند، تقریباً آنهایی هستند که در سمت راست بودند. می بینید که نمرات امتحان نهایی آنها که در محور عمودی داده می شود تا حدودی کمتر از نمرات برتر امتحان نهایی است. بنابراین، پسرفت به سمت میانگین در واقع منطقی است.

ما پیشبینی میکنیم که نمرات برتر میانترم تا حدودی پایینتر از نمرههای برتر در امتحان نهایی باشند.
به همین ترتیب، اگر به بدترین نمرات در میان ترم نگاه کنید، تقریباً آن ها خواهد بود، اما آن دانش آموزان در واقع بدترین امتیاز را در فینال کسب نکردند زیرا بدترین امتیازات در فینال ها در پایین ترم است.
باز هم به درستی پیشبینی میکنیم که نمرات امتحان نهایی نباید به اندازه نمرات میان ترم از میانگین فاصله داشته باشد.
این رگرسیون به میانگین یا اثر رگرسیون نامیده می شود.
یکی از راههای به خاطر سپردن آن، این است که به وضعیت test , etest نگاه کنیم.
دقیقاً به عنوان مثالی که قبلاً به نمرات امتحانات میان ترم و پایان ترم دانش آموزان نگاه کردیم. در چنین وضعیت آزمون مجدد، گروه برتر در آزمون تا حدودی در آزمون مجدد پایین می آید و گروه پایین به سمت بالا حرکت می کند.
چرا چنین می شود؟
در اینجا یک توضیح بسیار اکتشافی وجود دارد.
برای کسب امتیاز در میان بهترین ها در میان ترم دو چیز لازم است.
1- اول از همه، دانش آموز باید خیلی خوب آماده شود، و احتمالاً شانسی نیز در میان است. به عنوان مثال، دانش آموزان ممکن است به خوبی برای سؤالاتی که در میان ترم مطرح می شود، آماده باشند.
2- یکی دیگر از عناصر شانس ممکن است این باشد که دانش آموز شب قبل خواب بسیار خوبی داشته است. حالا وقتی مثل امتحان پایان ترم به حالت تست مجدد می رویم، ممکن است برخی از دانش آموزان دیگر آن شانس را به نفع خود نداشته باشند. و به همین دلیل است که انتظار داریم این گروه اندکی به عقب برگردند.
همین موضوع در مورد گروه پایین نیز صدق می کند. بدترین امتیاز احتمالاً به درجاتی ناشی از بدشانسی است و در وضعیت آزمون مجدد، این امید وجود دارد که این بدشانسی دیگر وجود نداشته باشد. مهم است که بدانیم این فقط یک اثر پراکندگی در اطراف خط است. گاهی اوقات، مردم به آن اثر نگاه می کنند و به این نتیجه می رسند که باید چیز دیگری در حال وقوع باشد. به عنوان مثال، نتیجه ممکن است این باشد که گلزنان برتر در میان ترم ضعیف شده و در فینال بدتر عمل کردند. چنین نتیجه گیری اشتباهی مغالطه رگرسیون نامیده می شود.
Predicting y from x and x from y
حالا بیایید یک پیش بینی انجام دهیم. رگرسیون می گوید که اگر x به ما داده شود، از خط رگرسیون برای پیش بینی y استفاده می کنیم. یعنی ما خط رگرسیون را محاسبه می کنیم، x را وصل می کنیم و می بینیم که چه پیش بینی Yhat به دست می آوریم. همانطور که قبلا ذکر شد، برای محاسبه یک خط رگرسیون، تنها چیزی که باید داشته باشیم پنج پارامتر زیر است.

محاسبه خط رگرسیون را می توان خیلی سریع در نرم افزار انجام داد. به عنوان مثال، دستور lm در زبان کامپیوتر R این کار را برای شما انجام می دهد. اما به نظر می رسد که در واقع می توانید آن را به سرعت با دست انجام دهید.
بیایید به یک مثال نگاه کنیم.
فرض کنید میانگین نمره میان ترم 49.5، میانگین نمره نهایی 69.1، انحراف معیار در میان ترم 10.2، انحراف معیار در پایان 11.8 و ضریب همبستگی r 0.67 بوده است. حالا فرض کنید یکی به شما بگوید دانش آموزی در میان ترم نمره 41 کسب کرده است و شما باید نمره امتحان نهایی آن دانش آموز را پیش بینی کنید. به یاد داشته باشید، اگر ما آن اطلاعات را در مورد نمره میان ترم نداشتیم، بهترین پیش بینی کننده برای فینال به سادگی میانگین 69.1 خواهد بود.

اما رگرسیون ابزاری را در اختیار ما قرار می دهد تا با ترکیب اطلاعات اضافی که دانش آموز در میان ترم نمره 41 کسب کرده است، به پیش بینی بهتری دست یابیم. در اینجا آمده است که چگونه می توانیم آن رگرسیون را با دست خیلی سریع انجام دهیم.
ابتدا توجه داشته باشید که 41 به مقدار 8.5 کمتر از میانگین است.

در اینجا میانگین به میانگین نمرات میان ترم که 49.5 است اشاره دارد. اکنون، ما این را استاندارد می کنیم، 8.5 زیر متوسط به معنای 0.83 انحراف استاندارد زیر متوسط است.
با نگاهی به فرمول شیب خط رگرسیون، پیشبینی میکنیم که نمره امتحان نهایی فقط r برابر 0.83 انحراف استاندارد کمتر از میانگین باشد.

بنابراین، اکنون، می توانیم به سادگی اعداد را وصل کنیم. برای امتحان نهایی معدل می گیریم، چون زیر حد متوسط هستیم کم می کنیم. پس باید r را کم کنیم که 0.67 برابر 0.83 برابر انحراف معیار برای نمرات امتحان نهایی است که 11.8 است و به 62.5 می رسیم. این پیش بینی ما خواهد بود که از رگرسیون به دست می آوریم. حالا بیایید پیش بینی را برگردانیم.

فرض کنید من به شما گفتم که یک دانش آموز در فینال نمره 89 گرفته است و وظیفه شما پیش بینی نمره میان ترم آن دانش آموز است. در اینجا یک چیز مهم در مورد رگرسیون وجود دارد. وقتی x را از y پیشبینی میکنید، اشتباه است که از خط رگرسیونی که از پیشبینی y بر روی x گرفتهاید استفاده کنید و به سادگی x را حل کنید.
این تا حدودی وسوسه انگیز است، اما کار اشتباهی است. دلیل اشتباه بودن آن این است که دو خط رگرسیون وجود دارد. یک خط رگرسیون برای پیشبینی y روی x و یک خط رگرسیون متفاوت برای پیشبینی x روی y وجود دارد.
این دو خط معمولاً بسیار متفاوت خواهند بود. برای جلوگیری از سردرگمی بین این دو خط، همیشه بهتر است روی محور x و هر چیزی که میخواهید در محور y محافظت کنید، پیشبینی کنید و سپس به سادگی همان کاری را که قبلا انجام دادیم انجام دهید.
بنابراین، در این مورد، به این معنی است که ما به یک محور x که مطابق با نمره امتحان نهایی است، و یک محور y که نمرات میان ترم را به ما نشان می دهد، نگاه می کنیم. به این دلیل که نمره امتحان نهایی چیزی است که ما رگرسیون خود را بر اساس آن قرار می دهیم، یعنی نمره امتحان نهایی پیش بینی کننده است.
بنابراین، می دانیم که میانگین نمرات امتحان نهایی 69.1، میانگین نمرات میان ترم 49.5 بوده است، و اطلاعاتی که به ما داده می شود این است که نمره امتحان نهایی 89 است. بنابراین، بالاتر از میانگین است. می دانیم که خط رگرسیون از نقاطی می گذرد که میانگین در محور افقی و میانگین در محور عمودی است و به دلیل مثبت بودن r به سمت بالا شیب دارد.
بنابراین، خط رگرسیون تا حدودی شبیه به این است. از آنجایی که ما رگرسیون خود را بر اساس نمره امتحان نهایی 89 قرار می دهیم، انتظار داریم در میان ترم در جایی بالاتر از میانگین قرار بگیریم. دقیقاً، این محاسبه ای که قبلاً انجام دادیم چقدر بالاتر از میانگین است؟ بنابراین، ما می گوییم که 89 9.9 بالاتر از میانگین است. بنابراین، اگر استانداردسازی کنیم، 9.9 تقسیم بر انحراف استاندارد 11.8، برابر با 0.84 انحراف استاندارد بالاتر از میانگین است.
بنابراین، پیشبینی ما برای میانترم نیز بالاتر از میانگین خواهد بود و نه 0.84 انحراف استاندارد بالاتر از میانگین، بلکه r برابر 0.84 انحراف استاندارد بالاتر از میانگین خواهد بود. و اکنون، شما فقط می توانید وصل کنید.
ما میانگین میان ترم ها را 49.5 می گیریم. از آنجایی که ما بالاتر از حد متوسط هستیم، r را اضافه می کنیم که 0.67 برابر 0.84 برابر انحراف استاندارد است که 10.2 است، و به ما 55.2 می دهد.
این پیش بینی ما برای نمره میان ترم خواهد بود. حال، به خاطر داشته باشید، اگر r منفی بود، آنگاه، خط به سمت پایین شیب میکرد و در نهایت به زیر میانگین میرسیدیم. بنابراین، اینکه ما بالاتر یا کمتر از میانگین را پیشبینی کنیم، بستگی به مثبت یا منفی بودن ضریب همبستگی دارد، و همچنین به این بستگی دارد که از اینجا بالاتر از میانگین شروع کنیم یا پایینتر از میانگین، و بهتر است یک تصویر بسازیم و ببینیم از کدام طرف هستید. باید به پایان برسد.
Normal Approximation Given x
بنابراین، به یاد داشته باشید، برای انجام رگرسیون، باید یک طرح پراکنده داشته باشیم که تا حدودی به شکل فوتبالی به نظر برسد.
معلوم میشود، در آن صورت، نه تنها میتوانیم یک خط رگرسیون را محاسبه کنیم، بلکه در واقع میتوانیم تقریب معمولی نیز انجام دهیم و کمی بیشتر در مورد مقادیر y بگوییم.
برای یک مقدار مشخص از X، ما می توانیم به سادگی با نگاه کردن به نقطه ای که روی خط می افتد، پیش بینی کنیم. اما معلوم می شود که مقادیر y جفت ها، که نزدیک به آن مقدار x هستند، در واقع از منحنی نرمال پیروی می کنند. بنابراین، یک منحنی نرمال برای مقادیر y در اطراف آن نقطه وجود دارد. این بدان معناست که می توانیم از تقریب معمولی برای آن مقادیر y استفاده کنیم.
به یاد داشته باشید، برای انجام تقریب عادی، باید دو چیز را بدانیم. برای استانداردسازی باید مرکز و مقیاس منحنی نرمال را بدانیم.
در صورت رگرسیون، این دو عدد با مقدار پیشبینیشده y-hat داده میشوند. و مقیاس با فرمول ریشه مربع 1 – r مجذور انحراف استاندارد y بدست می آید.
بیایید یک مثال بزنیم.
در بین دانش آموزانی که در میان ترم حدود 41 امتیاز کسب کردند، چند درصد در فینال امتیاز بالای 60 را کسب کردند؟
ما قبلاً محاسبه کردهایم که مقدار پیشبینیشده برای دانشآموزی که در میان ترم نمره 41 میگیرد 62.5 است.
این بدان معناست که منحنی نرمال در مرکز 62.5 است.
بنابراین، درصد دانشآموزانی که در فینال امتیاز بالاتر از 60 را کسب کردهاند از منحنی نرمال پیروی میکند که در مرکز 62.5 است.
و ما میخواهیم بفهمیم که چه درصدی بالاتر از 60 امتیاز گرفته است.
بنابراین آن ناحیه سایهدار خواهد بود.
بنابراین، اکنون ما به سادگی 60 را استاندارد می کنیم. 60 را می گیریم، 62.5 را کم می کنیم و در اینجا بر آن فرمول تقسیم می کنیم. بنابراین، این جذر 1 – 0.67 مجذور انحراف معیار نمرات امتحان نهایی است که 11.8 است، و ما 0.29- را پیدا می کنیم.
بنابراین، یک منحنی نرمال استاندارد دریافت می کنیم و باید ناحیه سمت راست 0.29- را مشخص کنیم. و اگر نرم افزار را جستجو کنید، متوجه خواهید شد که این ناحیه 61.4 درصد است. بنابراین، پاسخ این خواهد بود که از بین تمام دانش آموزانی که در میان ترم نمره حدود 41 کسب کرده اند، حدود 61٪ در امتحان نهایی نمره بالای 60 کسب کرده اند.
Residual Plots, Heteroscedasticity, and Transformations
برای هر مشاهده، یک مقدار y مشاهده شده و یک مقدار y پیش بینی شده داریم. تفاوت بین این دو مقدار y باقیمانده نامیده می شود.

باقیمانده ها برای بررسی مناسب بودن رگرسیونی که انجام می دهیم مفید هستند. ابزار اصلی در اینجا چیزی است که نمودار باقیمانده نامیده می شود.
این به سادگی یک نمودار پراکنده از باقیمانده ها در برابر مقادیر x است.در اینجا یک مثال است.

نمرات میان ترم در محور افقی و نمرات نهایی در محور عمودی داریم و همچنین خط رگرسیون را از طریق پراکندگی می بینیم.بر اساس خط رگرسیون، میتوانیم باقیماندهها را حساب کنیم و آنها در نمودار سمت راست نشان داده شدهاند.
آنچه در نمودار باقیمانده می بینیم، پراکندگی است که هیچ ساختاری را نشان نمی دهد(سمت راست). این فقط راهی است که ما دوست داریم آن را داشته باشیم. در اینجا مثال دیگری وجود دارد که در آن نمودار باقیمانده نشان می دهد که رگرسیون ممکن است مناسب نباشد.
نمودار سمت چپ درآمد در مقابل تحصیلات را نشان می دهد.

و با نگاه کردن به پراکندگی، می توانید متوجه شوید که انحنای زیادی در آنجا وجود دارد. وقتی رگرسیون را متناسب می کنیم و به نمودار باقیمانده نگاه می کنیم، الگویی را می بینیم که منحنی بزرگی را نشان می دهد. این نشانه این است که یک پراکندگی خطی نیست و رگرسیون نباید اعمال شود.
با این حال، همه چیز از دست رفته نیست. پس از اینکه آن داده ها را تغییر دادیم، ممکن است همچنان بتوان از رگرسیون برای آن داده ها استفاده کرد. به عنوان مثال، میتوانیم جذر درآمد یا لگاریتم درآمد را بر روی تحصیلات رگرسیون کنیم.
گاهی اوقات، این منجر به یک الگوی خطی میشود، و میتوانیم از رگرسیون روی آن دادههای تبدیلشده استفاده کنیم، و سپس به سادگی نتایج را برگردانیم. در اینجا انحراف دیگری از پراکندگی خطی وجود دارد که یک نمودار باقیمانده ممکن است آن را بگیرد.

پراکندگی در سمت چپ خطی است. بنابراین تقریباً از یک خط پیروی می کند، اما می بینیم که شبیه یک فن است. باز می شود. و این نیز در نمودار باقیمانده نشان داده می شود.به چنین پراکندگی هتروسکداستیک می گویند. به سادگی به این معنی است که تغییرپذیری با مقادیر x تغییر می کند.
در سمت چپ (از شکل سمت راست)کمی تغییر وجود دارد، اما در سمت راست (شکل راست)تنوع زیادی وجود دارد.
اغلب اوقات می توان این نوع مشکلات را با تبدیل مقادیر y برطرف کرد. با این حال، ممکن است معلوم شود که آن تبدیل روی مقادیر y تغییر می کند که از خطی به غیرخطی پراکنده می شوند.بنابراین ممکن است مجبور شویم برای رفع آن تغییری دیگر در مقادیر x انجام دهیم.
در اینجا یک نمونه از انتخابات ریاست جمهوری سال 2000 در ایالات متحده است.

پراکندگی در سمت چپ نتایج انتخابات را برای هر شهرستان در فلوریدا نشان می دهد، به استثنای شهرستان پالم بیچ. در انتخابات ریاست جمهوری سال 2000، یک نامزد حزب سوم به نام پت بوکانان وجود داشت که نسبت قابل توجهی از آرا را به دست آورد. پراکندگی آرایی را نشان می دهد که بوش در مقابل آرایی که بوکان به دست آورده است.
فقط به پراکندگی نگاه می کنیم، به نظر می رسد که تقریباً خطی است، اما وقتی به نمودار باقیمانده در سمت راست نگاه می کنیم، می بینیم که ناهمسان است. با این حال، اگر لاگ های هر دو متغیر را بگیریم، نتیجه ای به نظر می رسد که کاملا رضایت بخش به نظر می رسد.
به طور خاص، توجه کنید که وقتی به یک نمودار باقی مانده نگاه می کنیم، یک نوار افقی دریافت می کنیم که هیچ ساختاری را نشان نمی دهد.
Outliers and Influential Points
اکنون، بیایید به همان داده ها نگاه کنیم، اما از جمله شهرستان پالم بیچ. کانتی پالم بیچ این یکی از رصدها است که تا آنجا به بالا می رسد. آن را دورافتاده می نامند زیرا مقدار y آن از خط رگرسیون بسیار دور است.
این با نگاه کردن به نمودار باقیمانده در سمت راست بسیار واضح است. باز هم می بینیم که شهرستان پالم بیچ بسیار بالاتر از خط افقی قرار دارد.

چنین نقاط پرت باید مورد بررسی قرار گیرند زیرا می توانند یک پدیده جالب را نشان دهند. آنها همچنین می توانند به سادگی نشان دهنده یک اشتباه تایپی باشند، در این صورت، ممکن است به سادگی تصمیم به حذف آن بگیرید.
این یکی دیگر از کاربردهای نمودار باقیمانده است زیرا تشخیص آن نقاط پرت را آسان می کند. در واقع، در انتخابات ریاست جمهوری سال 2000 جنجال زیادی وجود داشت. دلیل آن این بود که فقط شهرستان پالم بیچ از برگه رأی به اصطلاح پروانه استفاده کرد.
و گمان می رفت که آن رای گیری باعث سردرگمی برخی از رای دهندگان برای رای دادن به بوکانان به جای کاندیدای دموکرات، ال گور شود.
این ممکن است توضیح دهد که چرا بوکانان تنها در شهرستان پالم بیچ چنین تعداد آرا را به دست آورد. اکنون، میتوانید ببینید که چرا رگرسیون در انواع موقعیتها کاملاً مفید است.
برای مثال، میتوانید از باقیمانده در اینجا برای تخمین تعداد رأیهای اشتباه بوکانان استفاده کنید. تا کنون، ما فقط به مقادیر y نگاه کردیم که دور از هم هستند. یک مقدار x، که از میانگین مقادیر x فاصله دارد، گفته می شود که دارای اهرم بالایی است. دلیل استفاده از کلمه اهرم این است که چنین نقطه ای پتانسیل ایجاد تغییر بزرگ در خط رگرسیون را دارد.
بیایید به این نمونه اسباب بازی که در اینجا رسم شده است نگاه کنیم. چهار نقطه وجود دارد و سه تای آنها از یک الگوی تقریبا خطی پیروی می کنند، اما نقطه چهارم کمی از هم فاصله دارد. و علاوه بر این، اهرم زیادی دارد زیرا از نظر مقادیر x بسیار دور است.
اگر رگرسیون را بدون آن نقطه متناسب کنیم، چه اتفاقی می افتد؟ در اینجا خط رگرسیونی است که اگر این نقطه را در اینجا حذف کنیم، به دست می آوریم. می بینیم که این یک نقطه تأثیر زیادی بر خط رگرسیون دارد. به چنین نقطه ای نقطه تأثیرگذار می گویند.
این که آیا یک نقطه تأثیرگذار است یا نه، تنها با تنظیم مجدد خط رگرسیون بدون استفاده از آن نقطه می توان گفت. برای چنین تحلیلی، نمودار باقیمانده چندان مفید نیست. دلیل آن این است که یک نقطه تأثیرگذار ممکن است دارای باقیمانده ای باشد که بسیار کوچک است، بنابراین در نمودار باقیمانده نشان داده نمی شود. دلیل اینکه خیلی کوچک است این است که در وهله اول این نکته تأثیرگذار است.
بنابراین، خط رگرسیون را به سمت خود می کشد. در واقع، در این مثال، می بینید که باقیمانده بسیار کوچک است. در اینجا موارد دیگری وجود دارد که هنگام انجام رگرسیون باید به آنها توجه کنید. به یاد داشته باشید که هدف اصلی رگرسیون پیش بینی است. پیشبینیها نباید در مقادیر x که خارج از محدوده مقادیر x استفاده شده برای رگرسیون هستند، انجام شود.
دلیل این امر این است که اغلب اوقات، رابطه خطی فقط برای یک محدوده خاص برقرار است. ما هیچ دلیلی نداریم که شک کنیم که خارج از محدوده مقادیر x که به آنها نگاه می کنیم قرار دارد.
گاهی اوقات، داده هایی که به شما داده می شود در واقع به صورت خلاصه هایی مانند میانگین برخی از داده های دیگر است. این خلاصه ها نسبت به مشاهدات دیگر متغیر کمتری هستند. و یک نتیجه این است که همبستگی ها تمایل دارند قدرت رابطه را بیش از حد بیان کنند.
در نهایت، اکثر تحلیلهای رگرسیون عددی را گزارش میکنند که R-squared نامیده میشود. این به سادگی مجذور ضریب همبستگی است. تفسیر R-squared این است که کسری از تغییرات در مقادیر y را که با خط رگرسیون توضیح داده می شود را نشان می دهد.
بنابراین، 1 – r-squared تغییر باقی مانده ای است که در باقیمانده ها باقی مانده است. R-squared بالاتر به این معنی است که خط رگرسیون در توضیح بسیاری از تغییرات در مقادیر y کار خوبی انجام می دهد.
—– پایان هفته——————————————
کوییز – میان دوره
1- سوال – برخی از مردم بر این باورند که فعالیت موسیقایی مانند نواختن ساز موسیقی ، مهارت ریاضی را بهبود میدهد. 100 دانش آموز دبیرستان به طور رندوم انتخاب شدند. برای هر دانش آموز تعداد ساعت فعالیت موسیقایی در هفته ثبت شد و توانایی ریاضی آنها نیز ارزیابی شد. فاکتور همبستگی برابر با 0.85 بدست آمد . آیا این فاکتور بزرگ نشان میدهد که فعالیت موسیقایی بر توانایی ریاضی آنها تاثیر دارد؟
جواب: – خیر – زیرا همبستگی به معنای علیت نیست.
Some people believe that musical activity (e.g. playing an instrument) enhances mathematical ability. 100 high school students were selected at random. For each student, musical activity was recorded in hours per week and mathematical ability was assessed by a test. The correlation coefficient was found to be 0.85.
Does the large correlation coefficient prove that musical activity enhances mathematical ability?
جواب :No – زیرا : Remember that correlation doesn’t imply causation.
2- سوال :اگر بدانید همه دانشآموزان در نمونه از یک کلاس آمدهاند، پاسخ شما به سوال قبلی چیست؟
What would your answer to the previous question be if you learned that all
students in the study came from the same grade؟
answer=NO توضیح: زیرا ممکن است دلیل بالا شدن نمرات آنها کمک گرفتن از والدین آنها باشد.
There could be other confounders, such as level of parental involvement.
سوال 3 – برای گروهی از مسافرانی که در یک روز معین به محل کار رفت و آمد می کنند، ضریب همبستگی بین
الف) زمان صرف شده چراغ راهنمایی و رانندگی، و
ب) کل زمان رفت و آمد، 0.4 است. کدام یک از عبارات زیر در مورد ضریب همبستگی صحیح است؟
1- اگر کل زمان رفت و آمد فرد 10 دقیقه زیاد شود، او به مدت 4 دقیقه در پشت چراق راهنما خواهد بود. به طور میانگین
2- هر چه زمان بیشتری برای رفت وآمد صرف کند ، زمان بیشتری را در پشت چراغ راهنما خواهد بود.
3- به طور میانکین هر فرد 40 درصد زمان رفت و آمد به کار خود را پشت چراغ راهنما خواهد بود.
4- هرچه زمان سپری شده در پشت پراغ راهنما بیشتر باشد، زمان کل رفت و آمد به کار بیشتر خواهد بود.
جواب: گزینه 2 و 4
سوال 4: در مطالعاتی 1000 کودک بررسی شد. نمودار scatter قد افراد یک ساله در برابرقد افراد 2 ساله به حالت زمین فوتبال و با ضریب همبستگی 0.8 است. قد آلیس با یک سال سن در 80 درصد بالا قرار دارد.
پیش بینی میکنید قد او در دو سالگی، زیر یا بالا یا دقیقا در 80 درصد باشد؟
جواب – below
A study followed 1,000 children over time. The scatter plot of heights at age 1 vs. heights at age 2 looks football-shaped with a correlation coefficient r=0.8. Alice’s height at age 1 is at the 80th percentile.
Would you predict her height at age 2 to be below, at, or above the 80th percentile?
سوال:
In the previous question we learned that in a study of children’s height, the correlation coefficient between height at age 1 vs. height at age 2 is r=0.8.
Predict the z-score of Alice’s height at age 2. (You may use the fact that the z-score of the 80th percentile is z=0.85.)
جواب- 0.68
توضیح:

سوال-
Questions (a)-(d) below relate to the following situation:
در کلاس بیولوژی- میانگین نمرات میان ترم و پایان ترم 50 و انحراف معیار استاندارد 10 دارند. نمودارscatter plot شبیه به زمین فوتبال بوده و ضریب همبستگی 0.6 است. کلودیا دوست دارد بداند دوستش امیلی نمره نهایی اش چند شده است
In a biology class, both the midterm scores and the final exam scores have an average of 50 and a standard deviation of 10.
The scatterplot looks football-shaped and the correlation coefficient is 0.6.
Claudia would like to know what score her friend Emily got on the final.
Question (a):
If you have no information on how Emily did on the midterm, what is your prediction for her score on the final?
جواب 10
راهنما : Refer to the videos on Inference in Regression if you need refresh.
Question (b): What is the “give or take” number for your prediction from
Question (a)?
توضیح:
Since we’re only considering information about the final scores in our prediction, just as our predicted score is the average final score, our “give or “take” number is the standard deviation of the final scores.
سوال 8
Now you learn that Emily got exactly the mean score of 50 on the midterm.
Question (c): Given this information, what is your prediction for Emily’s score on the final?
جواب 50
توضیح:

Question (d): What is the “give or take” number for your prediction from Question (c)?
جواب سوال 9:

سوال
A tutoring center advertises its services by stating that students who sign up improve their GPA on tests by 0.5 points on average.
Is this indeed evidence that the tutoring helps or could this be due to the regression effect?
جواب The improvement could be due to the regression effect.
سوال
True or false: If an observation with large leverage has a small residual, then it is not influential.
جواب – False