آمار – هفته پنجم -Coursera

Interpretation of a Confidence Interval

زمانی که حجم نمونه زیاد شود، خطای استاندارد کم میشود.

این ماژول به فواصل اطمینان نگاه می کند. ما در مورد تفسیر و چگونگی ایجاد فواصل اطمینان در برخی شرایط استاندارد بحث خواهیم کرد. درک کامل این مفاهیم مهم است زیرا اکثر تحلیل های آماری نوعی فاصله اطمینان را ارائه می دهند.

بیایید دوباره به رتبه بندی های مورد قبول ریاست جمهوری ایالات متحده نگاه کنیم. حدود 140 میلیون رای دهنده احتمالی وجود دارد. و بیایید برای یک دقیقه فرض کنیم که 60 درصد از آنها نحوه انجام کار رئیس جمهور را تایید می کنند.

حالا ما یک نظرسنجی انجام می دهیم. فرض کنید، ما از 1000 نفر از آنها نظرسنجی می کنیم. درصد تأییدی که در نظرسنجی به دست می آوریم باید تا حدودی شبیه 60 درصد باشد، اما کمی کاهش خواهد یافت. اما چقدر؟

خوب، ما قبلاً می دانیم که درصد نمونه احتمالاً با یک خطای استاندارد کاهش یافته است. اغلب اوقات، شخص دوست دارد بیانیه ای داشته باشد که تا حدودی دقیق تر باشد. این کار با فاصله اطمینان confidence interval انجام می شود.

قبلاً می دانیم که طبق قضیه حد مرکزی، درصد نمونه از منحنی نرمال پیروی می کند. درسته. که مقدار مورد انتظار برابر با m برابر با درصد جمعیت و خطای استاندارد برابر با سیگما انحراف استاندارد جمعیت تقسیم بر اندازه نمونه ریشه مربع است.

در این حالت، سیگما 0.49 است. برای محاسبه آن، به یاد بیاورید که ما در حال بررسی مواردی هستیم که در آن چیزها را می شماریم. یعنی ما در حال شمارش رأی دهندگانی هستیم که رئیس جمهور را تأیید می کنند. بنابراین، ما برچسب‌هایی را معرفی می‌کنیم که در آن هر رأی‌دهنده‌ای که تأیید می‌کند 1 و هر رأی‌دهنده دیگری یک 0 می‌گیرد. و 140 میلیون رأی‌دهنده وجود دارد. بنابراین، ما در نهایت با 140 میلیون برچسب مواجه می شویم. و از آن، می توانیم سیگما انحراف استاندارد را 0.48 محاسبه کنیم.

بنابراین، این به این معنی است که یک درصد جمعیت میو وجود دارد که 60٪ است. و سپس، اگر از 1000 رای دهنده نمونه برداری کنیم، درصد نمونه از منحنی نرمال پیروی می کند. و قانون تجربیempirical rule می‌گوید، اگر از هر طرف دو خطای استاندارد را پیش ببریم، احتمال 95 درصد وجود دارد که درصد نمونه در آن محدوده باشد.

بنابراین، ما می دانیم که به احتمال 95٪ درصد نمونه بیش از دو خطای استاندارد با درصد جمعیت mu فاصله ندارد. اما گفتن اینکه درصد نمونه بیش از دو خطای استاندارد با درصد جمعیت mu فاصله ندارد، همان است که بگوییم درصد جمعیت mu بیش از دو خطای استاندارد با درصد نمونه فاصله ندارد.

این به این معنی است که ما می‌توانیم درصد نمونه خود را بگیریم، مثلاً ممکن است 58٪ باشد و سپس دو خطای استاندارد را در هر جهت انجام دهیم. و این طیفی از مقادیر قابل قبول برای درصد جمعیت به ما می دهد.

به یاد داشته باشید، وقتی ما یک نظرسنجی انجام می دهیم، درصد جمعیت را نمی دانیم. کل ایده این است که نمونه بگیرید و درصد نمونه بگیرید. و امیدواریم درصد جمعیت به درصد نمونه نزدیک شود.

بنابراین، کاری که ما انجام می‌دهیم این است که درصد نمونه 58% را در نظر می‌گیریم، دو خطای استاندارد را در هر جهت انجام می‌دهیم، که ما را به 54.8% و 61.2% می‌برد. و فاصله بین این دو عدد را فاصله اطمینان 95 درصد برای درصد جمعیت مجهول می گویند.

بنابراین، چرا به این فاصله اطمینان می گویند؟ نام اعتماد از کجا آمده است؟ و چرا به سادگی نمی گوییم احتمال؟ خب، درصد جمعیت mu یک عدد ثابت است. و آن عدد یا داخل بازه است یا خارج از بازه. بنابراین وقتی فاصله اطمینان را یادداشت کنیم، دیگر شانسی وجود نخواهد داشت.

و به همین دلیل، ما در مورد اعتماد به نفس صحبت می کنیم. تصادفی بودن در این روش واقعاً از طریق نمونه گیری حاصل می شود. اگر 1000 رای دهنده دیگر را نمونه برداری کنیم، فاصله کمی متفاوت خواهیم داشت. پس تعبیر فاصله اطمینان 95 درصد این است که اگر نظرسنجی های زیادی انجام دهیم و برای هر نظرسنجی یک فاصله اطمینان انجام دهیم، 95 درصد از این فاصله ها درصد جمعیت را به دام می اندازند و بنابراین 5 درصد آن را از دست می دهند. عدد 95% سطح اطمینانی نامیده می شود که با فاصله اطمینان همراه است. در اینجا تصویری است که وضعیت را توضیح می دهد.

چند درصد جمعیت مو وجود دارد. فرض کنید 60 درصد است. و سپس نمونه ای به اندازه 1000 می گیریم و فاصله اطمینان را محاسبه می کنیم. به عنوان مثال، این فاصله اطمینان ممکن است از 55٪ در اینجا تا 65٪ در اینجا باشد. و می بینید، در این مورد، فاصله اطمینان درصد جمعیت mu را به دام می اندازد. سپس، هفته آینده، فرد دیگری ممکن است نظرسنجی دیگری انجام دهد و با فاصله اطمینان دیگری همراه شود. و این ممکن است از اینجا به آنجا اجرا شود. و شخص دیگری ممکن است یک فاصله اطمینان سوم را انجام دهد، و ممکن است از اینجا به اینجا باشد. و یک نظرسنجی دیگر ممکن است منجر به فاصله اطمینان از اینجا تا اینجا شود.

و حالا می بینید، این یکی درصد جمعیت را از دست داده است. بنابراین، در میان این تعداد زیاد فاصله اطمینان 95 درصد، اکثر آنها درصد جمعیت را پوشش می دهند، اما برخی نه، مانند این نمی خواهد و این یکی نخواهد شد. نحوه گزارش فاصله اطمینان اغلب چیزی شبیه به این است: “من 95٪ مطمئن هستم که میزان رضایت رئیس جمهور بین 54.8٪ و 61.2٪ است.” و تعبیر آن این است که در 95% مواقع، من در هنگام بیان چنین سخنی درست می گویم و 5% مواقع ممکن است اشتباه کنم. بنابراین، در نظر داشته باشید که تصادفی بودن در نمونه گیری است نه در درصد جمعیت.

Using the Central Limit Theorem to Find a Confidence Interval

ایده فاصله اطمینان این است که طیفی از مقادیر قابل قبول برای یک پارامتر جمعیتی که ما آن را mu می نامیم ارائه می دهد. معمولاً یک فاصله اطمینان حول یک تخمین برای mu ساخته می شود که اغلب اوقات نوعی میانگین است. بیایید به چند نمونه نگاه کنیم. در مثال اول، پارامتر جمعیت mu که ما به آن علاقه مندیم، درصد تایید در میان 140 میلیون رای دهنده احتمالی است.
به عنوان یک تخمین، ما از درصد تایید در میان رای دهندگان نمونه خود استفاده می کنیم. این درصد یک میانگین در طرح‌های حسابداری معمولی است که در آن برچسب‌های 0 و 1 داریم. به عنوان مثال دیگر، فرض کنید می خواهیم سرعت نور را اندازه گیری کنیم. در آن صورت، برآورد ما میانگین مثلاً 30 اندازه گیری خواهد بود. اکنون یک نکته کلیدی این است که اگر از میانگین ها استفاده کنیم، می دانیم که قضیه حد مرکزی اعمال می شود. بنابراین، ما یک فرم بسیار ساده برای فاصله اطمینان داریم که به سادگی تخمین به اضافه منهای z-value برابر خطای استاندارد است.

و آن z-value به سادگی از تقریب عادی می آید. کدام z-value را باید بگیریم؟ خوب، این بستگی به سطح اطمینان مورد نظر دارد. به عنوان مثال، اگر بخواهیم سطح اطمینان 95% داشته باشیم، z = 1.96 بدست می آید. این از تقریب عادی می آید که در آن ما به مقدار z نگاه می کنیم به طوری که 95٪ در وسط قرار دارد. این مقدار z 1.96 است یا اغلب اوقات ما به سادگی از 2 استفاده می کنیم. از طرف دیگر، اگر ما به سطح اطمینان 90% علاقه مند بودیم، آنگاه z = 1.65 را پیدا می کنیم. و برای سطح اطمینان 99٪، z = 2.58 را دریافت می کنیم.

سومین عددی که باید برای فاصله اطمینان خود یادداشت کنیم SE است. این خطای استاندارد برآورد است. اگر تخمین به عنوان مثال، یک میانگین یا یک درصد باشد، می‌دانیم که با قانون جذر، خطای استاندارد سیگما بر اندازه نمونه ریشه مربع است، که در آن سیگما انحراف استاندارد جامعه است. بنابراین، اکنون ما یک مشکل کوچک داریم زیرا باید سیگما را بشناسیم، اما نداریم زیرا سیگما انحراف معیار جمعیت است و نمی دانیم جمعیت چیست. یک راه برون رفت از این، تخمین ساده سیگما از نمونه است. یعنی به جای انحراف معیار جمعیت از یک انحراف استاندارد نمونه استفاده می کنیم. این یک ایده بسیار ساده است. و بعدا خواهیم دید که این ایده می تواند در موقعیت های بسیار پیچیده تری استفاده شود. به همین دلیل یک نام دارد. به آن اصل بوت استرپ می گویند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.