توزیع نرمال و توزیع دو جمله ای
از کجا بفهمیم که نمودار هیستوگرام، مربوط به دیتاهای نرمال است؟

چند مثال از توزیع نرمال: توزیع قد افراد، فشار خون افراد، وزن سگها

قوانین Empirical
اگر دیتا از توزیع نرمال برخوردار باشد:
- 2/3 یا حدود 68 درصد کل دیتاها بین میانگین داده ها +- انحراف معیار قرار میگیرند.
- 95 درصد آن بین میانگین +- 2 برابر انحراف معیار قرار میگیرند.
- 99.7 درصد آن بین میانگین +- 3 انحراف معیار استاندارد قرار میگیرند.
- مثال اگر میانگین قد افراد68.3 اینچ باشد وانحراف از معیار برابر 1.8 اینچ باشد، آنگاه95 درصد تمام افراد قدی بین64.7 اینچ و 71.9 خواهد بود. ویدئو:

قوانین empirical روی نمودار توزیع نرمال :

دیتای استاندارد شده:
برای استاندار کردن هر داده ابتدا تفاضل آن را از میانگین بدست می آوریم و سپس بر انحراف معیار تقسیم میکنیم که به آن z-score گویند:

برای مثال اگر z-score در یک نمونه برابر 2 باشد، یعنی تفاضل آن نمونه از میانگین دو برابر انحراف معیار است.
یا اگر منفی 1.5 باشد، یعنی تفاضل آن نمونه از میانگین 1.5 واحد منفی بوده است.
نکته یا نتیجه:
اگر دیتا استاندارد باشد(مقدار هر نمونه قبل و بعد از استاندارد سازی برابر باشد)، میانگین آن داده ها صفر و انحراف معیار= یک دارد و نمودار آن به شکل زیر است:

normal approximation
سوال : چند درصد پدران قدشان بین 67.4 تا 71.9 اینچ است؟ فقط میدانیم میانگین برابر 68.3 و انحراف معیار برابر 1.8 اینچ است. (حل این مسئله توسط نرم افزار انجام میشود فعلا. در آینده روشهایی برای حل بدون نرم افزار خواهیم گفت)
راهنمایی:
1-ابتدا دو عدد داده شده را استاندارد کنید.(زد اسکور را بدست آورید.که بترتیب منفی نیم و 2 میشوند.)
ضریب دو جمله ای
دو جمله ای به این دلیل گفته میشود که دو حالت داریم. مثلا پیروزی یا شکست. دختر یا پسر. شیر یا خط و … مثال:
اگر بدانیم احتمال دختر بودن در یک تولد، 49 درصد است، احتمال تولد 2 دختر از میان سه تولد چقدر است؟
ویدئو:
یاد آوری:
1- مستقل بودن منجر به ضرب احتمالات میشود .
2- ناهمزمان بودن منجر به جمع احتمالات میشود.
در فرمول زیر :

1- بخش اول= تعداد دفعاتی که ممکن است رخداد مورد نظرما (پیروزی) رخ دهد که به آن binomial coefficient یا ضریب دو جمله ای گفته میشود. که برای محاسبه تعداد کل حالات استفاده میشود.
2- بخش دوم= احتمال پیروزی. از میان حالات کل تعدادی را بعنوان جواب مطلوب یا پیروزی میشناسیم که محاسبه آن ازبخش دوم فرمول بالا است:
have is this term p to the power k, times 1 - p to the power n - k and that is simply the probability of having a particular pattern of k successes and n - k failures.
مثال:
ما یک بازی آنلاین را 10 بار انجام میدهیم. در هر بار بازی
- احتمال بردن جایزه بزرگ 10 درصد،
- بردن جایزه کوچک 20 درصد
- احتمال نبردن 70 درصد است
سوال: احتمال بردن دو جایزه کوچک چقدر است؟ بعبارت دیگر احتمال 2بار جایزه کوچک از میان 10 بار بازی چقدر است؟

سوال : وقتی این مسابقه 3 حالت دارد(1-برد جایزه کوچک 2-برد جایزه بزرگ 3- باخت) چرا از قوانین bionomial یا توزیع دو جمله ای استفاده میکنیم؟
چرا آمار کاربرد دارد؟
برای مثال فرض کنید بخواهیم به این سوال پاسخ دهیم: میانگین قد مردان در آمریکا چقدر است؟
تعداد 120 میلیون مرد در آمریکا وجود دارند. بنابراین میانگین گیری از این تعداد افراد قطعا نیاز به تکنیک آماری دارد. تعریف population و Parameter وچند تعریف دیگر:

تفاوت بین آمار و پارامتر چیست؟:
A parameter is a quantity of interest about the population.
A statistic is a quantity of interest measured in the sample.
401-10-15
Expected Value and Standard Error
حال، اگر یک مرد بالغ را به طور تصادفی از جمعیت انتخاب کنیم، انتظار داریم قد او در حدود میانگین جمعیتی میو باشد. یا حد اقل در بازه حدود یک سیگمای انحراف معیاربالاتر یا پایین ترباشد. از این گذشته، سیگمای انحراف استاندارد sd، پراکندگی جمعیت را نشان میدهد. و بعبارتی بیشتر مشاهدات حدود یک انحراف استاندارد از میانگین مو فاصله دارند.
ما می گوییم که مقدار مورد انتظار یک قرعه کشی تصادفی، میانگین جمعیت m یا میو است. حال، میانگین n قرعه کشی را x bar می نامیم، با زیرنویس n . بنابراین زیرنویس مخفف اندازه نمونه است
بنابراین، معلوم می شود که مقدار مورد انتظار میانگین نمونه، دوباره، میانگین جمعیت mu است. اما به خاطر داشته باشید که میانگین نمونه در واقع تصادفی است، زیرا نمونه گیری یک فرآیند تصادفی است. این بدان معناست که x bar دقیقاً برابر با میانگین جمعیت، که در واقع 69.3 اینچ است، نخواهد بود. برای مثال، ممکن است x bar برابر با 70.1 اینچ داشته باشیم. و اگر نمونه دیگری با اندازه n بگیریم، ممکن است x bar برابر با 69.1 اینچ به دست آوریم. (واضحه)
خطای استاندارد SE
بنابراین سؤال این است که میانگین نمونه چقدر از میانگین جامعه دور خواهد بود؟ این با خطای استاندارد یا SE تعیین می شود. یا خطای استاندارد. این یک کمیت بسیار مهم در آمار است و به شما می گوید که آمار چقدر از مقدار مورد انتظار فاصله دارد. خطای استاندارد SE برای یک آمار برای همه انواع روش های آماری استفاده می شود. خطای استاندارد یک آماره همان نقشی را ایفا می کند که سیگمای انحراف معیار برای یک مشاهده تصادفی . در اینجا یک فرمول کلیدی برای استنتاج آماری وجود دارد که قانون ریشه مربع نامیده می شود:

که “خطای استاندارد میانگین نمونه برابر است با سیگما تقسیم بر جذر تعداد نمونه (نه تعداد جامعه)”
چرا قانون ریشه دوم اینقدر مهم است؟ در واقع دو دلیل برای آن وجود دارد:
1- اول، نشان می دهد که اگر از اندازه نمونه بزرگتر n استفاده کنیم، خطای استاندارد کوچکتر می شود. پس از همه، یک جذر در مخرج وجود دارد. ما در واقع می توانیم از آن فرمول برای تعیین اندازه نمونه مورد نیاز برای بدست آوردن دقت مطلوب برای خطای استاندارد خود استفاده کنیم.(یعنی بگوییم شما بگو چه مقدار دقت میخواهی تا من بگویم اندازه جامعه چقدر باشد.)
2- نکته دوم این است که فرمول به حجم جامعه بستگی ندارد و فقط به حجم نمونه بستگی دارد. به همین دلیل است که آمار در نظرسنجی ها کار می کند.

به هر حال، مثال قبلی خود را به یاد بیاورید، جایی که ما 140 میلیون مرد بالغ در آمریکا را در نظر داشتیم. اصلاً مهم نیست که به 140 میلیون نگاه کنیم. اگر نمونه ای به اندازه 1000 بگیریم، بدون توجه به اینکه جمعیت چقدر زیاد باشد، خطای استاندارد مشخصی دریافت می کنیم. در واقع فرمول زیر میگوید، بگو چه مقدار دقتی میخواهی تا من به تو بگویم اندازه نمونه تو چقدر باشد:


401/10/18
EV and SE of Sum, Percentages, and When Simulating
گاهی اوقات ما به جمع کل نمونه n علاقه داریم تا میانگین آن. مشخص است که با جمع کل نمونه ها و تقسیم بر n، میانگین را به دست میآوریم و با n برابر کردن میانگین، جمع کل مجموعه را برمیگردانیم.

بنابراین، فرمولهای خطای استاندارد SE مجموع را به صورت زیر نیز بدست آورد:

نکته مهمی که در اینجا باید در نظر داشت این است که خطای استاندارد SE برای مجموع (نه برای میانگین) در واقع با نرخ جذر n افزایش می یابد. این در حالی است که خطای استاندارد میانگین، با افزایش n کاهش می یابد.
آمار مهم دیگری که مدام مطرح می شود درصدها یا percentile هستند.
قبلاً به رتبهبندیهای محبوبیت روسای جمهور ایالات متحده نگاه کردیم. این سوالی است که توسط جورج گالوپ در اواخر دهه 1930 مطرح شد. این نظرسنجی تلاش میکند تا مشخص کند که چند درصد از رایدهندگان احتمالی روشی را که رئیسجمهور ایالات متحده در حال انجام کارش است، تأیید میکنند. با دقت به این موضوع، می بینیم که درصد رأی دهندگان احتمالی در واقع یک میانگین است. به آن چارچوبی برای شمارش و طبقه بندی می گویند. در این مثال، جمعیت شامل همه رای دهندگان احتمالی است که حدود 140 میلیون بزرگسال هستند.
هر یک از این رای دهندگان احتمالی در یکی از دو دسته قرار می گیرند. یا با مدیریت رئیس جمهور در این کار موافقت می کنند یا نمی کنند. اکنون کاری که انجام می دهیم این است که برچسب “1” را بر روی هر رای دهنده احتمالی که تایید می کند و “0” روی هر رای دهنده ای که تایید نمی کند می گذاریم. categorizing . دلیل اینکه ما این کار را انجام می دهیم این است که در این صورت تعداد رأی دهندگان احتمالی که تأیید می کنند برابر است با مجموع 140 میلیون برچسب. برای اینکه بفهمیم چرا اینطور است، اجازه دهید به یک مثال ساده با پنج رای دهنده نگاه کنیم.
فرض کنید اولین رأی دهنده تأیید کند، بنابراین ما به او یک برچسب «1» می دهیم.
رای دهنده دوم این کار را نمی کند، بنابراین برچسب “0” می گیرد.
سومین رای نمی دهد، برچسب “0” می گیرد.
رای دهنده بعدی تایید می کند، برچسب “1” می گیرد و
آخرین رای دهنده تایید نمی کند و برچسب “0” می گیرد.
بنابراین، اگر به مجموع برچسبها را بدست بیاوریم، 2 میشود. در واقع 2 رایدهنده از 5 رأیدهنده مدیریت رئیسجمهور در کار خود را تأیید کردند. یعنی 2 از 5 یا 4 از 10 یا 40 درصد افراد نمونه موافق بوده اند.
بنابراین با قرار دادن 0 و 1 بر روی برچسب ها، مجموع برچسب ها به سادگی تعداد تایید کنندگان را محاسبه می کند، و به همین ترتیب فرد می بیند که درصد رای دهندگان احتمالی که تایید می کنند به سادگی درصد 1 ها در بین همه برچسب ها است.
بنابراین، نتیجه این است که پس از معرفی برچسبهای 0 و 1، درصدها به سادگی میانگین هستند.
میو : میانگین جمعیت کل است. و با اندکی محاسبات ، خطای استاندارد درصد نیز به صورت زیر بدست می آید:

تا اینجا 3 فرمول بدست آوردیم.
اما به یاد داشته باشید که همه این فرمول ها در واقع برای نمونه گیری با جایگزینی هستند. اما نمونه برداری های رایج معمولا از نوع تصادفی ساده و بدون جایگزینی هستند. قبلاً دیدیم که در مورد نمونه گیری بدون جایگزینی، که حجم نمونه بسیار کوچکتر از حجم جامعه است، این دو مورد تقریباً یکسان هستند، بنابراین همه این فرمول ها هنوز تقریباً درست هستند.
در واقع، معلوم میشود که فرمولهای مقادیر مورد انتظار حتی برای نمونهبرداری بدون جایگزینی دقیقاً درست هستند و برای خطای استاندارد SE نیز درست هستند.
simulating data
همه این فرمول ها نیز درست هستند اگر از جمعیت شبیه سازی شده استفاده کنیم. شبیه سازی داده به این معنی است که ما داده ها را بر اساس یک هیستوگرام احتمال تولید می کنیم، به عنوان مثال، با استفاده از یک کامپیوتر. به یاد داشته باشید، وقتی از یک جمعیت استخراج می کنیم، mu به سادگی میانگین جمعیت و سیگما انحراف استاندارد جمعیت است.
اگر یک متغیر تصادفی X را شبیه سازی کنیم که k رویداد احتمالی داشته باشد، از X1 تا XK، فرمول های مربع mu و سیگما در اینجا آورده شده است.

این فرمولها در واقع در مورد نمونهگیری از یک جامعه نیز صدق میکنند. زیرا اگر از جامعهای با K رویداد متفاوت (مثلا احتمال آمدن عدد 3 در پرتاب تاس 1 به 6 است.) ممکن نمونهگیری کنیم، احتمال وقوع یک رویداد به سادگی 1 بر K است.
The Square Root Law
The Sampling Distribution
The Central Limit Theorem
بیایید به مثالی نگاه کنیم که قانون جذرsquar law را اعمال می کند. ما یک سکه سالم را 100 بار پرتاب می کنیم.
انتظار داریم چند tail ببینیم ؟ در 100 پرتاب تعداد tail را می شمریم.
بنابراین ما برچسبهایی را معرفی میکنیم، که در آن 1 نماینده tail و 0 مخفف head است.
سپس این 100 پرتاب را یا با 100 بار پرتاب یک سکه یا با استفاده از کامپیوتر شبیه سازی می کنیم و در هر مورد پرتاب تکی احتمال 1 برابر 50 درصد و احتمال 0 نیز برابر 50 درصد است. از آنجا که ما برچسب های 0 و 1 داریم، متوجه می شویم که تعداد tailها در 100 پرتاب برابر با مجموع 100 پرتاب است.

سوال:

جواب:100
سوال:

جواب: سیگما نیم است و رادیکال 200 هم میشود:14.14 و جواب آخر:3.5

The Sampling Distribution
بیایید دوباره به مثال قبلی 100 بار پرتاب سکه نگاه کنیم. اگر به تعداد tail علاقه مند باشیم، نتایج احتمالی زیر وجود دارد. ما می توانیم 0 یا 1، یا 2، تا 100 رویداد TAIL داشته باشیم.
حالا احتمال هر یک از این نتایج چقدر است؟
می دانیم که این توزیع دو جمله ای با n = 100 و p = 0.5 است.
زیرا اگررویداد tail را موفقیت بنامیم، تعداد tailها به سادگی تعداد موفقیت های 100 آزمایش است. بنابراین اگر به آماری که تعداد دنبالهها را میشمرد، علاقهمندیم، این آمار یک متغیر تصادفی است که هیستوگرام احتمال آن با توزیع دوجملهای ارائه میشود. این را توزیع نمونه گیری می نامند. (در ادامه شکل 3)
Three Histograms
وقتی 100 بار سکه را پرتاب می کنیم، داده ها را با ترسیم از هیستوگرام احتمال شبیه سازی می کنیم. آن هیستوگرام احتمال می گوید که می توانیم سرها را با احتمال نصف و دم ها را با احتمال نصف به دست آوریم.
بنابراین به یاد داشته باشید که هیستوگرام احتمال یک ساختار نظری است.

به سادگی به ما می گوید که شانس شبیه سازی چقدر است. پس از اینکه 100 پرتاب را شبیه سازی کردیم، داده های واقعی داریم. به عنوان مثال، ما می توانیم با 47 سر و 53 دم به پایان برسیم.

سپس میتوانیم یک هیستوگرام از آن دادهها بسازیم، و هیستوگرام شبیه تصویر بالا میشود.
بنابراین می بینید که این هیستوگرام کاملاً شبیه هیستوگرام احتمال در مرحله اول است، اما کمی متفاوت است زیرا 100 پرتاب شامل یک فرآیند شانسی است.
در نهایت، اگر به آماری مانند تعداد دم در 100 پرتاب علاقه مند باشیم، هیستوگرام سومی را دریافت می کنیم که توزیع نمونه آن آمار را نشان می دهد.

در این مورد، توزیع دوجمله ای است و خواهید دید که این هیستوگرام کاملاً با دو مورد اول متفاوت است. بعداً وقتی استنتاج آماری انجام میدهیم، به راحتی میتوان این هیستوگرامها را با هم مخلوط کرد. بنابراین بسیار مهم است که به دقت درباره آنچه در آنجا می گذرد فکر کنید.
سوال 1: کدام نمودار داده های مشاهده شده را نشان میدهد

جواب: گزینه 2
سوال: کدام هیستوگرام توزیع نمونه را نشان میدهد؟

جواب: گزینه 3
سوال: کدام هیستوگرام نشان میدهد که شانس شبیه سازی چقدر است؟

جواب: گزینه 1
The Law of Large Numbers
قانون جذر به این معنی است که با افزایش حجم نمونه، خطای استاندارد میانگین نمونه کاهش می یابد.
این بدان معناست که اگر حجم نمونه به اندازه کافی بزرگ باشد، میانگین نمونه نزدیک به مقدار مورد انتظار mu خواهد بود.
این قانون معروف اعداد بزرگ است.
پس در نظر داشته باشید که قانون اعداد بزرگ فقط برای میانگین ها و درصد ها اعمال می شود، اما برای مجموع ها اعمال نمی شود.
زیرا دیدیم که با افزایش حجم نمونه، خطای استاندارد جمع بالا می رود.
همچنین، ما باید نمونهبرداری را با جایگزینی از یک جمعیت انجام دهیم، یا دادهها را با کامپیوتر از یک هیستوگرام احتمال شبیهسازی کنیم.
نسخههای پیچیدهتر قانون اعداد بزرگ در واقع بیان میکنند که کل هیستوگرام تجربی دادهها، که دومین هیستوگرام در بین سه موردی است که قبلاً در نظر گرفتیم، به هیستوگرام احتمال نزدیک است اگر اندازه نمونه به اندازه کافی بزرگ باشد.
سوال

نکته: خطای میانگین کاهش می یابد اما خطای جمع افزایش می یابد.
***
قضیه حد مرکزی یا The Central Limit Theorem
حالا بیایید به بازی آنلاین برگردیم، که قبلاً در نظر گرفتیم که در آن یک جایزه کوچک با احتمال 0.2 برنده میشوید.
ما n بار بازی میکنیم و تعداد جایزه های کوچک را میشماریم و آن را یک متغیر تصادفی X می نامیم.
در آن زمان دیدیم که X توزیع دوجملهای(برنده شدن جایزه کوچک یا برنده نشدن جایزه کوچک) با p = 0.2 دارد.
در اینجا برخی از هیستوگرام های احتمال برای آن توزیع دوجمله ای وجود دارد. اگر n=1 باشد، می بینیم که یک هیستوگرام بسیار اریب است، و برای n=10 همچنان یک دم راست بلند دارد.

و برای n=10 همچنان یک دم راست بلند دارد.

اما برای n = 50، کل چیز تقریباً شبیه یک منحنی معمولی است.

این مثالی از قضیه حد مرکزی معروف است.
میگوید

وقتی با جایگزینی نمونهبرداری میکنیم و n بزرگ است، توزیع نمونهگیری میانگین نمونه، یا مجموع یا درصد تقریباً از منحنی نرمال پیروی میکند. یعنی ما می توانیم از تقریب معمولی برای محاسبه احتمالات استفاده کنیم.
برای استاندارد کردن، مقدار مورد انتظار یا expected value را کم کرده و بر خطای استاندارد SE آن تقسیم می کنیم.
نام قضیه حد مرکزی از این واقعیت ناشی می شود که در نظریه آماری جایگاه مرکزی دارد.
دلیل اهمیت قضیه حد مرکزی این است که نشان می دهد آماره بدون توجه به هیستوگرام جمعیتی دارای توزیع نرمال است.
سوال:

جواب: true
***
بیایید به توزیع درآمد سالانه خانوارها در ایالات متحده نگاه کنیم.

دیدیم که این توزیع بسیار به سمت چپ منحرف شده است.
بنابراین بسیار دور از حالت Normalاست.
میانگین درآمد خانوار 67000 دلار و انحراف معیار 38000 دلار بود.
بنابراین، اگر n درآمد را به طور تصادفی از بین همه خانوارها نمونه برداری کنیم، آنگاه می دانیم که میانگین نمونه از منحنی نرمال پیروی می کند، حتی اگر هیستوگرام خود درآمدها از نرمال فاصله زیادی داشته باشد. (جالبه)
و برای انجام normal approximation ، باید مقدار مورد انتظار آمار (expected value) را کم کنیم، که در این مورد میانگین همه درآمدها، یعنی 67000 دلار است (انتظار ما این است که مقادیر انتخاب شده برابر میانگین باشد که انتظار بیهوده و باطل و بیجایی هم نیست). و سپس باید بر خطای استاندارد SE آماره تقسیم کنیم و…

مثلاً 100 مورد درآمد را در نظر بگیریم. اگر n=100 باشد، جذر n برابر با 10 است و بنابراین خطای استاندارد برابر با 3800 دلار است.

قضیه حد مرکزی می گوید که میانگین نمونه از منحنی نرمال با مرکزیت 67000 دلار و با خطای استاندارد 3800 دلار پیروی می کند. یعنی در نمودار زیر عدد وسط برابر با 67000 که همان میانگین میباشد، است.

بنابر با استناد به قانون empirical ، اگر به اندازه یک خطای استاندارد(یعنی 3800 تا) بالاتر از حد میانگین (یعنی 67000 ) برویم، 16 درصد احتمال دارد که مقدار درآمد تصادفی انتخاب شده، بالاتر از آن عدد قرار بگیریم.
و یک خطای استاندارد بالاتر از حد متوسط دقیقاً برابر 70800 دلار است.
به عبارت دیگر 100-32=68 درصد افراد جامعه ، درآمدشان در بازه63200 تا70800 قرار میگیرد.
***
بیایید به مثال خود در مورد بازی آنلاین بازگردیم.
ما n بازی انجام دادیم و به تعداد جوایز کوچکی را با X نشان دادیم.
به یاد داشته باشید که هنگام شمارش چیزها، از برچسبهایی استفاده میکنیم که 0 و 1 روی آنها وجود دارد.
در این صورت، هر بار که یک جایزه کوچک می آید، به آن برچسب 1 می دهیم و 0 به بقیه چیزها می رود.
یعنی تعداد جوایز کوچک به سادگی با مجموع این برچسب ها برابری می کند.
و از آنجایی که ما اکنون به جمع نگاه می کنیم، می توانیم از قضیه حد مرکزی استفاده کنیم.
برای اعمال تقریب نرمال، باید میانگین و خطای استاندارد x را پیدا کنیم. (میانگین و خطای استاندارد)
بنابراین به یاد داشته باشید که وقتی شبیه سازی ها را بررسی کردیم، فرمول هایی برای مقدار مورد انتظار(expected value) و خطای استاندارد SE داشتیم.
و اگر به مباحث گذشته نگاه کنیم، متوجه خواهیم شد که در این مورد mu = p یعنی احتمال برابر با میانگین است(برای مثال در توزیع دو جمله ای پرتاب سکه میانگین شیر آمدن با احتمال شیر آمدن یکی و برابر 50 درصد است ). و سیگما از مقدار زیر بدست می آید:

این فرمول یک بازی بود. اکنون ما به جمع n بازی نگاه می کنیم و فرمول هایی برای مقدار مورد انتظارEV و خطای استاندارSE داشتیم و این فرمول ها نشان می دهد که مقدار مورد انتظار به شرح زیر است:

و به یاد داشته باشید، هنگامی که در مورد توزیع دوجمله ای صحبت می کردیم، همین مورد را پیدا کردیم.
When does the Central Limit Theorem Apply?
بیایید الزامات اصلی برای اعمال قضیه حد مرکزی را فهرست کنیم.
1- ابتدا باید با جایگزینی نمونه برداری کنیم یا باید متغیرهای تصادفی مستقل را از همان توزیع شبیه سازی کنیم. به نظر می رسد که در واقع قضایای حد مرکزی نیز برای نمونه برداری بدون جایگزینی وجود دارد. و در هر صورت می دانیم که اگر حجم نمونه بسیار کوچکتر از حجم جامعه باشد، نمونه گیری بدون جایگزینی تقریباً مشابه نمونه با جایگزینی است. و بنابراین، همه چیز درست می شود.
2- دومین شرط مهم این است که آماری که ما به آن نگاه می کنیم باید یک جمع باشد. و به یاد داشته باشید که میانگین ها و درصدها اساساً پس از ضرب حاصل جمع هستند.
3- در نهایت، حجم نمونه باید به اندازه کافی بزرگ باشد. قاعده کلی این است که هر چه هیستوگرام جمعیت زیربنایی منحرف تر باشد، حجم نمونه مورد نیاز n بزرگتر است. به نظر می رسد که اگر چولگی قوی وجود نداشته باشد، اندازه نمونه به تعداد 15 کافی خواهد بود. برای چولگی های بسیار منحرف، ممکن است به اندازه نمونه حداقل 40 نیاز داشته باشیم.
پ ن : آمار علم جذاب و زیبایی است
