Библиотека за управление

Въведение в статистиката

Извадки от учебника на StatSoft

Елементарни концепции за статистиката

Преглед на елементарните концепции за статистиката. Това въведение е кратко обсъждане на елементарните понятия, които са в основата на всяка процедура за анализ на статистически данни. Избрахме теми, които илюстрират основните предположения на повечето статистически методи, предназначени да разберат "числената природа" на реалността (Nisbett, et al., 1987). Ние се съсредоточаваме върху "функционалните" аспекти на обсъжданите понятия, като знаем, че предложеното описание е кратко и не може да изчерпи целия предмет. По-подробна информация може да се намери в уводните раздели и раздели на примерите в наръчника за употреба на STATISTICA , както и в учебниците по статистика. Препоръчваме следните учебници: Kachigan (1986) и Runyon and Haber (1976); За задълбочено обсъждане на елементарната теория и основните понятия за статистиката вж. Класическата книга Кендъл и Стюарт (1979) ("Теория на разпределенията", том 1), "Статистически изводи и връзки" (том 2) Многовариантен статистически анализ "(том 3)). На руски вижте например книга: VP Borovikov "Популярно въведение в програмата STATISTICA", Computer Press 1998, което дава популярно описание на основните статистически концепции.


  • Изследване на зависимости в сравнение с експериментални изследвания
  • Измервателни везни
  • Защо зависимостта между променливите е важна
  • Каква е статистическата значимост (р-ниво)
  • Статистическа значимост и брой извършени анализи
  • Защо по-силните зависимости между променливите са по-значими
  • Пример: "съотношението между броя на момчетата и броя на момичетата"
  • Възможно ли е да се отчете липсата на връзки като значителен резултат?
  • Общият дизайн на повечето статистически тестове
  • Защо е важно нормалното разпределение?
  • Всички статистически данни за критериите обикновено се разпределят?
  • Какви са променливите? Променливи са това, което може да бъде измерено, наблюдавано или какво може да се промени в научните изследвания. Променливите се различават в много аспекти, особено ролята, която те играят в изследванията, мащаба на измерването и т.н.



    Изследване на зависимости в сравнение с експериментални изследвания. Повечето емпирични данни от изследването могат да бъдат приписани на един от тези типове. В изследването на взаимовръзките (зависимости, връзки ...) не влияете (или поне се опитвате да не повлиявате) на променливите, а само ги измервате и искате да намерите корелации между някои измерени променливи, например между кръвното налягане и Нивото на холестерола. В експерименталните проучвания, напротив, можете да промените някои променливи и да измерите ефекта от тези промени върху други променливи. Например изследователят може изкуствено да увеличи кръвното налягане и след това при определени нива на налягане да измерва нивото на холестерола. Анализът на данните в експерименталното изследване също така се отнася до изчисляването на "корелациите" (зависимостите) между променливите, а именно между променливите, които са засегнати, и променливите, засегнати от този ефект. Въпреки това експерименталните данни потенциално ни дават по-добра информация. Само експериментално е възможно убедително да се докаже причинно-следствената връзка между променливите. Например, ако се установи, че когато променливата А се променя, променливата В също се променя, тогава можем да заключим, че "променливата А влияе на променлива B" между променливите А и Б има причинно-следствена връзка. Резултатите от изследването на корелацията могат да бъдат интерпретирани в причинно-следствени основания на базата на някои теории, но сами по себе си не могат ясно да докажат причинно-следствената връзка.



    Зависими и независими променливи. Независимите променливи са променливи, които се изменят от изследователя, докато зависимите променливи са променливи, които се измерват или записват. Може да изглежда, че носенето на тази разлика създава объркване в терминологията, както някои ученици казват "всички променливи зависят от нещо". Обаче, след като ясно осъществите това разграничение, ще разберете неговата необходимост. Термините зависими и независими променливи се използват предимно в експерименталните изследвания, където експериментаторът манипулира някои променливи и в този смисъл те са "независими" от реакции, свойства, намерения и т.н. присъщи на изследователските обекти. Някои други променливи трябва да "зависят" от действията на експериментатора или от експериментални условия. С други думи, зависимостта се проявява в отговора на обекта, който е обект на проучването, на въздействието, което му е изпратено. Част от противоречието с това разграничение на понятията е използването им в проучвания, при които не променяте независими променливи, а приписвате обекти само на "експериментални групи", основани на някои от техните свойства a priori. Например, ако в един експеримент мъжете се сравняват с жените по отношение на броя на белите кръвни клетки, съдържащи се в кръвта, тогава Павел може да се нарече независима променлива, а WCC е зависима променлива.



    Везни за измерване. Променливите също се различават по това, как "добре" те могат да бъдат измерени или, с други думи, колко измерена информация се предоставя от мащаба на тяхното измерване. Очевидно във всяко измерение има известна грешка, която определя границите на "количеството информация", което може да се получи в това измерение. Друг фактор, който определя количеството информация, съдържаща се в дадена променлива, е типа на скалата, в която се извършва измерването. Съществуват следните типове скали: (a) номинална, (b) поредна (равна), (в) интервал (d) относителна (скала на съотношението). Съответно имаме четири вида променливи: (a) номинален, (b) ordinal (ordinal), (c) интервал и (d) относителен.

    1. Номиналните променливи се използват само за качествена класификация. Това означава, че тези променливи могат да бъдат измерени само по отношение на принадлежност към някои, по същество различни класове; докато не можете да определите номера или да поръчате тези класове. Например, можете да кажете, че 2 индивида се различават по отношение на променлива А (например индивидите принадлежат към различни националности). Типични примери за номиналните променливи са пол, националност, цвят, град и др. Често номиналните променливи се наричат ​​категорични.
    2. Ординалните променливи позволяват да се класират обекти, като се посочва кое от тях има повече или по-малко качество, изразено от дадена променлива. Те обаче не позволяват да казват "колко повече" или "колко по-малко". Ординалните променливи понякога се наричат ​​също така наречени "ordinal". Типичен пример за кориндовата променлива е социално-икономическият статус на семейството. Разбираме, че горното средно ниво е над средното, но да кажем, че разликата между тях е, да речем, 18%, не можем. Самата подредба на везните в следния ред: номинален, редовен, интервал е добър пример за коефициент.
    3. Интервалните променливи позволяват не само да се подредят обекти на измерване, но и да се изрази цифрово и да се сравняват разликите между тях. Например температурата, измерена в градуси по Фаренхайт или Целзий, представлява интервал. Не само може да се каже, че температурата е с 40 градуса по-висока от температурата от 30 градуса, но температурата се увеличава от 20 до 40 градуса, което е два пъти увеличението на температурата от 30 до 40 градуса.
    4. Относителните променливи са много подобни на интервалните променливи. В допълнение към всички свойства на променливите, измерени в интервалната скала, тяхната характеристика е наличието на определена абсолютна нулева точка, така че за тези променливи са валидни предложения от типа: x е два пъти по-голям от y. Типични примери за относителни скали са измервания на време или пространство. Например, температурата на Келвин формира относителна скала, а не само, че температурата е с 200 градуса по-висока от 100 градуса, но е два пъти по-висока. Интервалните скали (например скалата на Целзий) нямат тази собственост на съотношението скала. Обърнете внимание, че в повечето статистически процедури не се прави разлика между свойствата на интервалните скали и мащабите на отношенията.



    Връзки между променливите. Независимо от типа, две или повече променливи са свързани (зависими) помежду си, ако наблюдаваните стойности на тези променливи са разпределени по последователен начин. С други думи, казваме, че променливите са зависими, ако техните ценности са систематично координирани един с друг в нашите наблюдения. Например, променливите Sex and WCC (броя на белите кръвни клетки) могат да се считат за зависими, ако повечето мъже имат високо ниво на WCC, а повечето жени имат ниска WCC или обратно. Растежът е свързан с теглото, тъй като обикновено високите индивиди са по-тежки от ниските; IQ (интелигентният фактор) се свързва с броя грешки в теста, защото Хората с висока стойност на интелигентност правят по-малко грешки и т.н.



    Защо зависимостта между променливите е важна. Най-общо казано, крайната цел на всеки изследователски или научен анализ е да се намерят зависимости между променливите. Философията на науката учи, че няма друг начин за представяне на знанието, освен по отношение на зависимостите между количества или качества, изразени от някакви променливи. По този начин развитието на науката винаги се състои в намирането на нови връзки между променливите. Разследването на корелациите е по същество директно измерване на такива зависимости. Независимо от това експерименталните изследвания не са нещо различно в този смисъл. Например, горепосоченото експериментално сравнение на СУК при мъжете и жените може да бъде описано като търсене на връзка между променливите: Павел и ССС. Целта на статистиката е да подпомогне обективната оценка на зависимостите между променливите. Наистина, всички стотици процедури, описани в това ръководство, могат да бъдат интерпретирани по отношение на оценката на различните типове връзки между променливите.



    Двете основни характеристики на зависимостта между променливите. Съществуват две много прости свойства на връзката между променливите: (а) величината на зависимостта и (б) надеждността на зависимостта.

    1. Стойността. Размерът на зависимостта е по-лесен за разбиране и измерване, отколкото за надеждност. Например, ако някой от вашата извадка е имал стойност на WCC по-висока от която и да е жена, тогава можете да кажете, че връзката между двете променливи (Paul и WCC) е много висока. С други думи, можете да предскажете стойностите на една променлива от стойностите на другата.
    2. Надеждност ("истината"). Надеждността на взаимозависимостта е по-малко очевидна концепция от мащаба на зависимостта, но изключително важна. Надеждността на зависимостта е пряко свързана с представителността на конкретна извадка, въз основа на която се правят изводи. С други думи, надеждността ни показва колко вероятно е зависимостта като тази, която открихте, отново да бъде намерена (с други думи, потвърдена) на данните от друга извадка, извлечена от същата популация. Трябва да се помни, че крайната цел почти никога не е да изследва тази конкретна извадка; Извадката представлява интерес само дотолкова, доколкото предоставя информация за цялото население. Ако вашето изследване удовлетворява определени специални критерии (както ще бъде обсъдено по-нататък), надеждността на зависимостите, установени между променливите във Вашата проба, може да бъде количествено определена и представена чрез стандартна статистическа мярка (наречена р-ниво или статистическо ниво на значимост, за повече подробности вижте следващия раздел) ,



    Каква е статистическата значимост (р-ниво)? Статистическата значимост на резултата е прогнозна мярка за доверие в нейната "истина" (в смисъл на "представително вземане на проби"). По-технически, р-нивото (този термин се използва за пръв път в Brownlee, 1960) е показател, който намалява зависимостта от надеждността на резултата. По-високото р-ниво съответства на по-ниско ниво на доверие във връзката между променливите, открити в пробата. По-конкретно, р-нивото е вероятността от грешка, свързана с разпространението на наблюдавания резултат за цялата популация. Например, р-нивото = .05 (т.е. 1/20) показва, че има 5% вероятност връзката намерена в пробата да е само случайна характеристика на пробата. С други думи, ако дадена зависимост в населението отсъства и вие многократно извършвате подобни експерименти, тогава в около една от двадесетте повторения на експеримента може да се очаква една и съща или по-силна зависимост между променливите. (Обърнете внимание, че това не е същото като да се каже, че съществува известна зависимост между променливите, които могат да бъдат възпроизведени средно в 5% или 95% от случаите, когато има връзка между променливите на популацията, вероятността от повтаряне на резултатите от изследването, статистическата мощ на плана.За повече информация вижте секцията Power Analysis.) В много изследвания, .05 p-нивото се разглежда като "приемлив марж" за нивото на грешката.



    Как да определите дали резултатът е наистина смислен. Няма начин да избегнем произвола при вземането на решение за това какво ниво на значимост наистина трябва да се счита за "значимо". Изборът на определено ниво на значимост, над който резултатите се отхвърлят като неверни, е доста произволно. На практика окончателното решение обикновено зависи от това дали резултатът е предсказан a priori (т.е. преди експеримента) или е бил открит a posteriori в резултат на много анализи и сравнения, извършени с различни данни, както и на традицията, налична в тази област на изследване. Обикновено в много области резултатът от стр .05 е приемлив марж за статистическа значимост, но трябва да се има предвид, че това ниво все още включва доста висока вероятност за грешка (5%). Резултатите са значителни на ниво р .01 обикновено се считат за статистически значими, а резултатите са с ниво p .005 или стр , 001 като изключително важно. Трябва обаче да се разбере, че тази класификация на нивата на значимост е доста произволна и е просто неформално споразумение, прието въз основа на практическия опит в тази или тази област на научните изследвания.



    Статистическа значимост и брой извършени анализи. Ясно е, че колкото повече анализи изпълнявате при събирането на събраните данни, толкова по-значими резултати (на избраното ниво) ще бъдат намерени само случайно. Например, ако изчислите корелации между 10 променливи (имате 45 различни коефициента на корелация), можете да очаквате, че приблизително два коефициента на корелация (един на всеки 20) ще бъдат чисто случайни на нивото p .05, дори ако променливите са напълно случайни и несвързани в популацията. Някои статистически методи, които включват много сравнения и по този начин имат добри шансове да повтарят този вид грешка, дават специална корекция или корекция за общия брой сравнения. Независимо от това, много статистически методи (особено прости методи на проучвателен анализ на данните) не предлагат никакъв начин за решаване на този проблем. Ето защо изследователят трябва внимателно да оцени надеждността на неочакваните резултати.



    Мащабът на връзката между променливите в сравнение с надеждността на зависимостта. Както вече беше споменато, величината на зависимост и надеждност представляват две различни характеристики на зависимостите между променливите. Въпреки това не можем да кажем, че те са напълно независими. Обикновено, колкото по-голяма е величината на връзката (връзката) между променливите в пробата с обикновен обем, толкова по-надеждна е тя (вижте следващия раздел).



    Защо по-силните зависимости между променливите са по-значими. Ако се приеме, че няма съответствия между съответните променливи в популацията, най-вероятно е да се очаква, че в изследваната проба връзката между тези променливи няма да присъства. Таким образом, чем более сильная зависимость обнаружена в выборке, тем менее вероятно, что этой зависимости нет в популяции, из которой она извлечена. Как вы видите, величина зависимости и значимость тесно связаны между собой, и можно было бы попытаться вывести значимость из величины зависимости и наоборот. Однако указанная связь между зависимостью и значимостью имеет место только при фиксированном объеме выборки, поскольку при различных объемах выборки одна и та же зависимость может оказаться как высоко значимой, так и незначимой вовсе (см. следующий раздел)



    Почему объем выборки влияет на значимость зависимости. Если наблюдений мало, то соответственно имеется мало возможных комбинаций значений этих переменных и таким образом, вероятность случайного обнаружения комбинации значений, показывающих сильную зависимость, относительно велика. Рассмотрим следующий пример. Если вы исследуете зависимость двух переменных (Пол: мужчина/женщина и WCC: высокий/низкий) и имеете только 4 субъекта в выборке (2 мужчины и 2 женщины), то вероятность того, что чисто случайно вы найдете 100% зависимость между двумя переменными равна 1/8. Более точно, вероятность того, что оба мужчины имеют высокий WCC, а обе женщины - низкий WCC, или наоборот, - равна 1/8. Теперь рассмотрим вероятность подобного совпадения для 100 субъектов; легко видеть, что эта вероятность равна практически нулю. Рассмотрим более общий пример. Представим популяцию, в которой среднее значение WCC мужчин и женщин одно и тоже. Если вы будете повторять эксперимент, состоящий в извлечении пары случайных выборок (одна выборка - мужчины, другая выборка - женщины), а затем вычислите разности выборочных средних WCC для каждой пары выборок, то в большинстве экспериментов результат будет близок к 0. Однако время от времени, будут встречаться пары выборок, в которых различие между средним количеством лейкоцитов у мужчин и женщин будет существенно отличаться от 0. Как часто это будет происходить? Очевидно, чем меньше объем выборки в каждом эксперименте, тем более вероятно появление таких ложных результатов, которые показывают существование зависимости между полом и WCC в данных, полученных из популяции, где такая зависимость на самом деле отсутствует.



    Пример: "отношение числа новорожденных мальчиков к числу новорожденных девочек" Рассмотрим следующий пример, заимствованный из Nisbett, et al., 1987. Имеются 2 больницы. Предположим, что в первой из них ежедневно рождается 120 детей, во второй только 12. В среднем отношение числа мальчиков, рождающихся в каждой больнице, к числу девочек 50/50. Однажды девочек родилось вдвое больше, чем мальчиков. Спрашивается, для какой больницы данное событие более вероятно? Ответ очевиден для статистика, однако, он не столь очевиден неискушенному. Конечно, такое событие гораздо более вероятно для маленькой больницы. Объяснение этого факта состоит в том, что вероятность случайного отклонения (от среднего) возрастает с уменьшением объема выборки.



    Почему слабые связи могут быть значимо доказаны только на больших выборках. Пример из предыдущего раздела показывает, что если связь между переменными "объективно" слабая (т.е. свойства выборки близки к свойствам популяции), то не существует иного способа проверить такую зависимость кроме как исследовать выборку достаточно большого объема. Даже если выборка, находящаяся в вашем распоряжении, совершенно репрезентативна, эффект не будет статистически значимым, если выборка мала. Аналогично, если зависимость "объективно" (в популяции) очень сильная, тогда она может быть обнаружена с высокой степенью значимости даже на очень маленькой выборке. Рассмотрим пример. Представьте, что вы бросаете монету. Если монета слегка несимметрична, и при подбрасывании орел выпадает чаще решки (например, в 60% подбрасываний выпадает орел, а в 40% решка), то 10 подбрасываний монеты было бы не достаточно, чтобы убедить кого бы то ни было, что монета асимметрична, даже если был бы получен, казалось, совершенно репрезентативный результат: 6 орлов и 4 решки. Не следует ли отсюда, что 10 подбрасываний вообще не могут доказать что-либо? Нет, не следует, потому что если эффект, в принципе, очень сильный, то 10 подбрасываний может оказаться вполне достаточно для его доказательства. Представьте, что монета настолько несимметрична, что всякий раз, когда вы ее бросаете, выпадает орел. Если вы бросаете такую монету 10 раз, и всякий раз выпадает орел, большинство людей сочтут это убедительным доказательством того, что с монетой что-то не то. Другими словами, это послужило бы убедительным доказательством того, что в популяции, состоящей из бесконечного числа подбрасываний этой монеты орел будет встречаться чаще, чем решка. В итоге этих рассуждений мы приходим к выводу: если зависимость сильная, она может быть обнаружена с высоким уровнем значимости даже на малой выборке.



    Можно ли отсутствие связей рассматривать как значимый результат? Чем слабее зависимость между переменными, тем большего объема требуется выборка, чтобы значимо ее обнаружить. Представьте, как много бросков монеты необходимо сделать, чтобы доказать, что отклонение от равной вероятности выпадения орла и решки составляет только .000001%! Необходимый минимальный размер выборки возрастает, когда степень эффекта, который нужно доказать, убывает. Когда эффект близок к 0, необходимый объем выборки для его отчетливого доказательства приближается к бесконечности. Другими словами, если зависимость между переменными почти отсутствует, объем выборки, необходимый для значимого обнаружения зависимости, почти равен объему всей популяции, который предполагается бесконечным. Статистическая значимость представляет вероятность того, что подобный результат был бы получен при проверке всей популяции в целом. Таким образом, все, что получено после тестирования всей популяции было бы, по определению, значимым на наивысшем, возможном уровне и это относится ко всем результатам типа "нет зависимости".



    Как измерить величину зависимости между переменными. Статистиками разработано много различных мер взаимосвязи между переменными. Выбор определенной меры в конкретном исследовании зависит от числа переменных, используемых шкал измерения, природы зависимостей и т.д. Большинство этих мер, тем не менее, подчиняются общему принципу: они пытаются оценить наблюдаемую зависимость, сравнивая ее с "максимальной мыслимой зависимостью" между рассматриваемыми переменными. Говоря технически, обычный способ выполнить такие оценки заключается в том, чтобы посмотреть как варьируются значения переменных и затем подсчитать, какую часть всей имеющейся вариации можно объяснить наличием "общей" ("совместной") вариации двух (или более) переменных. Говоря менее техническим языком, вы сравниваете то "что есть общего в этих переменных", с тем "что потенциально было бы у них общего, если бы переменные были абсолютно зависимы". Рассмотрим простой пример. Пусть в вашей выборке, средний показатель (число лейкоцитов) WCC равен 100 для мужчин и 102 для женщин. Следовательно, вы могли бы сказать, что отклонение каждого индивидуального значения от общего среднего (101) содержит компоненту связанную с полом субъекта и средняя величина ее равна 1. Это значение, таким образом, представляет некоторую меру связи между переменными Пол и WCC. Конечно, это очень бедная мера зависимости, так как она не дает никакой информации о том, насколько велика эта связь, скажем относительно общего изменения значений WCC. Рассмотрим крайние возможности:

    1. Если все значения WCC у мужчин были бы точно равны 100, а у женщин 102, то все отклонения значений от общего среднего в выборке всецело объяснялись бы полом индивидуума. Поэтому вы могли бы сказать, что пол абсолютно коррелирован (связан) с WCC, иными словами, 100% наблюдаемых различий между субъектами в значениях WCC объясняются полом субъектов.
    2. Если же значения WCC лежат в пределах 0-1000, то та же разность (2) между средними значениями WCC мужчин и женщин, обнаруженная в эксперименте, составляла бы столь малую долю общей вариации, что полученное различие (2) считалось бы пренебрежимо малым. Рассмотрение еще одного субъекта могло бы изменить разность или даже изменить ее знак. Поэтому всякая хорошая мера зависимости должна принимать во внимание полную изменчивость индивидуальных значений в выборке и оценивать зависимость по тому, насколько эта изменчивость объясняется изучаемой зависимостью.



    Общая конструкция большинства статистических критериев. Так как конечная цель большинства статистических критериев (тестов) состоит в оценивании зависимости между переменными, большинство статистических тестов следуют общему принципу, объясненному в предыдущем разделе. Говоря техническим языком, эти тесты представляют собой отношение изменчивости, общей для рассматриваемых переменных, к полной изменчивости. Например, такой тест может представлять собой отношение той части изменчивости WCC, которая определяется полом, к полной изменчивости WCC (вычисленной для объединенной выборки мужчин и женщин). Это отношение обычно называется отношением объясненной вариации к полной вариации. В статистике термин объясненная вариация не обязательно означает, что вы даете ей "теоретическое объяснение". Он используется только для обозначения общей вариации рассматриваемых переменных, иными словами, для указания на то, что часть вариации одной переменной "объясняется" определенными значениями другой переменной и наоборот.



    Как вычисляется уровень статистической значимости. Предположим, вы уже вычислили меру зависимости между двумя переменными (как объяснялось выше). Следующий вопрос, стоящий перед вами: "насколько значима эта зависимость?" Например, является ли 40% объясненной дисперсии между двумя переменными достаточным, чтобы считать зависимость значимой? Ответ: "в зависимости от обстоятельств". Именно, значимость зависит в основном от объема выборки. Как уже объяснялось, в очень больших выборках даже очень слабые зависимости между переменными будут значимыми, в то время как в малых выборках даже очень сильные зависимости не являются надежными. Таким образом, для того чтобы определить уровень статистической значимости, вам нужна функция, которая представляла бы зависимость между "величиной" и "значимостью" зависимости между переменными для каждого объема выборки. Данная функция указала бы вам точно "насколько вероятно получить зависимость данной величины (или больше) в выборке данного объема, в предположении, что в популяции такой зависимости нет". Другими словами, эта функция давала бы уровень значимости (p -уровень), и, следовательно, вероятность ошибочно отклонить предположение об отсутствии данной зависимости в популяции. Эта "альтернативная" гипотеза (состоящая в том, что нет зависимости в популяции) обычно называется нулевой гипотезой. Было бы идеально, если бы функция, вычисляющая вероятность ошибки, была линейной и имела только различные наклоны для разных объемов выборки. К сожалению, эта функция существенно более сложная и не всегда точно одна и та же. Тем не менее, в большинстве случаев ее форма известна, и ее можно использовать для определения уровней значимости при исследовании выборок заданного размера. Большинство этих функций связано с очень важным классом распределений, называемым нормальным.



    Почему важно Нормальное распределение. Нормальное распределение важно по многим причинам. В большинстве случаев оно является хорошим приближением функций, определенных в предыдущем разделе (более подробное описание см. в разделе Все ли статистики критериев нормально распределены?). Распределение многих статистик является нормальным или может быть получено из нормальных с помощью некоторых преобразований. Рассуждая философски, можно сказать, что нормальное распределение представляет собой одну из эмпирически проверенных истин относительно общей природы действительности и его положение может рассматриваться как один из фундаментальных законов природы. Точная форма нормального распределения (характерная "колоколообразная кривая") определяется только двумя параметрами: средним и стандартным отклонением.

    Характерное свойство нормального распределения состоит в том, что 68% всех его наблюдений лежат в диапазоне ±1 стандартное отклонение от среднего, а диапазон ±2 стандартных отклонения содержит 95% значений. Другими словами, при нормальном распределении, стандартизованные наблюдения, меньшие -2 или большие +2, имеют относительную частоту менее 5% (Стандартизованное наблюдение означает, что из исходного значения вычтено среднее и результат поделен на стандартное отклонение (корень из дисперсии)). Если у вас имеется доступ к пакету STATISTICA , Вы можете вычислить точные значения вероят ностей, связанных с различными значениями нормального распределения, используя Вероятностный калькулятор; например, если задать z-значение (т.е. значение случайной величины, имеющей стандартное нормальное распределение) равным 4, соответствующий вероятностный уровень, вычисленный STATISTICA будет меньше .0001, поскольку при нормальном распределении практически все наблюдения (т.е. более 99.99%) попадут в диапазон ±4 стандартных отклонения.




    Иллюстрация того, как нормальное распределение используется в статистических рассуждениях (индукция). Напомним пример, обсуждавшийся выше, когда пары выборок мужчин и женщин выбирались из совокупности, в которой среднее значение WCC для мужчин и женщин было в точности одно и то же. Хотя наиболее вероятный результат таких экспериментов (одна пара выборок на эксперимент) состоит в том, что разность между средними WCC для мужчин и женщин для каждой пары близка к 0, время от время появляются пары выборок, в которых эта разность существенно отличается от 0. Как часто это происходит? Если объем выборок достаточно большой, то разности "нормально распределены" и зная форму нормальной кривой, вы можете точно рассчитать вероятность случайного получения результатов, представляющих различные уровни отклонения среднего от 0 - значения гипотетического для всей популяции. Если вычисленная вероятность настолько мала, что удовлетворяет принятому заранее уровню значимости, то можно сделать лишь один вывод: ваш результат лучше описывает свойства популяции, чем "нулевая гипотеза". Следует помнить, что нулевая гипотеза рассматривается только по техническим соображениям как начальная точка, с которой сопоставляются эмпирические результаты. Отметим, что все это рассуждение основано на предположении о нормальности распределения этих повторных выборок (т.е. нормальности выборочного распределения). Это предположение обсуждается в следующем разделе.



    Все ли статистики критериев нормально распределены? Не все, но большинство из них либо имеют нормальное распределение, либо имеют распределение, связанное с нормальным и вычисляемое на основе нормального, такое как t, F или хи-квадрат. Обычно эти критериальные статистики требуют, чтобы анализируемые переменные сами были нормально распределены в совокупности. Многие наблюдаемые переменные действительно нормально распределены, что является еще одним аргументом в пользу того, что нормальное распределение представляет "фундаментальный закон". Проблема может возникнуть, когда пытаются применить тесты, основанные на предположении нормальности, к данным, не являющимся нормальными (смотри критерии нормальности в разделах Непараметрическая статистика и распределения или Дисперсионный анализ). В этих случаях вы можете выбрать одно из двух. Во-первых, вы можете использовать альтернативные "непараметрические" тесты (так называемые "свободно распределенные критерии", см. раздел Непараметрическая статистика и распределения). Однако это часто неудобно, потому что обычно эти критерии имеют меньшую мощность и обладают меньшей гибкостью. Как альтернативу, во многих случаях вы можете все же использовать тесты, основанные на предположении нормальности, если уверены, что объем выборки достаточно велик. Последняя возможность основана на чрезвычайно важном принципе, позволяющем понять популярность тестов, основанных на нормальности. А именно, при возрастании объема выборки, форма выборочного распределения (т.е. распределение выборочной статистики критерия , этот термин был впервые использован в работе Фишера, Fisher 1928a) приближается к нормальной, даже если распределение исследуемых переменных не является нормальным. Этот принцип иллюстрируется следующим анимационным роликом, показывающим последовательность выборочных распределений (полученных для последовательности выборок возрастающего размера: 2, 5, 10, 15 и 30), соответствующих переменным с явно выраженным отклонением от нормальности, т.е. имеющих заметную асимметричность распределения.

    Однако по мере увеличения размера выборки, используемой для получения распределения выборочного среднего, это распределение приближается к нормальному. Отметим, что при размере выборки n=30, выборочное распределение "почти" нормально (см. на близость линии подгонки). Этот принцип называется центральной предельной теоремой (впервые этот термин был использован в работе Polya, 1920; по-немецки "Zentraler Grenzwertsatz").



    Как узнать последствия нарушений предположений нормальности? Хотя многие утверждения других разделов Элементарных понятий статистики можно доказать математически, некоторые из них не имеют теоретического обоснования и могут быть продемонстрированы только эмпирически, с помощью так называемых экспериментов Moнте-Кaрло. В этих экспериментах большое число выборок генерируется на компьютере, а результаты полученные из этих выборок, анализируются с помощью различных тестов. Этим способом можно эмпирически оценить тип и величину ошибок или смещений, которые вы получаете, когда нарушаются определенные теоретические предположения тестов, используемых вами. Исследования с помощью методов Монте- Карло интенсивно использовались для того, чтобы оценить, насколько тесты, основанные на предположении нормальности, чувствительны к различным нарушениям предположений нормальности. Общий вывод этих исследований состоит в том, что последствия нарушения предположения нормальности менее фатальны, чем первоначально предполагалось. Хотя эти выводы не означают, что предположения нормальности можно игнорировать, они увеличили общую популярность тестов, основанных на нормальном распределении.