Скритият ред на случайността: защо камбановидните криви са навсякъде

Защо камбановидните криви са навсякъде — централната гранична теорема | Д-р Атанас Илчев
📞 Онлайн уроци по математика за цялата страна гл.ас. д-р Атанас Илчев Индивидуални и групови уроци • Тел: 0883 375 433 Подготовка за НВО, ДЗИ, кандидатстудентски изпити 📞 Онлайн уроци по математика за цялата страна гл.ас. д-р Атанас Илчев Индивидуални и групови уроци • Тел: 0883 375 433 Подготовка за НВО, ДЗИ, кандидатстудентски изпити
★ Интересно от математиката

Защо камбановидните криви
са навсякъде около нас?

Покажете на 100 души буркан с бонбони и ги помолете да познаят колко има — нанесете отговорите на графика и ще видите приблизително камбановидна форма, центрирана около истинския брой. Измерете ръста на достатъчно хора, резултатите от матурата, времето за маратон, грешките при физически измервания — в много случаи ще получите приблизително същата гладка, симетрична форма. Защо? Отговорът е в една теорема, която започва като трик за хазартни играчи и се превръща в една от носещите идеи на съвременната емпирична наука.

Д-р Атанас Илчев Поредица: Интересно от математиката По материал от Quanta Magazine
1718
г. — излиза „Доктрина на вероятностите"; 1733/1756 — де Моавър разгръща нормалната апроксимация
1812
г. — Лаплас публикува „Théorie analytique des probabilités" с общата формула
~95%
от резултатите при хвърляне на монета 100 пъти падат между 40 и 60 ези (биномиална вероятност)
Колкото повече наблюдения участват в средната стойност, толкова по-добра е нормалната апроксимация

Изненадващата закономерност

Камбановидната крива се появява изненадващо често. Не навсякъде и не безусловно, но в огромен брой измервания, оценки и усреднения тя се оказва естествената статистическа форма. Измерете ръста на достатъчно хора, резултатите от матурата, времето за пробягване на маратон, грешките при физически измервания — в много случаи ще получите приблизително същата гладка, симетрична форма с висок връх в средата и плавно спускащи се краища.

Важно е веднага да направим едно разграничение: отделните наблюдения може изобщо да не са нормално разпределени, но средната стойност от много независими наблюдения често е приблизително нормална. Именно това е сърцевината на теоремата — и именно затова е толкова неинтуитивна.

Защо се случва това? Отговорът е централната гранична теорема — математическа истина, толкова мощна, че новодошлите в математиката често я приемат за невъзможна, за неочаквана закономерност. „Централната гранична теорема е доста поразителна, защото е толкова неинтуитивна и изненадваща" — казва Даниела Уитен, биостатистик от Университета на Вашингтон. Чрез нея най-хаотичната случайност може да доведе до поразителна предсказуемост.

„Не мисля, че областта на статистиката би съществувала без централната гранична теорема. Тя е всичко." — Лари Уасерман, статистик от Университета Карнеги Мелон

Тази теорема е един от стълбовете, върху които почива голяма част от съвременната емпирична наука. Почти всеки път, когато учен използва измервания, за да изведе нещо за света, централната гранична теорема е скрита някъде в методологията. Без нея науката трудно би могла да твърди нещо с каквато и да е увереност. Тя е толкова дълбоко вградена в научната практика, че мнозина учени я прилагат всеки ден, без дори да се замислят откъде идва и защо работи.

−3σ −2σ −1σ μ +1σ +2σ +3σ 68% в рамките на ±1σ 68% (±1σ) 95% (±2σ) 68% 95% 99,7%
Нормалното разпределение и правилото „три сигма" — 68%, 95% и 99,7% от данните попадат съответно в рамките на ±1σ, ±2σ и ±3σ от средната стойност μ

От хазарта към теорията

Не е изненадващо, че тласъкът за намиране на закономерност в хаоса идва от изучаването на хазарта. В кафенетата на Лондон от началото на XVIII век математическите таланти на Абрахам де Моавър (1667–1754) са очевидни за всеки. Много от съвременниците му — включително Исак Нютон и Едмунд Халей — признават блясъка му. Де Моавър е член на Кралското дружество, но е и бежанец — французин, избягал от родината си като млад мъж след отмяната на Нантския едикт (1685), когато протестантите са подложени на жестоки преследвания. Като чужденец не може да получи стабилна академична позиция, каквато би подобавала на таланта му.

За да плаща сметките си, той се превръща в консултант на хазартни играчи, търсещи математическо предимство. Провежда неофициални „приемни часове" в прочутото кафене Old Slaughter's в лондонския Сохо — люлката на интелектуалния живот на онова време — и пише книга, наречена The Doctrine of Chances (Доктрина на вероятностите, 1718) — първият учебник по теория на вероятностите, станал библия на хазартните играчи.

ⓘ Де Моавър и монетата
Де Моавър открил нещо наистина поразително: ако хвърляте монета 100 пъти и броите колко пъти пада ези, после повторите това хиляда пъти и нанесете резултатите на графика — получавате приблизително камбановидна форма с връх при 50. Той успял да изведе формулата на нормалното разпределение като апроксимация. По-точните биномиални вероятности показват: около 73% от резултатите падат между 45 и 55 ези, около 96% — между 40 и 60, а под 30 или над 70 е астрономически рядко. Числата 68%–95%–99,7% от правилото „три сигма" са свойство на идеалното нормално разпределение — при конкретното хвърляне на монета са само приближения.

Де Моавър гледал с почти религиозно възхищение на „непоколебимия ред на вселената", който в крайна сметка побеждавал всякакви отклонения от камбаната. В книгата си пише: „С течение на времето тези неправилности няма да имат никакво значение спрямо повторяемостта на реда, който естествено произтича от първоначалния замисъл."

Но дори де Моавър не осъзнал пълния обхват на откритието си. Той мислел, че резултатът важи само за монети и прости хазартни игри. Едва когато Пиер-Симон Лаплас развил идеята му — десетилетия след смъртта на де Моавър — истинският, универсален мащаб на теоремата бил разкрит.

Лаплас: от монети до всичко на света

Пиер-Симон Лаплас (1749–1827) е един от най-универсалните умове в историята на математиката. В началото на XIX век той осъзнава, че откритието на де Моавър за монетата не е специфично за монети — то важи за всеки случаен процес при подходящи условия. В класическото си съчинение Théorie analytique des probabilités (1812) той обобщава тази закономерност в общ резултат.

Нека разгледаме пример, малко по-сложен от хвърлянето на монета — хвърлянето на зар. Всяко хвърляне на зар има шест равновероятни изхода. Ако хвърляте зара многократно и записвате резултатите, в много случаи ще получите приблизително плоска графика — ще видите приблизително еднакъв брой единици, двойки, тройки и т.н. Никаква камбана, никаква структура.

Сега хвърлете зара 10 пъти и вземете средното аритметично. Вероятно ще получите около 3,5. Повторете експеримента много пъти и нанесете всички средни стойности на графика. Ще получите приблизително камбановидна крива с връх при 3,5.

Изненадващата универсалност на теоремата. Вие сте започнали с разпределение, което няма никаква структура — равни шансове за изхвърляне на 1 до 6. Но чрез вземане на средна стойност от множество измервания и повтаряне на това многократно, получавате прецизна, предсказуема, математическа структура — приблизително камбановидната крива. Лаплас обобщава тази закономерност: при подходящи условия, независимо колко нередовен е даден случаен процес, средната стойност на много изходи се доближава до нормалното разпределение.

„Наистина е мощно, защото означава, че нямаме нужда да се интересуваме какво е разпределението на нещата, от които сме взели средната стойност" — казва Уитен. „Важното е само, че самата средна стойност ще следва нормалното разпределение." Колкото повече данни включва всяка средна стойност, толкова по-тясна и по-съвършена ставала камбаната.

ⓘ Законът за големите числа срещу централната гранична теорема
Тези два резултата са свързани, но различни. Законът за големите числа казва, че средната стойност от много измервания се приближава към истинската средна — средният ни резултат при хвърляне на зар ще се доближи до 3,5. Централната гранична теорема казва нещо по-фино: тя описва как се колебае тази средна около истинската стойност — а отговорът е: по камбановиден начин, независимо от изходното разпределение.

Интуитивно причината е следната: когато много малки независими отклонения се събират, много голямото отклонение в една посока изисква почти всички малки ефекти да съвпаднат — а това е рядко. Умереното смесване е много по-вероятно. Затова масата от резултатите се натрупва около средата, а крайните стойности оредяват — и се ражда камбаната.

Присъствието навсякъде: от ръста до грешките при измерване

Осредняването може да изглежда като нещо, което изисква активна човешка намеса, но централната гранична теорема се прилага невидимо към всякакви явления в природата. Вземете например човешкия ръст. „Ръстът на някого може да зависи от ръста на баща му, ръста на майка му, генетиката, храненето и всички тези малки ефекти, които се сумират" — казва Джефри Розентал, статистик от Университета на Торонто. Тези фактори действат като множество дребни приноси, нито един от които обикновено не доминира напълно. „Това е нещо като осредняване на множество малки ефекти" — казва Розентал — именно затова ръстът приблизително следва нормалното разпределение.

Същото важи за резултатите от изпити. Когато стотици ученици пишат матура, крайната им оценка е сбор от множество малки независими фактори — познанията им по отделни теми, концентрацията в деня на изпита, умората, случайния избор на въпроси. Нито един отделен фактор не доминира прекалено — и резултатът клони към камбана. Когато учителите намират за странно, че „всички получиха около средна оценка", всъщност виждат централната гранична теорема в действие.

Асиметричното разпределение, което пак дава камбана. Времето, което чакаме на каса или между две обаждания, е силно асиметрично: има много кратки чакания и малко много дълги. Ако нанесем тези стойности директно на графика, няма да видим камбана — разпределението е изкривено надясно. Но ако вземем средното чакане от много независими дни или клиенти, разпределението на тези средни стойности вече е приблизително нормално. Именно тук се вижда силата на теоремата: тя говори за средни стойности, а не за суровите данни.

„Навсякъде, където има средна стойност под повърхността — ако е средна стойност от достатъчно много неща — ще се доближим до нормалното разпределение" — обобщава Уитен. При симетрични разпределения нормалната апроксимация се появява бързо; при силно асиметрични може да са нужни много повече наблюдения. Натрупването на малки отклонения в измервателни и комуникационни системи, нивото на шума в електронна схема, разпределението на грешките при производство — навсякъде, където се сумират много малки независими ефекти, ни очаква приблизително камбана.

ⓘ Грешките при измерване — камбаната на физиците
Именно грешките при физически измервания са накарали Карл Фридрих Гаус (1777–1855) да изучи нормалното разпределение независимо от де Моавър и Лаплас — затова то се нарича и „Гаусово разпределение". Гаус забелязал, че когато астрономите многократно измерват положението на планета, техните грешки се разпределят симетрично около истинската стойност, образувайки камбана. Малките грешки са много по-чести от големите, а положителните и отрицателните грешки се срещат еднакво често. Оттогава „гаусовата крива на грешките" е в основата на всяка прецизна физическа наука.

Дъската на Галтън: камбаната, която можете да видите

Съществува един красив физически уред, наречен дъска на Галтън (или „Galton board"), кръстена на английския статистик Франсис Галтън (1822–1911), който го използва и популяризира в края на XIX век. Дъската се състои от вертикална повърхност с редове от колчета, наредени в триъгълник, а в долната част има редица отделения, в които попадат топчетата.

Когато пуснете топче отгоре, то се удря в първото колче и пада наляво или надясно с равна вероятност. После се удря в следващото колче, пак избира наляво или надясно — и така до дъното. Всяко топче взима поредица от случайни решения. Но когато пуснете стотици топчета, те се натрупват в отделенията по дъното в — камбановидна форма.

Защо дъската на Галтън демонстрира теоремата. Крайното положение на всяко топче е сумата от много малки независими случайни стъпки — наляво или надясно на всяко ниво. По централната гранична теорема тази сума следва нормалното разпределение. Колкото повече редове колчета има дъската, толкова по-съвършена е камбаната. Дъската на Галтън превръща абстрактна математическа теорема в нещо, което можете да видите и докоснете.
вход Топчетата падат случайно, но се натрупват в камбановидна форма
Дъската на Галтън — всяко топче взима поредица от случайни решения при всяко колче, но съвкупността образува камбана

Как теоремата разкрива измамата

Теоремата дава на статистиците мощен инструмент — способността да разберат кога нещо не е наред. Представете си, че сте в кафенето Old Slaughter's и някой ви предлага облог с монета. Хвърляте 100 пъти и получавате само 20 ези. Честна монета ли е?

Благодарение на нормалното разпределение знаете, че при честна монета очакваното число ези е 50, с отклонение около 5. Стойност от 20 е на около 6 стандартни отклонения от средната стойност — изключително далеч в опашката на камбаната. Точната биномиална вероятност за такъв резултат при честна монета е толкова малка, че на практика би ни накарала веднага да се усъмним в монетата. Почти сигурно ви мамят.

Именно тази логика стои зад всяко статистическо тестване на хипотези в науката. Когато лекарите тестват нов медикамент, те питат: „Ако лекарството нямаше ефект, колко вероятно би било да видим такова подобрение в пациентите?" Ако вероятността е достатъчно малка, заключават, че лекарството наистина работи — монетата е манипулирана в добра посока.

ⓘ Правилото 68–95–99,7
При нормалното разпределение има едно практично правило, наречено „правилото три сигма": около 68% от стойностите попадат в рамките на едно стандартно отклонение от средната; около 95% — в рамките на две стандартни отклонения; около 99,7% — в рамките на три. Именно „три сигма" е стандартът за качествен контрол в производството. „Шест сигма" (99,99966% от продуктите без дефекти) е най-строгият индустриален стандарт за качество, използван от компании като General Electric и Motorola.

Медицината и клиничните изпитания

Може би най-важното приложение на централната гранична теорема е в медицинските изследвания. Когато фармацевтична компания тества нов медикамент, тя не може да го изпита върху цялото население — тества го върху извадка от пациенти. Централната гранична теорема гарантира, че средният резултат от тази извадка ще следва нормалното разпределение, независимо от сложността на биологичните процеси в отделния пациент.

Именно затова клиничните изпитания могат да дадат надеждни резултати с няколкостотин или хиляда пациенти — вместо да изискват тестване на всеки човек на Земята. Голяма част от класическите статистически методи в клиничните изпитания разчитат на асимптотична нормалност, тясно свързана с централната гранична теорема. Когато четете, че „лекарството намалява риска с 30% при ниво на значимост p<0,05", зад тези числа стои именно тази математическа рамка.

Какво означава „p-стойност". Когато учените съобщават резултати с „p<0,05", те казват: „Ако нямаше ефект, вероятността да видим такъв резултат случайно е под 5%." В много стандартни статистически тестове прагът 0,05 се интерпретира чрез референтно разпределение, което след подходящо стандартизиране е нормално или близко до нормално. При двустранен z-тест например прагове около ±1,96 стандартни отклонения съответстват на ниво 0,05. Именно нормалната апроксимация, осигурена от централната гранична теорема, прави тези изчисления практически приложими.

Проучванията на общественото мнение

Всяко проучване на общественото мнение — изборна прогноза, рейтинг на политик, потребителско изследване — почива на централната гранична теорема. Как е възможно 1 000 произволно избрани хора да представят мнението на 7 милиона?

Отговорът е: защото средната стойност от достатъчно голяма случайна извадка следва приблизително нормалното разпределение, независимо от разпределението на мненията в цялото население. При проста случайна извадка от около 1 000 души границата на грешката е около ±3% при 95% доверително ниво — но реалните проучвания зависят и от дизайна, теглата и начина на подбор. При 4 000 души грешката пада до около ±1,5%. За да се намали грешката наполовина, трябва да се учетворят данните — класическа последица от теоремата.

Именно затова всяко сериозно проучване съобщава „граница на грешката" — тя е директно изчислена от нормалното разпределение чрез централната гранична теорема.

Качественият контрол и „шест сигма"

В производството централната гранична теорема влиза в играта при контрола на качеството. Когато фабрика произвежда болтове с номинален диаметър 10 мм, никой болт не е точно 10,000 мм — има малки отклонения поради топлина, вибрации, износване на инструментите и стотици други фактори. Сумата от тези малки независими отклонения следва нормалното разпределение.

Six Sigma използва нормалната апроксимация като централна част от своята количествена рамка. Популярната стойност 3,4 дефектни продукта на милион е свързана и с допълнително инженерно допускане за т.нар. „изместване от 1,5 сигма" при дългосрочни производствени процеси — без него строго математически бихме очаквали само около 2 дефектни продукта на милиард. Независимо от тези детайли, нормалното разпределение е в основата на езика и изчисленията на тази методология.

Финансите и рисковото управление

В продължение на десетилетия финансовите модели приемали, че дневните промени в цените на акциите следват нормалното разпределение. Централната гранична теорема изглеждала приложима — цените се влияят от безброй независими фактора: новини, решения на инвеститори, макроикономически данни. Моделите за управление на риска, използвани от банките и хедж фондовете, се основавали на тази предпоставка.

Когато камбаната лъже — финансовите кризи. Финансовата криза от 2008 г. разкрива опасна илюзия. Цените на активите не следват истинско нормално разпределение — те имат „тежки опашки", при които екстремните събития (сривове, балони) са много по-чести, отколкото камбаната предсказва. Насим Никълъс Талеб, известен критик на моделите с тънки опашки, го описва като „проблема с черния лебед". Банките, разчитали на нормалното разпределение, бяха шокирани от загуби, които техните модели казваха, че са практически невъзможни. Реалността ги опроверга жестоко.

Теоремата в природата — извън хората

Камбановидните криви не са феномен само на човешките измервания. И в природата често се появяват приблизително нормални разпределения, особено когато наблюдаваме величини, оформени от множество малки независими влияния. Размерите на листа, отклоненията при растеж, вариациите в биологични измервания и редица експериментални грешки често се описват добре чрез камбановидна форма — макар и не винаги съвършено.

В кинетичната теория на газовете компонентите на скоростта на молекулите са нормално разпределени, а оттук следва и класическото разпределение на Максуел–Болцман за големината на скоростта. Скоростта на всяка отделна молекула е резултат от безброй сблъсъци с другите молекули — сумарен ефект от множество малки случайни взаимодействия. Централната гранична теорема се оказва работеща дори на молекулярно ниво.

Границите на магията

Въпреки централното си място в съвременната наука, централната гранична теорема има важни ограничения, за които всеки трябва да е наясно.

Първо, тя изисква независимост. Измерванията трябва да са независими едно от друго. Ако правите национално политическо проучване само в едно малко градче, данните не са независими извадка от цялото население — резултатите ще са изкривени. Именно тук много проучвания в реалния живот се провалят: хората в едно семейство, студентите в един факултет, клиентите на един магазин — те не са независими.

Второ, тя изисква достатъчно голям брой данни. Колко е „достатъчно" зависи от изходното разпределение — за симетрични разпределения (като зара) и 10 измервания може да са достатъчни. За силно асиметрични разпределения може да са нужни стотици или хиляди.

Трето, тя не важи когато вариансът е безкраен или доминиращ единичен ефект е прекалено голям. Разпределенията с „тежки опашки" (като Коши-разпределението или разпределенията на Парето) не се подчиняват на теоремата. Именно в такива области — тежки опашки, силни зависимости, екстремни събития — простата камбановидна картина може да се окаже подвеждаща.

Не е достатъчно ефектите просто да са много — трябва и никой от тях да не доминира прекалено, а сумарната вариация да е добре контролирана. Теоремата говори за суми и средни стойности при подходящи условия, не за произволни сурови данни.

ⓘ Отвъд камбаната: разпределението на Трейси-Уидом
За по-сложни системи със зависимости се появяват други видове изненадваща универсалност. Един прочут пример е разпределението на Трейси-Уидом от теорията на случайните матрици. То описва например най-голямото собствено число на случайна матрица, максималния размер на кристалите при растеж, разпределението на опашките пред каса. Подобно на нормалното разпределение, то е „универсално" — появява се в съвсем различни системи с взаимодействие между компонентите.

Хронология на едно откритие

1718
Абрахам де Моавър публикува The Doctrine of Chances — първият учебник по теория на вероятностите, написан в лондонско кафене.
1733/1756
Де Моавър публикува и разгръща нормалната апроксимация към биномиалното разпределение — зародишът на централната гранична теорема.
1812
Лаплас публикува Théorie analytique des probabilités — обобщава закономерността в общ резултат, валиден за всеки случаен процес при подходящи условия.
~1820
Карл Фридрих Гаус прилага нормалното разпределение към грешките при астрономически измервания — оттогава се нарича и „Гаусово разпределение".
XIX в.
Франсис Галтън използва и популяризира физическия модел с колчета и топчета — по-късно известен като дъска на Галтън.
1901
Александър Ляпунов дава строго математическо доказателство на теоремата в пълна общност — слага точката на векове усилия.
1986
Motorola въвежда стандарта „шест сигма" — нормалната апроксимация е в основата на езика и изчисленията на методологията.
2008
Финансовата криза разкрива опасността от сляпо прилагане на нормалното разпределение към данни с тежки опашки.
Днес
Централната гранична теорема стои зад проучванията, клиничните изпитания, A/B тестовете, качествения контрол и метеорологичните прогнози.
ⓘ Централната гранична теорема накратко
Ако вземем много независими случайни величини с обща средна стойност и крайна дисперсия, тяхната сума — след подходящо центриране и мащабиране — става приблизително нормално разпределена. Еквивалентно: средната стойност от много независими наблюдения често има приблизително камбановидно разпределение, дори когато отделните наблюдения изобщо не са камбановидни. Колкото повече данни, толкова по-добра апроксимацията. Изненадваща универсалност — с точно математическо обяснение.
Централна гранична теорема Нормално разпределение Теория на вероятностите Статистика История на математиката Де Моавър Лаплас Д-р Атанас Илчев
📖 Още интересни статии
Любопитно от математиката — всички статии
Истории за велики математици, изненадващи открития и идеи, променили света — всичко събрано на едно място.

Запишете урок

Индивидуални и групови онлайн уроци по математика за цялата страна

🎓 Подготовка за изпити
  • НВО по математика след 7 клас
  • НВО по математика след 10 клас
  • Кандидатстудентски изпити по математика
  • Софийски университет „Св. Климент Охридски“
  • УАСГ – Университет по архитектура, строителство и геодезия
  • Технически университет – София и др.
  • Прием в университети в чужбина (ISEE, SAT, A-Level и др.)
📚 Текущо обучение и студенти
  • Усвояване на текущия учебен материал (всички класове)
  • Студенти по всички математически дисциплини:
    Математически анализ, Линейна алгебра, Аналитична геометрия, Диференциални уравнения, Теория на вероятностите, Статистика и др.

Харесва ли ви съдържанието?

Ако тази статия ви е харесала, можете да подкрепите създаването на нови безплатни материали.

📞 Онлайн уроци по математика за цялата страна гл.ас. д-р Атанас Илчев Индивидуални и групови уроци • Тел: 0883 375 433 Подготовка за НВО, ДЗИ, кандидатстудентски изпити 📞 Онлайн уроци по математика за цялата страна гл.ас. д-р Атанас Илчев Индивидуални и групови уроци • Тел: 0883 375 433 Подготовка за НВО, ДЗИ, кандидатстудентски изпити

Коментари

Популярни публикации от този блог

Множества. Основни понятия - обединение, сечение, разлика и допълнение на множества

Триъгълник. Сбор на ъгли в триъгълник. Външен ъгъл на триъгълник 7 клас

Ъгли получени при пресичането на две прави с трета. Теореми признаци, за успоредност на две прави 7 клас