Скритият ред на случайността: защо камбановидните криви са навсякъде
Защо камбановидните криви
са навсякъде около нас?
Покажете на 100 души буркан с бонбони и ги помолете да познаят колко има — нанесете отговорите на графика и ще видите приблизително камбановидна форма, центрирана около истинския брой. Измерете ръста на достатъчно хора, резултатите от матурата, времето за маратон, грешките при физически измервания — в много случаи ще получите приблизително същата гладка, симетрична форма. Защо? Отговорът е в една теорема, която започва като трик за хазартни играчи и се превръща в една от носещите идеи на съвременната емпирична наука.
Изненадващата закономерност
Камбановидната крива се появява изненадващо често. Не навсякъде и не безусловно, но в огромен брой измервания, оценки и усреднения тя се оказва естествената статистическа форма. Измерете ръста на достатъчно хора, резултатите от матурата, времето за пробягване на маратон, грешките при физически измервания — в много случаи ще получите приблизително същата гладка, симетрична форма с висок връх в средата и плавно спускащи се краища.
Важно е веднага да направим едно разграничение: отделните наблюдения може изобщо да не са нормално разпределени, но средната стойност от много независими наблюдения често е приблизително нормална. Именно това е сърцевината на теоремата — и именно затова е толкова неинтуитивна.
Защо се случва това? Отговорът е централната гранична теорема — математическа истина, толкова мощна, че новодошлите в математиката често я приемат за невъзможна, за неочаквана закономерност. „Централната гранична теорема е доста поразителна, защото е толкова неинтуитивна и изненадваща" — казва Даниела Уитен, биостатистик от Университета на Вашингтон. Чрез нея най-хаотичната случайност може да доведе до поразителна предсказуемост.
Тази теорема е един от стълбовете, върху които почива голяма част от съвременната емпирична наука. Почти всеки път, когато учен използва измервания, за да изведе нещо за света, централната гранична теорема е скрита някъде в методологията. Без нея науката трудно би могла да твърди нещо с каквато и да е увереност. Тя е толкова дълбоко вградена в научната практика, че мнозина учени я прилагат всеки ден, без дори да се замислят откъде идва и защо работи.
От хазарта към теорията
Не е изненадващо, че тласъкът за намиране на закономерност в хаоса идва от изучаването на хазарта. В кафенетата на Лондон от началото на XVIII век математическите таланти на Абрахам де Моавър (1667–1754) са очевидни за всеки. Много от съвременниците му — включително Исак Нютон и Едмунд Халей — признават блясъка му. Де Моавър е член на Кралското дружество, но е и бежанец — французин, избягал от родината си като млад мъж след отмяната на Нантския едикт (1685), когато протестантите са подложени на жестоки преследвания. Като чужденец не може да получи стабилна академична позиция, каквато би подобавала на таланта му.
За да плаща сметките си, той се превръща в консултант на хазартни играчи, търсещи математическо предимство. Провежда неофициални „приемни часове" в прочутото кафене Old Slaughter's в лондонския Сохо — люлката на интелектуалния живот на онова време — и пише книга, наречена The Doctrine of Chances (Доктрина на вероятностите, 1718) — първият учебник по теория на вероятностите, станал библия на хазартните играчи.
Де Моавър гледал с почти религиозно възхищение на „непоколебимия ред на вселената", който в крайна сметка побеждавал всякакви отклонения от камбаната. В книгата си пише: „С течение на времето тези неправилности няма да имат никакво значение спрямо повторяемостта на реда, който естествено произтича от първоначалния замисъл."
Но дори де Моавър не осъзнал пълния обхват на откритието си. Той мислел, че резултатът важи само за монети и прости хазартни игри. Едва когато Пиер-Симон Лаплас развил идеята му — десетилетия след смъртта на де Моавър — истинският, универсален мащаб на теоремата бил разкрит.
Лаплас: от монети до всичко на света
Пиер-Симон Лаплас (1749–1827) е един от най-универсалните умове в историята на математиката. В началото на XIX век той осъзнава, че откритието на де Моавър за монетата не е специфично за монети — то важи за всеки случаен процес при подходящи условия. В класическото си съчинение Théorie analytique des probabilités (1812) той обобщава тази закономерност в общ резултат.
Нека разгледаме пример, малко по-сложен от хвърлянето на монета — хвърлянето на зар. Всяко хвърляне на зар има шест равновероятни изхода. Ако хвърляте зара многократно и записвате резултатите, в много случаи ще получите приблизително плоска графика — ще видите приблизително еднакъв брой единици, двойки, тройки и т.н. Никаква камбана, никаква структура.
Сега хвърлете зара 10 пъти и вземете средното аритметично. Вероятно ще получите около 3,5. Повторете експеримента много пъти и нанесете всички средни стойности на графика. Ще получите приблизително камбановидна крива с връх при 3,5.
„Наистина е мощно, защото означава, че нямаме нужда да се интересуваме какво е разпределението на нещата, от които сме взели средната стойност" — казва Уитен. „Важното е само, че самата средна стойност ще следва нормалното разпределение." Колкото повече данни включва всяка средна стойност, толкова по-тясна и по-съвършена ставала камбаната.
Интуитивно причината е следната: когато много малки независими отклонения се събират, много голямото отклонение в една посока изисква почти всички малки ефекти да съвпаднат — а това е рядко. Умереното смесване е много по-вероятно. Затова масата от резултатите се натрупва около средата, а крайните стойности оредяват — и се ражда камбаната.
Присъствието навсякъде: от ръста до грешките при измерване
Осредняването може да изглежда като нещо, което изисква активна човешка намеса, но централната гранична теорема се прилага невидимо към всякакви явления в природата. Вземете например човешкия ръст. „Ръстът на някого може да зависи от ръста на баща му, ръста на майка му, генетиката, храненето и всички тези малки ефекти, които се сумират" — казва Джефри Розентал, статистик от Университета на Торонто. Тези фактори действат като множество дребни приноси, нито един от които обикновено не доминира напълно. „Това е нещо като осредняване на множество малки ефекти" — казва Розентал — именно затова ръстът приблизително следва нормалното разпределение.
Същото важи за резултатите от изпити. Когато стотици ученици пишат матура, крайната им оценка е сбор от множество малки независими фактори — познанията им по отделни теми, концентрацията в деня на изпита, умората, случайния избор на въпроси. Нито един отделен фактор не доминира прекалено — и резултатът клони към камбана. Когато учителите намират за странно, че „всички получиха около средна оценка", всъщност виждат централната гранична теорема в действие.
„Навсякъде, където има средна стойност под повърхността — ако е средна стойност от достатъчно много неща — ще се доближим до нормалното разпределение" — обобщава Уитен. При симетрични разпределения нормалната апроксимация се появява бързо; при силно асиметрични може да са нужни много повече наблюдения. Натрупването на малки отклонения в измервателни и комуникационни системи, нивото на шума в електронна схема, разпределението на грешките при производство — навсякъде, където се сумират много малки независими ефекти, ни очаква приблизително камбана.
Дъската на Галтън: камбаната, която можете да видите
Съществува един красив физически уред, наречен дъска на Галтън (или „Galton board"), кръстена на английския статистик Франсис Галтън (1822–1911), който го използва и популяризира в края на XIX век. Дъската се състои от вертикална повърхност с редове от колчета, наредени в триъгълник, а в долната част има редица отделения, в които попадат топчетата.
Когато пуснете топче отгоре, то се удря в първото колче и пада наляво или надясно с равна вероятност. После се удря в следващото колче, пак избира наляво или надясно — и така до дъното. Всяко топче взима поредица от случайни решения. Но когато пуснете стотици топчета, те се натрупват в отделенията по дъното в — камбановидна форма.
Как теоремата разкрива измамата
Теоремата дава на статистиците мощен инструмент — способността да разберат кога нещо не е наред. Представете си, че сте в кафенето Old Slaughter's и някой ви предлага облог с монета. Хвърляте 100 пъти и получавате само 20 ези. Честна монета ли е?
Благодарение на нормалното разпределение знаете, че при честна монета очакваното число ези е 50, с отклонение около 5. Стойност от 20 е на около 6 стандартни отклонения от средната стойност — изключително далеч в опашката на камбаната. Точната биномиална вероятност за такъв резултат при честна монета е толкова малка, че на практика би ни накарала веднага да се усъмним в монетата. Почти сигурно ви мамят.
Именно тази логика стои зад всяко статистическо тестване на хипотези в науката. Когато лекарите тестват нов медикамент, те питат: „Ако лекарството нямаше ефект, колко вероятно би било да видим такова подобрение в пациентите?" Ако вероятността е достатъчно малка, заключават, че лекарството наистина работи — монетата е манипулирана в добра посока.
Медицината и клиничните изпитания
Може би най-важното приложение на централната гранична теорема е в медицинските изследвания. Когато фармацевтична компания тества нов медикамент, тя не може да го изпита върху цялото население — тества го върху извадка от пациенти. Централната гранична теорема гарантира, че средният резултат от тази извадка ще следва нормалното разпределение, независимо от сложността на биологичните процеси в отделния пациент.
Именно затова клиничните изпитания могат да дадат надеждни резултати с няколкостотин или хиляда пациенти — вместо да изискват тестване на всеки човек на Земята. Голяма част от класическите статистически методи в клиничните изпитания разчитат на асимптотична нормалност, тясно свързана с централната гранична теорема. Когато четете, че „лекарството намалява риска с 30% при ниво на значимост p<0,05", зад тези числа стои именно тази математическа рамка.
Проучванията на общественото мнение
Всяко проучване на общественото мнение — изборна прогноза, рейтинг на политик, потребителско изследване — почива на централната гранична теорема. Как е възможно 1 000 произволно избрани хора да представят мнението на 7 милиона?
Отговорът е: защото средната стойност от достатъчно голяма случайна извадка следва приблизително нормалното разпределение, независимо от разпределението на мненията в цялото население. При проста случайна извадка от около 1 000 души границата на грешката е около ±3% при 95% доверително ниво — но реалните проучвания зависят и от дизайна, теглата и начина на подбор. При 4 000 души грешката пада до около ±1,5%. За да се намали грешката наполовина, трябва да се учетворят данните — класическа последица от теоремата.
Именно затова всяко сериозно проучване съобщава „граница на грешката" — тя е директно изчислена от нормалното разпределение чрез централната гранична теорема.
Качественият контрол и „шест сигма"
В производството централната гранична теорема влиза в играта при контрола на качеството. Когато фабрика произвежда болтове с номинален диаметър 10 мм, никой болт не е точно 10,000 мм — има малки отклонения поради топлина, вибрации, износване на инструментите и стотици други фактори. Сумата от тези малки независими отклонения следва нормалното разпределение.
Six Sigma използва нормалната апроксимация като централна част от своята количествена рамка. Популярната стойност 3,4 дефектни продукта на милион е свързана и с допълнително инженерно допускане за т.нар. „изместване от 1,5 сигма" при дългосрочни производствени процеси — без него строго математически бихме очаквали само около 2 дефектни продукта на милиард. Независимо от тези детайли, нормалното разпределение е в основата на езика и изчисленията на тази методология.
Финансите и рисковото управление
В продължение на десетилетия финансовите модели приемали, че дневните промени в цените на акциите следват нормалното разпределение. Централната гранична теорема изглеждала приложима — цените се влияят от безброй независими фактора: новини, решения на инвеститори, макроикономически данни. Моделите за управление на риска, използвани от банките и хедж фондовете, се основавали на тази предпоставка.
Теоремата в природата — извън хората
Камбановидните криви не са феномен само на човешките измервания. И в природата често се появяват приблизително нормални разпределения, особено когато наблюдаваме величини, оформени от множество малки независими влияния. Размерите на листа, отклоненията при растеж, вариациите в биологични измервания и редица експериментални грешки често се описват добре чрез камбановидна форма — макар и не винаги съвършено.
В кинетичната теория на газовете компонентите на скоростта на молекулите са нормално разпределени, а оттук следва и класическото разпределение на Максуел–Болцман за големината на скоростта. Скоростта на всяка отделна молекула е резултат от безброй сблъсъци с другите молекули — сумарен ефект от множество малки случайни взаимодействия. Централната гранична теорема се оказва работеща дори на молекулярно ниво.
Границите на магията
Въпреки централното си място в съвременната наука, централната гранична теорема има важни ограничения, за които всеки трябва да е наясно.
Първо, тя изисква независимост. Измерванията трябва да са независими едно от друго. Ако правите национално политическо проучване само в едно малко градче, данните не са независими извадка от цялото население — резултатите ще са изкривени. Именно тук много проучвания в реалния живот се провалят: хората в едно семейство, студентите в един факултет, клиентите на един магазин — те не са независими.
Второ, тя изисква достатъчно голям брой данни. Колко е „достатъчно" зависи от изходното разпределение — за симетрични разпределения (като зара) и 10 измервания може да са достатъчни. За силно асиметрични разпределения може да са нужни стотици или хиляди.
Трето, тя не важи когато вариансът е безкраен или доминиращ единичен ефект е прекалено голям. Разпределенията с „тежки опашки" (като Коши-разпределението или разпределенията на Парето) не се подчиняват на теоремата. Именно в такива области — тежки опашки, силни зависимости, екстремни събития — простата камбановидна картина може да се окаже подвеждаща.
Не е достатъчно ефектите просто да са много — трябва и никой от тях да не доминира прекалено, а сумарната вариация да е добре контролирана. Теоремата говори за суми и средни стойности при подходящи условия, не за произволни сурови данни.
Хронология на едно откритие
Запишете урок
Индивидуални и групови онлайн уроци по математика за цялата страна
- ›НВО по математика след 7 клас
- ›НВО по математика след 10 клас
- ›Кандидатстудентски изпити по математика
- ›Софийски университет „Св. Климент Охридски“
- ›УАСГ – Университет по архитектура, строителство и геодезия
- ›Технически университет – София и др.
- ›Прием в университети в чужбина (ISEE, SAT, A-Level и др.)
- ›Усвояване на текущия учебен материал (всички класове)
- ›Студенти по всички математически дисциплини:
Математически анализ, Линейна алгебра, Аналитична геометрия, Диференциални уравнения, Теория на вероятностите, Статистика и др.
Харесва ли ви съдържанието?
Ако тази статия ви е харесала, можете да подкрепите създаването на нови безплатни материали.
Коментари
Публикуване на коментар