Poprvé publikováno 2. února 2004; věcná revize pá 1. dubna 2016
Zvažte následující příběh:
Štítek každého balení kapslí FIXIT-Y od (imaginárního) Globalfixit Pharmacuticals Ltd. obsahuje následující doporučené použití:
Doporučeno pro muže a ženy se stavem Y, ale není doporučeno pro lidi se stavem Y.
Jak drobný tisk na štítku dále vysvětluje:
klinické studie s přípravkem FIXIT-Y prokázaly vyšší procento zotavení z Y, když ho muži vzali, ve srovnání s muži, kteří užívali placeba, a podobně u žen. Avšak skupina, která v celkové populaci užívala placeba, měla celkově vyšší míru zotavení. Můžete věřit společnosti FIXIT, že vám poskytne lékárnu založenou na důkazech.
Společnost také prodává kapsle FIXIT-Z-kapsulí. Štítek na nich nese doporučení, že Z-kapsle jsou doporučovány pro lidi trpící Z, ale ne pro muže a ne pro ženy. Jak drobný tisk na štítku dále vysvětluje:
Klinické studie s přípravkem FIXIT-Z ukázaly, že lidé, kteří jej užívali, měli vyšší míru zotavení ve srovnání s těmi, kteří užívali placeba. Ale muži i ženy, kteří se umístili na placebech, měli vyšší míru zotavení ve srovnání s muži a ženami, kteří užívali přípravek FIXIT-Z. Můžete věřit společnosti FIXIT, že vám poskytne lékárnu založenou na důkazech.
I když žádný kapsul nemůže být dobrý pro muže a ženy, přesto špatný pro lidi nebo dobrý pro lidi, zatímco je špatný pro muže a ženy, představovaná data (viz níže), na nichž FIXIT na základě svých doporučení vykazují vzory, které jsou aritmeticky možné a zase ve skutečných souborech dat. Ačkoli neexistuje nic paradoxního ohledně existence takových dat z hlediska aritmetiky, představují problémy pro praktické rozhodování (např. Chcete být léčeni Fixitovými kapsulemi na základě ohlášených klinických hodnocení?), Pro heuristiku používanou v intuitivním uvažování o pravděpodobnosti, pro závěry z dat do kauzálních vztahů a obecněji pro filosofické programy, jejichž cílem je vyloučit nebo omezit příčinnou souvislost k zákonitostem a vztahům mezi pravděpodobnostmi.
Aritmetika, na níž jsou založeny příklady, jako jsou špatně posuzovaná doporučení FIXIT, je bezproblémová. Stručně řečeno, vychází z toho, že
Asociace mezi párem proměnných může být důsledně invertována v každé subpopulaci populace, když je populace rozdělena, a naopak, asociace v každé subpopulaci mohou být invertovány, když jsou agregována data.
Nazvěme tento princip Simpsonovo zvrácení nerovností. Neuznání takových zvratů může vést k výše uvedeným úskalím ohledně toho, co dělat, co uvěřit, co odvodit a co způsobuje. I když jsou rozpoznány skutečné a možné změny, nástrahy přetrvávají. Pozitivní je, že jakmile jsou rozpoznány možnosti Simpsonova zvratu, poskytují bohatý zdroj pro vytváření kauzálních modelů, které pomáhají vysvětlit mnoho skutečností, které se na první pohled zdají být neobvyklé. Navíc existuje test nazvaný „kritérium zadních dveří“(Pearl 1993), který lze použít k vyřešení otázky, zda by se mělo rozhodování opírat o statistiku z agregované populace nebo z rozdělených subpopulací.
Sekce 1 obsahuje stručnou historii Simpsonova paradoxu, výpověď a diagnózu aritmetických struktur, které ji vedou, a okrajové podmínky jejího výskytu. Část 2 zkoumá vzorce neplatného uvažování, které mají své zdroje v Simpsonově paradoxu a možné způsoby, jak čelit jeho účinkům. Zvláště důležitý případ, kdy byl Simpsonův paradox neplatně zaměstnán, je diskutován v oddíle 3. Bylo zjištěno, že paradoxní údaje poskytují v teoriích racionálního výběru protiklady k principu jisté věci. Proč se zdá, že taková data poskytují protiklady k principu Jisté věci, je vysvětleno a vzhled, který tak činí, je rozptýlen. Část 4 pojednává o roli a důsledcích paradoxních dat pro teorie kauzální inference a pro analýzu kauzálních vztahů z hlediska pravděpodobností. Ačkoli závěry této části jsou do značné míry negativní, oddíl 5 ilustruje, jak paradoxní data mohou podporovat příčinné modely pro vývoj zvláštností, které se zpočátku zdají být neslučitelné s prostředím, ve kterém přirozený výběr znevýhodňuje jednotlivce, kteří projevují rysy.
1. Simpsonův paradox: jeho historie, diagnostika a okrajové podmínky
1.1 Historie
1.2 Co je Simpsonův paradox: diagnostika
1.3 Hraniční podmínky pro zvrat Simpsona
2. Simpsonovy zvraty nerovností jako zdroje nesprávného zdůvodnění
3. Poskytují paradoxní údaje protiklady k principu jisté věci?
4. Simpsonovy zvraty nerovností, korelace a příčinné souvislosti
5. Simpsonovo zvrácení nerovností v evolučním nastavení
Bibliografie
Akademické nástroje
Další internetové zdroje
Související záznamy
1. Simpsonův paradox: jeho historie, diagnostika a okrajové podmínky
1.1 Historie
V seminární práci publikované v roce 1951, EH Simpson upozornil na jednoduchý fakt o zlomcích, který má širokou škálu překvapivých aplikací (Simpson 1951). Aplikace vycházejí z úzkého spojení mezi proporcemi, procenty, pravděpodobnostmi a jejich reprezentacemi jako zlomky. Zatímco statistici na počátku 20. století věděli o problémech se statistikami, na něž Simpson upozornil, právě jejich vtipné a překvapivé ilustrace jim vynesly titul paradoxní (srov. Yule 1903). V roce 1934 Morris Cohen a Ernst Nagel představili filozofům jeden aspekt problémů, které představují paradoxní data. Citovali skutečnou úmrtnost v roce 1910 na tuberkulózu v Richmondu, Virginii a New Yorku v New Yorku, která ověřila následující tvrzení (Cohen & Nagel 1934): [1]
Míra úmrtnosti afrických Američanů byla v Richmondu nižší než v New Yorku.
Míra úmrtnosti pro Kavkazany byla v Richmondu nižší než v New Yorku.
Míra úmrtnosti pro celou kombinovanou populaci afrických Američanů a Kavkazů byla vyšší v Richmondu než v New Yorku.
Dále položili dvě otázky týkající se údajů o úmrtnosti: „Z toho vyplývá, že tuberkulóza způsobila [kurzívou přidanou] větší úmrtnost v Richmondu než v New Yorku…“a „… jsou dvě populace, které jsou srovnávány, skutečně srovnatelné, to znamená, homogenní?" (Cohen a Nagel 1934). Poté, co položili otázky, nechali čtenáři cvičení, aby na ně odpověděli. Po vydání Simpsonova článku statistici zahájili živou debatu o významu faktů, jako jsou ty, které ověřují citované tabulky Cohen a Nagel. Debata usilovala o omezení statistické praxe, která by zabránila hlavolamům vyplývajícím ze skutečných a možných paradoxních údajů. Tato debata se však nezabývala první otázkou položenou Cohenem a Nagelem o příčinném závěru. Jak poznamenává Judea Pearl ve svém přehledu statistické literatury o Simpsonově paradoxu, statistici měli averzi mluvit o příčinných vztazích a příčinných závěrech, které vycházely z přesvědčení, že koncept příčinné souvislosti byl nevhodný a nepotřebný pro vědecké metody výzkumu a teorie konstrukce (Pearl 2000, 173–181).
Filozofický zájem na Simpsonově paradoxu byl obnoven tím, že jej použila Nancy Cartwrightová na podporu svých tvrzení, že odvolání k příčinným zákonům a příčinným kapacitám vyžaduje vědecké bádání a teorie racionálního výběru (Cartwright 1979). Měla za cíl ukázat, že spoléhání se na zákonitosti a frekvence, na nichž lze založit pravděpodobnostní úsudky, nepostačuje k vyjádření příčinných vztahů. Zejména testy vědeckých teorií a filosofické analýzy kauzality a kauzální inference musí poskytnout odpovědi na otázky, jako jsou ty, které položily Cohen a Nagel: například je možné, že tuberkulóza způsobila větší úmrtnost v Richmondu než v New Yorku, i když úmrtnost na Zdá se, že každá subpopulace klasifikovaná podle rasy naznačuje něco jiného? Pokud příčinné vztahy sledují zákonnosti,jaký systém příčinných vztahů může dosáhnout takových účinků? Jakmile jsou k dispozici reprezentace kauzálních vztahů, které poskytují odpovědi na otázky, jako jsou otázky, které položily Cohen a Nagel, ukázaly se, že reprezentace mají interpretace, které poskytují kauzální modely pro řadu zajímavých a záhadných jevů. Patří sem kauzální modely pro vývoj altruismu jako stabilní vlastnosti v populaci, i když altruistické činy znevýhodňují ty, kdo je vykonávají, a zvýhodňují své konkurenty. (Viz Sober 1993 a Sober & Wilson 1998, které tato témata podrobně rozvíjejí v oblasti populační biologie a sociobiologie.) Příklady takových modelů jsou formulovány a diskutovány v části 5.reprezentace se ukážou jako interpretace, které poskytují kauzální modely pro řadu zajímavých a záhadných jevů. Patří sem kauzální modely pro vývoj altruismu jako stabilní vlastnosti v populaci, i když altruistické činy znevýhodňují ty, kdo je vykonávají, a zvýhodňují své konkurenty. (Viz Sober 1993 a Sober & Wilson 1998, které tato témata podrobně rozvíjejí v oblasti populační biologie a sociobiologie.) Příklady takových modelů jsou formulovány a diskutovány v části 5.reprezentace se ukážou jako interpretace, které poskytují kauzální modely pro řadu zajímavých a záhadných jevů. Patří sem kauzální modely pro vývoj altruismu jako stabilní vlastnosti v populaci, i když altruistické činy znevýhodňují ty, kdo je vykonávají, a zvýhodňují své konkurenty. (Viz Sober 1993 a Sober & Wilson 1998, které tato témata podrobně rozvíjejí v oblasti populační biologie a sociobiologie.) Příklady takových modelů jsou formulovány a diskutovány v části 5.a Sober & Wilson 1998, které tato témata podrobně rozvíjejí v oblasti populační biologie a sociobiologie.) Příklady takových modelů jsou formulovány a diskutovány v části 5.a Sober & Wilson 1998, které tato témata podrobně rozvíjejí v oblasti populační biologie a sociobiologie.) Příklady takových modelů jsou formulovány a diskutovány v části 5.
1.2 Co je Simpsonův paradox: diagnostika
Pro některá celá čísla můžeme mít:
) begin {align} a / b & / lt A / B, \\ c / d & / lt C / D, / text {and} (a + c) / (b + d) & / gt (A + C) / (B + D). / end {zarovnat})
Nazvěte to Simpsonovým zvratem nerovností. Níže je poučná ilustrace. Aritmetické nerovnosti, na nichž je založena, jsou:
Následující interpretace struktury ilustruje, proč může vést ke zmatku. Příklad volně vychází z diskriminačního obleku, který byl podán proti Kalifornské univerzitě v Berkeley (viz Bickle et al., 1975).
Předpokládejme, že se univerzita při přijímání zaměstnanců snaží diskriminovat ve prospěch žen. Inzeruje pozice na katedře historie a na katedře geografie a pouze na těchto katedrách. O pozice v historii se uchází pět mužů a jeden je najat, osm žen se najímá a dva jsou najati. Úspěšnost mužů je dvacet procent a úspěšnost žen je dvacet pět procent. Historické oddělení upřednostňovalo ženy před muži. V Geografickém oddělení je přihlášeno osm mužů a šest najatých a pět žen a čtyři najatých. Míra úspěšnosti u mužů je sedmdesát pět procent a u žen osmdesát procent. Oddělení zeměpisu upřednostňovalo ženy před muži. Přesto se na univerzitě jako celku ucházelo o zaměstnání 13 mužů a 13 žen a bylo najato 7 mužů a 6 žen. Úspěšnost uchazečů o zaměstnání je vyšší než úspěšnost uchazečů o zaměstnání.
Muži
Ženy
Dějiny
1/5
(lt)
2/8
Zeměpis
6/8
(lt)
4/5
Univerzita
7/13
(gt)
6/13
Jak je možné, že každé ministerstvo upřednostňuje uchazeče o zaměstnání, a přesto celkově muži jedí lépe než ženy? Ve vzorkování je „zkreslení“, ale není snadné přesně zjistit, kde toto zkreslení vzniká. Bylo tam 13 mužských a 13 ženských uchazečů: stejné velikosti vzorku pro obě skupiny. Zeměpis a historie měl každý 13 žadatelů: opět stejné velikosti vzorků. Problém nespočívá ani v tom, že vzorky jsou malé: vynásobte všechna čísla číslem 1000 a hádanka zůstává. Pak se zvrat nerovností stane docela robustním: můžete přidat nebo odečíst několik z každého z těchto tisíců, aniž byste narušili Simpsonovo zvrácení.
Klíč k tomuto záhadnému příkladu spočívá v tom, že více žen se uchází o práci, která je těžší získat. Je těžší dostat se do historie než do geografie. (Chcete-li se dostat do geografie, musíte se prostě narodit; abyste se dostali do historie, musíte udělat něco nezapomenutelného.) Ze žen, které se ucházejí o práci, se více uchází o práci v historii než v geografii, a opak je pravdou pro muže. Historie najala pouze 3 ze 13 uchazečů, zatímco Geografie najala 10 ze 13 uchazečů. Míra úspěšnosti byla tedy mnohem vyšší v geografii, kde bylo více mužských uchazečů.
1.3 Hraniční podmínky pro zvrat Simpsona
Simpsonovo zvrácení nerovností nastává pro širokou škálu hodnot, které mohou být nahrazeny (a), (b), (c), (d), (A), (B)), (C), (D) ve výše uvedeném schématu. Hodnoty spadají do širokého pásma, které leží mezi dvěma extrémy:
V jednom extrému se o práci, která je mnohem těžší získat, o něco více žen.
Muži
Ženy
Dějiny
1/45
(lt)
5/55
Zeměpis
50/55
(lt)
45/45
Univerzita
51/100
(gt)
50/100
Na druhé straně, extrémně mnoho žen se uchází o práci, která je o něco těžší získat.
Muži
Ženy
Dějiny
4/5
(lt)
90/95
Zeměpis
94/95
(lt)
5/5
Univerzita
98/100
(gt)
95/100
Dále, čitatelé a jmenovatelé zlomků, které vytvářejí schéma, mohou být rovnoměrně vynásobeni jakýmkoli kladným číslem, aniž by to narušilo vztahy mezi zlomky. Zlomky, které vykazují tyto vzorce, odpovídají procentům a pravděpodobnostem. Ve své pravděpodobnostní podobě poskytuje Colin Blyth následující okrajové podmínky pro Simpsonovy zvraty (Blyth 1972). Nechť '(P)' představuje pravděpodobnostní funkci a podmíněné pravděpodobnosti jsou poměry bezpodmínečných pravděpodobností v souladu s jejich ortodoxní definicí; tj. čtení '/' v kontextu (P (- / mid / ldots)) jako 'daný'),
[P (A / mid B) = P (A / amp B) / P (B), / text {za předpokladu, že} P (B) text {je pozitivní.})
Blyth poznamenává, že z matematického hlediska podléhá podmínkám
) begin {align} P (A / mid B / amp C) & / ge / delta / cdot P (A / mid { sim} B / amp C) / P (A / mid B / amp { sim} C) a / ge / delta / cdot P (A / mid { sim} B / amp { sim} C) end {zarovnat})
s (delta / ge 1) je možné mít
[P (A / střední B) přibližně 0 / text {a} P (A / střední { sim} B) přibližně 1 / / delta.)
Za předpokladu, že jsou aritmetické výroky nezbytné, se tyto možnosti rovnají existujícím podmínkám v aritmetice. Schéma:
[Pokud je možné, že (A) je nutné, pak (A)]
je platný ve velké rodině modální logiky. Hraniční podmínky pro Simpsonovy zvraty umožňují, aby jakákoli pravděpodobnostní souvislost mezi (A) a (B) mohla být převedena v nějaké další části (B). Z hlediska aritmetiky existuje oddíl ({) C, ({ sim}) C (}), ve kterém jsou převráceny asociace mezi (A) a (B). Důležitým souvisejícím důsledkem je, že je vždy matematicky možné poskytnout nějakou podmínku nebo faktor (C), který činí (A) pravděpodobnostně nezávislou na (B), když je (C) spojeno s (B)) jako podmínka na (A) a ({ sim} B) jako podmínka na (A). Tato fakta aritmetiky nemají sama o sobě žádný empirický význam. Nicméně,Mají metodologický význam, pokud jsou k identifikaci hlavních oddílů pro vytváření závěrů ze statistických a pravděpodobnostních vztahů nezbytné podstatné empirické předpoklady.
Potřeba podstatných empirických předpokladů vyvstává v prostředích, kde existují příklady aritmetických možností, které jsou označeny Simpsonovými zvraty v urnových modelech a v možných a skutečných empirických nastaveních. Zvažte například model urny pro náš příběh o míře úspěšnosti uchazečů o zaměstnání. Model se skládá z dvaceti šesti míčů. Každá koule je označena jedním z prvků ze sad ({M, { sim} M }, {H, { sim} H }) a ({S, { sim } S }), např. Daná koule může být označena ([{ sim} M, H, { sim} S]) Předpokládejme, že štítky jsou distribuovány tak, aby odpovídaly rozdělení uchazečů o zaměstnání. Při pokusech o losování z urny s náhradou, asociace mezi (M), (H) a (S) je v subpopulacích a zpětné spojení mezi (M) a (S) v celkové populaci,jsou odolné. Pružné asociace jsou způsobeny pouze strukturou modelu a nemají žádný kauzální význam. Naproti tomu jsou v jiných případech nutné vyvozovat věcné předpoklady.
Vzory údajů, které spadají do mezních podmínek Simpsonova zvratu nerovností, mohou způsobit problémy při testování a hodnocení empirických hypotéz, např. Testování účinnosti a bezpečnosti lékařských postupů. Průběh léčby nemoci, která ovlivňuje personál historie a geografie, může být ve vzájemném vztahu s nižší mírou úmrtnosti u léčených ve srovnání s neléčenými pacienty v historii a nižší úmrtností u léčených ve srovnání s neléčenými pacienty v geografii; Průběh léčby však přesto může korelovat s vyšší mírou úmrtnosti, pokud jsou léčené pacienty celkově porovnávány s neléčenými pacienty. Naopak léčba může korelovat s vyšší mírou úmrtnosti v každé subpopulaci, zatímco je korelována s nižší úmrtností v celkové populaci. V takových případech není ani zdaleka jasné,pokud něco, na závěr z korelací o účinnosti a bezpečnosti léčby.[2]Kromě toho se vzory, jako jsou ty, které jsou uvedeny v tomto příkladu, mohou různé způsoby rozdělení stejných dat vytvářet různé korelace, které se zdají být nekompatibilní s korelacemi při počátečním způsobu rozdělení dat. Např. V rámci rozdělení podle akademické disciplíny se zdá, že se pacienti při léčbě zdají horší, i když mezi léčbou a uzdravením může existovat pozitivní korelace v celkové populaci. To je v souladu s pozitivní korelací mezi léčbami a uzdravením, když je populace rozdělena podle pohlaví. Zatímco historikové a geografové jsou při léčbě o něco horší, muži i ženy ze dvou oddělení se mohou léčit lépe vzhledem k léčbě a tato fakta jsou v souladu s lepší kombinací populace nebo s horší kombinací populace.[3]
Výše uvedené možnosti jsou způsobeny skutečností, že následující vzorce jsou kolektivně konzistentní. Vezměte '(P)' jako pravděpodobnostní funkci. Lze poskytnout modely pravděpodobnosti, které ověřují konzistenci souboru sestávajícího z následujících vzorců:
) begin {align} P (A / mid B) & / gt P (A / mid { sim} B) / P (A / mid B / amp C) & / lt P (A / mid { sim} B / amp C) / P (A / mid B / amp { sim} C) & / lt P (A / mid { sim} B / amp { sim} C) / P (A / uprostřed B / amp D) a / gt P (A / mid { sim} B / amp D) / P (A / mid B / amp { sim} D) & / gt P (A / mid { sim } B / amp { sim} D) / \ end {zarovnat})
Podobné nerovnosti jsou možné se zvrácenými příznaky a rovnice, které představují pravděpodobnou nezávislost, jsou v souladu s pozitivními a / nebo negativními asociacemi v oddílech populace. Tato fakta nejsou paradoxní z aritmetického hlediska. Pravidelnosti, které mohou představovat, však nemohou mít kauzální význam a všechny pravděpodobnosti, které jsou dostačující pro pravděpodobnostní nezávislost, nelze považovat za kauzální nezávislost.
Standardní statistické metody pro testování významnosti neposkytují žádné pojištění proti konfliktním výsledkům, když jsou data rozdělena nebo konsolidována. V prostředí, kde je testována účinnost nové lékařské léčby, podporují následující údaje odmítnutí nulové hypotézy na úrovni 0,05, že ošetření (T) nezmění zotavení (R), kde alternativou k nulové hypotéze je, že léčba je výhodná pro zotavení. [4]
(R)
({ sim} R)
(T)
369
340
({ sim} T)
152
176
Avšak v tomto modelu, kdy je populace dále rozdělena podle pohlaví, je opačné doporučení pro muže a ženy podporováno na úrovni významnosti 0,05.
(RM)
({ sim} RM)
(R { sim} M)
({ sim} R { sim} M)
(T)
48
152
321
188
({ sim} T)
73
145
79
31
Předpokládejme nulovou hypotézu, že neexistuje žádná souvislost mezi léčbou a zotavením a alternativou k nulové hypotéze, že léčba je pro zotavení méně příznivá než žádná léčba. Odmítnutí nulové hypotézy spadá do úrovně významnosti 0,05 pro tabulky (M) - a ({ sim} M) -. Když se tedy vezmou v úvahu konsolidované údaje, je výhodná léčba, ale pokud je populace rozdělena podle pohlaví, není léčba zvýhodněna jak pro muže, tak pro ženy. Další oddíl, např. Oddíl podle věkových skupin, může zvrátit asociace uvnitř oddílů podle pohlaví. Léčení tedy může pozitivně korelovat s uzdravením v celkové populaci, negativně korelovat s uzdravením, když je populace rozdělena podle pohlaví,a pozitivně korelovala s uzdravením, když je populace rozdělena podle věku. Obecnost okrajových podmínek pro Simpsonovy zvraty nerovností zaručuje, že vždy existují aritmetické modely, které přizpůsobí data a podporují protichůdná doporučení. Aritmetika mlčí o tom, na které oddíly se má brát jako základ pro vyhodnocení konfliktů mezi hypotézami o daných datech a způsoby, jak lze data rozdělit.
2. Simpsonovy zvraty nerovností jako zdroje nesprávného zdůvodnění
Intuitivní uvažování o procentech a pravděpodobnostních vztazích je notoricky náchylné k nehodám. Příklad, který byl založen na žalobě podané proti Berkeley, ilustroval, jak může být při sdružování údajů převrácena zaujatost v náborových praktikách na každém katedře univerzity. Ale mnoho lidí alespoň zpočátku považovalo za nemožné, aby vyšší procento mužů bylo úspěšných v prostředí, kde ženy měly vyšší míru úspěšnosti v každém oddělení, ve kterém byly jmenovány. Jedním ze způsobů, jak nahlížet na chybu v intuitivním zdůvodnění, které vyplývá z Simpsonova zvratu, je všimnout si, že reprezentace dat z oddílů populace jako zlomků a použití, ke kterým se zlomky přidávají, když jsou data sdružena pro získání statistik o celkové populaci, není zaručeno udržovat vztahy mezi zlomky uvnitř oddílů. Správné frakce mají nekonečně mnoho ekvivalentních reprezentací. Například 1 / (2 = 2/4 = 4/8 = / ldots). Nyní si vzpomeňte na formu vztahů mezi zlomky, v nichž byly ilustrovány Simpsonovy zvraty, tj.
) begin {align} a / b & / lt A / B, \\ c / d & / lt C / D, / text {and} (a + c) / (b + d) & / gt (A + C) / (B + D). / end {zarovnat})
Nyní, považujeme výrazy za správné zlomky, můžeme mít (a / b = 2a / 2b) a (A / B = 5A / 5B); (c / d = 3c / 3d) a (C / D = 4C / 4D). Když se však tyto ekvivalentní reprezentace spojí, výsledné vztahy mezi zlomky se často budou lišit od původních vztahů. Např. ((2a + 3c) / (2b + 3d)) může být více nebo méně než ((a + c) / (b + d)). Proto je neplatné dospět k závěru, že vztahy mezi procenty nebo poměry, když jsou data sdružována, budou v souladu s pravidly, která jsou vykazována sadami, které obsahují oddíly dat. Ekvivalentní reprezentace poměrů přispívají při sdružování údajů různým způsobem.
Jedním ze způsobů, jak aritmeticky čelit těmto obtížím, je „normalizace“reprezentací dat z subpopulací a pouze sdružování normalizovaných reprezentací dat. Normalizace dat počítá účinky zkosení tím, že poskytuje konstantní jmenovatele pro frakce, které představují údaje, a reprezentuje subpopulace, které jsou srovnávány, jako by byly stejné velikosti v relevantních ohledech, v nichž jsou porovnány. Simpsonovy zvraty však ukazují, že existuje celá řada způsobů rozdělení populace, které jsou v souladu s asociacemi v celkové populaci. Rozdělení podle pohlaví může naznačovat, že muži i ženy se při nové léčbě léčili horší, zatímco rozdělení stejné populace podle věku ukázalo, že pacienti mladší 50 leta pacienti ve věku padesáti a více se dařilo lépe díky nové léčbě. Normalizace dat z různých způsobů rozdělení stejné populace poskytne nekompatibilní závěry o asociacích, které mají v celkové populaci.
Související bod vyjde ještě živěji, když jsou zlomky interpretovány jako pravděpodobnosti. Bylo uvedeno výše, že Simpsonovo zvrácení může mít následující pravděpodobnostní podobu: Je možné mít
) begin {zarovnat} P (A / mid B) & / gt P (A / mid { sim} B), / text {where} (A / mid B / amp C) & / lt P (A / mid { sim} B / amp C) text {a} / P (A / mid B / amp { sim} C) & / lt P ({ sim} B / amp { sim} C). / end {zarovnat})
Jedním ze způsobů, jak intuitivní zdůvodnění přehlédnout tuto možnost, je přehlížet tzv. Zákon úplné pravděpodobnosti a jeho význam pro toto nastavení. Z pravděpodobnostního počtu máme následující ekvivalence, které představují pravděpodobnosti jako vážené průměry.
) begin {align} P (A / mid B) & = P (A / mid B / amp C) P (B / mid C) + P (A / mid B / amp { sim} C) P (B / střední { sim} C) / P (A / střední { sim} B) & = P (A / střední { sim} B / amp C) P ({ sim} B / střední C) + P (A / mid { sim} B / amp { sim} C) P ({ sim} B / mid { sim} C) end {zarovnat})
Šikmé váhy pro (P (B / střední C)), (P (B / střední { sim} C)), (P ({ sim} B / střední C)) a (P ({ sim} B / mid { sim} C)) vytváří řadu možností, které jsou vyznačeny okrajovými podmínkami pro Simpsonovy zvraty. Např
) begin {align} P (A / mid B) & =.54 / text {and} / P (A / mid { sim} B) & =.44 / end {align})
Takže (B) je pozitivně relevantní pro (A). Nechť jsou váhy, které se vyskytují při znázornění těchto pravděpodobností z hlediska faktoru (C), následující:
) begin {zarovnat} P (B / střední C) & = 0,28, \\ P ({ sim} B / střední C) & = 0,72, \\ P (B / střední { sim} C) & =.66, / text {a} / P ({ sim} B / mid { sim} C) & =.34 / end {zarovnat})
Vzhledem k těmto váhám bude (B) pozitivně relevantní pro (A), ale bude negativně relevantní pro (A) v každé z buněk poskytovaných oddílem ({C, { sim }C}). Tj. [5]
) begin {zarovnat} P (A / střední B / amp C) & = 0,27, \\ P (A / střední B / amp { sim} C) & = 0,33, \\ P (A / mid { sim} B / amp C) & =.64, / text {a} / P (A / mid { sim} B / amp { sim} C) & = 0,66 / end {zarovnat})
Pokud intuitivní argumenty obecně ignorují role, které závaží hrají nebo nedokážou hrát ve svých úvahách o pravděpodobnosti, jsou náchylné k šoku, když se Simpsonovy zvraty objeví ve skutečných nebo možných datech. Dispozice k ignorování vážení v intuitivním uvažování by mohla vycházet z nevědomosti, zvyku nebo jako nemožné heuristiky při uvažování o pravděpodobnostních vztazích. Samozřejmě je to empirická otázka, zda takový dohled je zdrojem neplatného uvažování, nebo zda jiná hypotéza lépe vysvětluje, proč mnoho lidí považuje Simpsonovy zvraty zpočátku za nemožné, a proč zvraty nadále překvapují i poté, co byl jejich zdroj vysvětlen. jim.
3. Poskytují paradoxní údaje protiklady k principu jisté věci?
Pro teorie racionálního rozhodování je zásadní princip tzv. Principu jisté věci (dále jen STP). LJ Savage poskytuje následující formulaci:
Pokud byste určitě dávali přednost (g) před (f), buď s vědomím, že událost (C) získala, nebo s vědomím, že událost (C) nezískala, pak rozhodně preferujete (g) až (f) (Savage 1954, 21–2).
V teoriích racionálního výběru, ve kterých jsou preference uspořádány pravidlem maximalizace očekávané užitečnosti, je STP důsledkem skutečnosti, že očekávaná užitečnost opce může být reprezentována jako pravděpodobnostně vážený průměr očekávaných užitečností vzájemně se vylučujících a kolektivně vyčerpávajících způsoby, jak by svět mohl být za předpokladu, že je vybrána možnost. Např. „EU“představuje funkci, která přiřazuje očekávané obslužné programy, a „P“pravděpodobnostní funkci, [EU (A) = EU (A / amp B) P (B) + EU (A / amp { sim} B) P ({ sim} B).)
Když víte, že (B) platí, stane se parametrem očekávané utility (A) a podobně, když víte, že ({ sim} B) platí. Pokud tedy očekávaná hodnota přiřazená k (C) je menší než (A) za předpokladu, že víte, že (B) získá, a podobně za předpokladu, že (B) nezíská, potom je očekávaná hodnota (C) bezpodmínečně menší než očekávaná hodnota (A).
Nyní předpokládejme, že vám budou nabízeny sázky na uchazeče o zaměstnání v příkladu týkajícím se těchto dvou oddělení. Máte možnost vsadit na náhodně vylosovaného úspěšného uchazeče, který je mužem, nebo vsadit na náhodně vylosovaného úspěšného uchazeče, který je ženským. Nechť (C) je událost přihlášky do práce v historii a ({ sim} C) je událost přihlášky do práce v geografii. (Každý člověk v příslušné oblasti platí pro přesně jednu pozici.) Vzhledem k tomu, že úspěšnost žen byla vyšší než u mužů v obou odděleních, doporučuje STP, abyste ženy upřednostňovaly, jak si vyberete sázející? Dalo by se (neplatně) zdůvodnit následovně: vzhledem k tomu, že ženy mají větší šanci na úspěch ve svých přihláškách vzhledem k (C) a vzhledem k ({ sim} C),STP doporučuje preferovat sázky na ženy v loterii, ve které sázíte na pohlaví úspěšných uchazečů. Při stanovení příkladu by to samozřejmě byla špatná rada, protože úspěšnost mužů byla celkově vyšší. Vzhledem k vhodně velkému počtu sázek by mohla být chytrá bookmaker zajištěna hezkým ziskem, pokud by bettors podpořily ženy v soutěžích o zaměstnání. Jejich úspěšnost byla nižší než celková úspěšnost jejich konkurentů, přestože byla v každém oddělení vyšší. Jejich úspěšnost byla nižší než celková úspěšnost jejich konkurentů, přestože byla v každém oddělení vyšší. Jejich úspěšnost byla nižší než celková úspěšnost jejich konkurentů, přestože byla v každém oddělení vyšší.
Abychom viděli, co se při pokusu o uplatnění STP v tomto nastavení stalo nepříjemným, stačí poznamenat, že ze směsi, která obsahuje muže a ženy, je provedeno náhodné losování od úspěšných žadatelů a ve směsi je více mužů. (Připomeňme, že ženy se ucházely ve větším počtu o zaměstnání, které bylo těžší získat.) Pro použitelnost principu není dostačující, aby se pravděpodobnosti shodovaly se ženami, které mají větší šanci na úspěch v každém oddělení. Princip se vztahuje na preference, které se berou jako vážené průměry utilit s pravděpodobnostmi dodávajícími váhy. Prezentované možnosti jsou
(1) Náhodně vybraným úspěšným žadatelem je žena.
(2) Náhodně vybraným úspěšným žadatelem je muž.
Je třeba říci, že vybraný uchazeč požádal o místo v historii (C) nebo v geografii (({ sim}) C) nemá vliv na pravděpodobnost úspěchu ve směsi. To je zřejmé, když jsou očekávané užitkové možnosti opcí výslovně vyjádřeny jako vážené průměry. Při použití 'M' pro muže, '({ sim}) M' pro ženy, 'S' pro úspěšné a 'C' a '({ sim}) C' jako výše, očekávané nástroje pro možnosti jsou následující.
) begin {align *} tag {1} EU ({ sim} M / amp S) & = EU ({ sim} M / amp S / amp C) P (C / mid S / amp { sim} M) & / quad + EU ({ sim} M / amp S / amp { sim} C) P ({ sim} C / mid S / amp { sim} M) / \ tag {2} EU (M / amp S) & = EU (M / amp S / amp C) P (C / střední S / amp M) & / quad + EU (M / amp S / amp { sim} C) P ({ sim} C / střední S / amp M) end {zarovnat *})
Vzhledem k číslům použitým v příkladu jsou pravděpodobnostní vztahy mezi váhami následující:
) begin {align} P (C / mid S / amp { sim} M) & / gt P (C / mid S / amp M) text {and} / P ({ sim} C / mid S / amp { sim} M) & / gt P ({ sim} C / mid S / amp M). / end {zarovnat})
Právě tyto vztahy jsou zdrojem iluze, že si STP vybere možnost 1. Pravděpodobnost, že se úspěšná uchazečka uchazeče o místo v historii ukáže, je větší než pravděpodobnost jejího mužského konkurenta mezi uchazeči v historii a podobně u žen v Zeměpis. Pokud byly kandidáty roztříděny podle jejich přihlášek na příslušná oddělení, kde ženy měly vyšší úspěšnost, a losování bylo provedeno náhodně vybraným oddělením (s opakovaným losováním a náhradou, dokud není losován úspěšný uchazeč), nikoli ze směsi úspěšných uchazečů, pak nejlepší volbou by bylo pohlaví s vyšší mírou úspěšnosti v příslušných odděleních, tj. ženách. Takové uspořádání by nemělo být ovlivněno skutečností, že více žen se ucházelo o zaměstnání, které bylo těžší získat. Není to však ujednání, které bylo stanoveno pro sázky, u nichž se provádí výběr od sdružených úspěšných uchazečů. Šance na výběr muže (nebo ženy) z této směsi jsou nezávislé na oddělení, na které se úspěšní uchazeči přihlásili. V souladu s tím racionální bettors zjistí, že STP je v nastavení nepoužitelné, protože nebudou mít preference, které jeho aplikace vyžaduje, tj. Preferenci pro ženy, vzhledem k tomu, že se ucházely o práci v historii (C), a preferenci pro ženy, vzhledem k tomu, že se ucházely o práci v Geografii (({ sim} C)). Pro racionální bettorsŠance na výběr muže (nebo ženy) z této směsi jsou nezávislé na oddělení, na které se úspěšní uchazeči přihlásili. V souladu s tím racionální bettors zjistí, že STP je v nastavení nepoužitelné, protože nebudou mít preference, které jeho aplikace vyžaduje, tj. Preferenci pro ženy, vzhledem k tomu, že se ucházely o práci v historii (C), a preferenci pro ženy, vzhledem k tomu, že se ucházely o práci v Geografii (({ sim} C)). Pro racionální bettorsŠance na výběr muže (nebo ženy) z této směsi jsou nezávislé na oddělení, na které se úspěšní uchazeči přihlásili. V souladu s tím racionální bettors zjistí, že STP je v nastavení nepoužitelné, protože nebudou mít preference, které jeho aplikace vyžaduje, tj. Preferenci pro ženy, vzhledem k tomu, že se ucházely o práci v historii (C), a preferenci pro ženy, vzhledem k tomu, že se ucházely o práci v Geografii (({ sim} C)). Pro racionální bettorsPro racionální bettorsPro racionální bettors
) begin {zarovnat} EU ({ sim} M / amp S) & = EU ({ sim} M / amp S / amp C) & = EU ({ sim} M / amp S / amp { sim} C), / end {zarovnat})
a podobně pro (M), zatímco na obrázcích uvedených v příkladu, [EU ({ sim} M / amp S) lt EU (M / amp S).)
I když Simpsonovy zvraty nepodporují rozhodnutí, která jsou v rozporu se zásadou jisté věci, představují problémy praktického významu, když je třeba přijímat rozhodnutí o tom, co dělat. Měly by asociace v celkové populaci lidí řídit rozhodování v soudním řízení, jako je řízení prováděné společností Fixit? Nebo by měla asociace v subpopulacích mužů a žen řídit rozhodnutí o tom, zda brát léky? Připomeňme, že různé rozdělení celkové populace, např. Podle věku, může vykazovat asociace, jako jsou skupiny v celkové populaci, a obrácení skupin v rozdělení na základě pohlaví. Neexistují a priori metody, které by odpovídaly na otázky, zda asociace v agregovaných datech nebo asociace v oddílech agregovaných dat,jsou dobrým základem pro odvozování od příčin k účinkům nebo pro rozhodování o tom, co dělat. Jako vodítko pro rozhodování slouží nejlépe hypotézy o logické a kauzální struktuře konkrétních praktických problémů. Vzhledem k vhodným základním informacím mohou být vztahy mezi, např. Léčbami a regeneracemi v celkové populaci, naznačeným základem pro rozhodnutí o léčbě. Vzhledem k různým základním informacím mohou být vztahy mezi léčbami a výtěžky v hlavním členění populace identifikovány oproti asociacím v celkové populaci. Vzhledem k tomu, že v konkrétních případech neexistují nějaké podmíněné předpoklady o logických a kauzálních strukturách, pouhá asociace při rozhodování o tom, co dělat, nejsou nápomocná. Takže zatímco Simpsonovy zvraty nejsou paradoxní z logického hlediska,poukazují na konfliktní asociace, které se stanou skutečně paradoxními, pokud budou mít všechny kauzální význam.
4. Simpsonovy zvraty nerovností, korelace a příčinné souvislosti
Je běžné, že korelace mezi proměnnými neznamenají, že stojí v kauzálních vztazích. Zatímco některé korelace jsou čistě náhodné, jiné mohou být legální, i když nedojde k příčinnému spojení mezi korelovanými proměnnými - např. Korelace mezi padajícími barometry a deštěm je legální, protože jsou to společné účinky společné příčiny, tj. Klesající tlak vzduchu. Řízené experimenty se snaží odhalit korelace, které jsou pouze náhodné. Co tedy z robustních korelací mezi proměnnými, které mezi sebou nepřispívají? Hans Reichenbach navrhl, že robustní korelace mezi proměnnými je falešná [acausal], když existuje faktor, který „koreluje“korelaci a slouží jako společná příčina přidružených proměnných (Reichenbach 1971, Ch. 4). Řekněme, že (A) je spojen s B pouze tehdy, nejsou-li pravděpodobnostně nezávislí, tj. (P (A / střední B) ne P (A)). Reichenbach navrhl, že taková asociace je falešná za předpokladu, že existuje faktor (C) takový, že (P (A / střední B / amp C) = P (A / střední C)).
Simpsonovo zvrácení nerovností ukazuje, že z aritmetického hlediska vždy existuje faktor nebo výrok (C), který „odstraňuje“jakoukoli korelaci. Existence takového faktoru nemůže stačit k tomu, aby byla korelace falešná. Předpokládejme například, že pravděpodobnost (A) daného (B) je větší než bez (B). Následující diagram ilustruje tuto možnost s pravděpodobnostmi odpovídajícími proporcionálním velikostem uzavřených prostorů se všemi (A) představovanými uzavřeným obdélníkem, který je protínán čarou dělící (B) z ({ sim} B).
chybějící text, prosím informujte
Obrázek 1. (P (A / střední B) gt P (A / střední { sim} B))
Hraniční podmínky pro Simpsonovy zvraty zaručují, že existuje (C), které protíná stejné části (A / amp B) a (A / amp { sim} B). V části 1 bylo uvedeno, že aritmetické možnosti se rovnají existenciálním podmínkám pro aritmetická fakta. Za předpokladu, že vzorkovací prostor lze rozdělit dostatečně jemně, lze pravděpodobnostní relevanci mezi (A) a (B) „vymýtit“libovolným faktorem (C), v rámci kterého je pravděpodobnost (A) amp B) a (A / amp { sim} B) jsou si rovni. Následující graf ilustruje tuto aritmetickou možnost:
chybějící text, prosím informujte
Obrázek 2. (P (A / mid B / amp C) = P (A / mid { sim} B / amp C))
kde (C) je reprezentován rovnoběžníkem, který je přerušen hranicí mezi (B) a ({ sim} B) a skládá se ze stejných částí (A / amp B) a (A / amp { sim} B). (C) je libovolný návrh nebo faktor. Protože uzavřené prostory odpovídají pravděpodobnostem, (P (A / mid B / amp C) = P (A / mid { sim} B / amp C)). Takže (C) 'se vypne' (A) z (B); jeho existence je však zjevně nedostatečná, aby ukázala, že korelace mezi (A) a (B) je falešná. Zatímco „skríning“může poskytnout nezbytnou podmínku pro prokázání, že korelace mezi proměnnými je způsobena společnou příčinou, je zaručeno, že tato nezbytná podmínka bude splněna základní aritmetikou počtu pravděpodobnosti. Musí být stanoveny další věcné podmínky nad rámec pravděpodobných vztahů mezi (A), (B),a (C) za účelem identifikace (C) jako běžné příčiny (A) a (B).
Závěr, že zákonně korelované proměnné jsou kauzálně nezávislé na sobě, pokud je korelace způsobena společnou příčinou, je zvláštním případem obecnějšího pohledu, který způsobuje zvýšení šance na jejich účinky. [6] Pokud existuje společná příčina (C) korelace mezi proměnnými (B) a (A), (B) nezpůsobí (A); zvýšení šancí (A) je způsobeno (C), a zatímco (B) může být příznakem (A), je to tak díky tomu, že je to samostatný efekt (C), které předchází (A). Následující vztahy ilustrují tyto vztahy. (Šipky představují směry příčinných spojení.)
chybějící text, prosím informujte
Obrázek 3. (B) předchází (A) a (C) je častou příčinou (B) a (A)
Vzhledem k (C), (B) nezvyšuje šance (A). Základní myšlenkou analýz příčinných souvislostí z hlediska zvyšování šance je to, že příčiny podporují jejich účinky. V deterministickém prostředí mají šance pouze extrémní hodnoty a příčiny nezvyšují „účinky“šance na výskyt s výjimkou v degenerovaném smyslu, že zvyšují šance na jejich účinky z nuly bez nich na jeden s nimi (s výjimkou případů deterministického předjímání)). Je však podmíněno, zda je svět, ve kterém žijeme, deterministický nebo neurčitý, a koncepty příčinných souvislostí musí přizpůsobit druhou možnost i prvou. Na reprezentace deterministické kauzality lze pak pohlížet jako na zvláštní případ pravděpodobnostní kauzality, ve které jsou příčiny dostatečné a nezbytné pro jejich účinky.
S ohledem na Simpsonovy zvraty nerovností se pravděpodobnostní vztahy mezi proměnnými budou v různých oddílech populací nebo stavových prostorech značně lišit. Tato skutečnost o pravděpodobnostních vztazích je neocenitelným zdrojem pro reprezentaci složitých vztahů mezi sítěmi příčin a jejich účinků v pravděpodobnostních termínech. Příčiny mohou nejen podporovat účinky, ale mohou také podporovat nepřítomnost nebo inhibovat účinky, které by se mohly vyskytnout v jejich nepřítomnosti. Např. Pravidelné cvičení inhibuje nebo snižuje šance na kardiovaskulární poruchy. Podle toho, co podporuje pravidelné cvičení, také podporuje kardiovaskulární zdraví, i když také podporuje kardiovaskulární onemocnění. Cartwright uvádí následující příklad. Kouření způsobuje srdeční choroby,ale také by to mohlo způsobit, aby kuřáci začali cvičit ve větším počtu než nekuřáci. V takovém případě by kouření mohlo nepřímo způsobit kardiovaskulární zdraví a současně přímo způsobit onemocnění. Následující znaménka plus a mínus označující, zda příčina podporuje nebo inhibuje účinek, představuje kauzální uspořádání, ve kterém kouření může podpořit kardiovaskulární zdraví při přímé podpoře nemoci.
chybějící text, prosím informujte
Obrázek 4.
Např. Pokud kouření zvýší šance na srdeční onemocnění o 25%, ale také zvýší šance na pravidelné cvičení o 40%, zatímco cvičení sníží šance na onemocnění o 70%, kuřáci budou mít na oplátku prospěch ze svého zvyku s ohledem na kardiovaskulární zdraví. V tomto uspořádání by mohl být Simpsonův zvrat, kde kuřáci, kteří vykonávají jízdné horší než nekuřáci, kteří vykonávají, a podobně pro kuřáky, kteří nevykonávají ve srovnání s nekuřáky, zatímco míra nemoci kuřáků je celkově nižší. Čistý kauzální účinek kouření na zdraví je v příkladu pozitivní díky příspěvku třetí proměnné, což je účinek kouření. Jsou to příčinné přínosy dalších proměnných, které jsou zdrojem Simpsonova zvratu v jiných příčinných sestavách, kde jsou účinky přímých příčinných souvislostí modifikovány příspěvky dalších proměnných. Patří sem případy, kdy přímé účinky jsou anulovány inhibičními účinky doprovodného faktoru, např. Látky, které jsou zvlášť jedovaté, kyselé a zásadité, mohou vzájemně působit tak, aby při jejich vzájemném působení neměly žádný škodlivý účinek. Každý působí jako protijed pro druhé.[7] Další zapletení zahrnují případy, kdy je příčina, která podporuje účinek, doprovázena inhibiční příčinou účinku a oba jsou účinky společné příčiny. Např,
chybějící text, prosím informujte
Obrázek 5. Šanci (E) není narušena běžnou příčinou (CC).
Interpretace tohoto diagramu: trombóza může být účinkem těhotenství a může být také účinkem některých složek antikoncepčních tablet. Jak těhotenství, tak tablety zvyšují šance na trombózu. Tablety však snižují šance na těhotenství a čistý účinek na populace žen, které tablety užívají, nemůže vykazovat žádnou změnu frekvence trombózy. Příklady, jako jsou ty, které byly získány, ukazují, že pro kauzální vztah mezi dvěma proměnnými není ani nezbytné, ani dostatečné, že jedna zvyšuje šance druhé. Cartwright (2001, 271) uvádí tuto otázku takto: „Příčiny mohou zvýšit pravděpodobnost jejich účinků; ale nemusí. A naopak: zvýšení pravděpodobnosti může být způsobeno příčinnou souvislostí; ale mnoho dalších věcí může být také zodpovědných. “
Je Cartwrightovo pozorování příčinou pesimismu ohledně programu analýzy kauzality a kauzální relevance v pravděpodobnostních termínech? Ne nutně. Vytváří problém o příčinných zapleteních, která nejsou sledována pravděpodobnostními vztahy a pravděpodobnostních zapleteních, která nejsou způsobena příčinnými vztahy. Program poskytování pravděpodobnostních reprezentací kauzálních vztahů musí zajistit podmínky, které rozdělí kauzální sítě. Je vyžadován způsob nalezení správných oblastí populace, kde ty pravé jsou ty, jejichž pravděpodobnostní vztahy sledují příčinné souvislosti a zároveň drží příslušné pevné faktory pozadí. V literatuře bylo předloženo několik různých návrhů o pravděpodobnostních příčinných souvislostech, jejichž cílem je poskytnout kritéria pro nalezení správných oddílů dat za účelem identifikace příčinných spojení.
Návrhy se dělí do dvou širokých kategorií: (1) Reduktivní návrhy: neodvolávají se na kauzální koncepty a jejich cílem je poskytnout filtr korelací, který identifikuje, které korelace jsou falešné. Korelace, které nejsou falešné, mají odpovídat intuici o kauzálních vztazích a implementovat role, které jsou intuitivně přiřazeny kauzálním vztahům. [8](2) Nereduktivní návrhy: nejedná se o používání kauzálních konceptů k rozlišení falešných a kauzálních korelací. Návrhy z této druhé skupiny jsou obecně skeptické ohledně programu Humean, který motivuje reduktivní návrhy, a nastavení, která jsou příklady Simpsonova zvratu, jsou jedním z jejich hlavních kritických skalpelů (Cartwright 1979, a zejména Dupre & Cartwright 1988). I oni však čelí problému zajištění filtru korelací, který označuje, které z nich jsou rušivé, ale necítí se nuceni vyhýbat se odkazům na příčinné vztahy při poskytování kritérií pro výběr oddílů, které poskytují spolehlivá data pro příčinné závěry. Stručně řečeno, jak redukcionisté, tak anti-redukcionisté, kteří podporují program zastupování příčinných vztahů z hlediska pravděpodobnostních vztahů, navrhují, aby
(C) způsobí (E) jestliže a jediný jestliže pravděpodobnost (E) je větší daný (C) než daný ne (C), za předpokladu, že (ldots X / ldots).
Tato podmínka je nezbytná pro filtrování případů, kdy pravděpodobnostní vztahy mezi událostmi typu (C) a událostmi typu (E) nesledují příčinné vztahy. Jejich názory se dělí na to, zda příčinné koncepty musí nebo mohou být použity bez začarované kruhovitosti při vyhláskování obsahu výhrady (ldots X / ldots). Redukcionisté hledají způsoby, jak zpřesnit podmínku, pokud jde o homogenní referenční třídy, kde je homogenita vyjádřena pomocí robustních korelací podmíněných souborem faktorů, které jsou považovány za pevné. Anti-redukcionisté se rychle ptají: jaké faktory? Přijetí všech možných faktorů za relevantní je nejen epistemologicky neřešitelné, ale může vést k hloupým závěrům, pokud lze všechny, ale absolutně základní kauzální procesy manipulovat zavedením některých intervenujících faktorů. Např,pravděpodobnost úmrtí při srdečním infarktu je větší než bez srdečního infarktu, ale přínos srdečního infarktu je „stíněn“v případech, kdy se srdeční infarkt shoduje s tím, že byl spuštěn kamionem. V tomto příkladu jsou šance na smrt příliš předurčené. Případy nadměrného určení jsou extrémními příklady příčinných sítí, ve kterých je pravděpodobnostní význam vypláchnut nebo převrácen příčinami exogenní proměnné. V experimentálních vědách jsou pokusy izolovat interakce mezi faktory od intervenujících proměnných standardním postupem. To, čeho lze dosáhnout i za nejlepších laboratorních podmínek, však nebude vyhovovat ideálu, který ukazuje, že neexistují žádné intervenující faktory, na kterých závisí korelace. Pro ukázku toho druhého by bylo nutné prokázat, že negativní existenciální tvrzení je pravdivé.
Anti-redukcionisté mají připravenou odpověď na otázku, jaké faktory je třeba při stanovení pravděpodobnostních závislostí a pravděpodobnostní nezávislosti stanovit pevně. Chtějí, aby byly všechny potenciálně příčinně relevantní faktory, které jsou předmětem zájmu, pevně stanoveny pro účely identifikace pravděpodobných vztahů mezi C a E, které jsou způsobeny a jsou způsobilé k reprezentaci příčinných spojení. Podle tohoto přístupu poskytují referenční třídy, které jsou kauzálně homogenní, vhodný základ pro vyhodnocení pravděpodobnostních vztahů. Pak se podíváme na vědecké teorie na pozadí a další znalosti kauzálních vztahů, abychom určili, zda jsou referenční třídy kauzálně homogenní. [9]V mnoha případech však naše zvědavost na kauzální vztahy převyšuje naši současnou znalost kauzálně relevantních proměnných, které je třeba udržovat pevné. Inference z kauzálních vztahů ze statistických dat, která mohou být vždy protichůdná s obrácenými zákonitostmi v různých částech dat, mohou vést k nekonzistentním tvrzením o kauzálních vztazích.
Výzkumníci se však potýkají s otázkou, zda asociace v agregovaných datech jsou rušivé, nebo zda jsou asociace v rozdělených datech rušivé. Různé kauzální modely (reprezentované různými řízenými acyklickými grafy) budou schopny reprezentovat různé odpovědi v různých případech (viz záznam o pravděpodobnostní příčině). Tyto modely mohou být testovány zásahy, které izolují a kontrolují hodnoty přijaté proměnnými, které jsou zdánlivými příčinami účinků, které jsou pro výzkumníka zajímavé. Správně provedené experimenty izolují proměnné, které se mají manipulovat, a poté odečtou účinky manipulací (viz záznam o příčinných souvislostech a manipulaci). V takzvaném „kritériu zadních dveří“(Pearl 1993) se přesně uvádí, co je nutné, aby byla nějaká proměnná vhodně izolována pro manipulaci. Problémy, které představují Simpsonovy zvraty, lze tedy vyřešit testováním různých kauzálních hypotéz, které jsou v souladu s pozorovanými údaji, kde testy pomocí zásahů poskytují základ, nad rámec pouhého pozorování, pro přijetí některých kauzálních modelů jako správné reprezentace příčinných souvislostí a za odmítnutí ostatních, kteří mají pouze falešná sdružení. Simpsonův „paradox“je tak vyřešen v tom smyslu, že je možné testovat různé kauzální hypotézy, které odhalí, které asociace jsou falešné. (Více o této metodě viz Pearl 2014.)problémy vyvolané Simpsonovými zvraty mohou být vyřešeny testováním různých kauzálních hypotéz, které jsou konzistentní s pozorovanými daty, kde testy pomocí intervencí poskytují základ, nad rámec pouhých pozorování, pro přijetí některých kauzálních modelů jako správných reprezentací kauzálních spojení a pro odmítnutí jiní, kteří mají jen falešné asociace. Simpsonův „paradox“je tak vyřešen v tom smyslu, že je možné testovat různé kauzální hypotézy, které odhalí, které asociace jsou falešné. (Více o této metodě viz Pearl 2014.)problémy vyvolané Simpsonovými zvraty mohou být vyřešeny testováním různých kauzálních hypotéz, které jsou konzistentní s pozorovanými daty, kde testy pomocí intervencí poskytují základ, nad rámec pouhých pozorování, pro přijetí některých kauzálních modelů jako správných reprezentací kauzálních spojení a pro odmítnutí jiní, kteří mají jen falešné asociace. Simpsonův „paradox“je tak vyřešen v tom smyslu, že je možné testovat různé kauzální hypotézy, které odhalí, které asociace jsou falešné. (Více o této metodě viz Pearl 2014.)Simpsonův „paradox“je tak vyřešen v tom smyslu, že je možné testovat různé kauzální hypotézy, které odhalí, které asociace jsou falešné. (Více o této metodě viz Pearl 2014.)Simpsonův „paradox“je tak vyřešen v tom smyslu, že je možné testovat různé kauzální hypotézy, které odhalí, které asociace jsou falešné. (Více o této metodě viz Pearl 2014.)
5. Simpsonovo zvrácení nerovností v evolučním nastavení
Simpsonovy zvraty nerovností mají uplatnění v ekonomické teorii a populační genetice, zejména v případech zahrnujících konkurenci mezi podniky nebo organismy. Ve výše uvedeném příkladu rozdílného najímání mužů a žen si představte, že bychom měli mapovat ženy na, řekněme, „lemmings“a muži na, řekněme „krysy“. Představte si lemmings jako altruistické a sebeobětující, nebo si je představte, že jsou iracionální, neúčinné nebo líné - ať už tak či onak, představte si, že se chovají způsobem, který prospívá jejich sousedům na jejich vlastní náklady. Představte si, že krysy jsou sobecké, racionální a efektivní a pravidelně získávají výhody na úkor svých sousedů.
Dále mapujte oddělení historie na Norsko během velmi těžké zimy v Norsku a předpokládejte, že v Norsku je více krys než lemmings. Pak je život pro každého v Norsku těžký a pro lemmings je ještě těžší než pro krysy. Namapujte oddělení geografie na Švédsko, které je uprostřed velmi mírné zimy, a předpokládejte, že ve Švédsku bude více lemmings než krys. Pak je život pro každého ve Švédsku snazší, i když je to ještě jednodušší pro potápěčské a oportunní krysy než pro lemmings. Nakonec vezměte v úvahu míru reprodukce potkanů a lemmatů v celkové rozloze půdy obou zemí. (Nebo, pokud tyto „krysy“a „lemmings“byly podniky, zvažte jejich relativní míru bankrotu.) Čísla by pak mohla ukazovat stejný vzorec, jaký jsme popsali pro míru najímání mužů a žen na Kalifornské univerzitě:
Lemmings
Krysy
Norsko
((1 / krát 10 ^ 9) / (5 / krát 10 ^ 9))
(lt)
((2 / krát 10 ^ 9) / (8 / krát 10 ^ 9))
Švédsko
((6 / krát 10 ^ 9) / (8 / krát 10 ^ 9))
(lt)
((4 / krát 10 ^ 9) / (5 / krát 10 ^ 9))
Skandinávie
((7 / krát 10 ^ 9) / (13 / krát 10 ^ 9))
(gt)
((6 / krát 10 ^ 9) / (13 / krát 10 ^ 9))
Lemmings ztrácí půdu v Norsku a ztrácí půdu ve Švédsku; přesto získávají půdu v kombinovaných oblastech, které tvoří tyto dvě země.
Důvodem, že lemmings získávají půdu v kombinované oblasti obou zemí, je to, že více lemmings žije v místech, kde je vyšší míra přežití. Všimněte si, že míra přežití je tam vyšší právě proto, že tam žije více lemmatů. Pokud se tedy potkany spojí, sobecká účinnost každé krysy bude špatná nejen pro špatné lemování v sousedství, ale také pro jiné krysy. I když jen o málo více potkanů žije v jednom regionu a ne v jiném, pokud výhody, které získají na náklady svých sousedů, budou příliš extrémní, sníží se tím míra přežití všech v této čtvrti, včetně krys; toto urychlí Simpsonovo obrácení a počet krys začne globálně klesat ve srovnání s lemmingy.
V darwinovské evoluční teorii i ve většině ekonomických teorií je těžké pochopit, jak by se „altruismus“(nebo v tomto ohledu systematická neefektivnost) mohl vyvíjet nebo být dlouhodobě udržován. To znamená, že je těžké pochopit, jak by populace mohla udržet dědičné vzorce chování, z nichž budou mít prospěch konkurenti jednotlivého podniku nebo organismů na úkor dlouhodobých šancí na přežití nebo reprodukční úspěch pro tyto jedince a jiné osoby se stejnými dispozicemi.. Z tohoto důvodu má značný teoretický význam prozkoumat aplikace Simpsonova paradoxu, zjistit, zda by to mohlo pomoci vysvětlit nejen altruismus, ale také iracionalitu, neefektivnost, lenost a další zlozvyky, které mohou převládat v populacích,a to může vést k tomu, že populace nedosáhne ekonomického racionalistického nebo darwinovského ideálu bezohledně účinného pronásledování každého jednotlivce vlastním ziskem nebo dlouhodobým reprodukčním úspěchem. Celkově je to pravděpodobně veselá zpráva.
Bibliografie
Axelrod, R., 1984, Evoluce spolupráce, New York: Základní knihy.
Bickel, PJ, Hjammel, EA a O'Connell, JW, 1975, „Sex Bias in Graduate Admissions: Data from Berkeley“, Science, 187: 398–404.
Blyth, CR, 1972, „Na Simpsonově paradoxu a principu jistých věcí“, Journal of American Statistical Association, 67: 364–366.
Cartwright, N., 1979, „Kauzální zákony a účinné strategie“, Noûs, 13 (4): 419–437.
––– 2001, „Co je špatného na Bayes Nets?“, The Monist, 84 (2): 242–265. Pravděpodobně je vydán velmi průvodce životem, JE Kyburg, Jr. a M. Thalos (eds.), Chicago a La Salle, IL: Open Court, 2003, 253–275.
Cohen, MR a Nagel, E., 1934, Úvod do logické a vědecké metody, New York: Harcourt, Brace and Co.
Dawid, AP, 1979, „Podmíněná nezávislost ve statistické teorii“, Journal of Royal Statistical Society (Series B), 41: 1-15.
Dupre, J. a Cartwright, N., 1988, „Pravděpodobnost a kauzalita: Proč se Hume a neurčitý nemísí“, Noûs, 22: 521–536.
Eells, E., 1987, „Cartwright a Otte na Simpsonově paradoxu“, Philosophy of Science, 54: 233–243.
Glymour, C. and Meek, C., 1994, „Condition and Intervening“, British Journal for the Philosophy of Science, 45: 1001–1021.
Hardcastle, VG, 1991, „Rozdělení, pravděpodobnostní kauzální zákony a Simpsonův paradox,“Synthese, 86: 209–228.
Hesslow, G., 1976, „Diskuse: Dvě poznámky o pravděpodobnostním přístupu k kauzalitě“, Philosophy of Science, 43: 290–292.
Lindly, DV a Novick, MR, 1981, „Úloha zaměnitelnosti při odvozování“, Journal of American Statistical Association, 9: 45–58.
Malinas, G., 1997, „Simpsonův paradox a nevyzpytatelný výzkumník“, Australasian Journal of Philosophy, 75: 343–359.
–––, 2001, „Simpsonův paradox: Logicky benigní, empiricky zradná hydra“, The Monist, 84 (2): 265–284. Pravděpodobně je znovu vydán Průvodce životem, Henry E. Kyburg, Jr. a Mariam Thalos (eds.), Chicago a La Salle, IL: Open Court, 2003, 165–182.
Mittal, Y., 1991, „Homogenita subpopulací a Simpsonův paradox“, Journal of American Statistical Association, 86: 167–172.
Otte, R., 1985, „Pravděpodobná kauzalita a Simpsonův paradox“, Filozofie vědy, 52: 110–125.
Pearl, J., 1988, Pravděpodobnostní uvažování v inteligentních systémech, San Mateo, CA: Morgan Kaufman.
–––, 2000, Příčinnost: Modely, uvažování a odvozování, New York, Cambridge: Cambridge University Press. [Druhé vydání, 2009.]
––– 2014, „Komentář: Porozumění Simpsonova paradoxu“, The American Statistician, 68: 8–13.
Reichenbach, H., 1971, The Direction of Time, Berkeley: University of California Press.
Savage, LJ, 1954, základy statistik, New York: John Wiley a synové.
Simpson, EH, 1951, „Interpretace interakce v kontingenčních tabulkách“, Journal of Royal Statistical Society (Series B), 13: 238–241.
Skyrms, B., 1980, Causal Necessity, New Haven; Yale University Press.
Sober, E., 1993, The Nature of Selection, Chicago: University of Chicago Press.
–––, 1993, Filozofie biologie, Oxford: Oxford University Press.
Sober, E. a DS Wilson, 1998, Unto others: Evoluce a psychologie nesobeckého chování, Cambridge, MA: Harvard University Press.
Spohn, W., 2001, „Bayesovské sítě jsou příčinou kauzality“, ve Stochastic Dependence and Causality, D. Constantini, MC Galavotti a P. Suppes (eds.), Stanford: CSLI Publications.
Sunder, S., 1983, „Simpsonův reverzní paradox a alokace nákladů“, Journal of Accounting Research, 21: 222-233.
Suppes, P., 1970, Pravděpodobná teorie kauzality, Amsterdam; North-Holland Publishing Co..
Thalos, M., 2003, „Snížení příčinných souvislostí“, v H. Kyburg a M. Thalos (eds.), Pravděpodobnost je velmi průvodce životem: Filozofické využití náhody, Chicago: Open Court.
Thornton, RJ, a Innes, JT, 1985, „O Simpsonově paradoxu v ekonomické statistice“, Oxford Bulletin of Economics and Statistics, 47: 387–394.
Van Frassen, BC, 1989, Laws and Symmetry, Oxford: Clarendon.
Yule, GH, 1903, „Poznámky k teorii asociace atributů ve statistice“, Biometrika, 2: 121–134.
Akademické nástroje
ikona sep muž
Jak citovat tento záznam.
ikona sep muž
Náhled na PDF verzi tohoto příspěvku v Friends of the SEP Society.
ikona inpho
Vyhledejte toto vstupní téma v projektu Internet Philosophy Ontology Project (InPhO).
ikona papíry phil
Vylepšená bibliografie tohoto záznamu ve PhilPapers s odkazy na jeho databázi.
Další internetové zdroje
Simpsonův paradox, z webových stránek Průzkumná data vzdělávací Queensland (Austrálie) (archivováno v internetovém archivu)
Simpsonův paradox, Alan Crowe (archivováno v internetovém archivu)
Simpsonova paradoxní situace, kdy dojde k poškození velkých datových sad, v úžasných aplikacích pravděpodobnosti a statistiky na www.intuitor.com.
Online papír od Nicka Chatera, Ivo Vlaeva a Maurice Grinberga: „Nový důsledek Simpsonova paradoxu: Stabilní spolupráce v jednorázovém vězeňském dilematu z populací individualistických učících se agentů,“University College London / New Bulgarian University.
Vstupní navigace Obsah příspěvku Bibliografie Akademické nástroje Náhled PDF přátel Informace o autorovi a citaci Zpět na začátek Curryho paradox První publikované st 6. září 2017; věcná revize Pá 19. ledna 2018 „Curryho paradox“, jak jej dnes používají filosofové, odkazuje na širokou paletu paradoxů sebepoznání nebo kruhovitosti, které sledují jejich moderní předky k Currymu (1942b) a Löbovi (1955).
Vstupní navigace Obsah příspěvku Bibliografie Akademické nástroje Náhled PDF přátel Informace o autorovi a citaci Zpět na začátek Fitchův paradox poznání Poprvé publikováno po 7. října 2002; věcná revize Čt 22. srpna 2019 Fitchův paradox znatelnosti (aka paradoxu znatelnosti nebo paradoxu Church-Fitch Paradox) se týká jakékoli teorie oddané tezi, že všechny pravdy jsou znatelné.
Vstupní navigace Obsah příspěvku Bibliografie Akademické nástroje Náhled PDF přátel Informace o autorovi a citaci Zpět na začátek Russellův paradox První publikováno 8. prosince 1995; věcná revize ne 9. října 2016 Russellův paradox je nejslavnější z logických nebo množinově teoretických paradoxů.
Vstupní navigace Obsah příspěvku Bibliografie Akademické nástroje Náhled PDF přátel Informace o autorovi a citaci Zpět na začátek Paradox napětí První vydání 6. července 2009 Konečný úspěch hollywoodských trháků závisí na opakovaných pohledech.
Vstupní navigace Obsah příspěvku Bibliografie Akademické nástroje Náhled PDF přátel Informace o autorovi a citaci Zpět na začátek Petrohradský paradox První zveřejněné Út 30. července 2019 Petrohradský paradox zavedl Nicolaus Bernoulli v roce 1713.