Nie zawracaj sobie głowy publikowaniem, dopóki nie wykonasz „replikacji wewnętrznej”.

Niska wartość p nie potwierdza hipotezy i może wystąpić nawet wtedy, gdy testowana hipoteza jest fałszywa. Używanie odcięcia dla znaczenia jest również fałszywą dychotomią – w rzeczywistości wartości p są kontinuum. Istnieje wiele innych aspektów danych, które są równie ważne lub ważniejsze niż wartości p, takie jak wielkość efektu, odtwarzalność, przedziały ufności i bayesowska analiza prawdopodobieństwa.

Poleganie na arbitralnym odcięciu w celu uzyskania znaczenia zachęca również do p-hackowania – wykorzystywania stopni swobody badacza do przesuwania wyników do mety. Same wartości P nie są bardzo powtarzalne. Jeśli wykonasz to samo badanie wiele razy, otrzymasz zakres wartości p, więc która z nich jest prawidłowa? Ostatecznie same wartości p nie mówią nam wiele o rzeczywistości hipotezy.

W odpowiedzi na rosnącą świadomość wielu problemów z wartościami p oraz nadmierne poleganie na arbitralnej „istotności” zaproponowano kilka poprawek. Niektóre czasopisma po prostu zabroniły stosowania wartości p. Nie będą publikować opartych na nich badań i zachęcają do korzystania z dokładniejszych analiz statystycznych. Inni proponowali obniżenie wartości granicznej istotności, na przykład z 0,05 do 0,005, aby przynajmniej zredukować wyniki fałszywie dodatnie (chociaż zwiększyłoby to liczbę wyników fałszywie ujemnych).

Ten nowy komentarz proponuje jeszcze inne rozwiązanie – zachować wartość p, ale pozbyć się arbitralnego odcięcia dla istotności statystycznej. W jego miejsce dodaj dokładniejszą analizę statystyczną.

Co te wszystkie niepewne argumenty statystyczne oznaczają dla przeciętnego laika, który po prostu chce wiedzieć, czy jedzenie czekolady pomoże im schudnąć (nie pomoże)? Wielkim wnioskiem jest – nie zrównuj istotności statystycznej z hipotezą, która jest prawdziwa. Zdaj sobie sprawę, że większość takich badań jest ostatecznie błędna. Poczekaj, aż ekspert umieści wyniki w kontekście. Pomyśl o rzeczach takich jak wiarygodność – czy wyniki w ogóle mają sens?

Mając to wszystko na uwadze, wróćmy do badania pestycydów i autyzmu. To, co zrobili, to zebrali dane od rejestratorów dotyczące stosowania pestycydów, a także diagnoz autyzmu i wykonali jakąś fantazyjną analizę statystyczną shmancy (jeśli musisz wiedzieć, przeprowadzili analizę regresji logistycznej wielu zmiennych). Znaleźli:

Ryzyko zaburzeń ze spektrum autyzmu było związane z prenatalną ekspozycją na glifosat (iloraz szans 1,16, 95% przedział ufności 1,06 do 1,27), chloropiryfos (1,13, 1,05 do 1,23), diazynon (1,11, 1,01 do 1,21), malation (1,11, 1,01 do 1,22), awermektyna (1,12, 1,04 do 1,22) i permetryna (1,10, 1,01 do 1,20). W przypadku zaburzeń ze spektrum autyzmu z niepełnosprawnością intelektualną szacunkowe ilorazy szans były wyższe (o około 30%) dla prenatalnej ekspozycji na glifosat (1,33, 1,05 do 1,69), chloropiryfos (1,27, 1,04 do 1,56), diazynon (1,41, 1,15 do 1,73), permetryna (1,46, 1,20 do 1,78), bromek metylu (1,33, 1,07 do 1,64) i myklobutanil (1,32, 1,09 do 1,60); narażenie w pierwszym roku życia zwiększało prawdopodobieństwo wystąpienia zaburzenia ze współwystępującą niepełnosprawnością intelektualną nawet o 50% w przypadku niektórych substancji pestycydowych.

Doniesienia mediów głównego nurtu sprowadzają to wszystko do – glifosat powoduje autyzm. Ale w tym badaniu jest wiele zastrzeżeń, które składają się na fakt, że nie możemy wiele wyciągnąć z tych danych. Pierwszą rzeczą, jaką zauważyłem, było to, że iloraz szans był dość mały, więc rozmiar efektu jest tutaj stosunkowo niewielki. Biorąc pod uwagę, że jest to badanie obserwacyjne oparte na populacji, oznacza to, że istnieje wiele potencjalnych czynników zakłócających. Autorzy starają się kontrolować te oczywiste, o których mogą pomyśleć, ale nie sposób pomyśleć o nich wszystkich. Ponadto im mniejszy rozmiar efektu, tym subtelniejszy czynnik zakłócający i trudniej go kontrolować.

Jednak – jest większy problem, który stawia pod znakiem zapytania same wyniki statystyczne. Patrząc na dane, szybko przyszło mi do głowy pytanie – ile różnych porównań faktycznie zrobili? Cóż, pierwsza odpowiedź na badanie opublikowane przez The BMJ miała odpowiedź. Dr John Tucker zauważył:

W podręcznikowym przykładzie testowania wielu hipotez autorzy zbadali wpływ szacowanej ekspozycji na 11 różnych pestycydów w 3 różnych okresach rozwojowych na dwa różne niekorzystne skutki rozwojowe. Spośród 66 ocenionych punktów końcowych doszli do wniosku, że prenatalna ekspozycja na 6 z tych pestycydów wiąże się z 10-20% wzrostem ryzyka zaburzeń autystycznych, a prenatalna ekspozycja na częściowo pokrywającą się listę (3 z 6) wiąże się z zaburzeniami autystycznymi z niepełnosprawnością intelektualną.

Jest to jeden z „badaczy stopni swobody”, o których mówi Simmons i in. glin. ostrzegali w swojej nowatorskiej gazecie. Jest to również niezwykle powszechne w artykułach naukowych – badacze przyglądają się wielu danym pod wieloma różnymi kątami, dopóki nie znajdą czegoś interesującego, a następnie to publikują. Jest to w porządku, jeśli tylko tworzysz hipotezy we wstępnym badaniu, ale dane w rzeczywistości nic nie znaczą, dopóki nie potwierdzisz wyników świeżymi danymi. W rzeczywistości coraz częściej wzywa się naukowców do bardziej rutynowego robienia właśnie tego. Nie zawracaj sobie głowy publikowaniem, dopóki nie wykonasz „replikacji wewnętrznej”. W przeciwnym razie po prostu zalewamy literaturę naukową fałszywymi trafieniami z eksploracji danych dla wszelkich przypadkowych korelacji.

W końcu mamy artykuł, w którym wykorzystano wielokrotne porównania, aby znaleźć bardzo małe rozmiary efektów, co jest wysoce prawdopodobne, że będzie fałszywym odkryciem, które się nie powtórzy. Ale to nie ma znaczenia, ponieważ ideolodzy już wykorzystali ten artykuł jako uzasadnienie zła glifosatu, a nawet GMO (chociaż nie ma to nic wspólnego z GMO). Wyjaśnienie, dlaczego wyniki prawdopodobnie nie są wiarygodne, najczęściej powoduje, że oczy ludzi są zaszkliwione. (Ludzie mówili mi, że jak tylko wspomnę o wartości p, wyłączają się).

Najwyraźniej te kwestie statystyczne muszą zostać rozwiązane przez naukowców i statystyków, a nie przez ogół społeczeństwa czy nawet media. Przynajmniej problem został rozpoznany i omówiony oraz zaproponowane potencjalne rozwiązania. Oczywiście instytucje naukowe muszą dokładnie przyjrzeć się całemu zagadnieniu wartości p i istotności statystycznej oraz sposobom ich wykorzystywania i raportowania w badaniach.

Autor

Steven Novella

Założyciel i obecnie redaktor naczelny Science-Based Medicine Steven Novella, MD, jest akademickim neurologiem klinicznym w Yale University School of Medicine. Jest także gospodarzem i producentem popularnego cotygodniowego podcastu naukowego The Skeptics’ Guide to the Universe oraz autorem NeuroLogicaBlog, codziennego bloga, który zawiera aktualności i zagadnienia z dziedziny neuronauki, ale także nauk ogólnych, sceptycyzmu naukowego, filozofii nauka, krytyczne myślenie i przecięcie nauki z mediami i społeczeństwem. Dr Novella opracowała również dwa kursy z The Great Courses i opublikowała książkę o krytycznym myśleniu – zatytułowaną również The Skeptics Guide to the Universe.

Już w 2006 roku mogłem pisać co miesiąc o ostrzeżeniach amerykańskiej Agencji ds. Żywności i Leków (FDA) dotyczących suplementów na zaburzenia erekcji, które zostały zafałszowane lekami na receptę, takimi jak sildenafil, inhibitor fosfodiesterazy-5 znajdujący się w Viagrze. Te epizody fałszerstw wywołały pytanie, ile anegdotycznych doniesień o „działających” produktach ziołowych dotyczyło ich zawierających zatwierdzone leki.

Praktyka ta była tak powszechna, że ​​w 2008 roku FDA stworzyła stronę poświęconą temu problemowi: „Ukryte zagrożenia związane z zaburzeniami erekcji” sprzedawane online. Rzeczywiście, produkty te były częściej spotykane w sklepach internetowych, a nie w sklepach ze zdrową żywnością. Inne podobne praktyki obejmują suplementy kulturystyczne dodawane sterydami anabolicznymi i suplementy odchudzające zafałszowane sibutraminą (dawniej Meridia), anorektantem usuniętym z rynku w zeszłym roku po wykazaniu zwiększonej częstości występowania zawałów serca i udaru mózgu u pacjentów z istniejącą wcześniej chorobą sercowo-naczyniową.

AHPA publicznie wyraziła swoje poparcie dla działań FDA przeciwko sprzedawcom produktów, które podszywają się pod suplementy diety, ale zawierają nielegalne składniki. AHPA zachęca FDA do skorzystania ze swojego organu regulacyjnego w celu pociągnięcia do odpowiedzialności tych, którzy naruszają prawo i zagrażają zaufaniu publicznemu, w tym wszelkich środków prawnych służących egzekwowaniu prawa.

Wydaje się, że inicjatywa okazała się skuteczna. W tym tygodniu niezależna organizacja testująca ConsumerLab.com poinformowała, że ​​testy 11 produktów „poprawiających seksualność” nie wykazały fałszowania leków na receptę. Z drugiej strony organizacja wykazała, że ​​„cztery produkty zawierały mniej kluczowego składnika niż podano na etykiecie, jeden produkt był zanieczyszczony niedopuszczalnym poziomem ołowiu, a dwa produkty nie zawierały wymaganych przez FDA informacji na etykiecie ”.

Zafałszowanie motywowane ekonomicznie

W tym tygodniu zwrócono również uwagę na inny problem: suplementy ziołowe zawierające tańsze materiały roślinne, z których niektóre mogą powodować uszkodzenie wątroby. Grupa amerykańskiego Departamentu Rolnictwa opublikowała analityczną metodę wykrywania zafałszowania Scutellaria lateriflora L. (amerykańskiej tarczycy tarczycy) z dwoma gatunkami ogórki, rośliny dobrze znanej z tego, że zawiera związki bioaktywowane przez cytochrom P450 do reaktywnych substancji chemicznych, które uszkadzają wątrobę. Grupa biochemika z Uniwersytetu Vanderbilt, Larry’ego Marnetta, pokazała w eleganckim artykule z 2007 r. Badania chemiczne w toksykologii, w jaki sposób związek germanowy teukryna A jest aktywowany i zidentyfikował kluczowe białka w wątrobie, które są chemicznie atakowane przez reaktywny metabolit.

Suplementy Jarmułka są zwykle przyjmowane w celu złagodzenia lęku i rzeczywiście zawierają związki flawonowe, które wiążą się z miejscem benzodiazepin na receptorach GABAA, jak niektóre leki na receptę. Jednak zioło nie sprawdziło się dobrze w badaniach klinicznych dotyczących działania przeciwlękowego.

Cóż, jak to jest w przypadku rosnącego niepokoju: W bieżącym badaniu USDA przetestowano 13 produktów Scutellaria lateriflora przy użyciu nowej metody, a cztery okazały się zawierać teukrynę A, co wskazuje, że produkty zawierały ogórkę.

Ale to najwyraźniej stara wiadomość. W artykule NutraIngredients USA, który omawiał odkrycia gazety, założyciel i dyrektor wykonawczy American Botanical Council Mark Blumenthal nazwał to odkrycie „rozczarowującym, ale w żadnym wypadku nie zaskakującym”, zauważając, że:

Powiedział, że wielu ekspertów ze społeczności zielarskiej wiedziało o tej błędnej identyfikacji od wielu lat. „ABC opublikowało artykuł botanika Stevena Fostera na temat tego problemu w HerbalGram jesienią 1985 roku! Foster wymienił ten problem jako istniejący od dziesięcioleci.

Rzeczywiście, na stronie ABC można znaleźć ładną monografię Gayle Engles na temat historii używania jarmułki i przypadków hepatotoksyczności u ludzi z lat 80-tych.

Stosowanie tańszych materiałów w produktach leczniczych i suplementach wyszło na jaw, a melamina była stosowana do sztucznego zwiększania zawartości białka w karmach dla zwierząt domowych i produktach dla niemowląt w Chinach. W 2009 r. Rada ds. Odpowiedzialnego Żywienia wydała oświadczenie w sprawie problemu zafałszowań motywowanych ekonomicznie w branży suplementów. Chociaż nowe wytyczne Dobrej Praktyki Wytwarzania dla przemysłu miały rozwiązać ten problem, obecny dokument analityczny USDA mówi nam, że konieczne jest bardziej rygorystyczne egzekwowanie przepisów.

Do tego czasu bądź ostrożny przy przyjmowaniu ziół na niepokój. Bo to jest dokładnie to, co możesz dostać.

Autor

David J. Kroll

Czy igły są w punktach akupunkturowych?

W tym tygodniu odbyła się dyskusja dr Ernsta na temat „Najważniejszego mitu o akupunkturze”. Była to odpowiedź na wpis na blogu Fundacji Akupunktura Now, który zasugerował:

tonosin dawkowanie

Najważniejszym mitem, który trzeba rozwiać, jest idea promowana przez niewielką grupę wokalnych krytyków, że akupunktura to nic innego jak placebo.

Nie, to nie mit. Akupunktura to placebo.

Dr Ernst nie uważa, że ​​efekt placebo jest największym mitem akupunktury:

Jaki jest zatem najważniejszy mit dotyczący akupunktury? Nie jestem pewien i – w przeciwieństwie do ANF – nie czuję, że mogę mówić za resztę świata, ale jednym z największych mitów DLA MNIE jest to, jak fanom akupunktury ciągle udaje się wprowadzać publiczność w błąd.

Podoba mi się jego odpowiedź, ale z całym szacunkiem dla dr Ernsta, nie zgadzam się. Mając beeblebroxowskie ego, wiem, mogę i będę przemawiać w imieniu reszty świata.

Meta analizy lotta, które mi się nie podobały

Czytam wiele metaanaliz, zarówno dotyczących pracy, jak i mojego hobby tutaj w SBM. Zawsze miło jest pomyśleć o tym, co wchodzi w metaanalizę. Są w przeciwieństwie do kiełbas i przepisów, ponieważ naprawdę musisz wiedzieć, że chodzi o ich produkcję.

Rozważmy na przykład działanie statyn. Statyny są w zasadzie wymienne z mechanicznego punktu widzenia i są porównywalne.

Beta-blokery? Nie tak bardzo. Działanie beta-blokerów jest nieco bardziej zmienne, więc należy zachować ostrożność w metaanalizie porównującej beta-adrenolityki z beta-agonistami i zależałoby to od leczonej patofizjologii, nadciśnienia tętniczego, zawału serca lub migreny.

Infekcje? Stosowanie nafcyliny, cyprofloksycyny czy metronidazolu jest bardzo różne. Nie przychodzi mi do głowy żaden proces, w którym porównywanie tych trzech antybiotyków w metaanalizie dla dowolnego procesu miałoby jakikolwiek sens: „Metaanaliza systematyczny przegląd antybiotyków na zapalenie opon mózgowo-rdzeniowych” byłby absurdalny.

Zwolennicy akupunktury lubią wykorzystywać korzystne metaanalizy jako dowód skuteczności. Na przykład weźmy „Akupunktura jako interwencja w celu zmniejszenia uzależnienia od alkoholu: przegląd systematyczny i metaanaliza”. Proszę.

Oni:

miał na celu ustalenie skuteczności akupunktury w zmniejszaniu uzależnienia od alkoholu, ocenianej na podstawie zmian w objawach głodu lub odstawienia.

I po przejrzeniu 15 RCT doszedł do wniosku, że:

akupunktura była potencjalnie skuteczna w zmniejszaniu głodu alkoholu i objawów odstawienia i może być rozważana jako dodatkowa opcja leczenia i/lub opcja skierowania w krajowych systemach opieki zdrowotnej.

Oczywiście badania były słabej jakości metodologicznej. Tak jest prawie zawsze w przypadku studiów pseudomedycznych.

Ale oto obserwacja.

O wielu odmianach akupunktury

W większości artykułu omawiają akupunkturę tak, jakby była pojedynczą interwencją, podobnie jak penicylina VK jest pojedynczą interwencją w anginie.

Ale nie ma jednej akupunktury, naliczyłem dziesiątki różnych stylów akupunktury. Podejrzewam, że w rzeczywistości istnieje tyle stylów akupunktury, ile jest akupunkturzystów i że gdyby interwencja nie została im narzucona przez protokół badania, to nie byłoby dwóch akupunkturzystek w ten sam sposób.

A dlaczego mieliby? W końcu metody diagnostyczne Tradycyjnej Chińskiej Pseudomedycyny (TCPM) (ocena tętna i języka) nie są oparte na rzeczywistości, ale na urojeniach lekarza.

I sprawdza się to również w tej metaanalizie.

Porównują 4 różne rodzaje akupunktury (akupunkturę, akupunkturę uszną, elektroakupunkturę uszną i elektroakupunkturę), jakby były takie same.