PLoS ONE: Modell Utvalg Approach Foreslår årsakssammenheng mellom 25-hydroksyvitamin D og tykktarmskreft

Abstract

Innledning

Vitamin D-mangel har vært assosiert med økt risiko for tykktarmskreft (CRC), men årsakssammenheng er ennå ikke bekreftet. Vi undersøker retning av årsakssammenheng mellom vitamin D og CRC ved å utvide den konvensjonelle metoder for å tillate pleiotrope relasjoner og ved å eksplisitt modellering umålte confoundere.

Metoder

Plasma 25-hydroksyvitamin D (25-OHD) genetiske varianter assosiert med 25-OHD og CRC, og annen relevant informasjon var tilgjengelig for 2645 personer (1057 CRC tilfeller og 1588 kontroller) og inngår i modellen. Vi undersøker om 25-OHD er sannsynlig å ha en årsakssammenheng med CRC, eller vice versa, ved å velge den beste modellering hypotesen ifølge Bayesianske prediktive score. Vi undersøker konsistens for en rekke tidligere forutsetninger.

Resultater

Modell sammenligning viste preferanse for årsakssammenheng mellom lav 25-OHD og CRC over omvendt årsaks hypotesen. Dette ble bekreftet for posteriore gjennomsnittlig avvik oppnådd for begge modellene (11,5 naturlige log enheter i favør av årsaksmodellen), og også for avvik informasjons kriterier (DIC) beregnet for en rekke tidligere utdelinger. Totalt sett modeller ignorerer skjult confounding eller pleiotropi hadde signifikant dårligere DIC score.

Konklusjon

Resultatene tyder på årsakssammenheng mellom 25-OHD og tykktarmskreft, og støtter behovet for randomiserte kliniske studier for ytterligere bekreftelser .

Citation: Zgaga L, Agakov F, Theodoratou E, Farrington SM, Tenesa A, Dunlop MG, et al. (2013) Modell Utvalg Approach Foreslår årsakssammenheng mellom 25-hydroksyvitamin D og tykktarmskreft. PLoS ONE 8 (5): e63475. doi: 10,1371 /journal.pone.0063475

Redaktør: Paolo Peterlongo, IFOM, Fondazione Istituto FIRC di Oncologia Molecolare, Italia

mottatt: 23 januar 2013; Godkjent: 03.04.2013; Publisert: 24 mai 2013

Copyright: © 2013 Zgaga et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av Program Grants midler fra Cancer Research UK (C348 /A12076) og skotske regjeringen Chief Scientist kontor (CZH /4/529). ET er finansiert av Cancer Research UK Fellowship (C31250 /A10107). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:. Dr. Felix Agakov er ansatt av og konsernsjef i Pharmatics Limited – et kommersielt selskap som spesialiserer seg på å utvikle produkter og tjenester basert på sannsynlighetsmaskinlæring og høy-dimensjonale statistikk. Det finnes ingen patenter, produkter under utvikling eller markedsført produkter å erklære. Dette endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.

Innledning

I 1980 ble det første hypotese at vitamin D er en beskyttende faktor mot tykktarmskreft (CRC) [1]. Det har i ettertid vist seg at høyere vitamin D-inntak [2], høyere serum 25-hydroksyvitamin D (25-OHD) [3] og opphold i områder med sterk UVB stråling [4] er alle forbundet med lavere CRC risiko og kreft død [ ,,,0],5]. Flertallet av tilgjengelig dokumentasjon kommer fra økologiske sammenhenger eller observasjonsstudier. Objektive forsøk på å undersøke kausalitet i disse studiene er upålitelige, som studiedesign ikke kan helt gjøre rede for virkningen av potensielle confoundere som fedme eller fysisk aktivitet [6], [7]. Likevel, eksperimentelle studier [8], [9], randomiserte kontrollerte studier [2], [10] og anvendelse av Hill kriterier for kausalitet [11], [12] støtter en mulig årsak til vitamin D-mangel i tykk- og endetarmskreft. Volumet av observasjons og

in vitro

bevis og potensialet stort betydning for folkehelsen bør foreninger vise seg å være årsakssammenheng, krever videre undersøkelser.

Mens avventer resultater fra randomiserte kliniske studier, statistiske og maskinlæring metoder gjør etterforskningen av kausalitet i observasjonsstudier. En slik metode er mendelsk randomisering (MR). MR er en anvendelse av instrumental variabel (IV) analyse som bruker genetiske polymorfismer som instrumenter [13], [14], [15]. Det har blitt stadig mer populært, siden genom-wide assosiasjonsstudier (GWAS) identifisert en rekke genetiske varianter som kan brukes som «instrumenter» [16]

Konvensjonell MR nærmer anta at:. (I) genotyper randomisert ; (Ii) genetiske varianter som anses som virkemidler påvirke utfallet

bare

ved å endre biomarkør, dvs. det er ingen pleiotrope effekter av disse variantene på utfallet; (Iii) variasjoner mellom sanne og observerte biomarkører er ubetydelig (ingen observasjon støy) [17], [18], [19], [20]. Dersom disse forutsetningene holder, slutning av kausalitet fra observasjonsdata er teoretisk gyldig, selv om konklusjonene er følsomme for de utvalgte instrumenter [21] og kan ikke være gyldig når effekten av instrumentene på biomarkørene er svake. Til tross for sin popularitet, har det blitt hevdet at MR metoder skyve problemet med årsaks slutning til et annet rike, som deres forutsetninger er generelt unverifiable [22]. For eksempel er det sjelden mulig å ekskludere pleiotropi eller estimat effekter av slike utelukkelser på den resulterende anslaget, spesielt for flere instrumenter [23], [24]. Også i klassisk MR er det vanskelig å vurdere hvordan årsaks estimatene påvirkes av ulike forutsetninger om fordelinger av de latente confoundere.

En annen viktig begrensning av MR er at det mangler en formell modell sammenligning rammeverk for å utlede

retning

av kausalitet når pleiotropi og confounding kan ikke utelukkes som mulige forklaringer. Den klassiske tilnærmingen anslår størrelsen på årsaks effekt [25], men vurderer ikke den relative verdien av årsaks

vs.

Omvendt årsaksforklaringer. Dette er kanskje ikke noen rolle i et langsiktig kohortstudie der tinning sekvens fra biomarkør til utfallet er klart, men det begrenser muligheten til å antyde kausalitet fra tverrsnitts eller case-kontrolldata. Vær også oppmerksom på at i pleiotrope modeller av årsaks og reversere modeller ikke er nestet, og klassiske tester for nestet ikke kan enkelt brukes. En mer generell tilnærming til læring retning av kausalitet er sannsynligheten baserte kausalitet Model Selection (LCMS) metoden foreslått av [26], som foreslår utvalg av de beste modellering hypotesen ved å sammenligne sannsynlighet-baserte score for direkte årsaks, revers, og pleiotropisk modeller. Mens denne tilnærmingen slapper forutsetningen om ingen pleiotropi av den klassiske MR metode, betyr det ikke at for latente confounders eller målestøy. I tillegg, fordi deres metode er ikke Bayesiansk, det kan ikke være lett skaleres til store problemer der høy-dimensjonale genotyper og /eller fenotyper er brukt som instrumenter.

Vi har tidligere utført en MR-analyse for å undersøke mulige årsakseffekten av plasma 25-OHD på tykktarmskreft [27]. Våre resultater var mangelfulle og en årsakssammenheng mellom lav 25-OHD og CRC ble verken klart demonstrert eller ekskludert.

I denne studien har vi satt ut for å undersøke sammenhenger mellom 25-OHD på tykktarmskreft. Vi utvider konvensjonelle tilnærminger (MR og LCMS) ved å: (i) at pleiotrope koblinger mellom instrumenter og sykdom, (ii) sto for støy i målingen og (iii) modellering av «skjulte confounders», dvs. umålte faktorer som kan påvirke biomarkør og sykdom. Vi fortsetter ved å velge den beste modellering hypotesen ifølge Bayesianske prediktiv score, og undersøke dens konsistens for et bredt spekter av tidligere forutsetninger. Vår tilnærming bygger på styrkene til MR og LCMS men beroliger sine restriktive forutsetninger, noe som resulterer i modeller som bedre passer dataene i henhold til de vurderte kriteriene.

Metoder

Vi studerte en undergruppe av personer fra SOCCS Study (1999-2006) [27], [28]. Totalt ble 2645 personer med alle relevante tilgjengelige målinger som inngår i denne studien (1057 tilfeller og 1588 kontroller). Etisk godkjenning for SOCCS studien ble innhentet fra multiforskningsetiske komité for Scotland (referansenummer 01/0/05) og fra forskning og utvikling Office of NHS Lothian (referansenummer 2003 /W /GEN /05). Alle deltakerne ga informert skriftlig samtykke. Fagene gjennomført en spørreundersøkelse spør om livsstil. Spørreskjema samlet inn data om generell medisinsk historie, fysisk aktivitet (timer med sykling og andre sportsaktiviteter, 4 grupper), sosioøkonomisk status (Carstairs Berøvelse Index), røykevaner, regelmessig inntak av acetylsalisylsyre og NSAIDs, høyde, vekt og andre. Deltakerne gjennomførte også en semi-kvantitativ mat frekvens (https://www.foodfrequency.org) og kosttilskudd spørreskjemaer, som ble brukt til å beregne vitamin D-inntak (se [27], [29]).

Total plasma 25-OHD (25-OHD

2 og 25-OHD

3), den viktigste lagringsform for vitamin D, ble målt ved væskekromatografi-massespektrometri (LC-MS /MS) -metoden [30 ]. 25-OHD konsentrasjonen ble standardisert for å fjerne den fremtredende virkning av sesongen når blodet ble tatt, og May-justerte målingen ble anvendt i analysene (som beskrevet i [29]).

I denne studien brukte vi 16 SNPs assosiert med CRC i GWAS: rs6691170, rs6687758, rs10936599, rs16892766, rs7014346, rs10795668, rs3802842, rs7136702, rs11169552, rs4444235, rs4779584, rs9929218, rs4939827, rs10411210, rs961253, rs4925386 [31], [32], [33] [34], [35], [36] og fire SNPs assosiert med 25-OHD: rs2282679, rs12785878, rs10741657, rs6013897 [37]. Vi har redusert dimensjonalitet av genetiske faktorer 6 hovedkomponenter.

Probabilistic Grafisk modellering

Forholdet mellom biomarkører og resultatene kan beskrives ved «Bayesiansk nettverk» representert ved rettet asykliske grafer, der nodene tilsvarer tilfeldige variabler, kanter beskrive betinget uavhengighet strukturer, og hver to noder er betinget uavhengige av hverandre gitt sine foreldre. Slike modeller har blitt mye utforsket i statistisk og maskinlæring litteratur; deres viktigste fordelen er at de kan noen ganger bli brukt til å skille kausalitet fra kun statistiske foreninger [38], [39], [40].

Som argumentert f.eks av MacKay (35.3, [41]), en bayesiansk tilnærming til årsaks slutning kan være basert på

modell utvalg

, der modeller som beskriver ulike årsakshypoteser er vurdert og sammenlignet. For eksempel når priors om konfunderende og mitogen effekt er spesifisert, vekten av bevis favorisere en årsaksmodell over en alternativ en kan vurderes selv om de klassiske kriterier for identifisering av årsaksvirkninger i grafiske modeller [42], [43] er ikke oppfylt. Det faktum at den samme modellen er valgt for et bredt spekter av domenespesifikke priors kan indikere retning av kausalitet (som kanskje må bli ytterligere validert gjennom kontrollerte eksperimenter). Denne tilnærmingen er attraktiv, fordi det er aktuelt i virkelige situasjoner der både forvirrende og pleiotropi kan være til stede.

Den grafiske strukturen i generisk modell vurderes i denne artikkelen er vist på figur 1. Dette utvider tidligere introduserte metoden [44] ved å tillate for pleiotrope effekter av genotyper på biomarkører og utfall. Vi vurderer flere varianter av grunnleggende modellen, f.eks ved å reversere retningen på sammenhengen mellom vitamin D og tykktarmskreft, eller fjerne den helt. For alle slike modeller beregner vi sannsynlighet-baserte score som indikerer hvor godt modellen passer dataene, i samsvar med nylig introduserte tilnærming [45], [46], [47].

Link

u

representerer effekten av Predictor variablene på 25-OHD,

w

er effekten av 25-OHD på CRC,

wg

er effekten av Predictor variablene på CRC,

v

er effekten av umålte confounders på 25-OHD og

WZ

er effekten av umålte confounders på tykktarmskreft.

Utfall, biomarkør og Predictor variabler.

Vi undersøker sammenhengen mellom tykktarmskreft (utfall,

y

) og May-standardisert plasma 25-OHD (biomarkør, med den sanne usett konsentrasjonen merket med

x Hotell og den tilsvarende støyende måling merket med

xt

) som vist på figur 1. Merk at

xt

plass til målefeil og biologiske svingninger. Vi står for

kjent

confounding ved å inkludere vektor av Predictor variablene

g, etter som inneholder data om de generelle og miljømessige faktorer (alder, kjønn, BMI, fysisk aktivitet, familiehistorie med CRC, NSAIDs inntak, sosioøkonomisk status, totalt kaloriinntak, inntak av alkohol, røyking, inntak av rødt kjøtt og kosttilskudd vitamin D-inntak) og genetiske faktorer. Før analysen ble alle Predictor variablene skalert til å ha. Midlere = 0 og SD = 1.

umålte (eller skjult) confounders

Vi antar at felles effekter av umålte confoundere på biomarkør og resultatet er omtrent additiv og kan oppsummeres med et skjult (latent) variabel

z plakater (figur 1), der

z

følger en Gauss-fordeling med gjennomsnitt = 0 og SD = 1. Gaussianity av latente faktorer er en standard forutsetning av blandede lineære modeller [48] og kan bli rettferdiggjort av sentralgrensesetningen (som postulerer at summen av et stort antall uavhengige effekter er tilnærmet normalfordelt, under visse forutsetninger). Begrensningen på variansen til feilkilden er nødvendig for å sikre identifiability av dens virkning på biomarkører og resultater; vi velger det slik at confounder

z

ligger på samme skala som de skalerte Predictor variablene. Under slutning at confounder blir marginalisert ut ved å beregne gjennomsnitt over dens sannsynlighetsfordeling, som er en standard måte for regnskapsføring av variabler skjulte i sannsynlighetsteori [41].

Model parametrisering.

Agakov m.fl. . introduserte Sparse Instrumental Variable metode (SPIV) [46]. De antar at alle betingede fordelinger i modellen vist på figur 1 er lineære Gaussians, med inverse gamma priors på de avvikene for støy vilkår, og sparsity-induserende Laplace priors på koeffisientene de lineære avbildninger [46]. De anser

maksimal a posteriori

tilnærming av slutning; definere en forventning-maksimering (EM) algoritme for montering sin modell til data, og bruke kryssvalidering til ytterligere tune hyperparameters. Vi følger stort sett denne konstruksjonen, men antar et binært utfall variabel

y plakater (sak /kontroll) og en sparsom logistisk regresjonsmodell for sannsynligheten for CRC gitt genotypene, biomarkør, og skjulte confoundere. Også, i motsetning til [46], i stedet for å bruke punktestimater av parametrene, anser vi den mer generelle fulle Bayesiansk behandling tilnærmes ved Markov Chain Monte Carlo (MCMC).

Priors /parametre.

i likhet med [49] vurderte vi null-middel Laplace priors på de lineære koeffisienter med konsentrasjonen hyperparameter

gam1

. Modeller med større

gam1

er mer sannsynlig å ha sine lenker beskjæres i bakre modus (se Figur S1) .Vi undersøke forholdet mellom CRC og 25-OHD for en rekke tidligere utdelinger (forutsatt at

gam1

er 0.025 med mindre annet er oppgitt). Konsentrasjonen rundt null koder vår tro på at store genotypiske og fenotypiske effekter er lite sannsynlig, mens de fete haler i Laplace komponent tillate mulige sjeldne store foreninger.

Vi betegnet presiseringer (inverse avvik) av lineære prediktor som

precx

,

precxt

,

Precy Hotell og

precz

for ekte 25-OHD, måling av 25-OHD, effekter på sykdomsstatus, og umålte confoundere henholdsvis. For disse har vi brukt både faste verdier for å sikre identifiability av tilfeldige effekter og et tegn på vår tro på omfanget av observasjon støy, og den konjugerte Gamma priors. Mindre verdier av presiseringer tilsvarer bredere konfidensintervaller forbundet med hver måling.

Probabilistic slutning og modellvalg.

Flere sannsynlighet-baserte score kan i prinsippet vurderes [50], [51] . Her velger vi den beste modellen ved hjelp av avvik informasjon kriteriet (DIC) lett Computable fra MCMC prøver [51]. DIC balanserer kvaliteten på passform og kompleksiteten av en modell, som bidrar til å unngå overtilpassing. Anbefalte modellering hypoteser er preget av lavere skivene, som gir den beste kombinasjonen av kvalitet og enkelhet.

Modeller sammenlignes ved å undersøke deres DIC poengsum

forskjeller

. Grovt, absolutte forskjeller på over 10 enheter definitivt utelukke modellen med den høyere DIC, og forskjellene mellom 5 og 10 er betydelig [51], [52]. Vi undersøker konsekvens av den beste modellen under ulike forutsetninger om priors på de faste effektene av kovariatene, tilfeldige effekter av confounders og måling av støy. For de beste slike innstillinger, også sammenligner vi posterior betyr av modellenes avvik.

Eksperimenter

I alle forsøkene brukte vi hele settet med genotypiske score og miljøfaktorer forbundet med enten CRC eller 25-OHD. Formålet med forsøk 1 var å bestemme betydningen av umålte confounders og deres implikasjon på slutning av kausalitet. Vi sammenlignet 3 modeller: full årsaksmodellen med confounders (M1), årsaksmodellen

uten

confounders (M2), og omvendt modell

uten

confounders (M3) (Figur 2A). Vi åpnet for en mulighet for pleiotrope avhengigheter hvor både biomarkør og utfallet ble berørt av Predictor variabler (genotypene og miljøfaktorer). Modellene ble så sammenlignet for en rekke tidligere kjente fordelinger og antagelser om den observasjon støy, og den beste modellering hypotesen ble valgt basert på DIC-stillingen.

A. Eksperiment 1. M1 – full årsaksmodell med confounders, M2 – kausal modell uten confounders, og M3 – reversere modell uten confoundere. B. Eksperiment 2. Vi sammenligner konvensjonell årsaks (M4) og konvensjonell omvendt årsaks (M5) modeller (både (i) antar fravær av pleiotrope effekter av instrumenter på biomarkører og utfall, (ii) ekskludere umålte confounders fra modellering og (iii) konto for støy i målingen) med modellen hvor sammenhengen mellom biomarkør og utfallet er modellert

helt

av umålte confounders (M6). C. Eksperimenter 3. Vi sammenligner fulle årsaks (M7) og full revers årsaksmodell (M8), noe som åpner for pleiotrope relasjoner og regnskap for skjult, umålte confoundere.

I forsøk 2, vi regnes som den bråkete utvidelser av den konvensjonelle årsaks (M4) og revers (M5) modellene av LCMS tilnærming [26], [53] med en modell der sammenhengen mellom biomarkør og resultatet ble forklart i sin helhet av en unmeasured confounder (M6), som vist på Figur 2B. Hensikten med dette eksperimentet var todelt: (i) å demonstrere restrictiveness av antagelsen om det ikke noen latent confounders i LCMS, og (ii) for å vise at en bayesisk behandling av klassisk instrumentell variabel metode [44] ikke ville være i stand til å identifisere kausalitet ved å favorisere en ikke-kausal over en kausal forklaring. Som i eksperiment 1, valgte vi den beste modellen for en rekke tidligere parameterinnstillingene.

Formålet med forsøket 3 var å sammenligne den fulle årsaks og reversere modeller der confounders ble modellert eksplisitt (Figur 2C). Legg merke til at begge disse modellene er sannsynligheten-ekvivalent; f.eks for hver innstilling av parametrene for en eksisterer det en innstilling av parameterne for den andre, som resulterer i en identisk sannsynlighet. Tilnærmingen vurderes her håndteres slik symmetri ved å velge Laplace før fordeling på størrelsene av lineære effekter, som kodet vår tidligere tro at svært store genotypiske og fenotypiske effekter er sjeldne (se vedlegg S1).

I utforsk fase av eksperimentet 3, vi betraktet uavhengige priors på direkte assosiasjoner mellom biomarkør og utfallet (

gam1, w

link) og konfunderende effekter (

gam2

,

v

og

wz

linker), som ble gjort forskjellig for ytterligere å øke fleksibiliteten av fremgangsmåten. Et tilfeldig utvalg av 500 tilfeller og 500 kontroller ble brukt til å lage en utforskning av ulike tidligere antagelser mer effektiv. Vi utførte flere kjøringer av Markov kjeder fra tilfeldige initializations å ta hensyn til mulige variasjoner i avvik score (se Metoder S1 for mer informasjon) for et bredt spekter av tidligere utdelinger.

I siste fase av eksperimentet 3, bruker hele datasettet vi sammenlignet den fulle årsaks (M7) og revers (M8) modeller der confounders ble modellert eksplisitt. Vi utførte flere repetisjoner holde sparsity parameter

gam1

festet til den beste verdien fra tidligere lav-dimensjonal fase, men varierte presiseringer for å sjekke konsistens av resultatene.

Resultater

studie~~POS=TRUNC er beskrevet i Tabell 1. Både råolje og May-standardiserte 25-OHD nivåene var sterkt assosiert med CRC i univariate modellen (p = 1,2E-10 og 6.9E-9, henholdsvis), modell justert for alder og kjønn (p = 3.5E-10 og 2.9E-8, respektivt), og i fullt justert modell (p = 5.5e-10 og 2.0E-8, henholdsvis). Videre spådde vitamin D-nivå (med alle kovariater) var også assosiert med CRC (p = 0,048), noe som tyder på at utvalgte kovariater er prediktive for vitamin D og kan faktisk anses som gyldig kandidat instrumenter. Resultatene var konsekvent når data ble delt inn i opplæring og testing datasett (data ikke vist).

Eksperiment 1. Viktigheten av confoundere for slutning av kausalitet

For første innstillingen i Experiment 1, DIC score for årsaks og omvendt årsaks modeller uten confounders var DIC

M2 = 42132 og DIC

M3 = 41911, henholdsvis. Den betydelig lavere DIC score for omvendt årsaksmodell (DIC forskjell = 221 enheter) viser sin overlegenhet over årsaksmodellen. Imidlertid DIC scorer for fullstendig årsaks modell med confounders (M1) var signifikant lavere (DIC

M1 = -3797), noe som ga et meget stort DIC forskjell på 45,929 og 45,708 enheter til støtte for M1, sammenlignet med M2 og M3 hhv. Resultatene var konsistente på tvers av alle testede innstillinger (tabell 2). Dette tyder på at modellen regnskap for umålte confounders

langt

utkonkurrerer modeller uten confoundere.

Eksperimenter 2. Sammenligning med LCMS Modeller

DIC score for den konvensjonelle årsaks og omvendt årsaks modellene vurderes ved LCMS [26], [53] ble DIC

M4 = 43347 og DIC

M5 = 41 915, henholdsvis for den første innstilling i eksperiment 2. En DIC stillingen forskjell fra 1432 til fordel M5 tyder på at omvendt årsakssammenheng mellom 25-OHD og CRC er mer sannsynlig. Men en modell som foruts

bare

en indirekte sammenheng mellom 25-OHD og CRC gjennom umålte confounders (M6), passer dataene betydelig bedre enn noen av de tidligere modeller (M4 og M5), som er foreslått av DIC scorer forskjeller på 43,266 og 41,834 enheter, henholdsvis. Resultatene var konsistente på tvers av alle testede innstillinger (Tabell 3).

Eksperiment 3. slutning om årsakssammenheng mellom Plasma 25-OHD og CRC

I utforskende fasen av eksperimentet 3, vi utførte 30 sammenligninger varierende

gam1 Hotell og

gam2

. Ikke overraskende, for stormasket modeller (høyere verdier av

gam1

) forskjellen i score til fulle årsaks og reversere modeller blir mindre viktig. Dette er intuitivt, fordi for større

gam1

modellene er tilnærmet frikoplet, og noen forskjell skyldes i stor grad prøvetaking støy (figur S1). Mener DIC ble beregnet for hvert

gam1

setting, og det ble bekreftet at tette modellene passer dataene bedre (-2801,12, -1816,54, -1598,58, -1571,33 og -1557,48, henholdsvis).

Ved å fokusere på tettere modeller (

gam1

≤0.25), i 15/18 iterasjoner var det overveldende (DIC forskjeller i området fra 10,6 til 3919) og i 2 store (DIC forskjeller på 9,7 og 5,2) bevis i favør av den fulle årsaks modell, og i en iterasjon var det ikke mulig å skille en foretrukket modell med sikkerhet, selv om den kausale modellen ble begunstiget (DIC forskjell = 3,2 enheter) (figur 3). Resultater av alle sammenligninger er vist i tabell 4 og flere detaljer i tabell S1.

DIC scorer differanser ved sammenligning av hele årsaks og omvendt årsaksmodeller, for en rekke parameterinnstillingene vises. Positive verdier indikerer preferanse for årsaksmodellen. Mean DIC (svart linje) representerer den gjennomsnittlige DIC for alle årsaks og omvendt årsaksmodeller vurderes (lavere gjennomsnitts DIC score foreslå bedre modeller), for en gitt innstilling av sparsity

gam1

parameter (høyere

gam1

favoriserer stormasket modeller – koblinger mellom noder blir stadig mer sannsynlig å beskjæres). Vi anser uavhengige gamma priors på de assosiasjoner om konfunderende effekter (

gam2

) for å dempe den sterke effekten av confounder og å kunstig øke betydningen av koblingen mellom 25-OHD og tykktarmskreft. Totalt sett optimale modeller er tettere de (preget av mindre verdier av

gam1

parameter, de fleste koblinger forblir i modellen), og store positive DIC forskjeller gir overveldende bevis for en direkte årsaksforhold mellom lav 25-OHD og tykktarmskreft.

til slutt brukte vi alle tilgjengelige data for å sammenligne fulle årsaks og full revers årsaksmodeller. Vi konsekvent observert bevis til støtte for den direkte årsaksforhold mellom lav 25-OHD og CRC. På tvers av alle de støy parameterinnstillingene som vi utforsket,

hele årsaksmodellen gitt en bedre forklaring på data enn full revers årsaksmodell

: DIC forskjellene var mellom 580 og 10,715 enheter i favør av den fulle årsaksmodell (figur 4 og tabell 5 for DIC komponenter, se tabell S2)

DIC scorer forskjeller mellom modellene er vist.; positive verdier indikerer at årsakssammenheng er mer sannsynlig. Mean DIC (rød linje) er beregnet som gjennomsnittet DIC for alle årsaks og omvendt årsaksmodeller vurderes for enhver parameter innstilling (mindre verdier indikerer bedre modeller). Store positive DIC forskjeller gir overveldende bevis for en direkte årsaksforhold mellom lav 25-OHD og tykktarmskreft. * Innstillinger: S1: precx = 1000, precxt = 1000, Precy = 0,1; S2: precx = 100, precxt = 100, Precy = 100; S3: precx = 1000, precxt = 1000, Precy = 10; S4: precx = 100, precxt = 100, Precy = 200; S5: precx = 20, precxt = 20, Precy = 200.

DIC score beregnet her [51] general AIC score brukes til å utlede retning av kausalitet i LCMS [26], [ ,,,0],53]. Imidlertid har det blitt hevdet at de kan underpenalize modell kompleksitet [50]. Ved å anta at full revers modellen har omtrent samme kompleksitet som full årsaksmodellen, vi i tillegg sammenlignet best av årsaks og reversere modeller i henhold til deres gjennomsnitts posteriore avvik (DBar). (Merk at -1/2 DBar kan også bli sett på som «kjøling limit» av termodynamisk integrasjon brukes til tilnærmet marginale likelihoods av modellene [54]). . Igjen, fant vi bevis på 11,5 naturlige log enheter i favør av årsaksmodellen

Merk at dette er motsatt av resultatene funnet av eksplisitt unntatt tilstedeværelsen av skjult confounding (forsøk 1 og 2); har vi imidlertid vist at i henhold til DIC score, modellene åpner for skjulte confounders resulterte i bedre forklaringer av data enn de modellene som ikke tillater for confoundere. Vi har også konsekvent observert at lavere nivåer av 25-OHD er forbundet med CRC tilfelle status. Sammen disse resultatene tyder på at lav plasma 25-OHD nivåer kan ha en årsakssammenheng med CRC risiko.

Diskusjoner

I denne artikkelen viser vi bevis til støtte for en årsakssammenheng mellom lav plasma 25 -OHD og tykktarmskreft. Studien ble gjennomført ved å implementere ny metodikk som strekker konvensjonell instrumentvariabelen tilnærming og nyere, sannsynligheten basert kausalitet modell valgmetoden [26], ved å ta hensyn både for confounding av ukjente faktorer, og at pleiotrope relasjoner.

SPIV og forbedring i Methodology

konvensjonelle tilnærminger til problemet med årsaks slutning er basert på sterke og ofte urealistiske forutsetninger om data. I praksis slike forutsetninger kan bli krenket, noe som kan føre til dårlige modeller og partisk kausale estimater [22], [55]. Hvis man velger omhyggelig instrumenter eller under prøver data til ca tilfredsstille de restriktive forutsetninger, slutning i MR og LCMS er matematisk lyd, men resultatene vil generelt være sensitivt for valgene og kan føre til varierende konklusjoner [21], [46], [56]. I denne artikkelen bruker vi en annen, modellvalg basert strategi kalt SPIV, hvor vi i fellesskap vurdere genotypiske faktorer prediktiv av enten biomarkører eller utfall uten å stole på sterke forutsetninger om de klassiske metoder. Det faktum at den samme «full årsaks» modellen forklarer dataene bedre enn alternative modellering hypoteser som vist for et bredt spekter av domene-støttede tidligere utdelinger er et tegn på mulig årsakssammenheng og begrunner videre kontrollerte eksperimenter.

Modellen utvalg basert strategi underliggende SPIV ble fremmet av noen av de mest fremtredende maskinlærings forskere [41], som brukes av Schadt et al. for et undersett av modeller [26], videreutviklet av Agakov et al. [46], og nylig teoretisk undersøkt av Winn [57]. Den har viktige utvidelser av felles metodikk og kan brukes selv i situasjoner der relasjoner er pleiotropisk eller forvirret av ukjente /umålte faktorer (se tabell 6 og bilag S1 for flere detaljer). Vår tilnærming kan romme modeller som ligger til grunn de konvensjonelle metoder som begrensende spesielle tilfeller.

Vi har tidligere beskrevet en invers sammenheng mellom plasma 25-OHD konsentrasjon og CRC i denne studiepopulasjonen. Men resultatene av mendelsk randomisering studie vi gjennomførte var mangelfulle [27].

I denne studien, ved å bruke SPIV vi konsekvent observert bevis til støtte for den direkte årsaksforhold mellom lav 25-OHD og en økt risiko for CRC når pleiotrope og konfunderende effekter ble modellert eksplisitt, som er i overensstemmelse med tidligere arbeid [58], [59]. En slik slutning ble mulig ved å slappe av sterke forutsetninger om felles tilnærminger og utnytte bayesiansk modell utvalg.

Legg att eit svar