PLoS ONE: Effekter av Miljø, gener og dataanalyse Fallgruver i en Esophageal Cancer Genome-Wide Association Study

Abstract

Bakgrunn

Utvikling av nye high-throughput genotyping teknologi har gjort det mulig raskt evaluering av enkeltnukleotidpolymorfi (SNPs) på et genom-wide skala. Flere nyere genom-wide assosiasjonsstudier benytter disse teknologiene tyder på at paneler av SNPs kan være et nyttig verktøy for å forutsi kreft mottakelighet og oppdagelse av potensielt viktig ny sykdom loci.

metodikk /hovedfunnene

I dagens papir vi gjennomføre en grundig undersøkelse av den relative betydningen av genetikk, miljøfaktorer, og skjevheter i dataanalysen protokollen som ble brukt i en tidligere utgitt genom-wide forening studie. Som tidligere studie rapporterte en nesten perfekt diskriminering av esophageal kreftpasienter og friske kontroller på grunnlag av bare genetisk informasjon. På den annen side er resultatene sterkt at SNP’er i dette datasettet ikke er statistisk knyttet til fenotype, mens flere miljømessige faktorer og spesielt familiehistorie med spiserørskreft (en proxy for både miljømessige og genetiske faktorer) har bare en beskjeden tilknytning til sykdom.

Konklusjon /Betydning

den viktigste komponenten i tidligere hevdet sterkt diskriminerende signal skyldes flere dataanalyse fallgruvene som i kombinasjon førte til sterkt optimistiske resultater. Slike fallgruver kan forebygges og bør unngås i fremtidige studier siden de skaper misvisende konklusjoner og generere mange falske leads for senere forskning

Citation. Statnikov A, Li C, Aliferis CF (2007) Effekter av Miljø, gener og data Analysis Fallgruver i en Esophageal Cancer Genome-Wide Association Study. PLoS ONE 2 (9): e958. doi: 10,1371 /journal.pone.0000958

Academic Redaktør: Enrico Scalas, University of East Piemonte, Italia

mottatt: 30 juli 2007; Godkjent: 30 august 2007; Publisert: 26.09.2007

Copyright: © 2007 Statnikov et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Arbeidet ble delvis støttet av tilskuddet R01 LM007948-01. Virkemiddelapparatet hadde noen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

introduksjon til

en av de lovende metoder for analyse av det humane genom og identifisering av gener og genomiske regioner som bidrar til fenotyper er bruken av enkle nukleotid (SNP). SNPs utgjør mer enn 90% av all menneskelig genetisk variasjon og har blitt grundig undersøkt for funksjonelle relasjoner mellom genotype og fenotype. Ankomsten av high-throughput genotyping teknologi har gjort det mulig rask evaluering av SNPs på et genom-wide skala til en relativt lav pris [1] – [3]

I løpet av de to siste årene flere grupper rapportert suksess i å bruke. SNP genotyping analyser i forbindelse studier av kreft [1], [4] – [8]. Spesielt studien ved Hu et al. rapporterte en nesten perfekt klassifisering av esophageal krefttilfeller og kontroller på grunnlag av bare SNP data fra en case-control genom-wide forening studie [8]. Tatt til pålydende, antyder dette resultatet at kreftfaren er en utelukkende genetisk sykdom. Dette er motstridende til annen litteratur som understreker viktigheten av miljø for kreft mottakelighet [9], [10]. For å belyse dette spørsmålet, vi re-analysert data fra [8]

Vi identifiserte to dataanalyse fallgruver i [8] som forårsaket over-optimistiske konklusjonene i den opprinnelige papiret. Først SNP valgmetode ble kraftig forspent mot utgir betydning for SNP’er som ikke er helt forbundet med lidelsen. For det andre ble både SNP utvalg og bygging av klassifiseringsmodell utført på de samme fagene som brukes for estimering av klassifisering nøyaktighet. Siden ingen kryssvalidering eller uavhengig prøven validering ble utført, ble det resulterende klassifiseringen ytelsen anslaget var overoptimistisk.

Vi har utført en re-analyse av SNP og miljømessige data som korrigerer de ovennevnte problemene og funnet at SNP’er i denne datasettet er ikke statistisk knyttet til kreftfaren, mens flere miljøfaktorer, spesielt familiehistorie med spiserørskreft (som potensielt står for mange miljømessige og genetiske faktorer), har en beskjeden sammenheng med sykdommen. Vi kvantifisert bidraget fra hver av faktorene til kreft klassifisering og gitt objektive klassifisering resultatanslag ved hjelp av etablerte objektive dataanalyseprotokoller. Gitt ubetydelig bidrag SNPs til kreft klassifisering, våre funn tyder på at SNPs identifisert i [8] mangler statistisk bevis for å være involvert i kreftfaren.

Materialer og metoder

I alle dataanalyser i tillegg til å replikere metodene ifølge [8], anvendte vi objektive alternativer, slik at virkningen av forspenningen (hvis noen) i analyse av [8] kan kvantifiseres. Begrunnelsen for unbiasedness av alternative metoder er gitt i de relevante avsnittene nedenfor.

Study datasett

De data som brukes i denne studien er den samme som brukes i den opprinnelige papiret [8]. Dataene besto av 50 esophageal plateepitelkarsinom pasienter og 50 kontroller. Pasientene ble diagnostisert med spiserørskreft mellom 1998 og 2000 i Shanxi Cancer Hospital i Taiyuan, Folkerepublikken Kina. Tjuefem pasienter og ni kontroller hadde en positiv familie historie av sykdommen. Kontrollene ble matchet av alder, kjønn og bosted

genotyping av venøse blodprøver for alle fag i studien ble utført ved National Cancer Institute (Bethesda, Maryland) som oppsummert under. Spiren linje-DNA ble ekstrahert og renset. DNA-prøver ble deretter utarbeidet og analysert i henhold til Affymetrix Genechip Mapping Assay protokollen. De 10K SNP matriser med 11,555 SNPs fordelt over hele menneskets genom ble skannet og genotype samtaler ble tildelt automatisk av Affymetrix Genechip DNA analyse programvare. Fire genotypen samtaler ble definert i data: AA, AB, BB, eller «no call». Flere detaljer om biologisk prøvetaking og behandling, mål forberedelse, skanning og genotype generasjon er gitt i [8]

For hvert fag, ble følgende fem variabler registreres også. Alder på intervju (år), tobakk bruke (ja /nei), alkoholforbruk (ja /nei), familiehistorie med spiserørskreft (ja /nei), og forbruket av syltede grønnsaker (ja /nei).

SNP Array data Forberedelse

Før dataanalyser, preprocessed vi SNP array-data følger den tilnærmingen som er beskrevet i den opprinnelige papiret [8]. Først ut av 11,542 SNPs i det opprinnelige datasettet, ble 105 SNPs fjernet fordi de ikke kunne tilordnes til menneskelige genom med NCBI bygge 36. For det andre, for å minimere mulige genotyping feil, ble 946 SNPs fjernet fordi de var homozygot i begge tilfeller eller kontroller . For det tredje, av samme grunn, ble 482 SNP’er fjernet fordi de ikke tilfreds Hardy-Weinberg likevekt i kontrollgruppen ved α = 0,01 nivå [11]. For det fjerde ble «recessiv A» koding av SNP (AA = 1, AB = 0, BB = 0) som er implementert. Etter disse trinnene, datasettet besto av 10,009 SNPs.

Siden noen av dataene analysemetoder (f.eks Principal Component Analysis eller Support Vector Machines beskrevet nedenfor) krever ingen mangler data, vi kalkulatorisk mangler genotyper i SNP datasett og brukt det når disse metodene ble benyttet. Spesielt har vi brukt multivariate nonparametric nærmeste nabo imputering teknikk av [12], [13]

SNP Utvalg

Først vi ansatt SNP valgmetoden beskrevet i [8]. For hver SNP, en generalisert lineær modell (GLM) av sannsynligheten for kreft var egnet å bruke som Predictor variabler SNP og to andre variabler: familiehistorie med spiserørskreft og alkoholforbruk. GLM ble plass for alle 100 fag uten å etterlate seg et uavhengig testprøve. Da en p-verdi ble oppnådd på grunnlag av forskjellen mellom avviks

D

0

av null-modell uten prediktor-variabler og avviks

D

1

i montert modell. Forskjellen

D

0-D

1

følger en khikvadratfordeling med 3 frihetsgrader. Siden den ovenfor beskrevne fremgangsmåte brukes på hvert SNP i datasettet, er det nødvendig å justere for multiple sammenligninger for å sikre at den ønskede andel av falske positiver (0,05) er bevart. For dette formål ble Bonferroni justering utført for å signifikansnivået 0,05 av testen (dvs. i stedet for å bruke signifikansnivået 0,05, nivået 0,05 /antall SNP ble benyttet i stedet). Vi viser til ovennevnte metode som «GLM1». Til slutt ser vi at Bonferroni justering gir ofte en konservativ vurdering av statistisk signifikans og forutsetter at alle SNPs er uavhengige, mens det finnes metoder som er mindre konservative og kan være aktuelt når SNPs er avhengige, f.eks [14] – [16]

Siden den p-verdi på GLM1 skyldes den kombinerte virkning av de tre prediktor variabler, det har en tendens til å være lite, selv om SNP ikke har noen effekt på spiserørskreft i det hele tatt. . For å løse dette problemet med den opprinnelige analysen, også har vi brukt følgende objektiv SNP valgmetoden: vi fortsetter på samme måte som i GLM1 bortsett fra at p-verdien er basert på forskjellen mellom avvik

D

«

0

av modellen inkludert familiehistorie med spiserørskreft og alkoholforbruk og avvik

D

1

. Den resulterende statistikken

D

«

0-D

1

følger en khikvadratfordeling med en grad av frihet, og det gjenspeiler effekten av SNP som blir analysert. Vi refererer til denne metoden som «GLM2» og viser at det faktisk er objektiv i diskusjon seksjon Resultater og og i Hjelpemiddel Information File S1.

Til slutt, ved montering støtte vektor maskiner (se neste avsnitt) til data, også har vi brukt den rekursive funksjonen Elimination (RFE) teknikk som er blant de beste resultater variable utvelgelsesmetoder for microarray gene expression data og andre high-throughput molekylære datasett [17]. I korte trekk, denne metoden innebærer gjentatte sittende støtte vektor maskin kreft klassifiseringssystemer ved å forkaste den SNPs med den minste innvirkning på klassifisering og valg av SNPs som deltar i beste resultater klassifiseringsmodell. I motsetning til de oven GLM-baserte metoder, søkte vi RFE bare til trening sett av pasienter og kontroller i løpet av kryssvalidering.

Kreft Klassifisering Modeller

Først brukte vi klassifiseringen prosedyren beskrevet i [ ,,,0],8]. Det vil si, prinsipal komponent analyse (PCA) ble utført på de utvalgte SNPs, og deretter første hovedbestanddelen ble trukket ut og brukes til å forutsi kreft status.

Som en state-of-the-art alternativ til PCA -basert klassifisering prosedyre, søkte vi støtte vektor maskin (SVM) classifiers [18]. Den underliggende ideen om SVM klassifikasjonsapparater er å beregne en maksimal margin hyper skille sakene og kontroller. For å oppnå ikke-lineær separasjon, blir dataene implisitt kartlagt til et høyere dimensjonale rommet ved hjelp av en kjernefunksjon, hvor et skillehyperplan er funnet. Fag er klassifisert i henhold til den siden av hyper de tilhører. Disse klassifiseringsmetoder blir ofte brukt for analyse av high-throughput molekylære data [4], [19] – [21] og har mange attraktive teoretiske og empiriske egenskaper. For eksempel, de ofte utkonkurrere andre klassifiseringsmetoder til en bemerkelsesverdig grad; de er også relativt ufølsom for store variabel-til-sample-forhold; og de kan lære svært kompliserte klasse funksjoner [18], [22]. Vi brukte libSVM gjennomføringen av lineære SVM classifiers (www.csie.ntu.edu.tw/~cjlin/libsvm/). Vi har også eksperimentert med de ulineære SVM classifiers men de resulterte i mer komplekse modeller med tilsvarende klassifisering ytelse.

For å vurdere den samlede ytelsen til SNPs og miljømessige faktorer (og /eller familiehistorie), brukte vi ensemble klassifiseringsmetoder basert på SVM classifiers. Vi presenterer i denne artikkelen bare resultater for beste ensembling teknikk som gjennomsnitt spådommer om de to SVM classifiers for hvert fag: en basert på SNP data og en annen basert på miljøfaktorer (og /eller familie historie). Beskrivelsen og resultatene for de andre ensembling teknikker er gitt i Hjelpemiddel Information File S2.

Evaluering av Classification ytelse

I motsetning til den opprinnelige studien [8] som brukes andelen korrekte klassifikasjoner som ytelsen metrisk, benyttet vi arealet under ROC-kurven (AUC) som har mer kraft for å detektere forutsigende signal av SNP [23] – [25]. ROC-kurven er handlingen i følsomhet mot 1-spesifisitet for en rekke klasseterskelverdier. AUC-området fra 0 til 1, med en AUC lik 0 som indikerer det verst tenkelige klassifikator, 0,5 representerer en tilfeldig (dvs. uinformative) klassifikator, og en representerer perfekt klassifisering. En utmerket introduksjon til ROC-analyse for klassifisering er gitt i [25].

For å oppnå objektive AUC-anslag, ble kreft klassifiseringssystemer inne og evaluert ved gjentatt 10 ganger kryssvalidering prosedyre [26]. Den gjentatte 10 ganger kryssvalidering estimator for klassifisering ytelse kan oppnås ved å kjøre vanlige 10-fold kryssvalidering prosedyre 100 ganger med ulike delinger av data til trening og testing av settene, og rapportering av den gjennomsnittlige anslaget over alt 100 går. Dette estimator er asymptotisk objektiv fordi testprøvene blir aldri brukt til å trene klassifikator. Videre har gjentatt 10 ganger kryssvalidering mye mindre varians enn vanlige kryss-validering som kan bli berørt av et ikke-representativt splitt av data [26].

Diskusjon

Resultater og p > Mens tidligere arbeid rapporterte 37 vesentlige SNP’er ved å anvende fremgangsmåten GLM1 til spiserørskreft SNP rekke datasettet [8], vår utførelse av den protokoll som er publisert i [8] fører til betydelige 226 SNP’er. Forskjellen fra rapportert antall 37 SNPs skyldes ekstra filtrering skritt som ble utført til settet av SNPs vesentlige på Bonferroni justert 0,05 α-nivå som ikke ble rapportert i den opprinnelige publikasjonen (Dr. Maxwell Lee, personlig meddelelse). Siden, som vi viser nedenfor, en objektiv metode for SNP effekt vurdering (f.eks GLM2) gir null betydelige SNPs, er overflødig noen ekstra filtrering skritt, derfor har vi ikke anser en slik filtrering i dette arbeidet.

Likevel , anvendelse av den PCA-baserte sorteringsapparat for å dataene for 226 vesentlig SNP’er gjengir klassifiseringen ytelsen av den opprinnelige studien [8]. Nemlig, gir den første hovedkomponent en nesten perfekt klassifisering av pasienter og kontroller med 0,98 AUC og 0,93 andel riktige klassifikasjoner (figur 1). Men er dette resultatet overoptimistisk hovedsakelig på grunn av følgende årsaker.

Den første hovedkomponent gir en nesten perfekt separasjon av saker fra kontrollene.

Først beregning av p -verdi i SNP valgmetoden GLM1 reflekterer ikke betydningen av SNP under vurdering, men betydningen av tre variabler kombinert (SNP, familiehistorie med spiserørskreft, og alkohol forbruk). Fordi familiehistorie og alkoholforbruk er sterke risikofaktorer for spiserørskreft, vil dette p-verdien være forspent mot null, selv når SNP har ingenting å gjøre med spiserørskreft. Denne skjevheten kan påvises som følger: Det er rimelig å anta at flertallet av SNPs ikke har noen effekt på esophageal kreftrisiko. For disse SNPs, skal p-verdiene følge en jevn fordeling mellom 0 og 1, men et stort flertall av deres p-verdier var 10

-3 (figur 2), som er i overensstemmelse med det faktum at deres p-verdi reflekteres den kombinerte effekten av familiehistorie med spiserørskreft, alkoholforbruk, og SNP stedet for SNP selv. På den annen side, reflekterer fremgangsmåte GLM2 effekten av bare SNP’er, og lider ikke av de ovenfor brist (figur 2). En mer utførlig empirisk permutasjon-basert demonstrasjon av hvorfor GLM1 er partisk mens GLM2 ikke er gitt i Saksdokumenter File S1. Anvendelsen av prosedyren GLM2 gav ingen signifikante SNPs etter Bonferroni justering (figur 2). Derfor SNPs rapportert i [8] som statistisk signifikant er ikke statistisk signifikant på Bonferroni justert 0,05 α-nivå.

Figuren er vist i logaritmisk skala for bekvemmelighet. Den vertikale linjen er Bonferroni justert α-nivå (0,05 /10 009). Mens det er SNP’er som er av betydning i henhold til GLM1 metode, er ikke SNP signifikant ved GLM2. Fordelingen av p-verdier for GLM2 er uniform, men fordelingen for GLM1 ikke.

For det andre, både SNP utvalg av GLM1 og bygging av PCA-baserte klassifiseringsmodell ble utført i [8] på de samme 100 fagene som brukes for beregning av endelig klassifisering nøyaktighet. Siden ingen kryssvalidering eller uavhengig prøven validering ble utført, er den resulterende ytelsen klassifiseringen anslaget optimistisk som beskrevet i [27], [28]. For å oppnå et objektivt ytelse estimat for SNP valgmetode og sorter av [8], ble de ovennevnte fremgangsmåter anvendes ved gjentatt 10 ganger kryssvalidering. Den resulterende klassifisering ytelse estimat var 0,68 AUC, mens den opprinnelige prosedyren i [8] førte til 0,98 AUC, som indikerer en 0,30 AUC overestimering.

For å vurdere bidraget av SNPs og andre variabler til spiserørskreft klassifisering, vi utført flere analyser som er oppsummert i tabell 1. Vi brukte SNP utvalg teknikk RFE [17] og SVM classifiers [18] beskrevet i Materialer og metoder. Når SNP data brukes alene, er ytelsen 0,51 AUC som er statistisk umulig å skille fra resultatene av en uninformative klassifikator (0,50 AUC). På den annen side, kan fire miljøvariabler alene (alder ved intervju, tobakk, alkoholbruk, og forbruket av syltede grønnsaker) klassifisere kreft med 0,60 AUC indikerer en beskjeden sammenheng med kreft. Når disse fire miljømessige variabler er kombinert med SNP data, øker den resulterende ytelsen litt til 0,62 AUC. En enda mer overraskende resultat var at en enkelt variabel (dvs. familiehistorie med spiserørskreft) kan klassifisere sykdommen med 0,66 AUC, som er mer nøyaktig enn ved hjelp av SNP data og de fire andre miljømessige variabler. Vi hypotese at dette skjer fordi familien historie inneholder informasjon om andre miljømessige og genetiske variabler som ikke ble målt i studien data. Klart, det er mye mer enn fire miljøvariabler som påvirker kreftfaren. Likeledes Affymetrix 10k SNP matrise er en tidlig genotyping teknologi som ikke gir så tett genomisk dekning som nyere matriser med 500k SNPs [29], [30]. Når familiens historie er kombinert med fire andre miljøvariabler, kan kreft klassifiseres med 0,73 AUC som er mer nøyaktig enn å bruke enten sett av variabler alene. På den annen side, når familiehistorie er kombinert med SNP data, er det resulterende klassifikator med 0,64 AUC ikke så nøyaktig som ved hjelp av den tidligere variable alene. Til slutt, når SNPs og alle andre variabler kombineres, kreft kan klassifiseres med 0,73 AUC.

Forsøkene presenteres i denne artikkelen er involvert SVM classifiers. Som vi har nevnt, var valget av klassifikator basert på empiriske bevis som tyder på at SVMer har overlegen ytelse i forskjellige høy-dimensjonale «omics» datasett [19] – [21] samt i SNP data [4] og de sikkert utkonkurrere styrt klassifikasjon metoder som PCA [27], [28]. Imidlertid kan man ikke utelukke at det ikke finnes noen klassifiseringsmetoder som overgår SVMer i SNP array-datasett. Fremtidig forskning vil svare på dette spørsmålet.

I konklusjonen, våre funn tyder på at flere dataanalyse fallgrubene [8] ledet forskerne til å identifisere SNPs som ikke er statistisk signifikant, og å utlede et sterkt partisk estimat av klassifisering utførelsen av esophageal kreftpasienter og friske kontroller på grunnlag av disse SNPs. Vi har også vist at miljøfaktorer og spesielt familiehistorie av kreft (sistnevnte kan tjene som fullmakt til både genetiske og miljøfaktorer) har en beskjeden tilknytning til sykdommen. Det er derfor tenkelig at andre SNP’er, ikke inkludert i analysen som anvendes, kan være involvert i sykdommen. Disse resultatene er sammenfallende med tidligere litteratur som understreker betydningen av miljøfaktorer på årsakssammenheng av denne komplekse sykdommen [9], [10]. Resultatene understreker også viktigheten av gode dataanalyse i genom-wide assosiasjonsstudier.

Hjelpemiddel Informasjon

Fil S1.

Demonstrasjon av Bias i Beregning av p-verdier

Doi: 10,1371 /journal.pone.0000958.s001 plakater (0,08 MB DOC)

File S2.

Integrert analyse av flere datatyper

doi: 10,1371 /journal.pone.0000958.s002 plakater (0,09 MB DOC)

Takk

Forfatterne ønsker å takke Dr. Maxwell Lee og hans medarbeidere for å gi datasettet for denne studien og for omfattende kommentarer til dette manuskriptet.

Legg att eit svar