PLoS ONE: Sammenligning av Pathway Analysis tilnærminger Bruke Lung Cancer GWAS data Sets

Abstract

Pathway analyse er foreslått som et supplement til enkelt SNP analyser i GWAS. Denne studien sammenlignet pathway analysemetoder ved hjelp av to lungekreft GWAS datasett basert på fire studier: en en kombinert datasett fra Sentral-Europa og Toronto (Ceto); den andre en kombinasjon av data fra Tyskland og MD Anderson (GRMD). Vi søkte litteraturen for veien analysemetoder som ble mye brukt, er representative for andre metoder, og hadde tilgjengelig programvare for å utføre analysen. Vi valgte programmene letthet, som bruker en modifisert Fishers Exact beregning for å teste for pathway foreninger, Gengen (en versjon av Gene Set Enrichment Analysis (GSEA)), som bruker en Kolmogorov-Smirnov-lignende kjører sum statistikk som testobservator, og SLAT, som bruker en p-verdi kombinasjon tilnærming. Vi har også tatt med en modifisert versjon av SUMSTAT metode (mSUMSTAT), som tester for foreningen ved gjennomsnitt χ

2 statistikk fra genotype foreningen tester. Det var nesten 18 000 gener som er tilgjengelige for analyse, etter kartlegging av mer enn 300.000 SNP’er fra hvert datasett. Disse ble kartlagt til 421 GO nivå 4 gensettene for pathway analyse. Blant de metoder utviklet for å være robust for skjevheter knyttet til genet størrelse og sti SNP korrelasjon (Gengen, mSUMSTAT og SLAT), den mSUMSTAT tilnærming identifisert de mest betydningsfulle veier (8 i Ceto og 1 i GRMD). Dette inkluderte en svært plausibel forening for acetylkolin reseptor aktivitet veien i begge Ceto (FDR≤0.001) og GRMD (FDR = 0,009), selv om to sterke foreningen signaler på et enkelt gen klynge (

CHRNA3-CHRNA5-CHRNB4

) kjøre dette resultatet, som kompliserer tolkningen. Få andre replikert foreninger ble funnet ved hjelp av noen av disse metodene. Vanskeligheter med å replikere foreninger hindret vår sammenligning, men resultatene tyder mSUMSTAT har fordeler fremfor de andre tilnærminger, og kan være et nyttig pathway analyse verktøy å bruke sammen med andre metoder som vanligvis brukes GSEA (Gengen) tilnærming.

Citation : Fehringer G, Liu G, Briollais L, Brennan P, Amos CI, Spitz MR, et al. (2012) Sammenligning av Pathway Analysis tilnærminger Bruke Lung Cancer GWAS datasett. PLoS ONE 7 (2): e31816. doi: 10,1371 /journal.pone.0031816

Redaktør: Zhongming Zhao, Vanderbilt University Medical Center, USA

mottatt: 27 juli 2011; Godkjent: 13 januar 2012; Publisert: 21 februar 2012

Copyright: © 2012 Fehringer et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien støttes av Canadian Cancer Society (gi nr. 020 214), den CCO Chair i befolkningsstudier, CCO Chair i Eksperimentelle Therapeutics, Alan Brown Chair in Molecular Genomics, og National Institute of Health (U19 CA148127-01). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Genome bredt assosiasjonsstudier (GWAS) undersøke sammenslutning av hundretusener av genetiske varianter med sykdom eller andre fenotyper. Disse studiene har nå identifisert assosiasjoner mellom genetiske varianter og utfall, slik som forbindelser mellom SNP’er ved 15q25 og 5 p-regionen og risikoen for lungekreft [1], [2], [3], [4], [5], [6] . GWAS av lunge cancer og andre sykdommer generelt identifisere bare noen få SNP’er som er assosiert med sykdom og disse vanligvis har små effektstørrelser. For eksempel, er i og for allel odds-forholdet for varianter som implisere acetylcholin-reseptor-gener ved 15q25 med risikoen for lungekreft omtrent 1,3 [1], [2], [5]. SNPs med svakere effekter kunne bli savnet gitt de strenge kravene som trengs for justering for multiple sammenligninger.

Pathway analyse er foreslått som en komplementær tilnærming til enkelt SNP analyser i GWAS. Pathway analyse grupper gener som er beslektet biologisk og tester om disse gense gruppene er knyttet til utfall. Selv om utfallet sammenheng med variasjoner på mange gener kan være for liten til å detektere i GWAS ved hjelp av enkle SNP analyse, kan forbindelser bli detektert fra den felles virkning av mange svake signaler på gener gruppert i en sti basert på felles biologisk funksjon. Andre fordeler ved denne tilnærmingen er det betydelig reduksjon av multippel testing byrden når genene er gruppert i trasé for foreningen testing [7] og inkorporering av biologisk kunnskap inn i analysen, som ikke er redegjort for i GWAS.

antallet metoder utviklet for analyse pathway fortsetter å øke. Mange on-line programmer tilbyr et enkelt gen sett berikelse tilnærming som bruker noen form for Fishers Exact test for å fastslå overrepresentasjon av gener innenfor en sti. Generelt blir et gen som er tilordnet en P-verdi (vanligvis oppnådd fra de SNP mest sterkt assosiert med utfall ved en genet) og en vilkårlig cut-off (f.eks P≤0.05) benyttes til å skille gener sterkt assosiert med resultatet fra andre gener . En Fishers eksakt beregning blir så brukt til å teste for innenfor pathway anrikning av gener sterkt assosiert med utfallet. Denne tilnærmingen gjør ikke rede for koblingsulikevekt mønstre blant SNPs på ulike gener i veien. I tillegg kan det overvurdere betydningen av veier med store gener (dvs. mange SNPs), siden du velger den mest betydningsfulle SNP når det er mange SNPs på et enkelt gen er mer sannsynlig å finne en sterk sammenheng mellom gen og utfallet av mulighet [8], [9].

den populære GSEA tilnærmingen vanligvis bruker SNP sterkest assosiert med utfall på hvert gen til å representere gen-utfall foreninger. Noen implementasjoner ta hensyn til koblingsulikevekt mellom SNPs og genet størrelse skjevhet ved å utføre fenotype (case-control status) permutasjoner og bruke normalisering rutiner. Gener er først rangert etter størrelsen på deres test statistikk for tilknytning til utfallet. En Kolmogorov-Smirnov-statistikk som løpende sum blir så brukt til å teste for anrikning av høyt rangert gener innenfor veier, ved å sammenligne den sti teststatistikken til sin null fordeling som bestemt ved fenotype permutasjoner [9], [10]. Andre tilnærminger, for eksempel SUMSTAT tilnærming som benytter sum av χ

2 statistikk tilordnet gener som et sti testobservator [11] kan være innrettet til å bruke fenotype permutasjoner og normaliseringsfremgangsmåter. Alternativer til disse genet satt berikelse tilnærminger, for eksempel metoder for å kombinere P-verdier (ligner på meta-analyser), har også blitt foreslått for pathway analyse. Noen av disse, innlemme metodikk som står for potensiell skjevhet knyttet til genet størrelse eller korrelasjonen mellom SNPs [12], [13].

Vi sammenligner fire pathway analysemetoder. Disse inkluderer en enkel gen berikelse tilnærming letthet, som beregner en modifisert Fishers Exact sannsynlighet [14], GSEA (ved hjelp av Gengen program) [9], [10], en modifisert SUMSTAT tilnærming, og SLAT, en P-verdi kombinasjon tilnærming [12]. Den første metoden er representativ for tidlig enklere tilnærminger som bruker Fishers Exact test, mens andre, som skissert ovenfor, er mer sofistikert og utviklet for å møte fordommer knyttet til genet størrelse og koblingsulikevekt mellom SNPs. Vi sammenligne og kontrast resultatene fra analyser ved hjelp av disse metodene i to lungekreft GWAS datasett.

Materialer og metoder

Prøver

Data ble brukt fra case-control GWAS av kreftrisiko lunge. Disse inkluderte lungekreft tilfeller og kontroller fra Sentral-Europa [2], Toronto [2] og Tyskland (HGF studien) [15], [16] og ikke-småcellet lungekreft tilfeller og kontroller fra Texas (MD Anderson Cancer Center) [ ,,,0],1]. Genotyping ble utført ved hjelp av enten Illumina HumanHap300 eller HumanHap550 chips. Data fra de fire studiene ble slått sammen til to datasett: 1) Mellom-Europa og Toronto (Ceto); og 2) Tyskland og Texas (GRMD), for å oppnå tilstrekkelig prøvestørrelse og statistisk styrke til å påvise forbindelser i reaksjonsveien analysene. Valget av hvilke datasett å kombinere ble hovedsakelig gjort for å sikre tilsvarende utvalgsstørrelser i de to uavhengige analyser. Tabell 1 gir ytterligere detaljer knyttet til disse studiene.

Valg av pathway analysemetoder

Pathway analysemetoder ble identifisert gjennom litteraturgjennomgang. Metoder implementert i programmene EASE [14], Gengen (utviklet fra GSEA) [9], [10], og SLAT [12] ble valgt fordi de var mye brukt og /eller representativ for andre reaksjonsvei analysefremgangsmåter. Vi valgte SUMSTAT metode basert på en rapport som angir det hadde overlegen makt til å oppdage pathway assosiasjoner enn GSEA eller Fishers Exact metoder [11]. For denne metoden en in-house SAS programmet ble utviklet. Metodene er beskrevet her kort, med detaljer som er gitt i de originale publikasjonene.

Beskrivelse av genet sett analysemetoder

Med unntak av SLAT, sti analysemetodene som er beskrevet her krever tildeling av en testobservator (eller P-verdi) til hvert gen som representerer sin tilknytning til resultatet. Vi brukte vanlig praksis å tilordne hvert gen den viktigste testen statistikk fra alle SNP foreninger tester for genet [8], [9].

Input for enkel krever at gener signifikant assosiert med resultatet skiller seg fra alle andre gener, ved hjelp av en forhåndsdefinert cut-off (f.eks P≤0.05). Berikelse for betydelige gener i hver vei blir deretter testet ved hjelp EASE score, en modifisert Fishers Exact sannsynlighet representerer den øvre grensen av knytnings Fisher eksakte sannsynligheter. Globale FDRs er beregnet å stå for multiple sammenligninger [14].

Gengen er tilpasset fra Gene Set Enrichment Analysis (GSEA), som brukes opprinnelig for microarray analyse [17]. Gener er rangert i synkende rekkefølge etter størrelsen på den opprinnelige foreningen statistikken. En vektet Kolmogorov-Smirnov-lignende løping sum statistikken beregnes deretter som reflekterer løpet representasjon av høyere rangert gener i en sti i genet listen. Vekten tar på verdiene av SNP testobservatorene representerer gener i listen. Et normalisert anrikning statistikk (NER) er beregnet for observerte data, etterfulgt av fenotype permutasjoner som gir permuteres NER-verdier, noe som skaper null fordelingen fra hvilken vei assosiasjons P-verdier blir bestemt. FDRs brukes til å gjøre rede for multiple sammenligninger [9].

Den modifiserte SUMSTAT (mSUMSTAT) tilnærming, som vi utviklet, er tilpasset fra Tintle et al. [11]. Fremgangsmåten er lik den som brukes i Gengen men reaksjonsveien teststatistikken er beregnet ved å ta gjennomsnittet χ

2 testobservatorene innen hver bane. Ligningen nedenfor viser beregning av den normaliserte middelverdi av den observerte χ

2-statistikken, hvor S refererer til et spesifikt gen sett og π betegner permutasjon. Den normaliserte permuted statistikken beregnes på samme måte.

p-verdien bestemmes ved å sammenligne normalisert middelverdi av χ

2 statistikken til de normaliserte permuted bety χ

2 statistikk [18] og en FDR beregnes i henhold til Wang et al. [9]. Denne metoden kontrast til at av Tintle et al., [11] gjennom beregning av en normalisert testobservator, og bruk av fenotype permutasjoner i stedet for tilfeldig valgt genet sett å bestemme null distribusjon.

slat Programmet beregner P-verdier for sammenslutning av SNPs med utfall for en definert sti (som i denne studien), genet eller region. P-verdier går til en bestemt terskel er kombinert i en test statistikk. Statistikken er beregnet for observert og fenotype permuteres data som tillater bestemmelse av en bane P-verdi [12]. Ingen spesiell fremgangsmåte for å korrigere for multiple sammenligninger er gjort tilgjengelig av forfatterne. (Vi brukte Benjamini-Hochberg korreksjon å beregne FDRs for denne metoden).

Analyse detaljer

SNPs ble ekskludert da P-verdi for HWE i kontrollene var ≤0.001 (i samsvar med tidligere sti analyse studier [9], [11]), den mindre allel frekvens var mindre enn 1%, og genotype manglet i 5% av individer. I tillegg SNPs fra HumanHap550 chip som ble brukt i den tyske GWAS ble ekskludert hvis det var ingen tilsvarende SNP fra MD Anderson (studiet som tysk GWAS data ble kombinert) .Subjects med sex avvik (basert på heterozygositet sats på kromosom X ) og de med . 10% mangler SNPs ble ekskludert

Ubetinget logistisk regresjon, ved hjelp plink 1.05 [19] generert allel χ

2 verdier for SNPs for hvert datasett, Ceto og GRMD, for bruk i programmene letthet, Gengen og mSUMSTAT. Permuted SNP foreningen resultater ble generert for Gengen og mSUMSTAT bruker 1000 logistisk regresjon kjører med case-control status tilfeldig stokket for hvert løp. Logistisk regresjon ble justert for kjønn, alder og landbakgrunn. Slat program utført sine egne SNP forening tester for sin sti analyse, som ikke inkluderer justering for kovariater.

SNPs ble tildelt et gen om de var innenfor 20 kb av genet. En SNP til genet knytte filen og GO nivå 4 pathway databasefil, både hentet fra Gengen nettsted, ble brukt til å knytte SNPs, gener og stier. Bare veier med 15 til 200 gener ble tatt med for å unngå å teste altfor store eller små GO trasé [6]. Den χ

2 av de mest betydningsfulle SNP på genet ble tildelt som genet. Dette χ

2 statistikken ble brukt til å tildele cut-off verdi på P≤0.05 å identifisere sterkt assosiert gener for analyse med letthet. De samme χ

2 statistikken ble brukt i beregningen av veien teststatistikken for Gengen og mSUMSTAT. Alle SNPs på hvert gen ble brukt som input for beregning av hovedbane P-verdier for SLAT

Påvirkningen av genet størrelse på sti rangering av de fire pathway analysemetoder ble undersøkt ved hjelp av lineær regresjonsanalyse (SAS 9.2.: SAS Institute Inc., Cary, North Carolina). Median-genet størrelse (median antall SNP pr genet) ble beregnet for hver topp vei som inngår som den Variabelen i en modell med sti analysemetode (behandlet som en kategorisk variabel og kodet inn i fire dummy-variable) som den viktigste effekten og antall gener per sti inkludert som en potensiell confounder.

Resultater

Tabell 2 viser antall signifikante trasé identifisert av de fire pathway analysemetoder i Ceto og GRMD ved hjelp av en FDR av ≤0.05 som kriterium for å bestemme statistisk signifikans. EASE identifisert 10 reaksjonsveier som i forbindelse med risikoen for lungekreft i de to datasettene, 7 i Ceto, 5 i GRMD, med to viktige veier som er felles for begge datasettene. Den mSUMSTAT metode identifisert 8 trasé som betydelige, 8 i Ceto, en i GRMD med ett å være felles for begge datasettene. SLAT identifisert fem trasé som betydelige, tre i GRMD og to i Ceto.

Siden ENKEL identifisert 10 viktige veier, mer enn de andre metodene, Tabell 3 viser de 10 beste banene identifisert i Ceto og GRMD av alle pathway analysemetoder (hentet fra lister som omfatter resultater fra begge datasettene). En FDR av ≤0.05 i begge datasettene ble brukt som kriterier for en replikert resultat. Overføring av nerveimpulser og Ras guanyl nukleotid utvekslings faktorer banene ble identifisert av letthet som assosiert med lungekreft i Ceto og GRMD (tabell 3). Den acetylkolin reseptor aktivitet veien ble identifisert som assosiert med lungekreft i Ceto og GRMD av mSUMSTAT. Denne veien inneholder

CHRNA3-CHRNA5-CHRNB4

clusteret på 15q25, hvor GWAS har identifisert flere SNPs assosiert med lungekreft [1], [2], [5]. Denne veien var den høyest rangerte bane i Ceto ved hjelp av Gengen metode (FDR = 0,19) (tabell 3). I GRMD, ble denne veien rangert 16

th blant alle veier (ikke vist) ved Gengen. FDR var 0,43, men det ble ledsaget av en nominelt betydelig P-verdien (P = 0,004). Andre betydelige pathway foreninger i Ceto hadde tilsvarende nominelt signifikante p-verdier i GRMD, spesielt: heme metabolske prosessen, porfyrin metabolske prosessen, pigment biosyntetiske prosess, og 4 jern, 4 svovel klynge bindende bruker mSUMSTAT; og low-density lipoprotein bindende hjelp letthet. SLAT identifisert regulering av cellemigrering som signifikant assosiert med lungecancer i GRMD, med en tilsvarende nominelt betydelig P-verdien i Ceto (tabell 3).

Annet enn acetylkolin reseptor aktivitet veien, som ble identifisert både mSUMSTAT og Gengen som en topp bane, var det noen topp trasé identifisert av mer enn én metode. Klorid ion bindende var assosiert med risiko i Ceto ifølge letthet og Gengen. Komplementaktivering-klassiske veien var assosiert med lungekreft i Ceto ifølge Gengen, mSUMSTAT og SLAT. Heme metabolske prosessen ble identifisert som assosiert med risiko i Ceto av Gengen og mSUMSTAT. Chromatin forsamlingen var assosiert med lungekreft i Ceto ifølge mSUMSTAT og SLAT. Interleukin-2 biosyntetiske prosess ble identifisert som assosiert med risiko av letthet og Gengen i GRMD. Regulering av cellevandring var assosiert med risiko for GRMD ifølge letthet og SLAT (tabell 3). Anion transport ble identifisert som en topp pathway ved mSUMSTAT men 35 av 102 gener i denne reaksjonsveien ble inkludert i kloridionet bindingsreaksjonsveien (64 gener), identifisert som en topp vei ved letthet og Gengen (gen antall i pathways beregnede følgende SNP mapping) . Likeledes er 16 av 18 gener i interleukin 2 pathway (ENKEL) inkludert blant de 65 genene i cytokin metabolismen (Gengen). Andre topp veier er identifisert ved forskjellige metoder delte gener men overlapping var 12% eller mindre basert på felles gener for den største av de to baner (for eksempel 20 av 50 positive regulering av fosforspredningsveier gener (Gengen) er inkludert i vekstfaktor metabolismen pathway (SLAT), som har 165 gener).

den enkle metoden valgte trasé med større genet størrelse (definert ved hjelp av median antall SNPs per gen) enn de andre metodene. Den gjennomsnittlige genet størrelse for de beste ENKEL trasé vist i tabell 3 var 12,2 SNPs per genet, mens gjennomsnittlig toppen sti genet størrelsen var 8,4 for Gengen, 7,4 for mSUMSTAT, og 8,7 for SLAT. Regresjonsanalyse, der sti analysemetode ble kodet inn i fire dummyvariabler, produsert en statistisk signifikant sammenheng mellom ENKEL metode og genet størrelse (P = 0,02).

Som to metoder identifisert acetylkolin reseptor aktivitet som en topp bane vi undersøkt denne foreningen i mer detalj. SNPs nær

CHRNA3 Anmeldelser –

CHRNA5 Anmeldelser –

CHRNB4

clusteret som viser sterke assosiasjoner med lungekreft, er i sterk LD, og ​​det er overlapping mellom SNP testobservatorene tildelte til disse genene (dvs. testobservator for samme SNP ble tildelt både

CHRNA5 Hotell og

CHRNA3

). Disse pathway egenskapene kan skjevhet sti forening signaler [20], [21] For å vurdere om veien analyse ble drevet av en enkelt forbundet gen eller genet cluster, undersøkte vi effekten av å fjerne

CHRNA5

genet (hvor den antatte kausal variant er plassert) og hele genet klyngen fra analyser ved bruk mSUMSTAT og Gengen. Fjerner du

CHRNA5

hadde ingen innflytelse på mSUMSTAT resultater i Ceto (

CHRNA5

: P = 0,001, FDR≤0.001) men FDRs falt godt under 0,05 signifikansnivå i GRMD (

CHRNA5 product:: P = 0,002, FDR = 0,37). Fjerner du

CHRNA5

fra Gengen analysen resulterte i redusert styrke foreningen i Ceto (P = 0,003, FDR = 0,48), men nesten ingen endring i GRMD (P = 0,01, FDR = 0,41). Men fjerning av hele genet klyngen resulterte i markert reduksjon av FDR og tap av betydning i de to datasettene for både vei analysemetoder (mSUMSTAT uten CHRNA3-CHRNA5-CHRNB4: Ceto: P = 0,19, FDR = 0.56 GRMD: P = 0,71, FDR = 0,82; Gengen uten CHRNA3-CHRNA5-CHRNB4 Ceto: P = 0,11, FDR = 1.00 GRMD: P = 0,32, FDR = 0,76)

Vi ytterligere utforsket foreningen av denne veien med risiko. av grafer odds ratio og 95% konfidensintervall for acetylkolin reseptor pathway SNPs og gener produsert av ubetinget logistiske regresjonsanalyser. Figur 1A viser odds-ratio for spesifikke SNP’er tilordnet gener (dvs. den mest signifikante SNP for hvert gen) for Ceto analyse og for sammenligning, odds Graden for disse samme SNPs for GRMD. I tillegg til SNPs i

CHRNA3-CHRNA5-CHRNB4

genet cluster, en SNP på

CHRNA2

viste et nominelt signifikant sammenheng med risiko i begge datasettene (Ceto: P = 0,012; GRMD: P = 0,022). Figur 1B viser odds ratio for den mest betydningsfulle SNP er tilordnet hvert gen, enten i datasettet (dvs. selve SNP som brukes i reaksjonsveien analyser i de to datasettene). Andre nominelt signifikant sammenheng ble funnet for

CHRM3 plakater (Ceto: P = 0.003; GRMD: P = 0,028),

CHRNA7 plakater (Ceto: P = 0,016; GRMD: P = 0,009), og

CHRNA4 plakater (Ceto: P = 0,012; GRMD: P = 0,038) i begge datasettene. Totalt ble det 6 av 8 gener assosiert med risiko i Ceto forbundet med risiko i GRMD, et resultat som er større enn forventet ved en tilfeldighet gitt antall SNPs på hvert gen.

A) den viktigste SNP for hvert gen brukes i Sentral-Europa-Toronto analyse og odds ratio for samme SNPs for Tyskland MD Anderson); B) den mest signifikante SNP er tilordnet hvert gen, enten i datasettet (dvs. selve SNP som brukes i reaksjonsveien analyser i de to datasettene). Kromosom nummer (Chr) og gener for begge grafer vises på venstre side. (Sentral-Europa – Toronto SNPs: fyllingsgraden, Tyskland MD Anderson matchende SNPs: ingen fyll, Tyskland MD Anderson toppen SNP (forskjellig fra Sentral-Europa-Toronto): grå fyll). A) Referanse allel samme i både Sentral-Europa-Toronto og Tyskland-MD Anderson, men valgt å vise en positiv assosiasjon for Sentral-Europa-Toronto. B) Annonse allel valgt alltid å vise positiv sammenheng.

CHRNA5

er utelukket som SNPs er identiske med de som representerer

CHRNA3

. Odds ratio justert for alder, kjønn og studielandet.

Diskusjoner

Fire pathway analysemetoder ble sammenlignet ved hjelp av hvert å teste sammenslutning av GO nivå 4 baner med lungekreft i to lungekreft GWAS datasett. Metoder forhold inkludert fire genet satt berikelse tilnærminger, brukervennlighet, Gengen, mSUMSTAT og en p-verdi kombinasjon tilnærming, SLAT. Etter justering for multiple sammenligninger ved hjelp av en FDR på mindre enn eller lik 0,05 som kriterium for en signifikant sammenheng, letthet og mSUMSTAT identifisert flere veier i forbindelse med lungekreft risiko på tvers av de to datasettene (10 og 8 henholdsvis) enn gjorde Gengen (ingen trasé ), eller SLAT (5 trasé). ENKEL og mSUMSTAT også identifisert trasé som var signifikant assosiert med risiko i begge datasettene: overføring av nerveimpulser og Ras guanyl nucleotide utveksling faktor ved letthet; og acetylkolin reseptor aktivitet sti av mSUMSTAT. Det var begrenset enighet blant de ulike metodene i identifisering av topp rangert veier. Sammenligning gener blant topp trasé valgt av hver metode viste bare en beskjeden grad av overlapping.

I sammenligne pathway analysemetoder, vi undersøkt om antall SNPs per genet i trasé påvirket utvalg av trasé. Resultatene indikerte EASE, identifisert topp trasé med en betydelig større median antall SNP pr gen enn de andre metodene. Dette resultat er ikke uventet. For alle genet satt berikelse metoder brukte vi felles tilnærming for å utnevne den mest betydningsfulle SNP å representere hvert gen. Gener med flere SNP’er, generelt store gener, er det mer sannsynlig for å bli tildelt en SNP med en høy krets statistikk, noe som kan føre til over estimering av betydning av veier med store gener (gen størrelse skjevhet) [8], [9]. Vi erkjenner at store gener kan være mer sannsynlig å huse flere varianter som er virkelig forbundet med utfallet, men våre kommentarer fokusere på statistiske egenskapene til metodene, spesielt potensialet for falske positiver som følge av genet størrelse bias. EASE, som bruker en relativt enkel tilnærming basert på Fishers Exact test, er utsatt for denne skjevhet. Normalisering rutiner og fenotype permutasjoner innlemmet i Gengen og mSUMSTAT beskytte mot denne skjevheten [6], [22]. SLAT er også beskyttet mot denne forspenningen som den bruker alle SNP’er i en vei for analyse og inkorporerer en fenotype stokking rutinemessig [12]. Jo mer robuste utformingen av Gengen, mSUMSTAT og SLAT gir en ekstra fordel, da disse metodene rede for sammenhengen mellom SNPs innenfor trasé.

En kritisk del av denne sammenligningen var bruken av replikering av topp trasé over Ceto og GRMD å bidra til å evaluere den relative ytelsen til disse metodene. Men basert på en FDR av ≤0.05, ble noen replikert foreninger funnet. Mangel på studien kan makt delvis står for det lille antallet replikert foreninger. Spesielt GRMD (tilfeller = 1639, kontroller = 1618) kan ha hatt tilstrekkelig utvalgsstørrelse for å oppdage foreninger som finnes i Ceto (tilfeller = 2258, kontroller = 3027). Heterogenitet mellom datasettene kan også ha bidratt til lite antall replikert foreninger, som den tyske prøven ble begrenset til personer under 50 år, og MD Anderson GWAS inkludert bare noensinne røykere. Derfor GRMD fag var yngre og hadde en høyere andel av stadig røykere sammenlignet med Ceto fag.

Blant de tre metodene (Gengen, mSUMSTAT og slat) som er robust mot genet størrelse skjevhet bare mSUMSTAT identifisert en replikert forening. Dette var for acetylkolin reseptor aktivitet veien. Foreningen av denne veien med risiko er ikke uventet da flere SNPs på eller nær

CHRNA3 Anmeldelser –

CHRNA5 Anmeldelser –

CHRNB4

clusteret er assosiert med både risikoen for lungekreft [ ,,,0],1], [2], [5] og nikotinavhengighet [5], [23], [24]. Det er av interesse at Gengen metoden også identifisert acetylkolin reseptor aktivitet som de beste rangerte banen i Ceto og en av de høyest rangert baner i GRMD, men resultatet var ikke signifikant i enten datasettet etter korrigering for multiple sammenligninger ved hjelp av FDR. Vi merker oss at foreningene ble funnet for denne veien ble drevet av

CHRNA3 Anmeldelser –

CHRNA5 Anmeldelser –

CHRNB4

genet klynge, som demonstrert av den dramatiske reduksjonen av styrken av foreningen ( i henhold til FDR) funnet for både mSUMSTAT og Gengen metoder når data ble reanalysert med disse tre genene fjernet fra veien. Dette kan komplisere tolkningen av den observerte krets som ideelt sett betydelige veier bør ikke bli identifisert fra et signal som kan til slutt representere et enkelt gen eller variant [20], [21] Det presiseres imidlertid at det finnes to uavhengige risiko forbundet loci i denne regionen [25], og det er foreløpig ikke klart hvilke gener i regionen er kausalt relatert til sykdomsrisiko. Det foretrekkes da at reaksjonsveier slik som disse er kjent for å være assosiert med resultatet ved analysemetoden, og forskeren kan deretter følge opp med flere undersøkelsesanalyser. Videre undersøkelser av denne veien gjorde foreslår at å tillate samme SNP å representere både

CHRNA5 Hotell og

CHRNA3

i analysen overvurderte betydningen i GRMD datasett for mSUMSTAT og Ceto datasett for Gengen. Resultater fra analyser som ekskluderte

CHRNA5

er trolig den mest hensiktsmessige for denne veien.

For å videre sammenligne pathway foreninger over datasettene vi brukte en mindre restriktiv kriterium for en replikert sti forening ( en betydelig FDR i en datasettet og et nominelt betydelig krets (P = 0,05) i det andre). Dette tillates flere foreninger å bli identifisert, men med mindre tillit enn de som er identifisert ved hjelp av den opprinnelige kriteriet. Den mSUMSTAT metoden funnet fire potensiell risiko forbundet trasé med en betydelig FDR i Ceto og nominelt signifikante p-verdier i GRMD: heme metabolske prosessen, porfyrin metabolske prosessen, pigment biosyntese og 4 jern, 4 svovel klynge bindende. De heme metabolske og porfyriner metabolske veier viser en høy grad av overlapping. Alle fire av disse veier inkluderer

IREB2

som er i samme region med sterk LD som inkluderer

CHRNA3 Anmeldelser –

CHRNA5 Anmeldelser –

CHRNB4

klynge. SLAT identifisert en sti, regulering av cellevandring, ved hjelp av den samme kriteriet.

Totalt resultatene våre (sammen med innsikter fra andre sammenligninger omtalt nedenfor) foreslår mSUMSTAT bør vurderes når du velger en metode for sti analyse. Mangel på sterk replikering av pathway foreninger gjør det vanskelig å vurdere Gengen og SLAT mot hverandre. Imidlertid synes Gengen tilnærming til å ha noen fordeler. Gengen resultater gitt noen støtte for en sammenslutning av acetylkolin reseptor vei med risiko, og som mSUMSTAT denne metoden gjør det mulig for inkorporering av kovariater, mens SLAT programmet ikke har denne muligheten. Til slutt blir Gengen vanligvis brukes og har sørget plausible andre forbindelser i reaksjonsveien analyser av GWAS datasett [10]. På den annen side, er nytten av SLAT vanskelig å vurdere gitt resultatene og videre evaluering av denne fremgangsmåten er nødvendig. Resten av diskusjonen fokuserer på mSUMSTAT og Gengen.

Vår mSUMSTAT metode kontraster som for Tintle et al. [11] ved beregning av en normalisert test statistikk, og bruk av fenotype permutasjoner i stedet for tilfeldig utvalgt gen setter for å bestemme null-fordeling. Disse endringene ble innført for å løse genet størrelse partiskhet og opprettholde sammenhengen struktur blant SNPs i en vei.

Noen simuleringsresultatene tyder på at tilnærminger som bruker summen eller gjennomsnittet av χ

2 som en vei testobservator vil være kraftigere enn de som bruker den veide Kolmogorov-Smirnov-lignende løping sum statistikken innlemmet i Gengen og relaterte GSEA tilnærminger. Tintle et al. funnet at den opprinnelige SUMSTAT teststatistikken var kraftigere enn en GSEA tilnærming i et forhold hvor tilfeldige gensettene anvendt for å konstruere null-fordeling for begge metoder [11]. Efron og Tibshirani funnet generelt lavere p-verdier ved hjelp av behovsprøving statistikk i forhold til GSEA i simulert genuttrykk analyser [18] .deres analyse brukt en t-test i stedet for en χ

2 statistikken, noe som åpner for genuttrykk sammenligninger av to grupper. Permutasjon og normalisering tilnærminger var de samme som er brukt her, med unntak av normalisering for GSEA også innlemmet gjennomsnitt og standardavvik beregnet ut fra permutasjoner med tilfeldige gensettene.

Legg att eit svar