Abstract
Bakgrunn
Et stort antall av genuttrykk profilering (GEP) studier om prognose av tykktarmskreft (CRC) er utført, men ingen pålitelig gen signatur for prediksjon av CRC prognose har blitt funnet. Bioinformatiske berikelse verktøy er en kraftfull tilnærming for å identifisere biologiske prosesser i high-throughput dataanalyse.
hovedfunnene
Vi har for første gang samlet resultatene fra 23 hittil publiserte uavhengige GEP studier på CRC prognose. I disse 23 studier ble 1475 unike, kartlagt genene identifisert, der 124 (8,4%) ble rapportert hos minst to studier med 54 av dem viser bestående retning uttrykk endring mellom de enkelte studiene. Ved hjelp av disse data, forsøkte vi å overvinne mangelen på reproduserbarhet observert i genene som er rapportert i enkelte GEP-studier ved å utføre en vei-baserte berikelse analyse. Vi brukte opptil ti verktøy for overrepresentasjon analyse av Gene ontologi (GO) kategorier eller Kyoto Encyclopedia of gener og genomer (KEGG) baner i hver av de tre genet lister (1475, 124 og 54 gener). Denne strategien, basert på testing av flere verktøy, tillot oss å identifisere den oksidativ fosforylering kjeden og de ekstracellulære matriks-reseptor interaksjon kategorier, så vel som en generell kategori er relatert til celleproliferasjon og apoptose, som bare betydelig og konsekvent overrepresentert baner i tre gen lister, som ble rapportert av flere berikelse verktøy.
Konklusjoner
Vår sti-baserte berikelse analyse av 23 uavhengige genuttrykk profilering studier på prognose fra CRC identifisert betydelig og konsekvent overrepresentert prognostiske kategorier for CRC. Disse overrepresentert kategoriene er funksjonelt klart relatert til kreft progresjon, og fortjener videre undersøkelser
Citation. Lascorz J, Chen B, Hemminki K, Försti A (2011) Consensus Pathways innblandet i Prognose for tykktarmskreft Identifisert gjennom systematisk berikelse analyse av genuttrykk Profilering Studies. PLoS ONE 6 (4): e18867. doi: 10,1371 /journal.pone.0018867
Redaktør: Chad Creighton, Baylor College of Medicine, USA
mottatt: 01.12.2010; Godkjent: 15 mars 2011; Publisert: 25 april 2011
Copyright: © 2011 Lascorz et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet av den tyske nasjonal Genome Research Network (NGFN-Plus) (01GS08181), Deutsche Krebshilfe (tysk Cancer AID) (107 318), og den europeiske union (EU) (HELSE-F4-2007-200767). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
tykktarms~~POS=TRUNC kreft~~POS=HEADCOMP (CRC) er den tredje vanligste kreftformen og den fjerde største årsaken til kreftdød hele verden, med en levetid risiko i vesteuropeiske og nordamerikanske populasjoner rundt 5% [1].
Mange genuttrykk profilering (GEP) studier på CRC er utført i det siste tiåret ved hjelp av mikromatriseteknologi. Ifølge deres potensielle kliniske anvendelser, kan de deles inn i tre grupper [2]: studier på kreftutvikling prosessen, studier på prognose prediksjon, og studier på behandlingsrespons prediksjon. De viser liten overlapping i de identifiserte genene, og ingen pålitelig signatur nyttig i klinisk praksis er funnet. Foreløpig International Union Against Cancer (UICC) TNM klassifikasjon av ondartede svulster basert på clinicopathological staging fortsatt standarden for CRC prognostication [3].
Vi har fokusert på studier av prognosen prediksjon, som utgjør en heterogen gruppe GEP studier. De tar sikte på å identifisere et gen ekspresjon profil for å diskriminere mer aggressiv fra mindre aggressive CRC, basert på ulike funksjoner knyttet til sykdomsprogresjon, slik som eksistensen av tilbakefall, tilstedeværelse av metastase, eller overlevelsesdata. Hittil har bare en meta-analyse av ti GEP studier har rapportert en liste over 13 gener forskjellig uttrykt i CRC med god versus dårlig prognose, rapportert av minst to uavhengige studier [4].
Flere grunner har vært foreslått for å forklare denne mangelen på reproduserbarhet i GEP studier av CRC, for eksempel for lite kraft studier, mangel på validering av resultatet, forskjeller i forsøksprotokollen og statistiske fallgruver i å analysere mikroarray ekspresjonsdata for kreft utfallet [3]. Endringer i biologiske egenskaper krever koordinert variasjon i ekspresjon av genet sett som regulerer biologisk aktivitet, og denne informasjonen kan neppe hentes ut fra endringer i ekspresjon av gener når de enkelte overlappende mellom studiene er så lav [5]. Berikelse analyseverktøy, som estimerer overrepresentasjon av bestemte genet kategorier eller trasé i et gen liste, er en lovende strategi for å identifisere biologiske kategorier innblandet i den undersøkte prosessen [6].
En omfattende analyse av tilgjengelige bioinformatiske berikelse verktøy har nylig publisert [6]. Basert på algoritmen brukt, kan de berikelse verktøy deles inn i tre klasser: entall berikelse analyse (SEA eller klasse I); gen sett berikelse analyse (GSEA eller klasse II); og modulær berikelse analyse (MEA eller klasse III). I alle verktøyene, blir inngangs liste av gener kartlagt til de biologiske termer i databaser, og deretter statistisk analyse undersøker berikelse av genet medlemmer for hver av merknads vilkår og korrigerer for flere testing [6]. Vi søkte flere SEA verktøy for de samme inngangs genet lister, og bare beriket kategorier oppnådd med flere verktøy ble sett som et tegn på ekte prediksjon. Denne strategien, basert på testing av flere verktøy, anbefales for å oppnå de mest tilfredsstillende resultater [7].
Gene ontologi (GO) [8] og Kyoto Encyclopedia of gener og genomer (KEGG) [9] er de to viktigste merknads databaser samle biologisk kunnskap om gener, som gjør dem svært godt egnet for bioinformatikk skanning for anrikning analyse [6]. Foreløpig inneholder GO informasjon for 18261 menneskelige genprodukter, mens KEGG maps 373 forskjellige veier. Vårt mål var å identifisere de funksjonelle kategoriene (GO vilkår og KEGG veier) som er konsekvent overrepresentert i en statistisk signifikant måte i listen over differensielt uttrykte gener utledes fra GEP studier på CRC prognose. Vi først samlet inn data fra de 23 publiserte uavhengige GEP studier på prognose fra CRC til å trekke genene rapportert hos minst to av dem, og deretter disse genene ble brukt for systematisk berikelse analyse med flere uavhengige SEA verktøy. På denne måten vi overvant manglende reproduserbarhet observert i begge genene rapportert i enkelte GEP studier og rapportert av verktøy berikelse analyse de overrepresentert kategorier, og kunne identifisere konsekvent beriket kategorier.
Resultater
Meta -Analyse av GEP studier
det er totalt 1897 forskjellige genet identifikatorer (IDS) ble rapportert å være forskjellig uttrykt i de 23 uavhengige GEP studier på prognose fra CRC (tabell 1). Fra dem, at antallet unike, lagte gener var 1475, hvorav 603 gener ble oppregulert og 794 nedregulert i dårlig prognose prøvene, mens 78 hadde en motsatt retning i uttrykket endring mellom enkelt-studier. Fra 1475 genene, ble 124 gener (8,4%) rapportert i mer enn ett GEP studie (115 i to, og ni i tre studier), 19 av dem (15,3%) ble oppregulert i dårlig prognose prøver i to studier 35 nedregulert (28,2%), og 70 med kontrast retning i uttrykket endring mellom to studier. Således, 54 ut av de 124 gener (43,5%) rapporterte i samme retning i genekspresjon endring i to forskjellige GEP studier. Fra de ni gener rapportert i tre studier (ATP5C1 Ca2, CYP51A1, fn1, HSP90AB1, IQGAP1, RPS5, SPP1, og TXN), bare CYP51A1 og SPP1 viste samme retning i uttrykket endring i alle tre studier (Tabell S1). Alle disse ni gener ble inkludert i 54 genet listen. Det var ingen tendens av genene rapportert av to studier for å komme opp oftere fra to GEP studier som undersøker den samme funksjonen knyttet til sykdom prognose (eksistensen av tilbakefall, tilstedeværelse av metastaser eller overlevelse) enn fra noen to studier. De syv studier som undersøker tilbakefall rapportert 541 unike gener, 15 av dem (2,8%) i to studier. De 13 studier relatert til metastaser rapportert 934 unike gener, med 50 av dem (5,3%) i to studier. Til slutt, de to studier knyttet til overlevelse rapporterte 34 unike gener, ingen av dem felles for begge studiene.
Se tabell S1 og tabell S2 for en fullstendig liste av gener.
Enrichment analyser
Tre genet listene ble brukt til berikelse analyser: alle 1475 gener rapportert i de 23 uavhengige GEP studier, de 124 genene rapportert hos minst to GEP studier (uavhengig av konsistens i uttrykket endring mellom studier), og de 54 genene rapportert hos minst to GEP studier med konsekvent retning i genuttrykk endring mellom prøvene med dårlig og god prognose. Ti berikelse verktøy ble brukt til å få betydelig overrepresentert GO biologisk prosess, GO Molecular Funksjon kategorier, og KEGG trasé (tabell S3, S4, S5).
Antall rapporterte beriket kategorier viste en betydelig variasjon mellom de ulike verktøyene brukt (Tabell 2), selv om den samme betydning grensen (P-verdi 0,05 etter korreksjon for multippel testing) og analysebetingelser (hele genomet som referanse bakgrunn og minst to gener fra inngangslisten i den anrikede kategori) ble anvendt i alle analyser . Den resulterende P-verdier for anrikning av en enkelt GO eller KEGG sikt ofte varierte flere størrelsesordener mellom de forskjellige verktøy (Tabeller S3, S4, S5). Generelt verktøy GeneCodis [10] og WebGestalt [11] rapporterte mer beriket kategorier enn de andre verktøy, og mange av de beriket kategoriene ble rapportert bare av GeneCodis (Bord S3, S4, S5). GeneCodis også klassifisert et betydelig lavere antall gener fra listen innspill i de rapporterte beriket GO kategorier. På den annen side, GATHER verktøyet [12] rapporterte mindre anrikede kategorier enn de andre verktøy (tabell 2).
Identifisering av gjennomgående anriket kategorier
Til tross for variasjon i antall av rapportert av ulike berikelse verktøy overrepresentert kategorier, ble flere kategorier rapportert av mange av de verktøyene som brukes. For å unngå falske positiver, søkte vi to strenge utvelgelses grensene før vi betraktet som en kategori som konsekvent beriket. Først var det bare de kategoriene som er rapportert å bli beriket av flere verktøy i et gen liste valgt (tabell S6). Fra dem, ble det bare kategoriene som er vanlige i det minste to av de tre gener listene ansett for å være konsekvent beriket. Ved hjelp av disse to utvalgskriteriene, seks generelle GO biologisk prosess kategorier (celleproliferasjon, positiv regulering av biologisk prosess, positiv regulering av mobilnettet prosess, regulering av apoptose, regulering av celleproliferasjon, og respons til kjemisk stimulans), fem GO Molekylære Funksjonskategorier ( hydrogen-ion-transmembran-transportøraktivitet, uorganisk kation transmembrane transportøraktivitet, monovalent uorganisk kation transmembran-transportøraktivitet, proteinbinding, og utfoldet proteinbinding), og syv KEGG trasé (ekstracellulær matriks reseptorinteraksjon, fokal adhesjon, Huntingtons sykdom, oksidativ fosforylering, veier i kreft , Parkinsons sykdom, og småcellet lungekreft) ble konsekvent overrepresentert i GEP studier på prognose fra CRC (tabell 3). Andelen av opp- og ned-regulerte gener var lik innenfor hver av de konsekvent beriket GO og KEGG kategorier, som i 124-genet listen (data ikke vist). Forholdet til berikelse var høyere for de mer spesifikke og veldefinerte KEGG trasé enn for de brede GO kategorier (figur 1). En høy overlapping av de individuelle gener mellom disse 18 kategorier ble også observert (tabell 4). Basert på denne overlappingen ble tre biologisk meningsfulle enkeltkategorigrupper endelig oppnådd:
En stor gruppe blant de seks generelle Prosesskategorier GO Biologiske (celledeling, positiv regulering av biologisk prosess, positiv regulering av cellulær prosess, regulering av apoptose, regulering av celleproliferasjon, og som reaksjon på kjemisk stimulus), sammen med de to GO Molecular Funksjons kategorier proteinbinding og utfoldet proteinbinding. De KEGG kategori trasé i kreft også overlapper med disse GO kategorier.
De tre KEGG trasé oksidativ fosforylering, Huntingtons sykdom og Parkinsons sykdom, sammen med tre GO Molecular funksjonskategorier (hydrogen ion transtransportøraktivitet, uorganisk kation trans transporter aktivitet, og mono uorganisk kation trans transporter aktivitet), som inkluderer fire til seks vanlige gener
. de to KEGG trasé ekstracellulære matrise reseptor interaksjon og fokal heft, med alle seks gener i disse to KEGG kategoriene også inkludert i stor GO Molecular Funksjon kategorien proteinbinding.
Forholdet mellom berikelse = antall observerte delt på antall forventede gener fra hver GO eller KEGG kategori i genet listen (i henhold til WebGestalt eller, alternativt, DAVID eller GOTM verktøy). GÅ BP, Gene ontologi biologisk prosess; GO MF, Gene ontologi Molecular funksjon; KEGG, Kyoto Encyclopedia of gener og genomer.
Enrichment analyse ved hjelp oppfinnsomhet programvare bekreftet resultatene oppnådd med farten og KEGG databaser. Den eneste høy- est over kanoniske veien i 124 genet listen var oksidativ fosforylering (P
korrigert = 2,7 × 10
-2), mens denne kategorien var det tredje mest betydnings pathway (P
korrigert = 1,0 × 10
-5) blant de 159 beriket kanoniske baner i 1475 genet sett. Resultatene for Bio Funksjonskategoriene var også uspesifikke, på grunn av det store antallet rapporterte for hver av de tre genet lister (61 til 77 beriket terminologi) (tabell 2) beriket kategorier. Men den generelle kategorier celledød, kreft og cellevekst og spredning var blant de fire beste beriket betingelser i de tre genet listene, med korrigerte P-verdier mellom 10
-4 og 10
-20 (data ikke vist) .
Enrichment analyse med alle berikelse verktøy ble også utført individuelt for de fire enkelt GEP studier som rapporterer mer enn 100 unike kartlagt genene [13] – [16] (tabell S7). Fra de 18 GO /KEGG vilkår, ble de generelle GO kategorier rapporteres bare av noen av de fire individuelle GEP studier, mens de mer spesifikke KEGG veier ut til å bli mer vanlig rapportert. I GEP studie fra Bertucci et al. [14] nesten alle 18 kategorier kom ut som overrepresentert i genet listen.
Diskusjoner
Det store antall publiserte microarray studier på prognose fra CRC, viser en svært lav overlapping i resultatene, har ga ingen generelt akseptert genuttrykk profil for prediksjon av CRC prognose. I tillegg er det ikke genom-wide association studier av utfallet i CRC blitt publisert, men er nå i gang [3]. Heterogenitet i GEP studiedesign angående funksjoner knyttet til sykdomsprogresjon gjør en konsistent sammenligning av resultater mellom de enkelte studiene svært vanskelige [17]. Her rapporterer vi resultatene av vår tilnærming, der vi brukte den største samlingen av GEP studier på CRC prognose så langt, og for første gang søkt og sammenlignet flere berikelse verktøy til de utpakkede genet lister. Denne strategien tillot oss å identifisere den oksidativ fosforylering kjeden og de ekstracellulære matriks-reseptor interaksjon kategorier, så vel som en generell kategori er relatert til celleproliferasjon og apoptose, som bare betydelig og konsekvent overrepresentasjon av trasé som er involvert i CRC progresjon.
i den første delen av studien, har vi forsøkt å overvinne mangelen på reproduserbarhet i GEP studier av CRC prognose ved å velge de genene som er rapportert i mer enn én undersøkelse, i et forsøk på å redusere falske positive resultater. Fra totalt 1475 unike, kommenterte gener identifisert i 23 uavhengige GEP studier, 124 gener (8,4%) ble rapportert hos minst to studier, og bare ni av dem (0,6%) i tre studier, som gir oss en klar idé om mangel på reproduserbarhet ved den enkelte genet nivå. Denne mangelen på reproduserbarhet synes ikke å være forårsaket av de forskjellige undersøkte egenskaper relatert til kreft prognose, siden andelen av gener som rapportert av to undersøkelser av den samme klasse (2,8% for tilbakefall, 5,3% for metastase studier, og 0% for overlevelse studier) var enda lavere enn for alle studier sammen (8,4%). Uventet, 70 ut av disse 124 gener (56,5%) viste kontrast retning i uttrykket overgang mellom to enkeltstudier, mens for den andre 54 (43,5%) uttrykket forandring var i samme retning, 19 oppregulert (15,3%) og 35 nedregulert (28,2%). Andelen av opp- og ned -regulated gener var omtrent den samme også innenfor hver av de konsekvent beriket GO og KEGG kategorier. Inkonsekvenser i retning av differensial uttrykk kan skyldes flere faktorer: For det første, det store antallet falske positiver observert i microarray genuttrykkstudier [18]; andre, overgeneralization av sammenligninger i metaanalyser, spesielt knyttet til eksperimentell design og bakgrunn referanse for uttrykk; tredje, heterogenitet i vevsprøver som brukes i hver studie; og fjerde, unøyaktige resultater på grunn av dårlig studiedesign [19]. Men det mangler en entydig forklaring på disse avvikene. Bare en tidligere meta-analyse av ti GEP studier har rapportert en liste over 13 gener forskjellig uttrykt i CRC med god versus dårlig prognose, rapportert av minst to uavhengige studier [4]. En sammenligning med resultatene viste at åtte av genene er også tilstede i våre 124 genet listen, med samme retning i uttrykket endring (IGF2, IQGAP1, YWHAH, DEK, TP53, OAS1, R R, og PDCD10), tre av dem ( IGF2, TP53 og R R) tilhører gruppen av hovedkategorier knyttet til celleproliferasjon og apoptose. De øvrige fem gener rapportert av Cardoso et al. var faktisk ikke i en av de to GEP studiene nevnt i meta-analysen.
Den andre delen av vår analyse gjort bruk av fritt tilgjengelige berikelse verktøy for å oppdage hvilken GO kategorier eller KEGG trasé ble betydelig overrepresentert i tre gensettene innhentet fra 23 genekspresjon profilering studier (1475, 124 eller 54 gen liste). Her forsøkte vi å overvinne de kjente forskjeller i overvekt analyseresultatene ved å bruke opptil ti forskjellige entall berikelse analyse (SEA eller klasse I) berikelse verktøy. Vi valgte bare de kategoriene som ble rapportert å være overrepresentert av flere verktøy og i minst to av de tre genet listene som konsekvent beriket kategorier. satt verktøy (GSEA eller klasse II) genet berikelse analyse ble ikke vurdert, siden de krever en oppsummering biologisk verdi (f.eks uttrykk ganger endring) for hver av genene i inngangs, som ikke var tilgjengelig for de fleste av studiene. verktøy nyutviklede modulære berikelse analyse (MEA eller klasse III) vurdere relasjonene av GO vilkår, men de krever relativt store genet inngangslister for en biologisk meningsfull analyse [6], og dette var ikke tilfelle i vår studie.
Enrichment verktøy lider av flere begrensninger, som har blitt beskrevet i detalj andre steder [6], [7], og det anbefales å teste flere verktøy, selv om de har lignende egenskaper og funksjoner [7]. For eksempel har det blitt observert at for de samme inngangsdata, ti forskjellige ontological analyseprogrammer ført til P-verdier som varierer flere størrelsesordener for noen GO betingelser [7]; den samme effekten ble observert i vår studie. KEGG trasé representerer relativt veldefinerte kjente biologiske pathways, heller enn de mer brede GO kategorier. Bruken av veien klassifiseringsverktøy er likevel ikke fri for problemer [20]. En fersk overrepresentasjon analyse av trasé fra genom-wide forening studie data også rapportert forskjeller i utfall mellom tre av veien berikelse verktøyene vi brukte (DAVID, samle og WebGestalt) [20]. Faktorer som kan forårsake disse forskjellene i resultatene er: kildene og versjoner av merknadsfiler; den statistiske modellen søkt om berikelse analyse; settet av referansegener mot hvilke P-verdier for hvert ledd i resultatene beregnes; og fremgangsmåten for korreksjon for flere eksperimenter [21]. I vår analyse var hele genomet anvendt som en bakgrunnsreferanse, og en terskel betydning av korrigerte verdi P 0,05 ble anvendt i alle analyser. Til tross for dette ensartethet i forhold brukt, vi også observert en betydelig variasjon i antall rapporterte beriket kategorier, og i P-verdiene. Således kan denne variasjonen skyldes den statistiske modell benyttet for anrikning analyse, til fremgangsmåten ifølge korreksjon for multippel testing, og forskjeller i de versjoner av GO og KEGG datakilder brukes. Men, og til tross for denne tilsynelatende variasjon, de fleste av de beriket kategorier rapportert av strengere verktøy ble inkludert i de rapporteres av disse verktøyene rapporterer et større antall av begreper, demonstrere nytten av vår studie strategi. Dermed bioinformatiske berikelse verktøy er en kraftfull tilnærming for å identifisere biologiske prosesser i high-throughput data analyse, men utvalget av anrikede kategorier basert på bare en berikelse verktøyet ser ut til å være ganske vilkårlig.
Til slutt, etter påføring av streng utvelgelse kriterier, ble totalt 18 kategorier (11 GO vilkår og sju KEGG pathways) regnes som konsekvent overrepresentert i genet listene hentet fra 23 ulike GEP studier på CRC prognose. I 124-genet listen, ble en meget høy overlapping av gener mellom de 18 kategorier observert, noe som reduserer antall kategorier med biologisk betydning for å tre tydelig forskjellige grupper. For det første en meget generell gruppe knyttet til celleproliferasjon, apoptose og protein binding, som inkluderte en høy andel av genene fra hvert av de tre settene genet. For det andre, og mer interessant, den oksidative fosforylering kjeden, inkludert syv gener (ATP5C1, ATP6AP1, ATP6V1H, COX5B, COX6B1, NDUFA1, og UQCRC1) (Figur S1), fem av dem deles med Huntingtons og Parkinsons sykdom KEGG kategorier. Allerede flere tiår siden, ble det foreslått at svekket oksidativ metabolisme kan føre til ondartet vekst [22]. Denne antakelsen, kjent som Warburg hypotese, er blitt gjenfunnet av et bredt spekter av eksperimentelle tilnærminger som viser interaksjon av mitokondriell metabolisme og tumorvekst [23], [24]. Lagt til det, germline mutasjoner i mitokondrie succinatdehydrogenase (komplekse II av oksidativ fosforylering kjeden) underenheter SDHD, SDHC, og SDHB er en hyppig årsak til paragangliomas i hode og nakke og phaeochromocytomas [25]. Også Huntingtons og Parkinsons sykdom, de to andre anrikede KEGG trasé med gener fra oksidativ fosforylering kjeden, er forbundet med mitokondriell dysfunksjon [26]. Tredje, både KEGG vilkår ekstracellulære matrise reseptor interaksjon og brennvidde heft inkludert fire vanlige gener (COL5A1, fn1, SPP1, og TNXB) (figur S2). Spesifikke interaksjoner av de ekstracellulære matriks-molekylene kontrollere cellulære aktiviteter så som adhesjon, differensiering, apoptose og proliferasjon [27]. Dermed og basert på de funksjonelle klasser av gener, de ser lovende ut for studier som mål å undersøke deres mulige innvirkning på prognosen for CRC. Spesielt banene KEGG oksidativ fosforylering, ekstracellulære matrise reseptor interaksjon og brennvidde heft kan gi nye mål for legemiddelutvikling. Seks av de 23 uavhengige GEP studier utført en berikelse analyse av GO og /eller KEGG kategorier med sin liste over forskjellig uttrykte gener, i alle tilfeller ved hjelp av bare en berikelse verktøyet. Bare GEP studie fra Jorissen et al. [16] rapporterte to KEGG veier også rapportert i vår analyse (ECM-reseptor interaksjon og brennvidde heft). Når vi søkte på overrepresentert kategorier i enkelt GEP studier ble det observert tydelige forskjeller mellom studiene. Selv om det gjelder spesifikke KEGG trasé oksidativ fosforylering og ekstracellulære matrise molekyler ble ofte rapportert, var de generelle GO vilkårene som er rapportert i vår globale tilnærming identifisert kun ved noen av studiene. Disse resultatene viser at vår tilnærming til å kombinere data fra 23 individuelle GEP studiene ikke bare er i stand til å identifisere de felles trasé rapportert av private store studier, men det er også i stand til å rapportere nye konsekvent overrepresentert veier, noe som kan gå tapt i små studier.
i konklusjonen, vår vei basert berikelse analyse av 23 uavhengige genuttrykk profilering studier på prognose fra CRC indikerte oksidativ fosforylering kjeden, den ekstracellulære matrise reseptor interaksjon kategori, og en generell kategori knyttet til celleproliferasjon og apoptose som betydelig og konsekvent overrepresentert prognostiske kategorier for CRC. Disse kategoriene har vært funksjonelt klart beslektet med kreft progresjon, og fortjener videre undersøkelser. Det ville være av spesiell interesse hvis fremtidige GEP studier utført i store prøve kohorter kunne validere våre resultater og identifisere disse kategoriene classifiers for dårlig prognose.
Materialer og metoder
Gene expression profilering (GEP) studier
i alt 27 GEP studier for prognose prediksjon av CRC ble inkludert i analysen (tabell 1): 16 GEP studier navngitt i to nye anmeldelser [2], [3], ytterligere tre studier som inngår i en meta-analyse [4], og åtte flere nyere studier (søk i PubMed fra januar 2009 til mars 2010) ikke er inkludert i tidligere vurderinger /meta-analyse. Fire av de 27 studier som brukes delvis overlappende sampler [28] – [31], og en annen studie [32] var faktisk en oppfølging av en tidligere on [33], noe som reduserer det totale antall uavhengige studier til 23. Ifølge undersøkt funksjon relatert til sykdomsutvikling, sju av studiene var basert på at det foreligger gjentakelse, tretten på tilstedeværelsen av metastaser, to på overlevelsesdata, og en på en kombinasjon av overlevelse og tilbakefall data. På grunn av den heterogene natur tilgjengelige data ble gjort noen forsøk på å utføre kvantitative meta-analyser.
Gene sett samling
Det har blitt rapportert at den type gen identifikatoren brukes til å angi differentially regulerte gener kan potensielt påvirke resultatene av påfølgende analyse [21]. Vi brukte den offisielle HUGO genet symbol som en konsekvent identifikator for de rapporterte gener. Dersom genet symbol ikke ble rapportert i GEP studien brukte vi følgende verktøy for å konvertere de rapporterte identifikatorer i genet symbol: NetAffx fra Affymetrix (www.affymetrix.com), EntrezGene fra NCBI (www.ncbi.nlm.nih. gov /gen /), og Gene ID konverteringsverktøy fra bioinformatikk ressurser DAVID [34]. I mange tilfeller, ble antall gener identifikatorer (IDS) rapportert av GEP studien faktisk ikke svarer til de som er merket gener, men til prober for ekspresjon matrisen eller GenBankIDs. Lagt til at flere studier telles noen gener mer enn én gang. Derfor gjeldende antall kommenterte gener endelig brukt var lavere enn det rapportert av de fleste av de GEP studier (tab 1).
Gene lister
Listene over kommenterte gener rapportert av hvert av de 23 selvstendige GEP-studier for prognose av CRC inkludert i analysen ble kombinert for å identifisere genene som er rapportert i to eller flere undersøkelser. Tre forskjellige gen listene ble vurdert for den påfølgende berikelse analyse: alle unike, kommenterte gener rapportert (1475 gener) (tabell S2); de gener som er rapportert i det minste to GEP studier (124 gener) (tabell S1); og de som i tillegg viste samme retning i genuttrykk endring, enten opp- eller nedregulering, i to GEP studier (54 gener) (Tabell S1).
Enrichment analyse
utføres berikelse analyser ved hjelp av databaser GO (biologisk prosess og molekylær funksjon) og KEGG veier. For alle berikelse verktøy, besto inngangs genet sett av 1475-genet listen, 124 genet listen, eller den 54-genet listen hhv.
Ti berikelse programvareverktøy (se URL-adresser) ble valgt på grunnlag av deres freeware tilgjengelighet , hyppig opptreden i nyere publikasjoner og deres brukervennlig program. Standardvalgene ble brukt i alle verktøy, med en betydning terskel på 0,05 for justerte P-verdi, minst to gener fra listen innspill i beriket kategorien, og hele genomet som referanse bakgrunn. For å samle, den anbefalte ln (Bayes faktor) ble 6 brukt som betydning terskel. Oppfinnsomhet programvare gjør bruk av sine egne to databaser, Top Bio Funksjon og Topp Canonical Pathways, som imidlertid er sammenlignbare med GO og KEGG databaser, henholdsvis, som brukes av de andre berikelse verktøy. Sentrale statistiske og flere testing korreksjon metoder som brukes av hvert verktøy er vist i tabell S8.
Jevnt beriket kategorier
Bare GO eller KEGG kategorier rapportert å være betydelig beriket av flere berikelse verktøy i et gen listen ble ansett som konsekvent overrepresentert. I et forsøk på å velge bare topprangerte kategorier, tok vi hensyn til størrelsesforskjeller mellom GO og KEGG kategorier samt forskjeller i antall kategorier rapportert av hvert verktøy. Antallet verktøy etablert som en terskel var, for hvert gen liste og gå eller KEGG databaser, den ene rapporterer minst fem vanlige beriket kategorier for at antall verktøy (tabell S6). For både 54 og 124 genet listen terskelen var tre berikelse verktøy for GO biologisk prosess og molekylær funksjon, og to berikelse verktøy for KEGG veier. For 1475 genet listen terskelen var fem berikelse verktøy for GO biologisk prosess og molekylær funksjon, og fire berikelse verktøy for KEGG baner (Tabell S6). Ettersom de tre gener listene er relatert (den 54-genet listen er inkludert i 124-genet listen, som er en del av 1475-genet listen), vi i tillegg valgt kategoriene rapportert å være anriket i det store 1475 genet listen og minst en av