PLoS ONE: Øverst: En Trend-of-sykdom-progresjon Prosedyre fungerer godt for å identifisere kreftgener fra Multi-State Cohort genekspresjon Data for Menneskelig tykktarmskreft

Abstract

Betydelig uttrykte gener hentet fra microarray gene expression data har vist seg svært nyttig for å identifisere genetiske biomarkører av sykdommer, inkludert kreft. Men utlede en sykdom relatert slutning fra en liste med forskjellig uttrykt gener har vist seg mindre enn grei. I et system sykdom som kreft, hvordan gener samhandle med hverandre bør saken like mye som nivået av genuttrykk. Her, i en ny tilnærming, brukte vi nettverket og sykdomsutvikling egenskapene til enkelte gener i stats bestemt gen-gen samhandlingsnettverk (GGINs) for å velge kreftgener for mennesker tykktarmskreft (CRC) og få en mye høyere hit rate av kjent kreftgener når sammenlignet med metoder som ikke er basert på nettverksteori. Vi bygget GGINs ved å integrere genuttrykk microarray data fra flere stater – sunn kontroll (Nor), adenom (Ade), inflammatorisk tarmsykdom (IBD) og CRC – med protein-protein interaksjon database og Gene ontologi. Vi spores endringer i nettverks grader og clustering koeffisienter av enkeltgener i GGINs som sykdomstilstanden endret fra en til en annen. Fra disse antatte stats sekvenser Nor-Ade-CRC og Nor-IBD-CRC begge viste en trend av (sykdom) progresjon (øverst) mot CRC, og utviklet en topp prosedyre for valg av kreftgener for CRC. Av de 141 kandidatene som er valgt ved hjelp av topp, -50% hadde litteratur støtte som kreftgener, mot å treffe priser på 20% til 30% for standardmetoder ved hjelp av bare genuttrykk data. Blant de 16 kandidat kreft gener som kodet transkripsjonsfaktorer, 13 var kjent for å være tumorigent og tre var romanen: CDK1, SNRPF, og ILF2. Vi identifiserte 13 av 141 spådd kreftgener som kandidat markører for tidlig deteksjon av CRC, 11 og to på Ade og IBD stater, henholdsvis

Citation. Chung FH, Lee HH-C, Lee HC (2013 ) Øverst: En Trend-of-sykdom-progresjon Prosedyre fungerer godt for å identifisere kreftgener fra Multi-State Cohort Gene Expression data for menneskelig tykktarmskreft. PLoS ONE 8 (6): e65683. doi: 10,1371 /journal.pone.0065683

Redaktør: Frank Emmert-Streib, Queens University Belfast, Storbritannia

mottatt: 04.12.2012; Godkjent: 26 april 2013; Publisert: 14 juni 2013

Copyright: © 2013 Chung et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av National Science Council (ROC) gir NSC 100-2911-i-008-001 (for Senter for Dynamiske Biomarkører og translasjonell medisin, National Central University) og NSC 99-2911-i-008-100, og Cathy General Hospital-National Central University Grant 99CGH-NCU-A3. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

tykktarms~~POS=TRUNC kreft~~POS=HEADCOMP (CRC) er den fjerde største årsaken til kreftdød verden over, men rangeres høyere i økonomisk mer utviklede samfunn. I likhet med andre typer kreft, er CRC en systemsykdom, et manifest av flere funksjonelle forstyrrelser i tumorceller. Global genekspresjon profilering ved hjelp oligomeric DNA-mikromatriser har vært mye brukt for å få innsikt i de underliggende mekanismene for komplekse sykdommer, inkludert CRC [1], [2]. Tidligere studier av genekspresjonsprofiler har gitt forskjellige perspektiver av molekyl etiologien av CRC [3] – [6]. Overlappingen mellom publiserte gen signaturer fra ulike studier for CRC tendens til å være små. Tidlig ble det anerkjent identifisering av differensielt uttrykte gener (degs) i to kohortstudier prøvene var et potensielt nyttig tilnærming [7] – [9]. Tegning en slutning fra en lang liste med degs er imidlertid en krevende oppgave, og kan føre til svært varierende resultater [10]. Gensettene analyse, en metode basert på

priori

biologisk informasjon som Gene ontologi (GO) og Kyoto Encyclopedia of gener og genomer (KEGG) på moduler som er funksjonelt kommentert [10], delvis møter utfordringen. Begrunnelsen for denne tilnærmingen, som grupper degs til funksjonelle undergrupper ved hjelp GO eller KEGG (eller noe tilsvarende), stammer fra den observasjon at de fleste gener fungere som en del av en gruppe i stedet for enkeltvis [11]. Men fordi samme-kohort genomiske profiler er kjent for å være svært heterogen, pre-gruppert gensettene viser ikke nødvendigvis den faktiske gruppering i en kohort under studien. Videre er et flertall av menneskets gener har ennå ikke blitt tildelt en bestemt vei eller proteinkompleks [12].

Ulike årsaker til CRC har blitt avslørt, men den globale landskapet for dynamiske funksjonene i karsinogenisitetsstudier prosesser er fortsatt uklart. Protein-protein interaksjoner (PPI) er grunnleggende for biologiske prosesser, og protein interaksjonsnettverk (PIN) gir en global ennå statisk visning av cellulære mekanismer i cellen. Dynamiske egenskaper av PIN-koder kan bli avdekket gjennom integrering av PPI data genuttrykk profiler [13]. Gener med korrelerte uttrykk nivåer over ulike fysiologiske tilstander eller eldre individer i en kohort er sannsynlig å bli involvert i lignende funksjoner eller cellulære prosesser. For eksempel er genene reguleres av en felles transkripsjonsfaktor forventes å ha korrelerte genekspresjon. Et gen interaksjon nettverk (GGIN) konstruert ved å integrere genuttrykk data med PPI data er ment til et samspill kartet biomolekyler som indikerer co-regulatoriske forhold, co-uttrykk foreninger, nedstrøms fysisk interaksjon mellom proteiner kodet av «samspill» gener , og muligens andre forhold mellom gener [14]. Mange metoder benytter, for eksempel, korrelasjonskoeffisient [15], [16], gjensidig informasjon [17], [18], simulert annealing [19], og reverse engineering tilnærminger [20], [21] har blitt brukt til å re- konstruere GGINs for storskala genuttrykk data i modellorganismer, inkludert gjær og menneske. Flere studier viste utvinning av dynamiske egenskaper av tilstandsspesifikke nettverk ved å integrere genet co-uttrykk mønstre og fysiske protein interaksjoner [13], [22], [23].

Med kreft være et systemsykdom, systemisk endringer i en kreftcelle under progresjon av kreft er forventet å målbart manifest i forandringer som forekommer i de GGINs konstruert fra data som er tatt på forskjellige tilstander av sykdommen. En viktig årsak til kreft er serie akkumulerte genmutasjoner [24]. Nye systematiske visninger av kreft genomer har avdekket et betydelig antall funksjonelt heterogene gener, eller huber, som er mutert i tykktarmssvulster [25] – [27]. Fordi hub gener som er viktige i funksjonen av en celle, antok vi at en endring i status for et nav gen hadde en høyere sannsynlighet enn en gjennomsnittlig gen i reflekterer en avbrutt funksjonell forandring i cellen. Således, et nav gen i en normal tilstand som ble en ikke-hub gen bør ha en høyere sannsynlighet i reflekterer en sykdom bundet tap av cellefunksjon, mens det motsatte kan gjenspeile en gevinst i cellefunksjon.

Her konstruerte vi GGINs for de fire fysiologiske tilstander – normal (NOR), tykktarms adenom (Ade), inflammatorisk tarmsykdom (IBD), og CRC – ved å integrere genuttrykk data fra fire tilsvarende sett med kohort mikromatriser med Humant protein referansedatabase (HPRD ) [28]. I en gitt tilstand, ble to gener antas å «samhandle» Hvis det uttrykk intensiteter ble sterkt korrelert og hvis proteiner kodet av paret var kjent for å samhandle. Bruke GGINs vi konstruert, utviklet vi toppen (trend av progresjon) prosedyre, der gener som grader og clustering koeffisienter [29] i GGINs endret seg i takt med utviklingen av utviklingen av kreft, eller gener som ikke er huber i Nor nettverks men blir nav i CRC-nettverket, ble valgt som potensielt kreftgener.

Vi søkte toppen prosedyren til staten sekvenser Nor-Ade-CRC og Nor-IBD-CRC og utvalgte gener med statistisk signifikans (permutasjon test

p

-verdi 0,001) som ligner på de som er oppnådd ved konvensjonelle metoder som eBayes og SAM. Men gener valgt av ToP hadde en mye høyere hit rate (~ 50%,

p

-verdi 0,001) av kjente kreftgener enn hit priser innhentet av eBayes og SAM (~ 20%,

p

-verdi ~ 0,5). Fordi ToP basert sin analyse på data fra en sekvens av tilstander, vi også brukt den til å identifisere potensielle biomarkører for tidlig diagnostikk påvisning av CRC på Ade og ved IBD statene.

Materialer og metoder

prøver og mikromatriser

data fra Gyorffy gruppen [30] på genome-wide genekspresjon profil fra vevsprøver av 53 menneskelige pasienter evaluert av HG-U133 Plus 2,0 plattform mikromatriser (Affymetrix, Santa Clara), som liste 18,267 gener, ble lastet ned fra Gene Expression database Omnibus (GEO) (GEO tiltredelse no. GSE4183). Matriser ble gjort fra pasientenes vev gruppert i fire fysiologiske tilstander av frossen colonic biopsi: 8 for Nor, og 15 hver for Ade, IBD, og ​​CRC, henholdsvis. Colon biopsier ble tatt under rutinemessig endoskopisk inngrep før behandling [31]. Nøyaktigheten av microarray uttrykk verdiene ble validert av TaqMan RT-PCR-analyse [30]. Analyser av microarray data utført i dette arbeidet ble utført i R miljø (versjon 2.12.0).

Valg av Vesentlige degs

Betydelig uttrykte gener ble valgt ved hjelp av betydning Analyse av Mikromatriser algoritme ( SAM) [9] og en-veis analyse av varians (ANOVA) [32]. De statistiske terskler for

p

-verdi av Student

t

-test og fold change brukes i SAM ble bestemt ved hjelp av publisert real-time PCR resultater på 84 gener [30] (figur S1) . Vi brukte to moduser, (1) den to-klassen uparede modus for utvelgelse av gener hvis bety ekspresjonsnivået var signifikant forskjellig i to grupper av prøver (analogt til mellom fag

t

-test) og (2) fler -klassen modus for å velge gener hvis midlere ekspresjon var forskjellig på tvers av et sett av sampler som er større enn to (som er analoge med en-veis ANOVA). De empiriske Bayes statistikk (eBayes) ble brukt som et alternativ statistisk modell. For en gjennomgang av disse algoritmene se i [33]. FDRs [34] ble beregnet ved hjelp av både Students

t

-UNDERSØKELSER og ANOVA tester ved hjelp av tilfeldig permutasjon i SAM gjennom R pakken «siggenes».

Bygging av GGIN

Protein -protein interaksjon (PPI) opplysninger om 30,047 protein oppføringer og 39,194 interaksjoner ble lastet ned fra HPRD [28] og ble integrert med stats bestemt microarray genuttrykk data for å konstruere GGINs, en for hver stat. For en gitt tilstand og en Pearson

p

-verdi (se nedenfor) terskel

p

0, vi inkludert et par av gener i GGIN dersom: (1)

p

-verdi for paret var ikke større enn

p

0; (2) proteinet paret kodet for av genet paret var koblet i PPI-data. For en gitt tilstand og et sett med microarray data, ble en Pearsons korrelasjonskoeffisient (PCC) mellom hvert gen-par beregnet basert på intensiteter over settet for paret. Det vil si, hvis et sett av

n

mikromatriser benyttes for beregningen, er det PCC som mellom to sett av

n

intensiteter. Statistiske slutning basert på PCC ble utført ved permutasjon tester og

t

-statistics. Vi kaller en

p

-verdi som tilsvarer en PPC en Pearson

p

-verdi. Nettverks egenskaper er

n

-avhengig. Resultater er gitt for åtte-sample nettverk. For åtte-sample Nor, ett nettverk ble bygget (for hver

p

0). For hver av de andre tre 15-prøve statene, ble 100 nettverk bygget, hver fra en åtte-prøvesett tilfeldig valgt fra de 15 prøvene. Vi bruker standard nettverks terminologi. Vi sier at en node

i

med grad

k

i

har

k

i

naboer. Den clustering koeffisient

C

av en node er forholdet mellom antall koblinger

e

blant naboene til degree-

k

node til antall mulige slike koblinger:

C

= 2

e Twitter /(

k product: (

k

-1)) [29]. Oppsett for nettverk ble gjort ved hjelp av åpen kildekode-plattform Cytoscape (versjon 2.7.0) gjennom «edge-vektet fjær embedded» layout funksjon. Standardparameterverdier ble anvendt, bortsett fra at «antall iterasjoner» for hver node ble øket til 200, og «styrke» er endret til 1500 for å unngå kollisjoner. Den plug-in «GOlorize» [35] ble brukt til å automatisk tildele farger til genet noder å markere beriket gen-ontologi vilkår. Fargen og bredden av en kant ble anvendt for å angi fortegn og styrke av korrelasjon, henholdsvis; rød (blå) for positiv (negativ) korrelasjon.

Funksjonell under nettverk og FFN

Gener i hver stat spesifikke GGIN ble tildelt overrepresentert biologiske funksjoner som definert i GO sikt forening [36]. Berikelse analyser basert på betinget hypergeometriske test [37] ble gjort ved hjelp av R pakke GOstats [38] ned fra nettsiden Bioconductor [39]. Basert på funksjonelt gen setter en GGIIN ble redusert til FFN for enklere visuell inspeksjon.

toppen og ToP + SAM (TPS) Prosedyrer for Velger Cancer Gene Disco

toppen prosedyre (figur 1) anvendt til sekvensen Nor-X-CRC (X = Ade eller IBD, som tilfellet kan være) besto av trinnene: (1) Konstruer GGINs for Nor, X, og CRC ved hjelp av en terskel Pearson

p

– verdi 0,01. (2) Velg et gen dersom: (a) det vises i minst ett GGIN; (B) det i hvert fall i en GGIN tilfredsstiller grad

D

4 og clustering koeffisient

C

0; (C) sin

D Hotell og

C

øker sammen sekvensen (men ingen begrensning ligger på Nor-X par). (3) Form en egen kategori for anslåtte kreft gener som koder for viktige transkripsjonsfaktorer. I TPS prosedyre, lagt til en ekstra filtrering trinn: (4) Begrense utvalgte gener å være en ° (justert

p

-verdier 0,05, fold change 1.5 eller 1 /1,5) på minste i X vs. Nor eller CRC vs. Nor

°, uttrykt forskjellig genet.; PPIN, protein-protein interaksjon nettverk. Boksene i kolonnen helt til høyre illustrerer hvordan spådd tumorigent genet CDC6 tilfreds toppen kriterier: genet-genet interaksjon sub-nettverket i forbindelse med det vokser markert som staten fremgang fra normal gjennom adenom til CRC

Hit Rate for kreftgener

Hit hastigheten ble definert som forholdet mellom utvalgte gener om vises gitt som en kreft-relaterte genet i

CancerGenes product: [40] til det totale antall utvalgte gener, gitt som en prosentandel.

CancerGenes

lister ekspert-merkede kreftrelaterte gener fra viktige offentlige databaser inkludert Cellmap.org (https://cancer.cellmap.org), Entrez Gene [41], og Sanger CGC [42], og kreft anmeldelser [24], [42] – [44]. Totalt 3,165 gener ble samlet og ulike typer kilder (f.eks kreft genet, tumor suppressor, stabilitet genet,

osv.

) Ble inkludert i beregningen hit rate. Fordi Affymetrix HG-U133 Plus 2.0 array plattform lister 18,267 gener og

CancerGenes

lister 3,165 gener, ville et tilfeldig utvalg av gener gi en hit rate nær 20%.

Slump

Vi utførte to typer randomizations. Type-1: Separat for hvert gen, rykke ut intensiteter på hele settet med arrays. I hvert tilfelle av randomiseringen, ble en sveip over alt genene utført. Denne prosessen sparer fordelingen av intensiteter for hvert gen, men ødelegger intensiteten korrelasjonen mellom parene gen. Type-2: tilfeldig tildele genpar til hvert ledd i et nettverk. Fremgangsmåten konservert antall koblinger, men ikke topologien av et nettverk. I hvert randomisering ble en sveip over alt lenkene i nettverket utført. Denne prosessen sparer antall koblinger i, men ikke topologien, nettverket. Vi prøvde en tredje, type-3, topologi effektive randomisering på nettverk, hvor topologien ble holdt uendret, men genene ble randomisert til noder i et nettverk. Dette viste seg å ikke være en ekte randomisering.

Valg av markører for tidlig Diagnostic Påvisning av CRC

Biomarkører for tidlig deteksjon i Ade staten ble valgt fra TPS genet satt for Nor-Ade -CRC sekvens (se resultater) de som har en fem ganger eller mer økning i (nettverk) grad fra Nor til Ade og være en ° med en

p

-verdi 0,0001 i Ade vs. Nor. Tilsvarende for biomarkører for tidlig deteksjon i IBD staten, med IBD erstatte Ade

Resultater

Betydelig differensielt uttrykte gener

Den totale sett av utvalgte 2.666 degs (FDR 0.001, Student

t

-test (i SAM)

p

-verdi 0,05, fold change 1,5; Figur S1) var fagforenings degs separat valgt fra tre statlige par; ADE vs. NOR, 1652 gener; CRC vs. NOR, 1100 gener; IBD vs. NOR: 1629 gener. De degs ble klassifisert i henhold til å gå inn elleve funksjonelle moduler: DNA replikering, DNA reparasjon, cellesyklus, celleproliferasjon, RNA metabolisme, transkripsjon, oversettelse, apoptose, signaltransduksjon, immunsystem, celle adhesjon (tabell S1). En varme kart som genereres av den to-veis uten tilsyn hierarkisk clustering metode (figur S2) viser fragmenteringen i to deler av CRC, reflekterende relative heterogenitet i kreftprøvene. Men ingen problemer med å trekke ut CRC spesifikke degs ble påtruffet.

Sykdom Networks var større og mer komplekse, og CRC Network hadde Høyeste Kompleksitet

Resultater for GGINs gitt er for 8-sample nettverk. Det var en GGIN men 100 GGINs for hver av de sykdomstilstander ble konstruert (se Metoder). Antallet gener og (gen-gen) lenker både med avtagende Pearson

p

-verdi terskel

p

0 [45] i konstruerte GGINs (figur 2), som forventet . For gitt

p

0 både genet og link tall økte i progresjon Nor til Ade til IBD /CRC. Gene nummer i IBD nettverket var litt større enn i CRC, men koblingen nummer i CRC var betydelig større enn IBD. Graden distribusjoner av de fire nettverkene adlød power-lover. I form av nettverk kompleksitet (tabell 1), de fire nettverkene tilhører tre grupper, i stigende rekkefølge av kompleksitet: Nor, Ade og IBD, og ​​CRC. Alle fire nettverkene var sammensatt av forbundet undernettverk, eller klynger. De tre sykdoms nettverk ble hver dominert av en gigantisk klynge, som inneholder (i gjennomsnitt) 760, 971, og 1388 gener, for Ade, IBD, og ​​CRC, henholdsvis. Stiftelsen Nor-nettverket ikke har en gigantisk klynge; sine to største klynger henholdsvis hatt 219 og 73 gener.

Antall gener (A) og gen-pair interaksjoner (B) i sykdoms bestemte nettverk, som funksjoner av Pearson

p

-verdi terskel,

p

0, i 8-prøven gen-nettverk av pasienter som tilhører de fire statlige-typer: Nor, Ade, IBD, og ​​CRC. Ikke-Nor Resultatene er fordelt på 100 tilfeldige 8-prøvesett. Feilfelt angir standardavvik. Stjernene over (under) kurvene gi

p

-verdier på to-utvalgs Students

t

-test mellom CRC og IBD (CRC og Nor): *

p Anmeldelser – verdi 10

-4; **

p

-verdi 10

-8; ***

p

-verdi 10

-12; ****

p

-verdi. 10

-16

CRC Network hadde Høyeste Kompleksitet og var kvalitativt forskjellig fra IBD Network

prosent~~POS=TRUNC av hub-lignende gener økt med sykdommens alvorlighetsgrad (Figur 3, se figur S3 for ett sett med GGINs). For eksempel, mindre enn 0,5% av genene i Nor, men mer enn 10% i CRC, hadde grader høyere enn 11; bare CRC hadde et betydelig antall gener med grader 16 eller høyere; bare CRC hadde en ikke-neglisjerbar andel av gener med grader større enn 16, og som har den høyeste grad av clustering koeffisient. Selv om mye større, kompleksiteten av IBD nettverk var lik den i Ade. IBD hadde flere gener av grader opp til 5 enn CRC, men færre høy grad noder og langt færre noder med høye grader og stort clustering koeffisienter (figur 3).

Gener av grad 1 er ikke vist. Clustering koeffisient av et gen av grad 2 er enten 0 eller 1. Stjernene viser

p

-verdier (ved Wilcoxon Rank Sum tester) i forhold til Nor: *

p

-verdi 0,05 ; **

p

-verdi. 0,01

Størrelser av Gene Sett av funksjonelle moduler i FFNs generelt økt med sykdommens alvorlighetsgrad

FFNs ble redusert fra GGINs gjennom degs partisjon i henhold til GO vilkår (figur 4; se tabell S2 for GO berikelse analyse for de funksjonelle moduler). Størrelser av funksjonelle moduler i FFNs generelt økt med sykdommens alvorlighetsgrad (figur S4). Relasjonene Nor CRC og Ade CRC holdt for alle 11 funksjoner (den » » symbol refererer til størrelser i genet antall funksjonelle moduler, med p-verdi mindre enn 10

-4). Forholdet Heller Ade CRC holdt i 10 av de 11 funksjoner (immunsystemets funksjon var unntaket), med tendensen er spesielt sterk for RNA-metabolisme, transkripsjon, DNA-reparasjon, DNA-replikasjon, og cellesyklusen. Til sammenligning forholdet Nor IBD holdt i bare seks funksjoner: oversettelse, celleadhesjonsprosesser, celleproliferasjon, immunsystem, signaltransduksjon og apoptose. Forholdet Nor Ade IBD ikke holder med god statistisk støtte i noen av funksjonene

noder er funksjonelle moduler oppkalt etter Gene Ontologi vilkår.. Funksjonelle enheter som inneholder mindre enn 70 gener blir ikke vist. Diameteren av en modul skalerer med logaritmen av antall gener i modulen. Fargen skyggen av en modul angir antall intra-modul gen-gen-interaksjoner per genet. Tykkelsen på kanten angir antall inter-modul gen-gen-interaksjoner.

Ade-CRC Pair hadde betydelig større Inter-FFN Andel Intersections av funksjonelle Link Sett

For hver funksjon i en fFN en liste over i-funksjon linker, nemlig samspillet mellom to gener i den funksjonelle modulen, ble bygget, og prosent Inter-fFN kryss fra link sett ble beregnet (figur 5). Den Ade-CRC krysset stod ut som en avvikende i forhold til de andre fem kryss. For nesten alle funksjonelle moduler de fem kryssene ble tett bunched på verdier vanligvis halve størrelsen av de tilsvarende Ade-CRC kryss. I forhold til de andre fem kryss ADE-CRC kryss hatt

p

-verdier på 10

-2 i alle unntatt én av funksjonene (celle adhesjon), og 10

– 3 i syv funksjoner (figur 5). En lignende behandling av Ade-IBD kryss fant at alle funksjoner hadde

p

-verdier nær enhet. Den relativt stor overlapping mellom DEG sett fra Ade og CRC er blitt nevnt før [46] – [48]

0 For en gitt funksjonell modul, blir den prosentvise overlappingen uttrykt som rasjon av antall koblinger (. tilhørighet til den modulen) er felles for de to nettverkene til antall koblinger i mindre partner. Stjernene viser

p

-verdier fra én prøve Student

t

-test av Ade-CRC kryss kontra de andre fem kryss: for *, ** og ***,

p

-verdi. 10

-2, 10

-3, og 10

-4, henholdsvis

Eksempler på ToPP Gener

en topp-genet ble pålagt å ha sin nettverkstilkobling og kompleksitet vokste merkbart langs en tilstand sekvens. Fire eksempler på slike gener som koder transkripsjonsfaktorer (TFS) var de tre gener ILF2, CDK1, og SNRPF, utvalgt fra både Ade- og IBD-sekvenser, og MCM10, utelukkende fra IBD-sekvensen (figur 6). I hvert tilfelle ble forutsagt genet var en lav grad node i det forholdsvis lille Nor nettverk, ble en moderat knutepunkt i et merkbart vokst Ade eller IBD nettverk (eller begge deler, som tilfellet kan være), og endelig en super-knutepunkt i store og komplekse CRC nettverk.

Delvis nettverkene som de fire beste genene ILF2 (øverst til venstre), Cdk1 (nederst til venstre), SNRPF (øverst til høyre), og MCM10 (nederst til høyre) separat hører hjemme i Nor, Ade, IBD og CRC nettverk. I hvert tilfelle, størrelsen på modulen koblet til toppen genet øker langs state sekvens Nor-Ade-CRC eller Nor-IBD-CRC, eller begge deler. Nodal trim fargekode: over-uttrykk, rød; under-uttrykk, blå; nøytral, svart. Nodal fargekode for GO funksjoner: cellesyklus, grønn; RNA-spleising, lilla; DNA-reparasjon, brun; kromatin remodellering og histone modifikasjon, gul.

Funn av kreftgener bruke den øverste Prosedyre

toppen prosedyren ble brukt til Nor-Ade-CRC (eller bare Ade) og Nor -IBD-CRC (eller IBD) sekvenser for å velge kreftgener, noe som gir lister av 389 og 381 gener, henholdsvis med 373 gener som vises i begge listene (tabell S3, figur s5a). TPS fremgangsmåten ga 134 og 74 gener fra Ade og IBD-sekvenser, henholdsvis med 67 felles for begge listene (tabell S4, fig S5b). Til sammenligning, den øverste valgte bare 7 og 4 gener, henholdsvis fra CRC-Ade-Nor og CRC-IBD-Nor-sekvenser, og TPS redusert settene til null sett (data ikke vist), bekrefter de to sekvensene viste ikke noen trend mot en sykdomstilstand. Bruk av eBayes og SAM med terskler

p

-verdi 0,05 og absolutte fold-endring 1,5 overgitt DEG lister over 2648 og 2666 gener, henholdsvis. Mens hvert av trinnene i den øverste prosedyren hadde en viktig innvirkning på å redusere pool av kandidatgener, de beste genet kravet var den viktigste begrensende faktor. For Ade sekvens kravet om at genene koder for proteiner oppført HPRD redusert antall kandidater fra 18 267 til 9122; at den tilhørte en av de relevante GGINs, til 3556; at det var en topp genet, til 389; at det var en ° ved SAM, til 134. For IBD rekkefølge de to første reduksjonene var de samme, og de tilsvarende tre siste tallene var 3074, 381 og 74 (figur S6).

permutasjon tester

p

-verdier for permutasjon tester av randomisering av alle de utvalgte gener listene var 0,001 (figur 7A). Tallene (standardavvik i parentes) av eBayes og SAM degs i 1000 type 1 randomizations (se Methods) var 228,81 (13,93) og 255,31 (25,57), henholdsvis (figur S7A-B). Fordi randomisering ødelagt intensitet sammenhengen mellom gener, 1000 randomizations ga bare 0,42 (1,2) gener (Figur S7C), noe som gjør nettverk konstruksjon umulig. For de beste prosedyren gen-intensiteten forbundet var utsatt for type-1 randomisering og gen-link knyttet til type-2 (se Methods). I 1000 randomizations antall gener valgt av toppen og TPS for Ade sekvensen var 29.09 (standardavvik 8,18) og 8,31 (3,36), henholdsvis (figur S8A-B); Tilsvarende tall for IBD sekvensen var 28,01 (8,15) og 6,58 (2,91) (figur S8C-D).

randomisering tester er type-1 for eBayes og SAM, og type-2 for topp og ToP + SAM (se Methods). (A) Antall gener valgt. (B) Prosent av gener som er oppført i

CancerGenes product: [40] database blant de som er valgt inn (A). ***,

p

-verdi 0,001 for permutasjon test av randomisering; **,

p

-verdi 0,01; *,

p

-verdi. 0,05

Hit priser for kjente kreftgener

Distribusjon av treff priser for kjente kreftrelaterte gener i genet ble valgt i 1000 randomisering av konvensjonelle metoder (eBayes og SAM Figur S7D-E) og topp baserte metoder (Ade-top, Ade-TPS, IBD-top, og IBD-TPS, Figur S8E-H) har alle gjennomsnitt i 19% -23 % rekkevidde, en forventet verdi på bakgrunn av de 3,165 kreftrelaterte gener blant 18,267 gener på en HG-U133 Plus 2.0 array. Treffet priser av de virkelige tilfeller (permutasjon test

p

-verdi ved randomisering i parentes) var 23% (0,422), 22% (0,547), 47% ( 0,001), 50% (0,008) , 51% (0,008), og 54% ( 0,001), henholdsvis (figur 7B). Til sammenligning var den gjennomsnittlige hit rate av utvalgte gener i alle randomisering tester var ~ 20% (figur S8). Treffet priser for de beste 134 gener fra eBayes og SAM var 27% og 33%, henholdsvis (figur 8). Den kombinerte Ade og IBD TPS liste hadde 141 spådd kreftgener, hvorav 67 kom utelukkende fra Ade, 67 var vanlig å Ade og IBD, og ​​7 kom utelukkende fra IBD (tabell S3). GO anrikning analyse viste at Go Krav atom lumen, cellesyklus og nukleosid-binding var den mest anriket, med 51%, 33% og 34%, henholdsvis, av genene (tabell 2). Sixty-sju av de 141 gener ble kjent kreftgener, hvorav 27, 39, og en henholdsvis kom fra Ade bare var vanlig å Ade og IBD, og ​​kom fra IBD bare (tabell S4).

ikke-tumor TF betyr ikke oppført i

CancerGenes

. (A) In gen sett velges etter statistisk terskel. (B) i topp 134 gener i gensettene. Tall gitt ovenfor linjene viser totalt antall gener i settet.

CRC kreftgener og transkripsjonsfaktorer

Førti-åtte av de 141 genene hadde blitt rapportert å være CRC kreftgener , hvorav 15, 32, og en henholdsvis kom fra Ade bare var felles for Ade og IBD, og ​​fra IBD bare (tabell 3). Prosentandelen av transkripsjonsfaktoren (TF)-kodende gener blant de utvalgte gener variert avhengig av metoden som brukes (figur 8A). I tilfellet av de øverste 134 gener, antall TF gener varierte fra 10 til 17 (figur 8B). Blant de 141 TPS genene, 16 var transkripsjonsfaktor (TF) kodende (tabell 4), hvorav 12 ble oppført i

CancerGenes product: [40] og 11, inkludert tre som ikke er oppført i

CancerGenes

hadde blitt sitert i litteraturen som CRC forbundet (tabell 3). PML, oppført i

CancerGenes Hotell og sitert i litteraturen som CRC relatert, var den eneste TF blant de 16 TFS som kom utelukkende fra IBD sekvens; fire TFS CEBPB, E2F5, MYC, og RUVBL1 var felles for både Ade og IBD sekvenser; de resterende 11 kom utelukkende fra Ade sekvens (tabell 4).

Biomarkører for tidlig Diagnostic Påvisning av CRC

Blant de 141 spådd TPS kreftgener 13 ble identifisert som markører for tidlig diagnose av CRC; 11 for deteksjon i Ade tilstand, hvorav ni kom utelukkende fra Ade sekvensen og 2 var felles for begge sekvenser, og 2, for deteksjon i IBD tilstand og også felles for begge sekvenser (tabell 5). I hvert tilfelle kandidaten enten ikke vises eller fremstått som en single-link genet i (den) Nor (nettverk), men blomstret opp til en som har fem eller flere ledd og ble sterkt uttrykt (

p

-verdi . 0,0001) i Ade eller IBD, som tilfellet kan være, og gikk videre til å bli en betydelig knutepunkt i CRC

Diskusjoner

de fleste merkbar om GGINs var at deres størrelser og kompleksiteten vokste med alvorlighetsgraden av sykdommen (figur 2) i stigende rekkefølge: Nor, Ade, IBD, og ​​CRC. Den IBD nettverket hadde litt flere gener, men langt færre koblinger enn CRC.

Legg att eit svar