Abstract
Bakgrunn
Flere studier har rapportert genekspresjonssignaturer som forut tilbakefall risiko i stadium II og III tykktarmskreft (CRC) pasienter med minimal genet medlemskap overlapping og udefinert biologisk relevans. Målet med denne studien var å undersøke biologiske temaer underliggende disse signaturene, for å antyde gener potensial mekanistisk betydning for CRC tilbakefall fenotype og for å teste om nøyaktige prognostiske modeller kan utvikles ved hjelp mekanistisk viktige gener.
Metoder og funn
Vi har undersøkt åtte publiserte CRC genekspresjonssignaturer og fant ingen funksjonell konvergens i Gene ontologi berikelse analyse. Ved hjelp av en random walk-basert tilnærming, integrerte vi disse signaturer og offentlig tilgjengelige somatiske mutasjoner data på en protein-protein interaksjon nettverk og utledes 487 gener som var plausibel kandidat molekylære grunnlaget for CRC tilbakefall fenotype. Vi kalte listen over 487 gener en NEM signatur fordi det integrert informasjon fra Network, Expression, og mutasjon. Signaturen viste signifikant anrikning i fire biologiske prosesser nært relatert til kreft patofysiologi og ga god dekning av kjente onkogener, tumor-suppressorer og CRC-relaterte signalveier. En NEM signaturbaserte Survival Support Vector Machine prognostisk modellen ble trent med en microarray genekspresjon datasett og testet på et uavhengig datasett. De modellbaserte score viste en 75,7% samstemmighet med ekte overlevelsesdata og separert pasientene inn i to grupper med vesentlig forskjellig tilbakefall overlevelse (
p
= 0,002). Lignende resultater ble oppnådd med reversert opplæring og testing datasett (
p
= 0,007). Videre adjuvant kjemoterapi var signifikant assosiert med forlenget overlevelse av høyrisikopasienter (
p
= 0,006), men ikke gunstig for lav-risiko pasienter (
p
= 0,491).
Konklusjoner
NEM signatur ikke bare reflekterer CRC biologi, men også informerer pasienten prognose og behandlingsrespons. Dermed gir den nettverksbaserte dataintegrasjon metoden en konvergens mellom biologisk relevans og klinisk nytteverdi i genet signatur utvikling
Citation. Shi M, Beauchamp RD, Zhang B (2012) en nettverksbasert genekspresjon Signatur Informerer prognose og behandling for pasienter med kolorektal kreft. PLoS ONE syv (7): e41292. doi: 10,1371 /journal.pone.0041292
Redaktør: Valerie W. Hu, The George Washington University, USA
mottatt: 03.03.2012; Godkjent: 19 juni 2012; Publisert: 23.07.2012
Copyright: © 2012 Shi et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet av NIH (https://www.nih.gov/) gir GM088822, CA069457, DK052334, og støtte fra Vanderbilt Ingram Cancer Center Support Grant CA068485 og GI kreft SPORE Grant CA095103. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
tykktarms~~POS=TRUNC kreft~~POS=HEADCOMP (CRC) er den tredje største årsaken til global kreftdødelighet [1]. Ifølge stadier definert av amerikanske Joint Committee on Cancer (AJCC), 5-års overlevelse er 93,2% for stadium I, 82,5% for fase II, 59,5% for fase III, og 8,1% for stadium IV CRC pasienter [2] . Adjuvant kjemoterapi (CTX) for stadium III CRC pasienter har vist overlevelsesgevinst; vil imidlertid 42-44% av pasientene behandlet med kirurgi alene ikke gjenta seg i 5 år [3]. På den annen side, selv om enkelte kliniske studier har ofte ikke klart å demonstrere fordelene med adjuvant CTX for scene II pasienter, ca 20% av trinn II pasienter vil gjenta seg i løpet av 5 år. Derfor er det viktig å utvikle en nøyaktig metode for stratifisering stadium II og III CRC pasienter ved risiko for tilbakefall, slik at adjuvant CTX kan administreres til høyrisikopasienter bli, mens pasienter med lav risiko kan gi avkall på disse giftige behandlinger for å unngå potensiell skade som samt den økonomiske byrden.
Basert på direkte sammenligning av microarray data fra svært aggressive og mindre aggressive CRC svulster, flere studier har rapportert genekspresjonssignaturer som forut tilbakefall risiko i stadium II og III CRC pasienter [4] , [5], [6], [7], [8], [9], med minimal overlapping av deres gener listene [10]. Mangel på samsvar er en vanlig observasjon i genuttrykk signatur studier [11], reiser spørsmål om deres kliniske implikasjoner [12]. Imidlertid har prognostiske modeller basert på flere CRC genekspresjonssignaturer er validert i uavhengige pasient kohorter [6], [7], [8]. Videre har en tidlig studie i brystkreft viste at tilsynelatende forskjellige signaturer kan vise til en betydelig avtale utfallet prediksjon [13]. Det har blitt foreslått at forskjellige signaturer kan dele felles biologiske typer som ikke er synlig på den enkelte gennivå [12]. Derfor sti og nett-baserte fremgangsmåter er blitt utviklet i et forsøk på å avsløre biologiske mekanismer understøttelsen overensstem prognose blant forskjellige genekspresjonssignaturer i brystkreft og prostatakreft [14], [15], [16], [17].
Å finne felles biologiske temaer underliggende genekspresjonssignaturer minsket tidligere bekymringer om biologisk gyldigheten av signaturen gener [18]. Likevel gjenstår det faktum at genet signaturer bestemt kontrollert dataanalyse er sterkt påvirket av den undergruppe av pasienter som brukes til genet valg, og medlemskap i et gen i en slik signatur er ikke en indikasjon på viktigheten av at genet i kreft patologi [19 ]. Fordi ulike kombinasjoner av gener kan bli valgt til å bygge tilsvarende nøyaktige prediksjonsmodeller [20], er en spennende, men ubesvart spørsmål om å begrense genomisk plass til mekanistisk viktige gener kan gi nøyaktige prognostiske modeller. Et positivt svar på dette spørsmålet vil føre til bedre konvergens mellom biologisk betydning og klinisk prognose, noe som igjen vil gi innsikt i romanen målrettede terapeutiske strategier.
I dette arbeidet har vi studert de biologiske temaer liggende publisert CRC genekspresjon signaturer. Ved å integrere genekspresjonssignaturer og somatiske mutasjons data på en protein-protein interaksjon nettverk, viser vi at CRC gjentakelse fenotype omfatter feilregulering av flere biologiske prosesser, og hver signatur bare tatt noen gener i disse prosessene. Basert på disse observasjonene, hypotese vi at en genekspresjon signatur med mekanistisk viktige gener utledes fra nettverksanalyse bedre kan representere underliggende biologi og kan føre til prognostiske modeller med forbedret ytelse. For å oppnå dette, har vi utviklet Survival Support Vector Machine (SSVM) modeller med to uavhengige datasett basert på en slik signatur og kryss-testet ytelsen deres. Resultatene viser at vår modell kan forutsi nøyaktig CRC gjentakelse. Videre pasientutvelgelse basert på predikert risiko for tilbakefall gir nyttig informasjon om adjuvant CTX fordel for CRC-pasienter.
Metoder
Publisert CRC genekspresjonssignaturer
Gjennom manuell litteraturgjennomgang på artikler publisert mellom 2000 og 2010, vi identifisert fra syv papirer [4], [5], [6], [7], [8], [9], [21] åtte genekspresjonssignaturer som er i stand til å skille scenen II og /eller stadium III CRC pasienter til lav risiko og høy risiko undergrupper. Signaturen i Jorissen et al. [22] ble ikke inkludert fordi de genuttrykk datasett som brukes for å utlede at signaturen ble brukt til modellutvikling og evaluering i den aktuelle studien. De åtte underskrifter inkluderte totalt 208 gener.
gener mutert hos CRC
Bruke CanProVar databasen [23] (https://bioinfo.vanderbilt.edu/canprovar), hentet vi 549 gener med observerte somatiske mutasjoner i CRC prøver.
Humant protein-protein Interaksjon Nettverk
protein interaksjonsdata ble lastet ned og integrert fra BioGRID, MINT, HPRD, REACTOME, DIP og MINT i 2010, som tidligere beskrevet [24]. Proteinet interaksjon nettverk inkludert 94,066 interaksjoner mellom 11,521 proteiner
onkogener og tumorsuppressorgener
Kjente onkogener og tumorsuppressorgener ble lastet ned fra CancerGenes [25] og GLAD4U (http:. //Bioinfo. vanderbilt.edu/glad4u). For hvert verktøy, hentet vi to gen lister ved hjelp av søkeord onkogen og tumor suppressor, henholdsvis.
genuttrykk datasett
To genuttrykk datasett av primære kolorektal tumorer (GSE17536 [8] og GSE14333 [22]) ble lastet ned fra Gene Expression Omnibus GEO) database (. Stage I og stadium IV prøver ble ekskludert fra denne studien. GSE14333 inkludert noen av prøvene fra GSE17536, som ble fjernet fra GSE14333 i denne studien. Klinisk og patologisk informasjon av de to datasettene er vist i tabell 1. Begge datasett ble samlet på Affymetrix U133 pluss 2,0 array. cel-filer for datasettene ble normalisert ved hjelp av Robust multichip Analysis (RMA) algoritme [26] som gjennomføres i Bioconductor. Datasettene ble behandlet separat for å sikre deres uavhengighet. Probe sett identifikatorer (IDS) ble kartlagt til genet symboler basert på kartlegging levert av GEO database. Probe sett som tilordnes til flere gener ble eliminert. Når flere probe-sett ble kartlagt til den samme genet, sonden sett med det største interkvartilt område (IQR) ble valgt på grunn av dets høye variasjon på tvers av prøver. For å gjøre uttrykket nivå sammenlignbare på tvers av gener, ble uttrykk for hvert gen standardisert ved hjelp av en Z-score transformasjon. I denne studien ble hver datasett brukt som en trening-satt i sving og utviklet prognostiske modeller ble testet mot andre datasett.
Nettverksbasert prioritering
Vi brukte en modifisert versjon av vår tidligere publiserte NetWalker algoritmen [24] for å integrere uttrykk signaturer og offentlig tilgjengelige somatiske mutasjons data på en protein-protein interaksjon nettverket for å identifisere gener av potensial mekanistiske betydning for CRC gjentakelse fenotypen (figur 1). Netwalker er basert på random walk med restart teknikk [27]. Gitt et nettverk og starte sannsynlighetene for hver node representerer før informasjon om deres relative betydning, algoritmen beregner en endelig prioritering poengsum for hver node basert på steady state sannsynligheter. Random walk med omstart er formelt definert som den følgende ligning: hvor
r
er omstart sannsynlighet,
W
er kolonne-normaliserte nabomatrisen av nettverket grafen, og
p
t
er en vektor av størrelse lik antall noder i grafen der
i
-te element har sannsynligheten for å være på node
i
ved trinnet
t
.
Publisert genekspresjonssignaturer og somatiske mutasjoner data ble kartlagt til et protein-protein interaksjon nettverk. Gjennom å integrere informasjon fra Mutation, Expression, og Network, ble en NEM signatur avledet bruker NetWalker algoritme basert på random walk med restart teknikk. Biologisk relevansen av signaturen ble evaluert basert på funksjonelle informasjon, inkludert Gene ontologi, kjente kreftgener og signalveier. Klinisk relevans av signaturen ble evaluert ved å utvikle en Survival SVM modell basert på en genekspresjon datasett og testing i en uavhengig datasett for nøyaktigheten i prognose og forutsi respons på behandling.
Selv om våre tidligere implementeringsredere en lik start sannsynlighet til alle frø noder, gjør dette modifisert versjon forskjellige startsannsynligheter for frøet noder. I denne studien har vi satt opp startsannsynligheter for alle gener basert på deres engasjement i genekspresjonssignaturer og det muterte genet listen. Lik totalvekt ble gitt til genuttrykk signaturdata og mutasjon data. For genekspresjon signatur data, ble relativt høyere vekt gitt til gener som er involvert i flere signaturer. For mutasjon data, ble relativt høyere vekt gitt til gener med flere varianter. Begynn sannsynlighet for genet
i
() er formelt definert som følgende ligning: der
s
i
er antall CRC genekspresjonssignaturer der genet
i
er medlem,
m
i
er antall kjente mutasjoner varianter i CRC prøver i CanProVar for genet
i
, og
n
er det totale antallet av gener i protein interaksjon nettverk.
for NetWalker algoritmen, omstart sannsynlighet ble satt til 0,5 og konvergens ble bestemt av hvor stor er sannsynligheten for genet
i
på
t
th iterasjon.
for å vurdere den statistiske betydningen av resultatet for hvert gen, bygget vi 1000 sett med tilfeldig permuted start sannsynligheter og genererte 1000 sett med tilfeldige score. For hvert gen i nettverket, ble en lokal
p
verdi estimert ved å sammenligne den virkelige stillingen til tilfeldige poengsummer fra det samme gen, og en global
p
verdi ble beregnet ved å sammenligne den virkelige stillingen tilfeldige score fra alle gener [24]. Gener med både lokale og globale
p
verdier mindre enn 0,05 ble betraktet som viktige gener. Vi kalte listen over viktige gener en NEM signatur fordi det integrert informasjon fra Network, Expression, og mutasjon.
Til sammenligning har vi også utført nettverksbasert prioritering å bruke startsannsynlig tildelt kun basert på genuttrykk signatur data eller mutasjon data, henholdsvis, med tilhørende betydelige genet lister navngitt som NE signatur eller NM signatur.
Gene ontologi Enrichment analyse
Gene ontologi (GO) berikelse analyse ble utført ved hjelp av WebGestalt [28]. Standard multippel testing korreksjonsmetode «Benjamini Hochberg «ble brukt for FDR beregning. Å redegjøre for den avhengige nestet GO struktur, WebGestalt presenterer beriket GO kategorier i en rettet asyklisk graf (DAG) for å legge til rette for rask identifisering av de store ikke-redundante beriket biologiske temaer. Vi utførte en manuell undersøkelse av anriket DAG og rapporterte de mest representative vilkårene for hver gren.
Utvikling og evaluering av SSVM Model
En R implementering av survsvm tilgjengelig i survpack pakken [29 ], [30] ble anvendt for SSVM modellutvikling, og den gaussiske funksjonen kjernen ble anvendt. Gjennomføringen av SSVM har to parameterne c og σ, hvor c er kostnaden for feil i den antatte sekvensen av hendelser og σ er parameteren for den gaussiske kjernen. I denne studien la vi hver av disse parametrene varierer mellom kandidaten mengden {10
-5, 10
-4, 10
-3, 10
-2, 10
-1 10
0, 10
1, 10
2, 10
3, 10
4, 10
5} for å danne ulike parameterkombinasjoner. Fem ganger kryssvalidering ble anvendt og gjentatt fem ganger for å identifisere de optimale parametere i henhold til den C-indeksverdi (se nedenfor for beskrivelse). Fullt utviklet SSVM modell basert på de optimale parametrene ble deretter evaluert i den uavhengige datasett der en SSVM-baserte score ble utledet for hver pasient.
Survival Analysis
Foreningen mellom SSVM-baserte score og reell prognose av pasientene ble evaluert av C-indeksverdiene, Kaplan-Meier overlevelseskurver og log-rank test. C-indeksen er en sannsynlighet for samsvar mellom predikerte og observerte overlevelse, med C-indeks = 0,5 for tilfeldige spådommer og C-index = 1 for en perfekt diskriminerende modell. Standard Kaplan-Meier overlevelseskurver ble generert for pasientgrupper dannet basert på SSVM score, og overlevelse forskjell mellom gruppene ble statistisk evaluert ved bruk av log-rank test.
Resultater
Enrichment Analyse mislyktes avsløre Funksjonell Konvergens av signaturer
Vi undersøkte 8 CRC genekspresjonssignaturer (tabell 2). Sju av de 8 skriftene ble utviklet basert på sammenligning av tilbakevendende og ikke-tilbakevendende svulster, der noen studier inkluderte svulster i alle stadier, mens andre inkluderte bare svulster av utvalgte scener. Undersøkelsen av Smith et al. [8] integrerte humane tumor data med data fra CRC musecellelinje modeller i signaturen utvikling. Studien av Barrier et al. [21] brukt ikke-neoplastisk slimhinnen fra scenen II pasienter i stedet for svulster.
t
-test og dens varianter ble brukt for undertegning utvalg i de fleste av studiene, og forskjellige maskinlæringsteknikker ble benyttet til bygging av prognostiske modeller. Til tross for den tekniske forskjellen i eksperimentelle og beregningsprosedyrer, alle prognostiske modeller var i stand til å skille stadium II og /eller stadium III pasienter inn i lav-risiko og høyrisikogrupper. Flere modeller har blitt godkjent for en pasient kohort uavhengig av den som brukes for undertegning og modellutvikling.
I samsvar med tidligere rapporter [10], fant vi minimal overlapping mellom disse genekspresjonssignaturer på enkelte gennivå (figur 2 ). For å teste om disse signaturene samles i felles biologiske prosesser, utførte vi Gene ontologi (GO) berikelse analyse for hver signatur ved hjelp WebGestalt. Bare to signaturer viste beriket biologiske prosesser på signifikansnivå på False Discovery Rate (FDR) mindre enn 0,01 (figur 2). Signature_3 ble beriket i «translasjonsforskning forlengelse» (9 gener, FDR = 3.21e-12) og Signature_5 ble beriket i «immunsystem prosess» (9 gener, FDR = 0,001) og «celle-cellesignalisering» (6 gener, FDR = 0,0067). Enrichment resultater fra signaturer 3 og 5 antydet at forskjellige signaturer kan være forbundet med forskjellige biologiske mekanismer. Videre mangel på funksjonell konkordans for andre signaturer antydet at ulike gener i en signatur kan representere ulike biologiske temaer og eventuelt støy. For ytterligere å teste om felles biologiske temaer kan bli identifisert ved å kombinere alle signaturer, utførte vi berikelse analyse for alle 208 gener i de 8 signaturer. Beriket biologiske prosesser identifisert inkludert «translasjonsforskning forlengelse» (10 gener, FDR = 4.0e-4) og «decidualization» (4 gener, FDR = 0,0049). Den tidligere var åpenbart bidratt primært av signature_3. Dermed berikelse analyse ikke klarte å avdekke funksjonelle konvergens av CRC genekspresjonssignaturer. Interessant, selv om tidligere studier rapportert bredt samsvar mellom de biologiske prosessene fanges opp av ulike brystkreft prognostiske signaturer, en fersk studie [31] sammenligne to maskinlæringsbasert brystkreft prognostiske signaturer bare funnet statistisk signifikant samsvar i celleproliferasjon.
Hver sirkel representerer en genekspresjon signatur med tallet i parentes angir signaturen størrelse. Nummerhenvisningene kommentere beriket biologiske prosesser, antall gener som er involvert i prosessene, og tilsvarende falske funnrate for betydningen av berikelse.
Integrative Nettverksanalyse Identifiserte Vanlige Mekanismer Underbygger CRC Tilbakefall
tidligere studier tyder på at gener som er kjent å være assosiert med den samme sykdommen fenotype har en tendens til å ligge nær hverandre i en protein-protein interaksjon nettverk [27], [32]. Videre, Chen et al. [16] har vist at kreft signatur gener er mer sannsynlige å være nær til kjente onkogener og tumorundertrykkere i en protein-protein interaksjon nettverk. Derfor brukte vi en nettverksbasert tilnærming for å integrere disse signaturene på protein-protein interaksjon nettverk i et forsøk på å identifisere gener potensial mekanistisk betydning for CRC tilbakefall fenotype. I tillegg til genekspresjon endring, kan somatiske mutasjoner i mekanistisk viktige gener også føre til samme fenotype. Derfor vi videre samlet 549 gener med somatiske mutasjoner i CRC fra CanProVar databasen [23] for å øke nettverksanalyse ved hjelp av NetWalker algoritme [24]. Begge signatur genet lister og det muterte genet liste inkludert mechanistically viktige gener (f.eks driver mutasjoner og effektbokser) og andre gener (f.eks passasjer mutasjoner og epiphenomena). Dessuten kan enkelte mechanistically viktige gener være mangler i disse listene. Den NetWalker algoritmen utleder gener potensial mekanistisk betydning basert på antagelsen om at disse genene er sannsynlig å danne tett koblet klynger, mens andre har en tendens til å være tilfeldig fordelt på nettverket. Ved hjelp av signatur gener og muterte gener som «frø», den algoritme beregnes en poengsum for hvert gen i nettverket basert på dens totale nærhet til alle frø gener, hvor nærhet blir målt ved random walk likheten [27]. For å vurdere den statistiske betydningen av resultatet, bygget vi 1000 sett med tilfeldige frø og genererte 1000 sett med tilfeldige score. For hvert gen, beregnet vi en lokal
p
verdi basert på alle tilfeldige score av det samme genet og en global
p
verdi basert på tilfeldige score for alle gener. En betydelig global
p
verdien angir den generelle betydningen av genet med hensyn til inngangs frø, mens en betydelig lokal
p
verdi sikrer at betydningen er ikke bare på grunn av nettverket topologi [24 ]. Totalt 487 gener med både lokale og globale
p
verdier mindre enn 0,05 ble betraktet som signifikante gener, inkludert 464 fra de opprinnelige listene og 23 lagt til av algoritmen (figur 3A). Vi kalte listen over 487 gener i NEM signatur fordi det integrert informasjon fra Network, Expression, og mutasjon. Listen inkluderte velkjente CRC-relaterte gener, inkludert APC, CTNNB1, KRAS, TP53, BRAF, blant andre. Det følger også med gener med ukjent, men potensiell betydning i CRC tilbakefall. En fullstendig liste over de NEM signatur gener og deres
p
verdier finnes i tabell S1. For å teste robustheten av metoden med hensyn til ulike innspill genekspresjon signatur lister, fjernet vi hvert uttrykk signatur fra frø, en om gangen, og genererte 8 NEM-7 signaturer (dermed navnet fordi de brukte bare syv ut av 8 tilgjengelig genekspresjonssignaturer). Disse eksperimentene endres det totale antall inngangs uttrykk signatur gener fra 4% (når signature_1 ble fjernet) til 28% (når signature_2 ble fjernet). The Dice er koeffisienten mellom NEM-7 signaturer og den opprinnelige NEM signatur varierte 0,88 til 0,96, med et gjennomsnitt på 0,93, noe som tyder på høy robusthet av metoden.
(A) Overlapping blant de publiserte genekspresjonssignaturer ( 208 gener), muterte gener (549 gener), og NEM signatur (487 gener). (B) Andelen onkogener og tumorsuppressorgener i de publiserte genekspresjonssignaturer (a), muterte gener (b), og NEM signatur (c), som kommentert av CancerGenes. (C) andelen av onkogener og tumorsuppressorgener i de publiserte genekspresjonssignaturer (a), muterte gener (b), og NEM signatur (c), som kommentert av GLAD4U.
GO berikelse analyse av NEM signatur identifisert fire store biologiske prosesser med betydelig berikelse (tabell 3), blant annet «signaltransduksjon» (186 gener, FDR = 7.07e-11), «celleproliferasjonsprosesser» (71 gener, FDR = 3.03e-8 ), «programmert celledød» (75 gener, FDR = 1.83e-9), og «utviklingsprosess» (158 gener, FDR = 3.98e-9). Selv om disse prosesser er bred og ikke nødvendigvis cancer-spesifikk, de er i overensstemmelse med kjennetegnene til kreft [33]. Med unntak av Signature_1, alle andre uttrykk signaturer tatt med et lite antall gener i noen eller alle av disse biologiske prosesser (Tabell 3). Dessuten, alle disse biologiske prosessene ble betydelig anriket i alle de NEM-7 signaturer.
Deretter beregnet vi prosenter av kjente onkogener og tumorsuppressorgener i foreningen av publiserte genekspresjonssignaturer, den somatisk mutasjon genet liste, og NEM signatur, basert på kommentarer fra to forskjellige ressurser, CancerGenes og GLAD4U. Fordi mange av de kjente onkogener og tumorsuppressorgener er identifisert basert på somatisk mutasjon, det var ikke overraskende at det somatiske mutasjon genet liste hadde en høyere prosentandel av disse genene enn genekspresjonssignaturer. Men det var interessant å se at NEM signaturen hadde den høyeste andelen av kjente onkogener og tumorsuppressorgener (figur 3, B-C). For bedre å forstå involvering av NEM signatur genene i kreftspesifikke trasé, kartla vi dem til kreft pathway kartet kuratert av KEGG. Som vist i fig S1, genet listen tilordnet til nesten alle av kreft-relaterte veier, med en klar anrikning i Wnt signalveien, TGF-beta signalveien, og ErbB-signalveien, de viktigste veier som er deregulert i CRC [34]. Oppsummert NEM signatur viste betydelig berikelse av fire biologiske prosesser nært knyttet til kreft patofysiologi og gitt god dekning av kjente onkogener, tumor suppressors, og CRC-relaterte signalveier, og dermed demonstrerer en høy relevans for CRC biologi.
de NEM signaturbaserte prognostiske modeller Effektivt Forut CRC tilbakefall
for å teste om NEM signatur med gener sentrert på funksjonelt viktige nettverk kan forutsi CRC tilbakefall, har vi utviklet prognostiske modeller ved hjelp av disse genene som funksjoner og evaluert resultatene av modeller i selvstendige pasient kohorter.
Først trente vi en SSVM prognostisk modell ved hjelp av genuttrykk datasett GSE17536 og testet ytelsen på en uavhengig datasett GSE14333. Blant de 487 genene i NEM signatur, ble bare 467 gener i datasettet brukes til å trene modellen. Fem ganger kryssvalidering ble brukt og gjentatt 5 ganger for å optimalisere parametrene for SSVM algoritmen, og en full modell basert på den komplette datasettet ble utviklet ved hjelp av optimale parametre. For testing i GSE14333 ble SSVM score beregnes for de enkelte prøver, med en høyere poengsum indikerer høyere risiko og kortere overlevelse. De beregnede SSVM score og den virkelige overlevelsesdata viste 75,7% samstemmighet (C-index = 0,757). Basert på SSVM score, ble pasientene delt inn i to grupper, en «lav risiko» gruppe med under-median score og en «high-risk» gruppe med over median score. Som vist i figur 4A, den høyrisikogruppen hadde signifikant dårligere tilbakefall overlevelse (hazard ratio [HR], 7,47; 95% konfidensintervall [CI], 1,64 til 34,0; P = 0,002) enn lav-risikogruppe. Den tilbakefall overlevelse etter 3 år var 96,9% for lav-risiko-gruppen sammenlignet med 69,3% for høyrisikogruppen.
Kaplan-Meier overlevelseskurver for undergrupper av pasienter som er identifisert i GSE14333 bruker modeller utviklet basert på GSE17536 med forskjellige gensettene. (A) NEM signatur basert på nettverksanalyse med frø noder inkludert 208 gener i publiserte signaturer og 549 muterte gener, N = 487; (B) Den NE signatur basert på nettverksanalyse med frø noder inkludert 208 gener i publiserte signaturer, N = 546; (C) NM signatur gener basert på nettverksanalyse med frø noder inkludert 549 muterte gener, N = 435; (D) unionen av 208 gener i publiserte signaturer og 549 muterte gener, N = 753; (E) 208 gener i publiserte signaturer, N = 208; (F) 549 muterte gener fra CanProVar, N = 549.
Kaplan-Meier overlevelseskurver for undergrupper av pasienter som er identifisert i GSE17536 bruker modeller utviklet basert på GSE14333 med forskjellige gensettene. (A) NEM signatur basert på nettverksanalyse med frø noder inkludert 208 gener i publiserte signaturer og 549 muterte gener, N = 487; (B) Den NE signatur basert på nettverksanalyse med frø noder inkludert 208 gener i publiserte signaturer, N = 546; (C) NM signatur gener basert på nettverksanalyse med frø noder inkludert 549 muterte gener, N = 435; (D) unionen av 208 gener i publiserte signaturer og 549 muterte gener, N = 753; (E) 208 gener i publiserte signaturer, N = 208; (F) 549 muterte gener fra CanProVar, N = 549.
En fersk studie antyder at de fleste tilfeldig genekspresjonssignaturer er signifikant assosiert med brystkreft utfallet [35]. Derfor vi gjentok vår analyse ved hjelp av 10 sett med tilfeldig valgte 487 gener. Når modellene trent på GSE17536 ble testet på GSE14333, fikk de en median C-indeks på 0,546 og en median P-verdi på 0,568. Dermed trenger tilfeldig gen signaturer ikke ut til å fungere i CRC prognose.
En vurdering er at 487 gener kan være for mange for praktisk klinisk implementering. Derfor prøvde vi forskjellige cutoff-verdier i nett-basert prioritering prosess for å endre antall utvalgte gener. Ved hjelp av ulike
p
verdi cutoffs inkludert 0,005, 0,01 og 0,1, identifiserte vi 45, 105 og 810 gener, henholdsvis. Ved hjelp av parametre valgt basert på kryssvalideringsresultater, ble tre SSVM modeller utviklet på GSE17536 og testet på GSE14333 hhv. Som vist i fig S2, utførelsen av den 810-genet modellen var sammenlignbar med den til den 487-genet modellen, mens 105 og 45 gene modellene viste liten forutsigelse kraft. Derfor ytterligere redusere genomisk plass synes problematisk, muligens på grunn av den underliggende kompleksiteten av CRC.
(A) Kaplan-Meier overlevelseskurver for høyrisikopasienter i GSE17536 og GSE14333, med (CTX) og uten ( NO CTX) adjuvant CTX; (B) Kaplan-Meier overlevelseskurver for lav-risiko pasienter i GSE17536 og GSE14333, med og uten adjuvans CTX.
Fordi NEM signatur integrert informasjon fra mutasjoner, genekspresjonssignaturer, og protein- protein interaksjon nettverk, vi prøvde å dissekere deres individuelle bidrag til den observerte ytelse. Nettverks signaturer utledet ved hjelp av det samme nettverket prioritering metode, men basert på enten genekspresjonssignaturer alene (NE signatur med 546 gener, figur 4B) eller muterte gener alene (NM signatur med 435 gener, figur 4C) ikke resulterer i sammenlignbar ytelse som at fra NEM signatur (figur 4A). Nærmere bestemt, C-indeksen for NEM signatur-baserte modellen var 27% høyere enn det for den NE signatur-baserte modellen og 13% høyere enn for den NM signatur basert modell. På den annen side er alle tre modeller utledet fra nettverket signaturer (Figur 4A-C) gir bedre resultat enn deres motstykker uten nettverksbasert prioritering (figur 4D-F). For eksempel C-indeksen for NEM signaturbaserte modellen var 28% høyere enn for modell basert på unionen av alle gen signaturer og muterte gener.