Abstract
En betydelig del av pasienter med kolorektal kreft har en høy risiko for tilbakefall av sykdommen etter operasjonen. Disse pasientene kan identifiseres ved å analysere ekspresjon profiler av signatur gener i tumorer. Men det er ingen enighet om hvilke gener som skal brukes, og ytelsen til bestemt sett av signatur gener varierer sterkt med ulike datasett, som hindrer deres implementering i rutinemessig klinisk anvendelse. I stedet for å bruke enkelte gener, her har vi identifisert funksjonelle multi-genet moduler med betydelige uttrykk endringer mellom tilbakevendende og tilbakefall fritt svulster, brukte dem som underskriftene for å forutsi kolorektal kreft tilbakefall i flere datasett som ble samlet selvstendig og profilerte på ulike microarray plattformer. Den multi-genet modulene vi identifiserte har en betydelig anrikning av kjente gener og biologiske prosesser som er relevante for utvikling av kreft, deriblant gener fra kjemokinet pathway. Mest påfallende, rekrutterte de en betydelig berikelse av somatiske mutasjoner funnet i tykk- og endetarmskreft. Disse resultatene bekreftet den funksjonelle relevansen av disse modulene for kolorektal kreftutvikling. Videre er disse funksjonelle moduler fra forskjellige datasett overlappet signifikant. Til slutt viste vi at utnytte informasjonen ovenfor av disse modulene, vår modulbasert klassifikator unngått vilkårlig montering av klassifikator funksjon og screening av signaturer ved hjelp av treningsdata, og oppnådd mer konsistens i prognose anslag over tre uavhengige datasett, som holder selv ved hjelp av svært liten opplæring sett av svulster
Citation:. Li W, Wang R, Yan Z, Bai L, Sun Z (2012) High samsvar i Prognose Prediksjon av tykktarmskreft på tvers av uavhengige datasett av Multi-Gene Modul Expression profiler. PLoS ONE 7 (3): e33653. doi: 10,1371 /journal.pone.0033653
Redaktør: Ju-Seog Lee, University of Texas MD Anderson Cancer Center, USA
mottatt: 12 september 2011; Godkjent: 17 februar 2012; Publisert: 16 mars 2012
Copyright: © 2012 Li et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Bevilgninger gitt av 973 prosjekt nr 2009CB918801 og nr 2011CBA00802, http: //www.most.gov.cn; Foundation National Natural Science of China Fund No. 31171274, https://www.nsfc.gov.cn/. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
tykktarms~~POS=TRUNC kreft~~POS=HEADCOMP er en ledende årsak til kreftdødelighet. 20-30% av pasientene i trinn II og 50% av pasientene i trinn III opplevelse av sykdommen etter kirurgi [1]. Nøyaktighet og stabilitet av prognosen prediksjon er avgjørende når man skal avgjøre den riktige behandlingen ordningen om forskjellig tilbakefall risiko. Den nylige studier har antydet at ekspresjonsprofilen av multi-genet signaturer som en bedre prognose prediktor for pasienter med kolorektal kreft enn tradisjonelle metoder ved hjelp av kliniske eller patologiske funksjoner, og noen kommer inn i markedet [2] – [7]. Disse signatur gener ble vanligvis identifisert fra differensielt uttrykte gener mellom en trening sett av svulster fra pasienter med eller uten tilbakefall av sykdommen. Deres ekspresjonsdata ble deretter brukt til å trene en statistisk klassifiserings som best kan skille de to gruppene av opplærings tumorer. I noen tilfeller er denne fremgangsmåten, dvs. genet utvalg og klassifiserings konstruksjon, blir iterert for å optimalisere både valg.
Et stort problem med disse fler-genet klassifiserere er at deres signatur genene varierer betydelig for forskjellige kullene fra studier forskjellige populasjoner av pasienter, og forskjellige microarray plattformer, antagelig på grunn av den lave overensstemmelse mellom microarray ekspresjonsdata [8]. For å få en konsensus liste over signatur gener, er det anslått at tusenvis av tumorprøver ville være nødvendig for å trene slike classifiers [9]. Som et resultat av flere rapporterte sett av signatur gener sterkt avhengig av treningsprøvene og hadde bare overlapper minimalt [10]. En annen bekymring er at valg av en statistisk klassifikator er vilkårlig og mangler eksplisitt biologisk basis, slik at sorter kan bli over monteres av datasettet som det ble oppfunnet. For eksempel, i en nylig studie, multi-genet klassifiserere konstruert fra en datasettet var kryss validert i et annet datasett for å finne at deres prediksjonsnøyaktigheten ble vesentlig redusert [3]. En slik reduksjon skyldes noen mangler gener i genet klassifikator i forhold til den beste klassifikator konstruert fra den kryssvalidering datasett. Derfor har disse faktorene ført til stor variasjon i prediktiv utførelsen av multi-genet classifiers og begrenset deres generalisert bruk i klinisk praksis.
Nylig høyere samsvar på tvers av ulike microarray datasettet har blitt rapportert i uttrykk mønstre av multi -Gene moduler, dvs. grupper av funksjonelt relaterte gener [11] – [14]. Motivert av dette funnet, rettet vi å identifisere slike moduler ved å kombinere både genekspresjon og proteiner interaksjonsdata og brukt de differensielt uttrykt moduler for å konstruere en ny klassifikator. Viktigere, bekreftet vi at disse modulene er ikke-tilfeldig forbundet med kolorektal kreft tilbakefall i forskjellige datasett, og at modulene fra forskjellige datasett overlappe med vesentlig flere gener enn tilfeldig, noe som indikerer overlappende prosentandel av topp rangert modulene besatt diskriminerende effekt. På denne måten unngår vi bruk av lav-overensstemmelse gen signaturer og en vilkårlig statistisk funksjon å passe. Vi demonstrerte sin søknad til tre uavhengige datasett av kolorektal kreftpasienter som profilerte på annen microarray plattform og oppnås reproduserbare spådommer med nøyaktighet på 74%, 76% og 68%, og AUC (arealet under ROC) verdier på 79%, 79% og 72 % av La-ett-Out validering. Rimenøyaktig er sett når redusere størrelsen på treningssett (34, 10 eller 18 svulster) og variasjonen på tvers av datasett er fortsatt lav, noe som er ~ 1/2 av eksisterende fler genbasert classifiers.
Materialer og Metoder
data~~POS=TRUNC kilde~~POS=HEADCOMP
tumor uttrykk data og forbehandling
Tre offentlige pre-behandlet microarray datasett av kolorektal tumorer som nedenfor ble brukt.; Merk at klassifiseringen av pasientene, tilbakevendende eller ikke-tilbakevendende, er henvist til den faktiske status er beskrevet i de originale papirer eller beskrivelsesfiler:
tysk datasettet [3]: Det er inkludert 55 tyske pasienter med primær kolorektal kreft (stadium i og II), hvor 29 pasienter er sykdommen tilbakefall gratis og deres oppfølgingstid på minst 5,3 år etter operasjonen. Uttrykket av tumorprøver ble profilert på Affymetrix HG-U133A plattform
Barrier datasett [5]. Det inkluderte 50 pasienter med stadium II tykktarmskreft. 25 av dem er sykdom tilbakefall gratis og deres oppfølgingstid på minst 5 år etter operasjonen. Uttrykket av tumorprøver ble profilert på Affymetrix HG-U133A plattform
GSE5206 [15]. Det inkluderte 100 pasienter med stadium I-IV tykktarmskreft. 23 av dem hadde tilbakefall etter operasjonen. Det er ingen informasjon om deres oppfølging tid. Her fjernet vi 37 prøver med høyere stadium (III og IV) fra tilbakevend-free sett og leaved 63 pasienter for prediksjon validering. Uttrykket av tumorprøver ble profilert på Affymetrix HG-U133_plus_2 plattform.
For hver sonde med manglende verdier, søkte vi R pakke «impute «[16] for å fylle med gjennomsnittet av sin k- nærmeste naboer Gener med flere prober ble behandlet ved gjennomsnitt uttrykket sitt nivå.
Gene ontologi data.
Gene ontologi (GO) data fra Molecular Signaturer Database (MsigDB) v2.5 [17] ble brukt, som omfattet 1454 GO sett og 8299 gener.
protein interaksjonsdata.
protein interaksjonsdata ble lastet ned fra HPRD databasen [18] (release 8) og BioGRID databasen [ ,,,0],19], som omfattet 6511 noder og 29694 interaksjoner
Kjente gener relatert med kolorektal kreft tilbakefall
tykktarms~~POS=TRUNC kreft~~POS=HEADCOMP tilbakefall relaterte gener ble samlet basert på deres merknader fra to kilder, henholdsvis.. OMIM database (www.ncbi.nlm.nih.gov/omim) [20] og online litteratur gruvedrift bruker PubGene (https://www.pubgene.org/) [21]. Vi fikk 41 beslektede gener fra OMIM database. Ved hjelp PubGene, vi først søkte på gener assosiert med begrepet «kolorektal kreft «og» tilbakefall «for å få 2793 og 1609 gener, henholdsvis, og deretter tok i skjæringspunktet mellom disse to gen listene som endelig sett av 1038 kolorektal kreft tilbakefall relaterte gener .
kolorektal kreft somatisk mutasjon data.
de somatiske mutasjoner data for tykktarmskreft er lastet ned fra COSMIC database [22] i kategorien «tykktarmen vev», ikke inkludert sub- vev, anus og vedlegg, med alle to histologiske vilkår. adenom og karsinom
Konstruere GO co-uttrykk nettverk
Vi bygget nettverk for hver GÅ gen sett. Dette var for tre grunner: (1) det viste seg nyttig å innarbeide tidligere informasjon, f.eks gener innenfor de samme trasé, for å forenkle beregningsmetodene i identifisering av funksjonelle moduler [23] – [26]; (2) det tillater multi-funksjonelle gener som kan være tilstede i mer enn ett funksjonelle moduler; (3) mange interaksjonsdata ble oppnådd in vitro og kanskje ikke finnes i fysiologiske situasjoner og dermed begrense samspillet innenfor et gen ontologi kan bidra til å redusere slike falske positiver. I detaljer, for hver GO gen sett, gener som ikke finnes i microarray datasettet ble fjernet. De gjenværende gener i hvert GO settet brukes som topp-punkt i nettverket, og kantene ble tegnet på grunnlag av protein interaksjonsdata. Hver toppunktet er assosiert med en
n
dimensjonale uttrykk vektor der
n
er det totale antall kreftprøver i datasettet. Verdien ved hver dimensjon er ekspresjonsnivået av dette gen i de tilsvarende tumorprøve. Kanten mellom to hjørnene er vektet med sin co-uttrykk nivå [27]. Her valgte vi Pearsons korrelasjonskoeffisient å måle co-uttrykk nivå. Legg merke til at det er noen alternative beregninger, f.eks Spearman korrelasjon og gjensidig informasjon, og disse beregningene generelt ført til lignende resultater i nettverksegenskaper og modul oppdagelse [28]. Videre har Pearson korrelasjonskoeffisient blitt mye brukt og foreslått å være en god måte å håndtere støy innenfor mikroarray data [29], [30], fordi den måler den samarbeidende graden av to ekspresjonsvektorer men ikke styrken av dem. Spesielt vekten av en kant mellom to hjørnene
i
og
j
er definert som den absolutte verdien av person korrelasjonskoeffisient mellom deres ekspresjonsvektorer,: (1)
identifisere funksjonelle moduler
det finnes flere metoder for å identifisere modulære strukturer i et nettverk, og valg av metode varierer med flere faktorer, for eksempel nettverksstrukturer [31]. Tatt i betraktning den tette strukturen i hver GO nettverk, søkte vi vektet Girvan og Newman (GN) algoritme [32] for modul oppdagelse. Sammenlignet med andre eksisterende metoder som starter med frø noder og utforske nærområdet for høye scoret modulære strukturer [11], [33] – [36], er GN algoritmen kant-orientert og søke etter globalt optimale moduler. Den er basert på korteste banealgoritme, beregner betweenness av alle kanter og gjentatt fjerner kanten med høyest betweenness. Her blir betweenness stillingen av en kant definert ved summen av alle korteste veier som passerer gjennom den og dividert med dens vekt av tilsvarende kant. Den opprinnelige GN algoritmen skjærer alltid den dendrogram med høyeste Q-verdi, noe som resulterer i en stor variasjon i modulen størrelse og av og til store moduler med lav biologisk sammenheng [37]. For å unngå dette problemet, kreves vi hver modul for å inneholde mer enn 20 gener. De detaljerte prosedyrer er som følger:
Beregn betweenness score til alle kanter i hvert GO nettverk
Finn kant med høyest score og ta den ut av grafen
Gjenta.. over trinnene til ingen isolerte grafer inneholde over 20 gener.
Singleton med bare ett gen ble ignorert.
Rank forskjellig uttrykt moduler mellom svulster med og uten tilbakefall
uttrykket endringer mellom svulster med og uten tilbakefall ble evaluert av våre P-SAGE algoritme [38]. For en modul
s
med totalt
k
gener, poengsummen for differensial betydning (SDS) er definert ved: (2) hvor er
t
score for
i
-te genet i modulen
s
. Legge merke til at SDS score korrelerer med modulen størrelse
k
, fikk vi de tilhørende p-verdier fra khikvadratfordeling, som brukes til å sortere de identifiserte funksjonelle moduler i stigende. Moduler med høyere rangeringer, det vil si de forskjellig uttrykt moduler med mindre p-verdier, blir brukt for evaluering og prognose prediksjon.
Prognosen prediksjon paradigmet
Ordningen med prediksjon paradigme.
Gitt en trening sett av tumorprøver, vi dele den i to halvdeler, [R1] og [R2], hver med n engangs og n-1 tilbakevendende svulster. Disse to halvdeler er betraktet som to uavhengige datasett. Deretter antar vi testen tumor (dvs. uten etikett) X som tilbakevendende og sette det inn i [R1] og [R2], dvs. [R1 + X] og [R2 + X]. Vi identifiserte de øverste N moduler fra [R1 + X] og [R2 + X], henholdsvis, og hvis testen tumor X er forbundet med høy risiko for tilbakefall, bør de to sett av moduler resulterende overlapper betydelig. Vi har beregnet den prosentvise overlappingen (OPN) som beregnes ved forholdene mellom deres skjæringspunkt og deres forening, etter å ha blitt normalisert mot den overlappende prosentandelen av tilsvarende moduler identifisert fra [R1] og [R2]. For å unngå potensiell skjevhet med en bestemt splittet, vi gjentok tilfeldig delt og over 10 ganger for å oppnå en gjennomsnittlig OPN . Til slutt, vi beregnet OPN for ulike N = 100, 200 … 500 og bruke gjennomsnittet som prediktiv poengsum OP . Høyere OP poengsum indikerer en høyere risiko for tilbakefall forbundet med test svulst X. På denne måten unngår vi felles strategi for å optimalisere en vilkårlig kjernefunksjon som ikke har noen klar biologisk grunnlag.
Evaluering og sammenligning.
For hvert datasett, ble dens tumorprøver delt inn i et treningssett og et testsett. Vi rapporterte resultatmålet, nøyaktighet og AUC, med R-pakken, ROCR. I leave en ut validering, ble en svulst tilfeldig valgt som testsettet og resten tumorer benyttes som treningssettet. På denne måte ble det gjennomført prediksjon for n ganger, hvor n er det totale antall tumorer i datasettet. I valideringer med antall opplæring prøver å være 34, 18 eller 10, gjennomførte vi prediksjon for (n-34), (n-18) eller (N-10) ganger. Deretter tilfeldig valgte vi treningssettet av tumorer til 5 ganger, og rapportert gjennomsnittlig, maksimal og minimal ytelse. Forestillingen ble sammenlignet med andre metoder ved hjelp av disse tre microarray datasettene
Resultater
Vi brukte to uavhengige datasett av pasienter med kolorektal kreft tidlig for å kontrollere de to viktigste hypoteser:. (1) den mest forskjellig uttrykt modulene er ikke-tilfeldig assosiert med tumorresidiv; (2) slike moduler identifisert fra ulike datasett vil overlappe betydelig i flere gener enn tilfeldig
Oversikt over mest forskjellig uttrykt moduler identifikasjon
Identifiseringen av de fleste forskjellig uttrykt moduler inkludert tre viktige skritt. Nettverk konstruksjon, topologisk modul oppdagelse, vurdering av differensial uttrykk på modulnivå (Figur 1, mer detaljert beskrivelse i MÅTE OG MATRIERAL avsnitt). Kort fortalt, vi først gruppert gener i store grupper basert på deres GO merknader. Som et gen som kan ha mer enn en funksjonell rolle, disse går grupper kan overlappe hverandre i visse gener. I stedet for å konstruere et enkelt gigantisk nettverk, brukte vi protein interaksjonsdata til å bygge nettverk for hver av disse går sett av gener og identifiserte multi-gener moduler, dvs. grupper av gener som er tett forbundet i nettverkstopologi og forholdsvis separat fra resten nettverket. Til slutt ble differensial uttrykk for hver modul mellom svulster med og uten tilbakefall av sykdommen rangert for å få de beste N moduler for nærmere analyse.
Identifisere de forskjellig uttrykt moduler omfatter tre viktige skritt. Først blir GO co-uttrykt nettverk konstruert ved kombinerte protein-protein interaksjon nettverk, som var fra HPRD og BioGRID database, og GO-genet setter sammen. Kantene på nettverket ble veid av co-uttrykk nivå mellom de tilhørende knyttet noder. For det andre ble funksjonelle moduler identifisert med et veid Girvan-Newman algoritme [32]. Til slutt ble funksjonelle moduler rangert på sine differensial nivåer mellom tilbakevendende og ikke-tilbakevendende tumorer som ble evaluert av p-SAGE algoritme [38].
De konstruerte GO nettverk inneholde 4428 gener totalt for begge Barrier og tyske datasett som de brukte den samme microarray plattform. Vi tok de 100, 200, …, 500 moduler for påfølgende analyse (tabell S1). Disse modulene har et differensielt uttrykt p-verdi som ikke er større enn 0,005 i både tysk datasettet og Barrier datasett.
De differensielt uttrykte moduler er ikke-tilfeldig forbundet med tumorresidiv
Som det kan sees i figur 2, fant vi en betydelig berikelse av gener relatert med kolorektal kreft tilbakefall i disse modulene identifisert fra tysk datasettet i henhold til både OMIM og PubGene merknader (se Methods). For kontrollformål, genererte vi sett en samme mengde gener som er identifisert som den mest forskjellig uttrykt med den enkelte genbasert t-test ( «t-test gener»), eller de forskjellig uttrykt GO gensettene rangert etter P- SAGE. Sammenlignet med disse to kontroller, fant vi høyere andeler av kolorektal kreft tilbakefall relaterte gener var på topp 50-500 moduler. De er ca 1.9~3.5 ganger (OMIM) og 2~2.7 ganger (PubGene) høyere versus topp rangert individuelle gener, 2.6~4.7 ganger (OMIM) og 1.7~2.1 (PubGene) ganger høyere sammenlignet med toppen rangert GO gensettene (figur 2 ). Lignende resultater ble også sett på Barrier datasett (figur S1).
Kjente CRC gener ble samlet inn fra PubGene (A) eller OMIM (B). Prosentene ble sammenlignet med i toppen differensielt uttrykte gener (t-test gener) med samme antall gener i topp rangert N moduler, eller gå gensettene med samme mengde topp rangert N moduler.
Spesielt i å analysere den tyske datasettet, fant vi tre chemokiner (CXCL9, CXCL10 og CXCL11) og deres felles reseptor CXCR3 i topp 10 moduler. Dette er konsistent med den nylige funn at CXCR3 og en annen ligand CXCL10 fremme invasjons-relaterte egenskaper i kolorektal cancer [39], [40]. For å se om disse resultatene var reproduserbare, vi tilfeldig delt tysk datasettet i to halvdeler, hver av dem et mindre datasett med 14 eller 15 engangs svulster og 13 tilbakevendende svulster, identifisert de 100 moduler og sjekke om disse chemokin relaterte gener ville dukke opp . Vi utførte slike tilfeldige delinger til 1000 ganger og tellet frekvensene av gener som vises minst en gang i begge halvdelene for de 100 moduler. Også med tanke på hub gener som har mer samspill partnere ville ha en høyere sjanse for å dukke opp i flere moduler, normalisert vi frekvensen av hvert gen mot sin tilkobling. Vi fant tre chemokiner: CXCL10, CXCL9 og CXCL11, men ikke deres reseptor CXCR3, vises den hyppigste (30,5% -44,1%) i alle 1000 deler. Men utførte vi den samme analysen på Barrier datasett og ikke funnet noen av de tre kjemokiner å dukke opp i de 100 moduler i hvilken som helst tilfeldig delt. Men vi fant 19 og 18 av medlems gener i chemokin signalveien (190 gener i alt) som kurator ved KEGG database dukket opp minst en gang i topp 100 moduler i tysk datasett og Barrier datasett, henholdsvis (tabell S2). De overlappes av 9 gener (STAT2, Stat3, LYN, MAPK1, FOXO3, NFKB1, GSK3B, PAK1 og PTK2B). Disse resultatene indikerer en mulighet for at toppmoduler var i stand til å fange opp store endringer (10%) i kjemokin signalveien forbundet med tumorresidiv, og er reproduserbare på tvers av forskjellige datasett. Men det kan være vanskelig å ytterligere få ned til spesifikke gener i disse modulene til bruk som markører robuste.
Som tumor utvikler med akkumulering av somatiske mutasjoner, vi også vurdert om det er en signifikant korrelasjon mellom toppmoduler og de somatiske mutasjoner identifisert i tykktarmskreft fra COSMIC database. Vi identifiserte første modulene som inneholder betydelige mengder av mutasjoner av Fisher eksakte test (p cutoff: 0,05). Disse modulene ble navngitt som mutert Modules (MMS). Vi så beregnet prosenter av MMS på topp N moduler og resten moduler for å oppnå en berikelse forhold. En høyere ratio indikerer en høyere anrikning av mutasjoner i de øverste N moduler. For tyske datasettet, fant vi de øverste 50-500 moduler overlapper betydelig med MMS (Fisher eksakt test, p 0,002), med berikelse score rundt 3-4 (figur 3). I kontrast, gjennomførte vi en lignende analyse på topp gener av lignende tall identifisert av den konvensjonelle t-test ( «t-test gener»), men fant ingen signifikant overlapper med gener i MMS (Fisher eksakt test, p-verdier 0,25). Prosentene av muterte gener i topp t-test gener kontra resten gener er like. For å vurdere om anriking av mutasjoner i toppmoduler er forbundet med tumorresidiv, permuted vi etikettene av «tilbakefall» og «ikke-gjentakelse» for å identifisere de beste modulene og fant sine berikelse forholdet er ca 1,3, noe som er sammenlignbare med de av t-testen gener. Lignende resultater ble også funnet i Barrier datasettet (Figur S2).
I motsetning kontrollene er fra t-test genet og permutasjon test. T-test genet analyse ble utført ved å bruke samme antall topp differensielt uttrykte gener som antall gener som omfattes av de tilsvarende topp N moduler.
For å oppnå dette, bekreftet vi vår første antakelsen om at identifiserte toppmoduler er ikke-tilfeldig assosiert med tumorresidiv i to forskjellige uavhengige datasett. Derfor kan disse modulene brukes som mer robuste prediktorer enn spesifikke gener for prognose anslag.
De mest forskjellig uttrykt modulene hadde høyere reproduserbarhet
Deretter undersøkte vi om de overlappende prosenter av toppmoduler er betydelig høyere enn kontrollene for å bli brukt som et diskriminerende beregning. Vi identifiserte topp 100-1000 moduler fra Barriere og tysk datasett, henholdsvis, og fant disse moduler fra de to forskjellige datasettene overlappet signifikant (p 1.75E-74). Deres overlappende prosenter (25,3% -54,9%) er over 7 ganger høyere enn de overlappende prosenter av topp t-test gener (3,3% -6,6%) og er også ca 2 ganger av de gjennomsnittlige overlappende prosenter for toppmoduler identifisert etter permutasjon etiketter (figur 4). Bemerkelsesverdig er disse overlappende prosenter er også høyere enn de ekstreme verdier oppnådd i permutasjon tilfeller, som utliggere (Grubbs avvikende test, p-verdier 0,006). Samlet utgjør disse resultatene støttet vår andre antakelsen og foreslo de overlappende prosenter av toppmoduler er informative å forutsi tumorresidiv.
Overlappprosentandelen er beregnet som forholdet for antall kryss og forening av genene. Vi sammenlignet med prosentandelen av overlappende gener på toppen rangert N moduler, topp t test gener med det samme antall gener i topp N moduler, og deres tilsvarende permutasjon testkontroll.
A novel klassifisereren basert på de fleste forskjellig uttrykt moduler kan gi mer robuste prognose spådommer
Gitt ovenfor valideringer av våre to sentrale forutsetninger, har vi designet prognosen prediksjon paradigmet som følger. Kort fortalt, vi delt opplæring sett svulster i to forskjellige sett. Hvert sett inneholder både tilbakevendende og ikke-tilbakevendende svulster, slik at de tilsvarende toppmoduler kan utledes. En overlappende prosentandel (OP_old) av disse moduler fra begge settene ble beregnet. Gitt en test svulst, antok vi at det er «tilbakevendende» og sette det inn i hvert sett for å identifisere de nye toppmoduler og beregnet nye overlappende prosentandel (OP_new). Hvis testen tumor er «gjennomgående» som forventet, bør den gamle og nye overlappende prosenter være sammenlign; I motsatt fall ville de nye overlappende prosenter være lavere. På denne måten unngås det å bruke de spesifikke genene, men brukes hele informasjonen av de øverste modulene, siden slik det er vist ovenfor, bare den sistnevnte er ikke-tilfeldig assosiert med tumor tilbakefall. Vi unngår også problematisk skritt for montering trening tumor data til en vilkårlig statistisk funksjon. I stedet ble de overlappende prosenter av toppmoduler brukt som vi viste bør være av tilstrekkelig diskriminerende makt. Flere detaljer finner du i MÅTE OG MATRIERAL delen og Figur 5. I det følgende demonstrerte vi evalueringen av denne metoden i tre uavhengige datasett og sammenlignet ytelsen med at tidligere metoder ved hjelp av de samme datasett.
trening tumor sett er først samplet tilfeldig fra hele tumordatasettene og deretter delt tilfeldig i to like deler, hver del med den ikke-tilbakevendende og tilbakevendende sett. Deres tilsvarende toppmoduler ble utledet ved den metode som er nevnt ovenfor, og den prosentvise overlapp (OP_old) ble beregnet. For hver test svulst X, vi sette det inn i de tilbakevendende sett for begge deler for å utgjøre det nye uttrykket matriser. De mest forskjellig uttrykt moduler for to nye uttrykk matriser utledes hhv. Overlapp prosent (OP_new) av disse to sett av toppmoduler beregnes og normalisert ved OP_old. Tatt i betraktning den forspenningen fra spaltning ved trinn 2, ble de tilfeldige delinger for gjentatt 10 ganger. Gjennomsnittet av normalisert OP er tildelt for å teste svulst X.
La én validering.
Vi har evaluert resultatene av vår prediksjon metode ved La-ett-Out validering, først som er et populært valg brukt i tidligere studier. Vi rapporterte resultatene av nøyaktighet (den egentlige positive hastighet ved det punkt som er nærmest punkt (0,1) av ROC), sensitivitet, spesifisitet og AUC for å sammenligne med de eksisterende multi-genet klassifiserere (fig 6, den detaljerte informasjonen i Tabell S3 ). For tysk datasettet, oppnådd vår metode høyere ytelse enn de siste to metoder, en nøyaktighet på 76%, omtrent 5-7% høyere (Lin07: 71%; Garman08: 69%), en sensitivitet på 65%, ca 3-24% høyere (Lin07: 62%; Garman08: 41%), og en spesifisitet på 93%, ca 5-14% høyere (Lin07: 79%; Garman08: 88%). For Barrier datasettet, oppnådd vår metode en nøyaktighet på 74%, en sensitivitet på 72%, en spesifisitet på 84%, som er litt mindre enn den Barrier06 resultater (nøyaktighet: 80%; sensitivitet: 75%; spesifisitet: 85%) ved anvendelse av dette datasettet og de resulterende Barrier06 signaturer. Men det er mye høyere enn et annet resultat ved å bruke den samme datasettet og en annen Wang04 signatur (nøyaktighet: 67%). For GSE5206 datasett som ikke har noen spesifikk oppfølging tid oppnådde vår metode den laveste, men fortsatt rimelig nøyaktighet (68%). Det er også mye lavere enn de nøyaktigheter som er oppnådd ved den opprinnelige fremgangsmåter ifølge foreliggende oppfinnelse ved hjelp av denne datasettet (90%; Garman08 metoden). Men vi bemerket at dette Garman08 metoden, når den brukes til et annet datasett (tysk datasettet), bare oppnådd 69% nøyaktighet. Den om lag 21% forskjell på Garman08 metode i ulike datasett kan foreslå en potensiell oversittende problemet med sin klassifikator eller en uønsket høy variasjon i ytelsen. I motsetning til våre metoder hatt mye mindre variasjon (8% forskjell), med 74-76% nøyaktighet for tidlig (I eller II) svulster i Barrier og tyske datasett, og 68% nøyaktighet for stadium I-IV svulster i GSE5206 datasett. De tilsvarende AUC verdier av vår metode var også lik på tvers av alle tre datasett. Tysk – 79%, Barrier – 79% og GSE5206 – 70%
Sammenligningen av AUC (A) og nøyaktighet (B) for tre datasett: Forskjellige fargevalg og form tilsier tre uavhengige datasett (orange sirkel: Tysk datasett, blå diamant: Barrier datasett, grønn firkant: GSE5206 datasettet). TX_Y metoder (X: topp 500 eller 1000 MDMS, Y: 10 eller 18 referanse svulster eller Leave-One-Out-metoden (Loo)). De fylte symbolene angir gjennomsnittet av AUC; Sammenligningen av nøyaktigheter (C), følsomheter (D) og særegenheter (E) for prognose forutsigelse mellom vår fremgangsmåte og foreliggende fremgangsmåter med samme datasett, inkludert loo resultatene fra Lin07 (L) [3], Garman08 (G) [42] , Barrier06 (B) [5], og også den Barrier06 resultater oppnådd ved anvendelse av 34 tumorer (TS34), 18 tumorer (TS18) eller 10 tumorer (TS 10) som treningssettet. De fylte symboler er middelverdien. * Punktene i den stiplede sirkelen er resultatene fra de metoder som ble validert ved hjelp av beslutningstakere oppdaget av en og samme datasett.
For å verifisere prøvene størrelse innvirkning på prediksjon metoder, mindre prøver størrelse ved 34, 18, 10 er blitt utført. Den midlere verdi og området (minimum og maksimum verdi) av nøyaktighet, følsomhet og spesifisitet AUC er angitt i hvert enkelt tilfelle (fig 6, den detaljerte informasjonen i Tabell S3, og ROC-kurven i fig S3).
Validering med 34 treningsprøver.
Vi tilfeldig plukket opp antall prøver fra hver datasettet, hvor n = 34, som trening satt til å forutsi tilbakefall risiko for resten svulster. For de tyske og Barrier datasett, forestillingene er mye høyere enn resultatene i LOO validering. I detalj, for tysk datasettet, oppnådd vår metode en nøyaktighet på 78%, AUC på 80%, en sensitivitet på 80%, og en spesifisitet på 76%. For Barrier datasett, det oppnås høyere nøyaktighet på 81% og spesifisitet på 86%, og mindre følsomhet på 78% enn andre metoder (bruk Barrier signatur: nøyaktighet: 80%; sensitivitet: 91%, spesifisitet: 72%; hjelp Wang04 signatur: nøyaktighet: 70%). I tillegg er foreliggende fremgangsmåte bare hadde mye mindre variabilitet (13% for barrieresettet) enn den til Barrier06 fremgangsmåten (31%). For GSE5206 datasett, er ytelsen lik med loo validering, en nøyaktighet på 70%, AUC på 66%, en sensitivitet på 74% og en spesifisitet på 68%.
Validering med 18 eller 10 opplæring prøver.