PLoS ONE: Nøyaktig og pålitelig Cancer klassifikasjon basert på Probabilistic slutning av hovedbane Activity

Abstract

Med bruk av high-throughput teknologier for måling av genom-wide uttrykk profiler, et stort antall metoder har blitt foreslått for oppdager diagnostiske markører som kan nøyaktig diskriminere mellom forskjellige klasser av en sykdom. Men faktorer som den lille størrelsen på utvalget av typiske kliniske data, iboende støyen i high-throughput målinger, og heterogenitet på tvers av ulike prøver, ofte gjør det vanskelig å finne pålitelige genmarkører. For å overvinne dette problemet, har flere studier foreslått bruk av spredningsveier baserte markører, i stedet for individuelle genetiske markører, for å bygge klassifikator. Gitt et sett med kjente veier, disse metodene anslår aktivitetsnivået i hver vei med å sammenfatte uttrykket verdiene av sine medlems gener, og bruke veien aktiviteter for klassifisering. Det er blitt vist at sti-baserte klassifiserere gir vanligvis mer pålitelige resultater sammenlignet med tradisjonelle gen-baserte classifiers. I denne artikkelen foreslår vi en ny klassifisering metode basert på sannsynlighets slutning av hovedbane aktiviteter. For en gitt prøve, beregner vi log-sannsynlighetsforhold mellom ulike sykdoms fenotyper basert på ekspresjonsnivået av hvert gen. Aktiviteten av en gitt bane blir deretter utledes ved å kombinere de log-sannsynlighetsforhold av bestanddels gener. Vi bruker den foreslåtte metoden til klassifisering av brystkreft metastaser, og viser at den oppnår høyere nøyaktighet og identifiserer mer reproduserbare spredningsveier markører i forhold til flere eksisterende sti aktivitetsslutningsmekanismer

Citation. Su J, Yoon BJ, Dougherty ER (2009) Nøyaktig og pålitelig Cancer klassifikasjon basert på Probabilistic slutning av Pathway aktivitet. PLoS ONE 4 (12): e8161. doi: 10,1371 /journal.pone.0008161

Redaktør: Gustavo Stolovitzky, IBM Thomas J. Watson Research Center, USA

mottatt: 18 september 2009; Godkjent: 13 november 2009; Publisert: 07.12.2009

Copyright: © 2009 Su et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Edward R . Dougherty støttes delvis av National Science Foundation, CCF-0634794. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

innføringen av rimelige mikroarray-teknologi for måling av genom ekspresjonsprofiler har ført til utvikling av tallrike fremgangsmåter for å skille mellom forskjellige klasser av en kompleks sykdom, slik som kreft, ved transkriptomet analyse [1] – [4 ]. Spesielt har det vært betydelige forskningsinnsats for å identifisere differensielt uttrykte gener på tvers av ulike fenotyper [5] – [9], som kan brukes som diagnostiske markører for klassifisering av sykdomstilstander eller forutsi utfallet av medisinske behandlinger [1] – [4] , [10] – [12]. Men å finne pålitelige genmarkører er en utfordrende problem, og flere nyere studier har stilt spørsmål ved påliteligheten av mange klassifikasjonsapparater basert på individuelle genmarkører [13] – [19]. Den lille prøvestørrelse på typiske kliniske data som brukes til å bygge en klassifikator er en av de viktigste faktorene som gjør dette problemet vanskelig. Vi har ofte å søke etter et lite antall gode markørgener blant tusenvis av gener basert på et begrenset antall prøver, noe som gjør resultatene av tradisjonelle funksjonen seleksjonsmetoder ganske uforutsigbare [20]. Den iboende målestøy i high-throughput eksperimentelle data og heterogenitet på tvers av prøver og pasienter gjøre problemet enda mer formidabel.

En mulig måte å løse dette problemet er å tolke uttrykket data på nivået av funksjonelle moduler, slik som signalveier og molekylære komplekser, i stedet for på nivået av enkeltgener. Faktisk er en av svakhetene ved mange gen-basert klassifiseringsmetoder at markørgener er ofte valgt uavhengig av hverandre, selv om deres funksjonelle produkter kan samhandle med hverandre. Derfor kan de valgte genmarkører inneholde overflødig informasjon, og de kan ikke synergistisk forbedrer den generelle klassifisering ytelsen. Vi kan lindre dette problemet ved å i fellesskap analysere uttrykket nivåer av grupper av funksjonelt relaterte gener, som kan fås basert på transkriptomet analyse [21] – [23], gå kommentarer [24], eller andre kilder. Faktisk er flere studier [23], [25] – [28] har vist at reaksjonsveien markører er mer reproduserbar sammenlignet med enkelt genmarkører og de kan gi viktige biologiske innsikt i de underliggende mekanismer som fører til forskjellige sykdoms fenotyper. Videre sti-baserte classifiers ofte oppnå tilsvarende eller bedre klassifisering ytelse sammenlignet med tradisjonelle gen-basert classifiers.

For å bruke pathway basert markører i klassifisering, trenger vi en måte å antyde aktiviteten til en gitt bane basert på uttrykket nivåer av konstituerende gener. Nylig har et antall sti aktivitet slutningsfremgangsmåter er blitt foreslått for dette formål. For eksempel, Guo et al. [25] foreslått å bruke gjennomsnittlig eller median uttrykk verdi av medlems gener å antyde veien aktivitet. Tomfohr et al. [28] og Bild et al. [23] anvendes den første hovedbestanddelen av ekspresjonsprofilen av medlems gener for å beregne aktiviteten av en gitt bane. Mer nylig, Lee et al. [26] foreslått en metode som spår veien aktivitet ved hjelp av bare en undergruppe av gener i vei, kalte tilstanden-responsive gener (CORGs), som har kombinert uttrykk nivåer nøyaktig kan diskriminere de fenotyper av interesse.

I dette papir, foreslår en ny fremgangsmåte for probabilistic slutning av spredningsveier aktiviteter. For en gitt vei, anslår den foreslåtte fremgangsmåte log-sannsynlighetsforhold mellom ulike fenotyper basert på ekspresjonsnivået av hvert medlem genet. Aktivitetsnivået på veien er så utledes ved å kombinere de log-likelihood prosenter av gener som hører til veien. Vi bruker vår metode for klassifisering av brystkreft metastaser, og vise at det kan oppnå høyere nøyaktighet i forhold til flere tidligere pathway baserte tilnærminger. Videre viser vi at den foreslåtte veien aktivitet slutning metoden kan finne mer reproduserbare spredningsveier markører som beholder diskriminerende effekt på tvers av ulike datasett.

Metoder

Datasett

Vi innhentet to uavhengige brystkreft datasett fra store genuttrykkstudier av Wang et al. [11] (betegnet som den «USA» datasett i dette arbeid) og van’t Veer et al. [10] (omtalt som «Nederland» datasettet). Wang et al. Datasett [11] inneholder genuttrykk profiler av 286 brystkreftpasienter fra USA, der metastaser ble oppdaget i 107 av dem mens de resterende 179 var metastasefritt. Den andre datasettet studert av van’t Veer et al. [10] inneholder genuttrykk profiler av 295 pasienter fra Nederland, der 79 hadde metastaser og 216 var metastasefritt. I denne studien har vi ikke anser oppfølgingen tid eller forekomst av fjernmetastaser.

For å få det sett av kjente biologiske pathways, vi henvist til MSigDB (Molecular Signaturer Database) versjon 2.4 (oppdatert april 7, 2008) [21]. Vi har lastet ned de kanoniske trasé i C2 kuratert gensettene, som inneholder 639 gensettene innhentet fra flere pathway databaser, herunder KEGG (Kyoto Encyclopedia of gener og genomer) database [29] og GenMAPP [30]. Disse gensettene er utarbeidet av domene eksperter og gir de kanoniske representasjoner av biologiske prosesser. Settet av trasé hentet fra MSigDB dekker mer enn 5000 forskjellige gener, hvor 3271 av dem kan bli funnet i begge microarray plattformer som brukes av de to brystkreft genuttrykkstudier i [10], [11].

probabilistic Inference av hovedbane aktivitet

for hver vei, må vi først identifisert de genene som var inkludert i uttrykket profiler i de to brystkreft datasett. Genene som ikke ble inkludert i disse datasettene ble fjernet fra genet satt for en gitt vei. Vurdere en sti som inneholder gener etter fjerning genene hvis uttrykk verdier var ikke tilgjengelig. Gitt en prøve som inneholder uttrykket nivåer av medlems gener, anslår vi veien aktivitet som følger (1) hvor er log-likelihood ratio (LLR) mellom de to fenotyper av interesse for genet. Den LLR er gitt ved (2) hvor er den betingede sannsynlighetstetthetsfunksjonen (PDF) av uttrykket nivået av genet under fenotype 1, og er betinget PDF henhold fenotype 2. Forholdet er en sannsynlighets indikator som forteller oss hvilken fenotype er mer sannsynligvis basert på ekspresjonsnivået av th medlem genet. Vi kombinerer bevis fra alle medlems gener å utlede generelle pathway aktivitet. Den veien aktivitet kan tjene som et diskriminerende poengsum for klassifisering av prøven i ulike fenotyper basert på aktiveringsnivået til det gitte reaksjonsveien. Konseptuelt, kan vi se denne tilnærmingen som beregne relativ støtte for de to forskjellige fenotyper ved hjelp av en Naive Bayes modell [31], [32] basert på genuttrykk profilen til veien.

For å kunne beregne LLR verdi, må vi anslå PDF for hver fenotype. Vi antar at genekspresjonen nivå av genet under fenotype følger en gaussisk fordeling med middelverdi og standardavvik. Disse parameterne ble estimert basert på alle tilgjengelige prøver som svarer til fenotype. De estimerte PDF-filer kan deretter brukes til å beregne log-likelihood ratio. I praktisk bruk, vi ofte ikke har nok treningsdata for pålitelig estimering av PDF-filer og. Dette kan gjøre beregningen av LLRs følsomme overfor små endringer i genekspresjon profilen. For å unngå dette problemet, normal vi som følger (3) hvor og er gjennomsnitt og standardavvik på tvers av alle prøvene, henholdsvis. Figur 1 viser den generelle prosedyren for dedusere aktiviteten til en gitt bane.

For hvert gen i veien, anslår vi de betingede sannsynlighetstetthetsfunksjoner (PDF-filer) under forskjellige fenotyper. Basert på estimert PDF-filer, bearbeider vi uttrykket verdiene av medlems gener i log-likelihood ratio (LLRs) for å få en LLR matrisen fra genuttrykk matrise. Den LLR matrisen er da normalisert, og veien aktivitet utledes ved å kombinere de normaliserte LLRs av sine medlems gener.

diskriminerende Power of Pathway Markører

For å sammenligne den foreslåtte veien aktivitet slutning ordningen med andre eksisterende metoder, utførte vi følgende eksperimenter. I vårt første forsøk, valgte vi de 50 forskjellig uttrykt trasé ved hjelp av metoden foreslått av Tian et al. [22]. For å vurdere muligheten for en gitt bane i å skille mellom ulike fenotyper, Tian et al. beregner -Test statistiske score for alle medlems gener og ta deres gjennomsnittlige å beregne en aggregert poengsum som kan tjene som en indikator på veien er diskriminerende makt. Etter forhåndsscreening de 50 beste banene som har de største absolutte verdier, beregnet vi aktiviteten poengsum for hver av disse banene som bruker den foreslåtte slutning metode samt andre metoder. De oppnådde pathway aktivitet scorene ble så brukt til å beregne -Test statistikken scorer for hver vei markør. . De -Test score ble brukt for å vurdere den diskriminerende makt pathway markører og å sammenligne ulike slutningsmekanismer

I dette arbeidet, sammenlignet vi fem forskjellige pathway aktivitet slutningsmekanismer: gjennomsnittet og median metoder [25], PCA-baserte metoden [23], [28], den Corg basert metode [26], og den slutning metoden foreslått i dette dokumentet. For gjennomsnitts, median og Corg-baserte metoder, beregnet vi poengsummen ved gjennomsnitt de -Test score til uttrykket verdiene av medlems gener. For PCA-basert metode, beregnet vi som gjennomsnittet av

absolutte

-test score av genuttrykket verdier, siden PCA kan selvsagt kombinere uttrykk verdier uavhengig av om de er positivt korrelert eller negativt korrelert med fenotype av renter. For vår foreslåtte metoden, beregnet vi ved gjennomsnitt de -Test score til LLRs av medlems genene, siden vi anslo pathway aktivitet scorer basert på LLRs i stedet for de opprinnelige uttrykket verdiene.

Vi evaluerte også robustheten hver slutning metode for å identifisere gode spredningsveier markører, ved å rangere trasé ved hjelp av én av de to brystkreft datasett, og deretter vurdere diskriminerende effekt av trasé basert på den andre datasett. Igjen ble -Test statistikk over veien aktivitets score brukes til å sammenligne ulike slutningsmekanismer.

I vårt andre forsøk, vi beregnet de -Test statistiske score for alle 639 trasé uten forhåndsscreening, og sammenlignet effekten av ulike pathway aktivitet slutningsmekanismer basert på de beregnede score. Som i det første eksperimentet, vurderte vi også robustheten hver slutning metode for å finne effektive spredningsveier markører, ved å rangere trasé i henhold til de -Test score beregnet ved hjelp av én av datasettene, og deretter vurdere deres diskriminerende effekt på den andre datasett.

Evaluering av Classification ytelse

for å vurdere klassifiseringen ytelsen til den foreslåtte veien aktivitet slutning metode, vi gjort følgende kryssvalideringsforsøk.

for

innen -dataset eksperimenter

, prøvene i et datasett ble tilfeldig delt i fem undergrupper av lik størrelse, hvor prøvene i fire av disse delmengder ble brukt for trening av klassifikator, og de resterende delmengde ble anvendt for å vurdere ytelsen klassifisering. Dette har blitt gjentatt ved å bruke hver undergruppe som testsettet for å oppnå mer pålitelige resultater. Treningssettet ble deles igjen opp i tre like store delmengder. To tredjedeler ble brukt for rangering veien markører og bygge klassifikator (den «markør-evaluering» datasettet), og en tredjedel av treningssettet ble brukt for funksjonsvalg (den «-funksjonen-utvalget» datasettet). Alle prøvene i treningssettet ble brukt for å estimere PDF-filer av genuttrykket verdier under forskjellige fenotyper. Å bygge klassifikator, vi evaluert hver vei basert på diskriminerende kraft av sin virksomhet score for å klassifisere prøvene. Trasé ble sortert i stigende rekkefølge av økonomiske verdier. Etter vurdering trasé, bygget vi klassifikator, enten basert på logistisk regresjon eller LDA (lineær diskriminant analyse), som følger. Basert på den markør-evalueringen datasett, vi først konstruert sortereren med bare en funksjon, nemlig veien markør med lavest -verdi. Utførelsen av klassifikator ble deretter målt ved å beregne AUC (arealet under ROC Curve) [33] på funksjonsvalg datasett. Deretter utvidet vi sett av funksjoner ved å velge veien markør med lavest -verdi blant de resterende veier. En ny klassifikator ble trent med de valgte funksjonene på markør-evaluering datasett og klassifisering ytelse ble igjen vurdert på funksjonsvalg datasett. Den ekstra pathway markør ble holdt i funksjonssett hvis AUC økte, og det ble fjernet på annen måte. Vi gjentok fremgangsmåten ovenfor for alle spredningsveier markører for å optimalisere klassifikator. Utførelsen av den optimaliserte klassifikator ble evaluert ved å beregne AUC på testdatasettet. Disse eksperimentene har blitt gjentatt for 100 tilfeldige skillevegger av hele datasettet. Vi rapporterer AUC, i gjennomsnitt over 500 eksperimenter, som den generelle ytelsen mål på klassifiseringen metoden for hånden. Den generelle fremgangsmåten i-datasettet eksperiment er vist på fig. 2A.

(A) I løpet-datasett eksperimenter, en del av treningssettet, omtalt som markør-evalueringen sett, brukes for rangering av spredningsveier markører i henhold til deres diskriminerende makt og bygge klassifikator. Den optimale sett av funksjoner er valgt basert på resten av treningssettet, omtalt som den funksjonsvalg sett. Utførelsen av den resulterende klassifikator evaluert ved hjelp av testdatasettet. (B) i kryss datasett eksperimenter, er en av de datasettene som brukes til å finne den optimale sett av funksjoner, og den andre datasettet brukes til å bygge en klassifikator basert på forhåndsvalgte funksjoner og å vurdere klassifikator.

for å vurdere reproduserbarheten av veien markørene på tvers av ulike datasett, vi utførte

cross-datasett eksperimenter

, hvor man datasett ble brukt for å velge den veien markører, og den andre datasettet ble brukt for å bygge klassifikator basert på de valgte markører og evaluere ytelsen. Først valgte vi den optimale sett av funksjoner (dvs. sti markører) basert på en datasettet, ved å optimalisere AUC beregning. Prosessen for å velge funksjon sett var lik den som brukes i innenfor-datasett eksperimenter. Prøvene i det andre datasettet ble delt inn i fem undergrupper av lik størrelse. Fire femtedeler av prøvene ble brukt til å trene klassifikator hjelp av utvalgte funksjoner, og en femtedel av prøvene ble brukt til å evaluere resultatene av den konstruerte klassifikator. Vi gjentok dette eksperimentet ved hjelp av hvert av de fem undergrupper som testsettet og ved å bruke resten for opplæring. Den ovennevnte eksperiment ble gjentatt i 100 tilfeldige skillevegger av hele datasettet, og den gjennomsnittlige AUC over 500 forsøk ble rapportert som den resultatmålet. Det er viktig å merke seg at funksjonsvalg blir utført utelukkende på grunnlag av det første datasettet. I løpet av de kryssvalideringsforsøk ved bruk av den andre datasettet, blir treningssettet (som består av fire femtedeler av prøver i det samme datasettet) ganske enkelt brukes til å bygge klassifikator basert på den forhåndsvalgte sett av funksjoner. Det overordnede målet med disse kryss datasett eksperimenter er å vurdere reproduserbarheten av funksjonene, valgt å bruke den foreslåtte veien aktivitet slutning ordningen, på tvers av ulike datasett. Figur 2B illustrerer den totale prosessen av kryss-datasett eksperiment.

For å sammenligne den foreslåtte metoden med andre eksisterende metoder, vi utførte beskrevet innenfor-datasett eksperimenter og cross-datasett eksperimenter med andre pathway aktivitet slutningsmekanismer ( gjennomsnitt, median, PCA, og Corg). I tillegg, vurderte vi også ytelsen av et gen basert klassifikator som bruker individuelle gener som diagnostiske markører, etter en tilsvarende fremgangsmåte. I denne studien inkluderte vi de 50 pathway markørene i innledende markør sett, som ble valgt i henhold til fremgangsmåten i Tian et al. [22] som utdypet i forrige ledd. For genet baserte klassifikator, vi inkludert de 50 genmarkører med lavest -verdier i den innledende markør sett, for å holde det maksimale antall funksjoner identiske.

Computing området under ROC Curve

i dette arbeidet evaluert vi resultatene av en klassifikator basert på AUC (arealet under ROC Curve). AUC metriske har vært mye brukt for å vurdere klassifiseringsmetoder, siden det kan gi en nyttig sammendrag statistikk for klassifisering ytelse over hele spekteret av spesifisitet og sensitivitet verdier. For å beregne AUC, vedtok vi metoden foreslått i [33]. For en gitt klassifikator, la være utgangen fra sorteringsapparatet for positive prøver, og la det bli utgang for negative prøver. Deretter blir AUC metrisk for sorter gitt ved: (4) der er indikatoren funksjon. AUC er faktisk den empiriske sannsynligheten for at en tilfeldig valgt positiv prøve er plassert høyere enn et tilfeldig valgt negativ prøve. Det kan vises at AUC tiltaket tilsvarer Mann-Whitney-test (også kalt Wilcoxon rank-sum test) statistikk.

Resultater

Probabilistic Pathway aktivitet Inference Forbedrer diskriminerende Strøm av Pathway markører

Vi har evaluert diskriminerende makt pathway markører, hvor veien aktivitetene ble utledet ved hjelp av den foreslåtte metode samt andre slutningsmekanismer. For effektiv sammenligning av den foreslåtte slutning metoden med andre eksisterende metoder, gjennomførte vi lignende eksperimenter som de som utføres i [26] for å vurdere diskriminerende kraft sti markører. For hver brystkreft datasett, må vi først brukte metoden for Tian et al. [22] for å velge de 50 beste banene blant 639 trasé hentet fra MSigDB [21] (se Methods). Vi beregnet det faktiske aktivitets score av de 50 beste banene basert på hver bane aktivitet slutning ordningen, og rangert trasé i henhold til deres diskriminerende makt. Figur 3 viser diskriminerende effekt av de beste banene, der -aksen tilsvarer antall topp trasé som ble vurdert, og -aksen viser gjennomsnittlig absolutt -score av de beste banene. Vi sammenlignet med fem pathway aktivitet slutningsmetoder, nemlig den Corg basert metode [26], PCA-baserte metoden [23], [28], bety og median metoder [25], og den LLR-baserte metoden foreslått i dette dokumentet. Til sammenligning, vurderte vi også diskriminerende effekt av de 50 enkelt genmarkører, som ble valgt blant 3,271 gener som omfattes av 639 trasé brukt i denne studien. Resultatene oppnådd fra Nederland brystkreft datasett [10] og brystkreft datasettet USA [11] Resultatene er vist i fig. 3A og fig. 3B, respektivt. Som vi kan se fra disse resultatene, den foreslåtte veien aktivitet slutning ordningen, som beregner pathway aktivitet poengsum ved å kombinere de log-likelihood ratio av medlems gener, betydelig forbedret kraft pathway markører for å skille mellom metastatiske prøver og ikke-metastaserende prøver . Interessant, de beste genmarkører ofte sammenlignet gunstig skoleveien markører. På Nederland datasettet, uttrykket nivåer av de beste genene hadde større diskriminerende strøm enn pathway aktivitet score utledes av Corg, PCA, mener, og median metoder. Bare pathway aktivitet score anslått av den foreslåtte metoden var mer diskriminerende enn genuttrykket verdier. På USA datasettet, genmarkører var mer diskriminerende enn sti markører basert på gjennomsnitt, median og PCA metoder, men mindre diskriminerende i forhold til skoleveien markører basert på den foreslåtte metoden og Corg metoden.

(A) Mean absolutte -score av de beste merkene for Nederland brystkreft datasett. Pathway aktiviteter er utledes ved hjelp av fem forskjellige metoder: Corg, PCA, gjennomsnitt, median, og LLR (foreslåtte metoden). Den diskriminerende effekt av de beste genmarkører ble anslått for sammenligning (merket som «Gene»). (B) Gjennomsnittlig absolutt -score av de beste markører for USA brystkreft datasett. (C) Markørene ble rangert basert på Nederland datasett og gjennomsnittlig absolutt -score av de beste merkene ble beregnet basert på USA datasett. (D) Markørene ble rangert basert på USA datasett og gjennomsnittlig absolutt -score av de beste merkene ble beregnet på grunnlag av Nederland datasett.

For å vurdere reproduserbarheten av spredningsveier markører, rangert vi markører basert på en datasettet og evaluert deres gjennomsnittlig absolutt -score hjelp av andre datasett. Figur 3C viser resultatet for rangering av markører basert på Nederland datasett og beregne gjennomsnittlig absolutt -score av de beste merkene som bruker USA datasett. På tilsvarende måte, fig. 3D viser resultatet for rangering av markører basert på USA datasett og beregne gjennomsnittsskår av de beste banene ved hjelp av Nederland datasett. Disse resultatene viser tydelig at veien markører valgt basert på den foreslåtte slutning metode beholde betydelig større diskriminerende effekt på tvers av ulike datasett. Faktisk, både på tvers av datasett eksperimenter, de pathway aktivitet score beregnet av LLR metoden var mye mer diskriminerende enn aktivitets score beregnet av andre slutningsmekanismer samt uttrykk verdiene av de beste genetiske markører. Til sammen disse resultatene antyder at den foreslåtte metoden kan finne bedre diagnostiske markører med høyere reproduserbarhet. Merk også at enkelt genmarkører, som hadde betydelig større diskriminerende makt i et datasett (se fig. 3A og 3B), mistet det meste av diskriminerende kraft i et annet datasett.

Neste, vi utførte lignende eksperimenter for alle 639 trasé og alle 3,271 gener som omfattes av disse banene, uten noen forhåndsscreening (se Methods). Resultatene av disse forsøk er vist i fig. 4, hvor den -aksen angir forholdet av de veier som ble brukt for å beregne den midlere absolutte -score og -aksen tilsvarer den forventede gjennomsnittlige absolutte -score av de øverste veier. Den diskriminerende effekt av veien markører og enkelt genmarkører på Nederland datasettet er vist i fig. 4A, og den diskriminerende kraften av markører på USA datasettet er vist i fig. 4B. Resultatene oppnådd fra kryss-datasett eksperimenter Resultatene er oppsummert i fig. 4C og 4D. På fig. 4C, markørene ble rangert etter sin diskriminerende effekt på Nederland settet, og deres gjennomsnittlige absolutte -scores ble beregnet ved hjelp av USA datasett. Resultatene for klassifisering markørene basert på den USA datasett, og å beregne resultatet ved å bruke Nederland settet er vist i fig. 4D. Alle disse forsøkene viser at veien aktivitets score målt ved den foreslåtte LLR metoden er mye mer diskriminerende enn resultatet beregnet av andre slutningsmekanismer og også uttrykk verdier av enkeltgener. Videre kan vi se at veien markører som ble valgt basert på LLR-baserte pathway aktivitet score er mer reproduserbar og deres aktivitet score beholde betydelig mengde diskriminerende evne tvers uavhengige datasett

(A) Mean absolutt. – score på de beste markører for Nederland datasett. (B) Gjennomsnittlig absolutt -score av de beste markører for USA datasett. (C) Markørene ble rangert basert på Nederland datasett og gjennomsnittlig absolutt -score av de beste merkene ble beregnet basert på USA datasett. (D) Markørene ble rangert basert på USA datasett og gjennomsnittsskår av de beste merkene ble beregnet på grunnlag av Nederland datasett.

Forslag Pathway aktivitet Inference Ordningen fører til mer nøyaktig og pålitelig Classifiers

Vi brukte den foreslåtte veien aktivitet slutning ordning for klassifisering av brystkreft metastasering, for å vurdere nytten i å skille ulike kreft fenotyper. For en rettferdig og effektiv sammenlignet med andre inferens ordninger, vi igjen vedtatt en lignende eksperimentelle oppsettet som ble brukt i [26] for å evaluere ytelsen til Corg basert metode, en state-of-the-art pathway aktivitet slutning ordningen som kun bruker betingelsen-responsive gener i en gitt bane. For hver brystkreft datasett, utførte vi fem-fold kryssvalideringsforsøk, der fire femtedeler av prøvene ble brukt til å konstruere klassifikator og de resterende en femtedel av prøvene ble brukt for å vurdere klassifiseringen ytelse (se Methods). Mens konstruere klassifikator, vi brukte LLR-baserte veien aktivitet slutning metode for vurdering av diskriminerende effekt av hver bane markør og å velge et optimalt sett av markører som skal brukes i klassifisereren. Den konstruerte klassifiserer også brukt sti aktivitets score beregnet av den foreslåtte slutning metode for å skille metastatisk brystkreft prøver fra ikke-metastaserende prøver. I våre forsøk, definert vi første sett av hovedbane markører som de 50 beste banene valgt å bruke metoden ved Tian et al. [22] (se Methods). Vi vurderte klassifiseringen ytelsen med AUC beregning. Vi gjentok det fem ganger kryssvalidering for 100 tilfeldige partisjoner på den gitte datasettet, og i gjennomsnitt de resulterende 500 AUC for å få en pålitelig ytelse mål på klassifiseringen metoden. Å sammenligne klassifisering resultatene for ulike slutningsmekanismer, vi gjentok også tidligere eksperimenter med den Corg, PCA, mener, og median metoder for inferring veien aktiviteter. Til sammenligning, vurderte vi også ytelsen av genet basert klassifikasjon metode. Vi inkluderte de 50 beste diskriminerende gener i den innledende markør sett, for å holde maksimalt antall funksjoner identiske for alle klassifiseringsmetoder.

Figur 5 oppsummerer resultatene av kryssvalideringsforsøk. I det første sett av eksperimenter brukte vi logistisk regresjon for klassifisering av prøvene. Klassifiserings Resultatene av ulike tilnærminger basert på logistisk regresjon er vist i fig. 5A. De to søylediagrammer på venstre side av fig. 5 svarer til de to i-datasett eksperimenter basert på den USA brystkreft datasettet (merket som «USA») og Nederland datasettet (merket som «Nederland»), henholdsvis. I disse innenfor-datasett eksperimenter, har den første sett av de 50 markørene er valgt å bruke hele datasettet, for å redusere effekten av følsomhet i markør valg når man sammenligner ulike sti-baserte metoder. De kryssvalideringsforsøk har blitt utført basert på den valgte første sett av markører (se Methods). Som vi kan se i disse søylediagrammer, oppnådde den foreslåtte metoden den høyeste klassifiseringen nøyaktighet blant alle metoder, i begge forsøkene. Den Corg basert metode sammenlignet gunstig andre sti-baserte metoder, men bedre enn ved den foreslåtte metoden. Vi kan også se at genet baserte klassifikator utført veldig bra i løpet av datasett eksperimenter, som ikke er overraskende hvis vi tenker på den høye diskriminerende effekt av de beste genmarkører observert i fig. 3A og 3B.

Baren diagrammer viser gjennomsnittlig AUC for ulike klassifiseringsmetoder. Fem pathway-baserte metoder som bruker forskjellige pathway aktivitet inferens ordninger (LLR, Corg, PCA, mener, og median) og et gen-basert metode ble sammenlignet. (A) Classifiers ble konstruert basert på logistisk regresjon. Resultater av i-datasett eksperimenter basert på USA og Nederland datasett er vist i de to listene til venstre. De to listene til høyre viser resultatene av de tverr datasett eksperimenter. (B) Ytelsen til ulike klassifiseringsmetoder basert på LDA (lineær diskriminant analyse).

Resultatene av kryss-datasett eksperimentene er vist i de to stolpediagrammer på høyre side av fig. 5A. Diagrammet merket som «USA-Nederland» viser resultatene for å velge de funksjonene du bruker USA datasettet, og opplæring /evaluering av klassifiserings hjelp av Nederland datasett. 5A.

Legg att eit svar