PLoS ONE: Robust Valg av kreft overlevelse signaturer fra høy gjennomstrømming Genomisk data Bruke todelt Delsampling

Abstract

Identifisere relevante underskrifter for klinisk pasient utfallet er en grunnleggende oppgave i high-throughput studier. Signaturer, sammensatt av funksjoner som mRNA, mirnas, SNPs eller andre molekylære variabler, er ofte ikke-overlappende, selv om de har blitt identifisert fra lignende eksperimenter vurderer prøver med samme type sykdom. Mangelen på en konsensus er hovedsakelig på grunn av det faktum at utvalgene er langt mindre enn antall kandidat funksjoner som skal vurderes, og derfor signatur utvalg lider av stor variasjon. Vi foreslår en robust signatur utvelgelsesmetode som forsterker utvalg stabiliteten straffet regresjon algoritmer for å forutsi overlevelse risiko. Vår metode er basert på en samling av flere, eventuelt ustabile, signaturer oppnådd med forbehandlet Lasso algoritme anvendt på tilfeldig (intern) delprøver av en gitt gruppedata, hvor den aggregerte signatur er krympet ved en enkel terskel strategi. Den resulterende metoden, RS-PL, er konseptuelt enkel og lett å bruke, avhengig av parametere automatisk innstilt ved kryssvalidering. Robust signatur valg med RS-PL opererer innenfor en (ekstern) delsampling rammeverk for å estimere seleksjons sannsynlighetene for funksjoner i flere studier med RS-PL. Disse sannsynligheter blir brukt for å identifisere pålitelige funksjoner som skal inngå i en signatur. Vår metode ble evaluert på microarray datasett fra neuroblastom, lunge adenokarsinom og brystkreftpasienter, trekke robuste og relevante underskrifter for å forutsi overlevelse risiko. Signaturer innhentet av vår metode oppnådd høy prediksjon ytelse og robusthet, jevnt de tre datasettene. Gener med høy utvalg sannsynlighet i våre robuste signaturer har blitt rapportert som kreft-relevant. Bestilling av Predictor koeffisienter forbundet med signaturer var godt bevart på tvers av flere studier med RS-PL, demonstrere evnen vår metode for å identifisere en overførbar konsensus signatur. Programvaren er tilgjengelig som en R pakke RSIG på CRAN (https://cran.r-project.org)

Citation. Lee S, Rahnenführer J, Lang M, De Preter K, MESTDAGH P, Koster J, et al. (2014) Robust Valg av kreft overlevelse signaturer fra høy gjennomstrømming Genomisk data Bruke todelt Delsampling. PLoS ONE 9 (10): e108818. doi: 10,1371 /journal.pone.0108818

Redaktør: Ioannis P. Androulakis, Rutgers University, USA

mottatt: 13 desember 2013; Godkjent: 05.09.2014; Publisert: 08.10.2014

Copyright: © 2014 Lee et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Forfatterne erkjenner støtte fra Deutsche Forschungs-Gemeinschaft (DFG) innenfor Collaborative Research Center SFB 876 (https://sfb876.tu-dortmund.de) «gi informasjon ved ressursbegrensede Analysis», prosjekter A3 og C1. L. Varesio ble støttet med tilskudd fra den italienske Association for Cancer Research, den ENCCA nettverk, det italienske helsedepartementet. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Identifikasjon av relevante funksjoner fra store datasett har vært et fokus for mange forskningsfelt i lang tid. Med utbruddet av high-throughput genomisk profilering teknologier, er robusthet blir oppfattet som en viktig faktor i funksjonsvalg [1], [2]. Generelt sett er en funksjon robust dersom det er valgt ved en fremgangsmåte alltid av kullet sammensetning, forutsatt at alle prøvene kommer fra den samme populasjonen fordeling. Dersom en algoritme identifiserer mange av disse robuste funksjoner, så algoritmen kan betraktes som robust i tillegg. Robusthet er en kritisk faktor, spesielt i kliniske studier, når formålet er enten å identifisere sentrale aktører i de underliggende biologiske systemer, eller å utvikle klinisk anvendelige tester.

Dessverre kliniske studier er vanligvis utføres uten en eksplisitt vurdering av robusthet i sin eksperimentelle design. Et typisk eksempel er å utføre funksjonen valg på en enkelt partisjon av tilgjengelige gruppedata, deretter for å avgjøre hvor vellykket valg med resten av data (ofte kalt som et testsett). Når utvalgsstørrelsene er små som i de fleste kliniske studier, kan en slik praksis føre til identifisering av ulike signaturer fra flere studier som ser helt greit på sin egen evaluering, men er ikke vellykket, når de brukes på data fra andre studier.

i denne utredningen foreslår en algoritme for å håndtere de nevnte problemene, basert på godt studert ideer om delsampling [3] og aggregering [4]. Vår rammeverket består av to Delsampling trinn: (i) en

ytre delsampling

vise, som anslår prediksjon ytelse av modeller og utvalget sannsynligheten for funksjoner, og (ii) en

indre undersamplingen

trinn , som oppnår en robust modell ved å samle flere, eventuelt ustabile, modeller, hvor hver modell er oppnådd fra en subsample

i den ytre subsampling, vi i det vesentlige utfører bootstrapping [3] til å beregne to størrelser:. utvelgelses sannsynlighetene av funksjoner og prediksjon ytelse av modeller består av robuste signaturer. Estimering av seleksjonssannsynligheter for funksjoner ved hjelp delprøver har også blitt brukt i Davis et al. [1], i sammenheng med å velge den beste kombinasjonen av en funksjon utvalg og en egen klassifisering algoritme for å maksimere både utvalg hyppigheten av funksjoner og klassifisering nøyaktighet. I fremgangsmåten blir funksjonsvalg og modell montering utføres samtidig, og det er en iboende egenskap som er relevante funksjoner er å bli valgt med høy sannsynlighet. Derfor bruker vi estimerte valgsannsynligheter for å konstruere robust signaturer, ikke for å finne den beste kombinasjonen.

Bruken av aggregering for å produsere robuste signaturer som i vårt indre subsampling trinn er blitt brukt i forskjellige sammenhenger. Abeel et al. [5] anses enkle og vektet gjennomsnitt av beslutnings vektorer fra støttevektormaskiner (SVMer) [6] og den rekursive funksjonen eliminering hjelp SVMer [7], der hver eneste beslutning vektoren er hentet fra en bootstrap prøve. Subramanian [8], har en modifisert rammeverk blitt foreslått for skjev strukturer i Bayesianske nettverk i Broom, og gjøre. Disse verkene er imidlertid ikke ta opp problemet med å identifisere robuste underskrifter fra sensurert overlevelse utfallet, en typisk type reaksjoner i klinisk forskning. Også metoder som SVMer har ingen slik garanti for at viktige funksjoner vil bli valgt med stor sannsynlighet over ulike underutvalgene.

Vårt robust Utvalget er basert på teoretiske argumentene utviklet nylig for mye brukt lasso algoritme [9] og en utvidelse kalt preconditioned lasso algoritme [10], som er innført i neste avsnitt.

Cox regresjon med lasso Penalty

La oss vurdere en kohort prøve som består av

n

pasienter, hvor hver av pasientene er profilerte av en

p

dimensjonal funksjon vektor x

i

og en overlevelse merknad:

t

i

er lengden på overlevelse i tid og

e

i

er en indikator for en klinisk hendelse slik at

e

i

= 1 hvis en hendelse som har skjedd, og

e

i

= 0 ellers.

i Cox regresjon [11], er risikoen for en pasient som har et arrangement på gang

t

er modellert etter en funksjon, der

h

0 (

t

) er grunnlinjen fare funksjonen, eksponenter delen beskriver effekten av kovariater, og. Et estimat for koeffisientvektor

β

oppnås ved maksimal sannsynlighet estimering, det vil si (1) hvor er delvis log-sannsynlighet definert av

Her

E

er en indeks satt opplisting alle hendelser og er en indeks satt av pasienter med risiko med hensyn til tidspunktet for en hendelse

i

. Det andre leddet i ligning. (1) er en regularizer straffe kompleksiteten

β

, med og. Vi kaller ofte regularisering med

α

= 1 som lasso eller, og den med

α

= 0 som mønet eller straff. Lasso velger funksjoner ved å sette koeffisientene i

β

til nøyaktig null for irrelevante funksjoner, mens ryggen ikke utfører funksjonsvalg av seg selv. For detaljert sammenligning av de to, henviser vi til Gui og Li [12]. For 0

α

. 1, er regularizer kalles elastisk nett [13], som har en tendens til å velge alle korrelerte kovariater sammen

preconditioned Lasso

preconditioned lasso algoritme [10] er en to-trinns prosedyre utviklet for å løse problemene med høy skjevhet i lasso estimater når antall funksjoner

p

er veldig stor i forhold til antall pasienter

n

. De to trinnene er

Prekondisjonering trinn.

Lasso trinn: tilpasse en modell for å

Det første trinnet oppretter preconditioned resultater fra de gitte funksjoner og overlevelse data. . Den preconditioning utføres av tilsyn rektor komponenter metoden [14], som først rangerer funksjoner av deres individuelle korrelasjon til overlevelse utfall, og deretter finne en terskel ved kryssvalidering som gir best prediksjon ytelse hvis funksjonene rangert høyere enn terskelen blir brukt i regresjon etter å ha blitt projisert på de første hovedkomponenter. De forbehandlet utfall er produsert som et resultat av prediksjon på hver funksjon vektor i et treningssett. Her er sannverdsatt, mens det opprinnelige resultatet inneholder en verdi av overlevelsestid og en hendelse indikator.

Det andre trinnet bruker lasso for å passe en lineær modell til den opprinnelige funksjonen vektorer og preconditioned utfallet. Siden reflekser er skalarer, kan vi bruke den vanlige minste kvadraters regresjon med lasso straff, (2)

Dette problemet kan løses effektivt med minst vinkel regresjon (LARS) algoritme [15]. Etter en løsning er funnet, kan en lineær risiko prediksjon beregnes for hver test eksempel x og sammenlignet deres overlevelse risiko i form av Cox modell.

Konsistens og Robust Signatur Selection

Anta at vi oppnå ved å løse ligning. (1) med

n

eksempler, der eksemplene er generert med et ukjent populasjonsparameter under Cox modell. Et viktig begrep i statistikker vedrørende robust funksjonsvalg er

konsistens i form av variable utvalg

, (3)

Det er, velger de samme funksjonene til med økende sannsynlighet for eksempel antall pasienter øker . Dette innebærer at hvis

n

er stor nok eller konvergens i Eq. (3) er hurtig nok for en fast

n

, da de har undergrupper som er valgt av flere ved hjelp av forskjellige prøver av størrelse

n

vil være den samme med høy sannsynlighet, siden alle av dem vil bli i nærheten av de funksjoner for å bli valgt av. Derfor for robust utvalg i kliniske studier der antall pasienter

n

er relativt små og ikke lett å øke, vi foretrekker å bruke en metode med rask konvergens i konsistens.

Nylig har det vært vist at under

irrepresentable forhold product: [16] eller ekvivalent

nabolaget stabilitetsforholdene product: [17], konsistente estimater kan fås ved lasso, selv om disse forholdene vanligvis bryte i reelle situasjoner. Den prekondisjonerte Lasso algoritmen [10] er et alternativ til Lasso, produsere konsistente anslag, f.eks når . For vanlige minste kvadraters med lassoen straff, er det vist at når den regularisering parameteren er valgt til å være, da hvert aktivt element er valgt av med strengt positiv sannsynlighet [18]. Derfor et kryss over funksjonssett hentet fra bootstrap forsøkene vil være nonempty, og være i samsvar med eksponentielt økende sannsynlighet som

n

vokser. Men argumentene basert på sterke forutsetninger som er ganske lett brutt i praksis, og derfor den ønskede egenskapen kan ikke følge. En annen modifikasjon av lasso har blitt foreslått å bruke tilfeldig reweighting av lassoen regularizer [19]. Denne algoritmen produserer konsistente estimater i mindre restriktive forhold enn den forrige tilnærming, men krever å spesifisere en ekstra «svakhet» parameter som ikke er lett å avgjøre i sin randomisert omgivelser.

Vårt robust utvalg metoden er basert på følgende tre kritiske observasjoner. Først har preconditioned lasso bedre konvergens i konsistens enn lasso når [10]. For det andre kan variasjon i modeller reduseres med modellen i snitt kombinert med delsampling [4] (indre delsampling trinn). Og for det tredje, relevante funksjoner er å bli valgt med positiv sannsynlighet med lasso under visse forhold [18], og derfor vises oftere enn irrelevante funksjoner i flere studier med tilfeldige underutvalg (ytre delsampling trinn).

Et robust signatur er definert som følger: gitt en tilfeldig subsample indeks satt og et estimat oppnådd med eksempler som tilsvarer

i

, robustheten av en funksjon indeksert av er definert som sin sannsynlighet for å bli valgt blant alle studier med tilfeldige underutvalg, hvor alle parametre, om noen, antas å bli justert for hver

i

. En

robust signatur

er definert som et sett med robuste funksjoner, som utvalget sannsynligheter er over en viss terskel, som er, etter

Det over to definisjonene er tilpasset fra Meinshausen og BUHLMANN [19]. Etter å ha vurdert utvalg sannsynlighet for funksjoner i ytre delsampling, bruker vi den til å identifisere en estimert robust signatur, (4)

Metoder

Arbeidsflyten av vår nyutviklede metoden er skissert i figur 1. venstre panel (A) viser RS-PL, vår Robust Utvalg prosedyre med preconditioned Lasso algoritme, som produserer en koeffisientvektor for hver tilfeldig tog indeks satt

i

. I høyre panel (B), anslår vi at utvalget sannsynligheten for hver funksjon valgt av RS-PL algoritme for hver tilfeldig togsett

I

, teste ytelsen av prediktorer også.

Panel A: kjernealgoritme (forkortet til RS-PL) utfører robust valget med en indre delsampling, ved hjelp av preconditioned lasso (PL) -metoden inne. Potensielt ustabil modell koeffisient vektorer aggregeres og deretter krympet for å produsere en robust modell vektor. Panel B: en ytre delsampling brukes til å evaluere prediksjon ytelsen til RS-PL og å estimere seleksjonssannsynlig funksjoner. Forholdene (63,2% :36.8%) er valgt for å ligne de effektive samplingsforhold i bootstrapping.

Vår metode RS-PL er utformet for å forbedre robustheten lasso-baserte signatur seleksjonsmetoder, spesielt den preconditioned lasso (PL). PL og RS-PL utføre både signatur utvalg og estimering av en forutsigelse funksjon på samme tid i en tett koblet måte. Derfor, bedre robusthet i signaturen valg har en tendens til å forbedre prediksjon ytelse. Mer spesifikt, er prediktorer for RS-PL basert på et ensemble av lineære modeller av utvalgte funksjoner, og derfor robusthet i signaturen utvalget er direkte knyttet til stabiliteten i ensemble modeller og deres prediksjon utfallet.

Robust Selection med preconditioned Lasso (RS-PL)

Våre foreslåtte algoritmen RS-PL i figur 1 (A) tilsvarer en indre delsampling skritt i hele rammen, der et tog indeks satt

i

er delt inn i en sub-togsett

J plakater (63,2%) og en tuning sett (resten). Disse forhold er valgt for å ligne det effektive antall prøver i bootstrapping [3]. I forhold til andre Delsampling strategier som

k

fold kryssvalidering, er dette spesielt måten delsampling kjent for å gi den beste beregningen når støy i data er moderat [20].

prefiltering.

i RS-PL, vi først fjerne uninformative funksjoner fra hvert togsett (i) som standardavvik verdier er under en forhåndsdefinert persentil av standardavviket verdier av alle funksjoner. Denne filtreringen er valgfritt, men letter funksjonsvalg. Spesielt en ønskelig antall kandidat funksjoner

p

kan bestemmes ved hjelp av Lemma 6.7 [21], som sier at antall funksjoner for å bli valgt med statistisk konsistens med lasso og preconditioned lasso er avgrenset av for en prøve av størrelse

n

. Med andre ord,

p

bør ikke være større enn. For eksempel

p

kan være opp til et par tusen når

n

= 176 og. I våre forsøk forventet vi at det ville være 5~10 og redusert antall kandidat funksjoner som foreslått av lemma hjelp prefiltering.

preconditioned Lasso.

I kjernen av RS-PL, vi bruke forbehandlet lasso algoritme (forkortet til PL) omtalt ovenfor, på grunn av sin overlegne egenskaper for tilfeller med. PL innsiden av RS-PL kan erstattes av andre algoritmer så lenge de produserer koeffisient vektorer for lineære modeller, som for eksempel Cox regresjon med lassoen straff.

Aggregation og krymping av signaturer.

for hver under togsett, får vi et estimat koeffisientvektor som et resultat av å løse det andre steget i preconditioned lasso i Eq. (2). For T

i = 100 tilfeldige sub-togsett, sier vi skaffe estimert koeffisient vektorer hhv. Siden vektorene er koeffisienten fra lineære modeller, kan vi aggregere dem ved en enkel midling, det vil si, etter

Her den samlede koeffisientvektor er betegnet med bokstaven

I

, ettersom det er produsert for hvert togsett

i

i kraft.

rekke funksjoner for å bli valgt av den aggregerte vektoren har en tendens til å være ganske stor, siden det sett av ikke-null komponenter i er det samme som foreningen av signaturer oppnådd med, som angitt ovenfor. Derfor vi «krympe» koeffisientene i å bruke en enkel thresholding strategi: for terskelverdier hvor og er den minste og den største omfanget av komponenter i, finner vi en terskel slik at den krympede signatur, og tilsvarende koeffisienter produsere de beste prediksjon resultater over tuning sett, hvor stemmesett kommer fra den indre subsampling i figur 1 (A). Vi betegner den samlede og krympet robust koeffisientvektor, det endelige utfallet av RS-PL, så, konstruert som følger: (5)

Vurdering av Utvalg Sannsynlighets, Prediction Performance, og robust

algoritmen i figur 1 (B) tilsvarer en ytre delsampling trinnet, der hele kullet data med

n

pasienter er delt inn i et togsett

i

(63,2%) og et testsett ( resten), tilfeldig for T

ut = 100 ganger.

forbehandling.

det er to separate forbehandlingsteknikker trinnene for hver togsett (

i

) og hver testsett. Dette skillet er ganske viktig for nøyaktig estimering av prediksjon ytelse. For eksempel, når vi bruker summarization og normalisering algoritmer som robust multi-rekke analyse (RMA) [22] til microarray data, må vi søke RMA separat på et togsett og et testsett, siden ellers RMA vil bruke informasjon fra en test satt til preprocess et togsett, og vice versa, og derfor slik praksis kan gi for optimistiske anslag nøyaktighet anslag på testsettet.

Alternativt frosne RMA (fRMA) algoritme [23] kan brukes uavhengig individuelle mikromatriser, ved hjelp av globale referanse mikromatriser for normalisering. På grunn av uavhengighet, må fRMA skal brukes bare én gang for alle matriser uavhengig av tog /test deler.

Prediction of Risk.

For prediksjon, en robust og krympet koeffisientestimatet i Eq. (5) oppnådd ved RS-PL brukes til å sammenligne risikoen for pasienter som har et arrangement på gang

t

, i form av Cox proporsjonal risikomodell [11]. I denne modellen logg hazardratio sammenligne risikoen for to pasienter (med profiler og) becomesfrom definisjonen av hinderet (risiko) funksjon. Hazard ratio gir en statistikk for testing forskjeller i overlevelse mønstre. Det er verdt å merke seg at baseline fare

h

0 (

t

) er kansellert ut og spiller ikke noen rolle i uttrykket ovenfor, noe som gjør sammenligning av risiko så enkelt som å sammenligne verdiene av lineære prediktor og. Dette gjør oss i stand til å bruke en rang korrelasjon mellom lineære prediktor og overlevelses ganger for å vurdere prediksjon ytelse, som vi diskutere i neste avsnitt.

På den annen side, baseline fare

h

0 (

t

) kan estimeres for å produsere overlevelsessannsynligheter for den enkelte pasient. Et estimat av

h

0 (

t

) er foreslått av Cox og Oakes [24], hvor er det tydelig hendelsestidspunkter og

d

i

er antall hendelser på

t

i

. Deretter overlevelsesfunksjonen (sannsynligheten for å overleve i det minste til annen

t

) for en pasient x kan beregnes ved; Eksporter

Tiltak for Tippe Ytelse.

For å måle prediksjon ytelse, bruker vi

samstemmighet indeksen product: [25], som er andelen av alle sammenlignbare pasient parene som utfall er konkordant til spådommer. Et par av pasienter som er ansett for å være brukbare med unntak av de tilfeller hvor både pasienter har hendelser på samme tid, eller man har kortere sensurert overlevelsestid enn den andre som har en hendelse. For å forklare formelt anta at en prognose er tilgjengelig for hver pasient som har overlevelsestiden er gitt av med en hendelse indikator. Vurder følgende rekkefølge indikatorfunksjoner [26] for; Eksporter

Så produktet av de to ordre funksjoner tiltak om rekkefølgen på et par spådommer er konkordant (produkt = 1), disconcordant (-1), eller ikke sammenlignbare (0) til rekkefølgen av det tilsvarende overlevelsestiden par. Konkordanssiden indeksen er definert som den fraksjon av samstemmige parene blant alle sammenlignbare par, som har en verdi mellom 0 og 1. Her er en indikator funksjon å returnere en om argumentet er sann, og 0 ellers. Legg merke til at telleren over teller antall alle samstemmige parene, hvor nevneren teller antall alle sammenlign par (samstemmige eller disconcordant). Dette tiltaket kan beskrives som en generalisert AUC (areal under kurve ROC) verdi, hvor verdiene 0,5 antyde positiv korrelasjon og verdiene 0,5 antyde negativ korrelasjon. For binære verdsatt spådommer, blir konkordansen indeksen identisk med AUC.

Tiltak for Robusthet.

For å måle robusthet signatur utvalg, bruker vi

Jaccard indeksen

og

rang-straffet Kuncheva indeksen

.

Jaccard indeksen

måler robustheten signaturer av muligens forskjellige størrelser, og det er definert som en gjennomsnittlig størrelse på overlapping mellom har undergrupper i forhold til størrelsen på deres forening [2]. Betegner sett av funksjoner er valgt med ved, er det definert som:. (6)

Den Jaccard indeksen går fra 0 til 1, og større verdier indikerer større relativ overlapping

Når størrelsene på signaturer kan kontrolleres, mer presise målinger av robusthet er tilgjengelig, nemlig Kuncheva indeksen [27] og den Canberra avstanden [28], i stedet for av Jaccard-indeks som kan føre til en forspent evaluering av robusthet. Spesielt gir Kuncheva indeksen et estimat av gjennomsnittlig overlapping mellom signaturer, og Canberra avstand måler hvor godt rekkefølgen av bidraget av funksjoner beholdes mellom signaturer i gjennomsnitt. Sammenlignet med Jaccard-indeksen, disse to tiltak krever signaturer for å være av samme størrelse for sammenligning. Fraksjonen mellom Kuncheva indeksen og Canberra avstand, angitt som

rang-straffet Kuncheva indeksen

, beregnes som en oppsummering av de to mål robusthet. Betegner funksjonene valgt fra i en ekstra krymping av og rang i omfanget av th funksjonen i ved, er rang-straffet Kuncheva indeks uttrykkes slik (

p

er det totale antall kandidat funksjoner), (7)

verdiene for denne indeksen varierer fra 0 (null overlapping, dvs. funksjonen rangerer ikke bevart) til ∞ (perfekt overlapping, dvs. perfekt bevaring av spille rekkene).

Extra krymping av modellene.

mange av funksjonene i en signatur beskrevet av varierer avhengig av data og metoder, men det er vanligvis større enn 50. Når mindre signaturer er foretrukket for en grundig undersøkelse av funksjoner, signaturer beskrevet etter kan krympes ytterligere ved å velge den øverste

G

har i henhold til omfanget av sin koeffisient i.

Dette er senere brukt for en evaluering av vår metode for å sammenligne robusthet og prediksjon ytelse av signaturer som består av et lite antall funksjoner.

utvalgs~~POS=TRUNC av funksjoner og robust signaturer.

valg sannsynligheten for en funksjon, indeksert av

k

, anslås ved utseendet frekvens blant de T

ut ytre subsampling forsøk, det vil si der er en indikator funksjon som er lik til en om setningen

s

er sann eller 0 på annen måte. Gitt disse sannsynligheter og en baseline utvalg sannsynlighet

π

, konstruerer vi en robust signatur ifølge Eq. (4).

Liste over algoritmer for sammenligning

Våre foreslåtte algoritmen RS-PL, hvor forstavelsen «RS» står for «robust valget», er i forhold til følgende algoritmer. RS-L er den samme som RS-PL, bortsett fra at PL innsiden av RS-PL er erstattet med Cox regresjon med lassoen straff. I det følgende, er hele RS-PL i figur 1 (A) erstattet med de beskrevne algoritmer, som ikke gjør bruk av vår RS rammeverk: PL er forbehandlet lasso algoritmen. L er Cox regresjon med lasso straff. Dev er en enkel metode som velger de 100 funksjoner med det største standardavvik over mikromatriser. En åskam Cox regresjon blir deretter utført, kun ved hjelp av disse funksjonene. Denne type av metoder er kjent for å være stabil [29]. Kor er en annen univariat metode, velger de 100 funksjonene med de høyeste gradene i form av deres individuelle korrelasjon til overlevelse annotering (målt ved samstemmighet indeks). En åskam Cox regresjon utføres på de valgte funksjonene etterpå. CLI er en Cox regresjon uten straff kun ved hjelp av kliniske kovariater. Den BatchExperiments Pakke [30] for R ble brukt for parallell beregning av algoritmer.

Resultater

Data Forberedelse

Tre datasettene ble analysert inneholdt mRNA uttrykk profiler fra totalt 742 kreftpasienter som ble anskaffet ved hjelp av Affymetrix microarray teknologi. Data ble innhentet i tre forskjellige enheter, nevroblastom, lunge adenokarsinom og brystkreft, som oppsummert i Tabell 1. CEL filene ble lastet ned fra Gene Expression Omnibus eller R2-plattformen (https://r2.amc.nl). For forbehandling, ble den frosne RMA algoritme [23] brukes på enkelt CEL filer for å lage probeset sammendrag nivå. Bare mikromatriser med median GNUSE [31] verdier ≤1 (for kvalitetskontroll) og med relevante kliniske opplysninger (total overlevelse) ble inkludert i denne studien. Karakteristikken av tre datasett før og etter forbehandling er oppsummert i tabell 2, 3 og 4 (se figur S1 for de tilsvarende Kaplan-Meier plott).

hentet fra forbehandling funksjoner er merket med

probesets

, som tilsvarer (deler av) eksoner eller gener avhengig av microarray plattformer. De totale antallet probesets (funksjoner) varierer avhengig av microarray plattformer: HG-U133A Plus 2.0-plattformen inneholder 54675 probesets (HG-U133A inneholder ca 10 000 mindre probesets), and Human Exon ST v1.0 plattformen inneholder 1432143 probesets, ifølge NetAffx probeset merknad v33.1 fra Affymetrix. Hver probeset har en oppsummering uttrykk verdier av tilsvarende

sonder

i de opprinnelige CEL data, hvor 9~11 (HG-U133A) eller 1~4 (human Exon ST v1.0) prober utgjør en probeset. For neuroblastom datasett (Menneskelig Exon ST v1.0), vi fokusert på kjernenivå probesets som har tilsvarende eksoner som oppfylte tre kriterier: unik hybridisering, unik lokalisering på en av de menneskelige kromosomer, og tilstedeværelsen av gyldige genet oppdrag . Bruke NetAffx probeset merknader, dette resulterte i 228476 funksjoner. Når prefiltering ble brukt, ble probesets med standardavvik mindre enn 99 persentilen av standardavviket av alle funksjoner forkastet for hver tilfeldig togsett

I

, noe som resulterer i 2285 funksjoner. For adenokarsinom (HG-U133 Plus 2) og brystkreft (HG-U133A) datasett, vi fokusert på grade-A probesets som har tilsvarende gener med unike hybridisering og unik lokalisering. Bruke NetAffx merknader, dette resulterte i 28 476 (adenokarsinom) og 20492 (brystkreft) har henholdsvis. Når forfiltreringskammeret ble brukt, de probesets med standardavvik mindre enn 90-persentilen av standardavviket av alle funksjoner ble forkastet for hver tilfeldig togsett

I

, noe som resulterer i 2848 (adenokarsinom) og 2050 (brystkreft) funksjoner .

Kliniske kovariater ble kun brukt til metoden CLI, inkludert følgende attributter: alder ved diagnose, MYCN status og INSS scenen for neuroblastom; alder, røykestatus, kjønn, stadium, og MYC status for lunge adenokarsinom; alder, stadium, størrelsen på svulsten, og karakteren for brystkreft.

Robuste Signaturer

Algoritmene RS-PL, RS-L, PL, L, Dev, Cor og CLI ble testet innen vår evaluering rammeverk (Figur 1: B), med samme tilfeldige splittelse av data på tvers av ulike metoder for rettferdig sammenligning (se tabell S1 for overlevelse tid distribusjon av tog- og testsett). Dette resulterte i en sekvens av koeffisientsett vektorer som en utgang fra hver metode. Disse ble brukt til å estimere utvalg sannsynligheten for hver funksjon,. For neuroblastom datasett, ble grunnlinjen sannsynlighet satt til den beregnede valg sannsynligheten for MYCN forsterkning status kovariat (). For de andre to datasettene, ble en vilkårlig verdi () definert og robuste signaturer ble oppnådd.

Kvalitativ validering av Robuste signaturer.

Tabell 5, 6 og 7 viser funksjonene som inngår i robuste signaturer produsert av RS-PL, for neuroblastom, lunge adenokarsinom, og brystkreft, henholdsvis (se tabell S2, S3 og S4 for de tilsvarende lister over utvalgte funksjoner og deres valg sannsynlighet). I hver tabell er valg frekvenser av egenskaper er vist i den andre kolonnen. Som for neuroblastom, data var tilgjengelige med ekson nivå oppløsning, slik at seleksjonsfrekvensverdiene ble tatt i gjennomsnitt over flere eksoner hvis mer enn en exon er stabilt identifisert for et gen.

Legg att eit svar