Abstract
Det er utfordrende å klynge kreftpasienter av en viss histopatologisk type i molekylære undergrupper av klinisk betydning og identifisere genet signaturer direkte relevant for subtypene. Nåværende clustering tilnærminger har iboende begrensninger, som hindrer dem i å måle den subtile heterogenitet av de molekylære subtyper. I denne artikkelen presenterer vi et nytt rammeverk: SPARCoC (Sparse-CoClust), som er basert på en roman Common-bakgrunn og Sparse-forgrunnen Nedbrytnings (CSD) modell og Maximum Block Improvement (MBI) co-clustering teknikk. SPARCoC har klare fordeler sammenlignet med utbredte alternative tilnærminger: hierarkisk clustering (Hclust) og nonnegative matrise faktorisering (NMF). Vi bruker SPARCoC til studiet av lunge adenokarsinom (ADCA), en svært heterogen histologisk type, og en betydelig utfordring for molekylær inndeling i undergrupper. For testing og verifikasjon, bruker vi høy kvalitet genuttrykk profilering data på lunge ADCA pasienter, og identifisere prognostiske gen signaturer som kan klynge pasientene inn i undergrupper som er vesentlig forskjellige i sin total overlevelse (med p-verdier 0,05). Våre resultater er kun basert på genuttrykk profilering dataanalyse, uten å innlemme noen annen funksjon utvalg eller klinisk informasjon; vi er i stand til å gjenskape våre funn med helt uavhengige datasett. SPARCoC er bredt gjeldende for store genomiske data for å styrke mønster oppdagelse og kreft genet identifikasjon
Citation. Ma S, Johnson D, Ashby C, Xiong D, Cramer CL, Moore JH et al. (2015) SPARCoC: et nytt rammeverk for Molecular Pattern Discovery og Cancer Gene Identifikasjon. PLoS ONE 10 (3): e0117135. doi: 10,1371 /journal.pone.0117135
Academic Redaktør: Xia Li, Harbin Medical University, Kina
mottatt: 27 august 2014; Godkjent: 19 desember 2014; Publisert: 13 mars 2015
Copyright: © 2015 Ma et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: Ramme SPARCoC (Sparse-CoClust for mønsterDiscoVery og kreft Molecular inndeling i undergrupper) er implementert i MATLAB og kildekoden er tilgjengelig fra:. https://bioinformatics.astate.edu/code
Finansiering: SM er støttet av Hong Kong forskningsmidler Council (RGC) Tidlig karriere Scheme (ECS) (Prosjekt ID: CUHK 439513). S.Z. er støttet av NSF tilskuddet (CMMI-1161242). J.M. støttes av NIH tilskudd LM010098 og LM009012. Dette arbeidet er også delvis støttet av National Institute of Health stipend fra National Center for Forskning Resources (P20RR016460) og National Institute of General Medical Sciences (P20GM103429). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Det er betydelig interesse for å utvikle effektive beregningsorientert tilnærming til å studere massive genomisk profilering data, slik som hel-genom genuttrykk data, kreftpasienter. På grunn av kreftsvulst heterogenitet (se [1-5]), som er vel kjent på feltet, er det vanskelig å analysere de genomiske data for å klynge kreftpasienter med en bestemt histologisk og patologisk krefttype i forskjellige molekyl undergrupper ( subtyper) av genetisk, biologisk og klinisk betydning, og identifisere kreftgener eller genet mønstre som er direkte relevant å skille de ulike subtypene. Forskningsinnsatsen i molekylær inndeling i undergrupper og kreft genet signatur oppdagelsen kan styrke viktige medisinske applikasjoner og kliniske oversettelser som molekylær diagnose, prognose, og personlig medisin.
Nylig er det studier i omfattende molekylære karakterisering av ulike kreftformer, herunder brystkreft kreft molekylær undersøkelse [6-9], tykktarmskreft (CRC) klassifisering [10], lungekreft adenokarsinom (ADCA) eller plateepitelkreft (SQ) subtyping [11-15]. Den molekylære inndeling i undergrupper av hver av disse undersøkelser omfatter bruk av en bestemt gruppering eller biclustering /co-clustering metode. Hierarkisk clustering (Hclust) [16], nonnegative matrise faktorisering (NMF) [17], integrerende clustering (iCluster) [18] og ConcensusClusterPlus [19] er de flere populære metodene som i dag brukes i molekylær inndeling i undergrupper av disse studiene for brystkreft, tykktarms kreft, eller lungekreft etc [6-15].
Men de eksisterende clustering metoder [f.eks 16-19] har iboende begrensninger. De fungerer vanligvis godt for å skille ulike histologiske eller patologiske typer kreft, men ikke for å skille gode detaljerte molekylære undergrupper av et histologisk heterogen krefttypen. Også på grunn av beregnings utfordring i å analysere store genomiske data, de fleste aktuelle metoder velger å bruke en approximative beregningsmodell som grunnlag. Dagens tilnærminger vanligvis preprocess de hel-genomdata for gen eller funksjonen valg; eller de avhengige av klinisk informasjon for å veilede den gruppering av kreftpasienter [11-15]. Imidlertid kan forbehandling av data miste informasjon om viktige gener eller gener mønstre knyttet til kreft, og å være for avhengig av klinisk informasjon vil potensielt introdusere skjevhet til kreft heterogen molekylær inndeling i undergrupper. Begrensningene i dagens clustering metoder vil bli nærmere omtalt i detalj i neste Metoder Section.
Innser en av de iboende begrensningene i eksisterende metoder er at de vanlige funksjonene i bakgrunnen av storskala genomiske data for kreft pasienter kan tilsløre påvisning av sjeldne, men viktige data variasjoner, det vil si, de viktige genomiske funksjonene som definerer de fine detaljerte molekylære undergrupper av pasienter. Som i bildebehandlings, når presentert med tusenvis av overvåkingsbilder av den samme bakgrunnen området, hvis vi kunne fjerne distraksjon av felles bakgrunn og bare fokusere på sparsom interessant forgrunn informasjon, kunne vi lett og tydelig gjenkjenne viktige mønstre. Her presenterer vi SPARCoC (Sparse-CoClust), en ny uten tilsyn clustering rammeverk for å oppdage molekylære mønstre og kreft molekylære subtyper. Rammeverket er basert på en ordning som kalles common-bakgrunn sparsom-forgrunnen dekomponering (CSD) og en teknikk som kalles Maximum Block Improvement (MBI) sjakkbrett co-gruppering. Denne nye rammeverket synes å ha betydelige fordeler i kreft molekylær inndeling i undergrupper og gen signatur identifikasjon. Som vi skal se senere med et eksempel (Fig. 1A) som clustering av felles (som er filosofien bak nesten alle eksisterende clustering metoder) er fundamentalt feil i sammenheng med kreft molekylær inndeling i undergrupper. I stedet, evnen til å detektere abnormitet skjult bak den felles bakgrunn er kjernen trekk ved vår nye tilnærmingen
(a) Et syntetisk eksempel.: Gitt inngangs genekspresjon M matrise, der er de «interessante gener» skjult? (Dvs. som er genene som vesentlige for å skille potensielle forskjellige molekyl subtyper?) Den «interessant» genene er ikke lett oppdages fra den gitte M matrisen med de aktuelle populære clustering metoder, f.eks NMF eller Hclust. Men vi kunne tydelig se «forgrunnen» (en co-klynge av størrelse 5 x 5, vist i grønt av Y matrix) etter distractive «bakgrunn» X matrise fjernes gjennom nedbryting. Den «interessant» gener (rader 10-14) er uttrykt forskjellig for prøver /kolonner 10-14 av Y-matrisen. (B) Den nye clustering rammeverk. Denne nye rammeverket inneholder to moduler: common-bakgrunn og sparsom-forgrunnen dekomponering (CSD) og Maximum Block Improvement (MBI) co-gruppering. Gitt en matrise M, vil CSD modulen dekomponere M og genererer en «forgrunn» Y-matrise; Deretter vil MBI ko-gruppering modulen arbeide på Y-matrisen og utgangs ko-klynger, og gir informasjon av grupper av prøver og grupper av gener som er assosiert med visse grupper av prøver.
Vår clustering rammeverk utfører gruppering av «sparsom-forgrunnen» alminnelighet
,
mens mange av dagens clustering metoder vanligvis gjennomføre gruppering av «bakgrunn» felles
.
Vi evaluerer denne nye rammeverk for å studere lunge adenokarsinom (ADCA), som er en ekstrem heterogen lungekreft histologisk type (https://www.cancer.gov/cancertopics/) og som nå er et paradigme for molekylær inndeling i undergrupper. Undersøkelsene av lungekreft hos mange forskere har allerede vist gjennomførbarheten av kreft klassifisering (klasse oppdagelse og klasse prediksjon) basert på genekspresjon profilering av kreftpasienter [20-24, 13, 14]. Mange studier gjennomføre genekspresjon clustering og søke etter genekspresjonssignaturer; Men de publiserte prognostiske gen signaturer fra ulike studier har ingen (eller svært få) gener felles [25]. Denne mangelen på overlappinger kan tyde på at mange gener som er involvert i lungekreft patologi; like sannsynlig kan det også være en konsekvens av uforutsette fallgruvene med klynger basert på et lite antall gener etter trimming og forbehandling.
Vi bruker SPARCoC å analysere hel-genom genekspresjon profilering data på lunge ADCA pasienter. Disse datasett (kollektivt med profiler av mer enn 600 lunge ADCA pasientprøver) er av høy kvalitet og samlet med omfattende klinisk informasjon om pasientene. SPARCoC kunne cluster lunge ADCA og scene jeg lunge ADCA pasienter basert på deres genuttrykk profiler i undergrupper med vesentlig forskjellige kliniske overlevelses utfall, og de identifiserte genet signaturer, da verifiseres ved hjelp av helt uavhengige pasient profilering datasett, kunne skille pasientene inn i undergrupper av forskjellige overlevelses utfall . Spesielt Kaplan-Meier analyse av total overlevelse av lunge ADCA og scene jeg lunge ADCA pasienter med identifiserte 128-genet signatur viste at de med høy og lav-risikogruppene er vesentlig forskjellige i sin total overlevelse (med p-verdier 0,05). Legg merke til at prosessen med lunge ADCA pasienter clustering, gen signatur identifikasjon, overlevelsesanalyse og kryssvalidering er klassisk til feltet (Den interesserte lesere er referert til, for eksempel, [11-15]).
Vi mener vårt nye rammeverk SPARCoC, når den brukes til genomisk profilering av kreftpasienter, kan potensielt føre til nye funn i studiet av kreft molekylær subtyping å lede medisinske behandlinger og ny identifisering av kreftgener eller genet mønstre for kreft prognose eller som medisinske mål.
Metoder
SPARCoC: et nytt rammeverk for molekylær mønster oppdagelse og kreft genet identifikasjon
Vår nye clustering rammeverk (fig. 1) omfatter to moduler: felles-bakgrunn og sparse- forgrunnen dekomponering (CSD) og Maximum Block Improvement (MBI) co-gruppering. Følgende er en oversikt og noen korte diskusjoner om de to modulene. I CSD-modulen, blir beregningsmodell basert på sparsom optimalisering; i co-clustering modul, blir en blokk optimaliseringsmodell vedtatt. Som diskutert i detalj i det følgende, har vår rammeverk SPARCoC nye trekk som gjør det meget effektivt i molekyl mønster oppdagelse, og vår modell som er forskjellig fra modellen av robuste prinsipal komponent analyse (RPCA) og annen aktuell sammensetning og biclustering /co -clustering metoder.
Et eksempel for å illustrere ideen om vår clustering rammeverk med CSD nedbrytning og MBI co-clustering (se fig. 1)
Dette eksemplet inneholder tre filer (se S1 File for detaljene eksempelfilene): M.csv, Y.csv, og X.csv. Bakgrunnen X matrise (størrelse: 20 × 20, inngang verdier fra en ~ 100) er en rang-en matrise tilfeldig generert i MATLAB; forgrunnen Y-matrise (størrelse: 20 x 20 med inngangsverdier alle satt til å være 0, med unntak av en ko-klynge av størrelse 5 x 5 med inngangsverdier klar til å bli 10) tilsettes til bakgrunnen X matrise, får vi M matrise (størrelse: 20 × 20), som nå er en rang-to-matrise. Når gitt M.csv (M matrise), returnerer vår CSD nedbryting modell akkurat X.csv (X matrisen) og Y.csv (Y matrise) som gitt (Merk at CSD modellen vi brukte det (M3) modellen, som vil bli angitt senere, med r = 1, og hvor støynivået δ = 0). Når vi tester ytelsen MBI på Y.csv (Y matrise), får vi nøyaktig riktig co-klynge av størrelse: 5 × 5. Denne kunstige eksempelet viser at vår nye clustering rammeverk basert på CSD nedbryting og MBI co-clustering effektivt kan skille «interessant» forgrunnen informasjon (interessante gener og interessante eksempler) fra bakgrunnsinformasjon. Vi ønsker å påpeke at selv med dette enkelt eksempel, er det vanskelig for andre clustering tilnærminger, som NMF, til riktig skille interessante eksempler fra de andre prøvene når M matrise er gitt.
The Common -background og Sparse-forgrunnen nedbrytnings~~POS=TRUNC (CSD) modul
Vi brukte følgende to modeller for felles-bakgrunn og sparsom-forgrunnen nedbrytning:. (M1) og (M2)
(modell 1 ) modellen er å skrive en gitt matrise M som summen av tre matriser: X, Y og Z, på en slik måte at M = X + Y + Z, mens X er en rang-en matrise i form av X = x * ι hvor x er en avgjørelse vektor og ι er det alt-en rad vektor, og Z er støyen matrisen. Nærmere bestemt, den aktuelle modellen er (M1)
Merk at X har således et felles-vektor struktur i den forstand at alle kolonne vektorer av X er de samme.
Det skal påpekes ut at vår felles-vektormodellen er teoretisk forskjellig fra RPCA modellen foreslått i Candes et al. [26] og Chandrasekaran et al. [27]. Den viktigste forskjellen er RPCA krever X til å være lav rang, men vår modell (M1) krever X for å være en spesiell rang-en matrise. L
en norm i målet om (M1) fremmer naturlig sparsity i matrisen Y. Nylig ble en lignende modell for avbildning bakgrunn ekstraksjon ble også betraktet uavhengig av Li, Ng og Yuan [28] i sammenheng med bildebehandling for applikasjoner i videoovervåking systemer. Vi løser (M1) av den såkalte Alternerende Direction Måte multiplikatorer (ADMM), som er et første-ordens optimalisering rutine, slik at vi kan løse svært store size modeller.
(modell 2) Tenk genuttrykk matriser m
k av samme dimensjon m x n og k = 1, 2, …, betegner K. indeks k en gitt tilstand. For en gitt k, matrisen M
k = (a
k
ij) m x n inneholder ekspresjonsnivået av genet i henhold til tidspunktet j, hvor i = 1, 2, …, m og j = 1, 2, …, n. Vi kan modellere bakgrunn svingning av ekspresjonsnivået av en lav-rank matrise, og de resterende spredte matriser så gjenspeile forgrunnen som «viser» uttrykk for de «interessante» eller «aktive» gener. Denne informasjonen kan brukes til å analysere forhold eller korrelasjonen mellom genekspresjon nivået /typen mønster og /subtyper. Optimalisering modell av interesse er: (M2) hvor ǁY
iǁ
0 er L
0-norm (aka kardinaliteten) av Y
i, betegner støynivået, og
i 0 er noen riktig valgt vekting parameter. Den tilsvarende konveks avslapping modellen er:. (M3)
Legg merke til at (M3) blir en felles-vektor-modellen (M1), når vi legge til en ekstra begrensning X = x * ι til det
Se følgende for pseudo-kode for den felles-bakgrunn og sparsom-forgrunnen dekomponering modell (M1)
Input. dataene matrise
M
, og støynivået parameter δ.
Output: The common-bakgrunn vektor
x Hotell og sparsom-forgrunnen matrise
Y
Start.
(initialisering ). Definer utvidet Lagrange-funksjonen for (M1):
Merk at
D
er Lagrange multiplikator knyttet til likestilling begrensningen i (M1), og
r
0 er en straff parameter. Sett opprinnelige verdier:
Y
: =
Y
0,
Z
: =
Z
0,
D
; =
D
0. Sett verdi for parameteren
r
. Sett sløyfen teller
k
: = 0.
(Minimere utvidet Lagrange funksjonen med hensyn på
x
,
Y
,
Z
alternerende). Løs følgende tre enkle optimeringsproblemer sekvensielt:
(Oppdatering av Lagrange multiplikator). Beregn
(Stoppe kriterium). Hvis viss stoppkriteriet er oppfylt, så stopp. Ellers satt
k
: =
k
en, og gå til trinn 1.
(utmating
x Hotell og
Y
). Utgang felles-bakgrunn vektor
x
k + 1 Hotell og sparsom-forgrunnen matrise
Y
k + 1
.
Maksimum Block Improvement (MBI) co-gruppering modul
Vår clustering tilnærmingen er basert på en tensor optimaliseringsmodell og en optimalisering metoden kalles Maximum Block Improvement (MBI) [29]. Vurder følgende formulering for co-clustering problem for en gitt tensor datasett M ∈ R
n1 × n2 … × nd: hvor f er en gitt nærhet tiltak. I [29], den såkalte
Maksimal Block Forbedring plakater (MBI) metode er foreslått for å løse de ovennevnte modell (CC), med oppmuntrende numeriske resultater. Interesserte lesere henvises til vårt tidligere arbeid i [29] for pseudo-koder i MBI-modellen for tensor co-clustering og for 2D matrise co-gruppering. Vær oppmerksom på at ovennevnte modell for tensor co-clustering er
eksakt
, i den forstand at hvis eksakte co-klynger eksisterer da modellen ovenfor på sitt optimale oppnår minimumsverdien null.
Den MBI clustering tilnærming kan brukes til å co-cluster genuttrykk data i 2D matriser (gener versus prøver) samt data i høy-dimensjonale tensor form. Den nye rammeverket er fleksibel ved at den er lett å innlemme en rekke gruppering kvalitetsmålinger. Vår foreløpige eksperimentell testing viser sin effektivitet og effektivitet [30, 29]. MBI, som et sjakkbrett co-gruppering tilnærming, uten noen gen-trimming, kunne gi identifikasjon av kreft subtyper og også gener korrelert med subtypene på samme tid, mens de fleste tidligere bi-gruppering eller ko-klyngefremgangsmåter (f.eks LAS [31 ], QUIBC [32], etc) er mer fokusert på å trekke ut sammenhengende genuttrykksmønster, vanligvis ikke gjør det bra for kreft inndeling i undergrupper. Teoretisk sett, sammenlignet med andre co-clustering tilnærminger, er vår modell basert på en eksakt formulering for co-clustering mens du søker etter en tilnærmet løsning for nøyaktig modell. I denne vene, andre tilnærminger (f.eks SVD lav rang matrise metoden [33] og NMF metoden [17]) basen innsatsen på en omtrentlig formulering av co-clustering.
Ta NMF metoden som en eksempel, som er en av de for tiden mest brukte metoder for kreft molekyl subtyping. Det er to iboende svakhetene til NMF: (1) det krever oppføringene i inngangs genuttrykk matrise for å være alle ikke-negative verdier; (2) det deler inngangsmatrise inn i det samme antall grupper for de rader (gener) og for kolonnene (sampler). Siden antallet av genene (~ 30 000) er vanligvis vesentlig større enn antallet av prøvene (omtrent flere hundre), kan det ikke være meget meningsfylt å dele genene (rader) og prøvene (kolonner) i det samme antall grupper, hvor vanligvis antall forskjellige molekyl subtyper er liten, for eksempel mellom 2 og 5. for eksempel, når antallet grupper k = 2, vil NMF-metoden får en 2 x 2 separasjon av et lager genekspresjon matriks (f.eks 22000 rader × 276 kolonner) på 4 blokker, noe som ga en meget grov atskillelse av matrisen. På lik linje vår MBI tilnærming er fleksibel nok til å gi en skikkelig fin detaljert separasjon, si, med antall radgruppene k
1 100 og antall kolonnegrupper k
2 = 2.
Vi ønsker å påpeke at antall k
1 og k
2 er viktig dimensjon parametere for MBI co-gruppering. Det finnes ingen effektive metoder som kunne utlede de optimale tallene for k
1, k
2, men vi kunne bruke en lokal søkeprosessen [29] for å søke etter en lokal optimale tall for k
1, k
2.
Legg merke til at nesten alle unsupervised clustering tilnærminger vil ikke alltid generere nøyaktig de samme klynger danner alle kjører med ulike parameter oppsett på samme datasett. I likhet med NMF tilnærming, den nye MBI algoritmen kan eller ikke kan konvergere til den samme løsning for hvert forsøk, avhengig av de forskjellige tilfeldige startbetingelsene. Vi bruker også ideen om konsensus clustering, tar hensyn til informasjon om hver to prøvene blir gruppert sammen fra et visst antall MBI går. Hvis to prøvene er av samme type eller undertype, vi da forvente at vareprøve oppdrag variere litt fra gang til gang [17].
Nye funksjoner i vår nye rammeverket SPARCoC
Følgende gir fundamental av Common-bakgrunn og Sparse-forgrunnen Nedbrytnings (CSD) modell og Maximum Block Improvement (MBI) co-clustering teknikk, og også oppsummerer kort de nye funksjonene i SPARCoC sammenlignet med eksisterende clustering metoder:
Hvor er kreften gener som er viktige for å definere ulike molekylære undergrupper av kreft? En av de store oppdagelsene gjennom vår studie indikerer at de representerer «forgrunnen» av genuttrykk profilering data for pasienter, vanligvis skjult i «bakgrunnen» av et hav av støyende genuttrykk data. Innsatsen av vår nye clustering rammeverk basert på CSD nedbrytning og MBI co-gruppering er å definere forskjellige molekylære undergrupper av pasienter og for å hjelpe enkelt ut de viktige påvirkningsprosesser «forgrunn» gener fra sin støyende bakgrunn.
Legg merke til at nesten alle andre aktuelle clustering og co-clustering metoder er basert på tanken om å identifisere felles; dermed er de fanget av mønstre av bakgrunnen
,
stedet for å fokusere på den informasjonen rike «forgrunnen» av genuttrykk data plakater (se Fig. 1A).
CSD dekomponering modulen forenkler effekten av de viktige «interessant» gener for å skille seg ut i «bakgrunnen», og dermed bidra til å identifisere kreftgener og fine detaljerte molekylære undergrupper, som ellers vil være umulig å oppdage (se 1A, Tabell 1).
den MBI co-clustering modul, som et sjakkbrett co-clustering tilnærming, kan generere både rad gruppering og kolonne gruppering samtidig, og dermed bidra til å identifisere kreftgener (rader) som definerer de ulike molekylære klynger /undergrupper av pasienter (kolonner) (se fig. 2).
Vår tilnærming kan brukes til storskala genomisk profilering datasett av pasienter uten genet trimming eller funksjonsvalg. Det viser seg å være svært effektiv og kjører på hel-genom genuttrykk datasett samt andre datasett som mutasjon, kopiere nummer, miRNA, metylering, exome sekvensering og reversere uttrykket protein utvalg etc. Det er i stand til å identifisere potensielle nye molekylære undergrupper av kreft og kreftgener eller genet mønstre.
. For de genuttrykk datasett studert her, MBI co-gruppering gir samtidig genet (rad) grupperinger og prøven (kolonne) grupperinger, identifisere gener assosiert med de forskjellige typer eller subtyper. (A) Heat Kartet viser klare co-klynger identifisert ved MBI. Tomten er basert på virkelige verdier av Y matrise av genuttrykk profilering data (data1 med tre typer: COID /20, cm /13, NL /17, henviser til S1 File). Hver rad tilsvarer et gen; hver kolonne tilsvarer en prøve. Denne varmen Kartet viser uttrykket verdiene av 100 gener på tvers av alle de 3 forskjellige typer. (B) Heat Kartet viser klare co-klynger identifisert ved MBI. Tomten er basert på verdiene av Y matrise for Canada Trinn1 datasett (varmekartet for Canada Trinn1 datasett med 562 gener med k
1 = 100 og k
2 = 2. De to gruppene er atskilt med en tykk svart vertikal linje).
se testresultatene gitt her og i saksdokumenter (
se
S1 File
for ytterligere testing resultater
), som viser de klare fordelene ved vår nye clustering rammeverk. Våre testresultater viser at: (1) CSD tilnærming forenkler identifiseringen av genmarkører, noe som gjør potensielle genmarkører stå ut av «bakgrunnen»; (2) den MBI tilnærmingen gir bedre resultater på Y versus på M, hvor M er den opprinnelige genekspresjon matriksen og Y er den sparsomme blokkmatrisen generert gjennom CSD dekomponering; (3) det nye gruppering rammeverk utfører mye bedre sammenlignet med de brukte clustering metoder, f.eks Hclust og NMF (se også figur 3A og 3B, figur 3C og 3D,.. De mindre p-verdier fra log rank test (Fig . 3, tabell 2) og lavere prosenter av 3-års total overlevelse av høyrisikogrupper (
også se
S1 File
for ytterligere testing resultater
) implisere vår CSD + MBI-modellen er en bedre clustering modell).
(a) og (b). Sammenligning av Kaplan-Meier overlevelses tomter basert på unsupervised klynger av hierarkisk clustering (Hclust) og at av MBI, når de får samme genuttrykk matrise M (lunge ADCA Canada datasett fra Shedden et al. [7]. (A) Kaplan- Meier overlevelse plott basert på Hclust. (b) Kaplan-Meier overlevelses plott basert på MBI clustering (med leave-one-out-kryssvalidering (LOOCV) ~ 99% nøyaktighet). MBI viser en bedre separasjon av aggressive gruppen fra to andre undergrupper sammenlignet med Hclust Bryant et al [6] P-verdier er beregnet ved log-rank test,.. The LOOCV ble gjort ved hjelp av PAM [18] (c) og (d) Sammenligning av Kaplan-Meier.. overlevelses~~POS=TRUNC plott basert på den uten tilsyn gruppering av NMF (c) og det av MBI (d), når det er gitt den samme genekspresjon matrise M (lunge ADCA Canada datasettet fra Shedden et al. [7]). når den gis den samme genekspresjon testing data, overlevelseskurver fra MBI gruppering viser en mer betydelig separasjon enn de fra NMF clustering. p-verdiene beregnes ved log-rank test.
Sammenlignet med andre uten tilsyn clustering metoder, vår nye clustering rammeverk utfører robust samlet, og demonstrerer en betydelig forbedret clustering resultat på enkelte datasett. Faktisk ytelsen til en gruppering algoritme kan bli betydelig påvirket av datasett: noen datasett med forskjellige typer som «eple og appelsin» typer, mens enkelte andre datasett med typer har svært subtile forskjellen som forskjellige «eple» typer. Målet med denne artikkelen er faktisk å foreslå en nøye utformet ny effektiv clustering rammeverk, for å møte utfordringene i kreft heterogen molekylær inndeling i undergrupper (differensiere subtilt endrede «Apple» typer). I det følgende bruker vi vår nye rammeverk for å studere svært utfordrende, ekstrem heterogen lungekreft adenokarsinom (lunge ADCA og scene jeg lunge ADCA).
Resultater
I denne delen har vi analysert høy -kvalitet genuttrykk profilering data kollektivt ~ 600 pasientprøver, og vår metode gir lett klynger av lunge ADCA pasienter med forskjellige kliniske overlevelse utfall og identifiserer gen signaturer, som, når kontrolleres ved hjelp av helt uavhengige datasett, er i stand til å skille lunge ADCA pasientene inn undergrupper med signifikant forskjellig total overlevelse (p-verdier 0,05). Vi kunne replikere våre funn ved hjelp av helt uavhengige datasett. Statistiske analyser er gjennomført for å demonstrere robusthet av resultatene.
Vi bruker SPARCoC å analysere genuttrykk profiler av lunge adenokarsinom (ADCA) pasienter og presentere resultatene av molekylære inndeling i undergrupper og prognostisk gen signatur oppdagelse. Basert på hel-genom genekspresjon profilering av lunge ADCA pasienter, SPARCoC klynger pasientenes i forskjellige undergrupper; og pasienten total overlevelse er vesentlig forskjellig blant undergrupper. Det bidrar til å identifisere kreft genet signaturer, som, når bekreftet med helt uavhengig genuttrykk profilering data, kunne skille lunge ADCA og scene jeg lunge ADCA pasientene inn i undergrupper med ulike kliniske overlevelses utfall.
Legg merke til at de resultatene som presenteres her er basert på genuttrykk profilering dataanalyse bare, uten å innlemme noen annen funksjon utvalg, eller klinisk informasjon, som er forskjellig fra andre analyser i litteraturen (f.eks [34, 35, 15] ). Men fortsatt kan vi se at vi er i stand til å gjenskape våre funn med helt uavhengige datasett
.
For testing og verifisering, vi bruker i vår studie følgende datasett med genuttrykk profiler av kollektivt mer enn 600 lunge ADCA pasientprøver; disse store datasett er av høy kvalitet og er samlet inn med omfattende klinisk informasjon av kreftpasienter.
datasett som brukes
Jacob datasett.
442 ADCA prøver, med genekspresjon og kliniske data fra National Cancer Institute (NCI) direktørens Challenge Consortium [11]. Dette datasettet består av 4 ulike pasient kohorter, inkludert Toronto /Canada (TC, n = 82, med scene jeg n = 57), Memorial Sloan-Kettering Cancer Center (MSKCC, n = 104, med scene jeg n = 62), H . Lee Moffit Cancer Center (HLM, n = 79, med scene jeg n = 41), og University of Michigan Cancer Center (UM, n = 177, med scene jeg n = 116). Lignende som i [15], datasett TC og MSKCC er satt sammen kalt TM (n = 186), og datasett HLM og UM kombinert sammen kalt HM (n = 256).
ACC datasett.
117 ADCA prøver av Aichi Cancer Center, hentet fra https://www.ncbi.nlm.nih.gov/geo, tiltredelse antall GSE13213 [36].
GSE5843 datasett.
46 ADCA prøver (stadium IA 16 prøver; stadium IB 30 prøver)., hentet fra https://www.ncbi.nlm.nih.gov/geo, tiltredelse antall GSE5843 [37]
Det er kjent at lungekreft er den ledende årsak til kreft dødsfall på verdensbasis (https://seer.cancer.gov/statfacts/). Nesten 50% av pasienter med trinn I og II ikke-småcellet lungekreft (NSCLC) til slutt dør av tilbakevendende sykdom til tross for kirurgisk reseksjon. Det er meningsfullt å oppdage lungekreft molekylære undergrupper med forskjellige kliniske utfall slik at hver molekylær subtype har foreslått retningslinjer for behandling som inkluderer spesifikke analyser, målrettet terapi, og kliniske studier. Det er imidlertid vanskelig å studere de subtile heterogene forskjeller i molekyl subtyper av lunge adenokarsinom (ADCA), og særlig de av stadium I lunge ADCA, uten tilgang til klynger fra kraftig ukontrollert clustering tilnærminger, slik som den nye gruppering rammeverket SPARCoC utviklet her (se ytelsen sammenligning av vår clustering tilnærming og NMF eller Hclust i forrige avsnitt og S1-fil).
clustering lunge adenokarsinom (ADCA) pasienter
Distinkte undergrupper av pasienter med TM og HM datasett.
TM og HM datasett ble brukt som trenings datasett for vår analyse.