PLoS ONE: Bayesiansk hierarkisk Clustering for å studere kreft genuttrykk data med ukjent Statistics

Abstract

Clustering analyse er et viktig verktøy i å studere genuttrykk data. Den Bayesiansk hierarkisk clustering (BHC) algoritme kan automatisk utlede antall klynger og bruker bayesiansk modell utvalg for å forbedre clustering kvalitet. I denne artikkelen presenterer vi en forlengelse av BHC algoritmen. Vår Gaussian BHC (GBHC) algoritme representerer data som en blanding av Gaussiske fordelinger. Den bruker normal-gamma fordeling som et konjugat tidligere på gjennomsnittet og presisjonen av hver av de Gaussisk komponentene. Vi testet GBHC over 11 kreft og 3 syntetiske datasett. Resultatene på kreft datasett viser at i prøven clustering, GBHC i gjennomsnitt produserer en gruppering partisjon som er mer konkordant med bakken sannheten enn de som oppnås fra andre vanlige algoritmer. Videre GBHC utleder ofte antall klynger som ofte er nær bakken sannheten. I genet clustering, GBHC produserer også en gruppering partisjon som er mer biologisk plausibel enn flere andre state-of-the-art metoder. Dette tyder GBHC som et alternativ verktøy for å studere genuttrykk data

Gjennomføringen av GBHC er tilgjengelig på https://sites.google.com/site/gaussianbhc/

Citation. Sirinukunwattana K , Savage RS, Bari MF, Snead DRJ, Rajpoot NM (2013) Bayesiansk hierarkisk Clustering for å studere Cancer Gene Expression data med ukjent statistikk. PLoS ONE 8 (10): e75748. doi: 10,1371 /journal.pone.0075748

Redaktør: Ferdinando Di Cunto, Universitetet i Torino, Italia

mottatt: 1 mars 2013, Godkjent: 19 august 2013; Publisert: 23 oktober 2013

Copyright: © 2013 Sirinukunwattana et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Korsuk Sirinukunwattana er delvis finansiert av Qatar National Research Fund gi no. NPRP5-1345-1-228 og dels ved Institutt for informatikk, Universitetet i Warwick. RSS erkjenner støtte fra en Medical Research Council biostatistikk Fellowship (G0902104). MFB erkjenner støtte fra Higher Education Commission og Dow University of Health Science, Pakistan. Finansiering for innsamling av lungevev var fra West Midlands lungevev Consortium. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Clustering analyse er et viktig verktøy i å studere genomisk data som genuttrykk profiler og kan brukes til å antyde biologisk funksjon og regulering av gener. Eisen

et al. Product: [1] fant at i gjær

S. cerevisiae

, gener som er gruppert sammen deler ofte lignende biologisk funksjon eller er co-regulert, fører til erkjennelsen av at gener i samme klynge kan være funksjonelt relatert eller regulert av et felles sett av transkripsjonsfaktorer. Det har blitt vist i litteraturen at den biologiske funksjon av en klynge kan utledes fra ontology annotering av dets gener [2], og biologisk funksjon av et uncharacterized gen kan også utledes fra kunnskap om gener i sin klynge [3], [ ,,,0],4]. Videre, i moderne medisinsk forskning, klyngeanalysen er blitt brukt for å identifisere sykdoms subtyper basert på genetisk variasjon [5], [6], og for å identifisere et gen ekspresjon signatur som kan anvendes som en prognostisk markør for kjente sykdoms subtyper [7] – [9]. Dette hjelpemidler lagdeling av pasienter for personlig medisin.

Mange brukte clustering algoritmer har en betydelig begrensning i at de er avhengige av

ad hoc

metoder for å identifisere antall klynger innenfor data. I hierarkiske clustering algoritmer [10] – [12], for eksempel, å identifisere antall klynger avhenger i hovedsak av visuell identifikasjon, mens antall klynger er nødvendig som en inngang til andre algoritmer, for eksempel en anordning [13] og selvorganiser kart [14]. Videre er mange clustering algoritmer krever valg av en avstand beregning for å indikere styrken av likheten /ulikhet mellom datapunkter eller klynger. Det er imidlertid lite systematisk veiledning om hvordan du velger en beregning for data som genuttrykk målinger som gjenspeiler rimelig godt forholdet mellom data. Ofte er det vanskelig å definere forholdet, særlig i høy-dimensjonale rommet. To vanlige valg av beregninger i genet clustering analyse litteratur er Euklidsk avstand og Pearson korrelasjonskoeffisient [15]. Imidlertid er euklidsk avstand følsom for skalering og forskjeller i gjennomsnitt. Pearson korrelasjonskoeffisient kan bare fange opp lineært forhold mellom data og det er ikke robust til utliggere og ikke-gaussisk fordeling [16]. Modellbaserte clustering algoritmer kan løse begge disse problemene. I modellbaserte algoritmer blir data representeres ved en blanding modell [17], [18] av parametriserte fordelinger, hvor hver komponent representerer en annen klynge. Problemene med hvordan å identifisere antall klynger og avstanden beregningen kan derfor bli kastet som modell utvalg problem -. Hvordan du velger en statistisk modell som best beskriver dataene

Bayesiansk hierarkisk clustering (BHC) [19 ], [20] er et modellbasert clustering algoritme basert på Dirichlet-prosessen blandingen modell (DPM) [18], [21], [22]. Den har sterke fordeler fremfor andre modellbaserte tilnærminger. Først, det gir en hierarkisk clustering struktur som er mer informativ enn en flat en. For det andre bruker den bayesianske modellen utvalget å bestemme hierarkisk struktur, snarere enn en

ad hoc

avstand metrisk, og dermed øke kvaliteten på resulterende klynger. Multinomisk BHC (MBHC) [23] representerer dataene i hver blanding komponent som et produkt av MULTINOMIAL likelihoods, underlagt en Dirichlet før, og har vist seg å produsere høyere dendrogram renhet og mer biologisk menings klynger enn andre vanlige algoritmer for

Arabidopsis thaliana

microarray datasett [23]. Men ved å bruke MULTINOMIAL likelihoods krever algoritmen en kategorisk tilnærming av en kontinuerlig variabel. Dette kan derfor ikke fullt ut fange den underliggende strukturen av kontinuerlige genuttrykk data. Gaussian likelihoods er et åpenbart alternativ her, som de ikke krever data tilnærming og har blitt brukt for å beskrive genuttrykk data i mange clustering analyser. Tidligere arbeid på ekspresjons-datasett av eggstokk og gjærcellesyklus viser at modellbaserte clustering algoritmer som bruker finite Variabelt blanding modell gi sammenlignbare kvalitets klynger til en ledende heuristisk gruppering algoritme, selv om dataene ikke helt tilfreds Gaussisk blanding antagelse [24]. I en sammenlignende studie av clustering algoritmer for kreft genuttrykk data, gitt det faktiske antall klynger, er endelig Gaussian modell tilnærming leder i tildele data til riktig klynge [25]. Rasmussen

et al.

[26] foreslår en modellbasert clustering algoritmen med uendelig Gaussian blanding modell for å studere Rosetta kompendium av uttrykk profiler av

S. cerevisiaie

, og finner ut at clustering resultatene ikke bare bekrefte tidligere utgitt clustering analyser, men også avdekke finere clustering nivå som er nye og biologisk konsekvent.

I denne artikkelen foreslår en utvidelse av BHC algoritme for gen uttrykk data som vi kaller som Gaussian BHC (GBHC). GBHC tilbyr flere fordeler i forhold til andre grupperingsalgoritmer: for det første, den antar en uendelig gaussisk blanding modell for genuttrykk data, noe som har vist seg å være biologisk plausibel i litteraturen [24] – [26]; sekund, den benytter blandingen modellen i et bayesisk rammeverk for å utføre en modellbasert hierarkisk gruppering av genekspresjon data avslører hierarkisk struktur som er tilstede i dataene; tredje, utleder det antall klynger automatisk fra dataene; og fjerde, bruker den Gaussian blanding forutsetning for å beskrive data og bruker en normal-gammafordelingen som et konjugat før på ukjente midler og presiseringer av Gaussisk likelihoods. Vi introduserer to varianter av GBHC: ett med hyperparameter optimalisering over hele treet (GBHC-TREE), og en annen med hyperparameter optimalisering på hver fusjon (GBHC-NODE). Videre kan vi utlede et medgjørlig formulering for å påskynde hyperparameter optimalisering ved GBHC-NODE, noe som resulterer i en hastighetsøkning faktor på opp til 11 i løpet av GBHC-TREE. Vi sammenligner disse to algoritmene med en rekke andre clustering metoder, utføre en studie over 3 syntetiske datasett og 11 kreft genekspresjon datasett. Resultatene viser at selv om dataene er ikke veldig godt representert med en blanding av Gaussiske fordelinger, begge variantene fortsatt forbedre clustering kvalitet hvis dataene er normalisert og ikke har sterk sammenheng mellom variablene. I gjennomsnitt, begge smaker av våre GBHC algoritmen produserer clustering resultater som sammenligner gunstig til de eksisterende tilnærminger.

Materialer og metoder

Betegnelser

Bayesiansk hierarkisk Clustering algoritme

BHC [19] forutsetter at data er generert fra en blanding modell, hvor hver klynge i data svarer til en forskjellig fordeling komponent av modellen. Anta at datapunktene i en klynge er uavhengig og identisk generert fra en sannsynlighetsmodell med ukjente parametre, og styres av en tidligere med hyperparameters. Dermed blir marginale sannsynligheten for kan uttrykkes ved (1) Algoritmen plasserer utgangspunktet hvert datapunkt i sin egen trivielt klynge og iterativt fusjonerer de to mest lignende klynger, inntil alle datapunktene er satt inn i en enkelt klynge. Denne fusjonsprosessen kan representeres ved en dendrogram (figur 1A).

A) En dendrogram representerer fusjonsprosessen av BHC. Hver vertikal linje representerer en klynge. En horisontal linje som forbinder mellom to vertikale linjer representerer en sammenslåing av klynger, der høyden er relatert til ulikhet tiltaket mellom de fusjonerte klynger. B) En skjematisk viser datasett og fusjonert inn i, hvor og er forbundet fusjoner som gjør, og henholdsvis. C) BHC svisker dendrogrammet på, noe som resulterer i den endelige partisjon.

Ideen om likhet mellom klynger er knyttet til sannsynligheten for at de skulle bli slått sammen. Dette er definert basert på Bayesiansk hypotesetesting som følger. For å fusjonere klynger og inn (figur 1B), anser BHC nullhypotesen: og tilhører, og den alternative hypotesen: består av to eller flere klynger. Sannsynligheten for at og bør slås sammen er beregnet til ved Bayes regel: (2) hvor en marginal sannsynlighet defineres rekursivt ved (3) er en marginal sannsynlighet for gitt i ligning (1), og er en tidligere som og bør flettes og defineres rekursivt ved (4) (5) hvor vi satt, og for hver første klynge. Vi merker oss at definisjonen av definert her gjør ligning (3) en tilnærming av en marginal sannsynligheten for DPM. Dessuten er verdien av konsentrasjonen parameter som er koblet til det forventede antall klynger som BHC trekker slutninger. En økning av innebærer en økning i forventet antall klynger.

I, og det er mer sannsynlig å tilhøre det samme område enn ved. Derfor får vi det endelige antall klynger og partisjonen når alle de gjenværende parene av fusjonen har (figur 1C).

The Marginal Sannsynligheten for Gaussian Distribution med Unknown Mean og Precision

Tenk et datasett hvori hver observasjon består av variabler, det vil si. Vi antar at

En en datasettet er normalisert, dvs. at det har bety null og en enhet varians;

En to for hver observasjon, variablene er uavhengige og generert fra ulike Gaussian distribusjoner;

en 3 de erkjennelser av hver variabel, i klyngen er uavhengige og identisk fordelte og trukket fra Gauss-fordeling med ukjent mener og presisjon, og den tidligere på er en normal-gamma fordeling med hyperparameter.

sannsynlighetstetthetsfunksjon av en gaussisk fordeling er definert som (6) og sannsynlighetstetthetsfunksjonen for et normal-gamma fordelingen er definert som (7)

fra ovennevnte antagelser, den marginale sannsynligheten for kan uttrykkes (8) hvor (9) og (10) (11) (12) (13) Ved å utlede (8), blir hyperparameter som indikerer gjennomsnittet av parametersettet til å reflektere Forutsetning A1. Ligning (8) er alt som kreves for i GBHC.

Hyperparameter Optimization

GBHC utleder verdiene av hyperparameters ved å bruke informasjonen som forteller oss hvor godt clustering hierarkiet passer dataene. Denne slutning kan gjøres via to optimalisering ordninger som følger.

Optimization globalt over hele treet (tre). GBHC-TREE finner bare ett sett av optimale hyperparameters som passer hele data, og er gitt ved (14) hvor det er marginal sannsynlighet (3) av den endelige fusjonen i BHC. For å lære de optimale hyperparameters i dette tilfellet er kostbare siden de gradienter med hensyn til hyperparameters er analytisk vanskelige, med mindre strukturen til clustering hierarkiet er fast. (Se [19] for mer informasjon om optimalisering av i tilfelle at clustering hierarkiet er fast.)

Optimization på hver fusjon (NODE). GBHC-NODE finner optimale hyperparameters for hver fusjon i BHC ved å utføre (15) hvor (16) og vi antar at (17) (18) (19) sannsynlighetstetthetsfunksjonen fra en Gamma-fordeling definert ved (20) således stokken -likelihood funksjon i (16) kan skrives som, (21) og dets gradienter med hensyn til hyperparameters er (22) (23) (24) Se del S1 i Material S1 for avledninger av ligningene (22) – (24). Vi bruker svakt omfattende priors spissen hyperparameters i ligningene (17) – (19), forutsatt at data er normalisert, (25) Vi merker oss at ligning (15) er relatert til optimalisering av, i hvilken tilnærmelse og maksimering av dens bakre fordeling er vurdert. Vi kan se at GBHC-NODE finner den optimale strukturen for clustering hierarkiet i et enkelt løp ved å søke etter den beste fusjonen på hvert nivå mens hierarkiet er konstruert. Så det er mer tidseffektivt enn GBHC-TREE.

mulig begrensning av både optimalisering ordninger er at optimalisering objektive funksjoner (14), (15) kan være ikke-konveks. Dette vil resultere i GBHC-treet og GBHC-NODE bare finne hyperparameters som er lokalt optimal. Likevel, i våre eksperimenter med clustering syntetiske data og genuttrykk data, har begge ordninger lovende resultater.

Annet Clustering Algoritmer

Vi sammenligner GBHC-TREE og GBHC-NODE til andre clustering algoritmer i tabell 1. de algoritmer og deres likhet /ulikhet tiltak vil bli referert til ved de forkortelser som er angitt i tabellen. For eksempel, APE står for affinitet formering ved hjelp av negativ Euklidsk avstand. Videre benytter vi L-metoder [27] for å antyde antall klynger i AC, AE, CC, CE, KC, og KE, som er de algoritmer som krever forhåndsdefinert antall klynger.

i dette arbeidet, iverk vi GBHC-TREE, GBHC-NODE og MBHC i MATLAB. Vi bruker AP som er offentlig tilgjengelig på forfatternes webside (https://www.psi.toronto.edu/index.php?q=affinity\\%20propagation). Alle de resterende algoritmer kan bli funnet som MATLAB innebygde funksjoner.

De datasett

Syntetisk datasett.

GBHC-TREE og GBHC-NODE skal utføre veldig bra hvis forutsetninger A1-A3 er fornøyd. Imidlertid er virkelige ekspresjonsdata forventes å være ikke fullt ut tilfreds Gaussian blanding antagelse, og korrelasjonen mellom datavariable er mulig. Det er svært viktig å evaluere resultatene av GBHC-TREE og GBHC-NODE i forhold til de andre clustering algoritmer når noen av forutsetningene blir krenket. Her bruker vi syntetiske datasett for å studere GBHC-TREE og GBHC-NODE i tre forskjellige scenarier som følger (se avsnitt S2 i Material S1 for flere detaljer om hvordan dataene er generert)

Syntetisk Dataset1. Blanding av Gaussian fordelinger og uavhengige data variabler.

1000 observasjoner av 10-dimensjonal tilfeldig vektor er hentet fra en blanding av 7 multivariate Gaussian distribusjoner, hvor hver multivariate Gaussian distribusjon har diagonal kovariansmatrise. Så dataene er normalisert

Syntetisk Dataset2:.. Blanding av Gaussiske fordelinger og Korrelert datavariabler

I likhet med den første scenariet, er 1000 observasjoner av 10-dimensjonal tilfeldig vektor hentet fra en blanding av 7 multivariate gaussiske distribusjoner, men kovariansmatrisen av hver multivariabel gaussisk fordeling har de ikke-diagonale oppføringer som er ikke-null. Så dataene er normalisert

Syntetisk Dataset3:.. Blanding av flere fordelinger

Vi genererer 1000 observasjoner av 10-dimensjonal tilfeldig vektor fra en blanding av 7 ulike multivariate fordelinger. For de første 6 multivariate komponenter i en blanding, nemlig Gaussian, gamma, uniform, student t, Weibull, og chi-squared distribusjoner, tilfeldige variabler i ulike dimensjoner er uavhengige. For den siste multivariate komponent i en blanding som er en gaussisk fordeling, er det sammenheng mellom tilfeldige variabler i forskjellige dimensjoner. Dette datasettet er normalisert før bruk.

Gene Expression datasett.

Ytelsen til alle de nevnte clustering algoritmer vurderes gjennom 11 kreft datasett, som beskrevet i Tabell 2. Blood1, Blood2, Bone Marrow, Brain1, Brain2, Colon, Multi-tissue1, Multi-tissue2, Prostate1 lastes ned fra https://algorithmics.molgen.mpg.de/Static/Supplements/CompCancer/datasets.htm. Disse datasettene er allerede filtrert i henhold til den protokoll som er beskrevet i [25]. Vi forvandle hvert datasett ved og normalisere det før bruk.

Prostate2 er lastet ned fra Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) (GDS1439). Datasettet er forvandlet av og deretter filtrert av Wilcoxon rank-sum test på signifikansnivå 0,001. Testen blir utført mellom en gruppe av godartede og en gruppe av primær og metastatisk. Datasettet er normalisert før bruk.

Lung er tilgjengelig på Gene Expression Omnibus (GSE44447). Den microarray eksperiment av disse dataene ble gjennomført på Agilent SurePrint G3 Menneskelig Gene Expression 8 × 60 K mikromatriser (Agilent Technologies, Wokingham, UK), ved hjelp av lunge vev som ble etisk godkjent under Multiforskningsetiske komité (MREC) godkjenning. Eksperimentet er designet for å sammenligne genuttrykk profiler av to typer nært beslektede høy klasse nevroendokrine karsinomer, små cacinoma og stor celle nevroendokrin kreft, som er vanskelige å klassifisere riktig selv for lunge patologer. Den rå uttrykket data ble behandlet ved hjelp av R Bioconductor pakke

limma plakater (https://www.bioconductor.org/packages/2.10/bioc/html/limma.html), løss og quantiled normalisert og korrigert for batch effekt ved hjelp av

Combat plakater (https://www.bu.edu/jlab/wp-assets/ComBat/Abstract.html). Vi filtrere dette datasettet ved hjelp av Wilcoxon rank sum test for å teste forskjellen mellom normale og kreft grupper på signifikansnivå 0,001, og normalisere det før clustering.

Clustering Resultater Indekser

Vi bruker to beregninger for å evaluere ytelsen clustering: (i) justeres Rand indeks (ARI) [28], og (ii) biologisk homogenitet indeks (BHI) [29]. Ved gruppering av syntetiske data, ettersom den egentlige oppdeling av data klasser er kjent, ARI brukes som et mål på klynge avtale mellom skillevegg og den egentlige skillevegg. ARI Scorer en par av skillevegger mellom 0 og 1, og en høyere ARI poengsum indikerer høyere avtalen. Vi bruker også ARI i utvalget clustering eksperiment av genuttrykk data.

I genet gruppering av genuttrykk data, er vi interessert i hvordan biologisk menings clustering resultatene er. BHI brukes til å måle biologisk plausibilitet av gene clustering resultater generert av en algoritme. Det score en partisjon mellom 0 og 1, hvor en høyere poengsum vil bli tildelt til den mer biologisk homogen partisjon basert på en referanse sett av funksjonelle klasser. I dette tilfellet bruker vi Gene ontologi (GO) merknad i Bioconductor pakke (Seksjon S3, Tabell S1 i Material S1), mens BHI beregnes ved hjelp av R-pakken

clValid product: [30].

Resultater og>

ARI scorene til clustering algoritmer er vist i tabell 3, og antall klynger inferred av algoritmene er gitt i § S5, Tabell S2 i Material S1 . Detaljer om den eksperimentelle innstillingen kan også bli funnet i Seksjon S4 i Material S1. For visuell inspeksjon av clustering resultater, ansetter vi en dimensjon reduksjon tilnærming kalt t-Distributed Stochastic Neighbor Inkludering (t-SNE) [31] algoritme for å redusere dimensjonen av de opprinnelige syntetiske data i to-dimensjonale Euklidske rommet. t-SNE kart data ved å bevare den lokale strukturen; således data som er i det samme område vil bli plassert tett ved hverandre i den nedre-dimensjonale rommet. De visualiseringer av clustering Resultatene er vist i figurene 2, 3, 4.

klynger er representert ved forskjellige farger eller typer av markør. A) 7 faktiske klynger. B) Clustering resultat produsert av GBHC-TREE har 7 klynger. C) Clustering resultat produsert av GBHC-NODE har 7 klynger. D) Clustering resultat produsert av AE har 7 klynger.

Clusters er representert med forskjellige farger eller typer av markør. A) 7 faktiske klynger. B) clustering resultat produsert av GBHC-TREE har 14 klynger. C) clustering resultat produsert av GBHC-NODE har 37 klynger. D) clustering resultat produsert av KE har 4 klynger.

Clusters er representert med forskjellige farger eller typer av markør. A) 7 faktiske klynger. B) Clustering resultat produsert av GBHC-TREE har 22 klynger. C) Clustering resultat produsert av GBHC-NODE har 12 klynger. D) Clustering resultat produsert av KE har 5 klynger

Syntetisk Dataset1:.. Blanding av Gaussiske fordelinger og uavhengige data variabler

Når Forutsetningene A1-A3 er fornøyd, GBHC -tre og GBHC-NODE utkonkurrere de andre ved riktig utlede medlemskap datapunkter samt antall klynger. På den annen side, er det noen mindre til høy nedbrytning i clustering resultatene fra de andre algoritmene

Syntetisk Dataset2:.. Blanding av Gaussiske fordelinger og Korrelert datavariabler

I tilfeller der Assumption A2 er brutt, er forestillinger av GBHC-TREE og GBHC-NODE sterkt påvirket av sammenhengen mellom datavariabler. Fra figur 3, kan vi se at GBHC-TREE og GBHC-NODE antyde mange sub-klynger av selve ett. Årsaken er at en større klynge av korrelerte data gir et sterkere bevis for at dataene ikke blir generert fra modellen underliggende GBHC-TREE og GBHC-NODE. Dermed blir marginal sannsynlighet (8) blir mindre som klyngen blir større, og dermed GBHC-TREE og GBHC-NODE er i favør av å ikke slå sammen mindre grupper inn i en større en i henhold til Bayes «regel (2). I vårt eksperiment, har vi funnet at nedbrytningen avhenger både av antallet av korrelerte par av variable og graden av korrelasjon. Økningen i enten faktor resultater i økning i antall anslåtte under klynger (se avsnitt S5, Bord S3, S4 i Material S1 for detaljer)

Syntetisk Dataset3:.. Blanding av flere fordelinger

GBHC-TREE og GBHC-NODE er i stand til å gjenkjenne alle klynger som genereres fra ikke-Gaussiske fordelinger selv om utdelingene sterkt avvikende fra Gaussian distribusjon, gitt at Forutsetninger A1, A2 er fornøyd.

det er tydelig at den sterke korrelasjonen mellom datavariabler er den viktigste faktoren som begrenser ytelsen til GBHC-TREE og GBHC-NODE. Man kan prøve å transformere dataene for å redusere korrelasjonen mellom variablene før clustering, men man må huske på at omleggingen kan ødelegge betydningen av originale datavariabler. Til tross for nedbrytning i klynge resultater, GBHC-TREE og GBHC-NODE fortsatt overgår alle de andre metodene på en helhet.

genuttrykk Datasett

Vi sammenligningen prøve clustering og genet clustering forestillinger av GBHC- TREE og GBHC-NODE til de av andre algoritmer. Merk at i genet clustering, behandler vi sonder som observasjoner og uttrykket nivåer på tvers av forskjellige prøver som variabler. I prøven clustering, på den andre veien rundt, blir prøvene behandlet som observasjoner og uttrykket nivåer på tvers av forskjellige prober blir behandlet som variabler.

I prøven clustering, Tabell 4 viser at GBHC-NODE og GBHC-TREE gi høyeste ARI i 4 datasett (Blood2, Multi-tissue2, Prostate1, Prostate2) og 2 datasett (benmarg, Prostate2), henholdsvis. De andre algoritmer gi den høyeste ARI innen høyst 2 datasett. De tre første algoritmer med høyest gjennomsnitts ARI er GBHC-NODE, GBHC-treet, og CC. Det er imidlertid ingen signifikante forskjeller mellom dem (p-verdi, seksjon S6, Table S5 i Material S1). Når det gjelder nøyaktighet i dedusere antall prøve klasser (§ S6, Bord S6, S7 i Material S1), de tre første algoritmer i gjennomsnitt er GBHC-TREE, KE, og GBHC-NODE, men det er noen vesentlige forskjeller mellom dem . (p-verdi; Seksjon S6, Table S8 i Material S1)

For genet clustering, Tabell 5 viser at GBHC-NODE og GBHC-TREE gi best BHI i 2 datasett (Brain1, Multi -tissue2) og en datasettet (lunge), respektivt, mens den maksimale og gjennomsnittet av antall data at hver algoritmen gir den beste BHI er 3 og 1,17, respektivt. I gjennomsnitt de tre første algoritmer med høyest gjennomsnitts BHI er APE, GBHC-NODE, og GBHC-TREE. Igjen, det er ingen signifikante forskjeller mellom dem (p-verdi, Seksjon S7, Tabell S10 i Material S1). Antallet gensamlingene inferred av algoritmer kan også bli funnet på Seksjon S7, Tabell S11 i Material S1.

Når det gjelder kjøretiden (§ S6, Table S9 og § S7, Table S12 i Material S1), GBHC-TREE og GBHC-NODE er tregere enn ikke-BHC metoder på grunn av deres høye beregnings belastning, bidro fra den statistiske modellen og hyperparameters optimalisering. Som forventet, vil GBHC-TREE og GBHC-NODE ikke alltid gjør det bedre enn andre clustering algoritmer i hvert datasett siden underliggende strukturen av naturlig data er mer komplisert og generelt ikke er i samsvar med forutsetningene A1-A3. Likevel kan vi se fra resultatene som GBHC-TREE og GBHC-NODE er de eneste algoritmer som i gjennomsnitt produserer høyere kvalitet for både prøven og genet clustering. Dessuten er de mer sannsynlig å antyde antall prøve klasser som er nær den faktiske ett.

Sammenligning mellom BHC algoritmer.

I forhold til MBHC, for prøve clustering, GBHC-NODE og GBHC-TREE produsere høyere ARI enn MBHC, men GBHC-NODE gir betydelig høyere resultat (§ S6, tabell S5 i Material S1). Dessuten gir de betydelig lavere forskjell mellom utledes og faktisk antall prøveklasser enn MBHC (§ S6, tabell S8 i Material S1). Når det gjelder kjøring, kjører GBHC-NODE rundt 4 ganger raskere enn MBHC, og rundt 11 ganger raskere enn GBHC-TREE i prøven clustering (§ S6, Table S9 i Material S1). For genet clustering, kjører GBHC-NODE rundt 1,2 ganger raskere enn MBHC og rundt 6,3 ganger raskere enn GBHC-TREE (§ S7, Tabell S12 i Material S1). Vi merker oss at GBHC-TREE og MBHC kjøre saktere enn GBHC-NODE fordi deres hyperparameter optimaliseringer er mer beregningsintensive, som de krever clustering resultat av hele data for å vurdere objektivfunksjonen. Dermed GBHC-TREE og GBHC-NODE gevinst forbedret clustering kvalitet, og GBHC-NODE får også en speed-up.

Konklusjoner

I denne artikkelen har vi presentert en modellbasert clustering algoritmen som sysselsetter en Gaussian blanding modell til modell genuttrykket profilene i en bayesiansk rammeverk. Den foreslåtte algoritme, betegnes som den gaussiske BHC eller GBHC, bruker en gaussisk modell blanding sammen med en normal-gamma forut for de ukjente midlere og presisjon parametere av blandingens bestanddeler for å fange opp den indre struktur av dataene. Vi foreslo to varianter av GBHC algoritme: GBHC-TREE og GBHC-NODE, i henhold til to forskjellige hyperparameter optimalisering ordninger. En omfattende sammenligning mellom disse variasjonene og andre kjente clustering algoritmer ble gjennomført basert på 3 syntetiske datasett og 11 kreft datasett. De eksperimentelle resultatene på syntetisk datasett viste at GBHC-TREE og GBHC-NODE, generelt bedre enn de andre clustering algoritmer dersom opplysningene var normalisert, og kan være godt representert av en blanding av multivariate Gaussian distribusjoner der hver varians var uavhengig av de andre. Selv om dataene ble svært merkelig fra en blanding av multivariate Gaussian distribusjoner eller hadde moderat grad av korrelasjon mellom variabler, GBHC-NODE og GBHC-TREE fortsatt bedret clustering resultater. For genekspresjon clustering, både GBHC-TREE og GBHC-NODE ga sterke prestasjoner på hele. De konsekvent produsert høyere kvalitet for både prøven og genet clustering og var mer sannsynlig enn de andre clustering algoritmer i dedusere antall faktiske prøve klasser. Sammenlignet med MBHC som er en tidligere utvidelse av BHC for microarray data, de GBHC algoritmer hadde også bedre clustering forestillinger. Videre vår formulering av log-sannsynligheten tillatt oss å bruke et konjugat gradientalgoritme til effektivt å finne optimale hyperparameters fører til GBHC-NODE-varianten blir i gjennomsnitt over 10 ganger raskere enn GBHC-TREE variant av vår algoritme uten at det går clustering ytelse.

tilgjengelighet

MATLAB gjennomføring av GBHC-TREE og GBHC-NODE er tilgjengelig på https://sites.google.com/site/gaussianbhc/

Hjelpemiddel Informasjon

Material S1.

Bayesiansk hierarkisk clustering for å studere kreft genuttrykk data med ukjent statistikker doi:. 10,1371 /journal.pone.0075748.s001 product: (PDF)

Takk

forfatterne takker Katherine A. Heller for å dele sin kode for den opprinnelige BHC algoritmen.

Legg att eit svar