PLoS ONE: Kreft Undergruppe Discovery og Biomarker Identification via en ny robust nettverk Clustering Algorithm

Abstract

I kreft biologi, er det svært viktig å forstå de fenotypiske endringer av pasienter og oppdage nye kreft subtyper. Nylig har microarray-baserte teknologier belyse dette problemet basert på genuttrykk profiler som kan inneholde uteliggere skyldes enten kjemiske eller elektriske årsaker. Disse uoppdagede subtyper kan være heterogene med hensyn til underliggende nettverk eller trasé, og er i slekt med bare noen få av gjensidig avhengige biomarkører. Dette motiverer et behov for robuste genekspresjon baserte metoder som kan oppdage slike subtyper, belyse de tilsvarende nettstrukturer og identifisere kreftrelaterte biomarkører. Denne studien foreslår en utvist modellbasert Student t clustering med ubegrenset samvariasjon (PMT-UC) for å oppdage kreft subtyper med klasespesifikke nettverk, tar genet avhengig hensyn og ha robusthet mot utliggere. I mellomtiden er biomarkør identifisering og nettverk rekonstruksjon oppnås ved å pålegge en adaptiv straff på midlene og inverse skala matriser. Modellen er utstyrt via forventningen maksimering algoritmen utnytte det grafiske lasso. Her, en nettverksbasert genet utvalgskriterium som identifiserer biomarkører ikke som enkeltgener, men som subnett er brukt. Dette gir oss muligheten til å implisere lave diskriminerende biomarkører som spiller en sentral rolle i subnettet ved sammenkobling av mange forskjellig uttrykte gener, eller har cluster-spesifikke underliggende nettverksstrukturer. Resultatene fra eksperimentet på simulerte datasett og en tilgjengelig kreft datasett attest til effektiviteten, robusthet av PMT-UC i kreft subtype oppdage. Moveover har PMT-UC muligheten til å velge kreftrelaterte biomarkører som har blitt verifisert i biokjemisk eller biomedisinsk forskning og lære den biologiske signifikant sammenheng mellom gener

Citation. Wu MY, Dai DQ, Zhang XF, Zhu Y (2013) Kreft Undergruppe Discovery og Biomarker Identification via en ny robust nettverk Clustering algoritme. PLoS ONE 8 (6): e66256. doi: 10,1371 /journal.pone.0066256

Redaktør: Zhi Wei, New Jersey Institute of Technology, USA

mottatt: 08.02.2013; Godkjent: 02.05.2013; Publisert: 17 juni 2013

Copyright: © 2013 Wu et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Bevilgninger gitt av Science Foundation National of China (90920007, 11171354), og Kunnskapsdepartementet i Kina (20120171110016). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

med stadig akkumulering av genom-wide uttrykk profiler blir microarray-basert metode en viktig teknikk for å identifisere kreftrelaterte gener (biomarkører) og oppdage nye kreft subtyper [1]. Sammenlignet med kliniske og patologiske risikofaktorer, som for eksempel pasientens alder, tumorstørrelse, og steroid reseptor status, forstå de underliggende genene kan få innsikt i kreft fysiologi [2] – [4], og er mer effektivt for påvisning av nye kreft subtyper, slik som brystcancer [5], [6], eggstokk-kreft [7], tykktarmskreft [8]. Disse subtyper kan ha forskjeller i gen eller protein ekspresjon, gen regulerende eller proteinaliserte nettverk [9]. Forutsi disse subtyper fra genuttrykk profiler kan sees på som en gruppering problem, og finne genene for prediksjon kan betraktes som et problem av varierende utvalg fra high-dimensjonale umerkede data.

En utfordring for kreft subtype funnet er at forskjellene i nettverket eller sti nivå på tvers av disse subtyper kan gjøre konvensjonelle clustering tilnærmingene basert på genekspresjon profiler forskjeller utilstrekkelige [9]. Oppdagelsen av disse nettverkene og trasé er meget viktig for å forstå den kollektive biologiske funksjon av gener og deres innvirkning på de fenotypiske endringer av pasientene [9] – [12]. I tillegg er biomarkører ofte uavhengig valgt basert på deres diskriminerende evner [13]. Men genene ofte behov for å samhandle med andre for å delta i noen biologiske prosesser eller molekylære funksjoner [14] – [17]. Noen av dem kan ikke uttrykt forskjellig, men hører til et delnettverk som har samlet diskriminerende aktivitet eller en nyttig vei for en spesifikk subtype [3], [9], [18]. Derfor er oppgaven med å oppdage de undertyper, belyse deres tilsvarende nettverksstrukturer, og plukke ut nettverksbaserte biomarkører fortsatt svært viktig i biomedisinske felt.

Det finnes ulike clustering metoder anvendt på genuttrykk datasett for partisjone biologiske prøver [19]. Den modellbasert gruppering som har en solid sannsynlighets rammeverket er mye brukt i biomarkør og kreft subtype oppdage på grunn av sin gode ytelse, interpretability og enkel implementering [20]. I dag er det genet utvelgelse av de fleste fremgangsmåter utformet ved å pålegge begrensninger straff på sannsynligheten for å oppnå en sparsom løsning.

For det straffet modellbaserte gruppering, for å redusere antall parametere, en felles forutsetningen er at hver gruppe har en diagonal kovariansmatrise, slik at genene er antatt å være uavhengige. Hver klynge er ofte modellert som tilfeldig variabel trukket fra blanding Gaussian distribusjon, og kombinert med flere straffer, som straff, adaptive straff og gruppe straff [21], [22]. Siden log-sannsynligheten for Gaussian distribusjon henfaller kvadratisk med avstanden fra sentrum, er det følsomt for uteliggere som vanligvis observert i microarray eksperimenter på grunn av enten kjemiske eller elektriske årsaker [23]. En mer robust straffet modellbasert Student t clustering med diagonal samvariasjon (PMT-DC) er innført i [24] for å håndtere støy og ekstreme gener. De gir også en måte for rangering gener i henhold til deres bidrag til klynging prosessen med bootstrap prosedyre. Men metodene ovenfor ignorere avhengigheter mellom gener innenfor kreft subtyper. En ordnet Gaussian blanding modellen er foreslått å ta ulike avhengigheter i betraktning ved å tillate en behandling av generelle kovariansmatrisene. En forventning maksimering (EM) algoritme utnytte det grafiske lasso brukes for parameterestimering, og oppnår bedre subtype oppdager ytelse og genet utvalg [20]. Som et mellomprodukt mellom en diagonal og en generell kovariansmatrise, en annen idé som innføres modellering av en kovariansmatrise ved hjelp av noen latente variabler som gjøres i blandingen av faktor analysatorer [25]. Den har flere begrensninger og er mer kompleks enn den metode basert på en ubegrenset kovariansmatrise. Imidlertid er det mer effektivt hvis noen latente variabelen-indusert kovarians antagelse har i genekspresjonen datasett. Begge metodene har vanskelig for å forholde seg til uteliggere på grunn av deres Gaussian forutsetning. Disse konvensjonelle straffet modellbaserte metoder bare velge gener basert på middelresponsen, og ignorere deres implikasjoner for de underliggende nett eller veier som er svært viktig for å forstå den kollektive biologiske funksjon.

Motivert av de utfordringene som utgjøres av underliggende nettverk eller trasé og uteliggere observert i høy-dimensjonale genuttrykk datasett, og begrensningene i de ovennevnte metoder, denne studien foreslår en utvist modellbasert Student t clustering med ubegrenset samvariasjon (PMT-UC) for kreft subtype oppdagelse og biomarkør identifikasjon. Den nye foreslåtte metoden er basert på multivariat Student t-fordeling som gjør at algoritmen ikke bli påvirket av ekstreme eller uvanlige gener. I motsetning til PMT-DC med den uavhengige forutsetning for å vurdere forholdet mellom gener og oppdage kreft undertyper som skiller seg i form av underliggende nettverksstrukturer, er en klynge-spesifikk ubegrenset kovarians anvendt i stedet for diagonal kovarians. Utviklingen av algoritmer for beregning sparsom grafer ved å påføre en straff for den inverse kovariansmatrisen [26], [27] gjøre tanken om at det å ta genet avhengighet hensyn til gjennomførbart. Vi ilegge en adaptiv straff på midlene og inverse skala matriser for å oppnå nettverksbasert biomarkør identifisering og nettverk gjenoppbygging. Modellen er montert via en EM-algoritme ved å utnytte den grafiske lasso. Et nytt gen utvalgskriterium er innført for å finne følgende informative gener: gener som har cluster-spesifikke midler, gener som ikke er forskjellig uttrykt men samhandler med noen diskriminerende gener for å danne en felles biologisk funksjon, og gener som har klasse- spesifikke underliggende nettverksstrukturer. Ved å bruke den nye modellen til simulerte datasett og en offentlig tilgjengelig kreft datasettet, viser vi at algoritmen er robust mot utliggere på clustering, genet utvalg og nettverk gjenoppbygging prosesser samtidig, og gir konkurransedyktige resultater med state-of-the-art algoritmer på oppdage nye kreft subtyper. Mange identifiserte biomarkører har blitt bekreftet i biokjemisk eller biomedisinsk forskning. The Gene ontologi (GO) analyse viser at genene i samme subnettet valgt av den nye foreslåtte metoden har betydelig biologisk og funksjonell sammenheng.

Metoder

Denne delen introduserer straffet modellbaserte Student t clustering med ubegrenset samvariasjon (PMT-UC) for å velge et få antall gener, som kan brukes til å klassifisere prøvene til naturlig forekommende grupper, og å oppdage sammenhengen mellom gener.

rammen av PMT -UC

Anta at det finnes uavhengige dimensjonale prøvene, der representerer genekspresjon av gener. Genene har blitt standardisert for å ha en gjennomsnittlig 0 og varians 1 over observasjoner.

Hver prøve er ment å komme fra en blanding fordeling med komponenter som sannsynlighetstetthetsfunksjonen er (1) hvor inkluderer alle parametere i modellen, er det nonnegative blande andelen for komponent med, og er de ukjente parametrene som er satt tilsvarende.

Hver komponent er spesifisert som multivariat Student t-fordeling med parametre satt, der er plasseringen parameter, er omfanget matrise og er antall frihetsgrader. Det har sannsynlighetstettheten (2) hvor er gammafunksjonen, og betegner Mahalanobis squared avstanden mellom og. Middelverdien og kovariansmatrisen av hver Student t-distribusjon er og Henholdsvis. Generelt kan det parametersettet bli estimert ved å maksimere den log-sannsynlighetsfunksjonen.

Da imidlertid antall gener er ofte mye mer enn det antall prøver, er sannsynligvis entall maksimum sannsynlighetsestimering av. Den inverse matrisen skala er betegnet som med elementene. I de siste årene har en rekke forfattere innføre mange måter for å gi en positiv bestemte kovarians ved å øke sparsity av [26], [27]. Strukturen av et nettverk er vanligvis konstruert på grunnlag av korrelasjon eller partielle korrelasjons [28]. I dette papiret, kan den partielle korrelasjons være avledet fra den inverse matrisen skalaen. Den partielle korrelasjons brukes i stedet for korrelasjon for å presentere forholdet mellom to gener på grunn av sin evne til å faktorisere ut påvirkning av andre gener. Derfor kan reflektere forholdet mellom genene for klynge og kan betraktes som nettverkene eller trasé for gener. Uttalelsen om at de fleste gener (genprodukter) bare samhandle med noen få gener (genprodukter) indikerer sparsity av i form av biologisk tolkning [15]. Vi ilegge en adaptiv straff på diagonalen elementer å forholde seg til sparsity av [29].

I tillegg er sparsity av gjennomsnittet i betraktning, som ofte brukes for genet valg. Den midlere baserte diskriminerende genet er definert til å ha cluster-spesifikke midler, uansett om den har en felles eller cluster-spesifikk avvik [20]. Spesifikt har den i det minste ett ikke-null ettersom prøver har blitt standardisert for å ha midlere 0 for hvert gen. Derfor pålegger vi en adaptiv straff på hver for å krympe den til null [29].

Så basert på det straffet log-sannsynlighetsfunksjonen som består av log-sannsynlighetsfunksjonen og straff sikt, objektivfunksjonen av PMT- UC bli maksimert er som følger: (3) der, og omfatter de ikke-negative regulariseringen parametere og for r og s henholdsvis. Regularisering parametere kontrollere sparsity av modellen. Jo større verdien av og vil være flere gener noninformative og uavhengig. Den adaptive straff er et vektet versjon av straffen med en vekt eller for hver komponent. Det oppnår de tre ønskelige egenskaper samtidig som kan produsere sparsom løsninger, sikre konsistens av modellvalg, og resultere i objektive anslag for store koeffisienter [30].

Inference Algoritme

Denne studien bruker forventning Maksimalisering (EM) algoritme [31] for å optimalisere objektfunksjonen for gitt, fast og. Som i [20], [24], hver prøve er antatt å ha en tilsvarende usett indikator vektor som angir hvilken blandingen komponent som hører til. Hvis kommer fra komponent da, ellers. Gitt, følger en Student t-fordeling med funksjon sannsynlighetstettheten. I henhold til det faktum at Students t fordeling kan skrives som en multivariabel gaussisk fordeling med kovariansmatrisen skalert med den resiproke verdi av en Gamma tilfeldig variabel, er den ytterligere manglende data innført, hvor hvert element av følger gammafordelingen [32]. Da straffet komplett-data log-sannsynligheten for det fullstendige data er (4) der kan uttrykkes som produktet av funksjoner sannsynlighetstettheten ved Gaussian og Gamma-distribusjoner (se tekst S1 for detaljer).

EM algoritmen gjelder iterativt en forventning (E) trinn for å beregne den forventede verdi av i forhold til den nåværende estimering av parameterne ved th iterasjon, og en maksimering (M) trinnet med å finne de oppdaterte parametre ved å maksimere, til å oppnå en stoppkriterium.

E trinn. Verdien av er avhengig av følgende tre forventninger (se tekst S2 for detaljer).

Siden følger multinomisk fordeling og kommer fra blandingen fordeling med sannsynlighetstetthet, verdien av er gitt ved (5)

kan betraktes som den bakre sannsynligheten for å tilhøre th klyngen. Ser at Gamma-fordelingen er konjugert til seg selv (self-konjugat) i forhold til en Gaussisk sannsynlighetsfunksjonen, har vi (6) og

(7) hvor det er Digamma funksjon [32].

M trinn. For det første er det oppdatering av gitt av equationwith begrensningen som

(8) For det andre, verdien av ved th iterasjon er en løsning av ligningen (9) hvor. I dette papiret, siden løsningen av (9) er i ikke-lukket form, er R-funksjonen «nlminb» brukt for å finne den numeriske løsningen for [24].

For det tredje tar man sikte på å maksimere ( 10) for å få tak i oppdateringen for. I trinn blir de adaptive vekt defineres til å være

(11) Parameteren blir innført for å tilveiebringe stabilitet og for å sikre at en null-verdi komponent kan unnslippe fra null i den neste iterasjon [33]. Når er for liten, har null-verdi komponent fremdeles så stor vekt at den vil forbli null i den neste iterasjon. Når er for stor, er det forskjellen mellom S eller S ikke signifikante og gjør at mange ikke-null-verdi komponenter, noe som resulterer i en komplisert og feilaktig modell. Det er blitt tildelt flere verdier i løpet av eksperimentet prosedyren. Det er vist som er hensiktsmessig. De første estimatene og er valgt som resultatene er estimert av straffen.

Ved å vurdere deriverbarhet av i forhold til for to tilfeller som og er oppdatering estimat som følger (se tekst S3 for detaljer) [20] : if (12) da; ellers

(13) Etter å slippe de vilkår som ikke er relatert til i, har vi (14) hvor

Dette optimaliseringsproblem kan løses ved hjelp av det grafiske lasso som den tilsvarende R pakke «glasso» er tilgjengelig på CRAN [27]. Den grafiske Lasso er utformet for å vurdere problemet med estimering av spredte grafer av en Lasso straff påført den inverse kovariansmatrisen [27]. Det blir først foreslått for maksimering av den gaussiske log-sannsynligheten for dataene med hensyn til kovariansmatrisen. Den nye foreslåtte fremgangsmåte tar hensyn til stedet for prøven kovariansmatrisen, der inneholder en posteriori informasjon av prøven, og kan redusere virkningen av utliggere på dette optimaliseringsproblem.

Modellvalg

det er tre parametere som må estimeres før PMT-UC-algoritmen, inkludert antall klynger, penalization parametere og. I denne utredningen er følgende vekt på ca. bevis (AWE) kriterium basert på en tilnærming til klassifisering log-sannsynlighet brukes til modellvalg: (15), hvor er den effektive antall parametere i modellen med og [34], [ ,,,0],35]. Det medfører en høyere straff på mer kompleks modell enn BIC og er i stand til å identifisere riktig antall klynger selv når komponent tettheter er misspecified [36], [37]. Et rutenett søk brukes til å finne den optimale som har minimum AWE.

Undergruppe Discovering via Clustering

Etter estimering av parametrene i PMT-UC, klynger kan da defineres som prøver følgende den tilsvarende fordeling som er bestemt av verdien av den bakre sannsynlighet. Gitt en prøve, PMT-UC spår kreft subtype av genuttrykk profil ved det som gir størst posterior sannsynlighet er det.

klargjørende det underliggende nettverket Structures

Vi kan da belyse cluster-spesifikk underliggende nettstrukturer basert på den inverse matrisen målestokk. En klynge spesifikke nettverk kan representeres som urettet graf, med genene som hjørnene og kanter som deres relasjoner basert på. Kantene koble de genene som delvis korrelasjoner stammer fra er større enn. Da et delnettverk er definert som et sett inneholdende gener og kanter som induserer en enkelt tilkoblet komponent i dette nettverket. Disse klasespesifikke subnett indikere de forskjellige relasjonene mellom gener med ulike kreft subtyper og regnes som de underliggende nettverksstrukturer.

Nettverksbasert Biomarker Identifikasjon

På grunn av at genene i en celle sjelden handle alene, men danner et nettverk av interaksjoner [14], er biomarkører identifisert som subnett av samspill gener i stedet for individuelle gener i denne artikkelen. Vi har nærmere bestemt for det første finne subnettene definert ovenfor. For det andre, i betraktning av det faktum at den støyende genet og informativ genet er ukorrelert med hverandre, [20], [38], subnettene som har minst en middelbaserte diskriminerende genet er valgt som subnettet biomarkører. Dette genet valgkriterium kan identifisere gener som ikke er uttrykt differensielt men kommuniserer med noen diskrimi gener for å danne en felles biologisk funksjon. Til slutt, de gjenværende subnettene av hvilke den indre strukturen (forholdet mellom de gener) er forskjellige blant regnes også som biomarkører for å belyse de cluster-spesifikke underliggende nettverkstrukturer.

Den endelige Algorithm for PMT-UC

Figur 1 oppsummerer detaljert algoritme for å oppdage kreft subtyper, underliggende nettverksstrukturer og nettverksbaserte biomarkører via PMT-UC. For en gitt, er produktet av K-midler anvendt som initialisering for EM-algoritme. For å unngå den lokale optimum på K-midler, kjører vi hele algoritmen fem ganger med tilfeldig K-midler initialisering, og velg resultatet som gir den høyeste verdien av målfunksjonen (3).

Resultater og diskusjon

Simuleringer

Et datasett med redundante gener er simulert for å evaluere clustering, genet utvalg og nettverk rekonstruksjon gjennomføring av fremgangsmåten. Datasettet har prøver og informative gener med innspill dimensjon. er tatt for å være høyere enn prøvestørrelse på hver gruppe, slik at prøven kovariansen til hver klynge er ikke reversibel. De første informative gener kommer fra en-dimensjonale multivariate Students t distribusjon for th klyngen. De resterende støyende gener som er uavhengige av informative gener er uavhengig og identisk fordelt fra univariate Students t-distribusjon for alle klynger. Frihetsgradene vil påvirke støynivået i datasettet. Jo lavere antall frihetsgrader de fetere haler datasettet vil ha.

For det første er datasettet med to klynger simulerte, ha prøver for hver klynge. Tre tilfeller anses i de neste eksperimenter for å utforske effekten av utliggere på resultatene av metoden [24]. Når, fordelingen av den simulerte datasettet er tilnærmet lik gaussisk fordeling. For hver av de tre tilfellene, er følgende fire oppsett vurderes:

sette opp en har cluster-spesifikke midler med og, og felles diagonalmatrise med, der er en-dimensjonale identitetsmatrisen

sette opp to har cluster-spesifikke midler med og, og felles ikke-diagonalmatrise med. er en sparsom symmetri matrise som har de diagonale elementene og de ikke-diagonale elementer med unntak av,.

set-up 3 har cluster-spesifikke midler med og, og benytter to generelle spredte skala matriser som genereres av lignende fremgangsmåten beskrevet i [9], [26]. En diagonal matrise med samme positive diagonale oppføringer blir generert for det første, da et gitt antall nonzeros er tilfeldig satt inn i de ikke-diagonale plassering av spesifisert del av matriksen symmetrisk. Antallet ikke-null ikke-diagonale oppføringer er satt til. Et multiplum av identiteten er å tilsette til grunnmassen for å sikre at den positive bestemthet. Endelig blir hvert element dividert med den tilsvarende diagonale element for å generere den inverse matrisen skala. I dette oppsettet, og.

sette opp 4 har cluster-spesifikke midler med og, og lignende ikke-diagonale skala matriser som set-up 3 med og.

under den simulerte mønster er angitt ovenfor, har vi satt, og lik den som er innført i [20]. For hvert oppsett, blir simuleringen gjentatt 50 ganger og er utstyrt med, og.

PMT-UC er sammenlignet med straffet modellbasert Gaussian clustering med ubegrenset samvariasjon (PMG-UC) og straffet modellbasert student t clustering med diagonal samvariasjon (PMT-DC) i form av følgende evalueringskriteriene. Rand indeks (RI), det justerte Rand Index (ARI) og frekvensene til de valgte tall (N) i klynger (K) blir brukt til å vurdere evnen til fremgangsmåten for clustering [20]. For å kvantifisere evnen av fremgangsmåten for nettverket rekonstruksjon, er den strukturelle Hamming-avstand (SHD) mellom ekte og utledede nettverk beregnet, som er antall kant forskjeller å transformere ett nettverk til et annet nettverk [9]. Jo mindre SHD viser nærmere tilnærmelse til den sanne nettverket. De følgende to indekser benyttes for evaluering av det merkede resultater genet, antall informative variabler feilaktig valgt til å være noninformative (falske negativer, FN) og antall noninformative variable riktig valgt (sanne negative, TN) [20].

effekt av parameteren.

effekten av parameter som er designet for stabiliteten av algoritmen på resultatene av PMT-UC er diskutert i forhold til de fem tiltakene ovenfor (RI, Ari , SHD, FN og TN). Spesielt, kjører vi PMT-UC på en fast datasett under oppsett 4 med hvor datasettet har høyere støynivå, noen færre gener med klasespesifikke virkemidler og noen gener med klasespesifikke nettverksstrukturer, med forskjellige verdier av ( ). Tabell 1 viser gjennomsnitt og standardavvik av fem tiltak i 50 simuleringer med hensyn til ulike verdier av på dette oppsettet. Når ikke er for stor, har en tendens algoritmen ytelsen til å være ganske robuste til valg av. Siden resultatene med showet noen forbedring over andre situasjoner, er satt til 0,1 i de følgende eksperimenter.

Effekt av initialisering.

Konvergens av PMT-UC er studert av med tanke på tilsvarende resultater med hensyn til forskjellige initialiseringer ved hjelp av K-midler. Denne studien er også avhengig av oppsett 4 med. En simulert datasett er fast og hele prosedyren anvendes ti ganger av hvilke hver gang bruker fem-K betyr initializations. Standardavvikene til de valgte parametere og eksperimentresultater av disse ti forsøkene kan betraktes som evaluerings indekser for konvergens av PMT-UC. For å redusere variabiliteten er fem datasett generert, og gjennomsnitt og standardavvik av resultater for hvert datasett er listen i Tabell 2. Det er vist at clustering og genet valgresultater ikke har vesentlig endring med ulike initializations. Imidlertid har den fullstendige PMT-UC algoritme en viss variasjon i form av parameteren og resultater SHD som svarer til nettverksoppbyggingen.

Clustering resultater.

eksperiment clustering Resultatene av de fire oppsett med er vist i tabell 3. Ettersom datasettene kommer fra en omtrentlig fordeling av gaussisk fordeling, både PMT-UC og PMG-UC alltid korrekt identifisere de to klyngene. For oppsett 1, 2, 3, PMT-UC fungerer litt bedre enn PMG-UC identifisere clustering strukturer, som oppsummert av RI eller Ari i tabell 3. For oppsett 4, med tilstedeværelse av flere støy variabler basert på gjennomsnittet, RI og Ari av PMG-UC reduseres dramatisk til 0,734 og 0,47. For oppsett en med den sanne modellen med en diagonal kovariansmatrise, både PMT-UC og PMT-DC har lignende clustering forestillinger. Jo sterkere korrelasjoner mellom variabler, jo mer sannsynlig for PMT-DC for å få flere klynger ved en feil og har dårlig clustering ytelse. Spesielt for PMT-DC med uavhengigheten fortsatt drift datasettet i set-up 4 har bare fem informative gener, noe som resulterer i høy clustering feilrate.

For å undersøke effekten av uteliggere, vi bruke mindre grader og. Tabell 3 gir også resultatene for de fire oppsett med disse to tilfellene. Som forventet, utfører PMG-UC dårlig med mindre grader, og det er mer følsomme for ekstreme observasjoner. For oppsett 1, gjør clustering resultatene av PMT-DC ikke endres vesentlig med synkende grader for sin robusthet og uavhengighet forutsetning. Men det ofte ikke kan finne den sanne clustering strukturene i de tre andre set-ups. Oppsummert viser resultatene for set-ups 1-4 da vise at PMT-UC har bedre clustering ytelse enn PMG-UC og PMT-DC for datasett med uavhengige eller korrelerte informative gener, og er robust overfor uteliggere.

Nettverk gjenoppbygging.

Figur 2 viser boksplott av cluster-spesifikke SHD mellom estimerte og sanne nettverk på over 50 simuleringer for de ovennevnte fire set-ups av de tre tilfellene når er satt til 2. i tillegg, vi plotte gjennomsnittlig sparsity mønster som er den relative frekvensen matrise for PMG-UC og PMT-UC. Siden PMT-DC forutsetter en diagonal samvariasjon, er det ikke plottet her. Den relative frekvens matrise består av den relative hyppigheten av ikke-null beregnet for hvert element av den inverse matrisen skala i løpet av de 50 repetisjoner. Figur 3 viser klyngespesifikke resultatene av de første informative gener (se tekst S4 for resultatene av den totale gener). Vi gjør følgende observasjoner basert på resultatene gitt i figur 2 og 3. I alle tilfellene, PMT-UC gir minste SHD i forhold til de to andre tilnærminger. Når hvormed Student t fordelingen er lik Gaussian distribusjon, både PMT-UC og PMG-UC er i stand til å gjenopprette den sparsomme inverse kovarians struktur for oppsett 1. Det er vist at selv om både PMT-UC og PMG-UC har non-diagonal forutsetning, kan de få den diagonale samvariasjon som sannheten av en tilstrekkelig stor straff på diagonalen elementer av inverse kovariansmatrisene. For oppsett 2, kan PMT-UC nøyaktig identifisere plasseringen av nonzeros nesten hver simulering. Samtidig med den høye verdien av på diagonalen nonzeros av samvariasjon, PMG-UC kan også gjenopprette den inverse samvariasjon mønster noen ganger. Men når de partielle korrelasjoner av genene er ikke høy i oppsettet tre, med straffen, PMG-UC ikke har godt nettverk rekonstruksjon ytelse forskjellig fra PMT-UC. For oppsettet 4, med den økende av støy i forhold til gjennomsnittet, er et resultat av PMG-UC obskure. Ved eller med hvilken datasettet har høyere støynivå, er PMG-UC ute av stand til å gjenopprette nettstruktur. Imidlertid kan PMT-UC fortsatt oppdage sammenhengen mellom gener under nettverket.

På hver boks, den sentrale merket er medianen, kantene på boksen er den 25. og 75. percentil, kinnskjegg utvide til mest ekstreme datapunktene ikke ansett uteliggere, og uteliggere plottes enkeltvis. Resultatene som vises, for PMT-UC, PMG-UC og PMT-DC i de fire set-ups av tre tilfeller. SHD1 og SHD2 er resultatene for første og andre klynger, henholdsvis

TRUE. 1 og SANN: 2 er deler av den opprinnelige og tilsvarer de første informative gener for de første og andre klynger hhv. PMT-UC: 1 og PMT-UC: 2 er estimering av de deler av de inverse skala matriser ved hjelp av PMT-UC. PMG-UC: 1 og PMG-UC: 2 er estimering av de deler av inverse kovariansmatrisene bruker PMG-UC

Gene utvalg

De to genet utvalg evaluering.. indekser FN og TN er også oppsummert i tabell 3. for de fire set-ups, PMG-UC tendens til å hakke ut flere gener som er uninformative enn PMT-UC og PMT-DC. I set-ups 1 og 3, den informative gener har cluster-spesifikke midler og kan velges ved alle de tre metodene når datasett har lavt støynivå. For oppsett 2 og 3, er det to gener som ikke er uttrykt differensielt men reagerer med noen diskrimi gener, og fem gener som også er ikke uttrykt forskjellig, men har forskjellige underliggende nettverksstrukturer, respektivt. Tabell 3 viser at blant de tre metodene bare PMT-UC kan oppdage disse genene.

Datasettet med flere tynne-tailed klynger.

For en ekstra datasett med flere tynne-tailed klynger er

Legg att eit svar