Abstract
Med fremme av microarray-teknologi, er det nå mulig å studere uttrykket profiler av tusenvis av gener på tvers av ulike eksperimentelle forhold eller vevsprøver samtidig. Microarray kreft datasett, organisert som prøver versus gener mote, blir brukt for klassifisering av vevsprøver i godartede og ondartede eller deres undergrupper. De er også nyttig for å identifisere potensielle genmarkører for hver kreft subtype, som hjelper i vellykket diagnostisering av visse typer kreft. I denne artikkelen har vi presentert en unsupervised kreft klassifisering teknikk basert på multiobjective genetisk gruppering av vevsprøver. I denne forbindelse er en ekte kodet koding av klynge sentrene som brukes og cluster kompakthet og separasjon samtidig optimaliseres. Den resulterende sett av nær-Pareto-optimale løsninger inneholder en rekke ikke-dominerte løsninger. En ny tilnærming til å kombinere den gruppering informasjon besatt av de ikke-dominerte løsninger gjennom Support Vector Machine (SVM) klassifiserer har blitt foreslått. Endelig clustering oppnås ved konsensus blant clusterings som gis av ulike kjernefunksjoner. Ytelsen til den foreslåtte multiobjective clustering metoden har blitt sammenlignet med flere andre microarray clustering algoritmer for tre offentlig tilgjengelige referansekreft datasett. Dessuten har statistisk signifikans tester utført for å fastslå den statistiske overlegenheten av den foreslåtte clustering metoden. Videre er relevante genmarkører blitt identifisert ved hjelp av clustering resultat produsert av den foreslåtte clustering metoden og demonstrert visuelt. Biologiske relasjoner mellom de genmarkører er også studert basert på genet ontologi. De oppnådde resultater er funnet å være lovende og kan muligens ha viktig innflytelse i området uten tilsyn kreft klassifisering samt genmarkøren identifikasjon for flere kreft undergrupper
Citation. Mukhopadhyay A, Bandyopadhyay S, Maulik U (2010 ) Multi-klasse Clustering av kreft Subtyper gjennom SVM basert ensemble i Pareto-optimale løsninger for gente Identifikasjon. PLoS ONE 5 (11): e13803. doi: 10,1371 /journal.pone.0013803
Redaktør: Alfons Navarro, Universitetet i Barcelona, Spania
mottatt: May 26, 2009; Godkjent: 28 september 2010; Publisert: 12.11.2010
Copyright: © 2010 Mukhopadhyay et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. SB og UM erkjenner Department of Science and Technology, India (Grant No. DST /INT /MEX /RPO-04/2008 (ii)) for delvis støtte dette arbeidet. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Ankomsten sten~~POS=HEADCOMP av microarray teknologi har gjort det mulig å studere uttrykket profiler av et stort antall gener på tvers av ulike eksperimentelle forhold eller vevsprøver samtidig. Dette har stor betydning for kreftforskning. Microarray teknologi blir brukt i kreftdiagnose gjennom klassifisering av vevsprøver. Når microarray datasett er organisert som prøver versus genet mote, da de er svært nyttig for klassifisering av ulike typer vev og identifisering av de genene som uttrykk nivåer er gode diagnostiske indikatorer. Microarray datasett, hvor vevsprøver representerer prøvene fra cancer (maligne) og ikke-kreft (benigne) celler, vil klassifisering av dem resulterer i binær kreft klassifisering. På den annen side, hvis prøvene er fra forskjellige subtyper av kreft, så blir problemet med fler klasse kreft klassifisering. Multi-klasse kreft klassifisering og påvisning av genetiske markører for hver kreft undertype er en mer utfordrende oppgave i forhold til det binære klassifiseringen.
De fleste forskere på området kreftdiagnostikk har fokusert på overvåket klassifisering av kreft datasett igjennom trening, validering og testing for å klassifisere tumorprøver som ondartet eller godartet, eller deres undertyper [1] – [6]. Imidlertid bør styrt klassifikasjon eller gruppering av vevsprøver også bli studert siden i mange tilfeller merket vevsprøver er ikke tilgjengelige. I denne artikkelen har vi utforsket bruk av multiobjective genetisk clustering for styrt klassifikasjon av vevsprøver på flerklassekreft data.
En microarray genuttrykk datasett bestående av gener og vevsprøver er vanligvis organisert i en 2D matrise av størrelse. Hvert element representerer ekspresjonsnivået av th genet for th vevsprøve. Clustering [7], [8], et viktig microarray analyseverktøy, brukes for styrt klassifikasjon av vevsprøver. Clustering metoder partisjonere et sett av objekter inn i grupper basert på en viss likhet /ulikhet metrisk hvor verdien av kan eller ikke kan være kjent
a priori
.
Genetiske algoritmer (gass) [9] har vært effektivt anvendt for å utvikle effektive clustering teknikker [10], [11]. Disse teknikkene bruke en enkelt klynge gyldighet tiltak som fitness-funksjonen for å gjenspeile det gode i en kodet clustering. Men det er en enkelt klynge gyldighets tiltaket sjelden like anvendelig for ulike dataegenskaper. Denne artikkelen utgjør problemet med gruppering som multiobjective optimalisering (MOO) [12] – [15] problem. I motsetning enkelt objektiv optimalisering, i MOO, er søk utført over flere, ofte motstridende, objektive funksjoner. Den endelige løsningen settet inneholder en rekke Pareto-optimale løsninger, og ingen av disse kan bli ytterligere forbedret på ett objektiv uten å svekke den i en annen. Non-dominerte Sortering genetisk algoritme-II (NSGA-II) [15], en populær evolusjonær multiobjective optimalisering verktøy, har blitt brukt i domenet av clustering og klassifisering i microarray gene expression data [16] – [18]. I denne artikkelen også, har en NSGA-II-basert multiobjective clustering algoritmen [13] blitt vedtatt som optimaliserer klyngen kompakthet og cluster separasjon samtidig. En utfordrende problem i MOO er å få en endelig løsning fra settet av Pareto-optimale løsninger. I denne forbindelse en ny fremgangsmåte ved hjelp av Support Vector Machine (SVM) [19] sorterer er beskrevet i denne artikkelen. Prosedyren benytter punktene som de fleste av de ikke-dominerte løsninger produserer samme klasse etiketter for å trene SVM klassifikator med en bestemt kjerne. Gjenværende punktene er klassifisert av utdannet klassifikator. Endelig klassifisering oppnås ved enighet mellom clustering løsninger som gis av ulike kjernefunksjoner.
Videre har clustering løsningen produsert av den foreslåtte MOGASVM clustering teknikken blitt brukt til å identifisere genetiske markører som er mest ansvarlig for å skille en bestemt svulst klasse fra de gjenværende. Signal-til-støy-forhold (SNR) statistikk-baserte gen ranking har blitt brukt til dette formålet.
Utførelsen av den foreslåtte MOGASVM clustering teknikken har blitt demonstrert på tre offentlig tilgjengelige referansekreft datasett, nemlig., SRBCT , Adult kreft og hjernesvulst. Overlegenheten av den foreslåtte teknikk, i forhold til k-means [7], forventning Maksimering (EM) clustering [20], enkelt objektiv GA-baserte clustering som optimaliserer kombinasjonen av klyngen kompakthet og separasjon (SGA), hierarkisk gjennomsnittlig ledd clustering [7], selvorganiserende kart (SOM) clustering [21], konsensus clustering [22] og en nylig foreslått clustering teknikk kalt SIMM-TS [12], er demonstrert både kvantitativt og visuelt. Den overlegne MOGASVM clustering teknikken har også vist seg å være statistisk signifikant gjennom statistiske signifikanstester. Endelig er det blitt vist hvordan MOGASVM clustering resultat kan anvendes for å identifisere de relevante genetiske markører for SRBCT datasett. Også en studie av biologisk relevans genmarkører er utført basert på genet ontologi.
Materialer og metoder
Multiobjective Optimization bruker genetiske algoritmer
I mange virkelige situasjoner der kan være flere mål som må bli optimalisert samtidig for å løse et bestemt problem. Dette er i motsetning til de problemene håndteres ved konvensjonell gass, som involverer optimalisering av bare en eneste kriterium. Den største vanskeligheten i å vurdere multiobjective optimalisering er at det ikke er akseptert definisjon av optimalt i dette tilfellet, og derfor er det vanskelig å sammenligne en løsning med en annen. Generelt har disse problemene innrømmer flere løsninger, hver av hvilke anses som akseptabel, og tilsvarende når den relative betydningen av målene er ukjent. Den beste løsningen er subjektiv og avhenger av behov for designer eller beslutningstaker.
Tradisjonelle søk og optimalisering metoder som gradient nedstigningen søk, og andre ukonvensjonelle seg som simulert annealing er vanskelig å utvide som det er å den multiobjective tilfelle, siden deres grunnleggende design utelukker behandlingen av flere løsninger. Tvert imot, populasjonsbaserte metoder som evolusjonære algoritmer er godt egnet for å håndtere slike situasjoner. Den multiobjective optimalisering kan være formelt uttalt som [23], [24]. Finne vektoren av beslutningsvariablene som tilfredsstiller ulikhet begrensninger: (1) likestilling føringer (2) og optimaliserer vektorfunksjon (3) begrensningene gitt i Eqns. (1) og (2) definerer mulighetsområdet som inneholder alle tillatte løsninger. Enhver løsning utenfor dette området skal avvises fordi det bryter med en eller flere begrensninger. Vektoren betegner en optimal løsning i. I sammenheng med multiobjective optimalisering, ligger vanskeligheten i definisjonen av optimalitet, siden det er sjelden at vi finner en situasjon hvor en enkelt vektor representerer den optimale løsning for alle de objektive funksjoner.
Begrepet
Pareto-optimalitet
er nyttig i domenet av multiobjective optimalisering. En formell definisjon av Pareto-optimalitet fra synspunktet til minimering problem kan gis som følger. En avgjørelse vektor kalles Pareto-optimal hvis og bare hvis det ikke finnes noen som dominerer, dvs. det er ingen slik thatin andre ord, er Pareto-optimal dersom det ikke finnes noen mulig vektor som forårsaker en reduksjon på noen kriterier uten en samtidig økning i minst en annen. I denne sammenhengen to andre begreper nemlig.,
svakt ikke-dominerte Hotell og
sterkt ikke-dominerte
løsninger er definert [23]. Et punkt er et svakt ikke-dominerte løsning hvis det ikke foreligger noen slik at for. Et punkt er en sterkt ikke-dominerte løsning hvis det ikke foreligger noen slik at for, og i minst en,. Generelt, innrømmer Pareto optimal et sett av løsninger som kalles
ikke-dominerte
løsninger.
Det er ulike tilnærminger for å løse multiobjective optimeringsproblemer [23], [24], for eksempel, aggregering, befolkning baserte ikke-Pareto og Pareto-baserte teknikker. I aggregering teknikker, blir de forskjellige målene generelt kombinert i et ved hjelp av vektings eller mål basert metode. Vektor Evaluert genetisk algoritme (Vega) er en teknikk som i befolkningen baserte ikke-Pareto tilnærming der forskjellige subpopulasjoner brukes for forskjellige formål. Multiple Mål GA (MOGA), Non-dominerte Sortering GA (NSGA), niched Pareto GA (NPGA) utgjør en rekke teknikker under Pareto-baserte tilnærminger. Men alle disse teknikker, er beskrevet i [24], er i det vesentlige ikke-elite i naturen. NSGA-II [15], Styrke Pareto Evolutionary algoritme (SPEA) [25] og SPEA2 [26] er noen nyere elitistiske teknikker. NSGA-II er en forbedring i forhold til den forrige versjonen NSGA gjelder beregning tid. Videre NSGA-II introduserer en roman elitistisk modell ved å kombinere den overordnede og underordnede populasjoner og spre de ikke-dominerte løsninger fra den samlede befolkningen til neste generasjon å sikre bedre konvergens hastighet mot globalt optimal Pareto front. Også det foreslås en overfylt sammenligning metode for binære turnering valg som gir bedre mangfold i Pareto front. I [15], er det blitt vist at NSGA-II gir bedre resultater sammenlignet med flere andre MOO teknikker. Derav multiobjective clustering teknikk vurderes i dette arbeidet bruker NSGA-II som underliggende optimalisering rammeverk. Men noen annen evolusjonær multiobjective optimalisering verktøyet kunne ha vært brukt.
NSGA-II basert Multiobjective Clustering
I denne delen har vi beskrevet bruken av NSGA-II for utvikling et sett av nær -Pareto-optimale klyngeløsninger [13]. Cluster kompakthet og klyngen separasjon regnes som de objektive funksjoner som er optimalisert samtidig. Teknikken er beskrevet nedenfor i detalj.
String Representasjon og Befolkning initialisering.
I NSGA-II basert clustering, kromosomene består av reelle tall som representerer koordinatene til sentrene klynger. Anta at størrelsen av datasettet er, dvs. algoritmen klyngene vevsprøver som hver er beskrevet av gener (funksjoner). For klynger, har hvert kromosom således en lengde, der er datadimensjonen (antall gener i dette tilfelle). Som vi har brukt 200 gener som har større avvik over prøvene, er derfor 200 for hvert datasett dimensjonen. Sentrene er kodet i et kromosom i den innledende befolkningen er tilfeldig valgt forskjellige punkter fra datasettet.
Computing målene.
For å beregne objektfunksjonene, første sentrene er kodet i et gitt kromosom er pakket ut. Deretter blir hvert datapunkt som er tilordnet dens nærmeste klynge sentrum og klynge sentrene blir oppdatert ved å ta gjennomsnittet av punktene som er tildelt den. Poengene blir deretter overført til sine nærmeste klase sentre. Kromosomet er også oppdatert med de nye klasesentre
Den globale kompakthet av en gruppering løsning er definert som følger:. (4) der betegner avstanden mellom th punkt og th klynge sentrum. betegner th klyngen. Legg merke til at lav verdi av indikerer at klyngene er meget kompakt. Derfor er målet å minimere.
Det andre målet er klynge separasjon. Dette er definert som følger: (5) For å oppnå godt atskilt klynger, er målet å være maksimert. Som her NSGA-II er modellert som en minimering problem, er det andre målet tatt som gjensidige av.
Genetiske Operations.
De populært brukt genetiske operasjoner er
utvalg
crossover Hotell og
mutasjon
. Utvalget operasjonen brukt her er overfylt binære turneringen utvalg brukes i NSGA-II [15]. Etter valget, vil de valgte kromosomene satt i parings bassenget og konvensjonell enkeltpunkt crossover er utført basert på crossover sannsynlighet. Etter det, gjennomgår hvert kromosom mutasjon avhengig av mutasjon sannsynlighet, hvor et tilfeldig klynge Senteret er valgt fra den og deretter flyttet litt.
Det mest karakteristiske delen av NSGA-II er dens elitisme drift, der foreldre og barnepopulasjoner er kombinert og de ikke-dominerte løsninger fra den kombinerte befolkningen forplanter seg til neste generasjon. For mer informasjon om de ulike genetiske prosessene, kan leserne se [15]. De nesten Pareto-optimale strenger av den siste generasjonen gi ulike løsninger til clustering problem.
Support Vector Machine Klassifiserings
Support vektor maskin (SVM) classifiers er inspirert av statistisk læringsteori og de utfører strukturelle risikominimering på en nestet sett strukturen skiller hyperplanes [19], [27]. Ser inndata som to sett med vektorer i en-dimensjonale plass, konstruerer en SVM et skillehyperplan i det rommet, noe som maksimerer margin mellom de to gruppene av poeng. Å beregne margin, er to parallelle hyperplanes konstruert på hver side av skille en som er «presset opp mot» de to klasser av punkter. Intuitivt, er en god separasjon oppnås ved hyperplan som har den største avstand til nabodatapunktene i begge klasser. Større margin eller avstanden mellom disse parallelle hyperplanes indikerer bedre generalisering feil av klassifikator. Fundamentalt er SVM klassifikator designet for to-klasse problemer. Den kan utvides til å håndtere multi-klasse problemer ved å utforme en rekke en-mot-alt eller en-mot-en to-klasse sammendragsverdimetrikker.
Anta at et datasett består av funksjonssvektorer, hvor, betegner klasse etikett for datapunkt. Problemet med å finne vekten vektor kan formuleres som minimerer følgende funksjon: (6) lagt (7) Her er skjevhet og funksjonen tilordner inngangsvektor til funksjonen vektoren. Den doble Formuleringen er gitt ved å maksimalisere følgende: (8) i henhold til (9) bare en liten brøkdel av koeffisientene er ikke-null. De tilsvarende par av oppføringer er kjent som støtte vektorer, og de fullt ut definerer beslutningsfunksjonen. Geometrisk, bære vektorer er de punkter som ligger nær skillehyperplan. Her kalles
kernel funksjon
.
Kernel funksjoner bidra til å kartlegge funksjonen plass til høyere dimensjonale rommet. Kjernen funksjon kan være lineær eller ikke-lineær, som polynom, sigmoidal, radielle basisfunksjoner (RBF), etc. De fire kjernefunksjonene som brukes i denne artikkelen er som følger:
Linear:
Polynom:
sigmoidal:
Radial Basis Function (RBF).
den utvidede versjonen av de to-klassen SVM som omhandler fler klasse klassifisering problem ved å utforme en rekke en-mot-alle to-klasse SVMer [27] brukes her. For eksempel er en -klassen problem håndteres med to førsteklasses SVMer, som hver er brukt til å skille en klasse med poeng fra alle de andre punktene.
Innhenting Final Clustering fra Non-dominerte Solutions
Som multiobjective gruppering frembringer et sett av ikke-dominerte løsninger i den siste generasjon, er det nødvendig å anvende noen teknikk for å oppnå det endelige clustering løsningen fra dette settet. Denne delen beskriver den foreslåtte ordningen for å kombinere NSGA-II-basert multiobjective clustering algoritmen med SVM klassifikator for dette formålet. I kombinert tilnærming, heter MOGASVM, er hver ikke-dominerte løsning gitt like stor betydning og et flertall teknikk er brukt. Dette er motivert av det faktum at på grunn av tilstedeværelsen av opplæringspoeng, veiledet klassifisering vanligvis utfører bedre enn styrt klassifikasjon eller gruppering. Her har vi utnyttet denne fordelen, mens du velger noen treningspunkter som bruker flertall på de ikke-dominert løsninger produsert av multiobjective clustering. Flertallet stemme teknikken gir et sett med punkter som de fleste av de ikke-dominerte løsninger tilordne samme klasse etiketter. Derav disse punktene kan tenkes å bli gruppert på riktig måte, og således kan benyttes som trenings punktene i SVM klassifikator. Deretter blir de resterende lav tillit punkter klassifisert bruker trent klassifikator. Prosessen gjentas for ulike kjernefunksjoner og den endelige clustering oppnås gjennom flertall blant de klynge label vektorer produsert av de ulike kjernefunksjoner. Trinnene i MOGASVM er beskrevet nedenfor
Trinn 1:. Utfør MOGA gruppering for å få et sett, av ikke-dominerte løsning strenger bestående av klasesentre
Trinn 2:. Decode hver løsning og få klyngen etiketten vektor for hver løsning ved å tildele hvert punkt til sin nærmeste klynge sentrum
Trinn 3:. reorganisere klynge label vektorer for å gjøre dem konsekvent, dvs. klyngen i den første løsningen skal tilsvare klynge i alt andre løsninger. For eksempel, er klyngen etiketten vektor tilsvarer
Trinn 4:. Marker punktene som er gitt samme klasse etikett i minst løsninger, som trenings poeng, hvor, er det flertall terskel. Klasse etiketter av punktene vil være klasse
Trinn 5:.. Tren på SVM klassifikator med noen kernel funksjon ved hjelp av opplæringspoeng
Trinn 6: Generer klassen etiketter for de resterende punktene hjelp trente SVM klassifikator
Trinn 7:.. Gjenta trinn 5-6 for de fire kjernefunksjonene vurderes her og få de fire klase label vektorer
Trinn 8: Kombiner de fire clustering label vektorer gjennom flertall ensemble, dvs. at hvert punkt tildelt en klasse etikett som får det maksimale antallet stemmer blant de fire clustering løsninger. Båndene er brutt tilfeldig.
Størrelsen på trening og testing sett avhengig av parameter (flertall terskel), som bestemmer minimum antall ikke-dominerte løsninger som må være enige med hverandre i avstemningen sammenheng. Hvis har en høy verdi, størrelsen på treningssettet er liten. Men det innebærer at flere antall ikke-dominerte løsninger enige med hverandre og dermed tillit av treningssettet er høy. Tvert imot, hvis har en lav verdi, størrelsen på treningssettet er stort. Men det viser at mindre antall ikke-dominerte løsninger har avtale seg imellom og treningssettet har lav tillit nivå. Under eksperimentering har vi forsøkt forskjellige verdier for og funnet at ytelsen til MOGASVM er generelt best når ligger i området mellom 0,4 og 0,6. Dette har blitt observert for alle datasettene vurderes her. Derfor, for å oppnå en avveining mellom størrelsen og tilliten til treningssettet, etter flere forsøk, har vi satt parameteren til en verdi på 0,5. Imidlertid kan denne parameteren utsettes for brukeren som kan stille det i henhold til hans /hennes behov.
Antall Clusters
For å sette antall klynger, silhouette Indeksen brukes [28] . Det er definert som følger. Anta representerer den gjennomsnittlige avstanden fra et punkt fra de andre punktene i klyngen det punktet er tildelt, og det minimum av gjennomsnittlig avstand på det punkt fra punktene til de andre klynger. Nå silhuetten bredden på det punkt er definert som: (10) Silhouette indeks er den gjennomsnittlige silhuetten bredden for alle datapunktene (tumorprøver) og det gjenspeiler den kompakthet og separering av klyngene. Verdien av silhuetten indeksen varierer -1 til 1 og høyere verdi indikerer bedre clustering resultat. Verdien av ikke har noen monoton økende eller avtagende tendens med antall klynger. Derfor denne indeksen er en god indikator for å velge antall klynger [28].
For å velge antall klynger, er MOGASVM algoritmen kjøre for forskjellige verdier av fra til, er antall datapunkter. For hver, blir det utført ganger fra ulike innledende konfigurasjoner og rømmen gir best valuta er tatt. Blant disse beste løsningene for ulike verdier, er verdien av for løsningen å produsere den maksimale indeksverdien valgt. Den samme verdien brukes for alle algoritmene for en rettferdig sammenligning.
Dealing med rammer
Det er kjent at tilstedeværelsen av uteliggere kan påvirke ytelsen til clustering algoritmer. Den foreslåtte MOGASVM clustering algoritmen beregner hjelp av klynger under kromosom updation som kan tenkes å bli påvirket på grunn av tilstedeværelsen av uteliggere i datasettet. For å takle dette, endret vi den foreslåtte algoritmen som følger. I løpet av kromosom updation, i stedet for å ta hjelp av punktene i en klynge, vi beregne
medoid
av klyngen. En klynge medoid, i motsetning klyngen mener, er en faktisk datapunkt i klyngen som summen av avstandene til de andre punktene i klyngen er minimum. Siden medoid er en aktuell datapunkt, er det mindre påvirket av tilstedeværelsen av utliggere [29]. Resten av trinnene i den modifiserte algoritmen fortsatt samme. Under eksperimentering, er det blitt funnet at den medoid baserte multiobjective clustering algoritmen utfører samme måte som middelbasert tilnærming for de tre datasett som vurderes i denne artikkelen. Derfor vi ikke har rapportert resultatet for medoid basert tilnærming. Dette tyder på at datasettene vurderes her er muligens fri fra uteliggere. Dette kan imidlertid ikke være sann for de andre datasett, og i så fall vil det være bedre å bruke den medoid tilnærming istedenfor middelbaserte. Det skal bemerkes at det å finne de medoids er beregningsmessig mer kostbart enn å finne midler. Men det er mulig å precompute fullstendig avstand matrise og holde den i minnet under utførelsen av clustering algoritmen for raskere ytelse, fordi antallet prøver i sample-genet microarray datasett er vanligvis mye mindre i forhold til antall gener.
ytelsesmål
To resultatmål, dvs. prosent Klassifisering Nøyaktighet () og justert Rand Index () anses for å sammenlikne resultatene som produseres av forskjellige algoritmer. Disse er definert nedenfor.
Prosent Klassifisering Nøyaktighet.
Vi definerer andelen Classification Nøyaktighet () for å sammenligne en gruppering løsning med den sanne clustering. Antar er den sanne gruppering av prøvene i en genekspresjon datasett og er en gruppering resultat gitt av noen clustering algoritmen. La være antall par av punkter som tilhører samme klynger i både og, være antall par av punktene som tilhører forskjellige grupper i både og, og være det totale antall par av punkter, dvs.. Den er definert som: (11) Høyere verdi av midler en bedre tilpasning mellom og. Tydeligvis.
Justert Rand Index.
Justert Rand indeks () [30] er også brukt til å sammenligne en gruppering løsning med den sanne clustering. Antar er den sanne gruppering av prøvene i en genekspresjon datasett og er en gruppering resultat gitt av noen clustering algoritmen. La, henholdsvis, og betegner antall par av punkter som tilhører den samme gruppen i både og, antall par som tilhører den samme gruppen i men til forskjellige klynger i, antall par som tilhører forskjellige grupper i men til den samme klyngen i, og antall par som hører til forskjellige grupper i både og. Den justerte Rand indeksen er da definert som følger: (12) Verdien av ligger mellom 0 og 1, og høyere verdi indikerer at det er mer lik. Tydeligvis.
Identifikasjon av genmarkører
I denne delen har vi demonstrert hvordan den foreslåtte MOGASVM clustering teknikken kan brukes til å identifisere genetiske markører som er mest ansvarlig for å skille de ulike klasser av vevsprøver. Her har vi demonstrert prosessen for SRBCT datasett (beskrevet i neste avsnitt). Dette er gjort som følger.
I begynnelsen er MOGASVM anvendt til å klynge prøver av den forhåndsbehandlet datasettet i fire klasser som tilsvarer de tumor subtyper EWS, NB, BL og RMS, respektivt. For å oppnå genmarkører for EWS subtype er clustering resultat behandles som to klasser: en klasse tilsvarer EWS svulster og andre klasse tilsvarer de gjenværende tumortyper. Tatt i betraktning disse to klasser, for hvert av genene, en statistikk kalt Signal-til-støy-forhold (SNR) [1] blir beregnet. SNR er definert som (13) der og, henholdsvis betegner middelverdien og standardavvik av klasse for det tilsvarende genet. Legg merke til at større absolutte verdi av SNR for et gen indikerer at genets ekspresjon nivået er høyt i én klasse og lav i en annen. Derfor denne skjevheten er svært nyttig i å skille de gener som er uttrykt forskjellig i de to gruppene av prøvene. Etter beregne SNR statistikk for hvert gen, er genene sortert i synkende rekkefølge av deres SNR verdier. Fra den sorterte listen, er de 10 beste gener valgt som genmarkører (5 nedregulert, dvs. negativ SNR og 5 oppregulert, dvs. positiv SNR) for EWS subtype. De 10 genmarkører for de andre tumorundertypene er valgt på samme måte, dvs. ved å vurdere to klasser hver gang, en svarende til tumoren klasse for hvilken de genetiske markører blir identifisert, og den andre svarende til alle de gjenværende tumor klasser.
det har blitt observert at mengden av topp 10 gener som er valgt i ulike kjøringer av MOGASVM varierer litt fra en kjøre til en annen. Så mens det endelige genmarkører for SRBCT data, har vi rapportert de mest valgte 10-gener enn alle i går. Frekvensen av utvalgte gener har også blitt rapportert. Videre er clustering resultat som oppnås ved hjelp av 40 markørgener for SRBCT data (10 for hver av de 4 kreft subtyper) blir sammenlignet med clustering resultater som ble oppnådd ved bruk av opprinnelig utvalgte 200 gener for å vise effektiviteten av å bruke bare de markørgener for gruppering.
datasett
I denne artikkelen, tre offentlig tilgjengelige referansekreft datasett, nemlig.,
SRBCT
,
Adult malignitet Hotell og
Brain tumor
datasett har blitt brukt til eksperimenter. Datasettene er beskrevet i denne delen.
rund blodcelle svulster (SRBCT).
De små runde blodcelle svulster (SRBCT) er 4 forskjellige barnesvulster kalt det på grunn av deres lignende utseende på rutine histologi [5]. Antall prøver er 63 og totalt antall gener er 2308. De omfatter Ewing familie av svulster (EWS) (23 prøver), neuroblastom (NB) (8 prøver), Burkitt lymfom (BL) (12 prøver) og rabdomyosakrom (RMS ) (20 prøver). Dette datasettet er offentlig tilgjengelig på https://www.ailab.si/supp/bi-cancer/projections/info/SRBCT.htm.
Adult malignitet.
Denne informasjonen består av 190 tumorprøver, som strekker seg over 14 vanlige krefttyper til oligonukleotid microarray [6]. De 14 krefttyper er: bryst adenokarsinom (BR) (11 prøver), prostata adenokarsinom (PR) (10 prøver), lunge adenokarsinom (LU) (11 prøver), tykktarms adenokarsinom (CR) (11 prøver), lymfom (LY) (22 prøver), blære overgangsordning celle carcinoma (BL) (10 prøver), melanom (ML) (11 prøver), livmor adenokarsinom (UT) (10 prøver), leukemi (LE) (30 prøver), nyrecellekreft (RE ) (11 prøver), bukspyttkjertelen adenokarsinom (PA) (11 prøver), eggstokkene adenokarsinom (OV) (11 prøver), pleural mesothelioma (ME) (11 prøver) og sentralnervesystemet (CNS) (20 prøver). Antallet gener er 1363. Dette datasettet er offentlig tilgjengelig på følgende nettside:.. https://algorithmics.molgen.mpg.de/Static/Supplements/CompCancer
hjernesvulst