PLoS ONE: Hierarkisk Gene Utvalg og Genetic Fuzzy System for Cancer mikroarray data Classification

Abstract

Denne artikkelen introduserer en ny tilnærming til genet valg basert på en vesentlig endring av analytiske hierarkiet prosess (AHP). Den modifiserte AHP integrerer systematisk utfall av enkeltfilter metoder for å velge de mest informative gener for microarray klassifisering. Fem individuelle ranking metoder, inkludert t-test, entropi, mottaker opererer karakteristisk (ROC) kurve, Wilcoxon og signal til støyforhold er ansatt for å rangere gener. Disse rangert genene er da regnet som innganger for den modifiserte AHP. I tillegg er en metode som benytter fuzzy standard additiv modell (FSAM) for kreft klassifikasjon basert på gener valgt av AHP også foreslått i dette dokumentet. Tradisjonell FSAM læring er en hybrid prosess som omfatter uten tilsyn struktur læring og overvåket parameter tuning. Genetisk algoritme (GA) er innlemmet i mellom uten tilsyn og veiledet trening for å optimalisere antall fuzzy regler. Integreringen av GA gjør FSAM å håndtere høy-dimensjonale-low-sample natur microarray data og dermed effektivisere klassifisering. Eksperimenter blir utført på en rekke microarray datasett. Resultatene viser resultatene dominans av AHP-baserte gen utvalg mot enkeltrangeringsmetoder. Videre kombinasjonen av AHP-FSAM viser stor nøyaktighet i microarray data klassifisering i forhold til ulike konkurrerende classifiers. Den foreslåtte tilnærmingen er derfor nyttig for leger og klinikere som et beslutningsstøttesystem som kan implementeres i den virkelige medisinsk praksis

Citation. Nguyen T, Khosravi A, Creighton D, Nahavandi S (2015) Hierarkisk Gene utvalg og genetisk Fuzzy System for Cancer mikroarray data klassifisering. PLoS ONE 10 (3): e0120364. doi: 10,1371 /journal.pone.0120364

Academic Redaktør: Enrique Hernandez-Lemus, National Institute of Genomic Medicine, MEXICO

mottatt: 20 november 2014; Godkjent: 08.02.2015; Publisert: 30 mars 2015

Copyright: © 2015 Nguyen et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: To datasett DLBCL og leukemi kan lastes ned fra de 2 linkene under: https://old.biolab.si/datasets/DLBCL.tab~~number=plural https://old.biolab.si/datasets/leukemia.tab~~number=plural Elleve datasett for uavhengig validering av den foreslåtte metoden kan lastes ned fra følgende link:. https://linus.nci.nih.gov/~brb/DataArchive_New.html

Finansiering: Denne forskningen er støttet av Australian Research Council (Discovery Grant DP120102112) og Senter for Intelligent Systems Research (CISR) ved Deakin universitetet

konkurrerende interesser:.. forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Et stort antall gener ikke kan muligens analyseres ved hjelp av tradisjonelle metoder. DNA mikroarray er en teknikk som gjør det mulig for forskere å analysere ekspresjonen av mange gener raskt. DNA mikroarray omfatter en prosess som er merket mRNA fra et prøverør er spredt ut på microarray, som består av tusener av flekker. Hver DNA spot, som representerer ett gen, inneholder flere identiske tråder av DNA. De merkede mRNA molekyler flytte rundt på microarray for å finne og holde seg til sin perfekte kamper. Mengden av mRNA bundet til hver plass på tabellen angir uttrykket nivået av de ulike genene.

DNA mikromatriseteknologi hjelper derfor forskere å oppdage genetiske årsaker til avvik som oppstår i funksjon av menneskekroppen. En DNA microarray tillater forskerne å identifisere alle forskjellene i genuttrykk mellom to forskjellige celletyper, f.eks mellom normale (friske) og syke (kreft) celler, i et enkelt eksperiment. Anvendelser av DNA microarray data for klassifisering av sykdommen basert på ulike mønstre av genuttrykk spille en sentral rolle i medisinsk forskning. Klassifisering av microarray data er nødvendig for virkelig klinisk praksis, spesielt i diagnose av hjertesykdom, infeksjonssykdom og studiet av kreft. Denne oppgaven reiser en stor utfordring for forskere i statistikk og også beregnings intelligens på grunn av høy-dimensjonale-low-sample natur microarray data.

Wu et al. [1] ansatt en Laplace naiv Bayes modell for microarray data klassifisering. Metoden tar gruppeeffekter i betraktning og er robust overfor utliggere, som vanligvis sett i genuttrykk data på grunn av enten kjemiske eller elektriske årsaker. Chopra et al. [2] ellers brukes gen par kombinasjoner som innganger til kreft klassifiseringsalgoritmer snarere enn originale genuttrykk profiler.

Basford et al. [3] vurderes både veiledet og styrt klassifikasjon for microarray data. Det overvåkte klassifiseringen er å identifisere klynger av vev på grunnlag av genene mens uten tilsyn teknikk omhandler gruppering av gener basert på vevet. Alternativt blir en beregningsorientert protokoll for å forutsi genmarkører i kreftvev for analyse av flere krefttyper i Xu et al. [4].

Yu et al. [5] foreslått en undersampling metode med ideen om maur koloni optimalisering for å klassifisere ubalanserte DNA microarray data. Giugno et al. [6] i en annen tilnærming innført en microarray data klassifisering metode med foreningen regler. Forfatterne antydet at avskrift uttrykk intervaller kompetent demonstrere diskriminere subtyper i samme klasse.

Nylig Reboiro-Jato et al. [7] konstruert en web-basert interaktivt verktøy for å vurdere diskriminerende klassifisering ytelse tilpasset hypotese i form av biologisk relatert gensettene. Verktøyet er i stand til å gi verdivurdering informasjon for diagnostisk analyse og kliniske avgjørelser ledelse.

Selv om mange metoder har blitt foreslått for microarray data klassifisering, kan de bare gi nonintuitive klassifiseringsresultater, som ikke er omfattende og gjelder for klinikere i den virkelige praksisen. Oppførselen til klassifisering teknikken trenger å bli forstått av menneskelige ved hjelp av verktøy som språklige regler. Heldigvis kan denne oppgaven oppnås ved hjelp av fuzzy logikk, som ble innført i 1960-årene. Bruk av fuzzy logikk kan gi klinikere med bedre forståelse av data og forklaringer om hvordan diagnosen Resultatene er gitt. Videre tilbyr fuzzy logikk god evne til å håndtere støyende /manglende data, som er et vanlig problem i microarray data [8-10].

Inspirert av de ovennevnte forhold, foreslår dette papiret en metode som bruker fuzzy standard additiv modell (FSAM) for kreft microarray data klassifisering. For å effektivisere FSAM i håndteringen av høy-dimensjonale-low-eksempelmicroarray data, genetisk algoritme (GA) er innlemmet i FSAM læringsprosessen å optimalisere FSAM regelstrukturen.

Før du utfører genetisk FSAM for microarray data klassifisering, må et delsett av de mest informative gener bli valgt fra flere tusen gener. Vi foreslår her en roman gen utvalg ved å endre den tradisjonelle analytiske hierarkiet prosess (AHP) [11] som deretter kan kvantitativt utplassert for å integrere resultatene av en rekke individuelle gen rangeringsmetoder.

Gene utvelgelsesmetoder

Microarray data som vanligvis samles med antallet gener (ofte i tusener) er mye større enn det antall prøver. Mange standard teknikker derfor finne upassende eller beregningsmessig umulig å analysere slike data. Faktum er at ikke alle de tusenvis av gener er diskriminerende og nødvendig for klassifisering. De fleste gener er ikke relevant og påvirker ikke klassifiseringen ytelse. Inntak av slike gener i betraktning forstørrer dimensjonen av problemet, fører til beregningsbyrde, og presenterer unødig støy i klassifiseringen praksis [9]. Således er det viktig å velge et lite antall gener, som kalles informative gener, noe som kan være tilstrekkelig for god klassifisering. Imidlertid er den beste undergruppe av gener ofte ukjent [12].

Felles genet utvalgs tilnærminger er filtrer og wrapper metoder. Filter metoder rangere alle funksjoner i form av deres godhet ved hjelp av forholdet mellom hver enkelt gen med klassen etiketten basert på en univariat scoring beregning. De beste rangerte genene er valgt før klassifiserings teknikker er deployert. I motsetning til maskin metoder krever genet som seleksjonsteknikk for å kombinere med et sorteringsapparat for å evaluere ytelsen klassifisering av hvert gen delsett. Den optimale undergruppe av gener er identifisert basert på rangeringen av resultatene stammer fra distribusjon klassifikator på alle funnet undergrupper. Filteret prosedyren er i stand til å måle sammenhengen mellom gener mens omslaget tilnærming krever en stor beregnings bekostning [13].

Kort gjennomgang av genet seleksjonsmetoder

Det har vært en rekke gen utvalg teknikker i litteraturen for DNA microarray data klassifisering. Liu et al. [14] innføres et ensemble gen utvelgelsesmetode basert på den betingede gjensidig informasjon for kreft microarray klassifisering. Flere genet undergrupper tjene til å trene classifiers og utganger er kombinert med en stemme tilnærming.

På samme måte Leung og Hung [15] initiert en multiple-filter-flere-wrapper tilnærming til genet utvalg for å forbedre nøyaktigheten og robustheten microarray data klassifisering. Liu et al. [16] har foreslått en annen metode, som kalles ensemble-genet utvalg av gruppering, for å utlede flere genet undergrupper. Metoden er basert på kraft av informasjonsteori og omtrentlig Markov teppe.

Bolon-Canedo et al. [17] i en annen tilnærming undersøkt et gen valgmetode som omfatter et ensemble av filtre og klassifikasjoner. En avstemning tilnærmingen ble anvendt for å kombinere utgangssignalene fra classifiers som bidrar til å redusere variabiliteten av valgte funksjoner i forskjellige klassifiserings domener.

På den annen side, Armbånd– et al. [18] foreslått en hybrid generative-diskriminerende tilnærming ved hjelp av tolkbare funksjoner hentet fra emne modeller for uttrykk microarray data klassifisering. Orsenigo og Vercellis [19] undersøkte lineære manifold lære teknikker for dimensionality reduksjon for microarray data klassifisering. Likeledes Ramakrishnan og Neelakanta [20] studerte et informasjons theoretics inspirert entropi co-forekomst tilnærming for funksjonsvalg for klassifisering av DNA microarray data.

Nylig Du et al. [21] foreslått en fremtids gen utvalg algoritme for å effektivt velge de mest informative gener fra microarray data. Algoritmen kombinerer utvidet datateknikk og L

2-norm straff for å håndtere henholdsvis de små prøver «problem og gruppevalg evne.

I denne utredningen, for å styrke robustheten og stabiliteten av microarray data klassifikasjonsapparater introduseres en ny gen utvalg fremgangsmåte basert på en modifikasjon av AHP. Ideen bak denne tilnærmingen er å samle eliten gener fra forskjellige ranking genet seleksjonsmetoder gjennom et systematisk hierarki.

De neste avsnittene granske bakgrunnen for vanlig filter genet seleksjonsmetoder, som er etterfulgt av vårt forslag.

Vær oppmerksom på at følgende genet seleksjonsmetoder er oppnådd ved å rangere gener via poengberegninger. De er statistiske tester basert på to data prøver i det binære klassifisering problem. Prøve midler blir betegnet som μ

1 og μ

2, mens σ

1 og σ

2 er utvalgets standardavvik, og

n

1 og

n

2 er utvalgsstørrelsene.

to-utvalgs t-test

de to-utvalgs t-test er en parahypotesetest som er brukt for å sammenligne hvorvidt den gjennomsnittlige forskjellen mellom to uavhengige datasampler er veldig viktig. Teststatistikken er uttrykt ved: (1) Ved anvendelse av t-test for genet seleksjon, blir testen utført på hvert gen ved å skille uttrykket nivåer basert på klasse variabel. Den absolutte verdi av

t

benyttes for å vurdere betydningen blant gener. Jo høyere absoluttverdien er viktigere genet.

Entropy test

Relativ entropi, også kjent som Kullback-Liebler avstand eller divergens er en test antar klasser er normalfordelt. Entropi poengsum for hvert gen er beregnet ved hjelp av følgende uttrykk: (2) Etter beregning gjøres for hver gen, gener med høyest entropi score vil bli valgt til å tjene som input til klassifiserings teknikker

Receiver. opererer karakteristikk (ROC) kurve

betegne fordelingsfunksjonene

X

i de to populasjonene som

F

1 (

x

) og

F

2 (

x

) halen funksjonene er oppgitt henholdsvis

T

i (

x

) = 1-

F

i

(

x

),

i

= 1,2.

ROC

er gitt som følger: (3) og arealet mellom kurven og den rette linjen (AUC) beregnes ved: (4) Jo større

AUC

, jo mindre er overlappingen av klassene. For genet utvalg søknad, gener med størst

AUC

dermed vil bli valgt.

Wilcoxon metoden

Wilcoxon rank sum test tilsvarer Mann-Whitney U-test , som er en test for likestilling av befolknings steder (medianer). Nullhypotesen er at to populasjoner vedlegge identiske fordelingsfunksjoner, mens den alternative hypotesen viser til saken to distribusjoner forskjellig angående medianverdier. Normaliteten forutsetning om forskjellene mellom de to prøvene er ikke nødvendig. Derfor er denne testen brukes i stedet for de to prøve t-test ved mange anvendelser når normaliteten antagelsen er opptatt

De viktigste trinn i Wilcoxon test [22] er oppsummert nedenfor:.

montere alle prøver av de to populasjonene og sortere dem i stigende rekkefølge.

Wilcoxon statistikken er beregnet av summen av alle rekkene knyttet til prøvene fra mindre gruppe.

hypotesen avgjørelse er gjort basert på p-verdien, som er funnet fra Wilcoxon rank sum distribusjon tabellen.

i anvendelser av Wilcoxon test for genet valg, de absolutte verdier av de standardiserte Wilcoxon statistikk er ansatt for å rangere gener

Signal-til-støy-forhold (SNR)

SNR definerer den relative klasse separasjon beregning av:. (5) der

c

er klassen vektor,

f

i

blir

i

th funksjonen vektor. Ved å behandle hvert gen som en funksjon, forvandle vi SNR for funksjonen utvalget til genet utvalg problem for microarray data klassifisering.

SNR innebærer at avstanden mellom gjennomsnittene av to klasser er et mål for separasjon. Videre favoriserer den lille standardavviket avstanden mellom klassene. Avstanden mellom middelverdiene er dermed normalisert ved standardavviket av klassene [23].

En roman genet utvalg av modifisert AHP

Hver av de ovennevnte kriteriene kan brukes til å utlede rangeringen av gener og deretter for å velge størst ranking gener for klassifiseringsmetoder. Tilliten til å bruke en eneste kriterium for valg av gener er ikke alltid oppnådd. Vurderer som kriterium bør brukes er usikker. Dette spørsmålet inspirerer en idé om å ta hensyn til rangeringen av alle kriterier i evaluering av gener. Gjennom denne måten, ville elite gener av hvert kriterium systematisk sammen for å danne de mest informative og stabile genet undergrupper for klassifisering. Det er en vanskelig praksis å kombinere vurdering av alle kriteriene fordi utvalgene av statistikk over kriteriene er forskjellige. Kriteriet genererer en høyere spekter av statistikk ville dominere de med en lavere rekkevidde. For å unngå dette problemet, bruker vi AHP i vurderingen av gener. Den AHP utplassering er ofte behandlet med kvalitative kriterier der deres vurderinger er utledet fra eksperter. Likevel er eksperter kunnskaper ofte begrenset, spesielt når problemet blir løst utføres på et stort antall kriterier som henviser til ulike kunnskapsområder. Dette støtter bruk av kvantitative kriteriene i AHP. I det følgende presenteres en roman forslag vis-à-vis en rangering prosedyre å benytte kvantitative kriterier til AHP for genet utvalg problem. Kriteriene som brukes her er de fem testobservatorene dvs. t-test, entropi, ROC, Wilcoxon, SNR.

AHP metode som i stor grad brukes i komplekse multi-kriterier beslutningsprosesser er ofte utført med en trestruktur av kriterier og underkriterier [24]. På grunn av arten av de valgte kriteriene her, har trestrukturen tre nivåer av hierarkier som vist i fig. 1.

Fem kriterier anses samtidig i løpet av AHP gjennomføring. De fem kriteriene er alle kvantitative slik at vi intuitivt kan sette faktiske tall for disse kriteriene inn elementer av den parvise rangeringen matrise. Dette ville imidlertid forvrenge matrise i forhold til andre matriser som beskriver vurderinger og vurderinger i forhold til andre kriterier. Vanlige anvendelser av hierarkisk analyse ofte trekke på vurderingsskalaen den Saaty [1, 9] og røffe forhold, f.eks 1, 3, 5, 7, 9 for å bygge parvise sammenligning matriser [24, 25]. I denne forskningen, foreslår skalaen [1, 10] for rangering betydning eller betydning av et gen sammenlignet med andre gener. Denne skalaen blir brukt på alle kriteriene i AHP søknaden.

Anta

X

= (

x

ij

) er

n

×

n

-dimension parvise dom matrise der hvert element

x

ij

representerer den relative betydningen av genet

i

spissen genet

j

med hensyn til et bestemt kriterium,

n

er antall gener. Den gjensidige karakteristiske induserer følgende begrensninger (6) (7) Dersom genet

i

er absolutt mer informativ enn genet

j

, så har vi

x

ij = 10. Følgelig genet

j

må være absolutt mindre viktig enn genet

i

og

x

ji = 1/10. Der

x

ij = 1, indikerer dette at to gener er like informativ. Jo høyere verdi på

x

ijε [1,10], jo viktigere genet

i

er å sammenligne med genet

j

. Element

x

ij som er større enn en kalles en overlegen element. Ellers

x

ij kalles en mindreverdig element som det er mindre enn 1.

La oss definere avstand

d

ij mellom to gener

i

og

j

i forhold til et gitt kriterium (f.eks t-test, entropi, ROC, Wilcoxon eller SNR) av den absolutte verdien av subtraksjon mellom to statistikkene

c

i

og

c

j

av to gener. product: (8)

Merk at for alle kriterier, jo høyere statistikk, er det viktigere genet. Fremgangsmåten for å skaffe elementer i sammenligning gjensidige matriser er beskrevet nedenfor der

c_max

er maksimal avstand på gener om den gitte kriterium,

c_max

=

max product: (

d

ij

), ∀

i

,

j

∈ [0,

n

], og

c

er en midlertidig variabel.

Ranking prosedyre.

for alle par av to gener

i

og

j plakater (9) IF (

c

i

c

j

) SÅ

x

ij

=

c

ELSE

x

ij

= 1 /

c

END IF

END FOR

de uttrykk for x

ij sikre at overlegen elementer i dommen matriser vil bli fordelt i intervallet [1, 10]. Merk at via beregninger av den kvantitative rangeringen metoden, er den overlegne prosenter lov til å være reelle tall innenfor [1, 10] slik at de kan karakterisere strengere dom betydning mot den opprinnelige Saaty karakterskala. For eksempel vurdere fire kvantitative kriterier A, B, C og D med respektive verdiene 0,9, 1,3, 8,7 og 9,2. Ifølge Saaty karakterskala, er kriteriene B og A (D og C) anses som «like viktig» og forholdene

x

BA Hotell og

x

DC

vil bli like tildelt en:

x

BA

=

x

DC

= 1. Selvfølgelig, forskjellen mellom B og A (eller D og C), men lite, er neglisjert. Men med vår rangeringen metoden, prosenter

x

BA Hotell og

x

DC

tildeles mer presist og annerledes 1,4337 =

x

BA

x

DC

= 1,5422. Likeledes, i Saaty karakterskala, er kriteriet C anses absolutt viktigere enn kriterium A og B, og forholdet

x

CA Hotell og

x

CB

er begge tildelt 9. i vår målestokk, forholdet

x

CA Hotell og

x

CB

vil bli tildelt annerledes 9,4578 og 9,0241 kroner. Derav «absolutt viktighet» dom er avslappet og erstattet av mer strenge dommer med forskjellige reelle tall 9.4578 og 9,0241 i stedet for samme grov nummer 9 for både

x

CA Hotell og

x

CB

.

Etter sammenligning matriser er konstruert, beregner hierarkisk analyse egenvektorer som viser rangeringen score av gener. Beregninger av AHP er beskrevet konsist i tabell 1.

Mens bruk av AHP, er matrisen som kreves for å være konsekvent og dermed dets elementer må være transitive, er at

x

ik

=

x

ij

x

jk. Hvis du vil kontrollere konsistensen av sammenligningen matrise X, Saaty [25] foreslo å beregne Konsistens Index (CI) og deretter Konsistens Ratio (CR) basert på store prøver av matriser av rent tilfeldig dommer. La

ε

= [

ε

1, …,

ε

n

]

T være en egenvektor og λ en egenverdi for kvadratisk matrise

X

, så: (10) (11) (12) CR bør ikke overstige 0,1 hvis sett av dommer er konsistent selv om CR på mer enn 0,1 (men ikke for mye mer ) noen ganger må bli akseptert i praksis. CR lik 0 innebærer dommene er helt konsistent.

Når beregningene for fem kriterier er ferdig, får vi den såkalte alternativ ytelse matrise som består av fem egenvektorer som har den form som er vist i tabell 2.

Endelig rangeringen av gener er det multiplikasjon av ytelsen matrise og vektoren som representerer den viktige vekten av hvert kriterium. Vekten vektoren kan oppnås ved å evaluere viktige nivået for hvert kriterium med hensyn til mål ved å bruke samme fremgangsmåte som beskrevet ovenfor. Men for å unngå en skjevhet dom, anser vi fem kriterier som har en like viktig nivå når det gjelder mål. Da vekten vektoren er (1/5, 1/5, 1/5, 1/5, 1/5)

T. Det er således åpenbart at rangeringen av gener som er automatisk normalisert, og det viser den viktige nivået for hvert gen tar hensyn til ikke bare et eneste kriterium, men alle kriterier samtidig. Høyest rangerte gener blir deretter valgt for klassifisering etterpå. I denne utredningen, å vitne resultatene av klassifiseringsteknikker, er et bredt spekter antall gener bestemt. Detaljer om antall gener utvalgte er presentert i den eksperimentelle delen.

Genetisk Fuzzy System for mikroarray data Klassifisering

Fuzzy standard additiv modell (FSAM)

FSAM system

F

:

R

n

→ R

p

består av

m

if-then uklare regler, som til sammen kan jevnt omtrentlig sammenhengende og avgrenset målbare funksjoner i en kompakt domene [26, 27]. Hvis-delen fuzzy sets

En

j

R

n

kan være noen form for medlemskap funksjoner. Likeledes så delte fuzzy sett

B

j

R

p

kan velge vilkårlig fordi FSAM utnytter bare Tyngdepunktet

c

j Hotell og volum

V

j

B

j

å beregne utgangs

F product: (

x

) gitt innspill vektoren

x

εR

n. product: (13)

Hver av

m

uklare regler i ordet skjemaet

«Hvis X = A

j

Så Y = B

j

«

er representert med en uklar regel lapp på formen A

j × B

j⊂R

n × R

p. FSAM dekker derfor grafisk grafen til approximand

f

med

m

fuzzy regel patcher. Hvis-delen set

En

j

R

n

er preget av det felles sett funksjonen

en

j

:

R

n

→ product: [0, 1] at faktorer. Deretter-delen fuzzy set B

j⊂R

p er tilsvarende modellert av medlemskap funksjon

b

j

:

R

p

→ product: [0, 1] som har volum (eller område)

V

j og Tyngdepunktet

c

j

. De konvekse vekter gir uttrykk: (14) indusere FSAM utgang

F product: (

x

) som en konveks summen av daværende del sett centroids. FSAM spesielt eller uklar systemet generelt krever størrelsesorden

k

n + p-1 regler for å karakterisere funksjon

f

:

R

n

→ R

p

i en kompakt domene.

Læring er en viktig prosess med FSAM å bygge en kunnskapsbase som er en struktur av if-then uklare regler. Den FSAM læringsprosessen inkluderer konvensjonelt to grunnleggende trinn: a) uten tilsyn læring for bygging av if-then uklare regler og b) overvåket læring for tuning regel parametre [28]

veiledet læring ofte starter fra en tilfeldig initialisert sett. parametere og slutter når den møter de bestemte stoppkriteriene. Som treningsprosessen koster mye tid og er ofte fanget i lokale minima, er initialisering av parametere og dermed en triviell sak. Den ukontrollert læringsprosess, som ofte oppnås ved en gruppering metode, f.eks fuzzy c-midler, bidrar til å initialisere parametere av uklare regler mer dyktig (fig. 2).

Microarray data vanligvis forbinder med high-dimensjonale naturen som fører FSAM klassifiseringen til en regel eksplosjon system vendt forbannelse dimensionality [29]. Med et stort antall regler krever FSAM et stort antall prøver for å trene systemet. Dette motsier imidlertid med lav-prøven er karakteristisk for genekspresjon microarray data. Det er derfor viktig å optimalisere regelstrukturen for å forbedre effektiviteten av læringsprosessen og generalisering evne FSAM.

I denne artikkelen foreslår vi bruk av en evolusjonær læringsprosess, dvs. GA, for å optimalisere antall av fuzzy reglene før veiledet læring er utført. Den evolusjonære læring-komponenten er også utformet for å lindre den beregnings kostnaden for den etterfølgende overvåket læring. Hele integrasjon mellom GA og FSAM for å formulere en genetisk fuzzy system er vist på fig. 3. Detaljer om hver læring komponent er presentert i følgende deler.

Unsupervised læring av fuzzy c-midler (FCM) clustering

FCM clustering metoden [30] brukes initial parametere av FSAM. Vi organiserer de tilsvarende inn- og utgangsdata til en unik observasjon av p + 1 dimensjoner der

p

er antall innganger og en utgang som tilsvarer den klassen som blir klassifisert. Betegne

x

i er

I

th organisert observasjon (

i

= 1, …,

N

),

x

i er presentert som følger: (15) hvor er

j

th inngangen på

i

th observasjon og

utgang

i

er produksjonen av

i

th observasjon. Ved gruppering utvalget av

N

observasjoner med ovenstående format, er vi i stand til å utlede

C

resulterer klynger tilsvar med

C

uklare regler for FSAM. Når FCM clustering er fullført, er sentrene for de resulterende klynger tilordnet sentra i medlemskapsfunksjoner (MFS). Sentrene av produksjonen av hver regel vil bli tildelt lik utgangsverdien av tilsvarende klyngen. Breddene av MFS av hver regel er initialisert basert på standardavviket til dataene.

sinc

medlemskap funksjon

sin product: (

x

) /

x

anbefalt som den beste formen for en uklar sett i funksjon tilnærming brukes til å konstruere if-then uklare regler [31].

j

th sinc sett funksjon (Fig. 4) sentrert på

m

j Hotell og bredde d

j

0 er definert som følger:. (16) Kjøre FCM clustering en rekke ganger lik populasjonsstørrelsen GA, er vi i stand til å få den opprinnelige befolkningen for GA, som er beskrevet i det følgende

Fuzzy regelstrukturen optimalisering av GA

en GA [32] er en uortodoks søk eller optimalisering teknikk drives på en befolkning på

n

kunstige individer. Individer er preget av kromosomer (eller genomer)

S

k,

k = {

1,

,

n}

. Kromosomet er en rekke symboler, som kalles gener, S

k = (S

k1

, …, S

kM

), og

M

er en streng lengde. Enkeltpersoner er evaluert via beregning av treningsfunksjon. Å utvikle seg gjennom generasjoner, utfører GA tre grunnleggende genetiske operatorer:. Utvalg, crossover og mutasjons

En ruletthjul valgmetode brukes for å velge de personene som går på å produsere en mellomliggende befolkningen. Foreldre er valgt basert på deres egnethet. Kromosomer har flere sjanser til å bli valgt hvis de er bedre (har høyere fitness) enn de andre. Tenk deg alle kromosomene i befolkningen er plassert på en roulette hjulet, og hver har sin plass store henhold til treningssenteret funksjon.

Hjulet er rotert og utvalget punkt indikerer hvilke kromosom er valgt når hjulet er stoppet. Det er åpenbart at kromosom med større egnethet vil bli valgt flere ganger (konkurrerer regel i evolusjonsteorien).

crossover operatøren velger tilfeldige par fra mellom befolkningen og utfører en-punkts crossover. Gener fra foreldre kromosomer er valgt for å skape nye avkom.

Til slutt, enkeltpersoner er mutert og de danner den nye befolkningen. De mutasjon forhindrer at du faller alle løsninger i befolkningen inn i en lokal optimal av problemet blir løst. Noen tilfeldig utvalgte biter er slått 1-0 eller fra 0 til 1.

Gjennom kromosomer «evolusjon, GA søker etter den beste løsningen (e) i den forstand at den gitte treningsfunksjonen. Vi benytter GA å trene kompliserte FSAM omfatter mange parametere. Trenings funksjonen er utformet med sikte på å redusere antallet av fuzzy reglene, og også for å redusere den lære feilen samtidig. Den følgende formel er foreslått: (17) hvor

m

er antallet fuzzy regler,

n

er antallet datasampler, og er den feilleddet er definert ved den følgende ligning 🙁 18) der

y

i

er den virkelige verdi og

F product: (

x

i

) er produksjonen av FSAM. Parametere av FSAM er kodet inn i genene av GA kromosomer /individer. 15; 15; 15;

Legg att eit svar