PLoS ONE: Ved hjelp av regelbasert maskinlæring for Kandidat Sykdom Gene prioritering og Smak Classification of Cancer Gene Expression data

har vist

Abstract

Microarray dataanalyse for å gi et effektivt verktøy for å studere kreft og genetiske sykdommer. Selv klassiske maskinlæringsteknikker har med hell blitt brukt til å finne informative gener og å forutsi klasse etiketter for nye prøver, vanlige restriksjoner av microarray analyse for eksempel små utvalgsstørrelser, en stor egenskap plass og høyt støynivå likevel begrense sine vitenskapelige og kliniske applikasjoner. Økende interpretability av prediksjonsmodeller og samtidig beholde en høy nøyaktighet vil bidra til å utnytte informasjonsinnholdet i microarray data mer effektivt. For dette formålet, vurderer vi våre regelbaserte evolusjonære maskinlæringssystemer, BioHEL og GAssist, på tre offentlige microarray kreft datasett, skaffe enkle regelbaserte modeller for prøve klassifisering. En sammenligning med andre referansemicroarray prøve classifiers basert på tre ulike funksjonsvalg algoritmer tyder på at disse evolusjonære lære teknikker kan konkurrere med state-of-the-art metoder som støtte vektor maskiner. De oppnådde modellene nå nøyaktighet på over 90% i to-nivå eksterne kryssvalidering, med den ekstra verdien av å tilrettelegge for tolkning ved hjelp av bare kombinasjoner av enkle if-then-else regler. Som en ytterligere fordel, avslører en litteratur gruvedrift analyse at prioriteringer av informative gener hentet fra BioHEL klassifisering regelsett kan utkonkurrere genet rangeringer hentet fra en konvensjonell ensemble funksjonsvalg i forhold til punktvis gjensidig informasjon mellom relevante sykdoms vilkår og standardiserte navn på topp- rangert gener

Citation:. Glaab E, Bacardit J, Garibaldi JM, Krasnogor N (2012) Bruk av regelbasert maskinlæring for Kandidat sykdom Gene prioritering og Smak Classification of Cancer genuttrykk data. PLoS ONE syv (7): e39932. doi: 10,1371 /journal.pone.0039932

Redaktør: Christos A. Ouzounis, Senter for forskning og teknologi, Hellas, Hellas

mottatt: 29 januar 2012; Godkjent: 29 mai 2012; Publisert: 11.07.2012

Copyright: © 2012 Glaab et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Vi erkjenner støtte av Marie-Curie tidlig stadium-Training program (gi MEST-CT-2004- 007597), med Storbritannia Engineering og Fysisk Sciences Research Council (EP /E017215 /1, EP /H016597 /1 og EP /J004111 /1) og Bioteknologi og Biological Sciences Research Council (BB /F01855X /1). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Gene uttrykk profilering og dataanalyse er en mye brukt metode for å få ny innsikt om regulering av cellulære prosesser i biologiske systemer av interesse. For dette formålet, kan vanlige statistiske metoder og maskinlæring teknikker brukes, inkludert clustering metoder for å oppdage klasser av beslektede biologiske prøver, funksjon seleksjonsmetoder for å identifisere informative gener og klassifiseringsmetoder for å tildele klassen etiketter til celleprøver med ukjente biologiske forhold.

Her har vi fokus på tilsyn genuttrykk analyse av kreft microarray data ved hjelp av funksjonen utvalg og klassifiseringsmetoder. Videre fremdrift i nøyaktighet og interpretability av microarray klassifiseringssystemer er av stor praktisk interesse, siden en mer nøyaktig kreftdiagnose ved hjelp av mikromatriser vil bidra til å forhindre upassende terapi utvalg.

Selv om høye prediksjon nøyaktighet har allerede nådd på mange microarray kreft datasett, modellene er ofte svært komplekse og vanskelige å tolke, og mangler robusthet når det blir brukt på eksterne data fra andre eksperimentelle plattformer. Spesielt oppstår utfordringer fra små utvalgsstørrelser, et stort antall uninformative gener, høye støynivåer, flere uteliggere og systematisk skjevhet. Mens eksperimenter kan ofte gjennomføres med høy reproduserbarhet innenfor et enkelt laboratorium, oppnådde resultater basert på ulike chip teknologier og eksperimentelle prosedyrer fra ulike laboratorier er ofte knapt sammenlignbare. Noen av disse problemene kan løses ved hjelp av kryss-studie normaliserings metoder og integrerende microarray analyse [1], [2] eller ved å kombinere microarray data med kliniske data [3], [4]. For å oppnå ytterligere forbedringer, i tidligere studier har vi ansatt ensemble lære teknikker [5] – [7] og integrerte data fra mobilnettet trasé, co-uttrykk nettverk og molekylære interaksjonene i analysen [8] – [11]. Men det er fortsatt et behov for mer nøyaktige, robuste og lett tolkbare prediksjon metoder.

For å lindre noen av de typiske problemene med dagens microarray studier og viser fordelene ved regelbaserte evolusjonære maskinlæringssystemer for microarray sample klassifisering, som følge av mulighetene til evolusjonære beregning og den forbedrede interpretability av beslutningsregler, vi evaluerer våre tidligere utviklet maskinlæringssystemer BioHEL [12] – [15] og GAssist [16] – [20] på tre store, offentlige microarray kreft datasett.

Evolusjonære læringsmetoder har allerede blitt brukt med hell i ulike microarray studier, f.eks for å velge informative undergrupper av gener [21] – [23], for clustering og biclustering [24] – [26] og prøve klassifisering [27] – [29]. Videre, i de senere år nye regelbaserte klassifiserings tilnærminger ble testet på høy-dimensjonale genet array-data [30] – [33], som gir menneske tolke regelsett som modeller

De maskinlæringssystemer presenteres i. dette papiret kombinere disse to paradigmer, evolusjonær søk og regelen læring, og gir både en effektiv søke romforskningen og en forbedret modell interpretability. Spesielt kan BioHEL er konjunktiv regler peke eksperimentator til potensielle funksjonell sammenheng mellom gener [34], og dets verdi range regler gi brukeren en indikasjon på hvorvidt et gen har en tendens til å være opp- eller nedregulert i tilsvarende biologisk tilstand, gitt en oversikt verdiområde på tvers av alle prøver. En illustrasjon av hele analyseprotokollen er vist i fig. 1. Først, normal vi hver microarray datasett og pre-filter attributtene for å redusere dimensjonalitet. Deretter bruker vi våre læring algoritmer

BioHEL product: [12] – [15] og

GAssist product: [16] – [20] i kombinasjon med ulike funksjonsvalg algoritmer ved hjelp av en kryssvalidering ordningen og gjenta denne prosessen med tre alternative classifiers (se eksperimentell protokoll). I det siste trinnet, de genererte prediksjon resultater og de genetiske prober (senere referert til av deres tilsvarende gener) som ble vurdert som mest informative av læringssystemet analyseres statistisk og ved hjelp av en tekst-mining tilnærming for å finne sammenhenger mellom relevante sykdoms vilkår og . tilsvarende standardiserte genet identifikatorer

protokollen består av tre trinn: 1) Pre-behandlingen; 2) Overvåket analyse; . 3) Post-analyse

Vi vil diskutere disse trinnene i detalj i henhold til følgende struktur: I Metoder delen gir vi en steg-for-steg beskrivelse av våre eksperimenter og forklare hver av de brukes teknikker i detalj, håndtere først med funksjonsvalg nærmer seg, deretter med maskinen læringssystemer BioHEL og GAssist, og til slutt med datasett og pre-bearbeidingsmetoder. Den Resultater delen inneholder prediksjon resultatene av å kjøre BioHEL, GAssist og de alternative classifiers på de tre microarray kreft datasett. Dessuten, denne delen presenterer en post-analyse av resultatene med biomedisinsk litteratur gruvedrift. I Konklusjoner delen gir vi en syn på ytterligere mulige utvidelser av klassifiseringen rammeverket.

I sammendraget, det overordnede målet med studien var å få mer biologisk tolke modeller for microarray kreft prøve klassifisering, som gjør en robust prioritering av mulige biomarkører og nå konkurransedyktige prediksjon nøyaktighet. I stedet for tweaking algoritmer eller re-utvikle dem fra bunnen av for å maksimere nøyaktigheten på bekostning av høyere kompleksitet, ble målet nådd ved en ny analyse rørledning som undersøker hvordan ulike algoritmer overskudd fra ekstern funksjonsvalg, og som utnytter de kjente fordelene av eksisterende evolusjons algoritmer i form av søk plass utforskning og utnyttelse, og regelbaserte læringsmetoder i form av interpretability.

metoder

Forsøksprotokoll protokoll~~POS=HEADCOMP

Vår analyse rørledning for å sammenligne både funksjon utvalg og prediksjon metoder for microarray prøve klassifisering består av tre grunnleggende trinn: data pre-prosessering, veiledet analyse av data og post-analyse av resultatene

i den første fasen, microarray datasettene er pre-behandlet. og normalisert (se pkt datasett). Deretter blir en ekstern kryssvalidering utført [35], dvs. i hver syklus av kryssvalidering, først en funksjon valgmetode er brukt på den aktuelle treningsdata og den resulterende undergruppe av funksjonene brukes til å klassifisere testsettet prøver med en maskin læringsmetode. Denne prosedyren er ansatt ved hjelp av både 10-fold kryssvalidering (CV, med tilfeldige splittelser men konsekvent, deles opp over alle sammenligninger) og leave-one-out CV (LOOCV) og ulike kombinasjoner av funksjonsvalg og klassifiserings algoritmer. Spesielt de har utvelgelsesmetoder omfatter univariate filter «Partial-Least-Squares basert Feature Selection» (plss), den kombifilter «Correlation-basert Feature Selection» (CFS) [36] og den innebygde funksjonen valgmetoden «Random Forest basert Feature Selection «(RFS er alle utvelgelsesmetoder diskutert i detalj nedenfor). Klassifiserings metoder omfatter våre egne metoder BioHEL og GAssist, en støtte vektor maskin [37], et tilfeldig Forest klassifikator (RF) [38] og «Prediction Analyse av Mikromatriser» -metoden (PAM) [39]; se flytskjemaet i fig. 1.

I det siste trinnet av protokollen, bruker vi en litteratur gruvedrift analyse for å sammenligne rangeringen av informative genetiske prober (referert til som

gener

under resultatene, fordi alle valgte genetiske sonder kan tilordnes til en unik gen identifikator via kartleggingen informasjon fra chip produsent), hentet fra klassiske trekk seleksjonsmetoder og fra en post-prosessering av de regelbaserte modeller generert av BioHEL tilnærming.

datasett

Alle metoder blir vurdert på tre offentlige microarray kreft datasett som representerer tre forskjellige typer kreft: Prostatakreft (52 tumorprøver vs. 50 kontroller) [40], lymfom (58 diffuse store B-celle lymfom prøver vs. 19 follikulært lymfom prøver) [41], og en brystkreft datasett innhentet fra samarbeid Queens Medical Centre i Nottingham (84 luminal prøver vs. 44 ikke-luminal prøver) [6], [42] – [44] (se tabell 1 ). Detaljer for hvert datasett og pre-prosesseringsmetode som brukes i denne sammenlignende evaluering er gitt i Material S1. Alle forhånds behandlet datasett er også tilgjengelig på nettet (https://icos.cs.nott.ac.uk/datasets/microarray.html), inkludert kryssvaliderings undergrupper etter funksjonsvalg.

Feature seleksjonsmetoder

det høye antall funksjoner (genetiske prober) og relativt lite antall observasjoner (prøver) i typiske microarray studier utgjøre ulike statistiske problemer, som er kjent som «forbannelse dimensionality» i maskinlæring (se [45]). Derfor, etter normalisering og pre-filtrering av de opprinnelige datasettene, bruker vi forskjellige funksjonsvalg tilnærminger for å trekke kompakt sett med diskriminerende attributter før påføring av klassifiseringsmetoder. Videre, for å vurdere i hvilken grad vår evolusjonære maskinlæring nærmer BioHEL og GAssist er i stand til å klassifisere prøvene uten attributt utvalg, vi evaluere prediktive resultatene av disse metodene både med og uten en dedikert ekstern funksjonsvalg.

for å ta hensyn til mangfoldet av spilleseleksjonsmetoder, er tre typer utvalgs tilnærminger vurderes for seg: en univariate filter (plss [46]), et kombifilter (CFS [36]) og et innebygd utvalg tilnærming (RFS [38]) . Viktigere, vi bare vurdere algoritmer som er garantert å ha en mulig runtime selv på svært store datasett, og i stedet for å forsøke å identifisere alle relevante funksjoner, tar vi sikte på å unngå valg av redundante funksjoner, som kan forringe klassifiseringen ytelse (se [47 ] for en sammenligning av

all relevant

utvalg problem mot

minimal-optimal

utvalg problem vurdert her). For en generell gjennomgang på funksjonsvalg tilnærminger i bioinformatikk, se [48].

For alle funksjonen seleksjonsmetoder maksimal funksjon undergruppe størrelse ble satt til 30 for å hindre over-fitting, redusere modellen kompleksitet og sannsynligheten for å inkludere falske positive trekk (men er fremgangsmåtene tillatt å velge fleksibelt mindre enn 30 funksjoner). Denne øvre grense ble valgt i henhold til resultater fra studier estimering omtrentlig antall funksjoner for å bli valgt i ulike typer microarray studier for å få bare genetiske sonder med betydelig informasjonsverdi på utfallet attributt (ved hjelp av ulike modeller for å beregne p-verdien betydning score , se [49] – [51]). Valg metodene er beskrevet i detalj i de følgende avsnittene.

Partial-Least-Squares Basert funksjonsvalg (plss)

Som en representant for en klassisk univariate filter, en metode med delvis Minst Squares (PLS) [52] algoritmen er ansatt. Nærmere bestemt er de funksjonene bestilt av de absolutte verdiene av vektvektor som definerer det første latente komponent i en PLS-modell som er bygget på treningsdata. Som tidligere vist [53], rekkefølgen av funksjoner som oppnås fra denne tilnærmingen er ekvivalent til F-statistikk som brukes i analysen av varians (ANOVA). Således, i stedet for beregningen PLS, F-statistikk selv kunne ha vært brukt, men plss gir en mer effektiv måte å utføre beregningen (den raske SIMPLS algoritmen [54] blir brukt til dette formål).

sammenheng Basert funksjonsvalg (CFS)

kombifiltermetoden CFS [36] søker etter undergrupper av funksjoner som har høy korrelasjon til utfallet variabel, men lav korrelasjon blant hverandre. Dette konseptet er formalisert ved følgende funksjon undergruppe poengsum: (1) hvor er valgt undergruppe med funksjoner, er den gjennomsnittlige funksjonsklasse korrelasjon og gjennomsnittlig funksjonen-feature korrelasjon. Mens nevneren reduserer score for korrelerte funksjoner for å fjerne overflødige variabler, fremmer telleren funksjoner med høy korrelasjon til klassevariabel for å beholde dem som kraftige discriminators. Som foreslått i det opprinnelige CFS publikasjonen, ble en grådig best første søkestrategi ansatt for å utforske funksjonen undergruppe plass [36].

Random Forest basert funksjonsvalg (RFS)

I motsetning til CFS og plss algoritmen, attributtet valg basert på Random Forest klassifikator [38] bruker en metode direkte innebygd i prediksjon algoritme. Spesielt er en Random Forest modell bygget ved å trene mange binære, unpruned beslutning trær på bootstrap under prøver av treningsdata. Betydningen av en funksjon kan vurderes ut Gini-indeksen noden urenhet tiltak [55], ved å beregne gjennomsnittlig reduksjon i dette tiltaket (MDG) fra foreldrenodene til sine direkte etterkommer noder i løpet av alle tre noder, eller alternativt ved middelverdien reduksjon i nøyaktighet (MDA). Forskjellige maskinlærings studier har oppnådd forskjellige resultater med hensyn til sammenlignende robusthet MDA og MDG [56], [57], men på microarray genekspresjonsdata resultatene for disse to forurensningstiltak har blitt observert å være meget lik [58]. Dermed vil bare MDG kriterium vurderes i denne studien. En funksjon undergruppe er hentet fra tilsvarende attributt vurdering ved å velge de beste funksjonene (her, er valgt slik at de oppnådde undergruppe størrelser er sammenlignbare med de i CFS-metoden)

Klassifisering:. BioHEL og GAssist

BioHEL (Bioinformatikk orientert hierarkisk Learning) [12] – [15] er en evolusjonær maskinlæring system ansette iterativ regel Learning (IRL) paradigme [59], [60] (BioHEL kildekoden er tilgjengelig på nettet: http: //icos.cs.nott.ac.uk/software/biohel.html). IRL prosedyre begynner med en tom regel satt og komplett sett med observasjoner som input. Klasseregler legges iterativt til regelverket inntil deres kombinasjon dekker alle prøvene. De endelige utganger er strukturert regelsett, også kjent som

beslutninglister product: [61]. En ekte eksempel regelsettet innhentet på prostatakreft datasettet er vist i fig. 2 og belyser ulike regeltyper i BioHEL:

konjunktiv regler

, noe som kan gi informasjon om mulige funksjonelle sammenhenger mellom gener;

verdiområdet regler

, som markere fortrinnsrett opp- eller nedregulering av gener under ulike biologiske forhold og robusthet for en klasse oppdrag i form av den relative bredde eller trang et uttrykk verdiområde; og

standardregler

, som gjelder hvis ingen av de tidligere bestemte regler er matchet. Hver gang en ny beslutningsregel har blitt lært og lagt til en tilsvarende regelsett, er observasjonene den dekker fjernet fra eksemplene satt.

«Exp (x)» er en forkortelse for «Expression of gen x», hvor x er et HUGO gen symbol, «» representerer den ledsagende oG-operator «, [x, y]» er et intervall av uttrykk verdier hvor verdien av attributtet må ligge for å oppfylle en forutsetningen for regelen, og «- «er en klasse tildeling operator, fulgt av utdata klasse av regelen. Regel 5 er en standard regel som gjelder hvis ingen regel ovenfor er matchet.

For å utforske søket plass av mulige regler effektivt, bruker BioHEL en standard generasjons genetisk algoritme (GA) som er brukt i hver IRL iterasjon for å finne den beste regelen for prøver som ennå ikke er omfattet av reglene som finnes i tidligere iterasjoner. Siden gass er ikke-deterministisk, kan flere repetisjoner av regelen læreprosess med identiske treningssett anvendes for å øke sannsynligheten for å finne den optimale regelen. I tillegg kan gjentakelser av hele læringsprosessen (dvs. generere et komplett regelsett og ikke bare en enkelt regel) også brukes, for å kombinere flere regelsett til en majoritets stemme konsensus prognose, og dra nytte av variansen reduserende effekter av ensemble læring [62].

for å finne den beste regelen i hvert IRL iterasjon, treningsfunksjonen brukes i GA står både for nøyaktigheten og det generelle, dvs. antall dekket observasjoner, av en regel . I BioHEL, er dette fitness-funksjon basert på Minimum Beskrivelse Lengde (MDL) prinsippet [63] og belønning regler med.

høy nøyaktighet, dvs. regler som klassifiserer de fleste prøver på riktig måte, etter

høy dekning , dvs. regler som svarer til mange prøver, og Selge

lav kompleksitet, dvs. regler med enkle predikater.

Den nøyaktige definisjonen av BioHEL treningsfunksjonen har blitt presentert og diskutert andre steder [15]. Men når det gjelder regelen dekning, er det verdt å nevne at reglene i BioHEL som dekker et visst minimum andel av observasjoner får en høy lønn, men etter overgår denne grensen, den ekstra belønning for å dekke flere prøver er mindre.

BioHEL har blitt sterkt påvirket av sin forgjenger programvare

GAssist product: [16] – [20] (https://icos.cs.nott.ac.uk/software/gassist.html), hvor de har arvet kunnskap representasjon. I motsetning til den IRL tilnærming ansatt i BioHEL, er GAssist en Pittsburgh-stil læring klassifiseringssystemet [64], det vil si de personene som er utviklet i et generasjonsperspektiv GA er ikke enkelt klasseregler, men regelsett som representerer komplette tentative løsninger av data mining problem . For den nøyaktige definisjonen av GAssist trenings formel, se [16].

Tidligere empiriske sammenligninger av BioHEL og GAssist har vist at GAssist tendens til å prestere bedre på små datasett, mens etterfølgeren BioHEL gir overlegen ytelse for store datasett , både når det gjelder antall tilfeller og /eller antall attributter. Derfor ansetter vi begge metoder her for å undersøke deres relative prediktiv kraft på microarray data. Spesielt BioHEL var den eneste prediktor for som et program på microarray data uten ekstern funksjon valget var mulig i en mulig runtime for LOOCV går, derfor denne læringsmetode ble brukt både med og uten ekstern funksjonsvalg.

den kryssvalidering prosedyre, BioHEL og alternative referanse algoritmer og funksjon seleksjonsmetoder har blitt integrert i vår offentlig tilgjengelig web-baserte microarray dataanalyse programvare

ArrayMining product: [5].

evaluering metoder og implementering Parametere

Den viktigste vurderingsmetode som brukes i denne studien er en kryssvalidering ordningen kjent som

to-nivå eksterne kryssvalidering product: [35]. I en

ekstern

kryssvalidering, er funksjonen utvalg algoritme brukes uavhengig til hvert treningssett generert over sykluser av valideringsprosedyre. Denne tilnærmingen unngår utvalgsskjevhet av klassisk interne kryssvalidering, hvor funksjonsvalg utføres kun en gang på hele datasettet før kryssvalidering [65].

To-nivå

eksterne kryssvalidering bruker en ekstra nestet kryssvalidering for å optimalisere parametrene for prediksjon algoritme bruker et rutenett søk. Vi bruker dette andre nivået av kryssvalidering å passe parametrene for den alternative referanse prediktorer SVM, RF, og PAM.

BioHEL brukes med de samme standardparameterne som er angitt i [15] bortsett fra antall iterasjoner som er satt til 500 og sannsynlighetene for generalisering og spesialisering som er satt til 0,5. GAssist påføres ved hjelp av standardparametrene [19] med unntak av antallet iterasjoner som er satt til 500 i tillegg. Både GAssist og BioHEL ble kjørt 100 ganger for hver trening satt med forskjellige tilfeldige frø. Hver kjøring resulterte i et regelsett. Et ensemble av de resulterende 100 regelsettene ble brukt til å forutsi den tilsvarende testsettet.

For å kunne sammenligne BioHEL og GAssist mot vanlig anvendte fremgangsmåter for mikromatriseprøve klassifisering, hele kryssvalidering prosedyre ble påført på tre alternative benchmark classifiers: en støtte vektor maskin (SVM) [37], en tilfeldig skog klassifikator (RF) [38] og «Prediction Analyse av Mikromatriser» metoden (PAM) [39] Hotell

støtten vektor maskin. vi bruker er en lineær kjerne C-SVM fra E1071-pakke til R statistisk læringsmiljøet, et omslag for den velkjente LibSVM bibliotek. Andre polynom kjerner og radial basisfunksjons kernel ble testet uten å gi overlegne resultater i våre eksperimenter (data ikke vist). Denne observasjonen samsvarer godt med tidligere funn i litteraturen i henhold til hvilke lineære kernel SVMer ofte utføre tilsvarende eller bedre på microarray data enn SVMer hjelp polynomfunksjoner kjerner av høyere grad [66], [67]. Å ansette RF og PAM metoden vi brukte de tilsvarende R pakkene

randomForest Hotell og

pamr

som begge er tilgjengelig på nettstedet til den omfattende R Archive Network (CRAN, http: //Cran .r-project.org).

for sammenligning av vår metode med alternativer fra litteraturen vi bare betraktet tilnærminger ved hjelp av kryssvalidering for evaluering, ettersom metoder basert på en enkelt tilfeldig trening /test sett partisjon er nå ansett som upålitelig [65]. Av samme grunn, vi ekskluderer også metoder fra litteraturen internkryssvalidering i stedet for ekstern kryssvalidering, der dette var tydelig frem av forfatterne.

Siden høyere nivå statistisk analyse av microarray data kan stole betydelig på data pre-prosessering prosedyre, vi i tillegg undersøke robustheten til prediksjon og har valgresultater for ulike pre-behandlingene som brukes på den største referansedatasettet. Nye pre-behandlingene ble oppnådd ved å bruke to forskjellige fold-endring filtre og 4 forskjellige innstillinger for maksimalt antall valgte funksjoner, og hele analyseprotokollen ble kjørt på nytt for hver av disse variantene. Stabiliteten av resultatene ble analysert både i form av kryss-validerte prediksjonsresultater og antall delte valgte funksjoner på tvers av alle CV-sykluser (se Materiale S1 for resultatene og diskusjon av alle robusthet analyser).

Viktigere, de oppnådde prediksjonsmodeller gjelder bare for prøver fra samme plattform, celletype, miljøforhold og eksperimentell prosedyre. Men som våre classifiers støtte både kontinuerlige og diskretisert inngangsdata, de er kompatible med de fleste av kryss-studien normaliserings metoder som er foreslått i litteraturen å utvide anvendelsen av maskinlæringsmodeller på tvers av ulike eksperimentelle plattformer (vi har tidligere utviklet en tilsvarende programvare rammeverk som gir tilgang til flere av disse plattformer integrasjonsmetoder online [5]).

Litteratur Mining Analyse av utvalgte gener

statistisk signifikant differensial uttrykket av gener og deres nytte som prediktorer i en maskin læringsmodell for prøve klassifisering kan indikere funksjonelle sammenhenger mellom disse genene og de biologiske forholdene i cellene under vurdering (strengt tatt våre modeller bruker genetiske sonder i stedet for gener, men siden vi fått en unik kartlegging for alle valgte sonder, vi vil referere til de tilsvarende gener i det følgende). Imidlertid, selv om disse informasjonskildene er nyttige for prioritering av kandidatsykdomsgener i biomedisinske undersøkelser, kan bare eksperimentelle bevis eller forkunnskaper fra litteraturen viser en funksjonell sammenheng med de biologiske forholdene av interesse.

En av de mest lovende kandidat gener hentet fra vår analyse av brystkreft datasettet ble vellykket evaluert i en eksperimentell studie i samarbeid med dronningens Medical Centre i Nottingham ved immunhistokjemi hjelp microarray for over 1140 invasiv brystkreft prøver (se vår forrige publisering [6], visualisering av datasettet i [68], og resultater nedenfor), men en eksperimentell validering av alle topprangerte gener på tvers av alle tre microarray kreft datasett var ikke innenfor rammen av denne studien.

Derfor, for å undersøke mulige assosiasjoner mellom sykdomstilstander representert ved de tre datasettene og informative gener hentet fra funksjonen utvelgelsesmetoder og de hyppigst forekommende attributter i BioHEL sin regelsett, ble en litteratur gruvedrift analyse anvendt på disse genene ved hjelp av fulltekstartikler fra PubMed database. Spesielt scoret vi antatte sammenhenger mellom standardiserte navnene på topprangerte gener og sykdom termer fra et kontrollert vokabular (Medical Subject Headings (MeSH) sykdoms overskrifter) ved å bestemme frekvensen av forekomst og co-forekomst av tilsvarende vilkår og beregning av punktvis gjensidig informasjon (PMI) [69]. PMI for to begrepene, og forekommer med relativ frekvens f () og f (), og co-forekommende med relativ frekvens f (,) i en database av dokumenter er definert som følger: (2)

spesifikke MeSH sykdoms uttrykk som brukes her var «prostata svulster» for prostatakreft datasettet, «bryst svulster» for brystkreft datasettet, og «lymfom, b-celle» for b-celle lymfom datasett (PubMed artikler manuelt annotert av eksperter med disse og andre vilkår fra meSH kontrollert vokabular synonymordbok). PMI-verdien for et par gen /sykdomsvilkår kan dermed brukes til å rangere og prioritere potensielle funksjonelle foreninger og lignende PMI-baserte scoring ordninger har tidligere blitt brukt til å rangere likheten mellom gener og narkotika ved hjelp av litteratur gruvedrift [70].

Siden PMI-skår for enkelt gen /sykdoms sikt parene ikke er pålitelig nok til å sammenligne nytten av ulike sykdomsgenet prioriteringer, vi først beregnet summen av positive PMI-score på tvers av alle topprangerte gener hentet fra enten de har seleksjonsmetoder eller de hyppigst forekommende attributter i BioHEL regler settene. Gener med negative PMI-skår ble betraktet som irrelevant og den tilsvarende resultatet var satt til null, siden omfanget av negative Stillingen er sannsynlig utsatt for tilfeldig støy. De endelige summer av skår ble sammenlignet mot tilsvarende score for 100 tilfeldig utvalgte matchet størrelse gensettene fra de tilsvarende microarray plattformer. P-verdi betydning score ble beregnet ut fra andelen ganger høyere PMI-score ble oppnådd ved tilfeldig modell i forhold til de algoritmiske utvelgelsesmetoder. Topprangerte gener ble definert som de gener som hadde blitt valgt av minst to forskjellige trekk utvelgelsesmetoder, (dvs. gener som korresponderer til et ensemble utvalg), noe som resulterte i kompakt sett av mindre enn 20 valgte attributter for hver av de tre datasett (se resultater avsnitt). De samme antall gener ble valgt ut fra de hyppigst forekommende funksjoner i BioHEL-reglene for å få en rettferdig sammenligning mellom denne BioHEL-basert funksjon utvalg og ensemblet har utvalget hentet fra dedikerte utvelgelsesmetoder.

resultater og diskusjon

Sammenligning av Tipperesultater resultater~~POS=HEADCOMP

En oversikt over de komparative prediksjon resultatene oppnådd med alle kombinasjoner av funksjonsvalg, prediksjon metoder og datasett er gitt i tabell 2 for 10 ganger CV og tabell 3 for LOOCV. Nedenfor resultatene for alle datasettene blir diskutert.

Prostate Cancer

På prostatakreft datasettet, ble de beste prediksjonsresultater med BioHEL nås uten ekstern funksjonsvalg, noe som gir en gjennomsnittlig nøyaktighet på 94% (10 ganger CV), eller ved kombinasjon BioHEL med plss filter (avg. iflg. 94%, LOOCV). Blant de alternative referanse classifiers vurderes i denne studien (SVM, RF og PAM, se tabell 2 og 3) bare PLS /PAM kombinasjon oppnås det samme nøyaktighet for 10 gangers CV og CFS /RF kombinasjon nådd en noe høyere nøyaktighet for LOOCV (95%).

Legg att eit svar