Abstract
Bakgrunn
Den felles studie av flere datasett har blitt en vanlig teknikk for økende statistisk styrke i å oppdage biomarkører hentet fra mindre studier. Tilnærmingen vanligvis følges er basert på det faktum at som det totale antall prøver øker, vi regner med å ha større makt til å oppdage sammenslutninger av interesse. Denne metodikken har blitt brukt til genom-wide forening og transcriptomic studier på grunn av tilgjengeligheten av datasett i det offentlige rom. Mens denne tilnærmingen er godt etablert i biostatistikk, innføring av nye kombinatoriske optimeringsmodeller for å løse dette problemet ikke blitt utforsket i dybden. I denne studien har vi innføre en ny modell for integrering av flere datasett og vi viser sin søknad i transcriptomics.
Metoder
Vi foreslår en ny kombinatorisk optimering problem som løser kjernespørsmålet av biomarkør deteksjon i integrerte datasett. Optimale løsninger for denne modellen levere en funksjon utvalg fra et panel av potensielle biomarkører. Den modellen vi foreslår er en generalisert versjon av
(α
,
β) -k
-Feature Set problem. Vi illustrerer resultatene av denne nye metodikken via en utfordrende metaanalyse oppgave som involverer seks prostata kreft microarray datasett. Resultatene er deretter sammenlignet med den populære RankProd meta-analyse verktøy og til hva som kan oppnås ved å analysere de enkelte datasett ved hjelp av statistiske og kombinatoriske metoder alene.
Resultater
Bruk av integrerte metoden resulterte i en mer informativ signatur enn rang-baserte meta-analyse eller individuelle datasett resultater, og overvinner problemer som følge av reelle datasett. Det sett av gener som er identifisert er meget viktig i forbindelse med prostatakreft. Metoden som brukes ikke er avhengig av homogenisering eller omforming av verdier til en felles skala, og på samme tid er i stand til å fange opp markører assosiert med undergrupper av sykdommen
relasjon:. Puthiyedth N, Riveros C, R Berretta , Moscato P (2015) En ny kombi optimalisering Approach for Integrated funksjonsvalg Bruke ulike datasett: En Prostate Cancer Transcriptomic Study. PLoS ONE 10 (6): e0127702. doi: 10,1371 /journal.pone.0127702
Academic Redaktør: Holger Fröhlich, Universitetet i Bonn, Bonn-Aachen International Center for IT, TYSKLAND
mottatt: 03.11.2014; Godkjent: 17 april 2015; Publisert: 24 juni 2015
Copyright: © 2015 Puthiyedth et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: Singh datasettet er tilgjengelig på Broad Institute Cancer Program Legacy Publiserings Resources webside: https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_normal_N01-N31.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_normal_N32-N62.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_tumor_T01-T30.CEL.tar.gz; https://www.broadinstitute.org/mpr/publications/projects/Prostate_Cancer/prostate_tumor_T31-T62.CEL.tar.gz. Welsh datasett er tilgjengelig på Genomics Institute of Novartis Forskning https://www.stat.cmu.edu/~jiashun/Research/software/HCClassification/Prostate/GNF_prostate_data_CR61_5974.xls. Uma datasett er tilgjengelig på ArrayExpress: (https://www.ebi.ac.uk/arrayexpress/experiments/E-GEOD-6919/) under deponeringsnummer E-geod-6919. . L-2695, L-3044 og L-3289 datasett er tilgjengelig i Gene Expression Omnibus (https://www.ncbi.nlm.nih.gov/geo/) under tiltredelse antall GSE3933
Finansiering: PM er støttet av Australian Research Council (ARC, https://www.arc.gov.au/) Future Fellowship FT120100060. Prosjektet er delvis finansiert av ARC Discovery Prosjekt DP120102576, Australia
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Utvinning av informasjon som følge fra integrering av flere datasett og dens oversettelse til domenekunnskap er et betydelig problem i flere felt. I dag er flere og flere biologi og helserelaterte studier rundt om i verden å engasjere seg i den nyttige politikken med å forlate sine rå resultatene tilgjengelig for et felles gode via offentlig tilgjengelige databaser. Denne åpne deling har nytt godt reproduserbarheten av andre forskeres funn. De eksisterende elektroniske datasettene er også blitt svært nyttig for utvikling av nye matematiske og beregningsorientert tilnærminger for mønstergjenkjenning, maskinlæring og kunstig intelligens metoder. Dette sunn praksis for deling av data blir nå i økende grad tatt i bruk av myndigheter og vitenskapelige tidsskrifter. Privat og offentlig sektor er også engasjert i «data-mining konkurranser» der datasettene er gjort allment tilgjengelig og publikum hentet for dataanalyse. I denne nye, digitale og sammenhengende globale forsknings åpen data bedriften, er dette definitivt en god retning for vitenskap, forskning og utvikling, og vi er sikre på å bekrefte at denne trenden er kommet for å bli.
Begrepet «meta analyse «refererer til et integrert studie som tar sikte på å utvikle en konsensus av funn fra enkeltstudier. Noen ganger forfattere bruker dette begrepet ganske løst betyr bare en «anmeldelse» av et sett av eksisterende studier som er uavhengig innhentet, men knyttet til et sett med vanlige spørsmål av interesse [1]. Når noen vilkår er oppfylt, kan en integrert studie bidra til å forbedre kraften i analysen ved å øke det totale antall prøver under vurdering [2]. Meta-analyser er også et viktig verktøy når noen av de eksisterende studiene har motstridende konklusjoner [3] og det overordnede målet er å løse dem, hvis det er mulig. Økende påvisning kraften av mindre studier ved å integrere dem i en større studie har også blitt en måte å overvinne forsknings begrensninger finansiering. Dette gjelder særlig i transcriptomics, og det er et unektelig behov for nye matematiske modeller og algoritmer som tar sikte på å trekke ut informasjon av felles studere ulike datasett som ofte inneholder informasjon hentet med ulike og stadig skiftende teknologiske plattformer.
eksistensen av store antall offentlig tilgjengelige transcriptomic studier gir en sterk motivasjon for utvikling av nye matematiske metoder som bidrar til å trekke ut
paneler av biomarkører
ved å ansette flere microarray datasett. Til tross for den økende antall studier, en generell konsensus har ennå ikke nådd om hvordan dette gjøres [4, 5]. Forskere noen ganger bare markere hindringer fremover, for eksempel ved å peke på de grunnleggende forskjeller i microarray plattformer, eksperimentelle design, samling prosedyrer for prøver, hetrogeniteter av laboratorieprotokoller og analysemetoder som brukes for å studere [6]. De fleste av studiene er i stand til å gi et klart svar på spørsmålet om interesse siden for få prøver er inngått studien [7]. Men alle disse forvirrende spørsmålene må vurderes og synlig dem reduserer ikke behovet for å utvikle integrerende teknikker for felles panel av biomarkører elicitation.
Mange studier har vist at det er vanskelig å få et pålitelig resultat fra en enkelt datasett [8-11]. Selv om noen forskere etter hvert kan skaffe økonomiske ressurser til å gjennomføre studier med stort antall prøver, noe som fører til større makt til å oppdage individuelle markører, kan et integrert studie gir et klarere bilde som det endelige resultatet ville se etter konsensus i en rekke enkeltstudier . Dette viser nødvendigheten av å utvikle kombinatoriske optimeringsbaserte tilnærminger for å avgjøre en betydelig liste av gener fra flere plattformer når vi ser på et panel som fungerer sammen for en diskriminering oppgave over flere studier.
Multi-plattform data integrasjon forblir utfordrende som de datasett fra ulike eksperimenter er ikke direkte sammenlignbare på grunn av forhold knyttet til generering av datasettet [12]. Noen av utfordringene er bare av teknisk art, for eksempel de genomiske data kan komme i en rekke forskjellige dataformater, og dermed gjør direkte integrasjon vanskelig. Datasettene kan omdannes til en felles dataformat før kombinere dem, men dette er ikke alltid mulig [13]. Flere metoder er blitt foreslått i de siste årene for meta-analyse av genekspresjon data for å finne det sett av gener betydelige blant de valgte datasettene. Den eksisterende meta-analyse metoder enten utføre statistikk for hvert datasett eller integrere alle de valgte datasett inn i en eneste stor datasett til å estimere differensial genuttrykk. En rang basert metode foreslått av Breitling
et al
. [14] og senere utviklet av Hong
et al
. inn i RankProd Bioconductor pakken [15], bruker fold endringer mellom alle interclass par prøver å beregne datasett rekkene for hvert gen, så kombinerer rekkene med geometrisk gjennomsnitt av rekkene over prøve par. MetaArray er en annen meta-analyse metoden foreslått av Choi
et al
. [16] der dataene blir transformert til sannsynligheten for ekspresjon [17], etterfulgt av filtrering av gener basert på den integrerende korrelasjonsanalyse. Mergemaid [18] er en annen pakke for meta-analyse som bidrar til å integrere heterogene plattform datasett på grunnlag av bruker gitt IDer av gener. Den standardiserte regresjonskoeffisienter og z-score brukes som et mål for genet utvelgelsesprosessen danner den integrerte datasettet. Selv om disse fremgangsmåter er i stand til å velge signaturer fra den integrerte datasettet av heterogene plattformer, er de ikke i stand til å håndtere gener som ikke er representert i alle datasettene. En nylig foreslått metode som kalles Netsel [19] er en heuristisk rang aggregering metode for funksjonsvalg som kan brukes på heterogen sett av lister. Imidlertid er RankProd langt den mest populære av disse metodene, og vi har valgt det som en sammenligning målestokk.
Målet med denne artikkelen er å presentere en ny metode for integrering av microarray gene expression datasett som kan Det er innhentet ved hjelp av ulike plattformer. Vi gjør dette uten å måtte forandre verdiene til en felles enhetlig format og verdiområde. Vi foreslår også en ny kombinatorisk optimering tilnærming for å velge den beste sett med fellestrekk som kan diskriminere de gitte klasser. Metoden er en generalisert versjon av den velprøvde og meget vellykket
(α
,
β) -k
-Feature Set metodikk tidligere utviklet av vår gruppe [20, 21] og vi viser her hvordan det kan påføres på den kombinerte datasettet. Vi benchmark vår nye metoden ved å analysere integrering av seks prostatakreft datasett produsert ved hjelp av ulike plattformer og fremheve de viktigste funnene. Vi vender vår oppmerksomhet bevisst for å forholdsvis liten, og også relativt gamle datasett, noe tilsidesatt som potensielt «uinteressant» på grunn av fremskritt i dagens bioteknologi. Vi sammenligner de integrerte resultater mot innsamling av resultatene av individuelt anvende tradisjonell statistisk analyse og
(α
,
β) -k
-Feature Set metodikk for hvert datasett. Vi tar sikte på å illustrere potensialet av sekundære analyser av disse datasett ved bruk av den foreslåtte teknikk
Strukturen av gjenstanden er som følger.; de materialer og metoder som benyttes i dette papir er forklart i detalj i avsnitt 2; i kapittel 3 presenterer vi våre resultater ved å bruke den foreslåtte integreringen og har valgmetoden på prostatakreft datasett. I kapittel 4 presenterer vi noen diskusjon på grunnlag av resultatet. Del 5 inneholder en konklusjon av denne studien og fremtidige retninger.
Materialer og metoder
2.1 Datasett
De seks offentlig tilgjengelige prostatakreft genekspresjon datasett er brukt i denne studien ble innsamlet fra Gene Expression Omnibus (GEO) eller fra den opprinnelige kilden. Detaljene i alle datasett i dette arbeidet er oppsummert i tabell 1.
De valgte datasettene har blitt generert ved hjelp av to forskjellige plattformer. De genuttrykk nivåene av tre av dem ble målt ved anvendelse av cDNA-to-kanals matriser og de andre tre ved hjelp av Affymetrix matriser. Datasettene er oppkalt etter navnet på den første forfatteren av den publiserte artikkelen. Som vist i, er de siste tre datasett samlet inn skjemaet den samme artikkelen, slik at datasettene har fått navn med den første forfatterens første og GEO plattform nummeret (f.eks. L-2695). Detaljer om datasettene er som følger.
I [22], Singh et al. innføres et utfall anslagsmodell for å skille mellom tumor og normale prøver. Datasettet som brukes i denne studien inneholder 102 vevsprøver innsamlet etter radikal prostatektomi. Utvalget består av 50 normale prøver og 52 primær prostatakreft prøver. Dette datasettet er generert ved hjelp Affymetrix HG-U95A v2 (GPL8300) arrays.
Det andre datasettet har bidratt med Welsh et al. [23] i 2001. Studien undersøker en terapeutisk tilnærming for å skille svulsten og normale prøver. Datasettet inneholder 55 prøver som hybridiserte til HG-U95A v2 (GPL8300) arrays. Prøvene er fra 25 primærtumor og 9 normalt vev, og resten av prøvene ble tatt fra forskjellige donorer med forskjellige typer av cancer.
Den tredje datasettet er blitt publisert av Uma et al. i 2007 [24]. Denne studien introduserer en eksperimentell design for å møte de forskjeller i celleinnhold mellom primære og metastatiske svulster. Datasettet inneholder 63 kreft vevsprøver og 17 prøver normalt vev og har blitt produsert med Affymetrix HGU95Av2 arrays.
Lapointe et al. [25] innført en hierarkisk clustering teknikk for å skille tumor fra normale prøver og å identifisere de underklasser av prostatakreft i 2004. Denne studien ble utført ved hjelp av tre ulike datasett produsert ved hjelp av cDNA to-kanals arrays; den første Lapointe datasett (L-2695) inneholder 26 prøver (13 primær tumor vev, 9 normalt vev og metastase vevsprøver 4). Den andre Lapointe datasettet (L-3044), med en total prøve teller til 41, har 23 primærtumorprøver, 16 normale prøver og 2 metastaseprøver. Den tredje datasettet (L-3289) inneholder totalt 45 prøver, hvorav 26 er primærtumor, 16 normal og 3 metastaseprøver.
Vi har begrenset vår studie kun til de prøvene som stammer i enten primære svulster eller normalt vev. De totale antallet prøver er da 319, hvorav 202 er primære svulster og resten er fra normalt vev.
2.2 Integrering metode
Den direkte integrasjon av microarray gene expression data fra flere plattformer er , i prinsippet meget lettere når det finnes felles mellom plattformene som benyttes. Men ulike genekspresjon plattformer vil målrette gener eller transkripsjoner annerledes ved hjelp av ulike sett av prober. Det kan være mange sonder kartlegging samme genet grunn duplisere flekket sonder i microarray chips. På den annen side kan det være en enkelt sonde som er tilordnet flere gener (eller loci) hvis spesifisiteten av probe-sekvensen er ikke god nok. Disse probene må kasseres fra den preliminære analyser som det er vanskelig å analysere disse multiple gener. I tillegg, kan tolkningen av resultatene via Gene Ontologi eller sti-orientert databaser bli kompromittert av flere kartleggings problemene. I tillegg til disse vanskelighetene, kan vi også møte problemet at en sonde rettet mot ulike regioner av det samme genet kan være indirekte overvåkning av mulige forskjellige Forekomsten av protein isoformer. Denne mange-til-mange natur kartlegging problemet gjør det vanskelig å ta en forenklet tilnærming til vesensforskjellige kartene som plattformer produserer av sine probe sett.
I dette bidraget, vi kartlegge på gennivå. For å kartlegge probene på tvers av plattformer i tabell 1 til gener, har vi brukt en enkel justering politikk, forklarte nedenfor; uten forskjellsbehandling av isoformer og også ignorert de nevnte problemene. Sondene ble kartlagt ved hjelp av hg19-GRCh37 versjon av Genome Browser bord produsert av Genome Reference Consortium å unngå misnaming og forskyvning av gener. For å få et relativt stort antall sonder som kan brukes i den endelige integrerte datasettet, samlet vi de som tilfredsstiller noen av de gitte tre forhold:
Hvor sondene er rettet mot samme sekvens
Hvor målrettingsnavnene sekvenser er overlapp
Dersom målretting sekvensene er i en avstand på høyst 1000 basepar
de prober fra hvert datasett er kartlagt til gener og tilhørende transkripsjon start og sluttposisjon for de rettet mot gener forhold i henhold til vilkårene som er nevnt ovenfor. Når det er en felles målgruppe gen for ulike prober fra flere datasett, ser vi på ulike kombinasjoner av disse probene i det kombinerte datasettet. Tilsvarende, hvis funksjoner (transkripsjon start- og sluttsekvenser) har en overlapping mellom dem, eller er i en avstand på høyst 1000bp, kombinasjonen av disse prober er også valgt til å være en del av det kombinerte datasettet. Den valgte listen over kombinasjon av sonder er gitt i supplerende materiale (S1 tabell). Hver unike kombinasjon av sonder fra ulike datasett blir en funksjon i det kombinerte datasettet.
2,3 Feature valgmetoden
I begynnelsen brukte vi Fayyad og Irani er entropi-basert heuristisk på hvert enkelt datasett å fjerne uninformative egenskaper. Dette univariate utvalget mekanismen er en pre-prosessering trinn knyttet til Minimum Beskrivelse Lengde Principle (MDL) [26]. Hensikten med å bruke dette trinnet i denne metoden er todelt: det fjerner funksjoner som ikke er signifikant forskjellig hos friske og sykdomsprøver (og dermed det hjelper ved å redusere dimensjonalitet av problemet), og andre hjelper det discretise verdiene (som i sin tur lette kombinatorisk tilnærming).
i dette bidraget vi foreslå og analysere en ny kombinatorisk tilnærming for å velge et sett med
k
viktige funksjoner som kan forklare den multi-plattform integrert datasett. Vi kaller dette problemet Coloured
(α
,
β) -k
-Feature Set problem. Tilnærmingen er en generalisert versjon av
(α
,
β) -k
-Feature Set problem metodikk [27, 28] som er en veiledet funksjon valgmetode for å velge et betydelig sett av funksjoner som kan kollektivt skille prøve grupper. Metoden har blitt brukt i flere studier av Moscato et al. for å finne biomarkører for ulike sykdommer [20, 21, 28-34].
(α
,
β) -k
-Feature Set problem gir en betydelig sett av gener som kollektivt maksimerer inter-klassen diskriminering og intra-klasse coherency [33]. Metoden søker å skille alle prøveparene som tilhører forskjellige klasser ved å velge en minimum sett av gener som ikke nødvendigvis utgjør en enhetlig uttrykk nivå over sampler i hver klasse, men samlet gir den maksimale mengde av bevis. I kontrast, rang metoder som scorer og ordre gener ved deres differensial uttrykk på tvers av klassene bringe gensettene som kanskje ikke virker sammen som en signatur, spesielt i komplekse sykdommer som molekylær karakterisering kan presentere undergrupper.
Den nevnte funksjonsvalg metoden fungerer godt med en enkelt uniform datasett, men ikke for en integrert datasettet. The Coloured
(α
,
β) -k-
funksjonssett problem håndterer det integrerte datasettet på en konsistent måte, og velger egenskaper som skiller prøve par på tvers av datasett. Anvendelsen av en
(α
,
β) -k-
Feature Set problembasert metode for meta-analyse bidrar dermed gi den beste sett med funksjoner fra det kombinerte datasettet, slik at forskerne å avsløre de genetiske trasé som tar del i utviklingen av sykdommen.
Her er vi mer formelt presentere beslutnings versjoner av generalisering av
k
-Feature Sett problem kalt
(α
,
β) -k
-Feature Set problemet, Coloured
(α
,
β) -k
-Feature Set problem og det generelle
(α
,
β) -k
-Feature Set problem. I det følgende la representerer sett av binære verdier, dvs. la
n
være antall funksjoner og
m
antall prøver,
p
være antall utvalgsgrupper (dvs. ulike plattformer /kohorter /datasett) og tuppel
y
være klasse etikettene av prøvene.
2.3.1 (α, β) -k-funksjonssett.
Instance :.
et sett, et tuppel
y
∈
B
m
, heltall
α
0,
β
≥ 0,
k
0
Parametere :.
α
,
β Hotell og
k
Spørsmål:.
Er det et sett
I
⊆ {1, …,
n
} med |
I
| ≤
k
slik at for alle
i
,
j
∈ {1, …,
m
}
Hvis
y
I
≠
y
j
der finnes med slik at
x
i
,
s
≠
x
j
,
s
for alle
Hvis
y
i
=
y
j
der finnes med slik at
x
i
,
s
=
x
j
,
s
for alle
Detaljert forklaring av trygge moderasjonsordninger som bidrar til å redusere dimensjonalitet
(α
,
β) -k
Feature Set problem er gitt i [20, 32].
2.3.2 Farget
(α
,
β) -k-
Feature Set.
Instance :.
et sett, et farge funksjon
c
: {1, …,
m
} → {1, …,
p
}, en tuppel, heltall
α
0,
β
≥ 0,
k
0
Parametere :.
α
,
β Hotell og
k
Spørsmål:.
Er det et sett
I
⊆ {1, …,
n
} med |
I
| ≤
k
slik at for alle
i
,
j
∈ {1, …,
m
} der
c product: (
i
) =
c product: (
j
)
Hvis
y
i
≠
y
j
der finnes med slik at
x
i
,
s
≠
x
j
,
s
for alle
Hvis
y
i
=
y
j
der finnes med slik at
x
i
,
s
=
x
j
,
s
for alle
i ord, Coloured
(α
,
β) -k
-Feature Set problem eksempel er konstruert fra en samling av individuelle
(α
,
β) -k
-Feature sett tilfeller med felles funksjoner, der sammenligningen over funksjonsverdier er begrenset til å prøve parene dannet fra hvert enkelt tilfelle. Den «farget» navn stammer fra antar prøver i hvert enkelt tilfelle er farget med den samme unike farge, da bare samme fargede prøvene kan kombineres i par.
Det er tydelig at samme sett med data moderasjonsordninger present i [21] for
(α
,
β) -k
-Feature Set problemet gjelder for en forekomst av Coloured
(α
,
β) -k
-Feature Sett problem, som sistnevnte er formelt tilsvarer en større forekomst av et
(α
,
β) -k
-Feature Set problem ved en passende ometikettering av prøver.
2.3.3 Generalisert
(α
,
β) -k-
Feature Set.
i den mest generelle form egnet for meta analyse av datasett med fellestrekk,
(α
,
β) -k
-Feature Sett problem kan formuleres som følger:
Instance :.
et sett, en funksjon en tuppel, heltall
α
0,
β
≥ 0,
k
0
Parametere :.
α
,
β Hotell og
k
Spørsmål:.
Er det et sett
I
⊆ {1, …,
n
} med |
I
| ≤
k
slik at for alle
i
,
j
∈ {1, …,
m
} der
g product: (
i
,
j
) = 1
Hvis
y
I
≠
y
j
der finnes med slik at
x
i
,
s
≠
x
j
,
s
for alle
Hvis
y
i
=
y
j
der finnes med slik at
x
i
,
s
=
x
j
,
s
for alle
Generalisert
(α
,
β) -k
-Feature satt problemet har blitt utviklet for å håndtere den mer generelle situasjon hvor enkelte prøver i løpet av en prøvegruppe kan bli sammenlignet med prøvene i en annen prøve gruppe, f.eks. Den binære funksjon
g product: (
i
,
j
) angir når funksjonsverdier for en gitt vilkårlig samplings par (
i
,
j
) kan sammenlignes.
i alle tidligere formuleringer, prøvene har blitt presentert som en matrise av
n
+1 binære verdier, selv om dette er strengt tatt ikke nødvendig. Klassen etiketten kan være en kategorisk variabel taking verdier over en (vanligvis små) sett med kategorier eller klasser. Funksjonene kan ha verdier av noe slag, så lenge det ikke foreligger en meningsfull sammenligning stand til å avgjøre om to verdier betraktes som like eller forskjellige.
2.3.4 Coloured
(α
,
β) -k-
funksjonssett som en Integer Programming problem.
Deretter presenterer vi Coloured
(α
,
β) -k-
Feature Set problem som en Integer Programming optimalisering problem. La
p
,
n
,
m Hotell og
y
være som gitt før. Som eksempler på grupper er disjunkte, finnes det ingen felles sampler mellom hvilke som helst to av dem. For enhver prøve
j Hotell og noen funksjon
s
∈ {1, …,
n
}, la
c
j
∈ {1, …,
p
} være prøvegruppe den tilhører, og
x
js
verdien av funksjonen for prøve. For enhver prøve par (
i
,
j
) letand
Formålet funksjon og begrensninger for Coloured
(α
,
β) -k
-Feature Sett problem heltall programmering optimalisering modeller er gitt nedenfor, hvor den binære variabelen
f
s
er en hvis funksjonen
s
er valgt til funksjonene, og 0 ellers. Problemet søker minimum: (1) på de vilkår: (2) (3) der:
En Coloured
(α
,
β) -k
-Feature Sett problem eksempel kan ha mer enn en optimal løsning med k funksjoner i hver. Dette mangfoldet er løst ved en etterfølgende optimaliseringsproblem som søker for løsning av størrelse k med maksimal dekning. Vi definerer da den optimale løsningen av Coloured
(α
,
β) -k
-Feature Set problem som den som maksimerer: (4) på de vilkår: (5) ( 6) (7) der:
i ligning 4, dekselet
e
s
er antall par av prøvene som har
s
dekker, og kan spesifiseres som:
løsningen av optimeringsproblem (1-3) krever spesifisering av parametre
α Hotell og
β
. En måte å kreve en robust løsning på problemet er å spesifisere
α
så stor som mulig. Denne verdien bestemmes av forekomsten av problemet, og er lik minimum antall funksjoner som skiller enhver prøve par forskjellige klasse etiketter. Når verdien av
k
oppnås med
β
= 0, kan vi deretter gjentatte ganger løse problemet (4-7) for stadig større verdier av
β
i ( 7), inntil problemet blir unfeasible. Den siste mulig løsning er signaturen søkt.
En siste merknad om beregningsorientert kompleksitet av denne familien av problemer.
(α
,
β) -k
-Feature Set problemet er minst like komplisert som den klassiske
k
-Feature Sett problem, som er NP-komplett [ ,,,0],35, 36].
(α
,
β) -k
-Feature Set problem er ikke bare NP-komplett, men W [2] -complete [37, 38].
2.4 t-test
for å benchmark mot tradisjonelle statistiske metoder, utfører vi en t-test analyse av de enkelte datasett. T-testen er en statistisk signifikans testmetode brukes her for å velge gener som viser differensial genuttrykk mellom to ulike forhold [39], i vårt tilfelle normal vs. primærtumor, over et visst
p
-verdi nivå av tillit. Prosedyren for
t
-test er beskrevet nedenfor:
La
S
1 og
S
2 være gjennomsnittsverdiene av et bestemt gen i de to forskjellige klasse etiketter 1 og 2, av størrelser
m
1 og
m
2.
t
-statistic for dette spesielle genet er beregnet som: hvor
X
er samlet utvalgsvarians
Her og er variansen replikert observasjoner i hver tilstand og
n
1 +
n
2 – 2 er antall frihetsgrader. I vår studie har vi brukt «genefilter» Bioconductor pakke [40] med en valgt
p
-verdi av 10
-4 til å utføre vår
t
-test.
2,5 RankProd
Vi sammenligner våre resultater til de som er oppnådd av en annen populær meta-analyse metoden. RankProd er en ikke-parametrisk meta-analyse verktøy introdusert av Hong et al. [15] for å detektere differensielt uttrykte gener. Det er uten tvil den mest brukte genekspresjon meta-analyse-metoden, og er gitt som en Bioconductor pakke som endrer og utvider rang produktet metoden foreslått av Breitling et al. [14]. Brett Change (FC) brukes som scoring kriterier for å rangere og sammenligne gener innenfor hvert datasett. En samlet rangert genet liste er produsert ved å legge sammen de enkelte rekkene over datasett.
En parvis ganger endring (
p
FC) beregnes for hvert gen
g
innen et gitt datasett
k
som, hvor og er uttrykk verdiene av genet
g
for prøve
j plakater (hører til eksperimentell tilstand
T-
for eksempel «svulst») og
l plakater (hører til eksperimentell tilstand
C-
f.eks «kontroll»), og og antall replikater som produserer totalt
p
FC verdier per genet. Da de tilsvarende
p
FC forholdstall rangeres og betegnes som
r
GI
, der
g
= 1, …,
G
representerer antall gener og
i
= 1, …,
K
k
representerer den parvise sammenligningen mellom prøvene. Rang produkt av hvert gen
G
er definert som det geometriske gjennomsnittet,
Expression for hvert gen innenfor hvert datasett er uavhengig permuted
L
tider og produsere der
l
= 1, …,
L
ved å gjenta trinnene ovenfor. En referanse fordeling oppnås fra hele og den justerte p-verdi og den falske funnraten for hvert gen beregnes.
I denne studien blir datasettene kombinert i form av vanlige gener på tvers av plattformene. Vi har søkt RankProd på den kombinerte datasettet til å velge gener assosiert til tilstanden som undersøkes.
2.6 Robusthet
For å vurdere robustheten vår metode med hensyn til forstyrrelser i data har vi utført en serie eksperimenter. Tilstedeværelsen av støy i genekspresjon data er vanskelig å beregne, da det avhenger av plattformspesifikke faktorer samt eksperimentelle betingelser. Imidlertid ville den endelige manifestasjon av forstyrrelsene i datasettene være en endring i sammensetningen av settet av sonder som passerer MDL kriteriet. Vi har derfor analysert hvor robust den endelige integrering resultater med hensyn til varierende sammensetning av de enkelte datasett, for ulike perturbasjonsteknikker modeller, inspirert av «la en ut «tilnærming.