Abstract
Manglende data kan oppstå i bioinformatikk applikasjoner for en rekke årsaker, og imputering metoder blir ofte brukt til slike data. Vi er motivert av et tykktarmskreft studie der miRNA uttrykket ble målt i sammenkoblede tumor normal prøver av hundrevis av pasienter, men data for mange vanlige prøvene manglet på grunn av manglende vev tilgjengelighet. Vi sammenligner presisjon og kraft ytelse av flere imputering metoder, og trekke oppmerksomhet til den statistiske avhengighet indusert av K-Nærmeste Naboer (KNN) imputering. Dette imputering-indusert avhengighet har ikke tidligere vært omtalt i litteraturen. Vi viser hvordan å gjøre rede for denne avhengigheten, og vise gjennom simulering hvordan valg å ignorere eller konto for denne avhengigheten påvirker både kraft og type I feil rate kontroll
Citation. Suyundikov A, Stevens JR, Corcoran C, Herrick J, Wolff RK, Slattery ML (2015) Regnskap for avhengighet indusert av Vektet KNN Imputation i parede prøver, Motivert av en Colorectal Cancer Study. PLoS ONE 10 (4): e0119876. doi: 10,1371 /journal.pone.0119876
Academic Redaktør: Chuhsing Kate Hsiao, National Taiwan University, TAIWAN
mottatt: 19 november 2014; Godkjent: 03.02.2015; Publisert: 07.04.2015
Copyright: © 2015 Suyundikov et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: R-kode å generere de simulerte data leveres (i a.zip fil) som S1 File, Simulering Supplement
Finansiering:. Denne forskningen ble støttet av en bevilgning fra National Institutes of Health, award nummer 1R01CA163683-01A1; MLS rektor etterforsker, med subaward til JRS
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
microRNAs (mirnas) er små ikke-kodende RNA-molekyler som regulerer genuttrykk ved å målrette messenger RNA. De ble først oppdaget i 1993 under en studie i utvikling i nematode Caenorhabditis elegans (C. elegans) angående protein genet lin-14 [1]. Lee et al. (1993) fant at overflod av protein lin-14 ble regulert av en liten RNA kodet av lin-4-locus. Dette ble transkribert til en 22-nukleotid RNA molekyl som kan undertrykke uttrykket av lin-14 budbringer RNA (mRNA) ved direkte samspill med sine 3 «ikke-translatert område (UTR).
Det vitenskapelige samfunnet er i dag svært interessert i de funksjonelle rollene miRNAs. MiRNA biogenesis som fungerer ordentlig resulterer i normal forekomst av cellevekst, spredning, differensiering og celledød. Men reduksjon eller sletting av miRNAs som er forårsaket av feil på ethvert stadium av miRNA biogenesis fører til upassende uttrykk for miRNA-målet teinene som forårsaker økende spredning, invasivitet eller angiogenese, eller avtagende nivåer av apoptose [2, 3].
miRBase database, en søkbar database over publiserte miRNA sekvenser og merknader, hadde oppført 2,588 unike modne menneskelige mirnas for juli 2014 (fra https://www.mirbase.org). Siden mirnas kan regulere mer enn ett mål, kan de regulere opp til mer enn 30% av all protein-kodende gener i det humane genom (fra https://www.mirnarx.com). Dette gjør mirnas en av de største regulatorer av genuttrykk.
Sammenhengen mellom mirnas og tykktarmskreft (CRC) ble rapportert for første gang i 2003, da Mir-143 og MIR-145 gener ble nedregulert i CRC tumorvev sammenlignet med normalt vev [4]. Siden den gang har flere studier vist at mirnas er mye deregulert i CRC [5-7].
miRNA data som de fleste andre uttrykk data kan betraktes i form av store matriser av uttrykk nivåer av funksjoner (rader ) i ulike fag (kolonner). Datasettene kan ha enten noen funksjoner mangler i enkelte prøver, eller alle funksjonene mangler i noen prøver. Det første tilfellet oppstår ofte på grunn av utilstrekkelig oppløsning, bilde korrupsjon, støv eller riper på lysbildet, og andre ulike eksperimentelle og tekniske årsaker, mens sistnevnte tilfelle kan skje på grunn av manglende samlet vev eller begrensede midler. Som et eksempel på sistnevnte tilfelle, vil vi presentere casestudie fra forskning for å fastslå foreningen av miRNAs med CRC i sammenkoblede normal-tumorprøver. Som en del av en foreløpig analyse ved hjelp av de første tilgjengelige fag, ønsket vi å sammenligne miRNA uttrykk profiler av normale og tumorprøver fra hver av mer enn 400 pasienter med 2006 miRNA på hver prøve. Vi har også samlet inn omfattende informasjon om demografiske og livsstilsvariabler for disse CRC pasienter. Det er ikke mange CRC studier som har samlet inn så omfattende data for slike variabler. Men til syvende og bruke alle tilgjengelige emner, vil 10% til 50% av pasientene har mangler normale prøver på grunn av manglende vev tilgjengelighet.
Den umiddelbare mål i dette CRC case study er å forstå alternativene for imputering, sammen med sine komparative styrker og svakheter. Spesielt ønsker vi å vite for en gitt godtgjørelsesmetode om sin søknad til manglende miRNA data blant normale prøver vil gi nøyaktige anslag av deres faktiske uttrykk nivåer, og hvordan slike spådommer er videre påvirket av andelen pasienter med manglende verdier. Vi ønsker videre å forstå hvordan disse resultatene påvirker statistisk styrke til å påvise forskjellig uttrykt miRNA mens kontrollere for Type I feil.
Med spredning av genuttrykkstudier løpet av det siste tiåret har mer oppmerksomhet blitt betalt på godtgjørelses metoder for miRNA data. Konvensjonelle tilnærminger ofte involverer bare unntatt mirnas med manglende verdier, erstatte manglende verdier med nuller, eller imputing hjelp rad eller kolonne gjennomsnitt. Slike opsjoner ignorere korrelasjonen strukturen av data og har begrenset makt [8]. Dessuten har de ikke utnytte potensielt informative demografiske eller livsstilsvariabler. Mer avanserte alternativer bruke flere imputering basert på Markov Chain Monte Carlo (MCMC) og forventning-maksimalise (EM) algoritmer, som tillater inkorporering av ytterligere kovariater [9-11]
I denne artikkelen vi introdusere og evaluere godtgjørelsesmetode som står for avhengighet indusert av vektet K-Nærmeste nabo (KNN) og vurderer kovariatene, over flere imputering teknikker ved hjelp av MCMC og EM med bootstrapping algoritmer, samt tilfelle sletting teknikk med kjennetegn ved denne store CRC data sett
Dette papiret er ordnet på følgende måte:. først gir vi en oversikt over imputering forutsetninger og metoder, samt RMSE metode for å vurdere resultatene av ulike imputering teknikker. Da vi demonstrere anvendelsen av imputering teknikker ved hjelp av simuleringsdatasettene. Til slutt konkluderer vi med en diskusjon av de viktigste spørsmålene som presenteres i papir, for eksempel resultatene av KNN godtgjørelsesmetoden mens vurderer avhengigheten over flere imputering teknikker.
Metoder
Før du utfører godtgjørelses av manglende data, er det nødvendig å vite om den manglende data skjer tilfeldig, som følge av uobserverte faktorer, eller er tiltenkt. Vi trenger å ta hensyn til to forutsetninger: mangler tilfeldig (MAR) og mangler helt tilfeldig (MCAR) [12]. De manglende data er MAR når manglende verdier ikke er tilfeldig fordelt over alle observasjoner, men er tilfeldig fordelt innenfor en eller flere delprøver av data. En variabel (miRNA eller
x
) kan betraktes MAR hvis sannsynligheten for å observere
x plakater (betinget på observerte variabler) er ikke avhengig av
x
. Den MCAR antakelsen er et spesialtilfelle av MAR, når de manglende dataverdiene er et enkelt tilfeldig utvalg av alle dataverdier. Man kan definere de manglende data som mangler ikke på måfå (Mnar) hvis verken MCAR eller LAR forutsetninger holde. I dette tilfellet, kan manglende data ikke bli tilregnet basert på tilgjengelige data. Dermed kan imputering teknikker bare brukes til de data som tilfredsstiller enten MAR eller MCAR forutsetninger. Egenskapene til CRC miRNA data tilfreds MAR forutsetninger fordi sannsynligheten for fag har mangler normale prøver ikke avhenge av miRNA uttrykket verdiene i disse fagene.
Vi anser følgende metoder for å anslå miRNA uttrykk nivåer etter savnede normale prøver av pasienter:
Multiple imputering
Multiple imputering (MI) ble opprinnelig utviklet for å håndtere missingness i offentlig bruk, store datasett [12]. Anvendelsen av MI prosessen har blitt utvidet til ulike store datasett inkludert mikromatriser [13]. Metoden erstatter hver manglende verdi med flere substituere verdier, sier
m
, som representerer sannsynlighetsfordelingen til den manglende verdi. En fullført datasettet er skapt av hvert sett med uavgjorte. Så
m
imputations for hver manglende verdi skape
m
komplett datasett. De er lagret i en hjelpematrise, multipliser-kalkulatoriske datasett med en rad for manglende verdi og
m
kolonner. Den første rad med denne matrise svarer til det første sett av beregnede verdier av de manglende verdier, og så videre. Som komplett-dataanalyser er brukt på hver multiplisere-tilregnet datasett (behandling av beregnede verdier som fullt observerte og uavhengig),
m
forskjellige sett med parameterestimater og deres varians-kovarians matriser genereres. Å kombinere de slutninger fra dem, [12] foreslår å ta et gjennomsnitt av alle resultatene, bortsett fra standard feil (SE) sikt. SE konstrueres ved den innenfor varians for hver datasettet, så vel som variansen mellom beregnede elementer på hvert datasett. Disse to avvik blir lagt sammen og kvadratroten av dem bestemmer SE. Forfatteren anbefaler å bruke ikke mer enn 5 imputations og noen ganger så lite antall som to eller tre for å generere nyttige statistiske slutninger. Vi bruker
m
= 5 for MI teknikker i vår analyse. Det er viktig å merke seg at den fullstendige-dataanalyser i MI behandle de beregnede data som om de hadde vært fullt observert. Denne tilnærmingen anser ikke noen avhengighet av de beregnede data på selve fullt observerte data.
MI bruker Markov kjede Monte Carlo (MCMC)
Flere beregnede datasett kan genereres av MCMC metode , som brukes til en vilkårlig manglende data mønster som foruts multivariat normalitet. MCMC har blitt brukt til å utforske posteriore sannsynlighetsfordelinger for å uttrykke ukjente parametre i Bayesiansk slutninger. Ved hjelp av denne metoden blir hele skjøten fordelingen av de ukjente størrelser simulert og parameterestimater basert på simuleringen er generert [14].
Denne prosessen kan beskrives i to trinn. Det første trinnet er godtgjørelses I-trinn som tilfeldig trekker verdier for manglende verdier fra den antatte fordelingen av manglende verdier gitt observerte verdiene ved hjelp av den estimerte gjennomsnittsvektor og varians-kovariansmatrisen, dvs. den trekker verdier for
Y
m
i
s plakater (
t
+
1
)
fra
p product: (
Y
mis
|
Y
obs
,
θ
t
), der
Y
mis Hotell og
Y
obs
er variabler med manglende verdier og observerte verdier, henholdsvis, og
θ
t
er en parameter estimat på
t
th
iterasjon.
den bakre P-trinns tilfeldig simulerer befolkningen mener vektor og varians-kovariansmatrisen fra en fullstendig prøve estimater, det trekker altså
θ
(
t
1) fra
p
(
θ
|
Y
o
b
s
,
Y
m
i
s
(
t
+
1
)
)
. Disse nye estimater blir så brukt i den I-trinnet. Dette skaper en Markov-kjede (
Y
m
i
s
(
1
)
,
θ
(
1
)
)
, (
Y
m
i
s
(
2
)
,
θ
(
2
)
)
, …, Som konvergerer i fordeling til
p product: (
Y
mis
,
θ
|
Y
obs
). Nok iterasjoner utføres for å få pålitelige resultater for en multiplisere tilregnet datasett og å konvergere til sin stasjonære fordelingen som vi kan simulere en tilnærmet tilfeldig trekning av de manglende verdier [15].
MI hjelp Forventning-maksimerings ( EM) med bootstrapping algoritmer
EM-algoritmen er en veldig generell iterativ algoritme for maximum likelihood estimering av manglende data [9]. Man antar en modell for dataene, maksimerer sannsynligheten under antatt modell, henter parameterestimater, og gjør slutninger basert på parameterestimatene. Den eksplisitte form av parameterestimatene vanligvis ikke eksisterer for manglende data. Her numeriske metoder som Newton-Raphson algoritmen er svært komplisert å bruke. Dermed kan man bruke EM-algoritme som er en iterativ metode for å maksimere sannsynligheten i manglende data [10]. Sammenlignet med Newton-Raphson-algoritmen, er EM-algoritmen langsommere, men den øker sannsynligheten med hver iterasjon og sikkert konvergerer til et maksimum for fordeling med en modus. EM-algoritmen konvergerer til et lokalt maksimum eller en sal punkt for distribusjon med flere moduser.
EM-algoritmen består av to trinn, forventning (E) og maksimering (M) trinn. Algoritmen beregner betinget forventning om manglende verdier gitt ikke-manglende verdier og aktuelle parameterestimater i forventning trinn. I maksimering trinn de beregnede forventede verdiene anvendes for å maksimere sannsynligheten for den komplette data. Disse trinnene er itereres inntil maksimal sannsynlighet av data konvergerer. EM-algoritme kan ikke ha et eksplisitt skjema. I dette tilfellet kan maksimering være teoretisk oppnådd ved bruk av gjentakelser i maksimering trinn.
maksimering skritt kan være beregningsmessig dyrt, noe som kan gjøre EM-algoritmen skjemmende. Heldigvis EM med bootstrapping-algoritmen løser dette problemet. Den bruker den konvensjonelle EM-algoritmen på flere bootstrapped prøver av de opprinnelige manglende data for å trekke verdiene av komplett-dataparametre. Deretter trekker den beregnede verdier fra hvert sett av bootstrapped parametre, og erstatte de manglende verdier med disse uavgjorte. EM med bootstrapping algoritmen kan tilregner manglende verdier i mye kortere tid enn EM-algoritmen selv [11]
K-Nærmeste Naboer (KNN). Modifisert og regnskap for avhengighet KNN generelt
den konvensjonelle KNN metoden erstatter manglende verdier ved hjelp av
k
-De fleste lignende ikke-savnede personenes verdier [16, 17]. Det kan tilregner både separate attributter (bruker den mest hyppige verdi blant de k-nærmeste naboer) og kontinuerlige attributter (med midlere mellom k-nærmeste naboer).
[8] implementert KNN metode som vekter bidraget fra hver nærmeste nabo av sin likhet til faget med den manglende verdi. I vår CRC studie, er vektene til de nærmeste naboene i imputering for manglende verdi målt ved euklidske avstand beregninger av demografiske og livsstilsvariabler slik at nærmere naboer i faget bidra mer til sin godtgjørelses enn de mer fjernt seg. Basert på vektingen metode [8], vi kort skissere våre vektberegninger her. La
k
være valgt antall nærmeste naboer,
D
i
1 ≤ … ≤
D
i
k
være de sorterte avstander
k
nærmeste naboer fra normal-savnede lagt
i
, og
D
i product: (
m
en
x
)
være maksimal avstand (blant alle fullt observert fag ) fra motivet
i
. Så vektene
en
i
1, …,
en
i
k
mellom
k
nærmeste naboer for faget
i
er oppnådd som følger: (1) Disse vektene brukes av vektet KNN metoden å finne en estimert manglende uttrykk verdier av et bestemt gen som i ligning (2).
Vårt forslag til godtgjørelsesmetode står for avhengighet indusert av vektet KNN og kan bruke de ekstra kovariater som demografisk, generell helse, genetisk, og livsstilsvariabler, samt andre biologisk relatert informasjon. Den foreslåtte godtgjørelsesmetoden utnyttet konvensjonell KNN [16, 17] og videreutvikles vektet KNN [8] imputering metoder «robusthet av manglende data, ikke-parametrisk tilnærming, og fart i estimere manglende verdier for microarray data, mens vurderer korrelasjonen strukturen av dataene. For å finne en estimert mangler prøver i ovennevnte motiverende CRC case study, har den foreslåtte metoden blitt endret for å tilregner uttrykk for alle miRNA av mangler normale prøver basert på multivariate kovariater (demografiske og livsstilsvariabler) og å ta hensyn til avhengigheten av kalkulatorisk data i påfølgende differensial uttrykk tester. De demografiske og livsstilsvariabler vurderes i denne utredningen er fem sammenhengende (alder, antall sigaretter /dag, kalorier, BMI (Body Mass Index), og lutein og zeaxanthin konsentrasjon) og fem binære (kjønns, siste acetylsalisylsyre /NSAID (Non-steroidal anti-inflammatorisk narkotika) bruke, siste røyker, overgangsalder, og etter menopause HRT (Hormone replacement therapy) innen 2 år statuser) variabler.
Denne modifiserte KNN teknikk tilregner alle miRNA uttrykket nivåer av mangler normale prøver ved å finne
k
mest lignende fag, ikke genuttrykk nivå som i konvensjonelle KNN-baserte metoder, basert på avstand matriser av demografiske og livsstils kovariater av pasienter og produserer varians-kovarians matriser for hver miRNA. For eksempel kan vi estimere miRNA uttrykket nivåer i mangler normale vev fra et bestemt emne, basert på uttrykket nivåer av skannede normalt vev fra pasienter som har lignende demografiske og livsstils kovariater.
En annen fordel med denne metoden er at det kan integrere samtidig multivariate kovariater ved å samle og normalisere deres avstand matriser (euklidsk, Manhattan, Minkowski, og så videre) for å finne nærmeste nabo fag. Spesielt er to mellom-lagt distanse matriser konstruert basert på fullt observerte kontinuerlige og diskrete kovariater separat, ved hjelp av euklidske og Manhattan avstander, henholdsvis. Disse to distanse matriser er normalisert ved å skalere mellom 0 og 1 [18] og aggregeres ved å ta et veid gjennomsnitt av hver distanse matrise for å oppnå en enkelt mellom-lagt distanse matrise.
Valg av optimal
k
det har vært mange studier utført for å bestemme den optimale valg (parameter) av
k
for KNN algoritmen. [17] foreslår å bruke kvadratroten av gjennomsnittlig antall komplette tilfeller etter manglende data fjerning, avrundet til nærmeste hele oddetall. Simuleringen studier av forskjellig
k
på Likert data [19] viser kvadratroten av antall komplette saker som er avrundet til nærmeste hele oddetall er et passende valg for
k
. Videre [20] rapport på
k
= 10 for store data som fra mikromatriser. [8] hevder at godtgjørelsesmetoden er ganske ufølsom for valget av
k
i området 10-20. Som
k
blir større, gjennomsnittlig avstand til naboer øker som innebærer at kalkulatorisk verdien kan være mindre nøyaktige og godtgjørelses tid vil øke.
Men valget av en liten
k
reduserer KNN ytelse fordi godtgjørelses prosessen vektlegger noen få dominerende gener (eller fag i vår modifikasjon) for å estimere manglende verdier. På den annen side, en stor
k
kan inneholde gener (eller fag) som er vesentlig forskjellige fra de manglende verdier som kan resultere i nedverdigende godtgjørelses ytelse.
Regnskap for avhengighet av KNN- kalkulatoriske data
Fordi de veide KNN-kalkulatoriske uttrykk verdiene er lineære kombinasjoner av uttrykk verdiene av fullt observerte fagenes uttrykksverdier, beregnede verdier er ikke nødvendigvis uavhengig av fullt observerte verdier. Den modifiserte KNN baserte godtgjørelsesmetoden har en fordel av å vurdere denne avhengigheten indusert av vektet KNN ved å gi varians-kovariansmatrisene av hver miRNA, som kan brukes når du søker etter forskjellig uttrykt miRNAs. Vi refererer til denne metoden som «KNN avhengig», mens henvise til KNN godtgjørelsesmetoden som ignorerer avhengigheten som «KNN uavhengige» i denne artikkelen. Sin algoritme fungerer nesten på samme måte som algoritmer for de konvensjonelle KNN-baserte metoder, bortsett fra at det behandler radene som fag eller prøver, og kolonnene som mirnas.
For å se hvordan de foreslåtte godtgjørelsesmetoden beregner miRNA uttrykket nivåer i mangler normale prøver og står for avhengighet indusert av vektet KNN, anta at i CRC studiet av
N
fag, ønsker vi å estimere uttrykk nivåer av
G
mirnas for normale prøver for mangler
S
fag ved hjelp av demografiske og livsstils kovarianteffekter data. For hver normal savnede lagt
i
, finner vi
k
mest lignende temaer med ikke-mangler normale prøver (si personer
i
1, …,
i
k
), og tilregner de savnede miRNA uttrykket verdier ved å multiplisere miRNA uttrykk fra normale prøver av
k
fag med tilhørende vekter som genereres fra mellom-faget avstand matrise. Godtgjørelses av uttrykket nivået av miRNA
j
i mangler normal prøve
i
vil bli produsert som i ligning (2) 🙁 2)
Her
i
= 1, …,
S Hotell og
j
= 1, …,
G
.
x
lj
er den observerte uttrykk verdien av miRNA
j
i den observerte normal prøve av faget
l
, og
en
lj
er vekten av motivet i imputering. Vektene
en
i
1, …,
en
i
k
blir oppnådd som beskrevet i ligning (1) ovenfor. Vi kan generalisere ligning (2) til ligning (3) 🙁 3)
Her
X
~
^
er en
S
×
G
matrise av kalkulatoriske normale vev uttrykk verdier
A
~
er en (
N Anmeldelser –
S
) ×
S
matrise av vekter
en
, og
X
~
er en (
N Anmeldelser –
S
) ×
G
matrise av observerte normale vev uttrykk verdier. I kolonnen
i
av
A
~
, bare ikke-null elementer er i rader
i
1,
i
2, …,
i
k
, og er koeffisientene
en
i
1,
en
i
2, …,
en
i
k
i ligning (2).
varians-kovariansmatrise av den normale vev uttrykk for miRNA
j
beregnes som i ligning (4), forutsatt at rekkefølgen dataene er det fullt observert
N Anmeldelser –
S
fag etterfulgt av
S
normal mangler fag: (4)
Her
σ
j
2
er variansen av miRNA
j Hotell og
jeg
~
er (
N Anmeldelser –
S
) × (
N Anmeldelser –
S
) identitetsmatrisen av ikke-mangler fag for å representere uavhengighet blant ikke-mangler fag. Matrisen delen av høyre side av ligning (4) er merket med
Σ
~
j
.
Testing for differensial uttrykk ( dE) av miRNA mens regnskap for avhengighet
paret t-test [21] kan brukes til å sjekke om de mirnas er forskjellig uttrykt i sammenkoblede normal-tumorprøver mens regnskap for avhengighet indusert av godtgjørelsesmetoden. Den parede t-test kan forenkles til en en prøve t-test av differansen av normale og tumorprøver. Det per-miRNA null hypotesen er at forskjellen i midlere ekspresjonsnivåer av mirnas mellom normale og tumorprøver er lik null. Testen statistikk for miRNA
j
kan bli funnet begynner med følgende ligning, som omtalt i kapittel 3 i [22]. (5)
Her
D
~
j
er en
N
× en vektor av differansen av de
j
th
miRNA uttrykk for normale og tumorprøver,
μ
j
er en enkelt parameter som representerer forskjellen på gjennomsnitts uttrykk nivåer av miRNA
j
mellom normale og tumorprøver, og
1
~
er
N
× en vektor av 1-tallet.
V
a
r
(
ϵ
∼
)
=
σ
j
2
V
∼
j
, der
V
~
j
er variansen-kovariansmatrisen av svulsten-normal forskjell i miRNA uttrykket verdier for miRNA
j
, dvs.
V
~
j
=
jeg
~
+
Σ
~
j
, og må være en positiv bestemt matrise.
gjennomsnittlig tumor normal forskjell for miRNA
j
kan anslås ved likning (6) 🙁 6)
μ
^
j
i ligning (7) kan erstattes fra eq (6) 🙁 7)
så, den estimerte variansen
μ
^
j
ville bli beregnet som i likning (8) :. (8)
til slutt vil testobservatoren bli funnet ved hjelp av likning (9) med en grad av frihet til
N
-1 (9)
Dette paret t-test kan brukes sammen med de andre imputering metoder ved å erstatte
Σ
~
j
med identitetsmatrisen, som representerer den antatte uavhengighet kalkulatoriske miRNA verdier.
Måle ytelse
ytelsen av godtgjørelses metoder på miRNA data evalueres gjennom effektiv~~POS=TRUNC feil (RMSE). Den RMSE basert evaluering teknikken er den mest brukte metoden for å sammenligne likheten mellom ekte uttrykk verdier og beregnede uttrykk verdier. Ulike varianter av RMSE tiltak er brukt i litteraturen: den ikke-normalisert RMSE tiltak [23] og normalisert RMSE tiltaket ved ulike normaliserings konstanter: gjennomsnittsverdi i løpet av alle observasjoner i komplette data [8], standardavvik av verdiene i fullstendig data i løpet av manglende oppføringer [24, 25], og root mean square av verdiene i fullstendige data over manglende oppføringer [26]. Men alle ovennevnte ulike RMSE tiltakene gir svært like resultater [27].
I motiverende CRC case, alle miRNA uttrykk nivåer på opptil 50% mangler normale prøver, dvs. opp til 50% manglende rader ( prøver) av miRNA data må bli tilregnet. Dermed blir ikke-normalisert RMSE som måler forskjellen mellom tilordnet en del av matriksen og den opprinnelige delen av matrisen, dividert med antallet manglende celler, kan anvendes. Den beregnes som likning (10) 🙁 10)
Her
i
= 1, …,
S Hotell og
j
= 1, …,
G
.
x
ij
er den opprinnelige verdien for manglende prøve
i
og miRNA
j
, mens
x
^
i
j
er tilordnet en verdi for manglende prøve
i
og miRNA
j
.
resultater
Vi har evaluert resultatene av den foreslåtte godtgjørelsesmetoden, som står for avhengighet indusert av vektet KNN og vurderer de demografiske og livsstils kovariater (KNN avhengige), over den vektede KNN ignorerer avhengighet (KNN uavhengig), MI teknikker ved hjelp av MCMC og eM med bootstrapping algoritmer, samt tilfellet sletting teknikk som bare betrakter fullt observerte forsøks [9] med simulerte datasett.
Optimal antall av nærmeste nabo-fag (
k
)
figur 1 viser effekten av antall nabo fag,
k
, som brukes i KNN godtgjørelsesmetoden på RMSE verdier for simulerte datasett med ulikt antall fag og prosent normal-mangler fag. Den RMSE synker, dvs. resultatene av KNN imputering øker, mens verdien av
k
øker. Den fallende av RMSE verdier bremser ned etter
k
verdi på 10, og blir omtrent det samme for resten av
k
verdier. Godtgjørelses ytelsen blir tilnærmet ufølsom for verdien av
k
innenfor området 10-25 nabo fag. Derfor brukte vi 10 nærmeste nabo fag å estimere miRNA uttrykket nivåer av normale prøver for manglende fag.
Simulering datasett
Selv om vi har fullstendig normale og tumor eksempeldata for mer enn 400 fag i CRC studien, sammenligner vi imputering metoder ved hjelp av simulerte data for å ha klart definerte makt og Type i feil. Godtgjørelses analysene ble utført på normalfordelte paret data matriser av
G
= 2000 miRNA funksjoner (kolonner) for hver av de normale og tumorprøver med utvalgsstørrelser av
N
= 50, 100, 200 og 400 individer (rader). Vi simulerte uttrykk nivåer av miRNAs for normale og tumorprøver ved å kontrollere sanne forskjellig uttrykt mirnas av tumorprøver på tvers av alle simuleringer. Spesielt alle miRNA funksjonene i normale prøver og bare ikke-differensielt uttrykt miRNA funksjoner i tumorprøver ble simulert basert på
μ
= 2 og
σ
= 1,25, mens de forskjellig uttrykt miRNA funksjonene tumorprøver, som besto av 20% av alle miRNA funksjoner i tumorprøver, ble simulert basert på
μ
= 2,5 og
σ
= 1,25. Denne 20% differensial uttrykk hastighet samt dette at tumor-normal forskjell på 2,5 og standardavvik på 1,25 ble valgt basert på egenskapene til motiverende CRC studien. Vi tilfeldig søkt missingness 10-50 prosent av den normale datarader. Vi utførte 25 simuleringer for hver prøve størrelse med ulik prosent missingness.
For å sikre at de simulerte datasettene reflekterte egenskapene til CRC studien, og at de demografiske og livsstilsvariabler gjennomført en del nyttig informasjon for imputering, den multivariate kovarianteffekter datasett med demografiske og livsstilsvariabler av fagene ble simulert basert på
z
tilfeldig valgt sanne forskjellig uttrykt miRNA uttrykk nivåer ved hjelp av egenskapene til de CRC casestudie kovarianteffekter data. For eksempel ble en kontinuerlig variabel som alder av fag simulert som i ligning (11) 🙁 11)
Her
j
= 1, …,
z
C
^
er en simulert verdi av alder,
β
0 er gjennomsnittsalderen av pasientene i CRC case, og
β
j
er jevnt fordelt med en minimum og maksimum inntil 5% av minimum og maksimum av CRC case studie pasientenes alder, henholdsvis. I denne artikkelen har vi brukt 2% av minimum og maksimum av de kontinuerlige variabler med
z
= 20, som ble valgt for beregnings enkelhet, for å simulere variabler med lignende egenskaper av CRC case kovariater.
x
j
er uttrykk for virkelig forskjellig uttrykt miRNA
j
i svulsten, og feilen sikt
ε
er normalfordelt med null middel (
μ
= 0) og varians på 10% av variansen av pasientenes alder (
σ
2
=
0.1
*
σ
a
g
e
2
).
The binære variabler som kjønn fag ble simulert ved hjelp av en logistisk regresjonsmodell i ligningene (12) og (13) 🙁 12)
Her
p
er sannsynligheten for
kjønn = kvinne
, si.
EQ (12) kan omskrives som ligning (13) 🙁 13)
Her
P
^ <