Abstract
Bakgrunn
microRNAs (mirnas) regulerer målgener ved post-transkripsjonsnivået og spiller viktige roller i kreft patogenesen og utvikling. Variasjon blant individer er et betydelig problemfaktor i miRNA (eller andre) uttrykk studier. Den sanne karakter av biologisk eller klinisk relevant differensial uttrykk kan være skjult av inter-pasient variasjon. I denne studien ønsker vi å identifisere mirnas med konsistent differensial uttrykk i flere krefttyper ved hjelp av en ny dataanalyse tilnærming.
Metoder
Ved hjelp av mikromatriser vi profilert uttrykk for mer enn 700 mirnas i 28 matchet tumor /normal prøver fra 8 forskjellige krefttyper (bryst, tykktarm, lever, lunge, lymfom, eggstokk, prostata og testis). Dette settet er unik i å sette fokus på å minimere vevstype og pasientrelatert variasjon ved hjelp av normale og tumorprøver fra samme pasient. Vi utvikler score for å sammenligne miRNA uttrykk i ovennevnte matchet eksempel data basert på en grundig karakterisering av fordelingen av ordrestatistikken over en diskret tilstand sett, inkludert eksakte p-verdier. Spesielt beregner vi en Rank Konsistens Score (RCoS) for hver miRNA målt i våre data. Våre metoder er også aktuelt i ulike andre sammenhenger. Vi sammenligner våre metoder, som brukes til matchet prøvene, til paret t-test og til Wilcoxon Signed Rank test.
Resultater
Vi identifiserer konsekvent (over krefttyper målt) forskjellig uttrykt mirnas . 41 mirnas er under uttrykt i kreft i forhold til det normale, på FDR (False Discovery Rate) på 0,05 og 17 er over-uttrykt på samme FDR nivå. Forskjellig uttrykt mirnas inkluderer kjente oncomiRs (f.eks MIR-96) samt mirnas som ikke tidligere universelt assosiert med kreft. Konkrete eksempler er MIR-133b og MIR-486-5p, som er konsekvent ned regulert og mir-629 * som er konsekvent opp regulert i kreft, i sammenheng med vår kohort. Data er tilgjengelig i GEO. Programvaren er tilgjengelig på: https://bioinfo.cs.technion.ac.il/people/zohar/RCoS/
Citation: Navon R, Wang H, Steinfeld jeg, Tsalenko A, Ben-Dor A, Yakhini Z (2009) Novel Rank-baserte statistiske metoder Avslør microRNAs med differensial uttrykk på flere krefttyper. PLoS ONE 4 (11): e8003. doi: 10,1371 /journal.pone.0008003
Redaktør: Thomas Preiss, Victor Chang Cardiac Research Institute (VCCRI), Australia
mottatt: 26. juli 2009: Godkjent: 29 oktober 2009; Publisert: 25.11.2009
Copyright: © 2009 Navon et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. RN, IS og ZY ble delvis støttet av en EU FP6 bevilgning under rammen av MultiKnowledge Project. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:. RN, HW, AT, ABD og ZY er nåværende ansatte i Agilent Technologies. IS ble ansatt av Agilent Technologies under en del av den tiden av studien. Forfatterne fullt overholde alle PLoS ONE politikk på deling av data og materialer.
Innledning
Gene uttrykk profilering er ofte brukt til å identifisere forskjeller mellom klasser av celletyper, som manifestert i forskjellig uttrykt gener [1] – [4]. En typisk datasett omfatter flere titalls prøver hvor uttrykket nivåer av tusener av gener måles. I klassifiserte uttrykk data settet av prøvene er partisjonert i ulike undergrupper eller klasser basert på tidligere kunnskap, slik som normale prøver vs tumorprøver eller prøver av ulike krefttyper. Tilsvarende kan det deles opp i forskjellige forhold, ulike stadier, eller forskjellige behandlingsrelaterte kategorier. De fleste av dagens dataanalyse litteratur fokuserer på tanke på hele datasettet i prosessen med å identifisere differensielt uttrykte gener. Ulike typer genomisk variasjon er viktig og ofte oversett konfunderende faktorer i differensial uttrykk studier. For eksempel, i Shyamsundar et al. [5] forfatterne undersøkelsen messenger RNA uttrykk nivå variasjon i normale menneskelige vev, som viser de potensielle konfunderende effekter av inter-vev variasjon.
Det ville være verdifullt å identifisere statistisk signifikante forskjeller i forskjellige prøver som kan måles pålitelig tilskrives til den spesifikke biologiske tilstand, slik som kreft eller sykdom, i stedet for individuelle biologiske variasjoner, som nevnt ovenfor. I mange situasjoner, er det mulighet for seriell samling av vev eller blod fra en pasient, forsøksdyr eller cellelinje [6], [7]. Men mange nåværende analyseteknikker ikke utnytte de unike relasjonene i slike data. I andre tilfeller kan klassen eller pasient variabilitet maskere differensial uttrykk og må tas opp. I denne studien analyserer vi matchet prøver for å undersøke tumor vs. vanlig differensial uttrykk, noe som er konsistent for flere krefttyper, og beskrive egnede og robuste statistiske metoder som støtter denne undersøkelsen.
I dag hundrevis av microRNAs (miRNAs) Det er identifisert hos mennesker. Disse er kort (vanligvis ca 22-nt) kodende regulatoriske RNA-molekyler og deres sekvenser er publisert i Sanger miRBase [8]. miRNA uttrykket profilering har blitt anerkjent for å gi verdifull biologisk informasjon med potensial til å utfylle eller erstatte mRNA profilering [9]. mirnas regulere målgener ved post-transkripsjonelle nivå og spiller viktige roller i utvikling, så vel som i kreft [9] – [11] og i andre humane sykdommer, inkludert hjertesykdom [12] – [14], schizofreni [15] og psoriasis [16]. mirnas er sterkt uttrykt forskjellig i forskjellige typer vev [10]. Derfor, for å identifisere miRNA differensial uttrykk på grunn av spesielle forhold vi trenger for å minimere konfunderende effekt av de ovennevnte vev avhengig differensial uttrykk.
Vårt mål i denne studien er å identifisere mirnas som er konsekvent forskjellig uttrykt i flere krefttyper . For å unngå vevstype variasjon og for å måle kreftrelatert differensial miRNA aktivitet i hver type separat; vi bruker en matchet prøve datasett bestående av 32 microarray målinger som representerer 28 matchet tumor og normale prøver. Vi bruker mikromatriser inneholder prober for 799 mirnas å profilere miRNA uttrykk i disse prøvene.
Vår motivasjon i å søke mirnas med konsistent differensial uttrykk i flere krefttyper stammer fra den eksisterende kunnskapen om at mange biologiske prosesser er felles for ulike typer kreft. Spesielt er flere gener kjent for å være universelt uttrykt forskjellig på tvers av flere cancertyper. Det mest åpenbare eksempelet er p53. p53 ble først oppdaget i 1979, og siden da en rekke studier indikert sitt engasjement i flere krefttyper. Viktigheten av regulert aktivitet av intakt p53 i å hindre tumordannelse er indikert av nærværet av mutasjoner i p53-reaksjonsveien i nesten alle cancere [17], [18]. Et annet eksempel på en universell kreftrelatert protein p16. Dette genet befinner seg på kromosom 9 og ble funnet å være mutert eller slettes i flere krefttyper [19] – [22]. Disse er bare to spesifikke eksempler, blant et stort utvalg av cellulære prosesser som er universelt i forbindelse med kreft.
Tidligere studier over rollen til mirnas i kreft omfatter Lu et al. [9] som utførte en tumor sammenlignet med normalt vev tverr analyse ved hjelp av kulebasert flowcytometri teknologi i en ikke-sammenkoblet måte. Denne studien viste at mirnas er tilstrekkelig til nøyaktig å klassifisere cancervev ifølge embryonisk deres slektslinje, noe som gir de globale egenskaper ved miRNA ekspresjon i kreft. En annen studie, ved Volinia et al. [10], beskrevet microarray måling av 228 miRNAs i 540 prøver (363 kreft og 177 normal) fra 6 forskjellige typer vev. I tillegg til å produsere miRNA signaturer, forfatterne rapporterte noen mirnas som er konsistent over eller under uttrykt, men det var ingen detaljert statistisk benchmarking for konsistensen av miRNA differensial uttrykk. Forfatterne sier at når clustering sine data i en ukontrollert måte, Cluster prøvene basert på vevstyper, uavhengig av sykdomsstatus, noe som reflekterer den høye variant av miRNAs når man sammenligner vevstyper. Dette styrker vår påstand ovenfor, som peker til miRNA inter-vev-type basal variasjon som en konfunderende faktor når søker å måle miRNA kreft differensial uttrykk. Flere andre studier fokuserer på mirnas i bestemte krefttyper. For eksempel er mir-15 og mir-16 ofte slettet og /eller nedregulert i B-celle kronisk lymfatisk leukemi [23], MIR-143 og MIR-145 viser redusert uttrykk i kolorektal neoplasi [24], og MIR-155 er oppregulert i humane B-celle lymfomer [25].
for å støtte våre forskningsmål vi har utviklet statistiske metoder som tar karakteriserer distribusjoner av tilfeldige variabler som oppstår fra å sammenligne matchet prøvene. I vårt tilfelle beregner vi differensial uttrykk i hver tumortype og deretter statistisk vurdere sin utbredelse i vårt datasett. Våre metoder er basert på diskrete ordens statistikk – k-dimensjonale vektor som oppnås ved å trekke k uavhengige tall jevnt i 1 … N, og deretter sortere dem resulterende vektor. Mens fordelingen av ordrestatistikken i løpet av kontinuerlige statlige områder er godt karakterisert, er dette ikke tilfelle for diskrete utfallsrom som gjentar kan da oppstå med positiv sannsynlighet. Computing utdelinger knyttet til diskrete ordrestatistikken ble tatt opp i [26]. For våre behov definerer vi tilfeldige variabler enn diskrete ordrestatistikk, fullt karakterisere sine distribusjoner og deretter bruke metoder til de biologiske data for å vurdere statistisk signifikans
For å oppsummere, bidraget av dette papiret består av:.
Streng karakterisering av fordeling av ordrestatistikken over en diskret tilstand sett samt relaterte tilfeldige variabler. Denne fordelingen er svært aktuelt i å analysere matchet data i en ikke parametrisk oppsett. Vi sammenligner også våre metoder til paret t-test og til Wilcoxon Signed Rank test.
Et datasett med matchet tumor normale prøver som representerer et repertoar av 8 tumortyper. Dette settet er unik i sin vekt på å minimere vevstype og pasientrelatert variasjon gjennom bruk av normale og tumorprøver fra samme pasient.
Ved å bruke de nye statistikken er beskrevet ovenfor i vår matchet prøvedatasettet vi validere kjent oncomiRs og beskriver flere nye kreft universell forskjellig uttrykt miRNAs. Det bør bemerkes at dette uttalte universalitet er bare dokumenteres, innenfor rammen av denne studien, for de 8 typer representert her.
Metoder
Utgangspunktet for å analysere resultatene av et gen eller miRNA uttrykket profilering studien er
uttrykk rå datamatrise
. Når de beskriver metodene vi bruker ordet «gen», men «miRNA» kan brukes om hverandre. Denne matrisen er vanligvis resultatet av flere forhåndsbehandlingstrinn slik som normalisering og filtrering utført på de rå måledata.
Typisk analyse av data fra ekspresjonsprofiler starter med identifikasjon, og den statistiske vurdering av gener som er differensielt uttrykt når man sammenligner ulike klasser representert i kohort. Mange nåværende gen scoring metoder vurdere alle uttrykk verdier av en gitt gen. Disse er oppdelt i to eller flere populasjoner i henhold til undersøkt klassifiseringen. Forskjeller mellom de resulterende undergrupper av tall vurderes ved hjelp av ulike statistiske metoder. Gene scoring metoder faller inn i to hovedkategorier – parametriske metoder, og ikke-parametriske (distribusjon gratis) metoder. Parametriske metoder anta en viss fordeling for uttrykket verdiene av hvert gen innenfor hver gitt klasse (f.eks kreft eller normal) og deretter scorer gener i forhold til hvordan egen klasse spesifikke distribusjoner er. Eksempler på slike metoder er standard
t-test product: [27] og
Gaussian Feil
scorer [28]. Distribusjons gratis score, i motsetning, ikke er basert på para forutsetninger. Disse inkluderer
Kolmogorov-Smirnov
poengsum [29], og
Wilcoxon Rank Sum-
test [30] samt
Informasjon
scorer [31] og
Threshold-Antall-of-feilklassifiseringer
(
TNoM
i kort) [31]. De sistnevnte ikke-parametriske metoder ble anvendt for å genekspresjon og andre genomiske og genetiske data i flere studier, som i [2], [32] – [35]
Dette arbeidet er opptatt med ekstra og potensielt mer relevant informasjon. som kan sluttes når uttrykket dataene kommer fra flere pasienter, og når alle klasser ble målt for hver enkelt pasient. For eksempel, prøvene før og etter behandling i den samme pasient. Et annet eksempel er tumor og normale prøver fra samme vev av hver enkelt pasient, en utforming benyttes i dette arbeidet. Stillingen vi utvikler ta hensyn til den grad i hvilken et gen som skiller to klasser i et stort flertall av pasientene. Tolkningen er at et gen som er relevant for den underliggende biologi hvis det er sterkt uttrykt forskjellig for de fleste av pasientene. I tillegg legger vi et signifikansnivå (p-verdi) til hver relevans nivå. P-verdien er sannsynligheten for å få dette nivå eller bedre, tilfeldig, slik det er beskrevet nedenfor i nærmere detalj. Streng statistisk analyse er instrumental i trygt identifisere gener som klart atskilte prøve klasser og dermed i å peke på lovende forskning retninger. Partielle varianter av fremgangsmåtene beskrevet i denne artikkelen ble anvendt i [6] og i [36]. Det er spesielt viktig å jobbe med matchet statistikk ved analyse av miRNA uttrykket data, som basalnivået for disse kan være svært variabel, spesielt i ulike vev [10].
I denne delen beskriver vi de statistiske metoder i høy generalitet . Spesifikke utførelser, i sammenheng med konsekvent tumor mot normalt miRNA differensial uttrykk, er beskrevet i resultatdelen.
Rank Konsistens Score (RCoS)
Rank Konsistens Score (RCoS) er en differensial uttrykk poengsum for 2 klasser som tar pasienten matchende hensyn.
Vi kaller de to klassene klasse A og klasse B. Vi først beregne differensial uttrykk mellom de to klassene for hver pasient (eller emne eller undergruppe)
k = 1 … r Hotell og for hvert gen
g
. Differensial ekspresjon kan beregnes ved hjelp av forskjellige metoder, og den valgte metode avhenger av utformingen av studien, og på antall av sampler for hver pasient. Differensial uttrykk score inkluderer: fold endring, Gaussian feil score,
t
-test, TNoM og andre metoder. Ofte antall prøver for hver pasient og klasse er en så enkel ganger endring er brukt.
Deretter rangerer vi alle genene per pasient i henhold til deres differensial uttrykk mellom klasse A og klasse B. For hvert gen
g
vi beregne sin rang for
k
-te pasient:
R
k (g) Anmeldelser – dette er et tall mellom 1 og
N
, der
N
er det totale antall gener. Genet
g
toppen
for pasienten k er en mest over-uttrykt i klasse A i forhold til klasse B. Det er rangert først, og vi satt. Rangeringen av genet mest under uttrykt i klasse A i forhold til klasse B er
N
.
Vårt mål er å finne gener med gjennomgående høye rekkene (av differensial uttrykk mellom klasse A og klasse B) på tvers av alle pasienter. For hvert gen
g
definerer vi rangen konsistens poengsum
S (g; r)
som normalisert maksimal rang av dette genet hos alle pasienter, dvs.
I andre ord,
g
for alle pasienter er rangeringen av genet ikke verre enn
S (g; r) · N
for større fleksibilitet i å definere konsistensen vi tillater uteliggere. og beregne graden konsistens score
S (g, m)
for
m
av
r
pasienter. I dette tilfellet for hvert gen vi bestille sine rekker, og så scorer
S (g, m)
tilsvarer normalisert
m
-te minste rang:
Vi kaller m ut av r rang konsistens score,
S (g, m)
,
m /r
RCoS. Vi vil noen ganger referere til
r /r
RCoS rett og slett som RCoS. Figur 1 viser definisjonen av ulike
m
av
r
rang konsistens score. Pseudo-kode for å beregne m /r RCoS er tilgjengelig på Tekst S1.
I hver av de 5 pasienter /gruppe i dette eksempel, rekkene av genene endres fra 1 til 1000. Hver kolonne representerer en rangert liste for en gruppe. Genet valgt for eksempel har den verste blant 5 grupper rangerer på 200. Derfor sin rang konsistens er scorer 200/1000 = 0,2; sin rang konsistens score i tre av fem pasienter er 95/1000 = 0,095 som indikert av pilene.
Analysen ovenfor vil identifisere gener som er over-uttrykt i klasse A i forhold til klasse B. for å finne gener over-uttrykt i klasse B kan vi utføre den samme analysen, reversere rangert liste.
for å vurdere den statistiske betydningen av noen observerte verdien av RCoS anslår vi sannsynligheten for å få verdien s, eller bedre, i vilkårlige data trukket i henhold til en null-modell. Denne sannsynligheten er
p-verdi
tilsvarer dette nivået
s
, under rådende null modell.
p
-verdier for RCoS og for dens varianter vurderes i denne artikkelen er beregnet under forutsetning av uavhengighet av pasienter og jevn fordeling av rekkene blant gener innenfor hver pasient. Disse to forutsetningene definerer den underliggende null-modell.
For å beregne m /r RCoS
p
-verdi på s, beregner vi sannsynligheten for et gen rangering i toppen s brøkdel av listen, i det minste i m pasienter. La
V
være en
r
dimensjonal tilfeldig vektor med oppføringer trukket selvstendig og jevnt i
1, …, N
. Vi er interessert i sannsynligheten for
m
-te minste oppføring i
V
er mindre enn
sN
. Det er gitt ved:
Minimum Rang Konsistens Score (minRCoS)
Når du arbeider med større utvalg stiller spørsmålet om hvor mange uteliggere å tillate (som m å velge) oppstår. En mulig prinsipiell løsning er å beregne m /r RCoS p-verdi for alle mulige verdier av m og velge verdien av m med den beste p-verdi. Dette p-verdi må selvsagt korrigeres for multippel testing. I denne delen definerer vi minimal-rank-konsistens score, og viser hvordan du effektivt karakterisere sin distribusjon, slik at beregning av p-verdier (uten ytterligere behovet for flere testing korreksjon). Vi beskriver først beregningene og deretter analysere den totale tidskompleksitet
For en rekke
N
. 0, betegne vi settet av rekkene {1, ..,
N
} av [
N
]; La [
N
]
r representerer sett av vektorer med lengde
r
, der hver oppføring er fra [
N
]. Vi bruker
V
å betegne en tilfeldig vektor jevnt fordelt over [N]
r.
Gitt en vektor vi betegner
m
-te minste tallet i
v
av
v
m . Det er, . Gitt en indeks, og en rangering, betegner vi med
β product: (
m
,
t
) sannsynligheten for at
V
m
vil tilsvare
t
eller mindre. Merk at
β (m, t)
er p-verdien, ved s =
t /N
, m-out-of-r rang konsistens scorer definert tidligere, og kan være effektivt beregnet som vist i forrige avsnitt.
Vi definerer
minimal rang konsistens scorer
av en vektor
v
, merket med
mRCoS plakater (
v
), ved. I ord,
mRCoS product: (
v
) er den beste (minimal) rang konsistens p-verdi, der
m
varierer fra
en
til
r
.
mRCoS product: (
V
) er derfor en tilfeldig variabel taking verdier i [0,1]. Vi har nå beregne eksakt p-verdi forbundet med
mRCoS product: (
V
) ved en gitt verdi, p:
Gitt, og en indeks, definere å være minimal rank
t
slik det. Merk at siden vi effektivt kan beregne
β (m, t)
for alle, og vi kan effektivt «invert»
β (m, t) Hotell og beregne
τ
m product: (
p
). Noter det . Bruke ovenfor notasjon vi har:
Gitt en konstant rekkene vektor
C
, sier vi at en vektor
v
∈ [
N
]
r
er
C Anmeldelser –
avgrenset
if (for alle
m
= 1, ..,
r
). I ord, alle sortert oppføringer av
v
er større (eller lik) tilsvarende oppføringer av
C
. For eksempel vektoren
v
= 3,2 er avgrenset av siden.
Det totale antall vektorer i [
N
]
r som
C
-bounded er merket med
B
(
N
,
r
,
C
).
for eksempel, for, etter
settet av vektorer avgrenset ved er, og derfor.
ved definisjonen av
B product: (
N
,
r
,
C
), siden
V
velges jevnt tilfeldig, får vi, der
τ product: (
p
) betegner vektoren. Derfor har vi redusert problemet med å beregne en p-verdi for minimal-rank-konsistens poengsum til kombinatorisk problem for effektivt å beregne hvor mange vektorer i [
N
]
r er avgrenset av en gitt vektor.
Computing
B product: (
N
,
r
,
C
)
Gitt to heltall
N
,
r
, og en vektor
C
, ønsker vi å beregne
B product: (
N
,
r
,
C
), antall
C
-bounded vektorer i [
N
]
r. For hver vektor
v
vi definerer to egenskaper:.
t (v) Hotell og
k (v)
t (v)
er maksimal oppføring av
v
. Det er, . Merk at
t (v)
kan anta verdiene 1 til
N
.
k (v)
er antall oppføringer i
v
hvis verdi er strengt mindre enn
t (v)
. Merk at
k (v)
kan anta verdiene 0 til
r
-1.
Disse to egenskapene kan brukes til å partisjonere [
N
]
r.
Vi betegner mengden av alle
C
-bounded vektorer som og. Merk at disse settene er faktisk disjunkte, og at deres forening dekker alle
C
-bounded vektorer. Ved å bruke vi kan beregne
B product: (
N
,
r
,
C
), summering over alle mulige verdier av
t
og
k
:
Så er det bare N * r slike sett vil dette gi en effektiv prosedyre for å beregne
B product: (
N
,
r
,
C
). Vi bruker en dynamisk programmering metode for å beregne alle N * r-verdier.
La
C product: (1 ..
k
) være den første
k
elementer av
C
, er det. Vi merker oss at i en vektor (R-k) største rekkene lik
t
. Derfor, for å beregne vi trenger bare bestemme stillinger innenfor
v
av
k
minste verdier, og deres faktiske verdier, slik at de er alle strengt mindre enn
t
, og er C (1..k) avgrenset:
Vi bruker nå følgende dynamisk programmering prosedyre for å beregne hvor mange
C
-bounded vektorer:
Dette gjør oss å effektivt beregne minRCoS p-verdi:
det er totalt N * r dynamisk programmeringstrinn for å beregne B (N, r, C). I hvert trinn, å beregne B (t, k, C) krever summering over t * k verdier av B. Totalt kompleksiteten av dynamisk programmering fremgangsmåten for å beregne B (N, r, C) er derfor O (N
2 * r
2). For å beregne trenger vi å utføre maksimalt r * N RCoS p-verdiberegninger, hver og en tar O (r). Derfor kompleksiteten i minRCoS p-verdi beregning for en gitt p er O (N
2 * r
2).
Samples, eksperimentell protokoll og data Pre-Processing
dataene ble samlet inn fra tilstøtende tumor normal total RNA prøver kjøpt fra Ambion /ABI (FirstChoice® human tumor /Normal nærliggende vev RNA). De matchet par av tumor og normale RNA var fra 14 forskjellige pasienter og 8 forskjellige krefttyper. Vevsprøver var av ulike embryonale linjene: Ett par fra bryst, lymfom og prostata; to par fra lever, eggstokk, testikler og lunge; og 3 par fra tykktarmen. Tekniske replikater ble utført for eggstokken og testikler prøver, altså totalt 32 microarray data ble brukt for denne studien.
For hver mikromatrisemåling, ble 100 ng total RNA merket med Cy3 hjelp T4-RNA-ligase per Agilent miRNA Micorarray Systems Protocol v1.5. De merkede RNA prøver ble hybridisert på Agilent miRNA mikromatriser (Agilent menneskelige miRNA microarray kit V2 – G4470B) i 21 timer ved 55 ° C. Arrays inneholder prober for 723 mennesker og 76 menneskelige virus mirnas fra Sanger databasen v.10.1. Matriser ble så vasket ved romtemperatur og avsøkes for å frembringe de hybridiseringssignaler (Agilent miRNA Micorarray Systems Protocol v1.5). Arrays ble skannet med utvidet dynamisk område på 5 og 100% PMT hjelp av Agilent skanner (modell G2565AA).
Agilent Feature Extraction programvareversjon 9.5.3.1 ble brukt til å generere GeneView filer [37]. Disse filene inneholder de behandlede signaler for hvert av de 799 mirnas på matrisen. For hver miRNA, ble ekspresjon verdier (gTotalGeneSignal) under støynivået (gTotalGeneError) erstattes med verdien av det tilsvarende totale genet feil. Alle prøver ble deretter normalisert til å ha den samme 75
persentil verdi. Den rå og normaliserte data har blitt deponert i NCBI Gene Expression Omnibus [38] og er tilgjengelig gjennom GEO-serien sjonsnummer GSE14985 (https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc= GSE14985). Alle data er MIAME kompatibel. De normaliserte data er også tilgjengelig i tabell S1.
Resultater
Vi søkte rang konsistens ledelsen metoder til data som er samlet i en studie av miRNA uttrykk profiler i kreftrelaterte prøver. Data som samles inn i denne studien besto av sammenkoblede prøver av svulsten og normale opprinnelse. Hvert par av prøver ble tatt fra forskjellige deler av det samme vev i 14 forskjellige pasienter og 8 forskjellige krefttyper: bryst, tykktarm, lever, lunge, lymfom, eggstokk, prostata og testis. De matchet par av prøvene gjør oss i stand til å fokusere på endringer i miRNA uttrykk nivåer som følge av kreftprosessen og for å minimere konfunderende effekt av inter-individuelle og inter-vev variabilitet.
Målet med studien var å . identifisere mirnas universelt differensielt uttrykt i kreft ved hjelp av statistiske metoder og målinger som er beskrevet ovenfor
beregnet tumoren sammenlignet med normal differensial ekspresjon av hvert miRNA i dataene på fire forskjellige måter: TNoM [31], ikke paret t -test, paret t-test og minRCoS. For de tre første metodene, signalene ble log transformert og i tilfeller der mer enn én pasient eksisterer per krefttype medianen ble brukt. Den TNoM og uparet t-test ble beregnet for ikke-paret sammenligning av alle kreftprøver til alle normale prøver. For paret t-test av krefttype matchende ble brukt.
For de ulike varianter av RCoS (m /r RCoS og minRCoS), fold endringen ble beregnet for hver miRNA og pasient ved å dele svulsten signal ved normal signal. Hos krefttyper der mer enn én pasient finnes (2 eller 3 pasienter) medianen av fold endringer ble brukt. Dette ble gjort for å bevare pasienten samsvar (innenfor samme krefttype) i våre data. For hver kreft skriver mirnas ble deretter rangeres etter disse verdiene for å generere de rangerte lister som trengs som innspill til alle RCoS varianter. Anvendelsen av det generelle rammeverket beskrevet i metodedelen til vårt datasett derfor fører til følgende semantikk.
Klasse A og klasse B er tumor og normal
r = 8.
Hvis for en miRNA, betegnet g, har vi for eksempel 6/8 RCoS (g) = 0,2 for over-uttrykk i tumor vs. normal, så dette miRNA er rangert blant de øverste 20% av miRNAs over- uttrykt i tumor sammenlignet med normale, i minst 6 av de 8 forskjellige tumortyper. Selvfølgelig, tilsvarende tolkninger sanne for andre verdier av m og s (6 og 0,2 henholdsvis i eksempelet ovenfor).
Det komplette sett resultatene av vår analyse, inkludert alle differensial uttrykk score og tilhørende p-verdier, er tilgjengelig som tilleggsmaterialet (tabell S2).
Hvis du vil bruke paret t-test på disse dataene, brett endringen ble beregnet for hver miRNA og pasient ved å dele svulsten signal ved normal signal. I kreft typer der mer enn én pasient eksisterer medianen av uttrykket verdiene ble brukt i folden endringen beregningen. Dataene ble deretter log-transformert for å oppnå den normalitet som kreves av paret t-test. Vi merker oss at selv etter log-transformasjon, er hypotesen om normalitet av denne fordelingen forkastet av Jarque-Bera testen [39].
De observerte og forventede antall gener for alle minRCoS p-verdier og nivåer som FDR (False Discovery Rate) [40] og Bonferroni på 0,05 oppnås er vist i figur 2. Merk den spesifikke doser av forskjellig uttrykt miRNAs, sammenlignet med tilfeldige data forventede tall.
den øverste tomten viser sammenligning av observerte og forventede resultatene av mirnas for minRCoS p-verdier. For hver p-verdi (på x-aksen), forventet antall miRNA som har dette, eller bedre, p-verdi basert på det totale antall miRNA på matrisen, er vist i blått (tilsvarende [54]). De røde og grønne linjer symboliserer antall observerte mirnas i våre data med disse minRCoS p-verdier. Den nederste panelet viser en sammenligning av observerte og forventede resultatene av gener med minRCoS p-verdier på 0,003 eller mindre (en zoom-in på toppanelet). Linje A indikerer Bonferroni terskel på 0,05, linje B indikerer FDR [40] terskel på 0,05 for de over-uttrykt mirnas (17 mirnas) og linje C indikerer FDR terskel på 0,05 for de under uttrykt mirnas (41 mirnas).
En heatmap av de mest betydningsfulle mirnas identifisert ved minRCoS analysen er vist i figur 3. Den høyre panel inneholder de 30 beste mirnas hvis uttrykk nivåer er konsekvent økt kreft vev; venstre panelet inneholder en liste over de 30 øverste miRNA som uttrykk nivåer er konsekvent redusert i kreftvevet. Spesifikke konklusjoner og funn av analysen er beskrevet nedenfor, inkludert mirnas som ikke tidligere universelt assosiert med kreft.
Kolonner representerer krefttyper og radene representerer miRNAs. En grønn inngang representerer en miRNA med en meget høy rang det vil si en som er under uttrykt i denne spesifikke tumorprøve sammenlignet med det samsvarende normale prøven. Et rødt rektangel angir en miRNA over-uttrykkes i tumorprøve. Det venstre panelet viser de 30 beste mirnas universelt under uttrykt i tumorer rangeres etter minRCoS analyse og høyre panel viser de 30 beste mirnas universelt over-uttrykt i tumorer rangeres etter minRCoS analyse.
Forskjellig