Abstract
Bakgrunn
arvelig faktorer er tydeligvis involvert i prostatakreft (PRCA) carcinogenesen, men for tiden er genetiske markører ikke rutinemessig brukes i screening eller diagnostikk av sykdommen. Mer presis informasjon som er nødvendig for å gjøre behandling beslutninger å skille aggressive saker fra indolent sykdom, som arvelige faktorer kan være et nyttig verktøy. Den genetiske sammensetningen av PRCA har bare nylig begynt å bli avslørt gjennom storskala genom-wide assosiasjonsstudier (GWAS). De hittil identifiserte enkelt nukleotid (SNP) forklare imidlertid bare en brøkdel av familiær gruppering. Videre er de kjente risiko SNP’er ikke er forbundet med det kliniske resultatet av sykdommen, så som aggressiv eller metastasert sykdom, og kan derfor ikke brukes til å forutsi prognosen. Kommentere de SNPs med dype kliniske data sammen med miRNA uttrykk profiler kan bedre forståelsen av de underliggende mekanismene for ulike fenotyper av prostatakreft.
Resultater
I denne studien mikroRNA (miRNA) profiler ble studert som potensielle biomarkører for å forutsi utfallet sykdom. Forsøkspersonene var fra finske høyrisiko prostatakreft familier. For å identifisere potensielle biomarkører vi kombinert en roman ikke-parametrisk test med en vekt på tiltak gitt fra et tilfeldig Forest klassifikator. Denne kombinasjonen levert et sett med ni mirnas som var i stand til å skille saker fra kontroller. De påviste miRNA uttrykket profiler kunne forutsi utviklingen av sykdommen år før selve PRCA diagnose eller avdekke eksistensen av andre kreftformer i de studerte individer. Videre bruker et uttrykk Quantitative Trait Loci (eQTL) analyse, regulatoriske SNPs for miRNA MIR-483-3p som også var direkte forbundet med PRCA ble funnet.
Konklusjon
Basert på våre funn, vi foreslår at blod-baserte miRNA ekspresjonsanalyse kan brukes i diagnose og kanskje til og med utviklingen av sykdommen. I fremtiden kan miRNA profilering muligens brukes i målrettet screening, sammen med prostata spesifikt antigen som (PSA) testing, for å identifisere menn med en forhøyet PRCA risiko
Citation. Fischer D, Wahlfors T, Mattila H, Oja H, Tammela TLJ, Schleutker J (2015) miRNA Profiler i lymfoblastoide cellelinjer av finsk Prostate Cancer familier. PLoS ONE 10 (5): e0127427. doi: 10,1371 /journal.pone.0127427
Academic Redaktør: Xin Yuan Guan, The University of Hong Kong, Kina
mottatt: 19 desember 2014; Godkjent: 15 april 2015; Publisert: 28. mai 2015
Copyright: © 2015 Fischer et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: All relevant data er tilgjengelig fra EBI (tiltredelse antall E-mtab-3397)
Finansiering:. Dette arbeidet ble støttet av Medical Research Fund of Tampere universitetssykehus (9L091, 9M094, og 9N069), den finske Kreft organisasjoner, Sigrid Juselius Foundation, og Academy of Finland (bevilger 116 437 og 251 074) for JS. Dette arbeidet ble også støttet av Den finske doktorgradsstudiet i Stochastics og statistikk for DF
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Prostate kreft (PRCA) er den vanligste noncutaneous malignitet og den nest største årsaken til kreftrelaterte dødsfall blant menn i industrialiserte land [1]. I Finland ble 4604 nye prostata kreft tilfeller diagnostisert i 2012 (finsk Kreftregisteret, https://www.cancer.fi/syoparekisteri/). Aldring og PSA-testing kan være den mest åpenbare årsaker til det økte antallet nye tilfeller. Den økende forekomsten skaper press på helsevesenet som bekymring om overbehandling er betydelig. Derfor er en av de største utfordringer for å forbedre den diagnostiske og prognostiske verktøy for å være i stand til å skille fra dødelig lat sykdommen på en herdbar tilstand av sykdommen.
Bidraget av genetiske varianter har vært studert i forbindelse med vidt prostatakreft predisposisjon. Både binding og GWAS sammen med noen eksempler som følger av kandidat genet tilnærminger har ført til identifisering av ca. 100 genetiske loci som forklarer bare omtrent 30% av den genetiske risiko for sykdommen [2] [3] [4] [5]. Men det er ingen åpenbare molekylære eller funksjonell bevis som indikerer hvordan variasjoner i disse kandidatwebområder eller deres co-arvet nabo variantene kan forårsake PRCA. Faktisk er de fleste av de single nucleotide varianter (SNPs) funnet av GWAS er usannsynlig å påvirke den kodende sekvens av noe gen, men heller ligge i intergeniske regioner. Disse funnene antyder at de har en regulerende rolle, for eksempel i transkripsjon, spleising eller mRNA-stabilitet, i stedet for en direkte effekt på funksjonen av genproduktet [6].
I de senere år, er viktigheten av ikke-proteinkodings genom i den funksjonelle regulering av normal utvikling og sykdomsutvikling har blitt tydelig. Mirnas er korte ikke-kodende RNA som regulerer deres mål genekspresjon vanligvis ved å binde seg til det 3′-ikke-translaterte region (UTR) av mål-mRNA [7]. Individuell variasjon av miRNA ekspresjonsnivåer kan påvirke ekspresjon av mRNA målgen, forårsaker fenotypiske forskjeller.
Flere studier har vist at miRNA ekspresjonsnivåer er prediktive for utfallet av faste tumorer og leukemier, men bidraget av endret miRNA uttrykket nivåer til genetisk kreft mottakelighet er ikke kjent. Den transkripsjonelle aktivitet av protein-kodende gener blir arvet som en kvantitativ egenskap, og regulatoriske polymorfismer i forbindelse med variasjoner i nivåene av mRNA som anses å være eQTL. Til tross for den påviste betydning, er kjennskap til den genetiske regulering av miRNA uttrykk fremdeles er i sin barndom. I en nylig publikasjon, ble over hundre eQTLs i primære fibroblaster som er beskrevet, noe som indikerer i det minste en delvis rolle for genetisk variasjon i endrede miRNA uttrykk [8]. Kombinerte analyser av vanlige SNPs og variasjoner i miRNA uttrykk profiler kan tjene som en måte å belyse biologiske funksjoner av SNPs identifisert fra GWAS i vanlige sykdommer.
Formålet med denne studien var å evaluere miRNA uttrykket profiler av lymfoblastoid cellelinjer (LCL) stammer fra medlemmer av høyrisiko PRCA familier. Altered miRNA ekspresjon i pasienten LCLer sammenlignet med dem fra friske familiemedlemmer gitt en mulighet til å identifisere kimlinje-varianter i promoter eller andre regulatoriske områder fra protein-kodende gener som en betydelig mengde miRNA ekspresjon er korrelert til verts- og mål-gen-ekspresjon [9]. Den store mengden av betydelige miRNA vise testresultater i data også nødvendig å utvikle en ny type differensielt uttrykk analyse rørledning. For å utvikle en slik rørledning, har forskjellig uttrykk testing blitt kombinert med betydning mål på maskinlæring algoritmen, Random Forest [10].
Materialer og metoder
Etikk erklæringen
Denne studien er godkjent av de respektive IRB styrene i The Sosialdepartementet og Helse (SMT), nasjonale tilsynsmyndighet for velferd og helse (Valvira) og etikkomiteen Tampere universitetssykehus. Hvert individ som deltar i studien har gitt skriftlig informert samtykke.
Study befolkningen
Alle prøvene er av finsk opprinnelse og innsamling av familiene har blitt rapportert tidligere [11]. For miRNA microarray studien ble 115 saker fra 70 PRCA familier brukt. De valgte familier hadde minst to førstegradsslektninger diagnostisert med prostatakreft i alle aldre. Friske (= ingen påvist prostatakreft) individer (n = 78) fra 47 familier ble anvendt som kontroller. Median alder ved diagnose for tilfellene var 65 (44-86.2) år og kontrollene hadde en median alder av 57.5 (35.2-83.3) år på det tidspunktet prøvene ble tatt.
En undergruppe av personer ( n = 54) fra microarray eksperiment ble genotypet med Illumina er HumanOmniExpress array for et annet eksperiment, og resultatene er publisert andre steder [12]. Derfor kunne de 54 prøvene brukes her for en eQTL analyse (39 PRCA tilfeller og 15 kontroller). Ytterligere 83 personer kunne brukes til valideringsformål. Til sammen var det 137 genotypet personer fra 33 familier (20 overlappende familier med microarray delen av studien).
Det kliniske resultatet av prostatakreft kan grovt deles inn i aggressive og ikke-aggressiv kreft, basert på PSA , Gleason score og andre kliniske evalueringer [13]. Basert på disse retningslinjene, ble prostatakreftpasienter fra de to forsøkene gruppert i 36 (36) aggressiv og 79 (66) ikke-aggressiv prostatakreft. Maksimalt antall aggressive tilfeller per familie var tre, og den minste var 1. En detaljert oversikt over de personene i studien er gitt i figur 1.
For hver helsegruppe, antall individer fra forskjellig eksperimenter er vist. Den samlede antall fra et eksperiment blir så indikert ved den respektive fargede boksen pluss røde boksen (overlapping). lavere: Visualisering av familiær bakgrunn. De tre alternativene «PRCA bare», «bare sunn «eller» PRCA /Sunn «vises og gruppert tilsvarende. I tillegg er involvering av forskjellige familier i de to eksperimenter vist. Bestilling er ifølge en intern familiekoden.
RNA ekstraksjon fra lymfoblastoide cellelinjer
LCLer ble avledet av Epstein-Barr virus transformasjon av perifere mononukleære leukocytter fra pasienter og deres friske slektninger . De lymfoblastoide cellelinjer ble dyrket i RPMI-1640 medium (Lonza, Walkersville, MD, USA) supplert med 10% føtalt bovint serum (Sigma-Aldrich, St. Louis, MO, USA) og antibiotika ved 37A ° C, 5% CO2 og 95% fuktighet. Cellen pellets var snap-frosset, og total RNA ble ekstrahert med Trizol i henhold til produsentens instruksjoner (Invitrogen, Carlsbad, CA, USA). RNA avkastning ble kvantifisert ved hjelp av et ND-1000 spektrofotometer (Nanodrop Technologies, Wilmington, DE, USA) og Agilent 2100 Bioanalyzer (Agilent Technologies, Santa Clara, CA, USA).
mikroRNA microarray analyse
mikroRNA uttrykk nivåer i LCLer ble oppdaget ved hjelp av Agilent Menneskelig miRNA V2 Oligo Microarray Kit (Agilent Technologies). Først ble 100 ng total-RNA anvendt som utgangsmateriale, og mirnas ble merket ved bruk av Agilent miRNA Labelling Kit. Merket RNA ble hybridisert til Agilent miRNA mikromatriser som har åtte identiske arrays per lysbilde, med hver array som inneholder prober rettet mot 817 mirnas (719 menneskelige, 76 ikke-menneskelige virus mirnas og 22 kontroll miRNAs). I alt ble 26 slides brukt, og dataene ble hentet ved hjelp av Agilent Feature Extraction programvare (FES), versjon 10.7.1.1 med rutenettet D_F_20091030. For dataanalyse, ble lav kvalitet prøver først fjernet, noe som resulterte i 193 individer. Hver enkelt Agilent microarray V2 måler 13,737 funksjoner, og FES deretter brukt disse funksjonene til å beregne uttrykket verdier for 2466 (2125 mennesker) prober; basert på disse probene til 817 miRNA uttrykk verdier ble beregnet. kan nås dataene via ArrayExpress tiltredelse E-mtab-3397.
miRNA uttrykket verdiene er vanligvis beregnet med algoritmen
gTotalGeneSignal
som implementert i FES, men i denne studien, men probe klok, bakgrunns trekkes medianverdier ble brukt i stedet. Analysen av forskjellige prober av samme miRNA som en enkelt miRNA uttrykk verdi synes ikke å være pålitelig nok, og en analyse ved sonden nivå var mer gjennomførbart. Etter beregning av uttrykket verdiene ved sonden nivå, var alle ikke-humane prober og de ikke oppdages av den FES fjernet. Bare de prober som er blitt oppdaget i minst 50% av prøvene i det minste en helsetilstand gruppe ble anvendt for videre analyse. I tillegg ble ikke-menneskelige kontrollfunksjoner fjernes før analysen. Totalt 547 sonder, som representerer 211 mirnas, oppfylte disse kriteriene. Den tekniske variasjon av dataene ble redusert ved å bruke en quantile normalisering [14].
Genotyping Data Analysis
enkeltnukleotidpolymorfi (SNP) genotype data ble generert ved hjelp av Illumina er HumanOmniExpress array i samarbeid med Institute of Molecular Medicine Finland (Fimm). Den valgte rekke aktivert genotyping på ca 700k SNPs. For å produsere genotypen data, ble rådata analysert med Genome Studio i henhold til produsentens instruksjoner (Illumina, San Diego, USA).
Totalt genotypen informasjonen for 137 personer var tilgjengelig, med miRNA uttrykket nivåer også målt i 54 av disse individene. Derfor er eQTL analysen var basert på følgende 54 personer. De resterende 83 personer ble brukt til validering av resultatene.
Identifikasjon av forskjellig uttrykt sonder bruker retnings testing
PRCA Pasientene ble delt inn i aggressiv (A) og ikke-aggressiv /mild (M) PRCA grupper og sammenlignet med friske kontroller (H). En ny generalisering av Mann-Whitney typeprøving ble anvendt for å identifisere differensielt uttrykte sonder i den tre-gruppen sammenligning. Det samme generalisering ble brukt til eQTL analyse (for mer informasjon se [15] og [16]).
For en generell definisjon, la utvalgsstørrelser av de tre gruppene være
N
H
,
N
M Hotell og
N
en
som resulterer i en total utvalgsstørrelse på
N
H
+
N
M
+
N
A
=
N
. Den gener Mann-Whitney testen er basert på sannsynlighets indeksene beregnes med trippel summer tilsvarende indikatorfunksjoner. La x
p
;
H
= (
x
1,
p
;
H
,
x
2
p
;
H
, …,
x
N
H
,
p
;
H
)
T
, x
p
;
M
= (
x
1,
p
;
M
,
x
2
p
;
M
, …,
x
N
M
,
p
;
M
)
T Hotell og x
p
;
A
= (
x
1,
p
;
En
,
x
2
p
;
A
, …,
x
N
En
,
p
;
A
)
T
være uttrykket verdier for en sonde
p
i hver helse gruppe med underliggende
cdf
«s
F
p
;
H
,
F
p
;
M Hotell og
F
p
;
A
. Den sannsynlighets hovedside
P
^
H
, etter
M
, etter
A
;
p
for sonde
p
brukt i denne tilnærmingen kan da beregnes byand
i
(⋅) indikatoren funksjon som er 1 hvis tilstanden (⋅) er sann og 0 hvis ikke. Legg merke til at rekkefølgen i indeksen for
P
^
H
, etter
M
,
A
;.
p
refererer til rekkefølgen brukt i indikatoren funksjon
Videre probabilistisk hovedside
P
^
H
, etter
M
, etter
A
;
p
kan deretter anvendes for å teste den retnings hypothesiswhere ≺ refererer til den stokastiske ordningen av
ED
«s. Naturligvis kan forskjellige ordrer i tilstand (⋅) av indikatorfunksjonen brukes til å teste for forskjellige alternativer. I tillegg, når ekspresjons verdier er tilordnet genotypgruppene i stedet for helsetilstand, er denne testprosedyren er ideelt for eQTL testing som det tester for retnings alternativer som er klart til stede i forbindelse med en eQTL analyse.
to sannsynlighets indeksene
P
^
H
, etter
M
, etter
A
;
p Hotell og
P
^
A
, etter
M
, etter
H
;
p
ble brukt til testing prober
p
= 1, …, 547, og p-verdier for den permutasjon testversjonen ble beregnet på grunnlag av 5000 permutasjoner. Testresultater med p-verdi mindre enn 0,01 ble ansett for å være betydelig. Testmetoden er implementert i R-pakke
gMWT product: [16], og pakken
GeneticTools
utnytter dette testmetode for eQTL testing. Begge pakkene er fritt tilgjengelig fra Comprehensive R Archive Network (CRAN).
Benjamini-Hochberg flere testprosedyre for å kontrollere den falske funnraten er visualisert ved hjelp av avvisning plott og linjer. Forholdet mellom forventet avslag under nullhypotesen er plottet mot observerte forholdet avslag. Hvis denne kurven er over (0, 1)-linje, har vi flere avslag enn forventet under nullhypotesen. De avslag for en fast prøve størrelse kan visualiseres med en vertikal linje, og avslag for forskjellige flere test justeringer kan visualiseres ved linjer med en viss helling. Antall avviste nullhypotese bestemmes deretter ved krysningspunktet av kurven og linjen. For detaljer, se [15].
Klassifisering, Viktig Mål og Clustering
Maskinen læring sorterer Random Forest [10], som implementert i R-pakke
randomForest
[17], ble påført uttrykket data, slik at datasettet ble delt i treningen (75%) og test (25%) av data. Treningsdataene ble brukt til å opprette en samling av 2500 beslutning trær, og disse trær ble deretter brukt til å klassifisere testdata. Skillet mellom trening og validering av data ble deretter gjentatt 2000 ganger, og etterpå klassifiserings resultatene av alle testdata går ble evaluert. Gini betydning tiltaket ble også ekstrahert for hver enkelt tilfeldig Forest, og den gjennomsnittlige vekt av hver probe ble kombinert med den tilsvarende p-verdi fra retnings testen. Sonder som hadde en p-verdi mindre enn 0,01 og som tilhørte de 10% de viktigste sonder enn alle Random Forest går ble ansett for å være av stor interesse (HI prober), og ble deretter brukt i clustering trinn og i eQTL analyse.
Tilfeldige Skoger ble trent for tre mulige utfall klasser sunt (H), mild PRCA (M) og aggressiv PRCA (A). La
L
i
,
r
;
H
,
L
i
,
r
;
M Hotell og
L
i
,
r
;
A
være klasse likelihoods levert av Random Forest klassifikator run
r
for individuell
i
med
L
i
,
r
;
H
+
L
i
,
r
;
M
+
L
i
,
r
;
A
= 1. Disse likelihoods ble deretter kombinert i en enkelt PRCA severeness verdi
S
i
,
r
=
1
2
L
i
,
r
;
M
+
L
i
,
r
;
A
. Den severness verdi
S
i
,
r
ble valgt på en slik måte at
S
i
,
r
= 0 i tilfelle at
L
i
,
r
;
H
= 1
S
i
,
r
= 0,5 for
L
i
,
r
;
M
= 1 og
S
i
,
r
= 1 hvis
L
i
,
r
;
A
= 1.
i en to-veis Random Forest løp, klassifiseringen ble utført bare mellom sunne og PRCA klasser, med samme oppsett som for 3-veis Random Forest beskrevet ovenfor.
for å beregne arealet under kurven (AUC) av Receiver Operating Characteristic (ROC) kurve i Random Forest tilfellet ble to ulike tilnærminger er valgt. Først de to likelihoods
L
i
,
r
;
M Hotell og
L
i
,
r
;
En
ble tilsatt for å evaluere Random Forest evne til å klassifisere PRCA generelt. Deretter, i andre forhold, de likelihoods
L
i
,
r
;
H Hotell og
L
i
,
r
;
M
ble tilsatt for å vurdere sin evne til å identifisere aggressive PRCA. Til slutt, for å plotte ROC en kontinuerlig cut-off verdi i [0, 1] ble påført på sannsynligheten for å klassifisere individer til ekte /falske positiver.
For clustering i heatmap, Kendall tau korrelasjonsmatrisen S blant alle prøvene ble beregnet på grunnlag av uttrykket verdiene av de HI prober. Kendall «tau mellom to variabler er et mål på positiv /negativ avhengighet og er invariant i henhold til en hvilken som helst strengt voksende transformasjon til de ytre variable. Den tilsvarende avstand mellom de variable blir deretter definert som D = (1 – S) /2. La deretter D være matrise av avstander som anvendes for hierarkisk clustering.
eQTL Analyse
genotype informasjon fra 700k matrisen ble kombinert med uttrykket verdiene av HI-prober ved hjelp av en eQTL analyse. Den kromosomale plasseringene av miRNA prober ble identifisert og alle SNP’er innenfor et vindu på 1 Mb rundt sondens sentrale beliggenhet var knyttet til denne probe. Sonde uttrykk verdiene ble deretter tildelt genotypgruppene av hver knyttet SNP (fig 2 viser en systematisk skisse av dette trinnet).
Uavhengig av helsetilstanden til hver enkelt, er uttrykk verdier gruppert etter genotypgruppene i de omkringliggende SNP’er, og deretter testet for differensiell ekspresjon mellom disse gruppene. (Figur hentet fra [16])
I en eQTL tilnærming, tre tilfeller er mulig, avhengig av om uttrykket verdier har blitt tildelt en, to eller alle tre mulige genotypgruppene. Monomorfe varianter ble ikke videre vurdert i analysen, og i de to-gruppen fall en to-sidig Mann-Whitney test ble brukt. I tre-gruppen tilfelle ble generalisert Mann-Whitney-testen for retnings alternativer benyttes for de to ulike alternativene hvorvidt de høyere ekspresjon verdiene ble knyttet til villtype eller homozygot mutasjon. Denne type av retnings test ble anvendt i tre-gruppen tilfelle som en ordre til uttrykk verdier i forhold til de genotypgruppene er klart forventet.
komparativ analyse
her benyttes to-trinns tilnærming ble sammenlignet med to andre vanlig anvendte metoder. Den første metoden ble et klassisk variansanalyse (ANOVA), testing av den alternative hypotesen om at det er en forskjell mellom minst to av de tre gruppene. La
μ
p
,
H
,
μ
p
,
M
og
μ
p
,
En
være gjennomsnitts uttrykket verdiene av sonde
p
for de tre gruppene, er da probe-messig hypotese for den enveis ANOVA
den resulterende p-verdier ble deretter justert for multippel testing ved bruk av en Bonferroni korreksjon.
den andre metoden som ble brukt som sammenligning var en to-trinnvise logistisk regresjon med lasso (LRL). Først LRL ble påført på hele datasettet med de to klassene friske /syke. Den tuning parameter
λ
ble valgt slik at mengden av utvalgte variabler var i samme grad av størrelsesorden som her foreslåtte metoden identifiserer. Den andre LRL forsøk ble deretter påført på de eneste og rettet for separering av mild og aggressiv PRCA krefttilfeller. Endelig de resulterende prober ble slått sammen til ett resultat matrisen fra LRL analyse.
For å sammenligne resultatene av ANOVA og LRL med her foreslåtte tilnærmingen, ble en hierarkisk clustering påføres de identifiserte sonder bruker også en Kendall tau basert avstand matrise. Deretter ble justert Rand indeksen beregnes mellom klassifiseringen av de tre forskjellige clusterings og den sanne kreft status for enkeltpersoner å bestemme nivået av avtalen.
Resultater
Ved hjelp av retningstestprosedyre, 146 (87 med høyere uttrykk i aggressive PRCA og 59 med høyere uttrykk i kontroller) av totalt 547 prober ble identifisert å ha forskjellige uttrykk profiler. Kromosomal lokalisering av betydelige sonder og den type testing alternativ er visualisert i figur 3.
Betydelige testresultater som også tilhører de 10% viktigste (Gini-indeksen) mirnas i Random Forest løp betegnes som HI sonder.
for å identifisere HI prober fra dette uventet stor mengde forskjellig uttrykt sonder, ble et tilfeldig Forest klassifikator også brukt til uttrykket data. Betydelige sonder som var innenfor 10% av de viktigste sonder i Random Forest, målt som Gini-indeksen, ble kalt HI prober og er uthevet i figur 3. De 13 identifiserte sonder representerer åtte forskjellige mirnas og en spliceosomal RNA. Flere detaljer om de 13 identifiserte sondene er oppført i Tabell 1.
sammenlagt resultat basert på intensiteten verdier
S
i
,
r
av Random Forest er visualisert i figur 4. Friske personer (grønn) tydelig tendens til å være i lavere risiko, men aggressive PRCA pasienter (rød) ikke pleier å ha større verdier enn ikke-aggressive PRCA pasienter (gul). I tillegg ble en gjennomsnittlig klassifisering hastighet over alle klasse kjører bestemmes separat for sammenligninger mellom sunt og PRCA og mellom aggressiv PRCA og kombinert sunt og ikke-aggressive PRCA. Random Forest var i stand til å klassifisere PRCA med en gjennomsnittlig AUC av ROC på ca 0,89 og aggressiv PRCA versus de kombinerte prøver av ikke-aggressiv PRCA og kontrollene til 0,68 (figur 5). Klassifiserings resultater på individnivå er visualisert i saksdokumenter (S1 og S2 figurene).
Friske personer sammenlignet med aggressive resultater samlede ikke-aggressive /erytroaplasi (svart kurve) og aggressiv PRCA klassifikasjoner er sammenlignet med de samlede andre gruppene (rød).
En hierarkisk clustering viser viktigheten av HI sonder. Clustering datasettet basert på alle sonder resulterte i bare en litt bedre klassifisering enn den gruppering basert på de 13 HI prober. Dendrogrammet for gruppering individer basert på de 13 HI probene sammen med den tilsvarende varmekart er vist i figur 6. Her, ble evnen til å skille klart mellom aggressive og ikke-aggressive -PRCA begrenset, men interessant bare fem av de 78 friske individer var gruppert tett sammen med PRCA individer. I motsetning til 46 av 115 PRCA tilfeller var inne i klyngen som inneholdt det meste av friske individer.
Røde farger referere til lave uttrykk verdier, mens grønne farger representerer store uttrykksverdier for bestemte sonde. Den miRNA målrettet IDer som svarer til de gitte probe-IDer er oppført i Tabell 1. Farger i dendrogram representerer den observerte helsestatus (grønt: sunn, gul. Non-aggr PRCA, red: aggr.PrCa)
i tillegg er en cis-eQTL (0,5 MB opp /nedstrøms vindu) for HI prober ble utført. I alt ble 3863 SNP-miRNA foreninger testet, og 79 hadde en p-verdi på ≤ 0,01, (S3 figur i saksdokumenter). Alle SNP som ble funnet å ha en mulig regulerende virkning på en HI-probe ble deretter testet for et direkte -PRCA forening ved å påføre en Fisher-test på 2 x 3 bordet mellom genotypen og helsestatus grupper. For fire SNPs, var en signifikant sammenheng funnet for de 53 genotyper av eQTL prøver (test størrelse 0,05).
I de prøvene hvor kun genotype data var tilgjengelig, seks forbundet SNPs ble funnet, men betydelige SNPs fra den første, innledende test kunne ikke valideres med de ekstra genotypen data. For begge datasettene var det imidlertid en, respektive fire (av 15) signifikant assosiert SNPs i cis-plassering av miRNA HSA-MIR-483-3p (se tabell 2 for detaljert informasjon).
Den øvre delen er fra eQTL datasettet, og den nedre delen er resultatene for de valideringsdata.
til slutt her foreslåtte metoden ble også sammenlignet med en ANOVA tilnærming og et LRL. Ved hjelp av en multippel testing justert signifikansnivå
α
= 0,001 resulterte i 14 store sonder, mens LRL tuning parameter ble satt slik at LRL identifisert 15 sonder for å være av høy interesse. Mengden av kryssende prober mellom disse to fremgangsmåter var syv, mens skjæringspunktet mellom HIprobes med ANOVA probene var bare fem og med LRL til og med bare tre. Sammenligning av kvaliteten på clustering basert på disse sondene bruker Justert Rand Index, resulterte i en Rand Index of 0,168 for sondene identifisert av her foreslåtte tilnærmingen, 0,130 for ANOVA og 0.131 for LRL tilnærming.
diskusjon
Formålet med studien var å søke nye statistiske metoder som bedre skiller aggressive fra lat prostatakreft og er robuste mot uteliggere og å kartlegge prognostiske og diagnostiske verdier av blod avledet mirnas.
i denne studien brukte vi en generalisert Mann-Whitney tilnærming [15] sammen med Random Forest algoritme for å identifisere forskjellig uttrykt miRNAs. Ved å kombinere de to metodene, var vi i stand til å redusere panel av interessante miRNAs. Fordelen med denne tilnærmingen er at den effektivt kombinerer de to forskjellige metoder for å oppdage meningsfulle variabler. Hver tilnærming av seg selv identifisert et stort antall betydelige miRNAs, selv etter å kontrollere den falske funnrate. Imidlertid, ved å kombinere disse to metodene ga en kortere liste over mirnas av potensiell interesse, redusere effektivt mengden av falske positive testresultater. S4 figur i saksdokumenter viser detaljer om test avslag og konsekvensene av en Benjamini-Hochberg korreksjon.
Uten noen flere tester korreksjon, begge testene viste avvisning priser på ca 16% og 10% for en test størrelse på 0,01. Akseptere en falsk funnrate på 0,05% avvisnings prisene fortsatt var i størrelsesorden 5-10%. I stedet for å styre bare den falske funnrate, ble en multippel testmetode utelatt, og et ensemble metode som kombinerer resultatene av de to metoder ble benyttet i stedet. Selv om dette ble gjort på en mulig bekostning av mange falske negative testresultater, det her identifisert sett tjente ytterligere tillit ved å kombinere testresultatene.
I tillegg til utvikling av analytiske verktøy, skaffe gode kamper mellom saker og kontroller er viktig, spesielt i miRNA studier hvor det funn blant studiene er ofte motstridende. Bruken av finske familiær -PRCA tilfeller og deres slektninger friske aktivert for å redusere bakgrunnen heterogeniteten til miRNA ekspresjonsprofiler skal reduseres. Faktisk ble individer innenfor familier observert å dele en miRNA signatur spesifikk for familien, og familiemedlemmer ble oftere gruppert ved siden av hverandre. Derfor informative miRNA biomarkører som kan skille pasienter fra sine friske kolleger innen en familie er svært interessant.
Altered miRNA uttrykket har blitt identifisert i forskjellige kreftformer. Avhengig av ekspresjonsprofilen i tumoren, kan de fungere som enten onkogener eller tumor-suppressorer. Vår protokoll identifisert åtte mirnas og en splicosomal RNA med potensielle betydning ved fastsettelse av PRCA risiko.