PLoS ONE: På reproduserbarhet av TCGA eggstokkreft mikroRNA profiler

Abstract

feilregulert mikroRNA (miRNA) uttrykk er et veletablert funksjon av menneskelig kreft. Men rollen til spesifikke miRNAs i å bestemme kreft utfall er fortsatt uklart. Ved hjelp av nivå 3 uttrykk data fra Kreft Genome Atlas (TCGA) identifiserte vi 61 mirnas som er forbundet med total overlevelse i 469 eggstokkreft profilerte av microarray (p 0,01). Vi identifiserte også 12 mirnas som er forbundet med å overleve når mirnas ble profilert i de samme prøvene som bruker Next Generation Sequencing (miRNA-Seq) (p 0,01). Overraskende, er bare en miRNA transkripsjon assosiert med eggstokkreft overlevelse i begge datasett. Våre analyser tyder på at dette avviket skyldes det faktum at miRNA nivåer rapportert av de to plattformene korrelerer dårlig, selv etter korrigering for potensielle problemer iboende å signalisere algoritmer. Korreksjoner for falsk oppdagelse og mikroRNA overflod hadde minimal innvirkning på dette avviket. Videre undersøkelser er hjemlet

Citation. Wan Y-W, Mach CM, Allen GI, Anderson ML, Liu Z (2014) På reproduserbarhet av TCGA Eggstokkreft mikroRNA profiler. PLoS ONE 9 (1): e87782. doi: 10,1371 /journal.pone.0087782

Redaktør: Amanda Ewart Toland, Ohio State University Medical Center, USA

mottatt: 06.11.2013; Godkjent: 01.01.2014; Publisert: 29 januar 2014

Copyright: © 2014 Wan et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet støttes delvis gjennom Delte Fremskritt i Biomedical Computing Seed finansieringsprogrammet ved Ken Kennedy Institute for informasjonsteknologi ved Rice University støttes av John og Ann Doerr Fund for Computational biomedisin og gjennom Senter for Computational og Integrative Biomedical Research Seed finansiering Program ved Baylor College of Medicine. GA er også delvis støttet av NSF DMS-1209017. ZD støttes av Houston Bioinformatikk Endowment og NSF DMS-1263932. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

microRNAs (mirnas) er endogene RNA transkripsjoner som regulerer ulike mønstre av genekspresjon [1]. De fleste menneskelige mirnas er transkribert så lenge forløpere kjent som pri-miRNAs. Starter i kjernen, pri-mirnas gjennomgå en rekke prosesseringshendelser som til slutt fører til det cytoplasmatiske frigivelse av modne transkripter ~22 nukleotider i lengde. Moden mirnas kata translasjonsforskning hemming ved direkte binding til messenger RNA (mRNA) og fremme deres degradering [2]. Nyere data tyder på at mirnas kan hemme oversettelse uavhengig av deres evne til å indusere mRNA degradering.

Mønstre av miRNA uttrykket har vært mye profilert i menneskelig vev. Det er nå klart at feilregulert miRNA uttrykket er en funksjon av mange forskjellige krefttyper, inkludert karsinomer i bryst, eggstokk og lunge [3] – [5]. Men å bestemme mekanismer som individuelle mirnas bidrar til kreft utfall er fortsatt en viktig utfordring for biologer håper å utnytte sin makt. Nylig, Cancer Genome Atlas Consortium (TCGA) rapporterte at eggstokk-kreft cluster inn i forskjellige molekylære subtyper basert på deres mønstre av gen-ekspresjon og mikroRNA [6]. Imidlertid har vi oppdaget en alarmerende mangel på konsistens mellom mikroRNA (miRNA) uttrykk profiler i utgangspunktet brukes av TCGA og en påfølgende profil miRNA uttrykk som genereres av denne gruppen for de samme eggstokkreft prøver ved hjelp av miRNA-sekv. Som disse observasjonene ride gyldigheten av de underliggende data, de foreslår også at vitenskapelige oppdagelser basert utelukkende på disse dataene må tolkes med forsiktighet.

Resultater

For å avgrense mirnas forbundet med eggstokkreft pasient overlevelse utførte vi en univariat Cox regresjonsanalyse ved hjelp nivå 3 TCGA miRNA data for 469 eggstokkreft profilerte Agilent microarray teknologi. Initial regresjonsanalyse ble ytterligere raffinert ved bruk av den Benjamini-Hochberg (BH) fremgangsmåte for å justere for multiple hypotesetesting [7]. Vi fant at 16 modne mirnas er signifikant assosiert med kreft i eggstokkene overlevelse (FDR 0,01) (figur 1A). Av disse MIR-505, MIR-652 og MIR-551b * demonstrere de mest robuste foreninger. Hazard ratio (HR) beregnet for disse mirnas var -1,73, -1,8 og 9,3, henholdsvis. Dette resultatet indikerer at hver av disse miRNAs potensielt spiller en viktig rolle i å bestemme eggstokkreft overlevelse.

P-verdi plott av univariate Cox regresjon for microRNAs forbundet med eggstokkreft overlevelse identifisert av microarray (A) eller miRNA-Seq (B) data. P-verdi 0,01 (heltrukket linje). False funnrate (FDR) 0,1 (stiplet linje). I både A B, blå prikker indikerer mirnas assosiert med overlevelse av miRNA array, mens røde prikkene indikerer mirnas assosiert med overlevelse av MIR-sekv. Grønne stjerner er mirnas assosiert med overlevelse i begge datasett. (C) i prosent av overlappende miRNAs mellom matrise og NGS seq plattform på ulike cut-off terskel for Cox p-verdier, BH justert FDR, og Storey Q-verdier.

For å validere disse observasjonene, vi neste avhørt en andre datasett av miRNA uttrykket generert for de samme eggstokkreft prøver ved hjelp av Next Generation Sequencing (miRNA-Seq). Den TCGA eggstokkreft prosjekt er unikt ved at miRNA uttrykket har vært profilert bruker både miRNA utvalg og miRNA-sekv. Disse teknisk forskjellige plattformene skaper en unik mulighet til å validere funnene som er gjort ved hjelp av en datasettet mot den andre. Ideelt sett bør de oppnådde resultater korrelere godt. Ved hjelp av Cox analyse, fant vi at 4 miRNA transkripsjoner er assosiert med overlevelse når mirnas ble profilert i eggstokkreft ved hjelp av miRNA-Seq på en identisk FDR nivå (figur 1B). Det er ingen overlapping mellom resultatene fra disse to plattformene, til tross for at begge datasett ble generert fra de samme prøvene.

For å finne ut om microarray og Next Gen plattformer vil gi mer konsistente resultater når analysert ved hjelp av en avslappet terskel, reduserte vi p-verdien terskel brukes for våre analyser til 0,01. Dette resulterte i flere mirnas betydelig assosiert med pasientens overlevelse i begge datasett. For eksempel har vi identifisert 61 mirnas fra data generert ved hjelp av array plattform. Men fareforhold beregnet for de 12 mirnas identifisert fra miRNA-Seq data er alle svært nær 1,0. Bare MIR-652 er assosiert med overlevelse i både miRNA-Seq og microarray datasett. For å korrigere for flere hypotesetesting, vi justert våre Cox modell p-verdier ved hjelp Benjamini-Hochberg prosedyre [7]. Etter å ha fullført disse analysene, er ingen mirnas korrelert med overlevelse i begge datasett når den falske funnraten ble satt til 10%.

For å avgjøre om valget av en multippel hypotese justering prosedyren bidrar til disse resultatene, vi re-analysert de TCGA data ved hjelp av en alternativ q-verdi estimering prosedyre [8]. I tillegg, beregnet vi at andelen av overlappende mirnas ved forskjellig FDR eller p-verdi cut-off. Våre resultater tyder på at det begrensede antall overlappende miRNAs mellom de to plattformene er uavhengig av valg av flere hypotese justering prosedyre eller cut-off terskler (figur 1C).

For å belyse mulige årsaker til denne uventede avvik, vi undersøkte reproduserbarhet av miRNA uttrykket mellom de to TCGA filer som beskriver disse dataene. Pearson korrelasjonskoeffisienter (r) ble beregnet for hver av de 359 modne menneskelige mirnas som nivå tre uttrykk data var tilgjengelig i både miRNA-Seq og microarray databaser. Vi fant at korrelasjonskoeffisienter for nivåer av enkelte mirnas rapportert av hver teknikk varierte sterkt. For eksempel er MIR-505 miRNA mest robust assosiert med pasientens utfall i våre analyser av miRNA matrisedata (HR = -1,7, p 9e-5). Men når vurdert ved hjelp av sekvenseringsdata, hazard ratio for mir-505 var 0,998 (p = 0,03). Nivåer av MIR-505 målt av miRNA-matrise og miRNA-Seq data korrelert bare beskjedent (r = 0,59) (figur 2B). Avvik ble også observert i en rekke andre mirnas som tidligere har blitt implisert i kreft i eggstokkene, slik som MIR-143 [9]. Korrelasjonskoeffisienten for MIR-143 i våre analyser var 0,39 (figur 2C). En annen miRNA godt studert in ovarian cancer er MIR-141, som tidligere er blitt rapportert til å målrette p38a og modulere den oksidative stressrespons [10], [11]. Imidlertid er sammenhengen mellom nivåer av MIR-141 i TCGA microarray og miRNA-Seq uttrykk data kun 0,32 (figur 2D). Total, vi fant at korrelasjonskoeffisientene for ~72% av miRNAs profilerte i begge datasettene var ≤0.5 (figur 3A, 3C), noe som indikerer dårlig reproduserbarhet. Bare 22% av mRNA målt ved Agilent microarray og Illumina HiSeq bruker de samme eggstokkreft prøver korrelerer dårlig (r≤0.5 Figur 3B, 3C). Dermed avviket vi rapporterer her ser ut til å være begrenset til TCGA miRNA datasett.

(A) MIR-98, (B) MIR-505 (C) MIR-143 og (D) MIR-141.

(A) Histogram av korrelasjonskoeffisienter for individuelle mirnas målt av miRNA-Seq og miRNA array. (B) Histogram av korrelasjonskoeffisienter for mRNA profilerte av Illumina HiSeq og mRNA array. (C) Den empiriske kumulative fordelingsfunksjon (ECDF) av sammenhengen mellom matrise og sekvensering for miRNA (svart), filtrert miRNA (farge) og mRNA (grå) målinger. Nesten 72% av miRNAs demonstrere en korrelasjonskoeffisient ≤0.5 mens 22% av RNA har en korrelasjonskoeffisient ≤0.5. Når filtreres basert på uttrykksnivå, andelen av miRNAs med korrelasjon ≤0.5 mettet til 56%.

En mulig årsak til dårlig reproduserbarhet kan være signal algoritme brukes til å rapportere nivåer av miRNA uttrykk. Nivå 3 TCGA miRNA data er rapportert i to formater. Den første, merket som en «Kvantifisering av data,» melder nivåer for individuelle menneske miRNAs. Imidlertid er en av fordelene med miRNA-Seq som transkripter hentes opp av denne teknikken kan være nøyaktig kartlagt. En annen fil, merket som «isoform Data» har også blitt utgitt av TCGA. Denne filen rapporter lese teller for utskrifter i henhold til deres genom plassering. Som en del av denne filen, blir transkripsjoner identifisert som enten moden miRNA, miRNA (3p armene på menneskelig mirnas), stem-loop avskrift eller forløper. Mens han jobbet gjennom disse dataene, lærte vi at miRNA nivåer rapportert i TCGA kvantifisering filen inkluderer lese teller for miRNA forstadier samt modne mirnas. Fordi miRNA forløpere for øyeblikket tenkt å mangle biologisk aktivitet, inkludering av forløpere med teller modne miRNAs kan skamme overlevelse analyser. for å løse dette problemet, vi hentet lese teller modne mirnas bare fra isoform datafil og gjentok våre analyser. Men andelen av miRNA korrelasjonskoeffisienter ≤0.5 forble så høyt som 71% til tross for bruk av dette mer presist definerte data.

En annen mulig forklaring på den observerte avviket kan være at sammenhenger mellom tiltak av miRNA uttrykk avhenger av hvor ofte individuelle miRNA transkripsjoner er uttrykt. I så fall kan sjelden uttrykt mirnas bli rapportert av en eller begge av plattformene som brukes til å profilere miRNA uttrykket tilfeldig eller unøyaktig. For å utforske denne hypotesen, vi re-beregnet korrelasjonskoeffisienter for hver miRNA identifisert ved begge plattformene etter ekskludert avskrift i miRNA-Seq datasett med en lese telle mindre enn 5. Dette reduserte antall distinkte mirnas tilgjengelig for analyse i miRNA- Seq datafil fra 705 til 380. Men andelen av miRNAs med korrelasjonskoeffisienter ≤0.5 også redusert fra 72% til 56%. Tilsvar fjerne dårlig uttrykt transkripsjoner fra bassenget av mRNA profilerte av Illumina HiSeq reduserer andelen av mRNA som korrelasjon koeffisienter ≤0.5 fra 22% til 20%. Disse observasjonene tyder på at problemene detektere sjelden uttrykt miRNA kan påvirke evnen eller en eller begge plattformer å pålitelig rapportere miRNA uttrykk. Men det faktum at mer enn halvparten av miRNA transkripsjoner fortsatt hadde korrelasjon koeffisienter ≤0.5 selv etter korrigering for dette problemet indikerer at dårlig uttrykt transkripsjoner ikke er ansvarlig for de uharmoniske mønstre av miRNA uttrykket rapportert av de to plattformene.

for å utforske dette problemet mer i dybden, vi beregnet omfanget av log2 forvandlet uttrykk nivåer for alle microRNAs i de to datasettene. Vi har også utviklet en algoritme som mulig for oss å variere terskelen av uttrykket akseptabelt for innlemmelse for analyse fra en minimumsverdi (0) til den midlere log2 transformerte ekspresjonsnivå av alle transkripter. For hver terskel, vi bare betraktet microRNAs uttrykt over terskelen og omregnet korrelasjonen mellom de to plattformene. Denne analysen viser at utelukkelse av miRNA transkripsjoner uttrykt sjeldnere enn gjennomsnittet forbedrer bare litt overordnet sammenheng mellom de to plattformene som brukes til å profilere miRNA uttrykket (Figur 3C). Som vist grafisk, har vi funnet at 71% av miRNA demonstrere korrelasjonen mindre enn 0,5, uten bruk av noen filtrering. Ved å benytte et uttrykk nivå filter slik som beskrevet, fant vi at andelen av transkripter med korrelasjonskoeffisienter på tvers av de to plattformene mettet ved 56%. Dette er fortsatt langt høyere enn 22% observert med mRNA uttrykk profilering systemer.

Diskusjoner

Mye til vår overraskelse, våre analyser tyder på at de microRNAs assosiert med overlevelse i eggstokkreft avhenger sterkt av om prøvene ble profilert av TCGA hjelp microarray eller miRNA-sekv. Våre analyser tyder på at dette avviket eksisterer fordi miRNA-Seq og microarray har generert svært forskjellige profiler av miRNA uttrykk, selv om dataene er basert på de samme eggstokkreft prøver. Vi har ikke for tiden har en klar forklaring på hvorfor miRNA uttrykk profiler rapportert av TCGA er uharmoniske. Men forstå dette avviket vil til slutt være viktig for å identifisere hvilke mirnas hvis noen er viktig for å bestemme eggstokkreft utfall.

En rekke DNA microarray teknologi har tidligere blitt validert av etterforskere undersøker innenfor plattform og kryss-plattform reproduserbarhet [ ,,,0],12] – [14]. Spearman korrelasjonskoeffisienter rapportert i disse studiene varierer 0,59 til 0,94 med et gjennomsnitt på 0,82. Disse resultatene er i likhet med hva vi har observert for korrelasjoner mellom genekspresjonsmønster profilert bruker microarray og Illumina HiSeq plattformer ved TCGA. Både miRNA-Seq og microarray teknologi er forbundet med flere tekniske begrensninger som kan forklare forskjellene vi har observert. For eksempel, er kryss-hybridisering et velkjent problem som kan redusere signal spesifisitet når profilering RNA transkripsjoner av microarray [15]. Imidlertid virker det usannsynlig at cross-hybridisering er en primær årsak til avviket vi observerte, som antall utskrifter korrelerte med overlevelse av matrisen er større enn antall assosiert med overlevelse av miRNA-sekv. En alternativ forklaring kan være at signalet utvinning algoritmen som brukes til å analysere miRNA-Seq data ikke nøyaktig rapportere miRNA nivåer. Generelt miRNA-Seq gir presis transkripsjon kartlegging med mye større selvtillit. Signalet utvinning algoritmen som nå brukes av TCGA å rapportere miRNA nivåer omfatter lese teller både et modent miRNA og den tilsvarende forløper. Våre analyser tyder på at forløpere står for mindre enn 1% av de totale miRNA tellingene i TCGA isoform filen. Dette gjenspeiler sannsynligvis bruk av størrelses-fraksjonert RNA for å fremstille biblioteker for miRNA-Seq [5]. Dermed deres inkludering eller ekskludering i analyser av TCGA datasettet har trolig liten betydning for hvilke mirnas er forbundet med eggstokkreft overlevelse.

Sammen er disse observasjonene understreker det akutte behovet for veldefinerte algoritmer for behandling av signaler generert av miRNA-Seq og transkripsjons profilering plattformer. Vår forståelse er at de samme analysene er utført av TCGA for andre kreftformer, inkludert tykktarm, bryst og lunge [16] – [18]. Fordi miRNA ekspresjon i disse andre kreftformer ikke er profilert av microarray, er det ikke mulig å gjenta våre analyser for å bestemme hvorvidt avviket vi rapporterer er observert i andre kreftformer. Til syvende og sist, er konsistent og pålitelig genomisk data kritisk for å bygge testbare hypoteser og å oppnå det fulle potensialet av TCGA. Våre observasjoner identifisere en viktig fare som etterforskerne bør være klar som de utnytter TCGA miRNA data for å studere eggstokkreft. For på kort sikt, kjennskap til denne fare understreker behovet for å validere observasjoner gjort med en eller begge av TCGA miRNA datasett. Men på lang sikt, oppløsning av dette avviket vil være viktig for å bestemme den mest effektive plattform og signal utvinning algoritmer for profilering miRNA uttrykk som en del av storskala genom profileringstiltak.

Materialer og Metoder

Gene og mikroRNA Expression data

nivå 3 data som dokumenterer genekspresjonsmønster for 296 eggstokkreft prøver profilerte Agilent G4502A arrays og Illumina HiSeq ble lastet ned fra TCGA data portal. Nivå 3 mikroRNA uttrykk data ble også hentet for 469 eggstokkreft prøver profilerte hjelp av Agilent 4X15k matrise og miRNA-sekv. Nivå 3 miRNA data profilerte av miRNA-Seq ble hentet fra både miRNA kvantifisering og isoform filer tilgjengelig på TCGA data portal sammen med metafiler kommentere hvert datasett. Tillatelse til å få tilgang til alle data ble innhentet fra Data Access komité for National Center for Biotechnology Information genotyper og fenotyper Database (dbGAP) ved National Institutes of Health.

Overlevelsesanalyser

Kode pasient overlevelse data ble ekstrahert fra den TCGA kliniske informasjonsfilen. En Cox-modellen ble brukt til å estimere sammenhengen mellom nivåer av enkelte miRNAs. Pasient overlevelse ble beregnet som gang på flere måneder gått fra diagnosedato inntil dato for siste kontakt.

Statistiske analyser

Spearman rang korrelasjonskoeffisienter, histogrammer, og den empiriske kumulative fordelings ble beregnet og plottet for hver miRNA og gen ved hjelp av r. Sekvense data ble log transformert for plotting. Både direkte lese teller og teller normalisert i henhold til millioner av mirnas ble undersøkt som en del av våre analyser. Alle analysene ble utført ved hjelp av både rå og normalisert lese teller rapportert som en del av TCGA miRNA-Seq datasett.

Takk

Forfatterne ønsker å takke for kommunikasjon fra David Wheeler, Rehan Akban, Gordon Robertson og Andy Chu om TCGA miRNA data analyse algoritmer.

Legg att eit svar