Abstract
microRNAs (mirnas) spiller en avgjørende rolle i opprettholdelsen av cellulær homeostase ved å regulere uttrykket av sine mål gener. Som sådan har den feilregulering av miRNA uttrykk vært hyppig knyttet til kreft. Med raskt samler molekylære data knyttet til pasientens resultater er det behov for identifisering av robuste fler omic molekylære markører kritiske for å tilveiebringe klinisk effekt. Mens tidligere bioinformatiske verktøy har blitt utviklet for å identifisere potensielle biomarkører i kreft, disse metodene ikke gir mulighet for rask klassifisering av onkogener versus tumor suppressors tar hensyn robuste differensial uttrykk, tidsavgrensninger, p-verdier og ikke-normalitet av dataene. Her foreslår vi en metodikk, Robust Utvalg algoritme (RSA) som løser disse viktige problemene i stor data omics analyse. Robustheten i overlevelsesanalyse sikres ved identifisering av optimale cutoff verdier av omics uttrykk, styrket av p-verdi beregnet gjennom intensiv tilfeldig resampling ta hensyn til eventuelle ikke-normalitet i data og integrering i fler Omic funksjonelle nettverk. Her har vi analysert pan-kreft miRNA pasientdata for å identifisere funksjonelle reaksjonsveier som er involvert i kreftutvikling som er forbundet med valgt miRNA identifisert ved RSA. Vår tilnærming demonstrerer hvordan eksisterende overlevelse analyseteknikker kan integreres med en funksjonell nettverksanalyse rammeverk for å effektivt identifisere lovende biomarkører og nye terapeutiske kandidater på tvers av sykdommer
Citation. Sehgal V, seviour EG, Moss TJ, Mills GB, Azencott R, Ram PT (2015) Robust Utvalg algoritme (RSA) for Multi-Omic biomarkører; Integrasjon med Functional Nettverksanalyse for å identifisere miRNA regulerte Pathways i flere kreftformer. PLoS ONE 10 (10): e0140072. doi: 10,1371 /journal.pone.0140072
Redaktør: Xia Li, Harbin Medical University, Kina
mottatt: 21. mai 2015; Godkjent: 20 september 2015; Publisert: 27 oktober 2015
Copyright: © 2015 Sehgal et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: Dataene vi har benyttet ble oppnådd fra TCGA og søkeparametrene og nedlastede data er forklart i metodedelen. TCGA data kan finnes på denne nettadressen https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm
Finansiering:. Arbeidet som presenteres her er delvis støttet av National Institutes of Health (NIH ) U54-CA112970 og Blanton-Davis Ovarian Cancer Foundation (PTR). TJM er støttet av en trening fellesskap fra Keck Center of the Gulf Coast Consortium (NLM T15LM007093) og Odysseen Program ved The University of Texas MD Anderson Cancer Center. VS er støttet av en trening fellesskap fra CPRIT Computational Cancer Biology Training Program (CPRIT RP101489)
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
microRNAs (mirnas) er små ikke-kodende RNA-regulatorer som binder seg til komplementære sekvenser på mål messenger RNA (mRNA), noe som resulterer i målet mRNA «translasjonsforskning undertrykkelse eller degradering. Mirnas kan også bindes til komplementære sekvenser i promoterregionen av målgener og føre til transkripsjonen aktivering [1, 2]. Således endringer i miRNA uttrykk påvirke genregulering, som i sin tur fører til endringer i cellulær homeostatisk stabilitet [3, 4]
Flere mirnas har vist seg å spille en viktig rolle i kreft [5-7].; og studier har også vist at mer enn 50% av miRNA gener er lokalisert i kreft-assosiert genomiske regioner [8]. Mange mirnas har vist seg å spille viktige roller som kreftfremkallende oncomiRs eller som tumor suppressor Mirs [9]. For eksempel, MIR-21 er en godt studert oncomiR som er oppregulert i mange forskjellige kreftformer, [10, 11]. og spiller en viktig rolle i resistens [12]. Medlemmer av MIR-17-92 familie fungerer også som fremtredende oncomiRs [13] og kan fremme kreftutvikling av negativt regulere tumorsuppressorgener. På den annen side, mirnas slik som de i la-7 familie funksjon som tumorsuppressorgener Mirs [14-16] og kan inhibere kreft ved å hemme onkogener og reguleringsfunksjoner slik som apoptose og celledifferensiering.
Flere grupper har studert kapasitet mirnas som skal brukes som biomarkører for spesifikke kreft [17-22]. I de fleste av disse studiene har forskerne brukt sekvense, mikromatriser eller PCR-baserte teknikker for global profilering av miRNAs, og har dermed identifisert flere mirnas som spiller viktige roller i kreft. Imidlertid er disse fremgangsmåter lider av flere begrensninger. Som vist i vår avis, kan dagens metoder for analyse av miRNA eller andre omics data som er avhengige av vilkårlige valg som å plukke terskler for å skille pasienter i høye og lave uttrykksgrupper være
veldig følsom
til små tilfeldige endringer i pasientene gruppen, noe som resulterer i en høy falsk funnrate. Derfor presenterer vi en innovativ robuste systemer analyse der mirnas er koplet til pasientens overlevelses resultater på tvers av ulike krefttyper til raskere og mer effektivt identifisere potensielle oncomiRs og tumor suppressor Mirs.
En ytterligere begrensning av dagens metoder er høy antall identifiserte mirnas og de tilhørende vanskeligheter med å validere så mange mirnas eksperimentelt. For ytterligere å begrense antall mirnas til de med høyest potensial i flere krefttyper, vi i tillegg søkt å integrere funksjonell nettverksanalyse. Den primære funksjon av miRNA ligger i å regulere mRNA-nivåer i cellen ved å binde seg til sekvenser i 3 «UTR av mRNA, noe som resulterer i en endring i steady-state nivået av mRNA og påfølgende endringer i funksjonelle utgangen av genet [23 -25]. Derfor søkte vi å identifisere funksjonelle miRNA-mRNA-nettverk basert på korrelasjonen av miRNA og mRNA uttrykk nivåer i pasientens svulster der miRNA viste klinisk betydning.
Med den eksplosive økningen i mengden av data som genereres fra pasientprøver som måler ulike molekylære egenskaper ved omics eller globalt nivå fra hver pasient, er utvikling av komplementære bioinformatikk og verktøy systembiologi analyse avgjørende. Vi her foreslå en arbeidsflyt som integrerer overlevelsesanalyse av omics data med funksjonelle nettverk analyseteknikker for å identifisere potensielle miRNA biomarkører og veier de påvirker tvers av ulike krefttyper. Siden vår tilnærming tar hensyn til den potensielle
ikke-lineære
funksjonelle relasjoner mellom potensielle markører «uttrykk nivåer og pasientenes overlevelse utfall, overgår ytelsen som tradisjonelle korrelasjonsanalyse, som er begrenset til å oppdage omtrent
lineær
funksjonelle relasjoner. Videre foreslår ikke-parametriske data analyseteknikker som ingen implisitte normalitet forutsetninger om fordelingen av genuttrykk nivåer er nødvendig, da de fleste omics data ikke følger normalfordelingen. I denne studien viste vi nytten av denne tilnærmingen med pasient datasett fra Kreft Genome Atlas (TCGA) for å identifisere prognostiske biomarkører og videre validert den foreslåtte arbeidsflyten ved hjelp av en tidligere utgitt datasett.
Metoder
Fordi vi søkt å identifisere mirnas som fungerer som enten tumor suppressors eller som oncomiRs, klassifisert vi hver miRNA med sterk innflytelse i form av pasient survivalas har enten høy uttrykk knyttet til god pasientoverlevelse (GS mirnas) eller høy uttrykk knyttet til dårlig pasient overlevelse (PS miRNAs). Vi vurderte pasientdata til kliniske utfall og miRNA uttrykk nivåer; Vi har utviklet en ny Robust Selection algoritme (RSA), som vi brukte til å klassifisere mirnas som blir assosiert med enten god eller dårlig overlevelse. Vi introduserte og beregnet en innovativ
robust p-verdi
å kvantifisere effekten av hver kandidat miRNA på god eller dårlig overlevelse (Fig 1A og Figur A og figur B i S1 File). For å demonstrere den foreslåtte arbeidsflyten, vi brukt vår RSA og den påfølgende funksjonell sti analyse for å TCGA datasett for fem krefttyper: bryst, eggstokk, hode og nakke, lunge og nyre (informasjon som er nyttig for å laste ned denne informasjonen finnes i S1 tabell).
(A) Skjematisk viser oversikt over RSA. Inngangene er kliniske data og miRNA uttrykket data; resultatene er kandidat mirnas korrelerte med enten god eller dårlig overlevelse. (B) Validering av RSA ved hjelp av tidligere publiserte gen signaturer korrelerte med overlevelse utfall. Vi søkte RSA til brystkreft datasett i Martin et al. Og så på overlapping av gener korrelerte med god og dårlig overlevelse beregnes ved RSA og fra sine resultater. Heatmap av disse overlappende gener ble trukket som viser høy genet intensitet i gult og lav genet intensitet i blått.
Data og Forbehandling
TCGA inneholder ulike former for omics data inkludert miRNA uttrykket, mRNA uttrykk. Den inneholder også kliniske data fra disse pasientene gir informasjon om overlevelsen av disse pasientene. Ved hjelp av ulike kreftpasienter «RNA sekvens data fra TCGA, hentet vi hver miRNA gjennomsnitte moden og stjerne strand uttrykk separat. TCGA har data tilgjengelig i miRNAseq form, og vi var i stand til å søke 2092 mirnas (de totale mirnas der data er tilgjengelig) for å identifisere kandidat mirnas som differensial uttrykk korrelert med overlevelse.
TCGA miRNA uttrykk data er anskaffet ved hjelp enten Illumina Hiseq eller Illumina GA-plattformen. Kjører vår første analyser av disse to plattformene separat overgitt ulike resultater. Vi undersøkte to plattformer «miRNA uttrykket distribusjoner for å avgjøre om vi kunne kombinere de to plattformene» prøver å få et større antall pasientprøver. Å sammenligne de to plattformene «miRNA distribusjoner, søkte vi Kolmogorov-Smirnov test med nullhypotesen at de to fordelingene er de samme ved 5% signifikansnivå. Dette hjalp oss med å identifisere hvilke mirnas hadde lignende (selv om henholdsvis distinkt) utdelinger i begge plattformene.
Vi har lastet ned også kliniske data for hver av de 5 krefttypene som er nevnt ovenfor fra TCGA. Fra disse dataene, vi hentet pasientenes overlevelse ganger til døden eller sensur. Flere pasientdata i TCGA ble kommentert som å ha ingen oppfølging tid og dermed ble systematisk fjernet fra vårt endelige datasettet analyse. Vi matchet pasienter som kliniske og RNA sekvens data var tilgjengelige.
homogenisere data på tvers av plattformer
TCGA miRNA uttrykket data for ulike krefttyper ble vanligvis ervervet ved hjelp av ulike plattformer. Å normal miRNA uttrykk nivåer og riktig for gjenstander på grunn av datagenerering ved hjelp av ulike oppkjøps modaliteter, samlet vi alle tilgjengelige TCGA miRNA uttrykket data og utsatt det til en homogenisering skritt som forklart videre i denne delen. Vi brukte disse normaliserte verdier for vår endelige datasettet analyse. Dette homogenisering trinnet er viktig fordi det korrigerer for data gjenstander på grunn av datagenerering gjennom ulike plattformer og oppkjøps modaliteter.
De to plattformene «miRNA distribusjoner var ikke veldig lik, og dermed kan ikke kombineres med en standard median normalisering trinn . Derfor har vi utført følgende homogenisering prosedyre for å kombinere plattformer «miRNA uttrykket distribusjoner for hver krefttype. For å få en identisk kumulativ fordelingsfunksjon (CDF) av homogenis uttrykk verdiene oppnådd med begge plattformene, homogenisert vi de to miRNA uttrykket distribusjoner som stammer fra de to plattformene. Den «target» CDF er definert som gjennomsnittet CDF av de to plattformene, nemlig
F (x) = 0
.
5F1 (x) + 0
.
5F2 (x )
, hvor F1 og F2 er CDF er av de to plattformene hhv. La
G
være den inverse funksjon av
F
. Hvert uttrykk verdi
x
fra plattform 1 passer til en homogenisert uttrykk verdi,
z (x)
, som beregnes ved å snu funksjon
F
verdien
F1 (x)
; dermed
z (x) = G (F1 (x))
. Hvert uttrykk verdi fra plattform 2 er homogenisert på samme måte, med
z (y) = G (F2 (y))
.
For noen verdi, 0≤ K ≤ 1, {F (z (x)) ≤ K} iff {z (x) ≤ G (K)} iff {G (F1 (x)) ≤ G (K)} iff {F1 (x) ≤ K}, og på samme måte, {F ( z (y)) ≤ K} iFF {z (y) ≤ G (K)} iFF {G (F2 (y)) ≤ G (K)} iFF {F2 (y) ≤ K}.
Dermed vi matche quantiles
x Hotell og
y
i separate distribusjoner med sine quantiles
z (x) Hotell og
z (y)
i den kombinerte fordelingen
F
.
Robust Utvalg algoritme
et litteratursøk ble utført for å identifisere en metode som kan brukes til å forbedre eksisterende metoder for å vurdere mirnas og identifisere kreft-relaterte pathways de påvirker. Vi identifiserte en studie som har evaluert prognostiske verdier av spesifikke mirnas i flere krefttyper [26]; Men har vi sjekket at metodikken for [26] er potensielt ganske følsom for selv små forstyrrelser av den eksisterende pasienter gruppe, og vi har validert denne ustabiliteten ved å bruke det til våre data.
For å teste følsomheten metodikken til pasientgruppen, brukte vi den nyrekreft datasettet ned fra TCGA. Fra dette datasettet, skapte vi 100 simulerte datasett ved tilfeldig slippe 2% av pasientene i hver simulerte datasett. På hver simulerte datasett, vi deretter brukt metodikken i [26] for å velge Mirs sterkt korrelert med pasientens overlevelse. På denne måten fikk vi 100 lister over utvalgte miRNA. Vi deretter nummerert alle disse miRNA som dukket opp i 99 eller flere av disse 100 lister. Stabiliteten av metodikken ble deretter karakterisert ved å se på histogrammet av den fraksjon av den markerte miRNA som var stabile. Siden 2% variasjon i pasientgrupper er en liten variasjon, bør vi kreve en robust metode for å velge lignende miRNA gjentatte ganger. Men våre simuleringer viser at metodikken i [26] bare velger 68% stabil miRNA, mens resten er følsom overfor den spesifikke sammensetning av pasientgruppen (se S30 Fig for en kvantifisering av hvor små endringer i dataene kan føre til en stor reduksjon i stabiliteten av identifiserte biomarkører).
Videre er dette og andre slike undersøkelser, ofte bruke en enkelt terskel av uttrykk data for å sammenligne overlevelseskurver, og gir resultater for kandidat mirnas for en krefttype ved en tid. Derfor har vi utviklet et robust utvalg algoritmen (RSA) som bruker en ikke-parametrisk statistisk felles analyse av pasientoverlevelsesdata og pasientspesifikke miRNA uttrykket nivåer for å kvantifisere den prognostiske verdien av hver miRNA. I motsetning til metoder som bruker en enkelt terskel for å sammenligne overlevelsesdata, eliminerer vår RSA bruk av enkelt terskel for Kaplan-Meier overlevelseskurve analyse, ved å velge fra et bredt utvalg av tidsavgrensninger fra uttrykk data ved hjelp av en rekke statistisk relevante cutoff-verdier. Dermed er resultatene av vår RSA ganske motstandsdyktig mot små tilfeldige forstyrrelser av pasienter gruppen.
Klinisk mirnas hvis uttrykk er knyttet til ulike handlinger gis ulik behandling. For eksempel er en miRNA som har høy ekspresjon korrelerte med lengre overlevelse (dvs. tumor suppressorer) behandles forskjellig fra en som har høy ekspresjon er korrelert med kortere overlevelse (dvs. oncomiRs). Derfor må vi først klassifisere hver miRNA som en GS miRNA (høy uttrykks god overlevelse) eller en PS miRNA (høy uttrykks dårlig overlevelse). Dette første klassifiseringen trinnet utføres ved først å beregne median overlevelse av alle tilgjengelige pasienter fra Kaplan-Meier overlevelsesestimater og deretter klassifisere mirnas som følger.
Ved hjelp TCGA data, må vi først beregne Kaplan-Meier-estimatene av den sensurert overlevelsestiden for pasientene i hvilken en miRNA uttrykkes. Vi bruker uttrykket histogramdata for å identifisere to pasientgrupper: pasienter med høyt miRNA uttrykk og pasienter med lav miRNA uttrykk. For hver miRNA,
m
j
, skiller vi pasienter i høy miRNA uttrykk eller lave miRNA uttrykk grupper som bruker en begrenset rutenett av cut-offs,
C
, som spenner fra 45% quantile til 60% quantile av fordelingen av de ekspresjonsnivåer i trinn på 1%. På hver slik cut-off
C
vi definerer
G
høy
= gruppe pasienter med høy miRNA uttrykket = gruppe der miRNA uttrykket er større enn (
C
4) quantile av uttrykk nivåer distribusjon
G
lav
= gruppe pasienter med lav miRNA uttrykket = gruppe hvor miRNA uttrykket er mindre enn
C
quantile av uttrykk nivåer distribusjon
de høye miRNA uttrykk og lav miRNA uttrykk gruppene er atskilt med en » nøytrale «gruppe hvor miRNA uttrykk nivåer er mellom
C
% og (
C
+4)%. Dette 4% margin kan økes uten å svekke analysen så lenge den høye miRNA uttrykk og lave miRNA uttrykk gruppene er forholdsvis stor.
For hver cutoff C%, vi separat beregne Kaplan-Meier-estimatene for overlevelse kurver for
G
høy Hotell og
G
lave
grupper. Den log-rank test brukes for å vurdere forskjellen mellom de to Kaplan-Meier overlevelseskurver, og en p-verdi
pval (C)
, er beregnet. Null hypotesen for log rank test er at de to overlevelseskurver er de samme. Den optimale cut-off
C%
for å skille pasienter i
G
høy
eller
G
lav
er valgt for å minimere
pval (C)
. La
q
j
være den optimale valgt cut-off for hver miRNA
m
j
. For hver miRNA
m
j
beregner vi median overlevelsestid for pasientene i den høye miRNA uttrykket gruppe (
Med
høy
) og for pasienter i lav miRNA uttrykket gruppe (
Med
lav
) ved optimal cut-off
QJ
. Vi deretter klassifisere miRNA i følgende to grupper:
Eksempler på denne type miRNA karakterisering er vist i figur B av S1 fil. For hver miRNA m
j tilhører GS eller PS grupper, den foregående beregningen også gi oss
j = pval (q
j
)
, som kvantifiserer betydningen av den potensielle koblingen mellom miRNA
m
j Hotell og pasient overlevelse. Kaplan-Meier overlevelses tomter for pasienter med de fem store kandidat mirnas av interesse på tvers av ulike krefttyper sammen med total overlevelse kurven for pasienter med at krefttype er vist i S27 og S28 fig.
Generering av Robust p- verdier
Vi har gjentatte ganger bemerkes at p-verdiene beregnet med den foregående metode kan være noe følsom for den spesifikke pasienten gruppe. For å eliminere denne følsomheten, vi innføre og bruke en innovativ resampling prosedyre for å generere
robuste p-verdier
. Fremgangsmåten som er beskrevet i det foregående avsnitt blir brukt til å bestemme hvorvidt miRNA uttrykk har en potensiell ikke-lineær signifikant sammenheng med overlevelse. For hver GS miRNA eller PS miRNA, innfører vi en tilfeldig resampling teknikk for å beregne en robust p-verdi
PV (M
j
)
, til erstatte den foregående p-verdi
pv (m
j
)
. For å gjennomføre denne resampling, for hver cut-off
C% Hotell og hver fast miRNA
m
j
, vi tilfeldig droppe 1% av pasientene fra hver av de to gruppene
G
høy Hotell og
G
lav
. og vi beregne Kaplan-Meier overlevelseskurver for disse to opprørt pasientgrupper.
Som ovenfor, må vi først beregne optimal cut-off som best skiller miRNA uttrykket fordeling basert på de forstyrrede Kaplan-Meier overlevelses tomter og deretter beregne p-verdi
pv (m)
eller overlevelse på dette optimal cut-off. For hver fast miRNA
m
j
, gjenta den randomiserte forstyrrelse prosessen 500 ganger genererer et sett med 500 virtuelle p-verdier
pv (m)
. For å definere en pålitelig øvre grense
PV (m
j
)
for det ukjente p-verdi
PVL (m
j
)
, setter vi
PV (m
j
)
å være lik 75
th persentil av de 500 virtuelle p-verdier. Vi kaller
PV (p
j
)
robust p-verdi
for miRNA
m
j
. Den mirnas
m
j
med betydelige robuste p-verdier
PV (m
j
)
deretter klassifisert som kandidat mirnas som er korrelert med god eller dårlig overlevelse, og gir dermed en liste over mirnas hvis differensial uttrykk er korrelert med enten gode eller dårlige overlevelses ganger. Den skjematiske av algoritmen er vist på figur S29.
For våre analyser, forkaste vi alle mirnas som har en gjennomsnittlig 0 uttrykk over pasientgruppen. I tillegg TCGA prøver kommentert som å ha ingen følger opp tid ble ikke inkludert i vår analyse.
krefttyper
For å identifisere kandidat mirnas hvis differensial uttrykk er sterkt knyttet til mer enn én type kreft, vi brukt vår RSA til flere kreftpasient datasett som er tilgjengelige i TCGA. Vi søkte vår RSA til datasett krefttyper representert med minst 400 prøver, og som matchet kliniske og miRNA uttrykket data var tilgjengelige, nemlig bryst (BRCA), eggstokkene (OVCA), hode og hals (HNSC), lunge (LUAD ), og nyre (KIRC) kreft. Numrene på passet prøver for hver av disse krefttypene er vist i S1 fig. Fordi brystkreft er en undertype-spesifikk sykdom, har vi også undersøkt brystkreft subtyper individuelt for å avgjøre om en bestemt subtype var ansvarlig for den sterke koblingen mellom differensial miRNA uttrykk og pasient overlevelse.
Validering
Martin
et al
. [27, 28] samlet matchet overlevelse og genuttrykk data fra seks forskjellige brystkreftpasient datasett og fant at sammenslåing dataene synergi berørte klassifisering ytelse og forbedret gen signatur stabilitet. Forfatterne brukte samlet datasett for å identifisere et gen uttrykk signatur sammenheng med pasientens overlevelse. Fordi vår RSA kan brukes til å analysere ikke bare miRNA uttrykket data, men også gen eller protein expression data, valgte vi dette datasettet for validering. Vi brukte dette datasettet (tilgjengelig gjennom Gene Expression Omnibus) for å validere resultatene av vår RSA identifisere mRNA korrelert med pasientens overlevelse. Vi søkte vår RSA til samlet datasett fra Martin et al. å identifisere gener som differensial uttrykk ble korrelert med pasientens overlevelse. I deres papir, identifisert de klynger av gener sterkt korrelert med god og dårlig overlevelse. Bruk av vår metode RSA til deres datasettet også identifisert en klynge av gener som har høy ekspresjon ble sterkt knyttet med god overlevelse og en annen klynge av gener som har høy uttrykk var knyttet til dårlig overlevelse. Videre har de to metodene ga en overlapping på 22 gener. En heatmap av de vanlige gener som indikerer deres korrelasjon med overlevelse vises i figur 1B.
Integrering Joint miRNA-mRNA uttrykk nivåer for å generere Funksjonelle Networks
For å identifisere de veier regulert av hver kandidat miRNA vår RSA valgt, samlet vi pasientspesifikke felles miRNA-mRNA uttrykk data fra TCGA og analysert dem til å generere miRNA-mRNA korrelasjons nettverk. Korrelasjoner ble beregnet ved hjelp av en multivariat lineær modell som står for mRNA uttrykk nivåvariasjoner forårsaket av DNA kopiantall endringer og arrangøren metylering på genet locus. Vi beregnet rangert lister over gener og tilhørende regresjonskoeffisientene som beskrevet tidligere [29]. For å redusere potensiell feiltolkning av dataene på grunn av stromal forurensning i prøvene fjernet vi gener assosiert med ekstracellulær matriks (S8 Fig). I stedet for å fokusere på enkelte gener som er sterkt korrelert med en gitt kandidat miRNA, brukte vi NetWalker [30], en programvarepakke som integrerer genuttrykk data og molekylære interaksjonsdata å score kjente interaksjoner, for å identifisere hele samhandlingsnettverk som var positivt eller negativt korrelert med kandidaten miRNA. Bruke miRNA-mRNA regresjonskoeffisienter som inngangsverdier for NetWalker beregnet vi kant flux verdier for de kjente molekylære interaksjoner, og vi brukte samhandling med de høyeste kanten flux verdier (topp 200 positive og 200 øverste negative interaksjoner) for å generere nettverkene. Den log2 av betaverdier vises for alle nettverkene.
Vi konstruerte miRNA-mRNA interaksjons nettverk for de fem mest robuste søker mirnas som var signifikant korrelert med overlevelses utfall i fire krefttyper (dvs. LUAD, HNSC , KIRC, og OVCA). Disse fem kandidat mirnas nettverk, som inkluderer gener som enten er positivt (gul) eller negativt (blå) korrelerte med høy miRNA uttrykket, er vist i S9-S29 fig. Å identifisere trasé potensielt regulert av disse fem kandidat mirnas tvers av ulike krefttyper, må vi først identifisert krefttyper der disse mirnas ble knyttet til samme prognose (dvs. enten god eller dårlig overlevelse) og deretter analysert de vanligste genet ontologi vilkår knyttet til nettverkene for disse kreftformene.
Resultater
Vi søkte vår RSA til TCGA pasientdata som inkluderer miRNA uttrykk nivåer og kliniske resultater. Etter forbehandling av data, som inkluderte homogenisering prosedyre, for å fjerne effekten av ulike plattformer for utvinning av miRNA uttrykk, må vi først beregnet en optimal terskel som ville best skille miRNA uttrykket nivåer når det gjelder overlevelse utfall beregnet ved hjelp av Kaplan-Meier metode og log-rank test. Vi deretter gruppert de mirnas i grupper, mirnas forbundet med god overlevelse (GS mirnas) og mirnas assosiert med dårlig overlevelse (PS mirnas), ved å sammenligne median total overlevelse i optimale grupper med median total overlevelse av hele befolkningen. Ved hjelp av intensiv tilfeldig utvalg, beregnet vi en robust p-verdi for hver kandidat miRNA å identifisere kandidat GS mirnas eller PS mirnas for hver krefttype.
Neste, vi preget de identifiserte kandidat mirnas av kromosom plassering og genomisk stabilitet og konstruert miRNA-mRNA funksjonelle nettverk. Ved å analysere samspillet mellom prognostiske miRNA markører og funksjonelle trasé som er involvert i kreft progresjon, bestemt vi de viktigste trasé disse miRNA prognostiske markører påvirke.
miRNA-sykdom Survival Network
For hver krefttype, nemlig , bryst (BRCA), eggstokkene (OVCA), hode og hals (HNSC), lunge (LUAD), og nyre (KIRC) kreft, identifiserte vi kandidat mirnas som differensial uttrykk var sterkt knyttet til pasientens overlevelse i flere krefttyper. De GS miRNA og PS miRNA kandidater for hvilke en betydelig robust p-verdi indikert en korrelasjon med overlevelse i minst 3 forskjellige krefttyper er vist i figur 2A. Vi definerte og konstruert miRNA-sykdom overlevelse nettverk som er kodet assosiasjoner mellom miRNA og krefttyper (Fig 2B). Ulike sirkler inneholde mirnas knyttet til prognosen i (fra venstre til høyre) en, to eller tre krefttyper. Under disse 3 sirkler, de mirnas signifikant sammenheng med prognosen i fire krefttyper er angitt. Siden vår første prioritet var å identifisere mål som er gyldige i flere krefttyper, valgte vi fem mirnas (MIR-24-1 *, MIR-30E, MIR-15b, MIR-485, og MIR-487b) som var sterkt knyttet til overlevelse (robust p-verdi ≤ 0,01) i flere krefttyper
(A) Kandidat mirnas fra RSA signifikant (robust p-verdi 0,01). korrelerte med god overlevelse eller dårlig overlevelse i minst 3 krefttyper . (B) miRNA-sykdom overlevelse nettverk. Sirklene angir mirnas sterkt knyttet til pasientens overlevelse på tvers av ulike krefttyper. Fra venstre: mirnas knyttet til prognosen i en krefttype, 2 krefttyper, og 3 typer kreft. Hvite rektanglene representerer krefttyper. Gule rektangler representerer miRNAs. Fargen på kanten mellom en miRNA og en krefttype, angir om miRNA er korrelert med god (blå) eller dårlig (oransje) prognose i en krefttype.
Kopier nummer Endringer
Hver kandidat miRNA sterkt knyttet til pasienten å overleve i minst 4 forskjellige krefttyper ble videre undersøkt i form av sin kromosom plassering og uttrykk mønster hos pasienter. De GISTIC score i kopitall endringer for hver av de kromosom plasseringen av disse mirnas i hver krefttype ble hentet fra cBio data portal og er vist i figur 3A. MIR-485 og MIR-487b, som ligger svært nær hverandre på kromosom 14, har lignende avtaler med prognosen i ulike krefttyper og har lignende eksemplar nummer endringer på tvers av disse krefttypene (figur 3A). MIR-15b er sterkt knyttet med god overlevelse i HNSC og OVCA og viser tilsvarende eksemplar nummer gevinster i disse kreftformene. En gevinst i kopiantall på et gitt kromosom plassering skulle tilsi økt uttrykk av den aktuelle miRNA. For hver valgt miRNA, mønstre av dens uttrykk nivåer hos normale og tumorvev er lik de tilsvarende profiler av kopitall endringer (figur 3B). (Vi kunne ikke gjøre en tilsvarende sammenligning i OVCA, som vi ikke har data for normale vevsprøver.)
(A) Ytterligere karakterisering av 5 sterk kandidat mirnas i form av kopi nummer variasjon og uttrykk. De GISTIC identifiserte kopitall forandringer på hver av kromosomet loci for de mirnas i forskjellige krefttyper blir vist. «GS» eller «PS» inni hver sirkel indikerer link med god (blå) eller dårlig (oransje) prognose. (B) Ekspresjon i tumor og normalt vev for hver av de sterk kandidat miRNA. For OVCA, normalt vev data ikke var tilgjengelig.
Vi beregnet også sammenhengen mellom kopi nummer forandringer på kromosom plasseringen av hver kandidat miRNA og endringene i metylering nivåer for hver krefttype individuelt og for alle 5 krefttyper kombinert (S2-S6 Fiken). Vi fant signifikant korrelasjon mellom miRNA uttrykk og kopi nummer variasjon på disse loci og mellom miRNA uttrykk og metylering nivåer i de aktuelle krefttyper. Når vi analyserte samlede data fra de 5 krefttyper, har vi fortsatt ikke observert signifikante sammenhenger mellom miRNA uttrykk og kopiere nummer variasjon og metylering nivåer.