Abstract
Innledning
Advances in high-throughput teknologier har generert ulike informative molekylære markører for kreft utfallet prediksjon. Long ikke-kodende RNA (lncRNA) og DNA metylering som nye klasser av lovende markører dukker opp som viktige molekyler i kreft hos mennesker; men er fortsatt den prognostiske nytten av et slikt mangfoldig molekylære data for å bli utforsket.
Materialer og metoder
Vi foreslo en beregnings rørledning (IDFO) for å forutsi pasientens overlevelse ved å identifisere prognoserelaterte biomarkører ved hjelp av multi -type molekylære data (mRNA, mikroRNA, metylering DNA, og lncRNA) fra 3198 prøver av fem krefttyper. Vi vurderte prediktiv ytelsen til både enkelt molekylære data og integrerte multi-type molekylære data i pasientoverlevelse lagdeling, og sammenlignet deres relative betydning i hver type kreft, henholdsvis. Survival analyse ved hjelp av multivariat Cox regresjon ble utført for å undersøke virkningen av IDFO-identifiserte markører og tradisjonelle variabler på klinisk utfall.
Resultater
Bruke IDFO tilnærming, fikk vi god prediktiv ytelse av molekylære datasett (bootstrap nøyaktighet: 0,71 til 0,97) i fem krefttyper. Imponerende, lncRNA ble identifisert som den beste prognostisk prediktor i de validerte kullene av fire krefttyper, etterfulgt av DNA-metylering, mRNA, og deretter mikroRNA. Vi fant innlemme av multi-type molekylære data viser en tilsvarende logisk strøm til enkelt-type molekylære data, men med unntak av de lncRNA + DNA-metylering kombinasjoner i to kreft. Survival analyse av proporsjonale fare modeller bekreftet en høy robusthet for lncRNA og DNA metylering som prognosefaktorer uavhengig av tradisjonelle kliniske variabler.
Konklusjon
Vår studie gir innsikt i systematisk forstå prognostisk utførelsen av diverse molekylær data i både single og aggregerte mønstre, som kan ha spesifikk referanse til påfølgende relaterte studier
Citation:. Xu L, Ji L, Changning L, Liangcai Z, Yinghui L, Yu L, et al. (2015) Sammenligning av prognostisk Utility av Diverse molekylære data blant lncRNA, DNA metylering mikroRNA, og mRNA over fem kreft hos mennesker. PLoS ONE 10 (11): e0142433. doi: 10,1371 /journal.pone.0142433
Redaktør: Rossella Rota, Ospedale Pediatrico Bambino Gesu «, ITALIA
mottatt: 9 juli 2015; Godkjent: 21 oktober 2015; Publisert: 25.11.2015
Copyright: © 2015 Xu et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: Dataene er pasientdata. På grunn av etiske begrensninger, data er tilgjengelige fra Kreft Genome Atlas (TCGA) Portal for forskere som oppfyller kriteriene for å få tilgang til konfidensielle data. Https://tcga-data.nci.nih.gov/tcga/
finansiering:. forfatterne har ingen støtte eller finansiering for å rapportere
konkurrerende interesser:. forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Kreft prognose prediksjon er avgjørende for å kontrollere lidelse, progresjon og død av pasientene. Nøyaktig resultat prediksjon kan brukes klinisk til å velge den beste av flere tilgjengelige behandlinger for kreftpasienter og forbedre sine sjanser til å overleve [1, 2]. Tradisjonelt er prognose basert på klinisk patologiske parametere som tumorstadium, metastase, og patologisk diagnose alder [3]. Nylig har en rekke særegne molekylære biomarkører er kartlagt og anvendt for å få tilgang til det kliniske resultatet av pasientene, slik som protein-baserte (fosforylering tilstander, celleoverflate-reseptorer), DNA-baserte (SNP, CNV), og den RNA-baserte ( mRNA, mikroRNA, ncRNA) [4-7]. I tillegg er det økende bevis som tyder på at lange ikke-kodende RNA (lncRNA) og DNA metylering kan megle onkogene eller kreft undertrykkende utfall, som representerer nye klasser av lovende biomarkører [5]. Men de fleste studier fokuserer på enten en enkelt kreft avstamning eller på individuelle plattform data, mens en omfattende sammenligning for å bestemme den relative prognostisk effekt for hver klasse av molekyler for en bestemt kreft ville ideelt sett tilveiebringe en mer effektiv diagnostisk plattform. Dette vil også tillate vurdering av hvorvidt rettet mot felles biomarkører ville gi bedre kontroll av kreft [2]. Til tross for den økende tilgjengeligheten av data som beskriver disse ulike molekyler, tidligere studier eller tilgjengelige rammer /rørledninger har ikke undersøkt disse spørsmålene.
Strategier som RT-PCR og immunhistokjemi har undersøkt et betydelig antall av biomarkører for prognose [8- 10]. Imidlertid ble de fleste av biomarkører funnet av «kvalifiserte gjetninger» i stedet for
via
en systematisk, genom-wide tilnærming. I tillegg er bare noen få har vært brukt i en klinisk setting og nytten av de fleste av disse våt-lab-baserte markører gjenstår å fastslå [4]. Flere nylig, ved hjelp av high-throughput profiler, beregningsorientert tilnærminger som maskin-læring tilnærminger [11-16] og ulike levetidsmodeller [17-19] blir brukt til å identifisere kandidat biomarkører med prognostiske verdier for sykdom. Selv om disse metoder har akkumulert store mengder av molekyl signaturer med akseptabel nøyaktighet, har lite systematisk forskning blitt utført for å bestemme den prognostiske kraft av ulike molekylære signaturer og deres relative betydning. Dette er fordi de fleste studier lider av en eller flere av følgende fire oppgaver: (i) mangel av molekyl profiler, (ii) begrenset til én kreft avstamning, (iii) underutviklede strategier for å utforske optimale prediktorene i form av høy dimensjonsdata og tumor heterogenitet. Likevel, The Cancer Genome Atlas (TCGA) prosjekt samles store mengder av genomisk data ble funnet å øke forståelsen av de kliniske patologi av ulike molekylære plattformer i kreft hos mennesker [20-23], som ville hjelpe oversettelse av biologiske data til prognostisk verktøy.
i denne studien har vi implementert en rørledning for å identifisere prognoserelaterte biomarkører i multi-Omic profiler inkludert RNA-seq, DNA metylering Bead chip, og mikroRNA-seq og sammenlignet deres relative prognostisk makt i fem TCGA kreft . Under modellering prosessen ble biomarkører avgjørende for klinisk utfall rangert og valgt å bruke vår iterativ Sletting Feature Optimal (IDFO) tilnærming. Videre vurderes vi prediktive verktøy for både individ og integrert multi-Omic prediktorer for å undersøke deres bidrag til å modellere ytelse, og prediktiv kraft av ulike molekylære prediktorer i respektive kreft ble videre undersøkt i uavhengige testsett. Overlevelsesanalyse ble anvendt for å bestemme den prognostiske nytten av IDFO-identifiserte prediktorene alene eller i kombinasjon med kliniske variabler. Videre, for å forenkle bruken av vår tilnærming, vi også gjennomført en offentlig tilgjengelig R kildekoden (CAPM.R), som tillater forskere å bygge prognosemodeller for andre datasett. Vår undersøkelse gir et dynamisk risikovurdering system for kreftprognose forutsigelse, som ikke bare viser den prognostiske nytten av fler omic data på tvers av krefttyper, men også forenkler forståelsen av lncRNA og DNA-metylering som potensielle prognostiske markører på tumorprogresjon.
Materialer og metoder
Datasett
Vi monterte 3198 offentlig tilgjengelige tumorprøver i arraybaserte data mellom fem typer kreft fra Kreft Genome Atlas (TCGA) prosjektet, som har blitt publisert i [20, 24-27] (tabell A i S1 File beskriver detaljerte eksempler på distribusjoner). Alle tumorprøver ble valgt basert på følgende kriterier: (a) signaturer (mRNA /lncRNA /mikroRNA transkripsjoner, DNA metylering prober) fraværende i 50% av tumorprøver ble fjernet som irrelevant, (b) prøver med matchet klinisk informasjon ( f.eks, overlevelse, alder, tumorstadium), (c) kreftpasienter med bare opp til en måned overlevelse etter operasjonen ble ekskludert for å unngå eventuelle konfunderende påvirkning av postoperative komplikasjoner. De fleste av tumorprøver var sammensatt av tre ulike molekylære profilering datasett, som var RNA-seq, mikroRNA-seq, og DNA metylering Bead chip. Fire typer molekylære signaturer ble hentet som prognose prediktorer fra de tre molekylære data profiler, inkludert lncRNA og mRNA signaturer fra RNA-seq profiler, DNA metylering underskrifter var fra DNA metylering Bead ChIP 450 k /27k, og mikroRNA underskrifter var fra microRNA- seq profiler. For hver molekylære data profil, vi tilfeldig valgt to tredjedel av kreftprøver for å konstruere (dvs. «tog») prediksjonsmodeller for å identifisere de beste ytelse prediktorer, og den siste tredjedelen av prøvene ble benyttet for en uavhengig test av disse prediktorer. Datasett som svarer til ulike kreftformer ble analysert separat. Videre, for å forutsi utfallet av pasienter, ble tumorprøver tildelt enten en «god» eller «dårlig» utfallet grupper som prognose etiketter. Terskelen for to utfallet grupper ble definert på grunnlag av klinisk karakterisering av respektive kreft (som har fordelen av givende to utfallet grupper med lik størrelse i hvert kreft).
dikotomisering av overlevelse data
Vi dikotomisert de sensurerte overlevelsesdata for hver type kreft ved å tildele en terskel tid cutoff som: 2 år for pasienter med tykktarms adenokarsinom (coad), 3 år for lunge plateepitelkarsinom (LUSC), serøs cystadeno karsinom (OV), livmoren endometrioid karsinom (UCEC), og 5 år for brystkreft invasivt karsinom (BRCA). Pasientene som levde utover tiden cutoff ble merket som «god prognose «avdøde ble stemplet som» dårlig prognose «. Pasienter med sensurerte overlevelses tider som var før terskelen cutoff ble ekskludert (f.eks mindre enn en måned)
Pre-prosessering av genomisk og epigenome profiler
RNA-seq. TCGA RNA-seq nivå 2 data ble normalisert og behandles ved å beregne leser per kilo basen per million kartlagt leser (RPKM) verdi for uttrykket av lncRNA /mRNA transkripter. For å matche den sammensatte transkripsjoner til detaljerte lncRNAs /mRNA ble alle utskrifter justert til Human Genome av referanseliste fra UCSC (GRCh37 /hg19), mens utskrifter med halvparten av sin lengde med i en lncRNA /mRNA ble identifisert som en kamp [28]
mikroRNA-seq. mikroRNA uttrykk nivåer ble analysert
via
TCGA mikroRNA sekvense nivå 3 data (Illumina Genome Analyzer Hiseq 2000). De beregnede uttrykk for transkripsjoner samkjøre til en bestemt miRNA ble hentet fra både miRNA isoform og kvantifisering filer (tilgjengelig på TCGA data portal sammen med metafiler kommentere hver datasettet) [29]
DNA Metylering Bead Chip:. Den DNA-metylering datasett i de fleste kreft kohorter er sammensatt av Illumina 450K og /eller 27k array-plattformer. Følgelig valgte vi de overlapper CPGs (målt med infinium type II-analyse) som var til stede på begge de to plattformene (infinium 450K og 27K) og hadde ikke mer enn 10% manglende verdier på tvers av alle prøvene i hver type kreft, henholdsvis .
Signatur evalueringsmetodologi: IDFO
IDFO tilnærmingen var sammensatt av tre grunnleggende prosedyrer (fig 1):
Prognose Risk prioritering (PRP) klassifisering. Det var et stort antall kandidat variabler innenfor de ulike molekylære profiler, som vil koste enorme beregningen under trening modell. For å overvinne denne «dimensjon forbannelse», har vi utviklet denne pre-biomarkør ranking strategi: prognose Risk Prioritering (PRP) for å sile ut de mest representative prognostiske variabler som opprinnelig modelltreningsfunksjoner for hver molekylær profil, henholdsvis. I denne prosessen, utforsket vi to trinn:
en beregning av for å trekke ut forskjellig uttrykt /denaturert signaturer
x
i
mellom de to utfallsgruppene. Som formelen, (1) Her var gjennomsnittlig uttrykk /metylering verdien av signatur
x
i
i en
st-gruppe, og var den gjennomsnittlige uttrykk /metylering verdi av
x
i
i 2
ed gruppe,
σ
var standardavviket to respektive gruppe, 1 = gruppe en, 2 = gruppe to.
P
unicox
, en beregning av univariate Cox
p
verdi av molekylær signatur
x
i
, som brukte uttrykket /metylering verdier av
x
i
som variabel for en univariat Cox regresjon overlevelsesanalyse.
til slutt,
PRP
risikoverdi
tegningen
x
i
ble beregnet som bruker denne formelen, (2) hvor stammer fra Eq 1.
Modellbygging. For grundig evaluering av prognostisk evne til multi-plattform molekyler til respektive krefttyper, vi utnyttet 5 maskinlæringsmodeller i kombinasjon med 4-funksjonen utvinning strategier for å etablere en forestilling rørledning. To andre tiltak ble brukt: modellbygging og funksjonsvalg. Fem maskinlæring algoritmer (se i supplerende metoder i S1 File) ble foreslått i modellbygging, som er støtte vektor maskin (SVM), k-nærmeste naboer (KNN), logistisk regresjon (LR), tilfeldig skogen (RF) og NaiveBayes ( NB). Ytelsen til hver klassifikator ble evaluert ved hjelp av 632-Bootstrap metode, ved hjelp av denne formelen, (3) Dersom
n
var det totale antall repetisjoner, og var på
i
th
eksperiment tog nøyaktighet og test nøyaktighet. Her delte vi to tredeler prøver for opplæring og ett tredeler prøver for testing, som begge ble hentet fra den opprinnelige treningssett.
Feature utvalg. I denne prosedyren, foreslo vi fire funksjonen utvinning strategier, nemlig som SVM-RFE, RF-IS, LASSO og PFS (supplerende metoder i S1 File) for å finne den optimale sett av funksjoner grundig. Funksjonen Utvelgelsesprosedyren startet med PRP algoritmen rangeres n-top-vektet funksjoner (for detaljerte tall se Utfyllende Metoder og Figur A i S1 Fil) og deretter gjentatte eliminert et nummer eller en brøkdel av de minst viktige /viktige funksjoner fastsettes basert på respektive utvinning strategier inntil den høyeste bootstrap nøyaktighet ble oppnådd. Under funksjonen optimaliseringsprosess, ble en gjennomsnittlig nøyaktighet på 10.000 ganger tilfeldig re-sampling med erstatning beregnet som anslaget nøyaktighet for hver iterative utvalgte har sett. For å evaluere stabiliteten av PRP funksjonen rekker, ble en Monte Carlo-simulering ved å bruke R pakke GMCT [30] også utføres ved tilfeldig å velge tilsvarende antall funksjoner for de respektive molekylære modellene i hver tumor. Til slutt ble den høyeste bootstrap-modellen identifisert som den beste prognosen modellen og dens screenet ut egenskaper ble deretter testet i testsett for uavhengig validering. Modellen konstruksjon, ble statistisk analyse og grafer utført ved hjelp Bioconductor (www.bioconductor.org)
Dette flytskjemaet inneholder tre grunnleggende trinn:. (I) PRP rangeringen av molekylære egenskaper, (ii) modell konstruksjon og (iii) funksjon optimalisering og validering.
statistikker
Student
t
tester ble brukt for å sammenligne differensial uttrykt signaturer (mRNA, lncRNAs, DNA metylering, og microRNAs) blant to risikogrupper. Den Wilcoxon signert rank test ble vedtatt å vurdere statistisk signifikans for å overleve fordelingen av de to prognosegrupper klassifisert etter MCPHR modeller, per denne formelen, (4) Dersom
S
1 og
S
2 var frekvensen av overlevende i to risikogrupper,
V
1 og
V
2 var variansen
S
1 og
S
2.
likelihoods ratio test ble brukt for å sammenligne anfall av to modeller (f.eks IDFO Predictor modeller med og uten tilleggsvariabler) som var basert på å beregne sannsynligheten forholdstall. Sannsynligheten funksjonen ble beregnet ved hjelp av denne formelen, (5) der
S product: (
t
i
) var overlevelsesfunksjonen som viste hvor stor andel av
i
th
pasienten i live på tidspunktet
t
; Tetthetsfunksjonen
f product: (
t
i
) var sannsynligheten for å dø i den lille tidsintervall
t
;
w
i
ble vektet middel overlevelse beregnes ut fra, der
V
i
var variansen til overlevelse ;
n
var det totale antallet pasienter i respektive kohorter. Kaplan-Meier analyse og log-rank sannsynligheten modeller ble brukt til å teste for forskjeller i overlevelse og Kaplan-Meier-kurver ble trukket basert på medianen risikoscore.
p
verdier i alle statistiske tester mindre enn 0,05 ble betraktet som signifikant. De ovennevnte statistiske analysene ble utført ved hjelp av R-pakkene. «Survival» og «survcomp «
multivariat Cox proporsjonal Hazard Regresjon
Den multivariate Cox proporsjonale hazard regresjonsmodell, som den mest populære matematisk modellering tilnærming ble brukt for å estimere fareforhold, relativ risiko, som tilsvarer 95% konfidensintervall (KI) og overlevelseskurver ved å bruke flere /flere forklaringsvariable (molekylære og /eller kliniske variabler). Som et eksempel, ble en parametrisk modell basert på eksponentialfordelingen ved hjelp av denne formelen, (6) Dersom
h product: (
t
) var fare funksjonen,
x
1,
x
2
… x
k
var kovariatene, og
β
1,
β
2
…
,
β
k
var koeffisientene respektive kovariater der,
β 0
representerte kovariat risikofaktor forbundet med «dårlig prognose «på den motsatte,
β 0
indikerte kovariat beskyttede faktor forbindelse med» god prognose «. Den konstante
α
i denne modellen representerte en log-baseline fare, siden log
h product: (
t
) =
α
eller
h product: (
t
) =
exp product: (
α
) når alle
x
verdier var null.
Risiko score
.
R product: (
t
) ble beregnet for den prognostiske risikoen for hver enkelt pasient, og definert som en lineær kombinasjon av Predictor variablene vektet med sine respektive Cox regresjonskoeffisienter, og beregnes ved hjelp av denne formelen, ( 7) Hvor
R product: (
t
) var risikoen score på pasienten
t
,
h product: (
t
) var faren verdi beregnet av multivariat Cox regresjonsmodell (utledet av likning 6)
R koder:. CAPM
for å tillate brukere å benytte vår bygget rørledning til andre datasett, vi gjennomført en offentlig tilgjengelig R kildekoden (CAPM.r) for å utføre kreft prognose anslag, som er fritt tilgjengelig på https://www.escience.cn/people/lixu/index.html.
Resultater
Evaluering av prognostisk ytelsen av ulike molekylære data
Flytskjemaet med vår studie er vist i figur 2. Vi samlet 3198 offentlig tilgjengelige tumorprøver i arraybaserte data mellom fem TCGA krefttyper: bryst invasivt karsinom ( BRCA) [26], colon adenokarsinom (coad) [27], lunge plateepitelkarsinom (LUSC) [25], livmoren endometrioid karsinom (UCEC) [31] og serøs cystadeno karsinom (OV) [24]. De fem krefttyper ble valgt fordi deres TCGA kohorter inkludert tilstrekkelige prøver med flere typer molekylære data og klinisk informasjon (tabell A i S1-fil). Hver type kreft var sammensatt av fire molekylære dataprofiler, inkludert (i) lncRNA: Illumina HiSeq 2000 RNA sekvense V2; (Ii) mRNA: Illumina HiSeq 2000 RNA sekvense V2; (Iii) DNA metylering: Illumina infinium Menneskelig DNA Metylering 27K, 450 k; (Iv): mikroRNA: Illumina Genome Analyzer /HiSeq 2000 mikroRNA sekvense plattform. For å grundig evaluere prediktiv kraft av de fire typer av molekylære signaturer til sine respektive kreft, bygget vi en gruppe på 5 klassifikasjonsapparater (SVM [32], KNN [33], NaiveBayes [34], RandomForest [35], multinomisk logis regresjon [14]) i kombinasjon med fire har utvinningsstrategier: Den Minst Absolute Svinn og utvelgelse Operator (LASSO) [36], Support Vector Machine basert Recursive feature Elimination (SVM-RFE) [37], Random Forest betydning spektrum basert funksjon utvalg (RF-IS) [38], og prioritering-eliminert funksjonsvalg (PFS) (supplerende metoder i S1 File) for å bygge en prognose beregnings rørledning som navngitt som iterativ Sletting feature Optimization metode (IDFO, se Metoder og figur 1).
Denne rørledningen inneholder fire hovedsakelig prosedyrer: I) Databehandling. Vi satt sammen en samling av 3198 tumorprøver i fem typer kreft hos mennesker, som består av fire typer molekylære data inkludert: lncRNA, mikroRNA, mRNA og DNA metylering. Hver type molekylære data i respektive kreft ble behandlet i utvalg basert matrise ved hjelp av CAPM forbehandlet metoder. II) Feature rangering. Molekylære egenskaper i forbindelse med prognosen ble analysert og sortert i henhold til den PRP-algoritmen. For hver type molekylære data, valgte vi topp vektet 100 underskrifter som de første har sett i hver av de fem kreftformer, henholdsvis. III) Modellbygging og funksjonsvalg. I denne prosessen har vi tatt fem classifiers i kombinasjon med fire funksjon utvalg algoritmer for å etablere prognosen prediksjon baseline. Under funksjonen utvelgelsesprosessen, ble hver gruppe av funksjoner trent med 10.000 ganger randomisering og de beste resultater funksjonen panel med høyest bootstrap nøyaktighet ble valgt for hver molekylære data per kreft. IV) Validering. For å evaluere prediktiv kraft av hver molekylære data, ble de beste resultater funksjonene ytterligere påføres uavhengig test i hver kreft kohorter, henholdsvis.
I løpet av funksjonen optimalisering prosessen, classifiers for hver molekylære data var innledning opplært av Prognose Risk prioritering algoritme (PRP, se Methods) rangert funksjoner og deretter iterativt eliminert et nummer eller en brøkdel av de minst viktige /viktige funksjoner som ble fastsatt av fire har utvinning strategier før ble observert optimal panel av funksjoner. For å evaluere stabiliteten av PRP-metoden, ble en Monte Carlo-simulering (MCS) også utført for å velge like store funksjoner som tilfeldig validering for de respektive profilene i hver tumor. En klassifiserings med den høyeste nøyaktighet bootstrap [39] ble identifisert som den optimale modell og de beste ytelses prediktorene ble deretter testet i uavhengige testkullene. Modell forestillinger av hver molekylære data ( «tog») i kombinasjon med respektive funksjonsvalgstrategier er uthevet i figur 3a-3e. Vi observerte at 1) de bootstrap nøyaktighet på alle classifiers varierte 0,71 til 0,97 (tabell B i S1 File), som indikerte gode prestasjoner av IDFO tilnærming for flere krefttyper; 2) PrP rangert funksjonen sett resultert i betydelig forbedret nøyaktighet sammenlignet med tilfeldig utvalgte MCS har sett (gjennomsnittlig nøyaktighet: PRP = 0,81, MCS = 0,59, ensidig Wilcoxon signert rank test:
P
1.12e -5); 3), og det var ingen synlig forskjell mellom klasse algoritmer med hensyn til svulster, og resultatene av ulike molekylære signaturer ikke variere betydelig over kreft, bekrefter en svært robust av genomisk og epigenetiske data i prognose prediksjon; 4) av alle 20 optimale prognostiske modeller (5 kreft * 4 molekylære datasett), 12 ut av 20 (60%) ble oppnådd ved den PFS algoritmen, etterfulgt av LASSO (30%) og SVM-RFE (10%), hvilken indikerte at vår nye funksjon utvalg tilnærming foreslås hadde god ytelse lik tradisjonelle metoder (tabell B i S1 File). Deretter å sammenligne den prediktive resultatene av de fire typene molekylære signaturer med en objektiv validering, søkte vi den beste prognosen prediktorer fra hver opplæringsmodell til en uavhengig testsett. Spesielt, som vist i figur 3f, de lncRNA signaturer illustrert den beste ytelsen i fire krefttyper: BRCA (testsett nøyaktighet: 0,78,
N
test satt
= 159), coad (testsett nøyaktighet: 0,85,
N
test satt
= 48), LUSC (testsett nøyaktighet: 0,77,
N
test sett
= 56), og OV (testsett nøyaktighet: 0.79,
N
test satt
= 75). DNA metylering var den nest beste prediktor for BRCA (testsettet nøyaktighet: 0.76,
N
test satt
= 73), coad (testsett nøyaktighet: 0.79,
N
test sett
= 67), LUSC (testsett nøyaktighet: 0,77,
N
test satt
= 42), eggstokkreft (testsett nøyaktighet: 0,7,
N
test sett
= 146), og den tredje beste prediktorer i UCEC (testsett nøyaktighet: 0,8,
N
test sett
= 81). mRNA og mikroRNA som tradisjonelle kliniske baseline markører, ble rangert lavere enn våre første forventninger. mRNA var den tredje beste prediktorer i BRCA (testsett nøyaktighet: 0.64,
N
test satt
= 159), coad (testsett nøyaktighet: 0.64,
N
test sett
= 48), LUSC (testsett nøyaktighet: 0.76,
N
test satt
= 56) og OV (test satt nøyaktighet: 0,6,
N
test sett
= 75). MikroRNA data resulterte i dårligere prediktiv kraft sammenlignet med alle andre datatyper. I tillegg, på grunn av den bemerkelsesverdige resultatene av lncRNAs i pasientoverlevelse lagdeling, vi videre utført litteratur gjenfinning for å undersøke muligheten for noen bevis for sammenhengen mellom IDFO-screenet lncRNAs og prognose progresjon. Av alle 157 optimale lncRNA prediktorer i fem kreft (21 i BRCA, 36 i coad, 33 i LUSC, 41 i OV, 37 i UCEC), hadde 22 lncRNAs tidligere blitt rapportert i litteraturen (Tabell F og Figur B i S1 File). Disse resultatene antydet at vår tilnærming potensielt kan identifisere trustable prognose knyttet lncRNAs, og vi hevdet nylig identifiserte lncRNAs, enten isolert eller som sammensatte markører, kan være avgjørende for klinisk praksis.
(AE) Beste prediktive modeller av hvert molekylære data for fem kreft hos mennesker på tvers av ulike trekk utvalgsstrategier (søyler indikert har utvalgsstrategier: lasso, PFS, SVM-RFE, RF-IS, og MCS, rader angitt molekylære signaturer), (F) Test sett nøyaktighet på fire typer molekylær signaturer i fem TCGA kreft (rader indikert molekylære datatyper, søyler indikert krefttyper). For å skille resultatene mellom trening og testing, vi utnyttet blå-fargede elementer for treningsresultatene (fig 3A-3E) og rød-fargede elementer for testing resultater. * BRCA = bryst invasive carcinoma; Coad = colon adenokarsinom; LUSC = Lung plateepitelkarsinom; UCEC = livmoren endometrioid Carcinoma; OV = Serous cystadenocarcinoma.
Integrering av multi-Omic biomarkører til prognose prediksjon
Nyere studier antydet de integrerte multi-Omic signaturer kan effektivt forbedre modellen ytelse [28, 40]. For å undersøke om en slik hypotese var hensiktsmessig å dikotomisert total overlevelse prediksjon, vi utvidet vårt IDFO tilnærming for å undersøke resultatene av integrerende modellering av multi-type molekylære data i fem kreft. Som integrerende modeller krever prøvene ikke bare består av multi-Omic profiler, men også de som oppfyller de prognostiske kriterier, observerte vi en endelig av 20 integrerte multi-Omic datagruppene i de fem krefttyper, inkludert 15 dobbeltkombinasjons grupper og 5 trippel -combination grupper (se tabell C i S1-fil). Da det var et tilstrekkelig antall mikroRNA-seq prøver overlappende med de tre andre molekylære profiler ble mikroRNA signaturer ekskludert i integrert modellering analyse. Tabell C i S1 File listet opp de prediktive nøyaktig ( «test») av de 20 integrerte modeller. I sum, fikk 80% av de integrerte multi-Omic datakombinasjoner ikke viser signifikant forbedret prediktiv kraft i forhold til sine individuelle molekylære data (figur 4A-4C), med unntak av lncRNA + DNA metylering modeller i to krefttyper OV og UCEC (Fig 4D og 4E) (OV: ensidig Wilcoxon signert rank test, DNA methyl + lncRNA
vs
DNA methyl:.
P
1,2E-4, DNA methyl + lncRNA
vs
lncRNA:
P
4.7e-3; UCEC. DNA methyl + lncRNA
vs
DNA methyl:.
P
1.7e-4, DNA metyl + lncRNA
vs
lncRNA:
P
8.2e-5).. Dessuten, med økningen av molekylære typer, utførelsen av trippelkombinasjonen grupper var i samsvar med det gjennomsnittlige nivået på de enkelt-type molekylære modeller med begrensede forstyrrelser i alle fem krefttyper. Derfor er de fleste av integrerte multi-Omic datamodeller viste lignende prediktiv kraft med sine respektive individuelle molekylære datamodeller, noe som tyder på informasjonsinnholdet av integrerte multi-plattform data kan i stor grad være overflødig i forhold til pasientens overlevelse lagdeling. Lignende resultater ble også observert i en fersk brystkreft modellering behandlingsstudie [1].
(A) BRCA (N
lapper
= 178), (B) coad (N
lapper
= 161), (C) LUSC (N
lapper
= 97), (D) OV (N
lapper
= 145), (E) UCEC (N
lapper
= 84). For de respektive modellene i hver type kreft, vi utførte 10.000 ganger av tilfeldig splitting med 2/3 trening og 1/3 testing med IDFO rørledning. Den stiplede røde boksen indikerte betydelig forbedret ytelse av to integrerte modellene i (D) OV og (E) UCEC sammenlignet med individuelle data type modeller (tosidig Wilcoxon signert rank test,
P
0,01); den stiplede blå boksen angitte tre individuelle data type modeller av mr, LNR og meth. Den integrerte gruppen er sammensatt av både dobbel-kombinasjon og trippel-kombinasjon molekylære signaturmodeller. Individuell gruppen inneholdt de tre individuelle molekylære data type modeller. Den grå linjen over syv boksene viser prediktive mønstre av integrerte grupper og enkeltgrupper. N
lapper
er antall overlapp prøven skjedde i alle tre molekylProfilene (mRNA, lncRNA og DNA-metylering), lnr = lncRNA, mr = mRNA, meth = DNA-metylering, mr + = lnr mRNA + lncRNA, mr + meth = mRNA + DNA metylering, LNR + meth = lncRNA + DNA metylering, mr + LNR + meth = mRNA + lncRNA + DNA metylering
Survival analyse. validering av IDFO prediktorer på sensurerte overlevelsesdata
i tillegg til å undersøke sammenhengen mellom IDFO prediktorer og klinisk resultat i BRCA, coad, LUSC, UCEC og OV, vi utsettes de beste prediktorer for respektive dataprofiler til multivariat Cox proporsjonal hazard regresjon ( MCPHR) analyse [41] for å evaluere korrelasjonen av IDFO-prediktorer med prognose risiko og undersøke deres kliniske verktøy.