Abstract
For å identifisere de transkripsjons regulatoriske endringer som er mest utbredt i solide tumorer, utførte vi en pan-kreft analyse ved hjelp av over 600 par av svulster og tilstøtende normalt vev profilerte i Kreft Genome Atlas (TCGA). Frekvens av oppregulering ble beregnet over mRNA uttrykk nivåer, mikroRNA uttrykk nivåer og CpG metylering nettsteder og gjengis her som en ressurs. Hyppige tumorassosierte endringer ble identifisert ved hjelp av en enkel statistisk tilnærming. Mange av de identifiserte endringer var i samsvar med den økte frekvensen av celledeling i kreft, for eksempel overekspresjon av cellesyklus-gener og hypermethylation av PRC2 bindingssteder. Men vi har også identifisert spredning uavhengige endringer, som synliggjør nye veier avgjørende for tumordannelse. Nesten alle GABA reseptorer ofte nedregulert, med genet som koder for delta-subenheten (GABRD) sterkt oppregulert som det unntak. Metabolske gener er også ofte nedregulert, spesielt alkohol-dehydrogenase og andre forenlige med redusert rolle oksidativ fosforylering i kreftceller. Endringer i sammensetningen av GABA reseptorer og stoffskifte kan spille en nøkkelrolle i differensiering av kreftceller, uavhengig av spredning
Citation. Gross AM, Kreisberg JF, Ideker T (2015) Analyse av matchede Tumor og Normal profiler avslører Common transkripsjons- og epigenetiske Signaler deles på tvers av krefttyper. PLoS ONE 10 (11): e0142618. doi: 10,1371 /journal.pone.0142618
Redaktør: Jindan Yu, Northwestern University, USA
mottatt: 02.09.2015; Godkjent: 23 oktober 2015; Publisert: 10.11.2015
Copyright: © 2015 Gross et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: Alle data er fås hos Broad Firehose-portalen (https://gdac.broadinstitute.org/). Vi brukte data fra 2. april 2015 standard data kjøres i denne analysen. Ytterligere data ble tatt fra en alternativ behandling rørledning, offentlig tilgjengelig i Gene Expression Omnibus ved tiltredelsen GSE62944
Finansiering:. Dette arbeidet ble støttet av det amerikanske National Institute of General Medical Sciences, Grant # P50 GM085764 til TI og JFK og det amerikanske National Institute of General Medical Sciences, Grant # P41 GM103504-04 til TI. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Kreftceller celler~~POS=HEADCOMP er preget av mange endringer i genomet, epigenome, transkriptom. Mens de fleste tumorassosierte forandringer har liten funksjon, er viktige gener og veier ofte innblandet ved å se på tvers av pasienter innenfor en kohort for hendelser som er tilbakevendende [1-3]. Selv om slike analyser er tradisjonelt utført over veldefinerte pasientpopulasjoner med svulster i lignende anatomisk plassering og histologisk utseende, store datasett produsert av offentlige tiltak som The Cancer Genome Atlas (TCGA) [2, 4] har nå gjort meta-analyse av kreftstudier gjennomførbart.
Ved å se på tvers av mange ulike undergrupper, analyser pan-kreft gi et høyt nivå, vev agnostisk syn på kreft. Mange slike studier har analysert koordinerte endringer over molekylære fenotyper og kliniske data for å isolere viktige signaler under tumorgenesis. Slike forsøk har avdekket konserverte mønstre av gen co-uttrykk på tvers av mange typer svulster [5, 6] identifisere molekylære mønstre forbundet med tumorvekst og spredning. I en komplementær tilnærming, en nyere artikkel av Gentles og kolleger [7] identifisert gener som uttrykk var assosiert med overlevelse over årskull som spenner over mange vev. Disse forfatterne fant at overekspresjon av gener nær FOXM1 transcriptional nettverk og av gener som driver cellecyklusprogresjonen var assosiert med uønskede pasientutfall. Disse svært konserverte signaturer av celleproliferasjon støtte hypotesen om at en kjerne kreft fenotype er aktivert i varierende grad på tvers av ulike krefttyper.
Så langt slike pan-kreft studier av transkripsjons endringer har fokusert hovedsakelig på kreftprøver, uten behandling av normalt vev. Derimot har studier av mutasjoner, strukturelle variasjoner eller DNA kopiantall endringer ofte avhengig av subtraktiv analyse av matchet data for å oppnå makt i å oppdage kreftspesifikke endringer. Selv om noen få uttrykk studier analysert pasient matchet svulster og tilstøtende normalt vev, ble disse studiene begrenset til spesifikke vev kohorter [8-13]. De var således i stand til å identifisere gener hvis ekspresjon i tumor avviker fra det normale i en enkelt vev, men var ikke i stand til å skille hvilke av disse endringene er spesifikke for en gitt studiepopulasjonen eller er i generelle trekk ved kreft som en helhet. Til denne effekten, en pan-kreft analyse av differensial transcriptional regulatoriske programmer, enten på nivå med mRNA uttrykk, miRNA uttrykk eller metylering-er ennå ikke utført.
Her utfører vi en slik analyse ved hjelp av informasjon lett tilgjengelig i Kreft Genome Atlas (TCGA), som har gjort det mulig standard datainnsamling prosedyrer og molekylære profilering analyser for en rekke måleplattformer [4]. Ved hjelp TCGA data, kompilere vi en omfattende liste av tumorassosierte mRNA, mirnas og metylering nettsider ved å måle frekvensen som sine nivåer er forhøyet mellom matchet tumor og normale prøver på tvers av alle målte kreft vev. Oppregulering frekvens av disse funksjonene er gitt som en generell ressurs for kreft samfunnet. Vi finner at i tillegg til nesten universelle overekspresjon av gener som er viktige for tumor spredning, det finnes fremtredende spredning uavhengig signaler som kan spille en rolle i vev ombygging.
Resultater
For å identifisere stedsnærværende svulst -associated signaler, nedla vi alle tilgjengelige data fra TCGA som 2. april 2015 gjennom Broad Institute Firehose nettportal (Methods) [14]. Dette datasettet besto av genom-wide mRNA uttrykk, mikroRNA (miRNA) uttrykk og CpG metylering i over 9000 svulster, hvorav tilstøtende normalt vev ble også profilert i over 600 pasienter (S1 Fig).
Gitt denne store samlingen av matchet tumor og normale data, ble vi drevet å ansette en forenklet analyse for å identifisere molekylære signaler i forbindelse med tumorer (Metoder, fig 1a og S2 fig). For hver mRNA, miRNA eller CpG markør, kvantifisert vi brøkdel oppregulert (
f
opp
), brøkdel av pasienter som markøren nivået var høyere i svulsten enn i matchet normalt vev. Denne beregningen er en formulering av sign-test statistikk
p
= Pr (x
i y
i), der x og y er vektorer av matchet prøver fra svulsten og tilstøtende normalt vev hhv. Ved hjelp av denne statistikken vi identifisert mRNA, mirnas og CPGs som varierte fra tilfeldig (
f
opp
= 0,5) til svært forskjellig uttrykt eller denaturert (
f
opp
nærmer 0 eller 1) (fig 1b og S1 tabell). For å vurdere reproduserbarheten av denne statistikken, studerte vi ytterligere 10 genekspresjon microarray datasett, som strekker seg over 1012 personer med matchet tumor /normal data fra Gene Expression Omnibus. Etter beregning
f
opp
for alle genene i datasettet, fant vi en korrelasjon på 0,84 (
P
10
-16 , 95% konfidensintervall (KI): 0,838 til 0,847) mellom disse score og
f
opp
score identifisert fra TCGA RNA-sekvense data (fig 1c og S2 Table) .
(a) Skjematisk av beregning av fraksjonen oppregulert (
f
opp
) for en enkelt genekspresjon profil på tvers av TCGA kohort. Data blir filtrert for å inkludere kun matchet prøver, størrelsene av parede tumor /normale prøver sammenlignes, og en fraksjon av hvor ofte genet er oppregulert registreres. (B) Tetthet av
f
opp
statistikk over genome-wide mRNA, miRNA, og metylering målinger. (C) Sammenligning av mRNA
f
opp
statistikken beregnes fra TCGA mRNASeq målinger versus microarray målinger lastet ned fra GEO.
Kontroll av molekylære enheter med ekstreme verdier av
f
opp bekreftet Hotell som tumor spredning spiller en dominerende rolle, som beskrevet av tidligere studier [5-7, 15-16]. Blant de mest tungt tumorassosierte gener var FOXM1, for der mRNA nivåene er oppregulert i 93% av pasient svulster (95% CI
Bonf: 87% -97%). FOXM1 er en velkjent spredning assosierte transkripsjonsfaktor som spiller en sentral rolle i å regulere utviklingen av cellesyklusen [16]. Gene-Set berikelse Analyse fremhevet en rekke funksjoner knyttet til spredning, inkludert oppregulering av cellesyklus gener med spesielt store effektstørrelser observert for cellesyklus genet undergrupper «deponering av CENPA inneholder nukleosomer på cent» og «M /G1 overgang» ( fig 2a og S3 Table, Mann-Whitney U test,
P
BH
10
-16). Analyse av metylering markører viste hypermethylation skjer på PRC2 bindingsseter som tidligere har blitt knyttet til spredning av kreft [17] (figur 2b). Samlet utgjør disse funnene bekrefter at mange kreftassosierte molekylære endringer er drevet av spredning.
(a) Fiolin plott som viser fordelingen av mRNA nivå
f
opp
statistikk (fraksjon overuttrykt) på tvers av alle gener, sammenlignet med gener som kommentert til cellesyklusen og dens undergrupper: «avsetning av CENPA innehold nukleosomer ved cent» og «M /G1 overgang» i mSigDB. (B) Tetthet plott av fordelingen av
f
opp plakater (fraksjon med økt metylering) over metylering markører kommenterte til funksjonell genomikk nettsteder. (C) Spredeplottingen sammenligne
f
opp
statistikk mot genet sammenheng med spredning for hver genekspresjon profil.
For å isolere spredning avhengig og uavhengig komponenter av det tumorassosierte signal, tildelt vi en spredning poengsum for hver mRNA, miRNA og metylering område. Dette ble beregnet ved å vurdere sammenhengen tvers TCGA pasienter av hver funksjon uttrykk nivå med en tidligere utgitt spredning signatur [18] (meta-PCNA, Methods). Faktisk fant vi at disse sprednings scorene var høyt korrelert med
f
opp
score på alle tre datatyper, med Pearsons
r
= 0,63 (95% KI : 0,62 til 0,64), 0,62 (0,56 til 0,67), og 0,674 (0,672 til 0,676) for mRNA, miRNA og metylering, henholdsvis (fig 2c, for alle tre statistikk
P
10
– 16). Interessant, observerte vi en tung skew i
f
opp
statistikk for miRNA arter spesielt (fig 1a), som vi tilskriver en generell trend med økende miRNA uttrykk med spredning [19].
for å vurdere tumorassosiert, vekstuavhengig signaler, vi justert markør nivåer for å fjerne noen tilknytning til spredning og omregnet
f
opp
(dvs. regnskap for meta-PCNA signatur, se Methods, S4 tabell). Vi forventet at funksjoner med ekstreme verdier av detrended
f
opp
vil endres i overgangen fra normal til kreftceller, men ikke knyttet svulst vekst. Berikelse analyse av denne detrended statistikken identifisert overekspresjon av gener involvert i ribosomale og proteasomal prosesser (S5 Tabell, Mann-Whitney U test,
P
BH
10
– 16,
P
BH
10
-7, henholdsvis). Interessant, mens telomere vedlikehold gener hadde en generell økning i
f
opp
, gener involvert med telomerer forlengelse hatt mye sterkere korrelasjoner med spredning enn gener involvert i pakking av telomere ender (
P
0,001, S3 fig). Det er sannsynlig at disse og andre banene er viktig for den første rewiring av cellen som kreves for akselerert vekst, men da har liten innvirkning på svulstens vekst.
De mest oppregulert, spredning uavhengig gener i svulster var SEMA5B (detrended
f
opp
= 0,82 [0,74 til 0,88], S4 figur), GABA-reseptor subenheten GABRD (detrended
f
opp
= 0,82 [0,64 til 0,80], figur 3), og godt studert tumor suppressor CDKN2A (detrended
f
opp
= 0,72 [0,63 til 0,79 ]). SEMA5B er et gen i semaphorin familien, hvis viktigste roller er å tjene som veiledning signaler i ulike stadier av utviklingen. Disse genene har nylig blitt vist har en rolle i signalisering kreft [20]. Denne GABA
A-underenhet er først og fremst uttrykt i lillehjernen hvor dens reseptor er plassert extrasynaptically [21-22], men det er også uttrykt i testiklene (S5 fig) og CD4 + T-celler [22-23]. I TCGA datasettet, er GABRD uttrykt i 89% (CI
Bonf 81% -93%) av pasientene og har en svak negativ assosiasjon med spredning i tumorer (figur 3). I motsetning til dette, blir de fleste andre GABA subenhetgenene nedregulert på tvers av mange kreftformer (figur 3c, fig S6). Vi observerte en spesielt stor effekt på nyrecellekreft der det er en ti-fold median reduksjon i GABRA2 sammen med en seksdobling i uttrykket av GABRD (Fig 4e). ble observert tilsvarende effekter i en sammenkoblet microarray datasett (S7 figur).
(a) Scatter-plot sammenligne GABRD genuttrykk profiler til spredning score over matchet tumor og normale prøver. Linjene indikerer lineær regresjon fiken av tumor (rød) og normal (blå) prøver, skraverte områdene viser 95% konfidensintervall. (B) Sammenligning av matchet tumor og normale profiler for GABRD uttrykk, gruppert etter vevstype. (C) Sammenligning av matchet tumor og normale profiler for alle GABA protein subenheter i nyrecellekreft. Kreft akronymer er definert som følger: KIRC, nyre nyre klarcellet karsinom; THCA, thyroideakarsinom; BRCA, bryst invasive carcinoma; LIHC, lever leverkreft; KICH, nyre chromophobe; STAD, mage adenokarsinom; LES, endetarm adenokarsinom; LUAD, lunge adenokarsinom; Coad, colon adenokarsinom; UCEC, livmoren endometrioid karsinom; LUSC, lunge plateepitelkarsinom; BLCA, blære urothelial karsinom; HNSC, hode og nakke plateepitelkarsinom; Prad, prostata adenokarsinom; KIRP, nyre renal papillær cell carcinoma.
Her vist for TCGA brystkreft datasett som representant kohort. Også vist er ALDH2 som er det viktigste enzymet ansvarlig for å bryte ned acetaldehyd, den primære mellomprodukt av alkohol metabolisme.
Gene sett med lignende mønstre av differensial uttrykk som GABRD inkludert «blodkreft celle avstamning «og» «hjelper-T-celle-polarisering «(Methods). Ytterligere inspeksjon av gener i hjelper-T-celle-polarisering veien viste en preferanse for gener uttrykt i Th1 i motsetning til Th2-celler. For å finne ut om denne signal representert infiltrasjon av immunceller i svulsten, brukte vi CIBERSORT program [7] for å forutsi immuncelle undergrupper i tumorprøver, men fant liten eller ingen tilknytning til GABRD. Mens det forblir vanskelig å fullstendig utelukke immun infiltrering som drivkraft for dette signal, disse funnene tyder på at økte nivåer av delta-subenheten kan føre til funksjonelle endringer i GABA
A-reseptoren som kan spille en rolle i tumorcelledifferensiering .
Blant de mest nedregulert, spredning uavhengig gener vi merke utbredt epigenetisk stanse i tumorer med sterke enrichments for transkripsjon start stedet hypermethylation (Methods, S8a figur, Odds-Ratio = 2,
P
10
-16) og genet kroppen hypometylering (S8b figur, Odds-ratio = 2,5,
P
10
-16). Mens dekning av metylering markører på Illumina 450 k chip varierte over gener, manuell inspeksjon (Methods) av de mest konsekvent downregulated gener identifisert mange gener med assosiert med metylering endringer i deres DNA inkludert GSTM5 (detrended
f
opp
= 0,27 [0,19 til 0,35], S8c figur) og NRXN1 (detrended
f
opp
= 0,25 [0,18 til 0,34], S8d fig) . Mens NRXN1 er først og fremst uttrykt i hjernen hvor det fungerer som et celleoverflateprotein, har det også vist seg å spille en rolle i remodellering av vaskulært vev indikerte at det kan spille en større rolle i regulering av celle adhesjon i periferien [24].
Et skjermbilde for gen-sett beriket for spredning uavhengig downregulation identifisert transkripsjon og fettsyremetabolisme trasé (Mann-Whitney U test,
P
BH
10
-8,
P
BH
10
-4, henholdsvis). Blant de fettsyremetabolisme gen sett var alkohol dehydrogenase gener som var nesten overalt nedregulert med en spesielt stor effekt for klasse I gener (
f
opp
= 0,06 [ ,,,0],0,02 til 0,10], 0,05 [0,02 til 0,10] og 0,12 [0,06 til 0,18] for ADH1-A, -B og -C, henholdsvis) så vel som ALDH2 (
f
opptil
= 0,15 [0,09 til 0,22]), som tjener til å bryte ned acetaldehyd (fig 4 og S9 fig). Den nedregulering av alkohol metabolisme er sannsynligvis en komponent av alternative pyruvat bruk mediert av Warburg effekt der kreftceller øker sin hastighet av glykolyse ved å skifte til aerob metabolisme [25]. Utforskning av andre glykolyse gener støttet dette skiftet med oppregulering av laktatdehydrogenasegen LDHA (
f
opp
= 0,79 [0,71 til 0,86]) sammen med nedregulering av mitokondrie pyruvat bære genet MPC1 (
f
opp
= 0,11 [0,09 til 0,22], TCGA symbol BRP44L). Mye som ADH gener, er MPC1 nedregulert i en spredning uavhengig, og har nylig blitt vist å påvirke kreftcellevekst i ikke-festede, 3D dyrkningsforhold, men ikke i spredning eller celle-syklus progresjon analyser [26].
Diskusjoner
Her har vi gitt en ressurs til hjelp i forståelsen av tumorassosierte molekylære endringer. Ved hjelp av den største databasen av molekylære profiler fra paret svulst og nærliggende normalt vev tilgjengelig, bestemt vi hvor ofte hver mRNA blir miRNA og metylering nettstedet forskjellig uttrykt i kreft.
Vi observerte endringer i uttrykket nivåer av funksjoner knyttet til vekst og spredning, inkludert cellesyklus gener, global miRNA uttrykk og metylering av PRC2 bindingssteder. I tillegg til funksjonene i samsvar med rask celledeling, vi også observert en rekke sprednings uavhengige signaler. Disse genene kan ligge i veier som kreves for cellene til å bryte fri fra de normale mekanismer som regulerer egenskaper som telomer-behandling og vev invasivitet. En slik spredning uavhengig mønsteret kan også oppstå for kreftdempere. Mange kreftdempere aktiveres i respons til DNA-skader, men kan være aktivt undertrykt av endrede molekylær signalering i tumorer.
En viktig funn i denne studien er spredning uavhengig oppregulering av GABRD i nesten alle svulster profilerte. I tillegg til den kjente rollen til nevrologisk signalering, signaliserer via GABA-subenheter kan også undertrykke proliferasjon av både neurale og perifere stamceller. I tillegg er feilregulering av GABA signale blitt implisert i en rekke kreftformer, hvor det er en hypotese for å ha en rolle ved differensiering og proliferasjon av tumor stamceller [27].
Det er en rekke mulige forklaringer på hvorfor mange GABA-subenheter er nedregulert, men GABRD spesielt er oppregulert i kreft. En mulighet er at tumorer uttrykker en ny reseptor-konfigurasjon; en annen er at uttrykket av delta subenheten kan skape ikke-funksjonelle reseptorer med andre subenheter. Mens det er vanskelig å utelukke den tidligere forklaring, ekspresjonen av GABRD i testiklene (S5 Fig), og den observasjon at GABA har vist seg å fremme proliferasjon av Leydig-celler i gnager testiklene [28], gir noen vekt til tanken at bruk av en alternativ GABA
en reseptor kan være viktig for tumordannelse.
videre arbeid er åpenbart nødvendig å forstå spredning uavhengig gener og utvide sin rolle i kreft. Mens sekundære valideringsmetoder ofte måle endringen av en cellelinje vekstrate som respons på avbrudd av et mål, fenotyper som for eksempel de som er beskrevet her ville sannsynligvis ikke åpenbaret i slike analyser. I motsetning til dette, kan ikke-tradisjonelle analyser slik som cellemigrering og 3D-cellekultur være nødvendig for å validere slike fenotyper. 3D cellekultur eksperimenter har nylig blitt gjennomført på pyruvat bære MPC1 der medforfatterne viser en klar induksjon av vekst bare når dette genet er gjen uttrykt i 3D kultur og mus xenograft modeller, ikke i klassisk (2D) cellekultur [26] .
til slutt ønsker vi å fremheve nytten av å bruke et variert kohort å utlede en robust pan-kreft signal. Det er viktig å merke seg at vi ikke tar sikte på å redusere betydningen som normalt vev funksjon, eksponering for kreftfremkallende, og cellefornyelsen priser kan ha på fenotyper av ulike kreft presentasjoner. Men signaler som er robuste i vev og miljøsammenheng er sannsynlig å være svært viktig for kjerneprosesser som driver et bredt spekter av krefttyper. Med den nylige oppmerksomhet mot presisjon medisin, er det desto viktigere å definere standard molekylære fenotype for kreft generelt: Bare ved første definere felles molekylære funksjoner kan vi virkelig forstå hvordan behandlingen kan tas hensyn til å oppdage og angripe spesifikke presentasjoner av sykdommen .
Metoder
Informert samtykke
Informert samtykke ble innhentet for alle pasienter som en del av Kreft Genome Atlas konsortier. Alle data som brukes i denne studien ble lastet ned fra offentlige nettsteder etter at dataene ble samtykket til offentlig bruk. Ingen håndtering av personopplysninger ble gjort av forskerne på denne studien.
molekylære data henting og behandling
Alle data ble lastet ned ved hjelp av Broad Institute firehose_get data-henting verktøyet. For å opprettholde koherens av analysen på tvers av ulike datalagene og krefttyper, brukte vi Nivå 3 normaliserte molekylære data som innspill til våre analyser og brukte alle tilgjengelige data fra og med 02.04.2015 standard datakjøring. Bruken av TCGA Genome Data Analysis Senter (GDAC) rørledning er ment å gjøre disse resultatene enkle å oppdatere så mer TCGA data blir tilgjengelig.
For TCGA genuttrykk verdier, vi brukte data levert av Rahman og kolleger, som behandles på nytt RNA sekvens basert uttrykk data og viste bedre ytelse på kontroller [29]. Mens du bruker disse dataene i motsetning standard TCGA rørledningen ga små endringer i resultatene som presenteres her, er de kvalitativt svært lik for begge rørledningene. For å opprettholde konsistens og respekt dataversjoner brukes kun pasienter og gener som er tilstede i Firehose datasett.
A markør (genet, miRNA, metylering probe) filter ble påført TCGA data for å sikre at det var en detekterbar endring i verdi mellom pasient matchet tumor og normal profil i minst 50% av pasientene. Generelt er denne tilnærmingen fjernet egenskaper som Nivåene var under påvisningsgrensen i både tumor og normal, noe som resulterer i like lave verdier. Den resulterende funksjon sett besto av 396,059 metylering sonder, 520 mikroRNA og 18420 gener.
Microarray data ble hentet via manuelt søk av Gene Expression Omnibus (GEO) for store molekylære kohorter med paret tumor /normal uttrykk data fra følgende tiltredelser: GSE25097, GSE14520, GSE62872, GSE44076, GSE53757, GSE39791, GSE5364, GSE41258, GSE39004, GSE68468 og GSE33532. Data ble innhentet fra pre-behandlet serie matrisefiler gjort tilgjengelig på GEO, og prober ble i gjennomsnitt på sine kommenterte gener. På grunn av den ubalanserte distribusjon av vev tilgjengelig på GEO, brøkdel oppregulert (
f
opp
) statistikk ble beregnet for hver vevstype individuelt, og deretter gjennomsnitt for å oppnå en konsensus. Som ikke alle microarray plattformer hadde full dekning av gener, ble statistikken beregnet for tilgjengelige data, og gener profilerte i færre enn 500 matchede prøvene ble forkastet. Dette resulterte i 16785 gener som begge microarray og RNA-sekvense data var tilgjengelige.
Vurdering av differensial Expression via brøkdel av oppregulert Pasienter
Fraksjonen oppregulert beregningen er en formulering av sign testobservator
p
= Pr (x
i y
i), der x og y er vektorer av matchet prøvene. Denne statistikken kan sees som en forenkling av Wilcoxon signert rank test, så den ikke bruker omfanget av forskjellene for en rangering, men heller teller tegn på forskjellene. Dette er en enkel, antagelsen fritt beregning der informasjon om omfanget av dette uttrykket eller metylering forkastes. Den statistikken representerer brøkdel av pasienter som en markør tar på en høyere verdi i svulsten enn matchet normal prøven og varierer mellom 0 og 1. Statistisk vurdering av
f
opp
er utført av testing mot nullhypotesen at
f
opp
forutsetter en binomisk fordeling med et gjennomsnitt på 0,5. Konfidensintervaller er vurdert gjennom undersøkelse av en betafordeling passform med formparameterne som er definert av skiltet test. Selv om en slik prosedyre kan i stor grad begrense statistisk styrke når størrelsen på utvalget er lite, ved store utvalgsstørrelser,
f
opp
sporer veldig godt med parametrisk statistikk som en paret t- test (S2 figur).
ved å forenkle til et tegn test vi taper statistisk styrke, men får robustheten av testen ved å tillate anvendelse av denne test, uavhengig av fordelingen av dataene. Dette brukes i erstatning av standard statistiske teknikker som brukes som en paret t-test eller spesialiserte differensial uttrykk verktøy som basseng variansen over markører som tradisjonelt brukes i studier som har mye mindre utvalgsstørrelser (vanligvis
n
= 3 -20) og dermed mangler kraft til å bruke en slik forenklet modell. Vi avstå fra å bruke slike teknikker som de ville innføre et bredt utvalg av forvirrende faktorer som ville gjøre analysen mye mindre robust og vanskeligere for leseren å tolke. For eksempel ved bruk av en t-test uten modellering tumor renhet som en kovariat ville være uhensiktsmessig i denne innstillingen som mer rene prøver ville ha en overdimensjonert effekt.
Videre er denne parametriske eksakte test har en rekke ønskelige egenskaper for integrerende analyse på tvers av datasett. Statistisk sett det er avhengig av ingen forutsetninger og er robust overfor uteliggere. Videre betyr det ikke bade prøvene som biologiske replikat, og gir dermed alle prøvene lik vekt ved beregning av et sammendrag verdi. Biologisk den eneste forutsetningen av testen er at tumoren prøven inneholder flere tumorceller enn normale prøven. På grunn av disse egenskapene, forventer vi lite bidrag av ikke-kreft vevsspesifikke uttrykk og batch effekter.
Proliferation Scoring
En pasient lagene fortsatt spredning ble adoptert fra meta-PCNA metriske publisert i Venet
et al
. [18]. Denne tidligere studie utvunnet normale, ikke-syke vev og definert et sett med 131 gener assosiert med godt studert Former cell nuclear antigen (PCNA) genet, og deretter opprettes en meta-genet beregnet som median ekspresjonsnivået av disse gener 131. Som i Venet
et al
., Var medianen av disse genene brukes til å konstruere poengsum spredning i den aktuelle studien. En markør-nivå tilknytning til denne spredningen Poengsummen ble deretter beregnet for hvert gen, miRNA eller metylering sonde ved å vurdere Pearson korrelasjon av endringen i meta-PCNA med endringen i markør nivåer fra tumor til normalt vev for alle fag med matchet prøvene.
Vurdering av Proliferation-uavhengig tumor-tilknyttede funksjoner
for å søke etter funksjoner som er tumorassosiert uavhengig av spredning, foreningen av markør nivåer med spredning (meta PCNA) ble detrended via en lineær modell. Den detrended
f
opp
beregningen er svært lik standard
f
opp
beregning med tillegg av forbehandling til fjerne trendene for spredning. Andre vev og interaksjons vilkår legges til modellen til sammenslutning av metaPCNA med vev
detrending trinnet er implementert i R ved hjelp av følgende modell:. Hvor metaPCNA: vevet er et interaksjonsledd mellom disse to faktorene. Etter denne modellen er egnet for alle markører får vi en matrise av rester fra settet med markører, og gjenta skjermen for konserverte endringer som tidligere gjennomførte for
f
opp
. Resultatet Skjermen gir oss p-verdier og konfidensintervall for alle detrended
f
opp
verdier.
Gene Set Enrichment Analyse
gensettene ned fra Molecular Signaturer Database (mSigDB) [30]. Versjon 5 av de kanoniske pathway gensettene ble brukt i denne analysen. Anriking av
f
opp
for gensettene ble utført ved screening alle sett for en forskjell i fordelingen av
f
opp
innenfor settet i forhold til bakgrunnen genet satt via rang baserte Mann-Whitney U-test.
for å forstå om GABRD hadde koordinert differensial uttrykk med noen kommenterte trasé, gjennomførte vi en berikelse test mot co -differential uttrykk for GABRD med alle andre gener. For å løse dette, vurdert vi anrikning av co-differensial uttrykk ved følgende metode:
dx: gen x genet sammenheng på tvers av matrise av differensial uttrykk
dt: gen x genet sammenheng på tvers av matrise av svulst -bare genuttrykk
cx: DX-dt, endring i sammenheng
pathway berikelse: endring i gjennomsnittet av cx innenfor gener kommenterte til en gitt sti
Under foreløpige analysen vi bemerket at spredning forbundet trasé ble beriket for co-differensial uttrykk med mange gener. Vi har mistanke om dette er tilfelle på grunn av den sterke spredning komponent av den differensielle ekspresjonen signal å gi disse genene mer informasjonsinnhold. For å hone på veier med en bestemt berikelse for GABRD vi beregnet pathway enrichments for alle gener, og rangert GABRD i forhold til alle andre gener. 0,05. 0,05.