Abstract
Lange ikke-kodende RNA (lncRNAs) dukker opp som potente regulatorer av cellefysiologi, og nyere studier markere sin rolle i tumorutvikling. Men mens etablerte proteinkodende onkogener og tumor suppressors ofte vise slående mønstre av fokus DNA-kopi-nummer endring i tumorer, tilsvarende funn er i stor grad mangler for lncRNAs. Her rapporterer vi på en genomisk analyse av GENCODE lncRNAs i høyverdig serøs eggstokkene adenokarsinom, basert på The Cancer Genome Atlas (TCGA) molekylære profiler. Ved hjelp av genomisk kopitall data og dyp dekning transkriptom sekvensering, utledet vi to kopitall og uttrykk data for 10,419 lncRNAs over 407 primære svulster. Vi beskriver globale sammenhenger mellom lncRNA kopitall og uttrykk, og knytte etablert uttrykk undergrupper med distinkt lncRNA signaturer. Ved å undersøke områder av fokuskopitall endring som mangler protein-koding mål, identifiserte vi en intergeniske lncRNA på kromosom 1,
OVAL
, som viser smal midt genomisk forsterkning i en undergruppe av svulster. Mens svakt uttrykt i de fleste svulster, focal forsterkning sammenfalt med sterk
Ovale | transkripsjonen aktivering. Screening av 16 andre krefttyper avslørt lignende mønstre i serøs endometrial carcinoma. Dette viser at intergeniske lncRNAs kan være spesielt målrettet av somatisk kopitall forsterkning, tyder på funksjonell engasjement i startfasen eller progresjon. Vår analyse gir testbare hypoteser og baner vei for videre studier av lncRNAs basert på TCGA og andre store kreft genomikk datasett
Citation. Akrami R, Jacobsen A, Hoell J, Schultz N, Sander C, Larsson E (2013) omfattende analyse av Long ikke-kodende RNA i Eggstokkreft avslører globale mønstre og målrettet DNA Amplification. PLoS ONE 8 (11): e80306. doi: 10,1371 /journal.pone.0080306
Redaktør: Aedín C. Culhane, Harvard School of Public Health, USA
mottatt: 13. juni 2013, Godkjent: 01.10.2013; Publisert: 12.11.2013
Copyright: © 2013 Akrami et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet med tilskudd fra Swedish Medical Research Council; den svenske Cancer Society; Den svenske Stiftelsen for strategisk forskning; den Assar Gabrielsson Foundation; Magnus Bergvall Foundation; Åke Wiberg fundament; og Lars Hierta Memorial Foundation. Midler til AJ, NS, og CS ble levert av det amerikanske National Cancer Institute som en del av TCGA Genome Data Analysis Senter stipend (NCI-U24CA143840 og NCI-R21CA135870) og av en Stand Up To Cancer Dream Team Translasjonell stipend, et program av Entertainment Industry Foundation (SU2C-AACR-DT0209). Beregningene ble delvis utført på beregningsressurser høy ytelse som leveres av svenske Infrastructure for Computing (SNIC) gjennom Uppsala tverrfaglig senter for avansert beregningsvitenskap (UPPMAX) under prosjektet b2012108. Resultatene er publisert her er helt eller delvis basert på data generert av The Cancer Genome Atlas pilotprosjekt etablert av National Cancer Institute og National Human Genome Research Institute (NHGRI). Informasjon om TCGA og etterforskerne og institusjoner som utgjør TCGA forskningsnettet kan bli funnet på «https://cancergenome.nih.gov». Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Nyere transcriptomic studier hos pattedyr har avdekket en overflod av lange ikke-kodende RNA (lncRNAs) som ligger ispedd gener på komplekse måter [1-3]. LncRNA transkripter har vanligvis mRNA-lignende egenskaper, for eksempel multiexonic gen-konstruksjoner og poly (A) haler, men mangler tilsynelatende protein-kodende kapasitet. Selv om de første funksjonelle eksempler (f.eks
H19 product: [4] og
XIST product: [5]) ble først beskrevet mer enn 20 år siden, lncRNAs er nå fremstår som utbredt regulatorer av cellefysiologi med ulike roller både i kjernen og i cytoplasma, herunder rekruttering av histon-modifiserende komplekser til kromatin, regulering av transkripsjon og skjøting, og kontroll av mRNA oversettelse.
Flere nyere studier tyder på at lncRNAs kan ha en viktig rolle i onkogenesen [6 , 7]. For eksempel
hotair
uttrykk er høy i metastatisk brystkreft svulster, og dens hemming blokker metastaser i gnagermodeller [8],
MALAT1
uttrykk korrelerer med metastaser og overlevelse i lungekreft [9] og polyA + transkriptom sekvensering (RNA-seq) nylig identifisert
PCAT-en
som et vekstfremmende lncRNA i prostata kreft [10]. Men det er bemerkelsesverdig at de genetiske dataene så langt i hovedsak knyttet til endringer i genuttrykk. Malign transformasjon krever genetisk aktivering av vekstfremmende onkogener og inaktivering av tumor-suppressorer, og dette lettes i tumorer av genomiske ustabilitet, ervervet genetisk variasjon, og klonal ekspansjon [11]. I store kreft genomikk datasett, slik som de som produseres av The Cancer Genome Atlas (TCGA) konsortium, viktige kreftgener derfor åpenbarer seg gjennom slående mønstre av tilbakevendende DNA-nivå endring, inkludert fokuskopitall forsterkning og sletting [12,13]. Men mens lncRNAs og gener skal i prinsippet være utsatt for aktivering eller deaktivering gjennom lignende mekanismer, er det så langt lite som tyder på at lncRNAs er spesielt målrettet av kopinummer endringer i kreft uavhengig av proksimale koding gener (nylig anmeldt i 6,14 ).
Vi her utført en storstilt genomisk analyse av lncRNAs i høyverdig serøs ovarialcancer (HGS-OvCa), en av de viktigste årsakene til kreft dødsfall blant kvinner i USA [15], basert på high-throughput molekylære profiler genereres i TCGA [12]. Vi basert våre analyser på omfattende GENCODE lncRNA katalog, som har vært gjenstand for omfattende karakterisering og manuell utvelgelse [16,17], mens du bruker en merknad-objektiv tilnærming der det er hensiktsmessig. Vi derfor fokusere på lncRNAs med reproduserbar uttrykk i uavhengige datasett, basert på antagelsen om at kreftrelevante lncRNAs bør, i likhet med gener, har viktige funksjoner også i normale celler. Ved hjelp av dype dekning RNA-seq data og høy oppløsning DNA kopitalloppstillinger, utledet vi samtidig kopi-nummer profiler og uttrykk data for 10.000 GENCODE lncRNA gener over 407 primære svulster (data tilgjengelig på www.larssonlab.org/tcga- lncrnas). Vi undersøker den globale sammenhengen mellom DNA-kopi-nummer og lncRNA uttrykk, og vurdere lncRNAs i forhold til etablerte uttrykk subtyper i HGS-OvCa. Videre tar vi enten lncRNAs kan være spesielt målrettet av fokuskopitall endring i kreft.
Diskusjon
Molecular profilering av lncRNAs
Resultater og 407 svulster
Vi brukte GENCODE [17] merknaden som vår viktigste rammeverk for å undersøke mønstre av lncRNA kopitall endring og uttrykk på tvers av 407 scene-II-IV HGS-OvCa svulster [12]. Vi fant at den GENCODE lncRNA undergruppe [16], som omfatter 10,419 manuelt annoterte lncRNA gener (versjon 11, Figur 1A), viste en høy grad av polyadenylering som bestemt ved normalt vev RNA-sekvensering (RNA-seq) data (figur 1B). Kopier-talldata fra sammenlign genomisk hybridisering (CGH) arrays var tilgjengelig for 486 primære svulster, og det store flertallet av GENCODE lncRNAs (97%) Sprak bodde i dekket regioner. Vi neste behandlet i alt 25,7 milliarder GENCODE-kartlagt lese parene fra polyA + RNA-seq (i gjennomsnitt på 63,1 millioner kroner per prøve) å utlede uttrykk profiler for alle GENCODE lncRNAs i 407 av disse svulstene (figur 1C). Bare 225 millioner lese parene tilordnet lncRNA loci (i gjennomsnitt 553 000 per prøve), understreker behovet for høy sekvens dekning for å nøyaktig kvantifisere lncRNAs.
A, Relative Forekomsten av genet kategorier i GENCODE 11 annotering (unik loci ). B, polyadenylering status av lncRNAs, bestemt av polyA + i forhold til totalt RNA-seq fra en blanding av 16 vev. C, LncRNA uttrykk profilering ved hjelp polyA + RNA-seq over 407 svulster. Totalt 25,7 milliarder entydig kartlagt lese parene, som omfatter 3 terabases, ble talt i GENCODE gener. Tabellen viser per-tumor sekvense dybde, basert på all GENCODE-kartlagt leser eller lncRNA undergrupper. D, Utdeling av lncRNA og koding genuttrykk nivåer (maks RPKM i alle svulster). RPKM leser per kilobase per million leser. E, Histograms av sammenhenger mellom DNA-kopi-nummer og RNA nivå (basert på 407 svulster med doble data). Venstre panel: lncRNAs ordnede (venstre panel,
n
= 10066), som viser lavere korrelasjoner i forhold til koding gener. Høyre panel: forbedret sammenhenger når de vurderer gener uttrykkes ved RPKM 3 (topp 19% lncRNAs,
n
= 1920) som også ble forsterket eller slettes i 15 prøver (høyre panel,
n
= 125)
Sammenligning av lengde-normalisert (RPKM-type [18]) uttrykk verdier mellom koding og lncRNAs gener bekreftet at lncRNAs ble uttrykt ved vesentlig lavere nivåer (Figur 1D), i samsvar med tidligere rapporter fra en rekke cellulære kilder [1 , 16,19]. Mens 87% av kodende gener viste en RPKM nivå en i det minste i en tumor, bare 36% av lncRNAs nådd dette nivå av ekspresjon. Genom-wide korrelasjon mellom DNA-kopi-nummer amplitude og RNA-nivåer var lavere for lncRNAs forhold til koding gener, men dette avviket ble redusert når bare vurderer rikelig og ofte kopitall endret gener (figur 1E). En utfyllende analyse basert på Affymetrix Exon 1.0ST arrays, som kan avhøre en undergruppe av lncRNAs, ga lignende resultater (481 prøver, Figur S1 i File S1).
LncRNAs forbinder med uttrykket undergrupper
Forrige analyse av koding genuttrykk i HGS-OvCa identifisert fire robuste undergrupper, som ble kalt «immunoreactive», «differensiert», «proliferative» og «mesenchymale «basert på deres genet innhold [12,20]. Subtypene ble videre vist å være assosiert med spesifikke genomiske forandringer, hvor den proliferative konsernet har en lavere frekvens av
MYC
forsterkning og
RB1
sletting, mens immunoreactive gruppen har en høyere frekvens av
Mecom
forsterkning. Vi her testet hvis etablerte undergrupper i HGS-OvCa har også forskjellige mønstre av lncRNA uttrykk.
Svulster med tilgjengelige subtype, ble kliniske og uttrykk data tilfeldig delt inn i to sett (
n
= 200 hver ), forskuddstrekk en halv for senere validering. Vi identifiserte 455 lncRNAs som ble indusert eller undertrykt spesielt i en av de fire undertyper i forhold til de resterende prøver (figur 2A, som beskrevet i Methods). Disse uttrykk mønstre ble tydelig holdt i valideringssettet, som bekrefter at subtype foreninger var ikke-tilfeldig (figur 2B). I tillegg kan en svulst uttrykk subtype forutsies på grunnlag av undertype-assosierte lncRNAs ved hjelp av en enkel klassifikator (Methods) i majoriteten (77%) av tumorer (figur 2B).
A, 455 lncRNAs viste økt eller redusert uttrykk i en av fire tidligere definerte uttrykk undergrupper (200 tilfeldige svulster, venstre). Disse lncRNAs opprettholdt sine subtype-selektive uttrykk mønstre i 200 uavhengige svulster, og subtype kunne det forutsies basert på deres uttrykk ved 77% nøyaktighet (til høyre). B, Det samme analyse basert på en intergeniske lncRNA undergruppe (
n
= 152, 73% nøyaktighet, venstre). Nærmeste opp- og nedstrøms proteinkodende naboer av disse lncRNAs (278 unike gener) manglet sterke subtype-spesifikke uttrykk mønstre og deres samlede signatur var mindre informativ av subtype (51% nøyaktighet, høyre).
Antisense-overlapp lncRNA kan vise sterke positive korrelasjoner med sine koding verter [16], motiverende analyse basert på intergeniske lncRNAs alene. Vi undersøkte derfor en undergruppe av 152 lncRNAs med intergeniske lokalisering, og fant sine uttrykk mønstre å være lik hele settet i valideringsdata (figur 2B, Tabell S1 i File S1, 73% nøyaktighet). Selv om koding nabo gener av de 152 lncRNAs var fortsatt moderat prediktiv av subtype (51%), viste de betraktelig svakere mønstre av undertype-spesifikk ekspresjon (figur 2B). Spesielt blant intergeniske lncRNAs indusert i mesenchymale subtype var
MIAT Twitter /Gomafu, et kjent mål og co-aktivator av Oct4 med en rolle i stamcelle pluripotency [21].
NEAT1 Hotell og
UCA1
ble undertrykt i den proliferative subtype:
NEAT1
er avgjørende for strukturen i atom paraspeckles [22] og har vist seg å være oppregulert i eggstokkreft [23], mens
UCA1
er en kjent regulator av cellevekst i blærekarsinom [24]. Vi i tillegg vurderes lncRNA nivåer i forhold til pasientens overlevelse, men fant ikke reproduserbare foreninger. Våre resultater viser at ekspresjon subtyper i HGS-OvCa, opprinnelig definert basert på kodings genekspresjon, hver er assosiert med distinkte lncRNA uttrykk signaturer, og vi spekulere at disse lncRNAs kunne bidra til transkripsjonen omprogrammering eller på annen måte opptrer i de cellulære kretser som er endret i disse krefttypene.
LncRNAs i regioner av fokuskopitall endring
tumor genomer er mosaikk av kromosomavvik, hvorav noen er under valget for å aktivere eller deaktivere spesifikke onkogener eller tumor dempere. I store pasientkullene kan individuelle målrettet gener derfor bli utledet gjennom mønstre av tilbakefall, særlig når det endrede områder er smale (fokale) [25]. Den GISTIC algoritme, når den anvendes for å kopiere-talldata fra TCGA eggstokk-kreft, identifiserte flere regioner av fokal tilbakevendende kopitall endringer [12]. Mange av disse omfatter kjente kreftgener, men i noen tilfeller målene forblir dårlig definert. Vi antok at lncRNAs kan være drivere i noen av disse hendelsene, og dermed skjermet smale fokusområdene for overlapping med lncRNAs.
Det var 35 smal (overlappende med høyst fem gener) presiseringer eller slettinger som var signifikant på en falsk funnrate (rest
q
) på 0,05 (figur 3A, Tabell S2 i File S1). Mange overlappet med etablerte proto-onkogener som
CCNE1 Hotell og
MYC
, og
RB1
,
NF1 Hotell og
PTEN
tumor dempere, men lncRNAs var også tilstede sammen med gener i flere tilfeller (figur 3A). Selv om utvalget for kopi-nummer endring på disse loci i prinsippet kunne forklares med lncRNAs, enten alene eller i kombinasjon med sine koding naboer [26], fokuserte vi i stedet på to fokus topper som manglet proteinkodende gener: en forsterkning på 1q25 og en sletting på kromosom 4q34 (angitt med * i figur 3A). Den slettede regionen var i en stor intergeniske plass ~ 1 Mb fra
ODZ3
; et gen nylig funnet å være målrettet av L1 retrotransposition i tykk- og endetarmskreft [27] og slettet i neuroblastom [28]. Mens slettet segmenter i HGS-OvCa ble klart adskilt fra
ODZ3 Hotell og omfattet to kommenterte lncRNA gener (Figur S2A i File S1), disse manglet relevant uttrykk ( 5 kartlagt leser i 99% av svulster) , og vi klarte å avsløre andre kandidater ved å undersøke RNA-seq read dekning i regionen (data ikke vist). Videre analyser antydet at slettinger kan være indirekte rettet mot
ODZ3
gjennom forstyrrelse av tilhørende regulatoriske DNA (figur S2B i File S1), og regionen ble ikke videre karakterisert.
A, LncRNAs og gener i trange områder av tilbakevendende forsterkning eller sletting identifisert av GISTIC (
q
0,05) i 486 HGS-OvCa svulster. Gene teller 35 tette brenn topper med maksimalt fem overlappende gener vises. Kjente kreftgener og entydige koding mål er indikert. *, Regioner undersøkt mer detaljert. B, Detaljert visning av
ACBD6 Anmeldelser –
XPR1
intergeniske region (AXI region, stiplet linje) i en ~ 1 Mb genomisk sammenheng. AXI focal peak er sentrert på
RP11-522D2.1 /ovale, en uncharacterized lncRNA på chr1q25. Red skyggelegging viser kopinummer profiler for individuelle svulster. C, Svulster bestilt av
Ovale | uttrykk.
ovale, RNA (y-aksen) var stort sett lav eller umulig å oppdage, men ble indusert i fokalt forsterket tilfeller (som definert i Methods). D: Hverken
ACBD6
eller
XPR1
ble særlig indusert av AXI region samlings forsterkning.
ovale, RNA var lav også i stor grad forsterket tilfeller. ND, ikke oppdages. E, Gjennomsnittlig RNA-seq read tetthet i AXI regionen (stiplet linje) for svulster med markert AXI fokus forsterkning (
n
= 10) sammenlignet med resten av svulster (normalisert lese teller per 1000 nt segment). F, GSEA analyse viste enn eksperimentelt bestemte P53 regulerte gener blir indusert i
Ovale | fokalt forsterket svulster.
Focal somatisk forsterkning av OVAL lncRNA
Vi neste undersøkt 1q25 forsterkning, som ble fokalt fått i 16/407 pasienter (3,9%), og sentrert på en 128 kb intergeniske region mellom
ACBD6 Hotell og
XPR1
gener (heretter AXI region). AXI regionen mangler proteinkodende gener, men inneholder en eneste merket lncRNA genet,
RP11-522D2.1
, nær midten (Figur 3B). Dette lncRNA, som vi her begrepet
OVAL plakater (eggstokkene adenokarsinom forsterket lncRNA), sammenfaller tett med fokus topp identifisert av GISTIC, og er plassert 55 kb og 65 kb fra de nærmeste koding proteinkodende naboer. Spesielt de forsterkede kromosomsegmenter var ofte små (50-100 kb) og omfattet hele
Ovale | genet, mens å være begrenset til AXI region eller utvide bare delvis inn i nabo gener (Figur 3B).
Siden det sentrale DNA forsterkning mønster pekte på
ovale, som endring-kjøring genet i denne regionen, ved siden undersøkte vi om dette ble støttet av uttrykket mønster av
ovale, i svulster.
ovale, uttrykk var lav eller fraværende i både normal egglederen (Figur S3 i File S1) og i de fleste svulster, inkludert de fleste tilfeller med bred 1q forsterkning. Men samlings forsterkning av
Ovale | locus falt sammen påfallende med
Ovale | transkripsjonen aktivering (Figur 3C).
ovale, RNA var i gjennomsnitt 46 ganger høyere i fokale tilfeller sammenlignet med resten av prøvene (
P
= 3.5E-8, Wilcoxon rank sum test), og
Ovale | rangert 74th av alle GENCODE lncRNAs basert på maksimalt uttrykk i alle svulster (Tabell S3 i File S1). Lignende resultater ble oppnådd ved bruk av hybridisering baserte Exon 1.0ST data (figur S4 i File S1).
Selv om AXI region samlings forsterkning ikke synes å direkte rettet mot de flankerer gener, disse kan fortsatt bli indirekte berørt ved nivå av genekspresjon. Dette ville være forenlig med deres regulatoriske sekvenser blir endret eller
ovale, ha en
cis
regulatoriske rolle i å kontrollere sine transkripsjon. Men verken
ACBD6
eller
XPR1
ble spesielt indusert i fokalt forsterket tilfeller (figur 3D). I tillegg er disse genene ikke tidligere beskrevet som endret på kreft, videre støtte som
ovale, uavhengig målrettet i AXI intergeniske regionen.
Undersøkelse av RNA-seq read dekning i AXI region avslørte at
ovale, var hoved uttrykt locus i fokalt forsterket svulster, mens de resterende prøvene viste lav transkripsjonen aktivitet i denne regionen (figur 3E). Selv om ekstra transkripsjon ble observert utenfor
Ovale | locus, spesielt i oppstrømsområdet (figur 3E), disse signalene var ikke konsekvent mellom individuelle tumorer (figur S5 i File S1). Undersøkelse av tilgjengelige data i Genbank viste kun noen få enkeltstående samle såkalte sekvenser i AXI regionen bort fra det sentrale sentrum, mens
RP11-522D2
.
en Twitter /
ovale, var støttet av 12 skjøtes ESTs og 6 cDNA sekvenser. En antatt Y-RNA (spådde fra RFAM familier), nær AXI regionen kanten 50 kb fra sentrale peak, ble ikke støttet av cDNA /EST bevis eller RNA-seq i tumorer eller normalt vev (data ikke vist). Vi konkluderer med at begge HGS-OvCa svulst uttrykk profiler og tilgjengelige cDNA /EST bevis peker på
ovale, som hoved stabilt transkriberes enhet i den forsterkede AXI regionen.
Gene sett berikelse analyse (GSEA) avslørte at tidligere definerte mål for P53 (TANG_SENESCENCE_TP53_TARGETS_DN) ble signifikant forhøyet i
Ovale | forsterket tumorer (figur 3F). Selv om dette indikerer at
Ovale | aktivering kan sammenfalle med endret P53 aktivitet,
TP53
mutasjonsstatus og mRNA nivåene var lik i begge gruppene. Gener som koder for muskelrelaterte kontraktile proteiner (STRUCTURAL_CONSTITUENT_OF_MUSCLE) ble beriket blant de undertrykte i
Ovale | forsterket svulster.
Molekylær karakterisering av Ovale |
Etter å ha etablert
OVAL
som et sannsynlig mål i AXI regionen, preget vi videre dette genet i form av genet struktur og uttrykk normalt vev.
Ovale | genet inneholder tre kommenterte eksoner som gir opphav til en anslått 1489 nt ikke-kodende RNA, der store tredje ekson bidrar mest av sekvensen. Denne struktur ble støttet av flere GenBank mRNA-sekvenser (figur 4A) og spleisede ESTs, samt RNA-seq fra cellelinjer som Gm12878 (data ikke vist). Mange av
Ovale | ESTs og mRNA stammer fra humane melanomceller, og karakterutskriften ble derfor pekt i en fersk bioinformatikk skjerm for melanom-spesifikke offentlige ESTs [29].
ovale, ble også kartlagt i en fersk undersøkelse av menneskelige intergeniske lncRNAs [19], og ligner på vår egen analyse av normalt vev RNA-seq data, denne studien identifisert en alternativ første ekson isoform (figur 4A) støttes ikke av svulst uttrykk data. Selv om flere mulige spleise mønstre ble observert i svulstene, disse viste svak og inkonsekvent uttrykk på tvers av prøver (data ikke vist).
A,
Ovale | locus på kromosom 1. GenBank mRNA, bevart transkripsjon faktorbindingsseter (TFBS) spådd av UCSC Brower, og andre funksjoner er indikert. B, Normal vev uttrykk profilen til
OVAL plakater (RNA-seq). Hjerte ekspresjon ble bekreftet ved revers transkripsjon PCR. PC3, human prostatakreft cellelinje; Hjerte, hjerte auricle; A7, human melanoma cellelinje C,
ovale, og dets koding naboer har ulike uttrykk profiler. D, subcellulære RNA-seq fra 7 samlet cellelinjer (Gm12878, HelaS3, HepG2, HUVEC, H1hesc, Nhek og K562) viser dominerende cytoplasma lokalisering.
Evolutionary bevaring, basert på en pattedyr genomisk flersekvens , var lav samlet, men bestemte regioner i siste ekson viste forhøyet bevaring (Figur 4A). Den miRcode database over mulige mikroRNA målse i lncRNAs [30] avslørte et konservert MIR-30 språk, til stede i de fleste primater og pattedyr, i en av disse oppdateringene. Selv om den modne sekvens er hovedsakelig ikke-repeterende, RepeatMasker [31] identifisert THE1A-int LTR og L2b linje avledet elementer, så vel som en mulig U2 snRNA sekvens i den siste exon (figur 4A). Men vi fant ingen treff på snRNAer eller andre kjente strukturer i RFAM [32], og
ovale, er derfor neppe til å fungere som en forløper for en klassisk strukturell RNA.
LncRNAs har tidligere vært definert på grunnlag av kodonet substitusjonsfrekvens score og mangelen på en åpen leseramme (ORF) som er større enn 100 aminosyrer [1]. I tillegg til å være klassifisert som ikke-koding av GENCODE rørledningen, den modne
Ovale | sekvensen var ikke-kodende henhold til CPC algoritmen [33] og bruk PhyloCSF [34] basert på en pattedyr justering. ORF i
ovale, alle mangler Kozak konsensus og er ikke lenger enn 98 aminosyrer. En fersk felles analyse av tandem massespektrometri data og GENCODE lncRNA sekvenser, inkludert
RP11522-D2
.
en Twitter /
OVAL
, kun identifisert ett enkelt lncRNA kamp når eksklusive misannotated tilfeller, som støtter en generell mangel på koding kapasitet for disse transkripsjonene [35]. Viktigere, ble ingen homologi til hvilken som helst kjent proteinsekvens avslørt av BLASTx analyse. En koding funksjonen vises derfor usannsynlig, og vi konkludere med at
Ovale | sannsynlig representerer en
bona fide
lncRNA.
RNA-seq fra normale menneskelige vev viste at
OVAL
blir selektivt uttrykt i hjertemuskelen, og dette ble bekreftet ved revers transkripsjon PCR (figur 4B). To antatte konservert myocyte enhancer faktor-2 (MEF2) bindingsseter, plassert nær til den alternative første ekson (figur 4A), kan drive ekspresjon i muskelvev, som både hjertemuskelen og human skjelettmuskel myoblast (HSMM) celler utelukkende uttrykker denne alternative isoform (data ikke vist).
Ovale | uttrykksmønster er markant forskjellig fra sine koding naboer (figur 4C), og dens subcellulære lokalisering var overveiende cytoplasma (figur 4D). Dette taler videre mot en
cis
regulatoriske rolle på nærliggende gener, og er i samsvar med våre funn at
Ovale | forsterkning ikke særlig påvirke deres uttrykk (Figur 4D). I sammendraget,
ovale, ser ut til å ha en cytoplasma ikke-kodende funksjon som er uavhengig av sine proteinkodende naboer.
OVAL forsterkning i serøs endometrial carcinoma
Vi neste undersøkt enten
Ovale | forsterkning er unik for eggstokkreft, og anses kopi-nummer profiler fra 16 flere TCGA kreftformer, som varierer i størrelse fra 57 til 825 svulster. Interessant, observerte vi lavfrekvente samlings forsterkning av
Ovale | locus også i livmoren endometroide karsinom, mens ingen åpenbare fokus signal ble sett i de resterende kreft (figur S6 i File S1). Nærmere ettersyn viste at fokus topp igjen falt tett med
Ovale | genet (figur 5A).
A, lav frekvens samlings forsterkning av
Ovale | locus i livmorkreft , men ikke 16 andre TCGA kreft (se figur S6 i File S1). B, 56% av fokalt forsterket tilfellene var av serøs subtype, sammenlignet med 21% totalt (
P
= 0.025, Fishers eksakte test). C,
Ovale | RNA ble sterkt indusert i en undergruppe av svulster, og dette falt sammen med fokus forsterkning av AXI regionen. ND, ikke oppdages. D, Gjennomsnittlig RNA-seq read tetthet i AXI regionen for svulster med markert midt forsterkning (
n
= 4) sammenlignet med resten av svulster (normalisert lese teller per 1000 nt segment). E, I likhet med eggstokkreft, GSEA analyse viste induksjon av P53 mål i
Ovale | forsterket svulster.
En brøkdel av endometrial svulster er klassifisert som serøs eller serøs-aktig. Disse har et nært morfologisk likhet med sine eggstokkene motstykke [36], og er også genetisk lik eggstokkreft [37]. Derfor observerte vi at svulster i serøs subtype var 4 ganger så stor risiko for å bære
Ovale | samlings forsterkning sammenlignet med ikke-serøs tumorer (5/91 vs. 4/331,
P
= 0,025, figur 5B). I likhet med eggstokkreft, ble samlings forsterkning av AXI regionen assosiert med sterkt økt uttrykk av
ovale, (figur 5C), og RNA-seq read dekning viste at
ovale, var hoved transkriberes enhet i regionen (figur 5D). GSEA analyse viste at eksperimentelt bestemte P53 regulert gener ble oppregulert i
Ovale | forsterket prøver, replikere våre tidligere resultater fra kreft i eggstokkene (figur 5E). Til sammen resultater fra eggstokkreft og livmorkreft tyder på at
Ovale | forsterkning er valgt for spesifikt i serøs svulster uavhengig av tumorstedet.
Konklusjoner
LncRNAs har tidligere blitt analysert i klinisk materiale ved hjelp av neste generasjon sekvensering, deriblant en nylig studie av 64 karsinomer og sarkomer ved hjelp av 3′-enden sekvensering [38], og transkriptomet sekvensering av 102 prostata vev og cellelinjer [10]. I tillegg ble lncRNAs profilert i normale og kreft vev basert på 272 offentlige SAGE biblioteker [39]. Denne analysen er den første til å gjøre bruk av TCGA RNA-seq å profilere lncRNAs i kreft, og legge til rette for fremtidig etterforskning vi gjøre lncRNA molekylære profiler for TCGA svulster tilgjengelig på www.larssonlab.org/tcga-lncrnas.
Det er bare begrenset dokumentasjon for somatisk samlingskopitall endring av lncRNAs i kreft, og beskrev sakene gjelder lncRNAs som er co-endret med proksimale koding kreftgener. To lncRNAs i
LSAMP
tumor suppressor locus på kromosom 3q13,
OC285194 Hotell og
BC040587
, ble ofte fokalt slettet i osteosarkom, ofte sammen med
LSAMP
[26]. Disse lncRNAs er koekspresjon med
LSAMP
, og de tre genene er trolig funksjonelt sammen.
PVT1
locus på 8q24, som gir opphav til en rekke skjøtes ikke-kodende RNA, blir ofte co-forsterket med den nærliggende
MYC
onkogen [40,41]. Men etter hvert har det blitt klart at
PVT1
koder flere microRNAs, og dens primære rolle kan derfor være at en mikroRNA forløper [42,43].
Ved
RP11 /522D2.1 /ovale, flere uavhengige observasjoner nominere det som et selvstendig mål for somatiske genamplifisering. Det ligger i sentrum av et snevert forsterket intergeniske segment som mangler andre kommenterte gener, og det sentrale topp tett sammenfaller med
Ovale | genet. RNA-seq read dekning, samt tilgjengelig cDNA og EST bevis, klarte ikke å avsløre andre troverdige kandidater i regionen. Focal, men ikke bred, forsterkning sammenfalt med sterk induksjon av
Ovale | RNA.
ovale, ble ikke co-uttrykkes med sine koding naboer, men ingen av dem er tidligere forbundet med kreft og den nærmeste er mer enn 50 kb unna, og
Ovale | forsterkning ikke særlig endre sitt uttrykk . Dette, i kombinasjon med en overveiende cytoplasmatisk lokalisering, taler mot
ovale, ha en
cis
regulatoriske rolle på nabo gener. Replikasjon av disse mønstrene i serøs endometrial cancer forsterker hypotesen.
Focal forsterkning av AXI regionen er relativt sjelden (3,9%), og amplitude gevinster typisk lav. Imidlertid er HGS-OvCa preget av stor mutasjons mangfold, med en relativ mangel på enkle hyppige kjøre forandringer, og frekvensen er sammenlignbare med kjente funksjonelle forandringer slik som BRCA1 og BRCA2 somatisk mutasjon (3,5% og 3,2%, henholdsvis [44]) .