PLoS ONE: Human Cancer Long ikke-kodende RNA Transcriptomes

Abstract

Når antatt å være en del av «mørk materie» i genomet, lange ikke-kodende RNA (lncRNAs) er fremstår som en integrert funksjonell komponent av pattedyr transcriptome. LncRNAs er en ny klasse av mRNA-transkripter lignende som, til tross for ingen kjente protein-kodende potensiale, viser et bredt spekter av strukturelle og funksjonelle roller i cellebiologi. Imidlertid er omfanget av bidraget fra lncRNA uttrykk med normale humane vev og kreft ikke undersøkt på en helhetlig måte. I denne studien har vi samlet 272 menneskelige serie analyse av genuttrykk (SAGE) biblioteker for å avgrense lncRNA transkripsjons mønstre på tvers av et bredt spekter av normale menneskelige vev og kreft. Ved hjelp av en roman lncRNA oppdagelse rørledning vi analysert over 24 millioner SAGE koder og rapportere lncRNA uttrykk profiler på tvers av et panel av 26 forskjellige normale menneskelige vev og 19 kreft hos mennesker. Våre funn viser omfattende, vev-spesifikk lncRNA uttrykk i normalt vev og sterkt avvikende lncRNA uttrykk i kreft hos mennesker. Her presenterer vi en første generasjons atlas for lncRNA profilering i kreft

Citation. Gibb EA, Vucic EA, Enfield KSS, Stewart GL, Lonergan KM, Kennett JY, et al. (2011) humane kreft lange ikke-kodende RNA Transcriptomes. PLoS ONE 6 (10): e25915. doi: 10,1371 /journal.pone.0025915

Redaktør: Eric J. Bernhard, National Cancer Institute, USA

mottatt: 1 august 2011; Godkjent: 13 september 2011; Publisert: 03.10.2011

Copyright: © 2011 Gibb et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet med tilskudd fra den kanadiske Institutes for Health Research (CIHR) [MOP 86731, MOP 77903 til WLL, MOP 13690 til CJB]; National Institutes of Health [NIH 2R01 CA103830 – 6A1]; Department of Defense [CDMRP W81XWH-10-1-0634]; CIHR og Michael Smith Foundation for Health Research (MSFHR) postdoktorstipend [til E.A.G.]; og CIHR Frederick Banting og Charles Best Canada Graduate Scholarship [til E.A.V.]. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Genome ustabilitet og mutasjon er et kjennetegn på kreft [1]. Genetiske og epigenetiske endringene føre til avvikende uttrykk for proteinkodende gener og mange klasser av ikke-kodende RNA (ncRNAs), inkludert microRNAs (miRNAs). Mirnas har vist seg å være viktige aktører i menneskelige kreft, til tross omfatter bare en liten brøkdel av ncRNAs [2].

Når antatt å være «mørk materie» i genomet, ncRNAs har dukket opp som en integrert del av pattedyr transkriptomet [3], [4], [5]. Disse enigma molekylene er definert av mangel på protein-kodende sekvens, men kan spille både strukturelle og funksjonelle roller i cellen [6], [7]. NcRNAs kan blitt gruppert i to store klasser, den lille ncRNAs, som inkluderer mirnas og andre ikke-koding transkripsjoner av mindre enn 200 nukleotider (nt), og mer nylig beskrevet lncRNAs, som spenner fra 200 nt til 100 kilobaser (kb ) [8].

LncRNAs kan være intergeniske, intronic, antisens eller overlappende med protein-kodende gener eller andre ncRNAs [9], [10], [11], [12]. Den kjente repertoar av lncRNA funksjoner er raskt voksende – med demonstrert roller som formidlere av mRNA forfallet [13], strukturelle stillas for atomunderstell [14], [15], som verts gener for mirnas [16], [17], og som regulatorer av kromatin remodellering [18], [19], [20], [21] – selv om de funksjonelle identiteten til mange lncRNAs ennå ikke er avdekket [6], [7], [22]. Nylig har kreft hos mennesker blitt beskrevet å ha endret uttrykk for satellitt gjentar [23], transkriberte ultra konserverte regioner (T-UCRs) [24], og antisense transkripsjoner [25]. Utover uttrykk endringer, samler bevis indikerer avvikende ekspresjon av lncRNAs kan spille en viktig funksjonell rolle i cancerbiologi [26], [27], [28]. Den godt studert HOX anti intergeniske RNA (

hotair

), for eksempel, er sterkt uttrykt i bryst kreft og brystkreft metastaser og spiller en rolle i å endre målrettingen kromatin remodeling komplekser [29]. Tilsvarende høy ekspresjon av kjerneflekk forbundet lncRNA metastase-assosierte lunge adenokarsinom transkripsjon 1 (

MALAT1

) modulerer alternativ spleising og er blitt assosiert med metastase og dårlig prognose i pasienter med lungekreft [30], [31] . Selv om disse eksemplene er spennende, er omfanget av bidraget fra differensial lncRNA uttrykk for menneskelig kreft foreløpig ukjent.

Med et forsiktig anslag på 23.000 lncRNAs i det menneskelige genom, disse transkripsjonene rival ~20,000 proteinkodende gener [5], [11], [32], [33]. I løpet av de siste to tiårene, har microarray profilering generert et vell av informasjon om protein-koding genuttrykksmønster i kreft hos mennesker. Men som lncRNA spesifikke prober er underrepresentert på kommersielle mikromatriser som brukes i kreft transkriptomet profilering, disse dataene gjelder ikke ncRNAs. Globalt sekvensering av RNA populasjoner er en ny tilnærming brukes til å profilere RNA uttrykk nivåer som vil fange omfanget av lncRNA uttrykk. Nylig ble genom-wide ncRNA uttrykk profiler bestemt i 11 prøver som representerer ulike typer av humant vev [34].

En sekvens basert metode for opplisting overflod av polyadenylerte transkripsjoner er SAGE [35]. Som mange lncRNAs selv er polyadenylert, lncRNA transkripsjonsnivåer kan utledes ved hjelp av direkte telling av tilsvarende sekvens kodene ved hjelp av SAGE-teknologi. Faktisk ble to antisense lncRNAs oppdaget ved hjelp av en SAGE-basert metode [25]. Siden oppfinnelsen av SAGE teknologi på midten av 1990-tallet, har mange SAGE bibliotekene representerer et mangfold av menneskelige og mus, normale og maligne vev og cellelinjer blir offentlig tilgjengelig [36]. Av de 755 menneskelige SAGE bibliotekene i Omnibus (GEO) database Gene Expression, ~276 inkluderer SAGE biblioteker avledet fra humane kreftformer eller dysplasier [37].

I denne studien har vi samlet 272 mennesker SAGE biblioteker for å avgrense lncRNA transkripsjonsmønstre over et bredt spekter av humane vev og kreft. Ved hjelp av en egendefinert lncRNA oppdagelse rørledning, analyseres vi over 24 millioner SAGE sekvens koder for å utlede (1) de spesifikke lncRNA uttrykk mønstre i 26 menneskelig vev og oppdaget overalt uttrykt samt vev spesifikke lncRNAs, og (2) de avvikende uttrykk mønstre av lncRNAs i 19 menneske kreft.

Resultater

Montering menneskelige SAGE biblioteker med normale og kreft vev

i alt 1.824 SAGE biblioteker (i korte SAGE, lang SAGE og SAGE-seq format) av menneskelige og ikke-menneskelige opprinnelse er offentlig tilgjengelig via GEO. Å utforske lncRNA uttrykk i det bredeste utvalget av menneskelig vevstyper og krefttyper, lastet vi 360 GEO accessioned menneskelige kort SAGE bibliotek består av bibliotekene kuratert av Kreft Genome Anatomy Project (324 biblioteker) og lungevev og kreft datasett (36 biblioteker) ( Tabell S1). Individuelle biblioteker ble filtrert for sekvens dybde, beholder bare de bibliotekene med 50.000 rå koder, for å gi 272 SAGE biblioteker for analyse ved hjelp av vår lncRNA oppdagelse rørledning (tabell S2). De 272 SAGE bibliotekene består av totalt 24,436,076 rå sekvens koder med en gjennomsnittlig rå tag telling av 90 212 per biblioteket. Kollektivt, bibliotekene spredte 26 normale menneskelige typer vev, inkludert 19 humane krefttyper og 9 typer vev avledet fra cellelinje biblioteker (figur 1, tabell S3).

(CL) indikerer en SAGE bibliotek som ble generert fra en blanding av humane cellelinjer.

lange ikke-kodende RNA oppdagelse rørlednings

for å generere lncRNA uttrykk profiler, har vi utviklet en lncRNA funn rørledning for å kartlegge tag-til-lncRNA kamper (Figur 2). En SAGE tag uttrykk matrise ble konstruert fra alle unike koder (n = 716,330) identifisert innen datasettet av 272 biblioteker. Unigene kartlagt og kartlagte SAGE tags (n = 269 785 og n = 446 545, henholdsvis) ble separert i forskjellige uttrykk matriser som senere ble filtrert for å beholde bare de koder med minst 2 rå tag teller i 3 eller flere SAGE biblioteker. Bruke SAGE Genie å tildele genet identifikatorer til Unigene IDer, 263 av de 61,054 filtrerte koder med tilhørende Unigene IDer kartlagt til kjente lncRNAs, og 15,773 tags enten manglet genet navn eller hadde tvetydige kommentarer (f.eks transkribert loci, cDNA hypotetiske gener). Basert på fravær av bekreftet samarbeid med kjente gener, ble disse 15773 tag-til-Unigene ID kampene regnes som kandidat lncRNA tags

Tallene indikerer programmer eller filtreringstrinn som følger: (1). Filtrering for å beholde bare de biblioteker med et minimum på 50.000 rå tag teller, (2) å identifisere unike SAGE koder og konstruere SAGE tag uttrykk matrise, (3) kartlegging SAGE koder til Unigene ID-er med SAGE Genie kartlegging filer, (4) filtreringslister skal beholde tagger med ≥ 2 rå teller i en ≥3 av 272 biblioteker, (5) som bestemmer genet identitet ved hjelp av SAGE Genie, (6) separering Unigene tags kartlegging for å lncRNAs og tvetydige transkripsjoner, (7) pooling tvetydige koder og kartlagte koder, (8) kartlegging sekvens tags til referanselisten 9,891 lncRNAs hjelp SeqMap, en tag-til-genet kartlegging program, (gjenværende koder kan tilordnes til Umerket lncRNAs eller antisense transkripsjoner ikke inkludert i vår referanseliste) (9) filtrering tag kamper for strand forstand, (10) pooling frem kartlegging koder og koder fastsatt fra Unigene og (11) bekrefter tag-til-lncRNA kampene og summere tag teller for lncRNAs med flere tag kamper. En komplett liste over lncRNAs er gitt som Table S5 og tag-til-lncRNA kampene er gitt som tabell S6.

15,773 Unigene tagger med tvetydige genet identifikatorer ble kombinert med 17,816 kartlagte, filtrert koder for totalt 33,589 SAGE tagger med potensial til å generere koden til lncRNA kamper. Ved hjelp SeqMap, kartla vi 7040 av 33,589 kodene til lncRNA sekvenser fra referanse lncRNA liste (tabell S4). Andelen av tag-til-lncRNA varer er i overensstemmelse med det faktum at vår referanseliste over 9,891 lncRNAs utgjør bare en del av de estimerte 23.000 lncRNAs i genomet [33]. De resterende kodene som ikke tilordnes til lncRNAs fra vår referanseliste kan representere antisens transkripsjoner til proteinkodende gener eller andre ncRNAs som ble filtrert.

Av de 7040 lncRNA tag kamper, 3831 kartlagt i termin orientering, mens 3209 kartlagt i den motsatte retning. I SAGE, er tagger avskrift i termin orientering sannsynlig stammer fra at avskrift, mens tagger i motsatt retning er det ikke. Dette gjelder uavhengig av om genet er normalt transkribert fra pluss eller minus DNA-tråd. I denne studien var vi interessert i uttrykket profiler av en kuratert sett lncRNAs, heller enn romanen genet funnet. Som omvendt tag kampene ikke bekrefte uttrykket av lncRNAs beskrevet her, ble disse kodene ekskludert fra videre analyse.

3,831 kodene nylig kartlagt til lncRNAs ble kombinert med de 263 kodene identifisert fra Unigene kartlegging for totalt 4.094 tags unikt kartlegging til lncRNAs. Der flere koder tilordnet en distinkt lncRNA, ble kodene kollapset ved å summere tag teller for å fange opp alle transkripsjon varianter og isoformer. Sluttresultatet var en lncRNA uttrykk matrise som består av 2,649 distinkte lncRNAs (tabell S5 og S6). De lncRNAs med den høyeste ekspresjon ble påvist i de fleste (mer enn 90%) av de 272 bibliotekene (tabell 1). Disse inkluderte karakteriserte eksempler som kjernekraft paraspeckle montering transkripsjon 1 (

NEAT1

) og vekst arrest spesifikke 5 (

GAS5

).

Long ikke-kodende RNA uttrykk profiler i normale menneskelige vev

av de 272 SAGE bibliotekene, 72 representert normale menneskelige vev. Uttrykk for lncRNAs ble påvist i alle vevstyper, selv om antallet unike lncRNAs oppdaget variert betydelig (figur 3A). I gjennomsnitt var det 145 forskjellige lncRNAs med en gjennomsnitts koder per million (TPM) på 20 oppdaget i hvert vev. Vev slik som lymfeknute og galleblæren viste det høyeste antall distinkte lncRNAs, mens de laveste antall distinkte lncRNAs ble funnet i muskel og lever.

(A) Antall forskjellige lncRNAs uttrykt i normale humane vev, hvite blodceller og embryonale stamceller med et minimum gjennomsnitt TPM av 20. verdiene i parentes angir antall SAGE biblioteker for hvert vev. (B) Eksempler på lncRNAs detektert kun i et enkelt normalt humant vev eller i embryonale stamceller (ESC) med et minimum uttrykk nivå på 10 TPM. For vev med to eller flere biblioteker, ble TPM verdiene i gjennomsnitt. LncRNAs uten navn er merket med en Ensembl ID.

neste fokusert på disse bibliotekene å finne ut om vevsspesifikke lncRNA uttrykk profiler kan genereres (tabell S7). Figur 4A viser de 20 beste mest aner uttrykt lncRNAs oppdaget i panelet av normalt vev. Tydelig lncRNAs oppdaget ved høye uttrykk nivåer i normalt vev inkludert de som karakteriseres i litteraturen som

NEAT1

,

GAS5 Hotell og X-inaktive-spesifikke karakterutskrift (

XIST

). Men minst halvparten av de høyt uttrykte lncRNAs er romanen og for tiden uncharacterized. For å bekrefte lncRNA uttrykk profiler, spørres vi uttrykk mønstre av de høyest uttrykte lncRNAs bruker RNASeq data fra Illumina Menneskelig BodyMap 2,0 prosjekt. Denne informasjonen ble nylig lagt til Ensembl utgivelse 62 og presenteres som en valgfri spor. Av våre mest høyt uttrykte lncRNAs, ble de fleste allment uttrykt i vevsprøver fra Illumina datasett, i samsvar med våre funn (tabell S8, figur S1 og S2). Samtidig lncRNA ekspresjon ble også funnet å være svært variabel, med hver humant vev som har en unik lncRNA uttrykksmønster (figur 4B). Intriguingly, ble en rekke lncRNAs uttrykkes i et vev-eksklusiv måte (figur 3B).

(A) LncRNAs med den høyeste samlede uttrykk (B) LncRNAs med høyest variansen med en variasjonskoeffisient (CV) test. Varmekart indikere den relative intensitet (normalisert TPM) for hver lncRNA tvers av sytten humane vev, hvite blodceller og humane embryonale stamceller. Dersom mer enn en SAGE biblioteket var tilgjengelig, ble TPM verdiene i gjennomsnitt. For heatmap, ble den maksimale beløpsgrense på 300 TPM. LncRNAs uten navn er merket med en Ensembl ID.

Lange ikke-kodende RNA uttrykk profiler i kreft hos mennesker

Aberrant proteinkodende genuttrykk er godt beskrevet i kreft. Imidlertid avvikende ekspresjon av ncRNAs, herunder mirnas og lncRNAs, har bare nylig blitt assosiert med denne sykdommen [2], [26], [27], [38]. For å avgrense lncRNA uttrykk profiler assosiert med kreft hos mennesker, skapte vi en human kreft uttrykk matrise basert på 167 kreft SAGE biblioteker inkludert i vår datasettet (Tabell S9). For lungekreft datasettet, metaplasi, dysplasi og inflammatoriske vev ble ekskludert fra analysen da disse representerer forstadier stadier [39], [40]. Figur 5A viser de 20 mest høyt uttrykte lncRNAs over de profilerte kreft. I likhet med de normale vev, ble lncRNA ekspresjon i humane kreft også funnet å være svært variabel (figur 5B).

(A) LncRNAs med den høyeste samlede uttrykket (B) LncRNAs med høyest variansen med en variasjonskoeffisient (CV-test). Varmekart indikere den relative intensitet (normalisert TPM) for hver lncRNA tvers av sytten humane kreftformer og humane embryonale stamceller. Dersom mer enn en SAGE biblioteket var tilgjengelig, ble TPM verdiene i gjennomsnitt. For heatmap, ble den maksimale beløpsgrense på 300 TPM. LncRNAs uten navn er merket med en Ensembl ID.

Menneskelige kreft demonstrere vesentlig endret lncRNA uttrykk mønstre

For å fastslå omfanget av differensial lncRNA uttrykk i menneskelig kreft, opprettet vi tre uttrykk matriser for hvert bryst, hjerne og lunge cancer som inkluderte et minimum på fem normal og fem kreft SAGE bibliotek (Tabell S10). Bryst, hjerne og lunger lncRNA uttrykk matriser ble uavhengig sortert for betydelige og forskjellig uttrykt lncRNAs (p-verdi 0,05, ≥2 ganger uttrykk endring basert på en ikke-parametrisk permutasjon test [41]). I hver type kreft, fant vi minst 200 lncRNAs å ha vesentlig differensial uttrykk basert på følgende kriterier (Figur 6A). Intriguingly det var overlapping mellom lncRNAs som ble differensielt uttrykte i hvert vev (figur 6B), inkludert 8 lncRNAs som ble differensielt uttrykte i alle tre typer kreft (Tabell 2). De ti mest opp- og ned-regulert lncRNAs for hver kreft finnes i tabell S11.

(A) Antall lncRNAs viser signifikante uttrykk endringer. Antallet lncRNAs bestemt til å ha signifikant (p-verdi BH 0,05) differensielle ekspresjonen av to-ganger eller større rapportert. Solide linjer indikerer oppregulert gener, mens barer med luke merkene indikerer downregulated gener (B) Venn-diagram av forskjellig uttrykt lncRNAs i humane karsinomer.

kromosom fordeling av lange ikke-kodende RNA

Vi konstruerte en fordeling komplott for å bestemme kromosom fordelingen av 9,891 lncRNA gener i vår lncRNA referanseliste (tabell S3). De lncRNAs er fordelt over hele genomet og er til stede på hvert kromosom (figur 7). Proteinkodende gener og mirnas synes å dele en lignende kromosom fordeling (Spearman korrelasjon p 0,05, figur S3A). Men den kromosom fordelingen av lncRNAs ikke korrelerer med enten proteinkodende gener eller mirnas (Spearman korrelasjon p 0,05, figur S3b, S3C)

proteinkodende gen (n = 20 655), mikroRNA (n. = 1746) og lang ikke-kodende RNA (n = 9,891) koordinater ble lastet ned fra Ensembl V62 hjelp BioMart.

Diskusjoner

, har begrepet funksjonell genom i de senere årene blitt omskrevet for å inkludere et mangfold av nyoppdagede klasser av ncRNA transkripsjoner [42], [43], [44], [45]. Selv om den funksjonelle betydningen av lange ikke-kodende RNA har lenge vært anerkjent [46], [47], overflod og omfanget av lncRNA uttrykk endringer i kreft er bare begynnelsen for å komme frem i lyset. Av denne grunn, kartlegging transkripsjons landskapet lncRNAs tvers av menneskelig vev og krefttyper er et viktig steg i å forstå lncRNA funksjonell betydning i kreft.

Her presenterer vi den første multi-vev, cross-kreft lncRNA uttrykk profilering studere. Storskala uttrykk profilering datasett, som SAGE, representerer en verdifull ressurs for å undersøke uttrykk mønster av polyadenylerte lncRNAs. Mens denne tilnærmingen utelukker profilering av ikke-polyadenylerte lncRNAs, det likevel muliggjør samtidig profilering av tusener av polyadenylerte lncRNAs i et bredt spekter av humane vev og kreft. Ved hjelp av 272 SAGE biblioteker, som representerer 26 ikke-maligne menneskelig vev, 19 humane krefttyper og 9 kreftcellelinjer, har vi produsert en første generasjons atlas over lande kreft lncRNA uttrykk profiler som en ressurs for dette raskt voksende område av kreftforskning. Gjeldende anslag over antall lncRNAs kodet i det menneskelige genom varierer mye, alt fra ~7,000 til 23.000 eller mer [7]. Disse anslagene rival overflod av de estimerte 20.000 proteinkodende gener. Vår analyse viser at lncRNAs er fordelt på alle 22 autosomer og kjønnskromosomer, men fordelingen mønster korrelerte ikke med enten proteinkodende gener eller mirnas (Figur 7, Figur S3).

Undersøkelse av 72 SAGE biblioteker av normale humane vev viste lncRNA ekspresjon i hjerne, bryst, spiserør, galleblære, hjerte, lever, lunge, lymfeknute, muskel, peritoneum, placenta, prostata, retina, ryggmarg, mage, skjoldbruskkjertelen, vaskulært vev, embryonale stamceller og hvit blodceller. Vi finner omfattende og svært differensial mønstre av lncRNA uttrykk i normale menneskelige vev (figur 3 og 4), som bekrefter en tidligere rapport fra vevsspesifikke ncRNA mønstre [34]. For eksempel ble lncRNA NCRNA00116 sterkt uttrykt i kontraktile vev, nemlig hjerte (TPM = 349) og muskel (TPM = 399). LncRNAs ENSG00000230658 og ENSG00000235621 viste svært høy uttrykket (TPM = 888) i placenta og spiserør (TPM = 820) henholdsvis, men lavt eller ikke målbart uttrykk i annet vev, noe som kan tyde på en vev-spesifikk rolle for disse transkripsjoner. Hjernen-forbundet og antatte tumor suppressor lncRNA matern uttrykt 3 (

MEG3

) [48], vises det høyeste uttrykk i hjernen i vårt datasett (TPM = 677), men viste lavt nivå uttrykk i andre vevstyper ( figur 4). Sammen er disse dataene antyder noen lncRNAs kan fungere i en vev-spesifikk måte.

Bare ~ 1% av lncRNAs ble allestedsnærværende uttrykt i alle undersøkte vev. Disse stadig uttrykt lncRNAs minner om uttrykk mønstre av «housekeeping» protein-kodende gener [49]. De elleve lncRNAs i tabell 1 ble uttrykt i minst 90% av 272 SAGE bibliotekene i vår datasettet, impliserer at disse transkripsjonene kan delta i felles biologiske prosesser. Men det absolutte uttrykk nivået varierte for hvert vev, noen ganger ved flere hundre TPM (figur 4). Dette tyder på visse lncRNAs kan være nødvendig på ulike cellulære nivåer i ulike vev eller under forskjellige forhold, mye som mange konstitutivt uttrykt proteinkodende gener [50], [51], [52]. Begrepet lncRNAs virker som konstitutivt uttrykt regulatorer har tidligere vært foreslått. For eksempel, er det lncRNA

XIST

kritisk for kvinnelig utvikling på grunn av den funksjonelle rolle i X-kromosomet inaktivering [47], [53]. Concordantly, en rekke av de mest aner og ofte uttrykt lncRNAs i vår datasettet har tidligere assosiasjoner med viktige biologiske prosesser, inkludert

NEAT1

, en strukturell stillas for paraspeckle formasjon [14], [54],

MALAT1

som regulerer alternativ spleising [31] og små nukleolært RNA vert gen 6 (

SNHG6

) som arrangerer en snoRNA, som funksjon i RNA modifikasjon [55]. Disse funnene tyder på at lncRNAs kan være kritisk til normalt vev vedlikehold og funksjon.

I denne kryss kreft typen analyse, fant vi at lncRNAs abnormt uttrykt i en bestemt kreft kan også endres i andre kreftformer. For eksempel, mens

MEG3

er sterkt uttrykt i normale hjernen vev, var dette lncRNA sterkt redusert i vår hjerne kreft datasett, og påfallende så i galleblæren, retinal og prostatakreft, i samsvar med den foreslåtte tumor suppressor rolle for

MEG3 product: [48], [56], [57]. I et annet eksempel miR155 vert gen (

miR155HG

), en lncRNA bearbeidet til miRNA

MIR-155

, var sterkt overuttrykt i B-cellelymfom i samsvar med tidligere rapporter [16], men også ble også oppregulert i spiserøret og galleblæren kreft.

lange ikke-kodende RNA er også implisert i reguleringen av embryogenese [58], [59], [60]. Foster lncRNAs reaktivert i kreftformer kan representere kritiske regulatorer av pluripotency eller cellevekst. For eksempel lncRNA urothelial kreft assosiert 1 (

UCA1

) har vist roller i både embryoutvikling og er innblandet i blærekreft, støtter dette konseptet [61]. I våre datasett, fant vi flere lncRNAs med lav uttrykk i normalt vev, men med høy uttrykk i både embryonale stamceller og kreft (tabell S12). Selv om disse reaktivert foster lncRNAs representert hovedsakelig uncharacterized eksempler,

H19

, en godt studert lncRNA med assosiasjoner både pattedyr utvikling og kreft [53], ble også påvist i vår datasettet. Interessant,

NEAT1

, som er konstitutivt og høyt uttrykt i normalt vev [34], [62], med unntak av embryonale stamceller, ble nedregulert i lunge, lever, spiserøret og retinal kreft (retinoblastom).

Siden genomiske presiseringer og slettinger er viktige mekanismer for genet deregulering i kreft, undersøkte vi endringer i lncRNA uttrykk i genomiske regioner ofte endret i bryst, hjerne og lungekreft. Sammenligning av signifikant (p 0,05) deregulert lncRNAs felles mellom hjernen, bryst og lunge kreft vev avslørt åtte lncRNAs ble ulikt regulert (≥2 ganger) sammenlignet med normalt vev. Forbløffende tre av disse lncRNAs – ENSG00000226380, ENSG00000230937 og ENSG00000253288 – ble plassert på 7q32.3, 1q32.2, og 8q24.23, henholdsvis i regionene helt blottet for proteinkodende gener. Som proteinkodende gener og mirnas, er det mulig at differensial lncRNA uttrykk er drevet av lignende mekanismer for avbrudd, inkludert kopiantall gevinst /tap eller avvikende metylering mønstre. Faktisk har høy forsterkning av lncRNA inneholdende loci som cytoband 19p12 blitt rapportert i brystkreft [63], mens høyt nivå av amplifikasjon 12p13.2 (som inneholder en rekke lncRNA loci) har blitt rapportert i bryst kreft, glioblastom, astrocytom og plateepitelkreft lungekreft [64], [65], [66], [67]. Likeledes har avvikende ekspresjon av en rekke lncRNAs vært knyttet til endrede mønstre metylering [68], [69]. Men mekanismen (e) kjører avvik lncRNA uttrykk forblir stort sett ukjent.

Mens lncRNAs har blitt dokumentert i nesten tre tiår, størrelse og mangfold av lncRNA uttrykket har først nylig blitt satt pris på. Det er anslått at lncRNAs i det menneskelige genom nummer i titusener, effektivt doble antall potensielle genet mål i kreft genekspresjon nettverk. Stor skala, på tvers av vev og kreftstudier er avgjørende for å forstå regulering av lncRNA uttrykk og hvordan disse nye utskrifter integreres med vår nåværende forståelse av pattedyr transkriptom. Videre vil en dypere forståelse av lncRNA uttrykk ikke bare utvide antall potensielle mål kreftgener, men også legge til rette for utvikling av nye anti-kreft behandlinger, for eksempel genregulering mediert av antisense RNA [70] eller målretting lncRNA-protein interaksjoner [28 ].

Materialer og metoder

SAGE biblioteker

Denne studien bruker offentlig tilgjengelige SAGE biblioteker for dataanalyse. Totalt 360 SAGE biblioteker, inkludert 324 fra Kreft Genome Anatomy Project (CGAP) SAGE biblioteksamlingen (GSE15309), 19 lunge bronkialepitelet bibliotek (GSE3707), 13 lungekreft bibliotek (GSE7898) og 4 aldri røyker bronkialepitelet biblioteker (GSE5473 ), ble lastet ned fra GEO (tabell S1). Biblioteker konstruert fra ikke-humane prøver, samt lang SAGE og SAGE-seq bibliotekene ble ikke brukt i denne studien. For å lette direkte sammenligning Sage bibliotekene ble filtrert for å beholde bare de bibliotekene med 50.000 rå tag teller som resulterer i 272 biblioteker egnet for analyse (tabell S2)

Long ikke-kodende RNA referanseliste

lncRNA oppdagelse rørledningen er basert på en referanseliste på menneske lncRNAs kuratert av den elektroniske genomisk database Ensembl utgivelse 62, bygget på Genome Reference Consortium slipper GRCh37 [71]. Den lncRNA referanseliste ble samlet fra 1,239 Ensembl (V62) IDer utpekt som «lincRNAs «(lange intergeniske ikke-kodende RNA, en underklasse av lncRNAs) og 8,652 Ensembl IDer (V62) er utpekt som» bearbeidet transkripsjoner» for totalt 9,891 lncRNAs (tabell S4). Alle lncRNAs brukes til søket SAGE bibliotekene ble Ensembl kuratert transkripsjoner uten en forutsagt åpen leseramme. Sekvensene til alle lncRNA transkripsjoner ble hentet fra Ensembl (V62) med Biomart data management system.

SAGE tag-til-genet kartlegging

Custom Perl-skript ble brukt til å lage et uttrykk matrise av de unike SAGE kodene over de 272 bibliotekene (Perl-skript: getuniquetags.pl og makeTable_April20.pl). Sage kodene ble kartlagt til Unigene IDer ved hjelp av tilpassede Perl-skript og en kort SAGE kartlegging fil (tilordningsfilen: Hs_short) lastet ned fra SAGE Genie (https://cgap.nci.nih.gov/SAGE), for å skape en matrise av Unigene ID kartlagt tags og en matrise av kartlagte tags (Perl-skript: extractUnmappedTags_Unigene). De to uttrykk matriser av kartlagte koder og Unigene kartlagt koder ble uavhengig filtrert for å beholde bare tagger med rå tag tellinger av to eller flere, vises i minst 3 SAGE biblioteker.

For Unigene kartlagt tags, genet identifikatorer var tildelt Unigene ID-er med SAGE Genie. Fra dette datasettet, tagger kjent eller kandidat lncRNAs ble hentet manuelt. Kandidat lncRNAs er Unigene IDer uten genet navn eller matchende ett eller flere av følgende beskrivelser: «ikke-kodende», «ikke-protein «,» cDNA», «transkriberes locus», «klone BILDE», «chr (#) oRF (#) «,» hypotetiske «,» familie med sekvenslikhet «,» FLJ (#) «, eller» KIAA (#) «. Kandidaten lncRNA kodene ble slått sammen med kartlagte koder og brukes som et enkelt datasett for å identifisere sekvensen passer til lncRNA referanselisten.

tag-til-genet kartlegging program SeqMap ble brukt til å identifisere perfekt (0 uoverensstemmelser) tag kamper til karakterutskriften sekvenser fra referanse lncRNA listen. Tags kartlegging for å lncRNAs ble filtrert for å beholde de som tilsvarer den frem ( «fornuft») tråd, mens omvendt tag kampene ikke bekrefte uttrykk for kandidat lncRNAs og ble ikke analysert videre. Termin tråd koder som er tilordnet lncRNAs ble deretter kombinert med de Unigene koder som er tilordnet lncRNAs å skape et uttrykk matrise av SAGE tags kartlegging til lncRNAs. Denne matrisen ble omadressert til lncRNA referanseliste for å bekrefte nøyaktig tag-til-lncRNA kamper.

Data pre-prosessering

I tilfeller der flere koder kartlagt til samme lncRNA, kodene ble komprimert ved å summere tag teller å fange opp alle lncRNA transkripsjon varianter og isoformer (Perl script: sumRows.pl). SAGE tags kartlegging til flere lncRNA ble forkastet. Rå tag teller hver SAGE-biblioteket ble normalisert til TPM til rette for tilstrekkelig sammenligning mellom bibliotekene. Andre uttrykk matriser inkluderte bare SAGE biblioteker av interesse for en gitt analyse, samtidig som du fjerner kolonner med uønskede SAGE biblioteker. Disse submatrices ble filtrert for å fjerne lncRNAs med uoppdaget uttrykk. Når et vev eller kreft var representert ved mer enn en SAGE-bibliotek, ble den normaliserte TPM gjennomsnitt.

Legg att eit svar