PLoS ONE: Identifikasjon av Druggable Kreft Driver Gener Amplified over TCGA Datasets

Abstract

The Cancer Genome Atlas (TCGA) prosjekter har utvidet vår forståelse av driver mutasjoner, genetiske bakgrunn og viktige veier aktiverte over krefttyper . Analyse av TCGA datasett har hovedsakelig fokusert på somatiske mutasjoner og trans, med mindre vekt på genet presiseringer. Her beskriver vi en bioinformatikk screening strategi for å identifisere mulige kreft driver gener forsterket over TCGA datasett. Vi har utført GISTIC2 analyse av TCGA datasett som strekker seg over 14 kreft subtyper og identifisert 461 gener som ble forsterket i to eller flere datasett. Listen ble redusert til 73 kreftassosierte gener med potensielle «druggable» egenskaper. Flertallet av genene ble lokalisert til 14 amplikonene spredt over hele genomet. For å identifisere potensielle kreft driver gener, analyserte vi genkopitallet og mRNA uttrykk data fra individuelle pasientprøver og identifisert 40 mulige kreft driver gener knyttet til ulike onkogene prosesser. Onkogen aktivitet ble ytterligere validert av siRNA /shRNA knockdown og ved å referere Project Achilles datasett. De forsterkede genene representert en rekke gener familier, inkludert epigenetiske regulatorer, cellesyklusassosierte gener, DNA-skade svar /reparasjonsgener, metabolske regulatorer, og gener knyttet til Wnt, Notch, pinnsvin, JAK /STAT, NF-kB og MAPK signalveier. Blant de 40 antatte sjåføren gener ble kjent driver gener, for eksempel

EGFR

,

ErbB2 Hotell og

PIK3CA

. Villtype

KRAS

ble forsterket i flere krefttyper, og

KRAS

-amplified kreftcellelinjer var mest følsomme for

KRAS

shRNA, noe som tyder på at

KRAS

forsterkning var en selvstendig onkogen hendelse. En rekke MAP kinase adaptere ble samtidig forsterket med sine reseptor tyrosin kinaser, slik som FGFR adapter

FRS2 Hotell og EGFR familien adapter

GRB7

. Den ubiquitin-like ligase

DCUN1D1

og histon metyltransferase

NSD3

ble også identifisert som nye mulige kreft driver gener. Vi diskuterer pasienten skreddersy implikasjoner for eksisterende kreft narkotika mål og vi videre diskutere potensielle nye muligheter for drug discovery innsats

Citation. Chen Y, McGee J, Chen X, Doman TN, Gong X, Zhang Y, et al. (2014) Identifisering av Druggable Cancer Driver Gener Amplified over TCGA datasett. PLoS ONE 9 (5): e98293. doi: 10,1371 /journal.pone.0098293

Redaktør: Masaru Katoh, National Cancer Center, Japan

mottatt: 6 mars 2014; Godkjent: 30 april 2014; Publisert: 29. mai 2014

Copyright: © 2014 Chen et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien ble finansiert av Eli Lilly and Company. Den Funder gitt støtte i form av lønn for alle forfattere, men har ikke noen ekstra rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet. De spesifikke roller disse forfatterne er formulert i § forfatterens bidrag

Konkurrerende interesser. Denne studien ble fullfinansiert av Eli Lilly and Company, arbeidsgiver for alle forfattere. Det finnes ingen patenter, produkter under utvikling eller markedsført produkter å erklære. Dette endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer, som beskrevet på nettet i veiledningen for forfatterne.

Innledning

Nye fremskritt i DNA-sekvenseringsteknologi har aktivert sekvensering av hele kreft genomer og identifikasjon av vanlige muterte, forsterket, og slettede gener på tvers av krefttyper. Kreft Genome Atlas (TCGA) innsats ble satt opp for å sekvensere og analysere flere tusen enkelt kreft, noe som gir et øyeblikksbilde til sykdomsspesifikke genetiske bakgrunn og kreft drivere [1] – [6]. Integrert analyse av TCGA datasett identifisert 127 betydelig muterte kreftassosierte gener som representerer forskjellige biologiske trasé og cellulære prosesser [6]. Det gjennomsnittlige antall driver mutasjoner per tumorprøve var 5:58, noe som tyder på at et lite antall av muterte gener som driver kunne indusere karsinogenese [6]. I brystkreft, bare tre gener (

GATA3

,

PIK3CA

, og

TP53

) ble funnet å være mutert i 10% insidens på tvers av alle pasient svulster. Videre analyser avslørte pathway-spesifikke genetiske driver mutasjoner i brystkreftundertyper, for eksempel

BRCA1 /2

endringer og

PIK3CA

endringer i basal-lignende og luminal brystkreft, henholdsvis [4]. I kolorektal kreft, ble tjuefire gener som vanligvis mutert, og de fleste av genene kartlagt til Wnt, TGF-b, PI3K, og p53 RAS signalveier [3]. I lungekrefttilfellene ble elleve gener ofte mutert, inkludert

TP53

, oksidativt stress responsgener og plateepitel differensiering gener [1]. Disse studiene har belyst i de store genetiske driverne av kreft subtyper og har også identifisert potensielt druggable trasé knyttet til disse subtyper. Fremskritt vil akselerere narkotika utvikling ved å tilby nye pasient skreddersy strategier for sti-spesifikke hemmere. Imidlertid har studier TCGA hovedsakelig fokusert på mutasjoner og sjeldne translokasjoner, med mindre oppmerksomhet plassert på genet amplifikasjoner i kreft. Siden genamplifisering er en viktig mekanisme for kreftutvikling, forsøkte vi å utvinne TCGA datasett for å identifisere nye mål og drivere forsterket over krefttyper.

Geneamplifikasjon i kreftceller gir et middel for overekspresjon av kreftfremmende driver gener , slik som

EGFR Hotell og

ErbB2

på kromosomer 7 og 17, henholdsvis. Genamplifisering oppstår somatisk i et begrenset område av kreft genomet gjennom ulike mekanismer, som for eksempel brudd-fusjons-broer sykluser [7]. Disse utdypes regioner, kjent som amplikonene, kan span kilobaser til titalls megabases og kan inkludere flere onkogene gener samt passasjer gener i de forsterkede regionene [8]. Lengden av amplikonene kan variere alt vesentlig basert på den genomiske lokuset og krefttype. For eksempel, enkelt gen forsterkning av

KIT

på kromosom 4 kan forekomme i testikler svulster [9], men likevel større amplikonene inneholder

KIT

,

PDGFRA

, og

DDF

forsterkes i glioblastom [10]. Fordi amplikonene ofte inneholder mange gener, inkludert passasjer gener som ikke er knyttet til onkogenese, er det ofte vanskelig å identifisere kreft driveren gen (er) som er ansvarlig for forsterkning. Strategier for å identifisere kreftgener kjører en amplicon inkluderer kartlegge minimal regionen forsterkning (MRA) over mange tumorprøver, identifisere positiv korrelasjon mellom antall kopier og mRNA uttrykk av gener, og eksperimentell validering med siRNA /shRNA knockdown i cellene. Slike analyser har hittil identifisert forsterket gener med en påvist rolle i kreftutvikling [7]. Imidlertid har de fleste analyser hittil støttet seg på små utvalg størrelser, som resulterer i store MRAs og potensielle falske positive gener. De TCGA datasett tilbyr en unik samling av tumorprøver med store utvalgsstørrelser for å identifisere forsterket kreftdriver gener i forskjellige krefttyper.

Her beskriver vi en bioinformatikk screening strategi for å identifisere potensielt druggable kreft driver gener forsterket over TCGA datasett. Vi brukte GISTIC2 analyse av TCGA datasett (cBio portal) og identifisert 461 gener som var statistisk forsterket i to eller flere TCGA datasett som består av 14 krefttyper. Gener med antatte eller verifisert roller i kreft ble identifisert ved hjelp av kreftgener cBio database. Vi tildelt en druggability poengsum for hvert gen ved å integrere data fra fire eksterne druggability indekser. Fra 461 gener, identifiserte vi 73 potensielt druggable forsterket gener med en kjent eller antatt rolle i kreftutvikling. Vi så brukt korrelasjonsanalyse med kopiantall og mRNA-ekspresjon av data fra flere tusen TCGA pasientprøver for å identifisere potensielle kreft driver gener blant listen. Dette resulterte i identifisering av 40 mulige kreft driver gener knyttet til ulike onkogene prosesser, herunder epigenetiske regulatorer, cellesyklusassosierte gener, DNA-skade svar /reparasjonsgener, metabolske regulatorer, og gener knyttet til Wnt, Notch, pinnsvin, JAK /STAT, NF-kB og MAPK signalveier. Den antatte kreft driver aktivitet ble ytterligere bekreftet ved å gå inn shRNA hårnål aktivitet i kreftcellelinjer ved hjelp av prosjekt Achilles [11]. Ytterligere kontroll ble utført på et undersett av gener ved hjelp av siRNA /shRNA knockdown i cancercellelinjer som inneholder genamplifikasjon av interesse. Blant de 40 antatte sjåføren gener ble kjent driver gener, for eksempel

EGFR Hotell og

ErbB2

, samt nye mål, slik som

DCUN1D1 Hotell og

NSD3

.

KRAS

, en fremstående kreft driver med kjente aktiverende mutasjoner i kreft [12], ble funnet å bli forsterket i en undergruppe av ovarial, mage, lunge og livmor kreft. Vi diskuterer konsekvensene for drug discovery innsats og vi identifisere nye pasient skreddersy strategier for eksisterende terapeutiske mål.

Materialer og metoder

Bioinformatikk analyse

TCGA datasett fra 14 kreft subtyper var analysert for genamplifisering ved hjelp av GISTIC2 algoritmen i cBio portalen (https://www.cbioportal.org). De 14 kreft subtyper inkluderer BLCA – Blære urothelial Carcinoma, BRCA – Breast invasivt karsinom, CRC – tykktarmskreft (coad og lese studier kombinert sammen), GBM – glioblastoma multiforme, HNSC – Head and Neck plateepitelkarsinom, KIRC – Nyre nedsatt klarcellet karsinom, LGG – Brain Nedre Grade Glioma, LUAD – Lung adenokarsinom, LUSC – Lung plateepitelkarsinom, OV – Ovarian serøs cystadenocarcinoma, Prad – Prostate adenokarsinom, SKCM – Skin Kutan melanom, STAD – magen adenokarsinom, og UCEC – livmoren endometrioid carcinoma . Gener som ble forsterket i to eller flere TCGA studier ble slått sammen for å lage en liste over 461 gener. Nivå 3 SNP6 og RNAseq versjon 2 data ble hentet fra TCGA nettside, og nivå 3 SNP6 data ble videre kartlagt til gennivå bruker R pakke CNTools. Pearson korrelasjonskoeffisienter for genkopitallet (SNP6) versus genuttrykk (RNASeq) ble beregnet for gener av interesse ved hjelp av funksjonen cor () i R. dataanalyse koden i R og glaner kan leveres på forespørsel. Hvert gen ble tildelt en druggability poengsum basert på data fra de eksterne databaser Ensembl, Interpro-Blast, BioLT-Drugbank og Qiagen Druggability liste. For hver database, ble et gen gitt en 0-4 druggability poengsum, der 0 er undruggable og 4 er et etablert medikament mål. Et gen med et «1» druggability stillingen i noen av de fire databasene ble ansett som «potensielt druggable», og som inngår i den endelige genet listen. Genet Listen ble også lastet opp til kreftgener database (cBio portal) og gener knyttet til onkogenese ble inkludert i den endelige genet listen.

Prosjekt Achilles

Prosjekt Achilles består av shRNA utarming Stillingen fra en sammenslått genomisk bibliotek testet over et panel av kreftcellelinjer [11]. Vi har utviklet en metode for å score gen avhengighet i hver cellelinje ved å vekte hver hårnål i henhold til graden av konsistens med andre hårnåler utformet mot det samme gen, på en måte lik den som er beskrevet av Shao et. al [13]. Vi tenkte at hvis tumorcellelinjer variert i avhengighet sin på en bestemt driver gen, bør deretter hårnåler effektivt rettet mot at genet gi lignende shRNA utarming score i de avhengige linjer. Vi beregnet parvise korrelasjoner av utarming skårer over panelet for alle hårnåler fra gruppen av shRNA konstruksjoner utformet for å målrette et bestemt gen. Så hver shRNA ble vektet med antall andre shRNAs fra genet sett som var sterkt korrelert til det (Spearman korrelasjonskoeffisient er større enn 0,35 med en p-verdi 0,01). Et gen-nivå sammensatt score (shRNA score) ble deretter oppnådd ved vektet summering av shRNA uttømming score. Disse genet avhengighets profiler ble brukt til å beregne sannsynligheten ratio score for foreningen av genmutasjoner eller kopiantall med shRNA følsomhet ved å sammenligne genmutasjon modellen til en «null-modellen» (uten genmutasjon).

Cells

Celler ble oppnådd fra American Type Culture Collection (ATCC) og ble dyrket i Dulbeccos modifiserte Eagles medium (DMEM) medier supplert med 10% føtalt bovint serum. Forsterket og ikke-amplifiserte cellelinjer ble valgt for hver kreft amplifikert gen av interesse. For hver kreft forsterket genet, cellelinjene brukes til valideringsstudier og deres tilsvarende genet kopiantall er som følger: (1)

NSD3

: H1581 (7 eksemplarer), H1703 (6 kopier), SW48 (5 eksemplarer ), SW837 (ikke forsterket); (2)

DCUN1D1

: KYSE (6 kopier), T47D (4 eksemplarer), SW48 (ikke forsterket), HCT15 (ikke forsterket). Kopitallverdier ble oppnådd fra publiserte CCLE datasett [14].

Gene knockdown

For genet knockdown gener, brukte vi shRNA lentiviral transduksjon partikler som er kjøpt fra Sigma (Mission, SHCLNV).

DCUN1D1

shRNA konstruerer var TRCN0000133666, TRCN0000134440, TRCN0000134715, TRCN0000136858, og TRCN0000137482. For

NSD3

knockdown studier, brukte vi On-Targetplus SMARTpool siRNA rettet mot menneskelig Nsd3 (Thermo Scientific). Celler ble infisert med lentiviral shRNA partikler ved multiplisitet av infeksjon (MOI) i området 5-10, i nærvær av 10 ug /ml polybrene. siRNA /shRNA forsøk ble utført i henhold til etablerte protokoller [15].

cellebaserte analyser

Antistoffer benyttet for Western blot-analyse er kanin-anti-DCUN1D1 (Sigma, HPA035911), kanin anti- WHSC1L1 (Proteintech, 11345-1-AP). Western blot ble utført i henhold til konvensjonelle protokoller. Celleproliferasjon og apoptose ble utført med Cell Titer Glo og caspase Glo analyser (Promega) i henhold til produsentens instruksjoner. Cellesyklus analyse ble utført med propidiumjodidfarging av kreftcellelinjer med konvensjonelle protokoller [15].

Resultater

Identifikasjon av genet presiseringer i TCGA datasett

TCGA datasett bestående av 14 krefttyper ble analysert med GISTIC2 algoritme (cBio portal) for å identifisere genet presiseringer i pasienttumorprøver. Gener ble bedømt for statistiske sannsynligheten for forsterkning, og de gener som viser forsterkning i to eller flere datasett ble identifisert (figur 1). Totalt 461 gener ble identifisert som potensielt forsterket gener (Tabell S1). I noen tilfeller flere gener (f.eks

CD274 Hotell og

NDUFC2

) ble forsterket i to eller flere datasett som stammer fra en enkelt kreft subtype (Figur 1, Tabell S1). Genet listen ble ytterligere redusert ved å identifisere undergruppe av gener med etablerte eller antatte roller i onkogenese samt gener som var potensielt druggable. For det første genet listen var kryss-referert til kreftgener database (cBio portal), som viste at mindre enn 25% av de 461 genene var knyttet til onkogenesen. Deretter ble genene tildelt en druggability poengsum basert på druggability indekser fra fire eksterne databaser (Ensembl, Interpro-Blast, BioLT-Drugbank og Qiagen Druggability liste). For hver database, ble et gen gitt en 0-4 druggability poengsum, der 0 er undruggable og 4 er et etablert medikament mål. Et gen med et «1» druggability stillingen i noen av de fire databasene ble ansett som «potensielt druggable», og som inngår i den endelige genet listen. Fra analysen, ble totalt 73 potensielt druggable kreft forsterket gener identifisert over TCGA datasett (figur 1).

TCGA datasett ble utvunnet for genamplifisering (GISTIC2 analyse, cBio portal) og 461 genet presiseringer ble identifisert . Listen ble redusert til 73 gener kreftrelaterte gener som var potensielt «druggable» basert på eksterne druggability databaser. Fra de 73 genene ble 40 antatte kreft driver gener identifisert basert på kopiantall versus mRNA uttrykk analyse av TCGA data.

De 73 kreft forsterkede gener ble plassert over genomet og flertallet av genene gruppert i sykdom loci (figur 2). Av de 73 genene, 57 gener gruppert i 14 loci over hele genomet og de resterende 18 gener var brenn presiseringer. I en klynge, genene hadde en tendens til å bli forsterket i tilsvarende krefttyper. For eksempel, et kromosom 20Q klynge bestående av fire gener (

PTK6

,

SRMs

,

RTEL1

, og

PRPF6

) ble alle forsterket i livmor /endometrial kreft og lunge adenokarsinomer. En kromosom 1q klynge inneholdt 12 gener, for eksempel

SETDB1

,

BCL9

,

PIAS3

, og

MCL1

, og 11 av de 12 genene var forsterkes i lunge plateepitel kreft og kreft i urinblæren (figur 2). Et godt studert klynge på kromosom 4. kvartal inneholder

PDGFRA

,

KIT

, og

KDR

ble forsterket i glioma og melanomer [10]. På grunn av stringens anvendes i Gistic2 analyse, vi sannsynligvis underkrefttyper, hvor en genamplifikasjon inntraff. Derfor er det sannsynlig at de 73 kreftgener vi identifisert ble forsterket i flere krefttyper som ikke er representert her (figur 2).

Fra den første listen over 461 gener forsterket i en eller flere TCGA datasett, 73 forsterkede gener var identifisert med potensielt «druggable» egenskaper så vel som etablerte /antatte roller i onkogenese. Gener /amplikonene er arrangert av kromosomal beliggenhet, med deres genomisk plassering markert som vist (Mb = Megabase). Fargede boksene viser krefttyper med TCGA betegnelser, som følger: BLCA – Blære urothelial Carcinoma, BRCA – Breast invasivt karsinom, CRC – tykktarmskreft (coad og READ studier kombinert sammen), GBM – glioblastoma multiforme, HNSC – Head and Neck plateepitelkarsinom , KIRC – nyre nedsatt klar cellekreft, LGG – Brain Nedre Grade Glioma, LUAD – Lung adenokarsinom, LUSC – Lung plateepitelkarsinom, OV – Ovarian serøs cystadenocarcinoma, Prad – Prostate adenokarsinom, SKCM – Skin Kutan melanom, STAD – magen adenokarsinom, UCEC – Livmor Corpus endometrioid Carcinoma

Blant de 73 kreft forsterket gener var en rekke etablerte narkotika mål, for eksempel

EGFR

,

ErbB2 Hotell og

KIT product: (figur 2).

ErbB2

på kromosom 17 ble forsterket i 5 krefttyper og var co-forsterket med MAP kinase adapter

GRB7 Hotell og

PPP1R1B

.

EGFR

på kromosom 7 ble amplifisert som et enkelt gen i 7 krefttyper, validere viktigheten av dette stoffet målet i kreft [16]. Listen omfattet også en rekke mål for tiden i klinisk utvikling på tvers av bransjen, slik som

CDK6

,

PIK3CA

,

PIK3C2B Hotell og

NOTCH2

.

CDK6

på kromosom 7q ble forsterket som et enkelt gen i lunge plateepitel kreft og glioblastom, mens

PIK3CA

bodde på et kromosom 3Q klynge med 6 andre gener og ble forsterket i flere krefttyper (Figur 2) [17]. Flere tidligere validerte kreft forsterket gener, for eksempel

FAK Twitter /

PTK2

, ble ikke identifisert i analysen, delvis på grunn av høy stringens som ble brukt til bioinformatikk analyse for å redusere falske positive treff [18].

Identifikasjon av forsterket kreftgener med antatt kreft driver aktivitet

Fordi noen av de genene som er identifisert som kreft forsterket gener kan være passasjer gener i amplikonene, vi videre analysert genet sett å identifisere mulige kreft driver gener. Dette ble gjort ved å beregne Pearson korrelasjonskoeffisient mellom kopiantall og mRNA-ekspresjon verdi fra TCGA pasienttumordata. Korrelasjonskoeffisientene ble beregnet for hver av de 14 krefttypene og de gjennomsnittlige korrelasjoner på tvers av alle krefttyper ble beregnet (figurene 3-4). Analysen viste et bredt spekter av kopiantall i forhold til mRNA-ekspresjon korrelasjoner for genene. Putative kreft driver gener var forventet å vise høyt kopiantall i forhold til mRNA-ekspresjon korrelasjon. Validerte kreft førere som

ERRBB2

,

EGFR

, og

KRAS

demonstrert høykopiantall versus mRNA uttrykk korrelasjon i de tilsvarende krefttyper de regulerer (

erbB2

r = 0,9 i brystkreft,

EGFR

r = 0,8 i lunge adenokarsinom,

KRAS

r = 0,9 i eggstokkreft) (Figur 3-4).

Pearson korrelasjonskoeffisienter ble beregnet ved å analysere genkopitallet og mRNA uttrykk fra den enkelte pasient-avledet prøver i TCGA datasett. Vist er de korrelasjonskoeffisienter for hver TCGA kreft subtype og gjennomsnittlig korrelasjon på tvers av alle krefttyper (rød betegner høy korrelasjon, betegner blå lav korrelasjon). Forkortelser av TCGA datasett er oppført i Figur 1.

Pearson korrelasjonskoeffisienter ble beregnet ved å analysere genkopitallet og mRNA uttrykk fra den enkelte pasient-avledet prøver i TCGA datasett. Vist er de korrelasjonskoeffisienter for hver TCGA kreft subtype og gjennomsnittlig korrelasjon på tvers av alle krefttyper (rød betegner høy korrelasjon, betegner blå lav korrelasjon). Forkortelser av TCGA datasett er oppført i Figur 1.

Kopien antall versus uttrykk analyse avslørte potensielle driver gener som ble forsterket i genet klynger. For eksempel kromosomet 1q klynge med 12 forsterkede gener inneholdt 4 gener med kopi nummer vs. uttrykk korrelasjon større enn 0,5 (

SETDB1

,

ARNT

,

APH1A

, og

CHD1L

), noe som tyder på at disse kan være driver genene i amplicon (figur 3). Blant de 12 genene,

SETDB1

viste den høyeste samlede korrelasjon, i samsvar med de siste rapportene at

SETDB1

er en kreft forsterket gen med demonstrert driver aktivitet [19], [20]. De tre andre gener kan også spille potensielt betydelige roller i kreftutvikling –

APH1A

er en gamma secretase kompleks subenheten i Notch vei,

ARNT

er en underenhet i HIF1 komplekse, og

CHD1L

er en DNA-helikase i den DNA-skade responsen pathway [21]. Fire gener i amplicon vises kopiantallet versus uttrykk korrelasjon mindre enn 0,3 (

PDE4DIP

,

S100A11

,

S100A9

, og

S100A8

) (Figur 3). Kromosomet 3 klynge med 7 gener inneholdt 2 gener med kopi nummer versus uttrykk korrelasjon større enn 0,5 (

DCUN1D1 Hotell og

PRKCI

) og 4 gener med kopi nummer versus uttrykk mindre enn 0,3 (

TERC

,

SKIL

,

GNB4

, og

SOX2

).

PRKCI

er en serin /treonin kinase i NF-KB sti og tidligere vevet microarray data validert dette genet som en potensiell ny kreft driver genet [22].

DCUN1D1

er en E3 ubiquitin ligase kompleks underenhet med potensiell kreft driver aktivitet, som vi videre validert med shRNA knockdown (nedenfor). Mens

PIK3CA

vises en samlet korrelasjonskoeffisient 0,4, det vises høy korrelasjon i brystkreft (r = 0,9), hode og nakke plateepitel lungekreft (r = 0,8), og livmor /livmorkreft (r = 0,7) ( Figur 3).

kromosom 11q klynge inneholdt 5 gener, inkludert

CCND1

, et veletablert cellesyklus regulator og onkogen driver. Mens

CCND1

vises høykopiantall versus uttrykk sammenhenger i leverkreft (r = 1,0), blærekreft (r = 0,8), lunge squamous kreft (r = 0,7), hode og nakke Caner (r = 0,7) og brystkreft (r = 0,7), korrelasjonene var lavere i andre krefttyper, noe som tyder på at

CCND1

forsterkning er en sykdomsspesifikk onkogen driver (figur 3). To andre gener i fragment,

FADD

, og

PPFIA1

, vises høyere samvariasjon over krefttyper, impliserer disse genene som potensielle nye kreft drivere for videre undersøkelser.

FADD

, en apoptotisk effektor molekylet, ble tidligere identifisert som en roman kreft driver genet i et panel av 167 strupe /svelg kreft, berettiger videre etterforskning i sin mekanisme onkogenese [23]. Det er viktig å merke seg at korrelasjonen av mRNA-ekspresjon til kopitall er ikke avgjørende i prinsippet for et gen for å være en kreft driver genet. Derfor gener med lav mRNA-ekspresjon i forhold til kopitall korrelasjon er ikke nødvendigvis passasjer gener. For eksempel, inneholdt kromosomet 1q klyngen

MCL1

, et gen med en kreft driver signatur basert på prosjekt Achilles (data ikke vist), men med en midlere mRNA-ekspresjon i forhold til kopiantall korrelasjon på 0,31.

for å identifisere de forsterkede kreftgener med høyeste samlede kreft driver aktivitet, rangert vi genene i orden av høyeste kopiantall versus mRNA uttrykk sammenheng på tvers av alle krefttyper. Vi identifiserte 40 gener med generell r er større enn 0,3 (tabell 1). R = 0,3 cutoff ble brukt fordi flere gener påvist høy r i et lite antall krefttyper. For eksempel

FGFR3

vises r 0,7 i fire kreft (blærekreft, glioblastom, lunge plateepitel, og melanom), men r 0,5 i andre kreftformer. Tilsvarende

CDK6

demonstrert r 0,7 i bare 4 kreft (glioblastom, hode- og halskreft, lunge adenokarsinom og lunge plateepitel kreft) mens

IGF1R

hadde r 0,7 i bare ett kreft ( brystkreft) (figur 3-4). Blant de 40 gener med høyest kreft driver aktivitet, de to øverste mest høyt rangert gener var

NSD3 Twitter /

WHSC1L1 Hotell og

SETDB1

, to viktige histone metyltransferaser (tabell 1) . Mens

SETDB1

ble nylig etablert som en bona fide forsterket kreft driver i melanom og lungekreft [19], [20], rollen

NSD3 Twitter /

WHSC1L1

har ikke godt karakterisert og så vi validert sin onkogen rolle in vitro (nedenfor) videre. To andre kromatin regulatorer, kromatinet leseren Brd4 og histon acetyltransferase

YEATS4

, ble også høyt rangert som mulige kreft driver gener. Andre genfamiliene som var representert på listen inkluderer Notch pathway gener (

NOTCH2

,

APH1A

), metabolske regulatoriske gener (

NDUFC2

,

PRKAB2

), Hedgehog pathway gener (

DCUN1D1

), wnt pathway gener (

BCL9

), NF-kB pathway gener (

ERC1

,

PRKCI

,

IKBKB

), JAK /STAT pathway gener (

PIAS3

), MAPK signale effektorer (

KRAS

,

FRS2

,

GRB7

), reseptor tyrosin kinaser (

FGFR3

,

EGFR

,

ErbB2

,

IGF1R

), DNA-skade svar /reparasjonsgener (

RAD51AP1

,

RTEL1

,

ERCC5

,

RAD52

,

CHD1L

), p53-assosiert gener (

MDM2

MDM4

,

GTPBP4

), og cellesyklusregulerende gener (

CCNE1

,

TPX2

,

CCND3

,

CDK6

) (tabell 1).

kopiantallet områder av kreft forsterket gener ble analysert i enkelt TCGA pasient svulster å fastslå omfanget av genet forsterkning (fig. S1, S2) . Noen gener viste høyt nivå forsterkning tilsvarer 10-20 genkopier, mens andre gener vises lave nivå 3-8 eksemplar nummer presiseringer. Kromosomet 1Q fragment, som inneholdt

PRKAB2

,

APH1A

,

ARNT

, og

SETDB1

, viste lavt nivå forsterkning (3-10 eksemplarer) , mens kromosom 12q fragment, som inneholdt

MDM2

,

YEATS4

, og

FRS2

, viste høyt nivå forsterkning (10-20 eksemplarer) (fig. S1, S2 ). Andre gener med høyt nivå presiseringer inkluderer

PRKAB2 product: (6-10 eksemplarer i eggstokkreft),

MDM4

(10-30 eksemplarer i glioblastom),

MDM2 plakater (10- 15 eksemplarer i lunge adenokarsinom),

PIK3CA product: (5-20 eksemplarer i lunge plateepitel kreft),

DCUN1D1

(5-15 eksemplarer i lunge plateepitel kreft),

FADD

og

PPFIA1 plakater (hver med 5-10 eksemplarer i hode- og halskreft),

NDUFC2 product: (5-15 eksemplarer i eggstokkreft), og

RAP1B plakater (5- 15 eksemplarer i lunge adenokarsinom). MAP-kinase assosiert gener viste også høy forsterkning, med reseptortyrosinkinaser

ErbB2

,

IGF1R

, og

EGFR

alle sterkt forsterket, som forventet. De MAP kinase adapterproteiner

FRS2 Hotell og

GRB7

ble også sterkt forsterket (10-20 eksemplarer i lunge adenokarsinom og brystkreft, henholdsvis). Cellecyklus regulatorer, for eksempel

CCNE1 plakater (10-20 kopier i eggstokk-kreft), ble også sterkt forsterket, som forventet. I tillegg til kopitallet områder, ble frekvensen av genamplifisering i pasient tumorer beregnet ved hjelp av kopitallet 4 som en grenseverdi for forsterkning (fig. S4). Et betydelig antall gener ble forsterket i mer enn 30 prosent av kreftpasienter, inkludert

DCUN1D1 plakater (43% av lungekreft plateepitel kreft),

FADD Hotell og

PPFIA1 plakater (~ 30% av hode og nakke kreft), og

PRKCI plakater (36% av lungekreft plateepitel kreft) (fig. S4). Mens forsterkning var den primære genomisk endring for disse genene, en rekke gener også gjennomført somatiske mutasjoner, for eksempel

PIK3CA

,

KRAS Hotell og

NOTCH2

. I disse tilfellene, de presiseringer og mutasjoner var i stor grad gjensidig utelukkende (Fig. S4).

MAPK pathway forsterket gener

De 73 kreft forsterket gener ble videre analysert ved shRNA validering for å kontrollere kreft driver aktivitet . Prosjekt Achilles er en stor skala forsøk på å katalogisere genetiske sårbarheter i kreftcellelinjer ved hjelp av et genom-wide shRNA biblioteket for å identifisere gener som påvirker kreftcelle overlevelse /spredning [11]. Vi minelagt Achilles å avgjøre hvilke av de 73 kreft forsterkede gener kan spille en rolle i kreft celle overlevelse /spredning. Achilles bibliotek består av flere shRNA hårnåler og vi beregnet en sammensatt shRNA poengsum basert på effekten av flere lentiviral shRNA hårnåler på infiserte kreftcellelinjer. Gener som viste en lav shRNA poengsum i infiserte cellelinjer er antatt å være viktige for kreftcelleoverlevelse og kan representere mulige kreft drivere. De shRNA score er bare gyldig når flere shRNA hårnåler konsekvent demonstrere kreftcelle hemming (kalt «store sammenhengen»). Achilles ble forespurt med 73 gener og disse gener med «stor korrelasjon» shRNA aktivitet ble identifisert, og deres shRNA score ble beregnet over flere hundre kreftcellelinjer (Fig. S3). Flere gener hatt negative shRNA score over de fleste kreftcellelinjer og var antagelig avgjørende for kreft celle overlevelse /spredning. Disse genet inkludert

KRAS

,

PRKAB2

,

GRB7

,

BRD4

,

PRPF6

,

BCL9

PPFIA1 Hotell og

NOTCH2

. Andre gener viste negative shRNA score i en undergruppe av kreft cellelinjer, slik som

CCND1

,

NDUFC2

,

YEATS4

,

GTPBP4

, og

CHD1L plakater (fig. S3). I disse tilfellene er videre validering med siRNA eller shRNA nødvendig for å bekrefte hemming av kreftcelle spredning eller overlevelse.

73 kreft forsterket gener inkluderte en rekke reseptor tyrosin kinaser, GTPases, adaptere og signal gener i MAP kinase veien.

Legg att eit svar