PLoS ONE: High Resolution Kopier nummer Variasjon data i NCI-60 kreftcellelinjer fra hele genomet Mikromatriser tilgjengelig gjennom CellMiner

Abstract

Array-basert komparativ genomisk hybridisering (aCGH) er en kraftfull teknikk for å påvise genet kopiere nummer variasjon. Det er generelt ansett for å være robust og praktisk, siden den måler DNA snarere enn RNA. I denne studien, kombinerer vi kopiantall estimater fra fire forskjellige plattformer (Agilent 44 K, NimbleGen 385 K, Affymetrix 500 K og Illumina Human1Mv1_C) for å beregne en pålitelig, høy oppløsning, lett å forstå utgang for tiltaket kopinummerendringer i 60-cancerceller hos NCI-DTP (NCI-60). Vi deretter relatere resultatene til genuttrykk. Vi forklarer hvordan du tilgang til databasen ved hjelp av vår CellMiner web-verktøy og gi et eksempel på enkel sammenlikning med avskrift uttrykk, hele exome sekvensering, mikroRNA uttrykk og respons på 20.000 medikamenter og andre kjemiske forbindelser. Vi viser hvordan dataene kan bli analysert integratively med transkripsjonen ekspresjon data for hele genomet (26,065 gener). Sammenligning av kopiantall og uttrykk nivåer viser en samlet medium høy korrelasjon (median r = 0,247), med betydelig høyere korrelasjoner (median r = 0,408) for de kjente tumorsuppressorgener. Det observasjonen er i overensstemmelse med hypotesen om at genet tap er en viktig mekanisme for tumor suppressor inaktivering. En integrert analyse av ledsagende DNA kopiantall og genekspresjon endring er presentert. Begrense oppmerksomhet til knutepunkter DNA gevinst eller tap, identifiserer vi og avsløre romanen kandidat tumor dempere med matchende endringer i karakternivået

Citation. Varma S, Pommier Y, Sunshine M, Weinstein JN, Reinhold WC (2014) Høy oppløsning Kopier nummer Variasjon data i NCI-60 kreftcellelinjer fra hele genomet Mikromatriser tilgjengelig gjennom CellMiner. PLoS ONE 9 (3): e92047. doi: 10,1371 /journal.pone.0092047

Redaktør: Kwok-Wai Lo, det kinesiske universitetet i Hong Kong, Hong Kong

mottatt: Oktober 17, 2013, Godkjent: 18 februar 2014; Publisert: 26 mars 2014

Dette er en åpen-tilgang artikkelen, fri for all opphavsrett, og kan bli fritt reproduseres, distribueres, overføres, endres, bygd på, eller brukes av alle for ethvert lovlig formål. Arbeidet er gjort tilgjengelig under Creative Commons CC0 public domain engasjement

Finansiering:. Dette arbeidet ble støttet av Center for Cancer Research, utført Program av National Cancer Institute. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser. Sudhir Varma er ansatt i HiThru Analytics LLC arbeider under kontrakt til NCI gi bioinformatikk og beregningstjenester. Han har ingen annen kommersiell interesse i forskning publisert i denne artikkelen. Margot Sunshine er ansatt i Systems Research and Applications (SRA) som arbeider på oppdrag fra NCI, gir beregnings og webutvikling tjenester. Hun har ingen annen kommersiell interesse i forskning publisert i denne artikkelen. Dette endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.

Innledning

NCI-60 er et sett med 60 mest brukte kreftcellelinjer avledet fra 9 vev av opprinnelse inkludert bryst, sentralnervesystem, tarm, lunge, prostata, ovarie og nyre, samt leukemi og melanomas [1]. Vi, og andre, har tidligere gjort tilgjengelige molekylære data på flere plattformer for NCI-60 [2] – [7], noe som gjør det til en unik ressurs for både pharmacogenomics [8], [9] og systembiologi [10], [ ,,,0],11]. Disse cellelinjene beholde genuttrykksmønster fra sine opprinnelige kreft vev-of-opprinnelse, som demonstrert av co-clustering [4], og sammenlignet med kliniske prøver [12]. Muligheten til å sammenligne narkotika respons og genomiske data for disse cellelinjene er enestående av andre kliniske eller kreft celle databaser [8], [11], [13], [14].

Tidligere studier av DNA-kopi nummer ved hjelp av aCGH fra flere cancercellelinjer og kliniske prøver har forbedret forståelse av DNA variabilitet på cellenivå, [15], så vel som ettergivende translasjonelle innsikt [16]. aCGH gir en måling av genomisk ustabilitet [17], et kjennetegn på kreftutvikling [18]. Assosiasjoner mellom genkopitallet og ekspresjon er også blitt studert i noen tilfeller ettergivende implikasjoner mekanismer for kreft progresjon [19], [20].

Data på flere plattformer for profilering av NCI-60 er tilgjengelig gjennom vår CellMiner webapplikasjon [21]. Nylig har vi innført web-baserte verktøy som tillater ikke-bioinformatician å vurdere og kryss sammenligne databaser [8]. I denne studien, utvider vi dette integrerende kapasitet ved å presentere høyoppløselige DNA-kopi talldata for NCI-60 syntetisert fra en kombinasjon av data fra fire plattformer (Tabell S1), og plassert den i et format stereotype til andre former av data. Vi introduserer «Gene DNA kopi nummer» web-verktøy, designet for å tillate ikke-bioinformatician, til å spørre, visualisere og laste relative DNA kopitalldata. Utgangen fra dette verktøyet letter integreringen av DNA kopiere data med våre andre databaser, styrke deres integrerende kapasitet.

Analytisk, gir vi målinger av relativ DNA kopi nummer variasjon innen og mellom cellelinjer, beregne flere tiltak av genomisk ustabilitet og korrelere relativ DNA kopiantall med genuttrykk nivåer. Fortsetter under hypotesen om at kreft fokale gevinster og tap er resultatet av seleksjonspress basert på deres regulerende effekt på genekspresjon, korrelerer vi resultatene av midt DNA kopi nummer endring, og genuttrykk å identifisere mulige kreftdempere.

Materialer og metoder

DNA Isolation

DNA ble isolert som beskrevet tidligere [22]. I korte trekk, ble genomisk DNA renset fra celler som bruker QIAamp DNA Blood Cell Culture Maxi Kit (Qiagen Inc., Valencia, CA) i henhold til produsentens instruksjoner. Kvaliteten ble bestemt ved optisk tetthet på 260/280-forholdet ved hjelp av et spektrofotometer (Beckman-Coulter, Fullerton, CA) og med 0,8% agarose (SeaKem GTG, FMC Bioproducts, Rockland, ME) gelelektroforese i 1 x TAE (Roche, Indianapolis, IN) .

DNA kopiantall i NCI-60 ved hjelp av fire microarray plattformer

DNA kopiantall for alle gener ble bestemt ved integrering av sonder fra i) human Genome CGH Microarray 44A (Agilent Technologies , Inc., GEO tiltredelse GPL11068) med 44 k sonder, ii) H19 CGH 385K WG teglstein v2.0 array (Roche NimbleGen Systems, Inc., GEO tiltredelse GPL13786,), med 385 k sonder, iii) Genechip Menneskelig Mapping 500 k Array Set (Affymetrix Technologies, Inc., GEO tiltredelse GPL3812) med 500 k sonder, og iv) human Human1 Mv1_C Beadchip array (Illumina, GPL6983) med 1100 k sonder. Data for disse mikromatriser kan nås på CellMiner [21]. I tillegg har rådata blitt deponert i Gene Expression Omnibus (GEO) under følgende deponeringsnumrene Agilent 44 k (GSE48568) Affymetrix 500 k (GSE32264), NimbleGen 385 K (GSE30291), Illumina en M (GSE47620).

Probe Kartlegging og intensiteter

prober for Agilent, NimbleGen og Illumina arrays ble gjen kartlagt til den nyeste HG19 referansen bruker BLAST + (versjon 2.2.25) [23]. For Affymetrix array, brukte vi den siste merknaden lastet ned fra nettstedet til Affymetrix NetAffx [24]. For hver plattform, i gjennomsnitt vi replikere prøver (hvis tilgjengelig, se tabell S1). Probe intensiteter ble bestemt etter produsentens anbefalinger som beskrevet tidligere for Agilent [25], NimbleGen Roche [26], Affymetrix [27], og Illumina [28] mikromatriser.

For alle plattformer, loggen probe intensiteter for hver prøve ble normalisert ved å bety-sentrering, forut for alle etterfølgende analyse. Gjennomsnittet av logg probe intensiteter ble trukket fra alle sonde intensiteter for at prøven.

Segmentering av regioner med Konsekvent Kopier nummer

Segmentering refererer til oppdeling av hvert kromosom i sammenhengende segmenter slik at kopitallet er det samme innenfor et segment, og det er en betydelig forskjell i kopiantallet mellom tilstøtende segmenter. I vår analyse har vi brukt Circular Binary Segmentering (CBS) [29]. CBS returnerer gjennomsnittet sondeintensitet innenfor hvert segment som et estimat av loggen

2 av kopiantall innenfor dette segmentet. Således en midlere sondeintensitetsverdi på null ville tilsvare en målt kopiantallet av 2N (dvs. diploid), en verdi på -1 tilsvarer kopitall 1 N og en tilsvarende 4N.

Merk at Affymetrix 500 k data har blitt brukt tidligere for å detektere regioner av LOH (tap av heterozygositet), men algoritmen anvendt for å detektere kopiantallet variasjonene var

pennCNV

som er uegnet for genom-wide kopitall estimert for kreftprøvene [30] . Vi har derfor re-analysert data ved hjelp av Circular Binary Segmentering (CBS).

Kombinasjon av Kopier nummer Estimater fra fire plattformer

Vi brukte en roman algoritme for å kombinere de segmentert kopitallanslag fra de fire plattformer for hver cellelinje. Vi brukte segmentering av kopiantall til å definere

stoppunkter

i krysset mellom to sammenhengende segmenter. På et stoppunkt, et diskret hopp (økning eller reduksjon) av kopiantall oppstår. Disse punktene korresponderer med steder av kromosom pauser

Vi justere stoppunkter fra de fire plattformene for samme cellelinje med følgende metode:. Brytningspunkter fra ulike plattformer som er innenfor 100.000 basepar fra hverandre og har samme retning av kopiantall endring sammenstilles med hverandre. Denne grupper sammen stoppunkter fra ulike plattformer som putatively refererer til det samme kromosom pause. Stoppunkter som ikke samsvarer med noen stoppunkt fra en annen plattform blir forkastet. Deretter beregner vi en gjennomsnittlig stoppunkt plassering fra hver gruppe matchet stoppunkter som gjennomsnittet av plasseringen av stoppunkter fra annen plattform. Vi beregner

gjennomsnittlig segment kopiantall

ved gjennomsnitt de segmenterte verdier mellom to tilstøtende gjennomsnitt stoppunkter i løpet av de fire plattformene.

For hvert gen, finner vi det segmentet der den ligger. Kopien nummer for genet er

gjennomsnittlig segment kopi nummer

for det aktuelle segmentet. Dette tildeler kopiantall anslår til 41 eller flere cellelinjer for 23,413 gener.

Kopien tall anslår for genene ble sammenlignet kopiere nummer estimater fra Kreftcellelinje Encyclopedia (CCLE) [13] med 44 cellelinjer felles for begge datasettene. Vi beregnet Pearsons korrelasjon mellom vår måling av kopiantall og CCLE kopiantall over 44 cellelinjer for hvert gen.

Prominente og Focal gevinster og tap

For å identifisere de områdene med størst , mest visuelt slående gevinster og tap, setter vi en vilkårlig terskel på 1,5 på absolutt log

2 kopiantall og sluttet segmenter som var mindre enn 500 kilobaser bort fra hverandre (inkludert noen segmenter mellom dem).

for en systematisk identifisering av alle fokuskopitall gevinst (eller tap) for hver prøve, brukte vi CBS (segmentert) data for å finne deler av genomet som er høyere (eller lavere) enn både deres venstre og høyre naboer . Vi brukte tre kriterier for å kalle en gevinst eller tap fokus: i) segmentet må ha en forskjell i log

2 kopiantall på minst 0,3 fra begge sine venstre og høyre naboer, både forskjeller som enten positiv eller negativ; ii) bredden av segmentet må være mindre enn 5 Mb; og iii) det bør være mer enn 10 sonder kartlegging innenfor segmentet. Enhver gen som har (delvis eller totalt) overlapper med segmentet kalles fokalt vunnet eller tapt

Genomisk ustabilitet Parametere

Bruk segmenterte kopi tall data beregnet vi to former for genomisk ustabilitet.; i) andelen av genomet som er vunnet eller tapt, og ii) antall gevinster og tap. Andelen av genomet som er vunnet eller tapt ble beregnet på grunnlag av de segmenterte verdiene i matrisen CGH. Vi beregnet dette ved å ta andelen av sondene som faller innenfor segmenter med absolutte gjennomsnittlige intensiteter større enn 0,3 (en DNA-kopi nummer gevinst eller tap på 0,46). Antallet gevinster og tap ble beregnet som det totale antall (av gevinst /tap regioner) med absolutte gjennomsnittlige intensiteter større enn 0,3 med mer enn 10 sonder kartlegging til regionen.

Gene Expression Fastsettelse og dens korrelasjon til DNA Kopier Antall

Expression for 26,065 gener ble tatt som en integrert z-score på målinger fra fem genekspresjon plattformer, som beskrevet tidligere [31]. Gener med uttrykk z-score ble matchet til gener med kopi nummer. Dette resulterte i 18,504 gener med både uttrykk og kopiere tallanslag. Kopiering av telefonnumre for disse 18,504 gener ble sammenlignet med genuttrykk bruker Pearsons korrelasjon (tabell S3). Histogrammet av disse sammenhengene ble plottet ved hjelp av

R plakater (versjon 2.15.2). Median korrelasjoner for alle gener, så vel som for sett med kjente onkogener og tumor dempere, ble beregnet.

Vurdering av kjente og Antatte Tumor Dempere

Vi valgte gener basert på deres møte fire kriterier; i) statistisk signifikant korrelasjon mellom kopiantall og uttrykk (False funnraten FDR 0,05), ii) genet blir fokalt vunnet eller tapt i minst 3 prøver (fokale gevinster og tap som definert i Segmentering seksjon), iii) antall cellelinjer med underskudd knutepunkter er minst 3 ganger større enn antallet av cellelinjer med fokal gevinst, iv) genene som var mer enn 2 millioner basepar avstand fra kjente tumor-suppressorer. Kriterium 4 ble brukt til å fjerne «passasjer» gener som utvalget kan skyldes genomisk nærhet.

Resultater

Den Array CGH Data kan nås og visualisert ved hjelp av CellMiner «Gene DNA Kopier nummer» web Analysis Tool

for å lette driften av den NCI-60 DNA-kopi talldata, innfører vi et intuitivt verktøy for å søke og visualisere datasettet. Dette verktøyet er tilgjengelig på vår CellMiner nettside [21] innenfor «NCI-60 analyseverktøy» fanen (Figur 1a). Som vist i figur 1A, brukere velger du først «Cell linje signatur» i trinn 1, og deretter «Gene DNA kopiere nummer». I trinn 2, kan opp til 150 gener av interesse angis enten skrive i genet navn i «Input identifikatoren» boksen, eller laste dem opp som en tekst eller Excel-fil ved hjelp av «Last opp fil» -knappen. I trinn 3 brukere oppgi sin e-postadresse, og klikk «Get data». Resultatene vil bli sendt via e-post for hvert gen, med en link til å laste ned en Excel-fil. Denne filen inneholder fire regneark: i) «DNA kopi nummer» som inneholder tabell betyr intensitetsforhold (av testen DNA sammenlignet med antatt normal) og estimert DNA kopiantall, og en bar tomt på de estimerte DNA kopiantall (figur 1B), ii ) «Grafisk Output» som inneholder sprednings-plott av de enkelte sondeintensitet for genet av interesse, så vel som 2MB flankerende region for hver cellelinje (figur 1C), iii) «input» inneholdende de normaliserte data for disse prober som faller innenfor en genet av interesse (markert med gult) samt 2 x 10

6 nukleotider av flankerende område på hver ende, og iv) «Fotnoter». Figur 1 viser et eksempel på 3 kreft-relevante gener (figur 1A), CDKN2A som koder for Cyclin-Dependent Kinase Inhibitor 2A (p16

INK4a, p19

ARF), som vanligvis slettet i kreftformer, CCNE1 som koder Cyclin E , som ofte forsterkes i kreftformer, og KRAS som koder Kirsten Rotte Sarcoma virale oncogen, som aktiveres i kreftformer ved mutasjoner og mer sjelden forsterkning. Paneler B og C (figur 1) viser at mange cellelinjer vise nedbryting av CDKN2A locus (venstre panel), mens eggstokkreft celler OVCAR3 og OVCAR5 vise samlings forsterkning av henholdsvis CCNE1 og KRAS,.

A. Verktøyet kan nås på CellMiner hjemmeside ved å klikke på «NCI-60 Analyseverktøy» -kategorien (boxed i rødt). I dette eksemplet er 3 kreftassosierte gener spørres samtidig: CDKN2A, CCNE1 og KRAS. B. Utgangen inneholder en bar plott av den beregnede kopiantallet for hver cellelinje. X-aksen er den DNA-kopi-antall. Y-aksen viser cellelinjer, med barer fargede basert på vev av opprinnelse. Barer til venstre for 2N indikere tap mens søyler mot høyre angir genomisk gevinst. Stiplede linjene indikerer cellelinjer med kopi nummer gevinster i CCNE1 og KRAS C. Et spredningsdiagram er også gitt for hver cellelinje. X-aksen viser den kromosomale beliggenhet. Y-aksen viser log2 intensitetsverdiene på venstre side. De røde prikkene indikerer sonder som faller innenfor genet. De blå prikkene indikerer flankerer regionene. Dataene blir mottatt som Excel-filer. Se teksten for detaljer.

En unik funksjon i CellMiner nettstedet er at kopiantallet mønster hentet fra CellMiner for et gen kan brukes som innspill til Pattern sammenligning verktøy for å finne korrelert gener uttrykk og narkotika aktivitet. Figur 2 viser det kopiantallet for CDKN2A (p16), genet med den høyeste ekspresjon korrelerte (CDKN2A), og stoffet hvis responsen er den mest negativt korrelert (NSC-301739). Den robuste sammenheng mellom DNA kopiantall og karakterutskrift uttrykk identifisere robust påvirke at DNA kopiantall endring har på karakterutskriften uttrykk i dette genet. Den negative korrelasjonen av DNA kopiantall til narkotika aktivitet identifiserer FDA-godkjente stoffet mitoxantrone (NSC-301739) som mer aktive i flere forekomster av kreftceller med CDKN2A sletting (figur 2, panel rett og stiplede linjer).

Den venstre plottet viser en barplot kopitallverdier for CDKN2A oppnås ved å spørre CellMiner. Den midterste plottet viser genekspresjon og lengst til høyre plottet viser respons på en Mitoxantrone, et stoff med signifikant negativ korrelasjon med kopien antall statusen CDKN2A. Stiplede linjer viser noen av cellelinjene, hvor retningen av kopiantall endring i samme retning som den genekspresjon og i motsatt retning som den medikamentaktivitet.

Korrelasjon med kreftcellelinje Encyclopedia

det er 44 cellelinjer felles mellom NCI-60 og CCLE. Spesielt, anslår kombinert kopi nummer i NCI-60 korrelerer godt med kopi nummer estimatene i CCLE med en median korrelasjon på 0,833. Dette er høyere enn korrelasjonen å kopiere tall fra noen enkelte plattform (Agilent: Agilent: 0,660, NimbleGen: 0,448, Affymetrix: 0,821, Illumina: 0,804) antyder at å kombinere plattformene forbedrer sammen estimeringen. Jo høyere korrelasjon med Affymetrix plattform kan skyldes det faktum at CCLE data ble også generert på Affymetrix arrays (Affymetrix SNP 6,0).

Utbredt Endringer i DNA Kopier sammensetning skjer i NCI-60 cellelinjer

En global visning av NCI-60 genomisk sammensetning ble generert ved hjelp av CBS segmentert aCGH resultater. Figur 3 viser representative eksempler på flere genom variasjons typer. Den fullstendige versjonen for NCI-60 er tilgjengelig i figur S1 og på vår hjemmeside [21]. Disse skjermene viser at de fleste cellelinjer vise genomiske forandringer, blant annet hyppige genomiske tap og gevinster, samt endret ploidiresultat. De typer av variasjon i genomene imidlertid variere sterkt innenfor NCI-60. Bare noen cellelinjer viser normal (2N) kopiantall med få endret segmenter som CO: HCT_15. Noen har flere endrede genomiske segmenter med ca. 2N generelle kopiantall (f.eks RE: CAKI_1). Atter andre har mange endret segmenter i tillegg til å være flyttet fra 2N, inkludert BR: MCF7-, CNS: SF_268, LE: RPMI_8226, ME: MALME_3M, OV: NCI_ADR_RES, og PR: PC_3. Dataene viser den markerte variasjoner som finnes i patologi i NCI-60-genomet.

X-aksen er det kromosomale beliggenheten av sondene, farget av kromosomantall og er sortert etter genomisk posisjon. Y-aksen er log forholdet mellom sonde intensiteter. De sorte horisontale merkene indikerer gjennomsnittlig log

2 kopiantall i hvert segment, som beregnes ved Circular Binary Segmentering (se Materialer og metoder). Mengden av scatter over og under segmentenes svarte merkene indikerer nivået av probe variabilitet. Lokaliseringen av noen kreftrelaterte gener som har brenn gevinster eller tap er også indikert. Høyoppløselige bilder for alle NCI-60 cellelinjer er tilgjengelige i figur S1 og på vår hjemmeside [21].

Den høye intensitet (absolutt logg

2 verdier større enn 1,5, det vil si DNA-kopier tall større enn 5,60 eller mindre enn 0,71) presiseringer (gevinst) og slettinger (tap), visualisert i Figur 3 og Figur S1, oppført med sine steder i Tabell S2 av cellelinjen, på grunn av deres potensielle viktighet. Disse store gevinster og tap har kromosom skjevheter, med tre kromosomer (9, 3 og 6) som har flere endringer i flere cellelinjer, og en (kromosom 21) uten merkede gevinster eller tap. Disse dataene identifisere chromosome- og celle-spesifikke fokale presiseringer og slettinger.

Globalt DNA Kopier nummer Endring i NCI-60

For ytterligere å kategorisere de genomiske kopi nummer variasjoner over NCI-60, to parametre ble utledet fra de aCGH data (tabell 1). Den «Andelen av genom vunnet eller tapt» er den samlede del av genomet som er oppnådd eller går tapt (i forhold til 2N); «antall vunnet eller tapt regioner» per genom representerer den kumulative antall endrede segmenter (vunnet eller tapt i forhold til 2N).

Sammenligning av de to parametrene (andel og antall gevinster og tap) viste en svært statistisk signifikant positiv korrelasjon (Pearsons r = 0,76, p-verdi = 1,2 × 10

-12), knytte frekvens til kumulative brøkdel av genomisk endringer. Cellelinjer med den minst hyppige genomisk endringer i henhold til det første målet (andel av genomet vunnet eller tapt) er CO: HCC_2998 og OV: IGROV1, og de med mest er RE: A498 og BR: T47D. For det andre målet (antall regioner med gevinst /tap), cellene med de minst endringer er CO: HCC_2998 og CNS: SNB_75, og cellelinjer med de fleste endringer er BR: MCF7 og RE:. SN12C

fremtredende områder av genomet med Focal Kopier nummer endringer, og deres forhold til kjente og potensielle Tumor Dempere

Neste vi søkt etter genomiske kopi nummer endringer som var «focal» i naturen. Vår tilnærming var å se etter genomiske segmenter med: i) en forskjell i log

2 kopiantall på minst 0,3 fra både sin venstre og høyre side naboer (forskjellene er enten både positive eller begge negative); ii) en bredde mindre enn 5 Mb; og iii) minst 10 (aCGH) sonder. Tabell 2 oppsummerer disse knutepunktene endringer for kjente onkogener og tumor dempere. Tabell S3 gir midt endring status for alle (18,504) gener med både kopiantall og genekspresjon (se kolonnen S), og deres genomiske stillinger (kolonner Q og R).

Den mest fokalt slettet segmentet forekommer i 24 cellelinjer, og inneholder CDKN2A tumorsuppressorgenet (p16

INK4a og P14

ARF) på kromosom 9 (figur 1B, 2 og 4A). De CDKN2A slettinger forekommer i de fleste av NCI-60 vevstyper, med høyest forekomst av nyre (6 av 8 linjer) og CNS celler (4 av 6 linjer). CDKN2A slettinger er sjeldnere i bryst (1 av 5) og eggstokkreft (2 av 7) og fraværende i tykktarm og prostata linjer. Den detaljerte data for CDKN2A finnes i Tabell S3 (kolonne Q). Den hyppigst slettet tumorsuppressorgenet er PTEN på kromosom 10 (Tabell 2 og Tabell S3), som er markert underrepresentert i 4 cellelinjer: CNS: SF_539, LE: CCRF_CEM, PR: PC_3 og RE: RXF_393. Det er også fokalt fått i OV: OVCAR_4. Spesielt TP53, som inaktiveres ved mutasjoner i 47 av NCI-60 [3], [32] (våre innsendte resultater) har fokal tap på bare to cellelinjer LE: HL_60, RE: TK_10 (tabell S3), viser spesifisitet i mekanisme funksjon knockdown av tumorundertrykkere.

A. CDKN2A og flankerende sekvens på kromosom ni i seks cellelinjer. Den sentrale vertikale lilla region avtegner genet plassering. B. MYC og flankerende sekvens på kromosom åtte i fem cellelinjer. Den sentrale vertikale lilla region avtegner genet plassering. C. ABCB1 (MDR1), ABCB4 og flankerende sekvens på kromosom 7 for foreldre OVCAR_8 og dets multiresistent derivative NCI_ADR_RES. De grønne og rosa sentrale vertikale områder avgrense locus av ABCB1 og ABCC4 hhv. I A, B, C og x-aksen er det nukleotid sted. Y-aksen verdier på venstre er gjennomsnittlig log intensitetsforhold, og til høyre er estimert DNA kopiantall. De sorte horisontale linjene viser gjennomsnittlig log intensitet forholdet i hvert segment, mens de brune punktene viser loggen intensitetsforhold for hver sonde.

For de kjente onkogener, oppstår den hyppigste fokus gevinst i CCND1 ( cyclin D1) gen på kromosom 11, og i MYC, på kromosom 8. CCND1 har fokale gevinster i 4 cellelinjer (CNS: SF_295, ME: SK_MEL_28, ME: SK_MEL_5, RE: TK_10) inkludert 2 melanomer. MYC forsterkes i fire cellelinjer CO: SW_620, LE: HL_60, LE: RPMI_8226 og PR. PC_3 (figur 4B)

I tillegg til kjente onkogener og tumordempere, en av de mest intense amplifikasjoner ble funnet i OV: NCI_ADR_RES cellelinje på kromosom 7q21.12 (figur 3, nedre venstre panel og figur 4C). Denne forsterkningen omfatter to efflukspumpen ABC-transportører gener, ABCB1 og ABCB4 (figur 4C), og er i overensstemmelse med den høye doksorubicin (adriamycin) motstand av denne cellelinjen [33], [34]. Annet enn dette kromosom 7 fokus forsterkning, OV: viser NCI_ADR_RES cellelinje en aCGH profil sammenlignes med sin foreldrelinjen OV. OVCAR_8 (figur S1)

Sammenheng mellom Gene Expression og DNA Kopier nummer

for å bestemme forholdet mellom DNA kopi nummer og karakterutskrift uttrykk nivåer, vi beregnet korrelasjoner mellom de to parametrene for alle (18,504) gener med både kopiantall og genuttrykk. Tabell 2 og Tabell S3 gi disse korrelasjonsverdier, så vel som den tilsvarende p-verdi og FDR for kreftdempere, og alle gener, respektivt. Histogrammet i figur 5 viser at median Pearsons korrelasjon er r = 0,247, noe som gir en global indikator for påvirkning av genkopitallet på ekspresjon.

Histogram av Pearsons korrelasjoner mellom kopiantall og genekspresjon for den komp satt av 18,504 gener med begge verdier tilgjengelig. De øvre og nedre sett med merker over x-aksen viser korrelasjoner for individuelle onkogener (i rødt) og tumor-beskyttelse (i blått), henholdsvis.

Median korrelasjon av den kombinerte data er høyere enn noen enkelte plattform (Agilent: 0,212, NimbleGen: 0,149, Affymetrix: 0,242, Illumina: 0,226)., igjen noe som tyder på at den kombinerte data forbedrer kopiantallet estimering over ved hjelp ethvert individ plattform

undergruppe av 101 kjente tumor suppressorer hadde en signifikant høyere median korrelasjon (r = 0,408, fig 5) enn hele genomet (r = 0,247, fig 5). Undergruppe av 96 kjente onkogener viste bare litt høyere korrelasjon i forhold den totale genomet (median r = 0,255; figur 5). Disse resultatene viser at genet tap påvirkninger uttrykk for kjente tumor suppressors i større grad enn både de «alle genene» eller onkogener grupper.

Identifikasjon av Novel Antatte tumorsuppressorgener

Siden fokusendringer DNA-kopi rekke kjente tumorsuppressorgener (Figur 1B og C, figur 3, tabell 2) viste meget signifikant korrelasjon til sine transkripsjon uttrykk nivåer (Figur 5, Tabell 2), brukte vi denne egenskapen for å søke etter og identifisere flere gener med potensial forhold til kreft. Vår tilnærming var basert på resultatene for kjente tumor suppressors CDKN2A og PTEN (tabell 3). Utvalgskriteriene for nye gener nødvendig: i) sammenhenger mellom DNA kopiantall og transkripsjonsnivåer betydelige til en FDR på 0,05, ii) knutepunkter gevinster eller tap i at-minst tre cellelinjer [knutepunkter endringer ble definert som gevinst eller tap mindre enn 5 mb som overlapper genet], og iii) et forhold 3:01 eller større for antall cellelinjer med underskudd i forhold til gevinst. I tillegg kreves vi at genene passere fjerde kriteriene at det skulle være noen kjente kreftdempere innen 2 MB (for å unngå å oppdage «naboer» kjente driver tumor suppressors).

Vi vurderte alle 18504 gener som har både genekspresjon og kopiere nummer anslår å identifisere de som passerte kriteriene ovenfor. Tretti en gener passert kriteriene 1-3 (tabell S4), og 22 fornøyde alle fire kriterier (angitt i kolonne U og uthevet i grønt). De gener gruppe til 12 «gensamlingene» slik at gener i den samme gruppen er ved siden av hverandre og har kopiantall som er høyt korrelert (til hverandre) på tvers av NCI-60 (Pearson korrelasjon 0,8), noe som indikerer at de er i stor grad mistet eller fått som en gruppe. De 22 nye tumorsupressorproteinene klyngene er på cytobands 11q13.4, 17p12, 17p11.2, 17q23.1, 21q11.2, 21q21.1, 22q11.21, 22q12.2, 22q13.1 og Xp22.31. Tabell 3 viser ti av de genene som faller innenfor disse klyngene, og har blitt rapportert å utvise tumorsupressorproteinene egenskaper.

Diskusjoner

I denne studien vi kombinerte data på NCI-60 cellelinje panel fra fire høyoppløselige array-CGH plattformer. Ved å kombinere de fire plattformene gir et datasett med i) økt sonde dekning, ii) høyere korrelasjon til kopiantallet anslår fra CCLE (Cancer Cell linje Encyclopedia), og iii) høyere korrelasjon til genekspresjon, som indikerer bedre estimater at noen plattform alene .

data~~POS=TRUNC settet~~POS=HEADCOMP legger til rekken av molekylære data tilgjengelig for NCI-60, tilrettelegging integrerende ( «integromic») [4], [8], [32], [35] studier av kreft biologi og molekylær farmakologi. Data og analyseverktøy for å forenkle bruken er offentlig tilgjengelig på vår NIH CellMiner web suite [21] (figur 1A). Vi tilbyr også et eksempel på den type integrerende analyse som kan gjøres. Sammenligning av DNA-kopi nummer for CDKN2A, en kjent tumor suppressor til dens mRNA-ekspresjon avslører robust måte på hvilken denne molekyl endring er forbundet med gener uttrykk, og dens hyppig inaktivering i NCI-60 (se Figur 1 og Tabell S3). Sammenligning av DNA kopiantall for CDKN2A til det sammensatte databasen avslører FDA-godkjente stoffet mitoxantrone (NSC301739) som mer aktive i cellelinjer med CDKN2A knockout (figur 2).

De mønstre av gevinster og tap i

Legg att eit svar