Abstract
Det er vel etablert at genomisk endringer spiller en avgjørende rolle i onkogenese, sykdomsutvikling og respons av svulster til terapeutisk intervensjon. Fremskritt i neste generasjons sekvensering teknologier (NGS) gir enestående muligheter til å skanne genomer for endringer som mutasjoner, slettinger og endringer av kromosomkopiantall. Men likevel forhindrer kostnaden av full-genomsekvense rutinen anvendelse av NGS i mange områder. Fange og sekvensering av de kodende eksoner av gener (det «exome») kan være en kostnadseffektiv metode for å identifisere endringer som resulterer i forandring av proteinsekvenser. Vi søkte en exome-sekvenseringsteknologi (Roche NimbleGen fange sammen med 454-sekvensering) for å identifisere sekvens variasjon og mutasjoner i åtte brukte kreftcellelinjer fra en rekke vev opprinnelse (A2780, A549, Colo205, GTL16, NCI-H661, MDA- MB468, PC3, og RD). Vi viste at denne teknologien kan nøyaktig identifisere sekvensvariasjon, noe som gir ~95% samstemmighet med Affymetrix SNP Array 6,0 utført på samme cellelinjer. Videre har vi oppdaget at 19 av de 21 mutasjoner som er rapportert i Sanger kosmiske database for disse cellelinjene. Vi identifiserte et gjennomsnitt på 2,779 potensielle roman sekvensvarianter /mutasjoner per cellelinje, hvorav 1904 var ikke synonymt. Mange ikke-synonyme endringer ble identifisert i kinaser og kjent kreft-relaterte gener. I tillegg fikk vi bekreftet at skrive dybden av exome sekvens data kan brukes til å anslå høyt nivå genet presiseringer og identifisere homologe slettinger. Oppsummert viser vi at exome sekvensering kan være en pålitelig og kostnadseffektiv måte for å identifisere endringer i kreft genomer, og vi har generert en omfattende katalog av genomisk endringer i koding regioner i åtte kreftcellelinjer. Disse funnene kan gi viktig innsikt i kreft trasé og mekanismer for resistens mot anti-kreft terapier
Citation. Chang H, Jackson DG, Kayne PS, Ross-Macdonald PB, Ryseck RP, Siemers NO (2011) Exome sekvense~~POS=TRUNC avslører Omfattende Genomisk Endringer over Åtte Cancer Cell Lines. PLoS ONE seks (6): e21097. doi: 10,1371 /journal.pone.0021097
Redaktør: Christian Schönbach, Kyushu Institute of Technology, Japan
mottatt: 27 april 2011; Godkjent: 19 mai 2011; Publisert: 20 juni 2011
Copyright: © 2011 Chang et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet av Bristol-Myers Squibb Co de bevilgende myndighet hadde noen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:. forfatterne er nåværende ansatt i Bristol- Myers Squibb Co Denne studien ikke er knyttet til produkter under utvikling på BMS eller markedsført produkter av BMS. Dette endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.
Innledning
Alle kreftcellene har somatiske mutasjoner i sitt genom, som single nucleotide mutasjoner, insersjoner , slettinger og kopitall gevinst eller tap. Genomisk lesjoner i kreftceller forstyrrer normale funksjoner og stier som spredning og apoptose, og er avgjørende for svulst tilblivelse, vekst og metastasering. I tillegg bærer hver tumor en unik kombinasjon av mutasjoner i sitt genom, som fører til heterogenitet i kreft prognose og terapeutisk respons på behandling. Vår begrenset forståelse av de vanligste mutasjonene har allerede påvirket terapeutiske regimer. For eksempel, har behandling med lavmolekylære inhibitorer av den epidermale vekstfaktor-reseptor (EGFR) blitt vist å nytte hovedsakelig lungekreftpasienter som bærer visse somatiske mutasjoner i sitt EGFR-genet [1], [2]. På lignende måte bestemte antistoff-terapi rettet mot EGFR viser bare effekt i den undergruppe av pasienter med kolorektal kreft med en villtype-genet KRAS [3], [4]. Deep systematisk karakterisering av somatiske mutasjoner i kreft genomer lover å være et kraftig verktøy for både forståelse kreft stier og utvikle målrettede behandlingsformer.
I løpet av de siste to tiårene, fokusert studier på kandidatgener har ført til identifisering av mutasjoner oppstår med høy frekvens i avgjørende kreft pathway gener slik TP53, KRAS, og PTEN [5]. I de senere år har de kodende regionene i bryst, lunge, kolon, og hjernesvulst genomer blitt analysert ved hjelp av kapillær-baserte sekvenseringsteknologi. Dette arbeidet har ført til identifisering av årsaks mutasjoner i tidligere uante gener som IDH1, fremhever kraften og betydningen av objektiv, genomisk skala mutasjon oppdagelse [6], [7], [8]. Men store kapillar-baserte sekvense teknologier er tidkrevende og kostbart, og således ikke gjennomførbart for videre bruk.
Neste generasjon sekvensering (NGS) teknologi har økt gjennomstrømning og redusert kostnadene ved DNA-sekvensering etter flere størrelsesordener. En rekke studier har søkt NGS teknologi for å sekvensere kreft genomer, som oppsummert i siste vurderinger [9], [10]. Men å sekvensere hele genomet er fortsatt kostnadseffektiv uoverkommelige for mange potensielt verdifulle programmer.
Et alternativ til hele genomet metoder er exome sekvensering, som fanger og sekvenser bare koding eksoner i genomet. Exome sekvenseringsmetoder kan levere sekvenseinformasjon for mye av funksjonelt relevant genom på økt dekning og reduserte kostnader. Nyere studier har med hell brukt exome sekvensering for å identifisere kausale mutasjoner av mendelsk sykdommer [11], [12]. Store kreft genom tiltak som Kreft Genome Atlas-prosjektet inkluderer også exome sekvensering som en del av sin strategi for å karakterisere kreft genomer [13].
Protein kinaser er den mest utbredte familien av signalmolekyler i humane celler og spille avgjørende roller i regulering av de fleste cellefunksjoner [14]. Siden protein kinase familien er en av de hyppigst muterte gen på familier-kreft [5], er det blitt underkastet flere fokuserte genomisk sekvenseringsstudier. Bardelli et al. gjennomførte den første systematiske skjermen av mutasjoner i reseptortyrosinkinasehemming familien av protein kinaser, i kolorektal kreft prøver [15]. Siden da har studier i grunnskolen vev og cellelinjer identifisert mange mutasjoner i proteinkinaser tvers av flere krefttyper [16], [17], [18]. Interessen for mutasjoner av kinaser har fortsatt med de siste genom-wide mutasjon oppdagelse studier [13], [19], [20].
Cell linje modeller av kreft hos mennesker har spilt en avgjørende rolle i vår forståelse av kreft sykdomsforløp, identifisering og validering av kreft målgener, og vår evne til å screene potensielle kreft narkotika. Disse cellelinjene bære genomiske mutasjoner arvet fra sine kildekreftceller, selv om flere mutasjoner kan bli kjøpt opp i løpet av cellelinje utvikling og passasje. Generelt sammenligninger mellom cellelinjer avsløre betydelig heterogenitet i genomisk mutasjoner og reflektere kreft trasé som ligner på de som finnes i primære svulster. For eksempel, sammenligning av et panel av brystkreftcellelinjer med en samling av primære bryst prøvene viste at genekspresjon og kopitallprofilene i cellelinjer speil de fant de primære tumorer [21]. Tilsvarende genomiske mutasjoner rapportert i den kosmiske database for cellelinjer har en tilsvarende spektrum til de i primærsvulster [22]. Som ekstra store svulst genom sekvense resultatene blir tilgjengelige, er det et økende behov for tilsvarende cellemodeller for å finne ut hvordan romanen varianter påvirke proteinfunksjon. Omfattende karakterisering av genomiske forandringer i kreftcellelinjer vil fremme forståelsen av kreft biologi, og kan også gi et grunnlag for å velge relevante cellelinje modeller for å studere et bestemt aspekt av kreftsykdom biologi, eller for screening av antagonister til visse kreft trasé.
for å evaluere NGS teknologier og å karakterisere genomiske mutasjoner i kreftcellelinjer, har vi analysert data fra Roche NimbleGen exome fange matrise og Roche 454 NGS teknologier som brukes på åtte mest brukte cellelinjer som representerer flere store krefttyper. Vi viser at exome sekvensering kan være en pålitelig og kostnadseffektiv måte for å identifisere genomisk endringer i kreft genom, og genererte en omfattende katalog av genomisk endringer i koding regioner i åtte kreftcellelinjer.
Resultater
Exome fangst og sekvense resultater
Exome fangst og 454 sekvense teknologier ble brukt til DNA-prøver fra åtte kreftcellelinjer (A2780, A549, COLO205, GTL16, NCI-H661, MDA-MB468, PC3, og RD, ., som beskrevet i Methods resultatene av innledende databehandling er oppsummert i tabell 1. for hver cellelinje, leser omtrent 1,9 millioner sekvensering (688 millioner baser, 98,5% av total sekvens lesninger) kunne med hell kartlagt til det humane genom NCBI36 /hg18 referanse sammenstilling (https://www.ncbi.nlm.nih.gov). den gjennomsnittlige leselengde på tvers av alle cellelinjer er 364 baser, i samsvar med den lange lese lengde rapportert for 454 sekvenseringsteknologi. i gjennomsnitt 89,5% av circa 180.000 eksoner på NimbleGen 2,1 M menneskelig exome utvalg (mål regioner) var dekket med minst ett sekvense lese, og gjennomsnittlig sekvense lese dybde for alle cellelinjer er 7,3 i mål regioner. De exome fangst og sekvense resultatene er innenfor normalområdet av ytelse spesifisert av produsenten, og er sammenlignbare med publiserte resultater ved hjelp av den samme teknologien [23].
Vi oppdaget i gjennomsnitt 14 340 sekvensvarianter (forskjeller fra det humane genom referanse) per cellelinje. De fleste av disse forskjellene er kjent polymorfismer i normal human populasjon (dvs. tatt opp i NCBI dbSNP database, bygge 130). I gjennomsnitt 2,779 varianter per cellelinje er ikke funnet i dbSNP database, og derfor representerer nye sekvensvariasjoner og /eller somatiske mutasjoner. I gjennomsnitt 1904 av 2,779 nye variantene er ikke synonymt, dvs. de endrer kodon spesifisitet. Disse variantene er mer sannsynlig å endre protein funksjoner og påvirke cellulære fenotyper.
Concordance med genotyping resultater
Som en annen måte å vurdere nøyaktigheten av exome sekvensering, sammenlignet vi data med genotyping resultater på tvers av åtte cellelinjer (tabell 2). Den Affymetrix Genome-Wide Menneskelig SNP Array 6.0 er designet for å oppdage genotype informasjon for om lag én million kjente SNP stillinger. Det kan derfor gi uavhengig verifikasjon av variasjoner observert i exome sekvensdata. For hver cellelinje, identifiseres vi SNP Array 6,0 stillinger med vellykkede genotype samtaler som ble også dekket av minst to unike exome sekvense leser. Overlappingen ga mellom 26,407 og 29,650 SNP stillinger (avhengig av cellelinje) for videre analyse. Totalt var det i gjennomsnitt 91% samstemmighet mellom genotype samtaler fra SNP rekke 6.0 /Tamfuglfôr og de som bestemmes av exome sekvensering. I RD-cellelinje, for eksempel 26 154 (91,5%) av 28,594 SNP stillingene har den samme genotype samtalen (dvs. AA, AB, eller BB) av SNP matrise 6,0 og ved exome sekvensering (Tabell 2).
det er forventet at nøyaktigheten av genotype deteksjon ved sekvensering vil bli påvirket både av sekvense les dybde og av heterozygositet ved en gitt genomisk sted. Vi beregnet konkordans av genotype samtaler på forskjellen sekvense lese- dybde, og separat for homozygote eller heterozygote SNPs. Som vist i figur 1, er samstemmighet høy for homozygot SNP’er (gjennomsnitt 97%), uavhengig av sekvense lese dybde. Konkordans for heterozygote alleler er lavere, men øker med sekvens lese dybde, og starter med 31% samstemmighet på en lese dybde på 3 og nå 90% ved en lese dybde på 10 eller høyere. I teorien, sekvensering av DNA-fragmenter fra en region som inneholder et heterozygot SNP er en prosess med tilfeldig sampling. Ved lavere sekvense dybde, er det en større sjanse for manglende en av de to alleler. Vi har beregnet den teoretiske hastighet for å detektere begge alleler ved sekvensering ved forskjellige lese dybder, forutsatt ingen feil i sekvensering (figur 1, stiplet linje). Ved lave lese dybder, våre eksperimentelle observasjonene er nær den teoretiske hastigheten, noe som indikerer at lav samstemmighet ved lave lese dybder skyldes sannsynligvis stikkprøvekontrollen prosess heller enn dårlig kvalitet på sekvensdata.
Diagrammet viser et plott av gjennomsnittlig overensstemmelse mellom genotypen anrop oppnådd fra Affymetrix SNP Array 6,0 og fra exome sekvensering, som en funksjon av sekvense lese dybder. Firkantede markører indikere samstemmighet på homozygot posisjoner, diamond markører indikere samstemmighet på heterozygote posisjoner. Den stiplede linje viser den teoretiske hastighet for å påvise heterozygot stillinger ved sekvensering (som beskrevet i Methods). Triangle indikatorer viser gjennomsnittlig antall heterozygote SNP steder per celle-linjen som en funksjon av sekvense lese dybder (Y-aksen til høyre).
Sammenligning av exome sekvense til COSMIC database av kreft mutasjoner
protein~~POS=TRUNC-koding eksoner og umiddelbare flankerer intronsekvenser av 61 vanligste kreftgener har tidligere vært systematisk bestemt i ca 800 cellelinjer ved velkommen Trust Sanger Institute, ved hjelp av kapillær-baserte sekvensering [22]. Av de åtte cellelinjer i denne undersøkelsen, har alle unntatt én (GTL16) blitt vist i det prosjektet. Vi sammenlignet somatisk mutasjon informasjon fra Sanger COSMIC database med våre exome sekvense resultater for de syv cellelinjer. Som vist i tabell 3, exome sekvenserings re-oppdaget de fleste av de 21 mutasjoner som er rapportert i den kosmiske databasen, herunder punktmutasjoner og liten innsetting /slettingene. De to savnede tilfellene skyldes manglende sekvens dekning i locus av interesse: dokumentert STK11 mutasjon i A549 er ikke målbar grunnet mangel på STK11 genet dekning i NimbleGen 2.1 M menneskelig exome arrays, og TP53-genet er dekket av NimbleGen matrise men mangler tilstrekkelig leser i PC3 linje for å bekrefte i denne studien (det er tilstrekkelig leser for TP53-genet i andre linjer, som i Tabell 3).
Store homozygot delesjoner, som for eksempel kjente slettinger av CDKN2A genet i A549 og SMAD4 i Colo205 celler, ikke kan observeres direkte med exome sekvensering. Men en sletting av genområder kan utledes hvor lese- dybde er null for flere påfølgende eksoner (se neste avsnitt for detaljert beskrivelse). Alle fem genomiske slettinger rapportert i den kosmiske database er identifiserbare fra exome sekvense resultater (Tabell 3). For eksempel i A549-cellelinjen ble det observert 14 sammenhengende regioner rundt CDKN2A gen med en lese dybde på null. I Colo205 cellelinje, en dokumentert 904-basen sletting i SMAD4 genet manifesterer som 4 påfølgende target regioner med en lese dybde på null.
Oppdager genamplifisering og sletting
sletting eller presiseringer av kromosomsegmenter er vanlige endringer i kreft genomer. I prinsippet sekvenser lese dybde i en region bør være proporsjonal med dens kopitall. Imidlertid kunne den relativt beskjedne lese dybde av denne studien gi unødig vekt av tilfeldige variasjoner i lese dybde. Variasjon i lese dybden kan også oppstå fra tekniske aspektene av exome sekvensering prosessen. For eksempel kan den exome fange matrisen variere i effektivitet for forskjellige ekson regioner på grunn av ulike sekvenssammensetning. For å vurdere muligheten for å estimere antall kopier informasjon fra vår exome sekvense data, vi sammenlignet gjennomsnittlig sekvens lese dypet med kopi-nummer data estimert fra SNP6 plattform. Som vist i figur 2, det er en positiv korrelasjon mellom sekvens lese dybde og kopitall, med Pearson korrelasjonskoeffisient på 0,41. Variasjonen i lese- dybde gjør det utfordrende å nøyaktig oppdage lavt nivå kopinummerendringer. På den andre siden finner vi at nøyaktig deteksjon av høyt nivå genet presiseringer og homozygot slettinger er mulig.
Gjennomsnittlig sekvense les dybder i fangstområdene ble plottet mot kopitalldata beregnet fra Affymetrix SNP 6,0 data som beskrevet i metodedelen. Den blå linjen viser den lineære regresjonslinjen. Pearsons korrelasjon coefficiency (r = 0,41) av sekvense lese dybde og kopiere antall data skrives på figuren.
Homozygot sletting av SMAD4 genet regionen har blitt rapportert i MDA-MB468 cellelinje ( Sanger COSMIC database), og er således illustrerende for å sammenligne deteksjons sletting metoder. Den sekvense lese dypet av ekson regioner i SMAD4 genet og området rundt ble bestemt for MDA-MB468 og plottet i henhold til deres kromosom plassering (figur 3A). Seksten sammenhengende ekson regionene på kromosom 18 har en lese dybde på null i data for MDA-MB468. De genomiske plasseringene av de 16 ekson regionene er fra 46.75 MB til 46,86 MB, som spenner over SMAD4 genet. Til sammenligning, utførte vi kopitall analyse av Affymetrix SNP matrisen 6,0 data som beskrevet i metodedelen. For MDA-MB468, denne analysen indikerte en homozygot delesjon av genomisk region 46.76-46.86 Mb på kromosom 18 (figur 3B), i god overensstemmelse med resultater fra lesedybdeanalyse.
A. Plott av lesedybdedata på påfølgende eksoner rundt SMAD4 genet regionen på kromosom 18. Den blå linjen viser sekvense lese dybdedata for MDA-MB468, og den rosa linjen viser mediansekvense lese dybden på alle åtte cellelinjer. B. Kopier-talldata fra Affymetrix SNP6 chip data rundt SMAD4 genet regionen på kromosom 18. Den svarte linjen viser segmenterte kopitalldata (log2 forholdet til normale prøver) som genereres av aroma.affymetrx pakken i R som beskrevet i metodedelen.
En lese dybde på null kan skyldes tekniske problemer, for eksempel probe design i NimbleGen 2,1 M array. Faktisk, identifiserte vi 2513 ekson regioner som har en lese dybde på null for alle 8 cellelinjer (tabell S1). Men siden median les dybde på tvers av alle 8 cellelinjer, er større enn null for alle de 16 ekson-regionene (figur 3A), er det usannsynlig at den observerte dybden av null i MDA-MB468-cellelinjen er på grunn av en systematisk svikt av exome fangst. Tilfeldig variasjon i lese dybden er en annen årsak til manglende dekning sekvensering. I MDA-MB468 cellelinje, er det 17,161 ekson regioner med en lese dybde på null (fra 194 706 totalt regioner, unntatt 2513 regionene nevnt ovenfor). Det er svært lite sannsynlig at 16 sammenhengende ekson regioner rundt SMAD4 genet ville ha en lese dybde på null skyldes tilfeldig variasjon (p = 1.3e-17, beregnet fra binomisk fordeling).
Vi var også i stand til å re -identify dokumentert Geneamplifikasjon hendelser ved hjelp av lesedybdedata. For eksempel er amplifikasjon av EGFR1 i MDA-MB468-cellelinjen blitt dokumentert ved fluorescens in situ hybridisering og ved kvantitativ PCR [24]. Vi observerte at de 53 ekson regioner rundt om i EGFR-genet på kromosom 7 har svært høye lese dybder i MDA-MB468 data (Figur 4A, de eksoner mellom 55.58-55.73 Mb har en gjennomsnittlig lese dybde på 107). Vårt eksemplar nummer analyse av Affymetrix SNP rekke 6.0 data viste også at EGFR-genet regionen er sterkt forsterket i MDA-MB468 linjen (figur 4B, genomisk region 55,48 til 55,81 Mb).
A. Plott av lesedybdedata på påfølgende eksoner rundt EGFR-genet regionen på kromosom 7. Den blå linjen viser sekvense lese dybdedata for MDA-MB468, og den rosa linjen viser mediansekvense lese- dybde på alle åtte cellelinjer. B. Eks-talldata fra Affymetrix SNP6 chip dataene omkring EGFR-genet region på kromosomalt 7. Den svarte linjen viser de segmenterte kopitalldata (log2-forhold til normale prøver) som genereres av aroma.affymetrx pakken i R som beskrevet i metodedelen.
Nye ikke-synonyme varianter i proteinkinaser
Siden mutasjoner i proteinkinaser har viktige roller i kreft biologi, valgte vi å undersøke sekvensdata for protein kinaser og fokus på ikke-synonyme variasjoner, som produserer aminosyresubstitusjoner som kan ha funksjonelle konsekvenser. Som nevnt ovenfor, exome sekvensering avslørte circa 2000 nye ikke-synonyme varianter på hver av de åtte cellelinjer. Etter påføring av en streng filter (som beskrevet i Methods), mellom 199-479 gener har nye ikke-synonyme varianter, avhengig av den cellelinjen (tabell S2). Den NimbleGen 2,1 M fange matrisen anvendt i denne studien inkluderte eksoner til 440 av de 518 proteinkinaser i det humane genomet (tabell S3) [25]. I hver cellelinje, ble et gjennomsnitt av 122 ikke-synonyme variasjoner detektert i kinase-gener. Etter fjerning sannsynlige kimlinje-varianter (som finnes i dbSNP) og påføring av en streng filter som er beskrevet ovenfor, har hver cellelinje et gjennomsnitt av åtte kinaser med ikke-synonyme variasjoner (tabell 4). Disse sekvensvariasjoner proteinkinaser er oppført i Tabell 5. De fleste av disse sekvensvariasjoner er ikke rapportert i COSMIC database eller rapportert i litteraturen, men flere har uavhengig bekreftelse. For eksempel har vi identifisert EGFR variant A1048V i GTL16 mage cellelinje. Den samme variant i EGFR har blitt rapportert i den MKN45 gastriske cellelinjen [26], som er den opphavelige cellelinje av GTL16 [27]. Et annet eksempel er den R796S variant av insulin reseptorgenet (INSR) i RD-cellelinje (tabell 5). Vi hadde tidligere identifisert denne varianten i RD cellelinje ved hjelp av kapillær sekvenseringsteknologi (data ikke vist).
Diskusjoner
Analyse av data fra åtte ulike kreftcellelinjer show at Roche NimbleGen og 454 exome sekvense teknologier kan med hell brukes til å identifisere variasjoner i genet-koding regioner. Fra sekvense data med et gjennomsnitt på 7,3 ganger dekning, varianter fra NCBI36 referansen genomet ble identifisert i ca 8% (14,340 regioner) av alle målområder på exome fangst array. Mens de fleste av disse variantene kunne bekreftes i dbSNP database, i gjennomsnitt 0,16% (2779) av totale målområder bære en roman variant.
En sammenligning av SNP genotype samtaler fra exome sekvensering med data generert på Affymetrix Genome-Wide Menneskelig SNP Array 6.0 viser at det er høy samsvar mellom de to teknologiplattformer. Konkordanssiden er 97% for homozygote områder, og varierer fra 30% til 90% ved heterozygote posisjoner, med nøyaktighet avhengig av sekvense lese dybde. Vår analyse av forholdet mellom lese dybde og kraft deteksjon foreslått at minst ti ganger lese dybde er nødvendig for pålitelig å detektere begge alleler i heterozygote områder. Disse resultatene gir veiledning i planlegging av fremtidige genom sekvense prosjekter.
For de sju undersøkte cellelinjer som også er til stede i den kosmiske databasen, viser vi at 19 av 21 kjente mutasjoner kan bli re-oppdaget av exome sekvensering. To tidligere beskrevne mutasjoner ble vinner som følge av manglende dekning sekvens. I ett tilfelle var dette på grunn av ufullstendig dekning av den menneskelige exome i NimbleGen 2,1 M fangst matrise, som angir behov for forbedringer i matrisen design.
Etter vellykket re-identifisering av EGFR forsterkning og SMAD4 homozygot delesjon i MDA-MB468 cellelinje, viser vi at eksemplar nummer endringer kan utledes fra sekvenselesedybdedata. Men på grunn av den stokastiske natur sekvenselese dybde og sannsynligvis ujevnheter i exome fange prosessen, generelt er det ikke mulig å anslå en pålitelig kopi-antall informasjon fra data. Bruk av teknologien til flere prøver vil bidra til å forbedre vår evne til å beregne og korrigere for systematiske skjevheter i plattformen, og øke dybden av sekvensering leser vil redusere avviket skyldes tilfeldige svingninger i lese tall.
Å bringe sammenheng til genomisk variasjon identifisert i denne studien, valgte vi å fokusere på proteinkinaser som et illustrerende klasse. I dette arbeidet har vi identifisert med høy tillit minst fire nye variant proteinkinaser i hver cellelinje. De fleste av de nye sekvensvariasjoner i proteinkinaser som er identifisert i denne studien er ikke tidligere blitt rapportert, og sannsynligvis gjenspeiler den høye mangfoldet av genomisk endring i kreft. Våre resultater utvide kunnskapen om sekvensvariasjoner i proteinkinaser og andre potensielle kreft-relaterte gener. Disse nye varianter kan enten være germline SNP’er ennå ikke rapportert i dbSNP databasen, eller somatiske mutasjoner i disse kreftceller. Flere store menneskelige genom sekvense prosjekter for tiden pågår vil utvide identifisering av germline SNPs og bidra til å kategorisere innholdet i nye varianter som finnes i svulstene.
I konklusjonen, viste vi at exome sekvensering kan være en pålitelig og kostnadseffektiv -Effektiv tilnærming til å identifisere genomiske forandringer i kreftcellelinjer, og foreslå måter å ytterligere forbedre exome-sekvensering teknologi for applikasjoner i kreftgenomforskning. En omfattende katalog av genomisk endringer i de kodende områder åtte kreftcellelinjer ble generert, som skal bidra ikke bare til vår kunnskap om disse modellene spesielt, men også for vår forståelse av kreft genomikk og kreft biologi generelt.
Materialer og metoder
DNA Forberedelse
A2780, A549, Colo205, GTL16, NCI-H661, MDA-MB468, PC3, og RD cellelinjer ble opprinnelig hentet fra ATCC. Cellelinjer ble dyrket i RPMI 1640 (Gibco) med 10% varme-inaktivert føtalt bovint serum (FBS; Cellgro), med unntak av RD (ytterligere 25 mM HEPES) og A549 (Hams F12 (Gibco) med 10% FBS). Genomisk DNA (10 ug) ble utarbeidet av QIAamp DNA Mini Kit (Qiagen) ved hjelp av produsenter protokoller, og gitt til Roche 454 Sequencing Center.
Exome Capture og Next-Generation Sequencing
Exome fangst og neste generasjons sekvensering ble utført av Roche NimbleGen og Roche 454 Life Science i henhold til produsentens protokoller. Genomisk DNA ble fanget på NimbleGen Sequence fange menneskelige Exome 2,1 M Array, som har 197,218 totalt regioner (capture regioner) som dekker om lag 175 278 eksoner og miRNA regioner (mål regioner, kan store mål regionen består av flere fangst regioner). For hver cellelinje, ble tatt DNA sekvensert med to kjøringer av 454 GS FLX Titanium sekvenseringsteknologi.
Array-basert genotyping og Kopier-nummer analyse
To porsjoner av 250 ng genomisk DNA per prøven ble spaltet med restriksjonsenzymer NspI og Styl, respektivt. Den resulterende produkter ble ligert til de tilsvarende adaptere og PCR forsterket. De merkede PCR produktene ble hybridisert til Affymetrix Genome-Wide Menneskelig SNP Array 6,0 i henhold til produsentens anbefalinger. Den Tamfuglfôr algoritme [28] implementert i Affymetrix Power Tools (APT) Software Package (versjon 1.10.0) ble brukt for genotype besluttsomhet. For kopitall analysen ble Cel filene behandles ved hjelp av aroma.affymetrix pakken [29] for R-prosjektet. Segmentering av normalisert rå kopiantall data ble utført med CBS-algoritmen [30] implementert i aroma.affymetrix pakken
Bioinformatikk analyse
Human Genome NCBI36 /hg18 henvisning enheten (http: /. /www.ncbi.nlm.nih.gov/genome/guide/human/release_notes.html#b36) ble anvendt som rammeverk for alle analyser. Sequence databehandling, kartlegging for det menneskelige genom, og innledende samtaler med variasjon fra referansesekvensen ble utført av Roche 454 Life Science bruker GS Reference Mapper programvare (Roche Inc.). For å kvalifisere som en variant fra referansegenomsekvens, må det være minst to uavhengige lesninger som 1) viser forskjellen, 2) har minst 5 baser på begge sider av forskjell, og 3) har få andre isolerte sekvensforskjeller lese. Varianter som er identifisert som «høy tillit» ble utsatt for en mer stringent filter, og krever i det minste tre uavhengige leser med den varianten som omfatter minst 40% av alle uavhengig leser dekker allelet genomiske posisjon. For å identifisere ikke-synonyme varianter, ble effekten av hver variant på settes proteinsekvensen vurderes ved å kartlegge sine genomiske koordinater tilbake til gener i RefSeq collection [31] frigi 37, og identifisere endringer i kodon spesifisitet.
Vi beregnet den teoretiske hastighet for deteksjon ved heterozygote posisjonene som en funksjon av forskjellige lese dybde som følger: N-sekvensering leser som dekker en heterozygot stilling kan betraktes som tilfeldig utvalg av de to alleler gjentatt N ganger, og dermed bør følge binomial fordeling. Forutsatt at allel A er rapportert i det humane genom og referanse allel B er en variant alleler, krever vi at i det minste to sekvense leser med B-allelet for å erklære påvisning av allelet B. Sannsynligheten for å detektere både A- og B-allelene ved en heterozygot posisjonen kan beregnes som: PAB = 1-P1-P2. P1 er sannsynligheten for å finne 0 eller en lese med A-allel i N sekvense leser i henhold til binomial fordeling, noe som ville føre til en genotype ring av AA. P2 er sannsynligheten for å finne N leser med B-allelet i N-sekvensering leser henhold til binomisk fordeling, noe som vil føre til en genotype kall BB.
Hjelpemiddel Informasjon
Tabell S1.
Catpure regioner som har null lese- dybde i alle 8 cellelinjer
doi:. 10,1371 /journal.pone.0021097.s001 plakater (XLS)
Tabell S2.
Alle nye ikke-synonyme varianter i åtte cellelinjer
doi:. 10,1371 /journal.pone.0021097.s002 plakater (XLS)
tabell S3.
440 protein kinase gener som omfattes av NimbleGen 2,1 M fangst rekke
doi:. 10,1371 /journal.pone.0021097.s003 plakater (XLS)
Takk
takke Charles Tilford og Jansen Lim for deres hjelp i å gi genomiske koordinater for gener i det menneskelige genom. Vi takker også Roche NimbleGen og Roche 454 Life Science for å utføre exome fangst, 454 GS FLX Titanium Sekvense går, og innledende databehandling.