Abstract
Med bruk av hel-genom og hel-exome sekvensering, høy kvalitet kataloger av recurrently muterte kreftgener blir tilgjengelig for mange krefttyper. Økende tilgang til sekvenseringsteknologi, inkludert benk-top sequencere, gir mulighet til å re-sekvens et begrenset sett av kreftgener over en pasient kohort med begrenset behandlingstid. Her, vi re-sekvensert et sett av kreftgener i T-celle akutt lymfatisk leukemi (T-ALL) bruker NimbleGen sekvens fangst kombinert med Roche /454-teknologi. Først undersøkte vi hvordan en maksimal sensitivitet og spesifisitet av mutasjonsdeteksjon kan oppnås gjennom en benchmark studie. Vi testet ni kombinasjoner av ulike kartlegging og variant-ringer metoder, variert varianten ringer parametre, og sammenlignet den anslåtte mutasjoner med en stor uavhengig validering sett oppnås ved kapillær re-sekvensering. Vi fant at kombinasjonen av to kartleggings algoritmer, nemlig
BWA-SW Hotell og
SSAHA2
, kombinert med den varianten ringer algoritmen
Atlas-Snp2
gir høyest følsomhet (95 %) og høyest spesifisitet (93%). Deretter påføres vi denne analysen rørledning for å identifisere mutasjoner i et sett av 58 kreftgener, i et panel av 18 T-ALL-cellelinjer, og 15 T-ALL-pasientprøver. Vi bekreftet mutasjoner i kjente T-ALL drivere, inkludert PHF6, NF1, FBXW7, NOTCH1, KRAS, NRAS, PIK3CA, og PTEN. Interessant, vi også funnet mutasjoner i flere kreftgener som ikke hadde blitt knyttet til T-ALL før, inkludert JAK3. Til slutt, vi re-sekvensert et lite sett av 39 kandidatgener og identifisert tilbakevendende mutasjoner i TET1, SPRY3 og SPRY4. I konklusjonen, etablerte vi en optimalisert analyse rørledning for Roche /454 data som kan brukes til nøyaktig oppdage genmutasjoner i kreft, noe som førte til identifisering av flere nye kandidat T-ALL driver mutasjoner
Citation. Kalender Atak Z, De Keersmaecker K, Gianfelici V, Geerdens E, Vandepoel R, Pauwels D, et al. (2012) høy nøyaktighet Mutasjon Detection i leukemi på et valgt Panel av kreftgener. PLoS ONE 7 (6): e38463. doi: 10,1371 /journal.pone.0038463
Redaktør: Jörg D. Hoheisel, Deutsches Krebsforschungszentrum, Tyskland
mottatt: 28 desember 2011; Godkjent: 5 mai 2012; Publisert: 04.06.2012
Copyright: © 2012 Kalender Atak et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet av den belgiske regjeringen (kreftplan – translasjonell forskning), KU Leuven (gi GOA /11/010 til J. Cools og PV, gi PF /10/016 SymBioSys til J. Cools og SA), Stiftelsen Against Cancer (tilskudd 2010-154 til SA), den FWO-Vlaanderen (G.0287.07, J. Cools) og European Research Council (ERC-Starting grant til J. Cools). KDK er postdoktor finansiert av FWO-Vlaanderen, er PV en Senior klinisk utprøver støttet av FWO-Vlaanderen, DP og MP er finansiert av Agentschap voor Innovatie dør Vitenskap no Technologie. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:. Den tilhørighet WDG og HQ til Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.
Innledning
Neste generasjons sekvensering (NGS) teknologier har betydelig forbedret vår sekvense kapasitet i de siste fem årene. De er nå mye brukt til forskningsformål og er begynt å finne veien inn i kliniske applikasjoner. Selv om hele genomet og hele exome sekvense tilnærminger er implementert for å kartlegge de genomiske landskap av mange menneskelige sykdommer, er de ikke rutine strategier for å avdekke molekylære avvik på grunn av høye kostnader og lang omsetning ganger (kjøre og analyse ganger). Målrettet re-sekvensering, på den annen side, er tiltrekkende i et klinisk miljø på grunn av lavere kostnader, sekvenserings kortere tid sekvensering og enklere dataanalyse. Videre, ettersom oppdagelsen av nye kreftgener ved hel-exome sekvensering vil gradvis mette og løper sammen i et sett av vanlig muterte gener i en bestemt cancer, kan identifisering av disse mutasjoner gir viktig diagnostisk og prognostisk informasjon.
til tross for kravet om flere dager for bibliotek forberedelse og target berikelse for alle disse plattformene, tilbyr Roche /454 teknologi fordelene med korte kjøretider og dataanalyse tid. I tillegg er det mer begrenset datautgang også gunstig for behandlingstid fordi færre pasientprøver må samles for å fylle en hel sekvense løp. Basert på disse fordelene med 454-plattformen for å sekvensere relativt små gensettene, investerte vi i å optimalisere bioinformatikk rørledninger for lese kartlegging og variant kall 454 leser, med sikte på å bruke dette både for forskning, samt for kliniske formål. Vi fokuserte på T-celle akutt lymfatisk leukemi (T-ALL), en aggressiv blodkreft kreft forårsaket av malign transformasjon av utviklings T-celler [1]. Et sett av 97 gener ble valgt for målrettet sekvensering. Settet besto av 58 kreftgener [2] og 39 kandidatgener inkludert tyrosin kinase og fosfotasesubstrat gener, kromatin modifikatorer, og flere gener som tilhører familiene til kjente kreft driver gener som TET1-TET3, eller PIK3CB-PIK3CD-PIK3CG.
For nøyaktig variant deteksjon, undersøkte vi flere eksisterende analyse rørledninger og sammenlignet resultatene deres. Selv om den tilhørende programvare gsMapper er mye brukt i analysen av 454 data [3], [4], [5], diverse alternative kartlegging og variant ringer algoritmer har blitt utviklet, så som BWA-SW [6] og SSAHA2 [7] , BLAT [8] for kartlegging, og SAMTools [9], VarScan [10], og Atlas-Snp2 [11] for variant ringer. Li et al [6] anmeldt lange lese aligners, og Shen et al [11] anmeldt variant innringere, men så vidt vi vet, ingen sammenligning er utført på en kombinasjon av kartlegging og variant ringer algoritmer i sammenheng med mutasjon oppdagelse .
Her har vi analysert og sammenlignet med ni forskjellige kombinasjoner av en kartleggings og varianter av ringer algoritmer og spesielt undersøkt i hvilken grad lav dekning posisjoner kan inngå i variasjonen ringer fremgangsmåte for å øke sensitiviteten av mutasjonen deteksjon. Deretter bruker vi den optimaliserte rørledningen for å identifisere mutasjoner i et sett av 58 kreftgener og 39 kandidatgener, over 18 T-ALL cellelinjer og 15 T-ALL pasientprøver, og identifisere tilbakevendende mutasjoner i både kjente og nye drivere.
Resultater
Sammenligning av Kartlegging og variasjon Calling Metoder for Roche /454 data
Roche følges programvare
gsMapper
er mest brukt for analyse av Roche /454 data. Denne programvaren justerer først leser til referanse-genomet og deretter viser alle stillinger som er forskjellig fra referanse genomet (variant ringer). Selv
gsMapper
gode resultater i flere studier [3], [4], [5], ønsket vi å vurdere ytelsen på våre datasett og undersøke om vi kan oppnå bedre presisjon og nøyaktighet ved hjelp av alternative aligners og variant innringere. Vi testet åtte forskjellige kombinasjoner av en lang lese aligner (BWA-SW, SSAHA2, BLAT) og en variant som ringer (SAMTools, VarScan, Atlas-Snp2) og sammenlignet resultatene med
gsMapper
.
hver rørledning ble påført på den leser oppnådd fra syv T-aLL-cellelinjer, og ytelsen til hver rørledning ble evaluert ved Sanger resekvensering av 210 kandidat varianter som ble tilfeldig tatt fra alle forutsagte 8020 varianter (som inneholder både SNP’er og mutasjoner) fra alle rørledninger. Som et mål på ytelsen til hver rørledning, vi beregnet Matthews korrelasjonskoeffisient (MCC), som er et mål på prediksjon nøyaktighet som er beregnet basert på antall vellykket spådd sanne positive og sanne negative funnet av Sanger-sekvensering (se Materialer og metoder). Ved bruk av standard parameterinnstillingene (tabell S1), ytelsen til de forskjellige rørledningene var sammenlignbare, med en gjennomsnittlig MCC på 0,62, med ingen alternativ rørledning gir bedre resultater enn gsMapper (MCC 0,82) (Tabell S1).
i NGS studier, leser nærvær av duplikat (forårsaket av en PCR-amplifisering trinnet under bibliotek fremstilling) er en potensiell kilde til falske positive enkelt nukleotid-variant (SNV) prediksjon [12]. Derfor har vi lagt et ytterligere trinn for å fjerne dupliserte leser ved hjelp av Picard, noe som resulterer i en 2-24% økning i MCC, avhengig av rørledningen, med et gjennomsnitt på 0,73 MCC (tabell S1). Dette viste at duplikat fjerning er et viktig skritt for å oppnå korrekte varianten samtaler.
Neste, vi ytterligere optimalisert ytelsen til hver rørledning ved å variere minimalt nødvendige antall leser (dybde på dekning, DoC) og den minimale nødvendige variant leser (variant allel frekvens, VAF). Endringer i Doc terskler hovedsakelig påvirket følsomheten, mens varierende VAF terskler påvirket spådommer når det gjelder spesifisitet (figur 1.a, Tabell S2). Alle rørledningene nådd sin beste ytelse med en samsvars terskel av tre, og med et minimum VAF terskel på 0,20 (når det er aktuelt) (tabell S1-S2). I et avsluttende forsøk på å minimalisere falske positive forutsigelser kombinerte vi de to beste kartleggings algoritmene i en rørledning, noe som ytterligere økte sensitiviteten til 95% og spesifisiteten til 93%. Grunnen til denne økning i nøyaktighet er at visse forutsagte varianter som er forårsaket av feilaktig tilordning (figur S1) er nå filtrert ut. Selv om denne siste rørledningen (SSAHA2 + BWA-SW + Atlas-Snp2) utfører bedre enn
gsMapper plakater (91,2% sensitivitet og 90,8% spesifisitet), forskjellen er ikke stor og
gsMapper
kan betraktes som en gyldig (og ofte lett å bruke) alternativ (figur 1.B).
(A) forskjellige rørledninger vise forskjellig sensitivitet og spesifisitet. Varierende DoC og VAF terskler i varianten kalle prosessen har en ekstra effekt på spådommer når det gjelder sensitivitet og spesifisitet, henholdsvis. Hvert rør er representert med et annet symbol og ytelsen til hver rørledning (i form av sensitivitet og spesifisitet) er plottet under varierende doc og VAF terskler. Merk at X-aksen representerer den falske positive (1-spesifisitet). I denne ROC tomten, jo nærmere det punktet til øvre venstre punktet på grafen, jo bedre sensitivitet og spesifisitet. Forskjellige farger av symbolene indikerer resultatene av rørledningen under endrede VAF terskler, og de to skyggelagte ruter viser ytelse under skiftende Doc terskler. Plottet viser at (i) redusere DoC terskelen øker følsomheten av alle rørledninger som er merket med blå stiplet linje; (Ii) økning av VAF terskelen øker spesifisiteten med en liten reduksjon i sensitivitet som er angitt (i eksemplet med BLAT + VarScan rørledning) med den røde stiplete linje; (Iii) BWA-SW + SSAHA2 + Atlas-Snp2 rørledningen har den beste ytelsen blant alle rørledninger henhold DoC = 3 VAF = 0.20 terskler som indikert med den gule pilen. Den Roche rørledning merkes med en svart diamant form siden ingen parameterendringer ble utført på den, og SSAHA2 + SAMTools og BWA-SW + SAMTools rørledninger ble farget grå siden ingen VAF terskel endringer ble utført på dem. (B) Den Matthews korrelasjonskoeffisient for hver rørledning er vist for den mest optimale ytelsen til at rørledningen (tabell S1). Det er interessant å merke seg at optimal ytelse av alle rørledninger, bortsett fra Roche gsMapper, ble observert for en doc terskel for 3.
Utbredt Mutasjoner i kreftgener Across 18 T-ALL cellelinjer og 15 T-ALL pasientprøver
Vi søkte optimalisert rørledningen bestemt ovenfor, bestående av SSAHA2 + BWA-SW kombinasjon for lesekartlegging, og Atlas-Snp2 for variasjon ringer, for å identifisere mutasjoner i et panel av 58 «kreft gener «over 18 T-ALL cellelinjer og 15 primær T-ALL pasientprøver. Dette settet av gener består av T-ALLE drivere 13 (figur 2.A.I) og 45 andre gener som er involvert i en rekke kreftformer (figur 2.A.II). Alle disse gener er tilstede i tellingen [2] database av kreftgener med unntak av de nylig oppdagede kreftgener ATOH1 og PHF6 [13], [14]. Siden PHF6 mutasjoner er involvert i T-ALL vi lagt PHF6 til vår liste over T-ALL drivere.
Kode mutasjoner i kjente kreftgener (A) og kandidatgener (B), er angitt med ulike fargekoder. Panel A er videre inndelt i (I) gener som er kjent for å være sjåfører i T-ALL og (II) genene som har tilbakevendende somatiske mutasjoner i ulike kreft hos mennesker. Cellelinjene er plassert til venstre i tabellen, og pasientprøvene er plassert til høyre. Gener er rangert etter hyppighet av protein endre mutasjoner i pasientprøvene.
Sekvens leser ble kartlagt til hele referansegenom og de leser det kartet til utvalgte gener ble beholdt. Dette resulterte i 36% av lesninger som kartet til målsekvenser i gjennomsnitt, med en gjennomsnittlig dekning av 24.2X og 16.3X for cellelinjer og pasientprøver, respektivt. Analyse av sekvensdata viste at exoner med en meget lav dekning hadde en signifikant høyere GC-innhold i forhold til eksoner med høyere dekning (p-verdi 2.2E-16), en finne i samsvar med en tidligere publisert studie [15] (fig S2 ). Av de 1565 eksoner målrettet i denne studien, 18 exoner hadde ingen dekning i cellelinjene, eller i pasientprøvene (tilsvarende 8710 bps); og 15 eksoner hadde ingen dekning i pasientprøvene bare (tilsvarende 5197 bps). I gjennomsnitt, 94% og 86% av den målrettede eksonene nådd et midlere dekning lik eller over 3 for cellelinjer og pasientprøvene, respektivt.
Variasjon calling resulterte i 836 distinkte enkelt nukleotid-varianter (SNVs) i kjente kreftgener over de 33 prøvene. Cellelinjer hadde signifikant flere SNVs i kreftgener enn pasientprøver (p-verdi 0,001); i gjennomsnitt 153 SNVs ble detektert per cellelinje og 117 pr pasientprøve. 56% av de antatte SNVs ble rapportert i dbSNP (https://www.ncbi.nlm.nih.gov/projects/SNP/) eller i 1000 genomer prosjektet (https://www.1000genomes.org/) og var utelukket fra videre analyse, mens de resterende 368 SNVs (Tabell S3) påvirkes 55 av de 58 sekvenserte kreftgener, hovedsakelig i eksonene (58,4%) og i ikke-translaterte regioner (23,9%). Videre ble det gjort 8 SNVs påvirker spleiseseter. Av de exonic SNVs, 14 resultat i gevinst på et stoppkodon (kalt «stopp få» SNVs), 140 er ikke-synonyme og de resterende 61 er synonyme koding variasjoner.
For å validere mutasjonene som finnes i celle linjer, sammenlignet vi våre resultater med mutasjoner bestemmes av Kreftcellelinje prosjektet [16], som inneholder elleve av våre 18 cellelinjer. Av de 35 onkogene punktmutasjoner som finnes i Kreftcellelinje-prosjektet (bestemt ved kapillær sekvensering) i gener som inngår i vårt panel, 31 ble gjenfunnet av automatiserte re-sekvensering på Roche /454 bruker SSAHA2 + BWA-SW + Atlas -SNP2 analyse rørledning, som tilsvarer en utvinningsgrad på 88,5% (tabell S4). Merk at gsMapper gjenvunnet 30 mutasjoner av 35, noe som resulterer i en utvinningsgrad på 85,7%. Mutasjonene som var savnet etter Roche /454-sekvensering er enten på grunn av lav dekning på disse stillingene (i to av de fire tapte mutasjoner både i NOTCH1), eller til lav variant kvalitet (en TP53 mutasjon), eller til sekvense feil (en NOTCH1 mutasjon er dekket av 10 leser, og ingen av disse inneholder varianten allelet rapportert av Kreftcellelinje linje~~POS=HEADCOMP-prosjektet). Med hensyn til spesifisitet, både rørledninger gode resultater, for eksempel på FBXW7 genet som vi finner en protein endring punktmutasjon i nøyaktig de samme fem cellelinjer som Kreftcellelinje-prosjektet (av de elleve vanlige cellelinjer). I konklusjonen, den automatiserte re-sekvensering ved hjelp av Roche /454, med enten gsMapper rørledning eller SSAHA2 + BWA-SW + Atlas-Snp2 rørledning, er i svært stor grad i overensstemmelse med mutasjoner funnet av kapillær sekvensering.
Tretten av de 58 kreftgener har vært knyttet spesifikt til T-ALL, og vi identifisert protein endre mutasjoner i minst ett av disse genene i alle cellelinjer og i 10 pasientprøver (fig 2.AI). Av de andre 45 kreftgener, ble 36 gener mutert (figur 2.A.II), hvorav 25 ble mutert på minst to prøver (cellelinje eller pasienten). Genene med de fleste mutasjoner i T-ALL cellelinjer er NOTCH1 (ikke synonymt mutasjon i 9/18 cellelinjer), TP53 (10/18), FBXW7 (7/18), og NRAS (5/18). Disse har også mutasjoner i pasientprøver, unntatt TP53, noe som tyder på at det kan være lettere å få cellelinjer fra prøver med TP53-mutasjon eller at TP53 mutasjoner er ervervet under cellekultur [17].
Identifikasjon av tilbakevendende JAK3 mutasjoner i T-ALL
Vi neste fastslått om mutasjoner i kreftgener kunne identifiseres som tidligere ikke var knyttet til T-ALL. Vi fant flere slike mutasjoner i T-ALL cellelinjer (figur 2.A.II), men deres fravær i pasientprøvene betviler deres relevans for patogenesen av T-ALL.
Vi identifiserte flere mutasjoner i JAK2 og JAK3 i begge cellelinjer og pasientprøver. Alle JAK-kinaser, bortsett TYK2 (se nedenfor), er kjente onkogener i leukemi og aktiverende mutasjoner og translokasjoner som påvirker JAK1, ble JAK2 og JAK3 er beskrevet i flere, hovedsakelig myeloid, hematologisk malignitet [18]. Inntil nylig, var den eneste JAK1 JAK familiemedlem, hvor punktmutasjoner er blitt beskrevet i T-ALL [19]. Men i en fersk artikkel JAK3 gain-of-funksjon mutasjoner ble beskrevet i T-ALL av Elliott et al. [20]. I vår studie har vi identifisert 3 ikke-synonyme koding mutasjoner hos 2 pasienter for JAK2 (pasient TLE37 hadde to mutasjoner) og 4 ikke-synonyme koding mutasjoner i en pasient og 2 cellelinjer (SUPT1 cellelinje hadde to mutasjoner) for JAK3. (Tabell S3). Sanger-sekvensering bekreftet en JAK2 og alle JAK3 variasjoner (tabell S5, figur 3.a-B). Utfyllende Sanger-sekvensering av alle eksoner av JAK2 og JAK3 gener i 31 ekstra T-ALL ble identifisert en ekstra JAK2 variant og 2 ekstra JAK3 varianter (tabell S5, figur 3.a-B). Så i sum identifiserte vi JAK2 mutasjoner i to av 46 (4%) T-alle prøvene og i 0 av 18 T-ALL cellelinjer og JAK3 mutasjoner i to av 46 (4%) T-alle prøvene og i to av 18 T-ALL cellelinjer (tabell S5, figur 3.AB). For JAK2, begge mutasjoner var også til stede i en tilsvarende remisjon prøve, mens alle JAK3 pasient mutasjoner ble somatisk kjøpt. Interessant nok pasient TLE44 viste 2 somatiske mutasjoner i JAK3, nemlig A572T og M511I, som ble detektert på samme allele (data ikke vist). Videre har M511I mutasjon blitt oppdaget før i AML og over-uttrykk for denne mutant transform IL3 avhengige 32D celler og indusert T-ALL hos mus [21]. Mens A572T mutasjonen ble ikke beskrevet tidligere, ble JAK3 aminosyre A572 funnet mutert inn i et V (A572V mutasjon) i T-celle leukemi, T-cellelymfom, og AML, og dette A572V mutant transformeres cytokin avhengig hematopoetiske celler og indusert leukemi hos mus [21], [22], [23], [24].
(A) Sanger-sekvense kromatogrammene tilsvarer bekreftet JAK2 /JAK3 varianter. (B) Domain strukturen JAK2 og JAK3 proteiner med angivelse av romanen oppdaget varianter. Non-somatiske varianter er merket med en stjerne. (C) Sanger sekvenser som viser eksempler på TYK2 varianter oppdage i T-ALL cellelinjer eller leukemi pasientprøver. (D) Skjematisk fremstilling av TYK2 proteinstruktur med angivelse av alle nye TYK2 varianter ble oppdaget i denne studien. Non-somatiske varianter er merket med en stjerne.
identifisering av nye onkogener og tumorsuppressorgener i T-ALL
Søke etter nye T-ALL driver gener kan utføres av hele -exome sekvensering eller andre genom-wide tilnærminger. Likevel kan det Roche /454 plattform kombinert med sekvens fangst være nyttig i en kandidat-gen tilnærming. I vår målrettede resekvensering tilnærming ble 39 gener inkludert som ikke er årsaksmessig knyttet til kreft, men ble valgt som kandidat onkogener eller tumorsuppressorgener, på grunn av deres funksjon (for eksempel tyrosin-kinaser og tyrosin fosfataser) eller fordi familiemedlemmer hadde vært implisert i kreft (f.eks TYK2 for JAK familien, TET1 fordi TET2 er et kjent kreft genet). Figur 2.b indikerer exonic og spleisesete mutasjoner observert i disse genene og genene ble rangert i henhold til gjentakelse av protein altering varianter over pasientprøver.
Interessant, fire av de 15 sekvensert pasientprøver inneholde en variasjon i TET1.
TET
genet familien (
TET1
,
TET2
,
TET3
) av epigenetiske regulatorer er viktig for hematologi feltet på grunn av observasjon av
TET2
mutasjoner i 10-25% av pasientene med ulike myeloide hematologiske sykdommer [25], [26], [27]. For å vurdere mutasjonsfrekvens på bedre
TET1
i T-ALL, utførte vi supplerende Sanger-sekvensering av
TET1
i alle cellelinjer og pasientprøver og i et panel av 22 flere T-alle tilfeller . Totalt, dette resulterte i identifisering av
TET1
varianter i 5/37 (13,5%) av analysert pasienter og i 1/18 T-ALL cellelinjer (Karpas-45) (Tabell S6 og figur 4). Den somatiske status over oppdagede
TET1
varianter ble bekreftet for en sak (H1297Y) hvor forlatelse prøven var tilgjengelig. Vi har også undersøkt variantene i
TET2 Hotell og
TET3
plukket opp av 454 og utført ytterligere Sanger-sekvensering for disse genene.
TET2
varianter ble påvist i 2 cellelinjer (Jurkat og KARPAS45) og en
TET3
varianten ble oppdaget i CCRF-CEM cellelinje, ikke T-ALL pasientprøver (0/46) næret ervervet TET2 eller TET3 mutasjoner (tabell S6).
(A) Sanger-sekvense kromatogrammene representerer confimed TET1 varianter. (B) Skjematisk fremstilling av TET1 proteinstruktur med angivelse av alle nye TET1 varianter ble oppdaget i denne studien. Varianter påvist i cellelinjer er vist ovenfor den TET1 protein, varianter påvist i leukemi pasientprøver er under TET1 protein. Non-somatiske varianter er merket med en stjerne.
Mutasjoner i tyrosin fosfatase gener, som fungerer som negative regulatorer av tyrosin signalering, ble identifisert i mange T-ALL cellelinjer og også i flere T-ALL pasienter. Andre mutasjoner i Spry gener, negative regulatorer av RAS /MAPK vei, ble også påvist. Vi identifiserte en homozygot variasjon i
SPRY3
i en T-ALL pasientprøve, og 3 mutasjoner i
SPRY4 plakater (2 mutasjoner i cellelinjer og en somatisk kjøpt mutasjon i et T-ALL pasientprøve ). Sanger-sekvensering bekreftet tilstedeværelsen av disse mutasjonene, men viste ingen ytterligere mutasjoner av SPRY3 /SPRY4 i 22 flere T-ALL tilfeller bringe SPRY4 mutasjonsfrekvensen til 1/37 T-ALL pasienter og 2/18 T-ALL cellelinjer (Tabell S7, figur 5).
(A) Sanger-sekvense kromatogrammene viser bekreftet SPRY4 varianter. (B) Domene strukturen i SPRY4 protein med angivelse av romanen oppdaget varianter.
Til slutt, vi også identifisert flere mutasjoner i tyrosinkinase (IGF1R, TYK2, TNK1, og MST1R) og tilhørende signalproteiner ( IRS2, SOCS3), men de fleste av disse mutasjoner ble funnet i cellelinjer, mens primærpasientprøver viste en mye lavere hyppighet av disse mutasjoner. Den hyppigst muterte gen på tvers av alle cellelinjer og pasientprøver var insulinreseptoren substratet 2 (IRS2) gen, som viser ikke-synonyme kodende mutasjoner i 6 cellelinjer og i en pasientprøve. Også ofte mutert var TYK2, med mutasjoner observert i 6 cellelinjer; en stop-gain variant og 5 ikke-synonyme koding varianter. Selv om ingen av de 15 pasientprøver gjennomført en mutasjon i TYK2, kan det være til stede ved lave frekvenser hos pasienter. For å teste dette, utførte vi utfyllende sekvensering av TYK2 i 93 T-ALL, 54 AML og 53 B-ALL pasientprøver. Til tross for den høye frekvensen av TYK2 variasjoner i T-ALL-cellelinjer, ble TYK2 varianter detektert bare i 2 av 93 T-ALL og en av 54 AML tilfeller (tabell S5, fig 3.CD).
dokumente Oppbyggingen av spesifikke mutasjoner i løpet av in vitro-kultur av T-ALL cellelinjer
mutasjonsfrekvens av TYK2 i T-ALL-cellelinjer sammenlignet med primære T-ALL-prøvene var vesentlig forskjellig, med en høy mutasjonshastighet TYK2 i cellelinjer, men bare en lav mutasjonshastighet i primærprøvene. For å bestemme om dette kan være på grunn av opphopning av TYK2 mutasjoner i løpet av dyrking av cellene, sekvensert vi TYK2 i forskjellige kloner av den samme T-ALL-cellelinje (tabell 1). For CCRF-CEM cellelinje, fikk vi 5 forskjellige subkloner som ble samlet opp gjennom årene. Interessant, mens R1027H varianten var til stede i alle analyserte prøver, den A35V varianten var bare til stede i vår linje og i en ytterligere CCRF-CEM-klonen. I Karpas-45 cellelinjen, Q830 * variasjonen var til stede i 3 forskjellige kloner. I motsetning til dette inneholdt bare vår JURKAT linje C192Y mutasjon, mens dette var fraværende i 2 andre kloner som er tilgjengelig hos DSMZ (www.dsmz.de) (tabell 1). Disse dataene tyder på at i det minste noen TYK2 mutasjoner ble ervervet ved langvarig dyrking av cellene, og dermed er usannsynlig å representere et onkogen begivenhet viktig for utvikling av leukemi
in vivo
. I tillegg kan analyse av trans egenskapene til disse mutanter i Ba /F3-celler ikke identifisere store forskjeller mellom villtype TYK2 og varianter av TYK2 påvist i cellelinjer eller pasientprøver, og vi kunne ikke vise noen autofosforylering av TYK2 i T-ALL celle linjer som inneholder TYK2 varianter (data ikke vist).
Disse dataene bekrefter viktige forskjeller mellom cellelinjer og primære pasientprøver, noe som kan gjenspeile opphopning av mutasjoner under
in vitro
cellekultur.
Diskusjoner
Vi viste at målrettet sekvensering tilnærming med en optimalisert analyse innstillingen kan brukes til å identifisere onkogene mutasjoner. Denne tilnærmingen kan være av spesiell interesse for påvisning av punktmutasjoner i et sett av viktige onkogener og tumorundertrykkere eller andre sykdomsrelaterte gener for diagnose, prognose prediksjon eller terapi valg. Slik informasjon kan bli generert på en forholdsvis kort tid og med enestående detalj. En av de store fordeler sammenlignet med klassiske Sanger-sekvensering er den høyere gjennomstrømning av denne fremgangsmåte som tillater at alle eksoner i et gen sett av denne størrelse kan lett bli sekvensert. Som sådan, er full informasjon gitt og sjeldne varianter eller enda tidligere uoppdagede mutasjoner i et bestemt gen kan oppdages. Faktisk, av de 160 exonic og spleisesete varianter (unntatt de 61 synonyme variasjoner) påvist i cellelinjer og pasientprøver på tvers av vårt panel av kreftgener, bare 40 er funnet i den kosmiske databasen [16], hvorav 24 er knyttet spesifikt med T-ALL. Selv om det for noen gener mutasjons hotspots eksisterer (f.eks KRAS G12, G13, Q61 mutasjoner), er funksjonen av de fleste kreftgener kan påvirkes av mutasjoner ved forskjellige posisjoner. Derfor, for de fleste kreftgener hele kodende sekvens må re-sekvensert, og for dette Roche /454-teknologien er spesielt egnet
For å påvise mutasjoner ved hjelp av neste generasjons sekvensering -. Enten for å erstatte eller supplere molekylær diagnose – standardisert bioinformatikk analyse rørledninger med svært høy nøyaktighet er påkrevd. En slik rørledning består av et kartleggingsalgoritme for å justere sekvensen leses til referansen genomet, en variasjon ringer algoritme for å identifisere forskjeller mellom prøven og referansen, og en variasjon filtrering algoritme.
Vi sammenlignet med mange kombinasjoner av kartleggings og variasjon ringer algoritmer, og funnet ut at ved å kombinere to mappers, nemlig SSAHA-2 og SW-BWA, etterfulgt av Atlas-Snp2 gir de mest nøyaktige variasjon deteksjonsresultater. Legge to kartleggings algoritmer filtrerer ut falske positive varianten spådommer grunn erronous kartlegging, og feilen modell av Atlas-Snp2 muliggjør eliminering av lesninger som har flere beste kampene i referanse genom. Vi fant også at flere data filtre på dybden av dekning og på variant allel frekvensen ytterligere økt både sensitivitet og specifity variasjon gjenkjenning.
Vi fant flere tekniske begrensninger ved dataanalyse. Først måtte vi fjerne duplikat leser introdusert av PCR forsterkning trinnene under tillagingen siden vi la merke til disse var forårsaker falske positive SNV predicitons. For det andre, vi kan bare forutse SNVs, mens indels (små innsettinger og slettinger) måtte bli ignorert siden vårt arbeid (data ikke vist) og tidligere studier viser at 454 leser er ikke egnet for Indel deteksjon på grunn av den store mengden av falske positive resultater [4]. I en diagnostisk setting, hvor 100% spesifisitet er forfulgt, er det avgjørende å identifisere gener eller regioner i gener som er utsatt for erverv av indels og å utforme alternative analyser for å undersøke dem. Likeledes genomiske rearrangements er viktige årsaker til T-ALL men krever utfyllende sporingsteknologien.
Vi mener at bruk av en lang lese sekvenseringsteknologi, slik som Roche /454 eller nyere Pacific Bioscience, gir spesielle fordeler med hensyn til både følsomhet og spesifisitet av variasjon deteksjon. For det første tillater lang lese innretting bedre skille mellom høyt tilsvarende gener i genomet. For eksempel, en av de genene vi re-sekvens var NOTCH1, et gen med flere homologer (nemlig NOTCH2, NOTCH2Nl, NOTCH3 og NOTCH4). Imidlertid observerte vi ikke leser tilordning til en hvilken som helst av disse homologer, selv om vi kartlagt leser til hele genomet. Dette indikerer at både sekvensen fangst og avbildningen ble bestemt. På den annen side er også oppdaget vi et eksempel hvor sekvensen fange var ikke bestemt. Nemlig, er PMS2 genet en av de målrettede gener i vår studie, men vi observerte leser kartlegging til PMS2 pseudogen, PMS2CL, som inneholder de seks første eksoner av PMS2 genet. Takket være bruken av lange leser, fører dette ingen problemer for variasjon deteksjon fordi for hvert gen de respektive tilordnede leser
entydig
til det riktige gen, enten PMS2 eller PMS2CL. Legg merke til at fangstteknologien gir flere signaler for å oppnå høyere spesifisitet fordi ikke bare eksoner er dekket i fangst, men også flankerer intronic regioner.