Abstract
Neste generasjons sekvensering (NGS) er en ny teknologi blir relevant for genotyping av kliniske prøver. Her vurderte vi stabiliteten amplicon sekvense fra formalinfiksert parafin-embedded (FFPE) og paret frosne prøver fra kolorektal kreft metastaser med forskjellige analyse rørledninger. 212 amplicon regioner i 48 kreftrelaterte gener ble sekvensert med Illumina MiSeq hjelp av DNA isolert fra reseksjon prøver fra 17 pasienter med kolorektal kreft levermetastaser. Fra ti av disse pasientene, sammenkoblet Dypfryst og rutinemessig behandlet FFPE vev var tilgjengelig for sammenlignende studie. Eksempel kvaliteten FFPE- vev ble bestemt av mengden av forsterkende DNA ved hjelp av qPCR, sekvense bibliotekene ble evaluert ved hjelp Bioanalyzer. Tre bioinformatiske rørledningene ble sammenlignet for analyse av amplikon sekvenseringsdata. Valgte hot spot mutasjoner ble anmeldt hjelp Sanger-sekvensering. I sekvensert prøver fra 16 pasienter, ble 29 ikke-synonyme koding mutasjoner identifisert i elleve gener. Hyppigste var mutasjoner i TP53 (10), APC (7), PIK3CA (3) og KRAS (2). En høy konkordans av FFPE og parede prøver frosne vev ble observert i ti matchet prøvene, avslører 21 identiske mutasjon samtaler og bare to mutasjoner forskjellige. Sammenligning av disse resultater med to andre vanlig anvendte variant ringer verktøy, men viste høye avvik. Derfor kan amplikon sekvense potensielt brukes til å identifisere hot spot mutasjoner i kolorektal cancer metastaser i frosset og FFPE vev. Imidlertid eksisterer bemerkelsesverdige forskjeller mellom resultatene av ulike variant ringer verktøy, som ikke bare er knyttet til DNA-prøve kvalitet. Vår studie understreker behovet for standardisering og benchmarking av variant ringer rørledninger, som vil være nødvendig for translasjonsforskning og kliniske applikasjoner
Citation. Betge J, Kerr G, Miersch T, Leible S, Erdmann G, Galata CL, et al. (2015) Amplicon Sekvensering av tykktarmskreft: Variant Calling i Frozen og formalinfiksert Samples. PLoS ONE 10 (5): e0127146. doi: 10,1371 /journal.pone.0127146
Academic Redaktør: Jeong-Sun Seo, Seoul National University College of Medicine, Republikken Korea
mottatt: 10 januar 2015; Godkjent: 13 april 2015; Publisert: May 26, 2015
Copyright: © 2015 Betge et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: All relevant data er tilgjengelig via den europeiske nukleotid Archive (ENA) under tiltredelse antall PRJEB8754
Finansiering:.. JB har vært støttet av et fellesskap fra Hartmut-Hoffmann-Berling International Graduate School (HBIGS)
konkurrerende interesser:. forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
på grunn av nylige fremskritt i dyp sekvensering teknologier, har bemerkelsesverdig innsikt blitt vunnet på de endringer som overtas av tykk- og endetarmskreft (CRC) genomer under kreftfremkallende prosessen, i stor grad utvide vårt syn på CRC genomisk progresjon [1-3]. Løftet som etter strukturell karakterisering av kreft genomer, vil kliniske beslutninger bli styrt av individuelle genomiske tumor profiler, men er fortsatt å være oppfylt. Likevel, utvikling av nye målrettede legemiddelstreker behovet for pålitelig og kostnadseffektive metoder for molekylær karakterisering av kreft genomer for å identifisere pasienter som til slutt responderer på behandling på grunnlag av druggable mutasjoner, prediktive endringer eller ervervede resistensmarkører.
Målrettet sekvensering basert på PCR amplikonene representerer en mulig tilnærming for evaluering av handlings mutasjoner, mutasjons hot spots eller prediktive endringer i kreft genomer for kliniske studier. Sammenlignet med genom-wide eller exome-wide sekvensering, en høy dybde på sekvensering ( 1000 lesninger) på genomisk loci av interesse kan nås, og dermed tilrettelegge for påvisning av lavfrekvente varianter i heterogene tumorprøver blandes med stromale celler [4 , 5]. Dessuten, på grunn av det forholdsvis lave antall basepar som skulle bli sekvensert per pasient, av flere prøver, også for langsgående analyse, kan analyseres parallelt på benk-topp maskiner som Illumina MiSeq, senke kostnader og potensielt slik rutinemessig klinisk anvendelse i nær fremtid.
Men for klinisk anvendelse og for translasjons-studier av arkiverte kliniske prøver, mange problemer gjenstår å bli løst. De fleste allment tilgjengelige eksemplarer for klinisk diagnostikk og biomarkør studiene er formalinfiksert, parafininnstøpte (FFPE) vev fra patologi arkiver, som deres langtidslagring er relativt enkelt og kostnadseffektivt i forhold til frossent materiale. Imidlertid er det kjent at formalinfiksering fører til kovalent binding av DNA, RNA og protein ved å metylenbroer, deaminering og oksydasjonsreaksjoner, dannelsen av sykliske grunn derivater og også til DNA-fragmentering [6]. Disse DNA-endringer hemme sekvense teknologier som fører til mindre robuste resultater og vansker med å tolke data fra sekvense eksperimenter. Videre mangler en gullstandard metode for analyse av neste generasjons sekvensering (NGS) data og kvalitetssikringsprogrammer er ikke lansert ennå. Ulike bioinformatiske verktøy og rørledninger analyse har blitt utviklet for NGS data. Det synes imidlertid som reproduserbarhet mellom dem må forbedres [7]. Videre statistiske modeller for variant oppdagelse og variant evaluering, designet for hel-exome eller hel-genomdata som består av mange prøver med lav dekning, kan ikke være optimal for små fragment datasett med noen målrettede regioner. Dermed er det ingen allment akseptert standard på hvordan du utfører variant ringer på amplicon sekvense data. Disse problemene aktualiserer behovet for prøveopparbeidelse og dataanalyse rørledninger optimalisert for amplicon sekvensering av kliniske prøver.
I denne studien beskriver vi en eksperimentell og bioinformatiske rørledning for amplicon sekvensering av kliniske Dypfryst og FFPE-prøver fra CRC. Spesiell fokus er tegnet på utarbeidelse av sekvense biblioteker fra lav kvalitet FFPE-prøver. Den bioinformatikk rørledning, ved hjelp av en tilpasset Genome Analysis Toolkit (GATK) Unified Genotyper, blir forklart i detalj og sammenlignet med andre vanlige variant ringer metoder med hensyn til deres egnethet for amplicon sekvensering ved hjelp FFPE materiale.
Materialer og Metoder
pasienter
Trettitre prøver fra 17 pasienter som gjennomgikk reseksjon av levermetastaser fra CRC i Kirurgisk avdeling, Universitetssykehuset Mannheim, mellom februar 2012 og februar 2013 ble inkludert i denne studien. For alle disse pasientene, enten fersk frosset eller formalinfiksert parafin-embedded (FFPE) vev ble brukt for DNA isolering. Fra 10 pasienter, parret frosset og FFPE vev var tilgjengelig for studier og fra 5 pasienter, matchet primære svulster kan fås fra arkivene til Institute of Pathology, Universitetssykehuset Mannheim. I tillegg en matchet primær-metastase pair fra en nevroendokrin kreft i tynntarmen (Pat05), primær kultur materiale fra en pasient (Pat16), materiale fra en prostata kreft pasient og cellelinjer DLD-en, HCT116, HT55, HUH7, HEK293T , HS68 og SW480 ble inkludert i sekvense kjører og analyse for andre prosjekter, eller som kontroller. Prøvene ble analysert i to sekvense kjøringer, en pasient (Pat13) ble analysert i begge forsøk som kontroll. Alle cellelinjer ble erholdt fra ATCC. Informasjon om pasienter kan bli funnet i S1 tabell.
Etikk godkjenning
Etikk styrets godkjennelse er innhentet fra medisinsk etikk kommisjonen II av Det medisinske fakultet Mannheim, Heidelberg University, Mannheim, Tyskland (No. 2012-293N-MA, 2013-841R-MA, 2014-551N-MA). Skriftlig informert samtykke fra giverne av vevsprøver ble innhentet for bruk i forskning.
Prøvepreparering
Frozen prøver og cellelinjer.
Prøver fra levermetastaser fra CRC pasienter ble transportert i RPMI cellekulturmedium og ble hurtigfrosset på tørris og deretter lagret ved -80 ° C. DNA ble utført med Qiagen DNeasy Blood Tissue Kit (Qiagen, Hilden, Tyskland) i henhold til produsentens anbefalinger, inkludert RNase fordøyelse (fig 1A). Cellelinjer ble pelletert og DNA ble isolert med den samme protokoll. Hentet DNA ble fortynnet og direkte brukes til utarbeidelse av sekvense biblioteker.
(A) for prøveopparbeidelse arbeidsflyt. DNA ble isolert fra friske frosne eller FFPE CRC levermetastaser reseksjon prøvene med Qiagen blod og vev eller FFPE kit, henholdsvis. Frosne prøver deretter direkte gikk sekvensering bibliotek forberedelse, sammenslåing av biblioteker, kvalitetskontroll og sekvensering. FFPE-prøver ble også testet med hensyn til DNA-kvalitet ved qPCR. Bibliotek kvalitet ble testet med Bioanalyzer. For prøver med lave mengder riktig størrelse DNA amplikonene (fragmenter på 310bp), nye biblioteker var forberedt med høyere start DNA-konsentrasjoner og re-analysert med Bioanalyzer. Prøver med enda lave mengder DNA med riktig størrelse og svært fragmentert DNA ble ekskludert. (B) ΔCq-verdier av kvalitetskontroll PCR indikere dårlig prøvekvalitet. DNA konsentrasjon av fragmenter mellom 250bp og 450 bp etter bibliotek forberedelse ble beregnet med Agilent Bioanalyzer og plottet mot ΔCq verdier av FFPE kvalitetskontroll PCR. (C) høyere ΔCq-verdier korrelerer med lavere gjennomsnittlig dybde på sekvensering. (D) Dekning fordeling av amplikonene fra alle sammen FFPE og frosne prøver, normalisert til total sample dekning. Frosne prøver hadde en gjennomsnittlig dybde på 4622, FFPE-prøver 1852.
FFPE-prøver.
vev fra levermetastaser hadde blitt løst i formalin und innstøpt i parafin under rutine patologisk work-up . Egnede blokker ble utvalgt og fem skiver 10 pm ble anvendt for DNA-ekstraksjon uten mikrodisseksjon. Et lysbilde farget med hematoksylin og eosin (H 150bp). For å sammenligne mengder av DNA i den ønskede størrelse regionen, ble konsentrasjonen av DNA-amplikonene i området 250-450bp beregnet. Konsentrasjon av DNA med en størrelse mellom 250bp og 450 bp variert mye mellom 51,7 og 93831,9 pg /mL (gjennomsnittlig 5675,1 pg /mL, median 672,2 pg /mL) i bibliotekene på forskjellige prøver og negativt korrelert med ΔCq verdier (Spearmans Koeffisient: -0.805 fig 1B, S2 tabell). For prøvene med lave DNA-konsentrasjoner ved 310bp fragment, ble biblioteket forberedelse gjentas med høyest mulige DNA-mengder (S1 Fig, S2 tabell). Bioanalyzer viste høyere konsentrasjoner av DNA rundt 250-450bp (365,3 pg /pl-5669,8 pg /pl; bety 6190,9 pg /pl; median 1996,3 pg /pl), men med sterk bakgrunn av korte DNA-fragmenter. Etter PCR opprydding av biblioteker, ble kort DNA-fragmenter redusert, men tre prøver viste også forminskede mengder av 310bp fragment og ble dermed ekskludert fra sekvensering.
Databehandling
bioinformatiske analyse rørledning er vist i fig 2A. Leser ble justert mot hg19 referanse genom bruker BWA algoritmen implementert MiSeq programvare (MiSeq Reporter v2.2.29). BAM filene ble kvalitetssikret med FASTQC (v.0.9.5, https://www.bioinformatics.babraham.ac.uk/projects/fastqc/). Indels i sekvenssammenstilling filene ble venstrejustert og lokal omstilling rundt Indels var ferdig med RealignerTargetCreator og IndelRealigner verktøy fra Genome Analysis Toolkit (GATK, versjon 2,4 til 9) [8]. Base kvalitetspoeng rekalibrering ble utført. Duplicate kartlegging og merkingen var ikke anses egnet for amplicon sekvensering og dermed utelatt.
(A) Sekvense analyse arbeidsflyt. Sekvenssammenstilling filer gikk lokal-omstilling rundt Indels, venstrejustering og basen kvalitetspoeng rekalibrering. Etter variant ringer med GATK Unified Genotyper ble annotering og virkning prediksjon av oppdagede varianter gjøres ved hjelp SnpEff. Rå varianter av alle prøvene ble filtrert av tilpassede parametere med SnpSift. Varianter som inngår i 1000 genomer Prosjektdata ble ekskludert for å bare få somatiske mutasjoner i kreft. (B) Høy frekvens av TP53 og APC-mutasjoner blant somatiske mutasjoner identifisert i CRC levermetastaser (frosne og FFPE vev). Fargede feltene representerer tilstedeværelsen av en nonsynonymous koding SNP (blå), en mutasjon som fører til en stopp-kodon (grå) eller et rammeskifte mutasjon (oransje). Barer oppsummere mutasjoner stede i hver pasient (vertikale søyler) eller hver muterte genet (vannrette streker). Av notatet, noen gener inneholde mer enn en mutasjon.
Unified Genotyper rørledning
Variant calling.
Unified Genotyper fra GATK (versjon 2,4 til 9) ble brukes for variant ringer. Alle prøver ble behandlet i parallell og oppdelt i flere enkelte variant filer for hver prøve etter variant ringer. Maksimal dekning pr locus ble øket fra standard 250 til 9.000.000 for å ta i betraktning den høye dybden av amplikon sekvensering. (Downsampling til lavere dybde er gjort i hel-exome studier for å øke hastigheten ved å lagre minne). Den minimale sikkerhetsterskelen for å kalle ble satt til 10, den laveste sikkerhetsterskelen for utsendelse til 30. SNP’er og Indels ble vurdert samtidig. En region liste over alle amplikonene ble brukt til å definere områder for enkeltnukleotidpolymorfi (SNP) og Indel ringer for å øke analyse hastighet. Som et alternativ, ble Unified Genotyper rørledningen brukes ved å behandle hver prøve individuelt, ellers de samme parametrene ble brukt
Variant annotering og virkning prediksjon
SnpEff (versjon 2.0.5, http..: //snpeff.sourceforge.net/) [9] ble brukt for varianten annotering og virkning prediksjon og GATK VariantAnnotator verktøyet ble kjørt med-A SnpEff mulighet til å legge de SnpEff merknader med høyest biologisk betydning for hver variant til variant kall format (vcf) filer. Deretter ble vcf-fil med informasjon om alle sekvensert prøvene delt inn i enkeltprøve variant filer ved hjelp av GATK SelectVariants programmet. Varianter ble merket med variant frekvenser i 1000 genomer prosjekt ved hjelp av SnpSift (https://snpeff.sourceforge.net/SnpSift.html) kommentere funksjonen [9].
Variant filtrering.
SnpSift fra SnpEff pakken ble brukt for filtrering av rå varianter. Følgende kvalitets avgrensninger benyttet: kvaliteten ved dybde større enn 0,8 (QD 0,8), total dybde for å kalle varianter på et bestemt locus større enn 200 (DP 200), Fisher strand (Phred-skalert p-verdi ved hjelp av Fishers eksakte test for å oppdage tråd bias) mindre enn 70 (FS 70), minimum variant tillit større enn 1500 (QUAL 1500), kartlegging kvalitet som er større enn 40 (MQ 40) og kartlegging kvalitet rank sum test høyere enn -15 (! finnes MQRankSum | MQRankSum -15). Avgrensninger hadde blitt optimalisert ved utforskende analyse. Videre ble bare koding varianter valgt med følgende uttrykk: (SNPEFF_EFFECT = «NON_SYNONYMOUS_CODING») | (SNPEFF_EFFECT = «CODON_CHANGE_PLUS_CODON_DELETION») | (SNPEFF_EFFECT = «CODON_DELETION») | (SNPEFF_EFFECT = «FRAME_SHIFT») | (SNPEFF_EFFECT = «STOP_GAINED»)). Alle varianter stede i 1000 genomer data ble ekskludert for å få bare somatisk mutasjon data og inkluderer vanlige germline varianter. Variant rekalibrering ble ikke gjort på grunn av beskaffenheten av målrettede sekvensdata og relativt lite datasett.
SAMtools mpileup /BCF-verktøy rørlednings
SAMtools (versjon 0.1.18) mpileup ble brukt til å generere rå variant kaller med-u (generere dekomprimere BCF output) – f (faidx indeksert referansesekvens fil) – D (utgang per prøve DP) – S (produksjon per-sample strand skjevhet P-verdi) opsjoner og hg19 som referanse genom, behandle alle prøvene i parallell. Maksimal per-sample dybde for Indel og SNP kall ble satt til 10.000. Bcftools se med-bvcg alternativer (utgang BKF fil format, produksjonspotensialet variant steder bare, ring SNPs, ring genotyper på variantsider) ble brukt for variant ringer. Data ble behandlet og varianter ble kommentert som for GATK data som er beskrevet ovenfor. Varianter på loci med en dybde på mindre enn 50 ble filtrert ut, samt alle ikke-kodende varianter og alle varianter som finnes i 1000g data.
Illumina Somatic Variant Ringerørlednings
MiSeq på -bord programvare somatiske Variant Caller ble kjørt med standard parametere. Vcf-filer som inneholder variant informasjon ble lastet ned fra Basespace. Deretter ble de merket med 1000g variant frekvenser. Alle ikke-koding, stille, synonymt og ukjente varianter ble filtrert ut, samt alle varianter som finnes i 1000G data. Dessuten, alle varianter på et locus med dekning av 200, varianter med en variant frekvens 0,05 eller med en genotype kvalitet mindre enn 100 ble ekskludert.
Analyse av data og visualisering
Filtrert varianter ble eksportert fra variant filer til tabulatorseparerte filer ved hjelp SnpSift og sammensatt i en enkelt tabulatordelt filen, inkludert alle varianter av alle pasienter. Beskrivende statistikk og data visualisering ble utført ved hjelp av Microsoft Excel og R pakker (https://www.r-project.org/). Venn-diagrammer ble gjort ved hjelp Venny (https://bioinfogp.cnb.csic.es/tools/venny/index.html) og jvenn [10]. Den Genomics Viewer ble brukt for analyse og visualisering av spesifikke mutert loci [11].
amplicon sequenceing data av alle prøvene ble deponert i Europa nukleotid Archive (ENA) og kan nås med tiltredelse nummer PRJEB8754.
Sanger-sekvense
Sanger-sekvensering ble utført for å evaluere KRAS ekson 2 og BRAF ekson 15 statuser som beskrevet her [12]. I korthet, ble genomisk DNA ekstrahert fra FFPE tumorvev etter manuell makro disseksjon ved hjelp av QIAamp DNA Micro kit (Qiagen, Hilden, Tyskland). De følgende PCR-primere ble anvendt for amplifikasjon: 5-AACACATTTCAAGCCCCAAA-3 «(BRAF-F), 5′-GAAACTGGTTTCAAAATATTCGTT-3′ (BRAF-R), 5»-AGGCCTGCTGAAAATGACTGAATA-3 «(KRAS-F), 5»- CTGTATCAAAGAATGGTCCTGCAC-3 «(KRAS-R), 5»-
termiske sykluser betingelsene~~POS=HEADCOMP var 5 minutter ved 94 ° C, etterfulgt av 35 sykluser ved 94 ° C i 30 sekunder, 53 ° C (BRAF) eller 60 ° C (KRAS) i 30 sekunder og 72 ° C i 30 sekunder fulgt av en endelig inkubering ved 72 ° C i 7 minutter. Etter fargestoffterminatorsekvensering ved hjelp av PCR amplifiseirngsprimere, analyser av kapillær elektroforese ble utført på en 3130 Genetic Analyzer (Applied Biosystems, Foster City, California).
Resultater
Dybde sekvense korrelerer med DNA kvalitet
Vi sekvensert 212 amplicon regioner i 48 kreftrelaterte gener med Illumina MiSeq hjelp av DNA isolert fra reseksjon prøver fra 17 pasienter med CRC levermetastaser. Fra ti av disse pasientene, sammenkoblet Dypfryst og rutinemessig behandlet FFPE vev var tilgjengelig for sammenlignende studie. Sekvense statistikk og DNA kvalitetsmålinger ble analysert for å vurdere forskjeller i FFPE og fryst materiale (Fig 1A).
Antall tilkoblede leser og paret leser kartlagt var betydelig høyere i frosne prøvene sammenlignet med FFPE-prøver, men andelen av kartlagt /rå leser var bare 78% sammenlignet med 96% i FFPE (tabell 1). Mean sekvense kvalitet (Phred scorer 38 vs. 37) ble gradvis høyere i FFPE-prøver sammenlignet med frosne prøver; også den GC-innholdet var høyere i FFPE enn i frosset vev (49% vs. 45%). Detaljerte sekvense statistikk for hver frossen og FFPE prøven er vist i S4 tabell. Frosne prøver hadde en gjennomsnittlig dybde på 4622 leser, FFPE-prøver fra 1852 leser. I FFPE-prøver undersøkte vi korrelasjonen av sekvense dybde med DNA-kvalitet målt ved kvalitetskontroll PCR. Dette trinnet utføres før bibliotek forberedelse og beregner mengden av forøkbare DNA som et surrogat for funksjonell DNA-kvalitet (figur 1B og 1C). Vi fant at høyere ΔCq-verdier, som indikerer lavere DNA kvalitet, korrelert med lavere gjennomsnittlig dybde på sekvensering (Pearson Coefficient -0,505, figur 1C). Av notatet, høyere ΔCq-verdier også korrelert med høyere GC-innhold av prøvene (Pearson Coefficient 0,488, S2 figur) mens dybden av sekvensering viste seg å være uavhengig av gjennomsnitts GC-innhold av sekvensert prøven (S2 fig). Figur 1D viser histogrammer av dekningsområdet til amplikonene for hver sammenkoblet FFPE og frosne prøver, normalisert til total dekning av prøven. FFPE-prøver tendens til å ha en mindre balansert fordeling av dekning på de ulike amplikonene enn frosne prøver.
Disse dataene indikerer at sekvense ytelse korrelerer med DNA kvaliteten sekvensert FFPE-prøver.
Høy samstemmighet av identifiserte mutasjoner i frosne og FFPE-prøver fra CRC metastaser
Nye store prosjekter har identifisert de vanligste mutasjonene som forekommer i CRC [1]. Sekvense 212 amplicon regioner i 48 kreftrelaterte gener, vi analysert variant samtaler ved hjelp av en tilpasset Unified Genotyper analyse rørledning.
I sekvensert tumorprøver fra 16 pasienter (frosset og /eller FFPE-), totalt 29 mutasjoner var identifisert i elleve gener etter eksklusive alle ikke-kodende mutasjoner, alle synonymt varianter, og alle ikke-skadelige varianter som finnes i 1000 genom data (fig 2A-2B). Antallet mutasjoner per pasient varierte fra null til fire, gjennomsnittlig antall mutasjoner per pasient var 1,8. Av mutasjonene var 16 SNP’er, fire var Indels fører til en rammeskifte og ni til et stoppkodon. Den hyppigst muterte gen var TP53, som viste 10 mutasjoner i ni av pasientene. Vi har observert syv APC-mutasjoner i seks pasienter, mens KRAS og PIK3CA ble mutert to og tre ganger, henholdsvis (figur 2B).
DNA fra FFPE-vev kan ha endringer på grunn av prosessen med fiksering i formalin. Vi sammenlignet variantene identifisert i sammenkoblede frosne og FFPE- vev. I ti sekvensert pasienter med paret frosset og FFPE vev, ble 23 mutasjoner identifisert i FFPE- prøver og 21 mutasjoner i frosne prøvene, og dermed en konkordans på 91% kunne observeres (fig 3A og 3B). De to ikke-samsvarende mutasjoner (BRAF V600E og ATM E1971G) var begge identifisert i FFPE men ikke i den frosne prøve av pasientens 09. Sanger-sekvensering av BRAF mutasjons hotspot i ekson 15 ble utført, avslører V600E mutasjon. Av notatet, seks prosent av 10.000 leser på BRAF V600E locus i den frosne prøven viste alternativ base «T», som imidlertid ikke føre til en variant samtale med Unified Genotyper rørledning (figur 3C)
(A) GATK Unified Genotyper variant ringer rørledningen ble brukt til å identifisere ikke-synonyme koding mutasjoner i FFPE (grønn) og frosne prøver (rød). (B) Venn-Diagram av ikke-synonyme koding identifiserte mutasjoner i FFPE og frosne prøver. (C) Representative bilder av leser kartlagt til området av BRAF V600E mutasjon identifisert i FFPE men ikke i frossent vev av pasienten 09, vises med Genomics Viewer. (D) Variant hyppigheten av utvalgte mutasjoner og estimert tumor celleinnhold analysere FFPE-prøver.
Sammenhengen mellom observert prosentandel av kreftceller på representative FFPE- lysbilder og beregnet variant frekvens for utvalgte mutasjoner var moderat (Fig 3D ).
Disse dataene viser at sekvensering av FFPE vev kan føre til overordnede lignende resultater som sekvense frosset materiale og kan dermed være et mulig tilnærming for rutinemessige kliniske prøver.
lav reproduserbarhet variant ringer FFPE og frosset vev med ulike bioinformatikk rørledninger
lav reproduserbarhet mellom ulike variant ringer rørledninger har blitt rapportert for hel-genom eller hel-exome sekvense data [7]. For å teste om dette problemet oppstår også med amplicon sekvense data, sammenlignet vi ulike verktøy for variant ringer for å teste reproduserbarheten av resultatene. Vi observerte klare forskjeller mellom ulike variant ringer programvare (fig 4). Sammenlignet med Unified Genotyper rørledning (figur 4A og 4B) Samtools /BCFtools funnet fem av de identifiserte mutasjoner med Unified Genotyper rørledningen (pasient 04 APC, pasient 09 CDH1, pasient 12 KRAS og TP53 og pasient 14 TP53). APC mutasjon av pasientens 09 ble også identifisert ved den samme locus, men bare i den frosne prøve. Imidlertid ble ytterligere to APC rammeskifte mutasjoner hos pasienter 03 og 13 kalles bare av Samtools /BCFtools. I kontrast, 15 mutasjoner kalles med Unifed Genotyper rørledningen i både FFPE og frosset samt to mutasjoner kalles bare i FFPE vev ble ikke identifisert med Samtools /BCFtools. Dermed Samtools /BCFtools som brukes i vår pipeline synes å være mindre følsom, selv om det kan identifisere ytterligere små Indels fører til rammeskifte mutasjoner (fig 4C og 4D). Videre er resultater fra Illumina MiSeq om bord Somatic Variant Caller rørledningen vist i figur 4E og 4F. Spesielt synes denne rørledningen å ringe varianter i både frosne og FFPE-prøver som ikke er identifisert av andre rørledninger.
Mutasjoner identifisert i matchet frosset og FFPE vev av CRC levermetastaser oppdages med (A, B) Genome Analysis Toolkit (GATK) Unified Genotyper (C, D) Samtools mpileup /Bcftools og (E, F) Somatic variant som ringer. Grønn farge representerer FFPE-prøver, rød representerer frosne, fargeintensitet representerer antall ikke-synonyme koding mutasjoner per genet.
Når det gjelder de sammenkoblede primære CRC vi analysert fra pasienter 04, 10, 11 og 14, Illumina soma~~POS=TRUNC Variant Caller igjen kalt flere varianter enn andre, spesielt i pasient 04 (S5 tabell). Cellelinjer som ble inkludert som kontroller er vist i S6 tabell. I cellelinjer, var nesten identiske resultater oppnådd med Unified Genotyper rørledningen og Illumina Somatic Variant Anroper, mens Samtools mpileup /Bcftools var mindre følsom.
Alle variant data fra pasienter og cellelinjer som ble oppnådd med forskjellige variant ringer rørledninger kan finnes i S7 tabell.
Disse dataene indikerer at bemerkelsesverdige forskjeller mellom resultatene av ulike variant ringer rørledninger, som ikke bare er knyttet til DNA-prøve kvalitet.
Følsomhet og specifity av fragment sekvense med hensyn til ulike variant ringer rørledninger ved hjelp av frosne og FFPE- vev
for å evaluere følsomhet og specifity av amplicon sekvense analysert med ulike bioinformatiske verktøy, utførte vi Sanger-sekvensering av KRAS exon 2. Som vist i tabell 2, følsomhet og specifity ble 100% ved hjelp av Unified Genotyper med DNA isolert fra frosne prøver. I FFPE-prøver, ble en disharmonisk tilfelle (pasient 02) bemerket, som hadde KRAS c.38G En mutasjon i henhold til Sanger-sekvensering. Men av notatet, ble Sanger-sekvensering utført med materiale fra den primære svulsten og metastatisk stykke analysert med amplicon sekvense hadde anslått svulst innhold på bare 10%. I tillegg leser ingen av de hadde den muterte varianten ved mutasjon locus (S3 Fig). Frosset tumorprøve var ikke tilgjengelig fra denne pasient. Når det gjelder andre variant ringer rørledninger, Samtools /BCFtools ikke klarte å identifisere KRAS mutasjon av pasienten 04, mens Somatic Variant Caller hadde en falsk positiv samtale i pasient 02 FFPE prøve, mangler mutasjon ved kodon 38.
I tillegg menneskelige kreftcellelinjer ble analysert for å teste samstemmighet av variant ringer rørledninger uavhengig av prøvekvalitet og å vurdere egnetheten av filterkriterier. Som vist i figur S4, er en høy overensstemmelse mellom observerte variant loci påvist i kreftcellelinjer etter filtrering av dårlig kvalitet, og som ikke er skadelige varianter. Videre nesten alle av varianten loci i cellelinjer HCT116, HT55, HUH7 og SW480 identifisert med Unified Genotyper rørledningen ble også identifisert ved storskala databaser cellelinje Encyclopedia [13] og COSMIC [14], mens uharmoniske loci ble i stor grad eliminert fra vår data ved filtrering (S4 figur).
Følgelig, i CRC metastaser betydelige forskjeller kan observeres mellom rå datasett og datasett etter filtrering varianter av kvalitetstiltak og funksjonelle merknader. Variant teller er vesentlig redusert, mens samsvar mellom frossen og FFPE, så vel som mellom forskjellige variant ringer rørledninger øker. Resultatene er presentert i S5 Fig.
Behandler alle sekvens justering filer sammen for variant kall er mer følsom enn separat
Behandler mange prøver sammen for variant ringer er generelt anbefalt for hel-genom eller hel- exome sekvense data for å øke antall leser på bestemte loci. Det er imidlertid ikke kjent hvorvidt dette er også fordelaktig for dyp amplikon sekvensering, siden det kan redusere virkningen av sjeldne variantene kun er tilstede i en undergruppe av tumorceller i noen prøver. I motsetning til dette, kan det øke følsomheten for vanlige mutasjoner som er tilstede i mange prøver. Vi observerte en generell økning i følsomhet for variant ringer når prøvene ble behandlet parallelt (S6a Fig og S6B figur) sammenlignet med separat behandling med ellers identiske rør og avgrensninger (S6C fig og S6D Fig). Separat variant kall identifisert uten ekstra mutasjon i forhold til kombinert variant kall, men bommet tre mutasjoner i frosne prøver og fem mutasjoner i FFPE-prøver.