PLoS ONE: Impact of preanalytiske variabler på Cancer Målrettet gensekvensering Efficiency

Abstract

vevsprøver er ofte bevart som formalinfiksert parafin-embedded (FFPE) vevsblokker, den vanligste kliniske kilde for DNA sekvensering. Heri, vurderte vi effekten av pre-sekvense parametere for å veilede skikkelig prøve utvalg for målrettet gensekvensering. Data fra 113 FFPE-lungetumorprøver ble oppsamlet, og målrettet genet sekvensering ble utført. Bibliotekene ble konstruert ved hjelp av tilpassede prober og ble parret-end sekvensert på en neste generasjons sekvense plattform. En PCR-baserte kvalitetskontroll (QC) assay ble anvendt for å bestemme DNA-kvalitet, og et forhold ble dannet sammenlignet med kontroll-DNA. Vi observerte at FFPE lagringstid, ble PCR /QC-forhold, og DNA-inngang i biblioteket forberedelse signifikant korrelert til de fleste parametre for sekvense effektivitet inkludert dybde av dekning, justering rate, innsats størrelse, og les kvalitet. En kombinert score ved hjelp av de tre parametrene ble generert og vist seg svært nøyaktig å forutsi sekvense beregninger. Vi viste også bred lest teller variasjon i genomet, med dårligere dekning i områder med lav GC-innhold som i

KRAS

. Eksempel kvalitet og GC-innhold hadde uavhengige virkninger på sekvense dybde, og de verste resultater ble observert i områder med lav GC-innhold i prøver med dårlig kvalitet. Våre data bekrefter at FFPE-prøver er en pålitelig kilde for målrettet gensekvensering i kreft, forutsatt tilstrekkelig prøvekvalitetskontroller utøves. Tissue kvalitet bør rutinemessig vurdert for pre-analytiske faktorer, og sekvensering dybde kan være begrenset i genomiske regioner med lav GC innhold hvis suboptimale prøvene benyttes

Citation. Araujo LH, Timmers C, Shilo K, Zhao W Zhang J, Yu L, et al. (2015) Effekt av preanalytiske variabler på Cancer Målrettet Gene Sequencing effektivitet. PLoS ONE 10 (11): e0143092. doi: 10,1371 /journal.pone.0143092

Redaktør: Sumitra Deb, Virginia Commonwealth University, USA

mottatt: 04.09.2015; Godkjent: 26 september 2015; Publisert: 25.11.2015

Copyright: © 2015 Araujo et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: All relevant data er i avisen og dens saksdokumenter filer

Finansiering:. LHA støttes av en Conquer Cancer Foundation of ASCO Long-Term International Fellowship (liv) og en Landon Foundation-AACR INNOVATOR Award for internasjonalt samarbeid i Cancer Research. Dette arbeidet ble finansiert av en NIH /NCI 1RC1 CA146260-01, NCI R01CA60691, NCI R01CA87895, NCI P30CA022453 og Ohio State Cancer Center Support Grant (CCSG), NCI CA16058. T.G.N og C.J.M. er ansatt i GenomOncology. Dette Funder gitt støtte i form av lønn for forfattere (T.G.N og C.J.M), men ikke har noen ekstra rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet. De spesifikke roller disse forfatterne er formulert i § forfatterens bidrag

Konkurrerende interesser. T.G.N og C.J.M. er ansatt i GenomOncology. Dette endrer ikke forfatternes tilslutning til PLoS ONE politikk på deling av data og materialer.

Innledning

I det siste tiåret, en bedre forståelse av kreft biologi og identifisering av somatiske mutasjoner i kreft har ført til en ny epoke i personlig onkologi. [1] Landmark eksempler inkludert oppdagelsen av mutasjoner i proto-onkogener c-

KIT

i gastrointestinal stromal tumor (GIST), [2] epidermal vekstfaktor reseptor (

EGFR

) i lunge adenokarsinomer, [3] og v-Raf muse sarkom viral onkogen homolog B1 (

BRAF

) i melanomer. [4] Svulster som bærer disse mutasjonene demonstrere enestående følsomhet for bestemte kinase hemmere rettet mot de respektive aktiverte trasé.

Disse onkogene mutasjoner er ofte definert som kreft drivere siden de tilbyr en selektiv fordel til en celle klone, nødvendig for tumor initiering og vedlikehold. [5] i klinikken, kan de tjene som fingeravtrykk som hjelper klinikere til subtype kreft som, ellers presenterer lignende histologiske mønstre. [6-9] Mens mutasjons profilering har blitt et nyttig verktøy for å bedre skreddersy målrettet terapi, har nye utfordringer oppstått inkludert hyppig behov for å få optimale vevsprøver for ekstra genetisk testing. [10-12] dessuten flere tester kan anbefales i en klinisk setting der en mengde kandidat driver mutasjoner må vurderes. I ikke-småcellet lungekreft (NSCLC), har endringer i minst 10 proto-onkogener blitt foreslått som potensielt «druggable», med mutasjon frekvenser varierende fra 1% til 25% for

MAP2K1 Hotell og

KRAS

, henholdsvis, i henhold til den studiepopulasjonen. [13] den beste algoritmen for testing, blant annet sekvensiell versus multipleks vurdering av slike endringer er fremdeles omdiskutert.

Selv om Sanger-sekvensering har tradisjonelt blitt brukt for påvisning av tilbakevendende punktmutasjoner i kreft, har nyere teknologi aktivert en mer omfattende analyse av genetiske forstyrrelser. I dette scenariet, neste generasjons sekvensering (NGS) plattformer-også kjent som massivt parallell sekvense-tilbyr et bredt spekter av muligheter til å prege kreft genomet. [14-16] For eksempel, gir tilgjengeligheten av hybridisering-fangst teknikker en høy -throughput og kostnadseffektiv strategi for å vurdere hundrevis av gener samtidig. [16-19] Som en kort metodisk gjennomgang, er genomisk DNA (gDNA) renset fra tumorprøver og skåret av enten sonikering eller restriksjonsenzymer inn millioner av små fragmenter (tiere eller hundrevis nukleotider lang). Disse fragmenter blir deretter hybridisert til en tilpasset probe-sett som inneholder agn som er spesifikke for de gener som er av interesse, og forsterkes til å generere sekvensbibliotek. En unik strekkode er bundet til hvert bibliotek-svarende til hver prøve-noe som gjør at flere prøver som skal samles sammen for sekvensering. Flere kommersielle DNA fangstteknologier er for tiden tilgjengelig, og mange institusjoner har utviklet og implementert tilpasset målrettede paneler til genotype kreftprøver. [10, 20, 21]

Kliniske vevsprøver er ofte bevart som formalinfiksert parafin-embedded (FFPE) vevsblokker i biorepositories, og dette er den mest lett tilgjengelig kilde for oppnåelse av gDNA både kliniske og forsknings innstillinger. [22-24] imidlertid er flere trinn i FFPE behandling kjent for å forårsake DNA-skade, som direkte påvirker DNA kvalitet og dekning for sekvensering. For eksempel kan formalin fiksering resultere i forskjellige typer av tverrbindinger mellom to aminosyrer, to nukleinsyrer, eller mellom en aminosyre og en nukleinsyre base. [25-27] Disse kjemiske modifikasjoner kan forvirre molekyl testing gjennom hemming av enzymatisk manipulering av DNA. Formalinfiksering kan også føre til nukleotid oksydasjon og deaminering, idet sistnevnte er knyttet til utvikling av kunstig nukleotid-overganger (for det meste C T i CpG-dinukleotider) blant prøver lagret som FFPE [23, 28] Til slutt, metylen-tverrbindinger forårsaket av formalin kan føre til. i DNA-fragmentering, noe som begrenser DNA lengde for sekvensering. I tillegg til formalinfiksering, fremstilling vev, parafin innebygging, og arkivering

per se

kan alle til slutt spille en rolle i prøver kvalitet. [29] Videre FFPE-blokker er ofte oppnådd fra små biopsier, og lav vev kvantitet kan utgjøre en ekstra begrensning for sekvensering. For å vurdere kvaliteten på gDNA hentet fra FFPE-prøver, PCR-basert kvalitetskontroll (QC) analyser har blitt anbefalt. [30-33] Andre variabler sannsynlig å påvirke sluttsekvense Resultatene inkluderer mengden av DNA brukes som innspill til biblioteket forberedelse, sekvense dybde, og den målrettede regionen av interesse (GC-innhold og rekkefølge homologi).

Heri, vurderte vi den enkelte og kombinerte virkningen av pre-sekvense parametere på målrettet gensekvensering effektivitet. For dette formål anvendes vi en fullstendig annotert prøvesett kjennetegnet ved kjennskap til et bredt spekter av pre-analytiske variabler, som ble genotypet for en tilpasset gen panel ved hjelp av en kommersielt tilgjengelig målrettet genet sekvense tilnærming-Agilent Haloplex Target Enrichment System (Agilent Technologies ). Denne plattformen skiller seg fra andre hybridisering-fangstteknikk ved at en pool av restriksjonsenzymer anvendes for å fordøye prøve-DNA (i motsetning til sonikering), og probene er utformet med homologi bare til endene av målrettede DNA-restriksjonsfragmenter. [34] deretter blir universelle primere anvendt for å amplifisere de fangede regionene, og vil generere en høy frekvens av lignende leser, ligner resultatene finnes i amplikon-baserte plattformer (S1 Fig). Av denne grunn, noen sekvense beregninger som duplisering hastighet og unik leser kvantifisering er ikke aktuelt for denne teknologien. Vi har også bekreftet lese- dybde variasjon i genomet, avslørt problematiske regioner basert på GC-innhold, og hvilken effekt disse parametrene på variant ringer. Disse dataene kan være veldig lærerikt å lede klinisk og forskningsmiljøer i tilstrekkelig utvalg av kliniske prøver for målrettet genet sekvensering, og i riktig tolkning av sekvensering resultater som en funksjon av prøvekvalitet og sekvense ensartethet.

Materialer og metoder

Kliniske prøver

studerte datasettet består 113 lunge vevsprøver resected fra pasienter på James Cancer Hospital /The Ohio State University (OSU, Columbus, OH) mellom 1988 og 2011. Alle prøvene ble arkivert som FFPE- tumorvev, og ble valgt ut på grunnlag av vev tilgjengelighet. Ett hundre og ti prøver var primær NSCLC (60 adenokarsinomer, 31 plateepitelkarsinom, 10 adenosquamous og 9 andre histologiske subtyper), mens 3 prøver var hode og nakke kreft (alle plateepitelkarsinom) metastasizing til lungene (tabell A i S1 Fil). Hver prøve ble tildelt en unik, uidentifiserbare kode, og dato for operasjonen ble gjennomgått og kommentert å anslå svulsten blokklagring tid. The Institutional Review Board godkjent dette prosjektet, og fravikes behovet for samtykkende.

Tissue behandling

resected prøver med representative svulstvev ble valgt for NGS testing. For å øke svulst innhold, en patolog (K.S.) markerte en H E beiset lysbilde for å avgrense tumor-holdig regioner, og disse områdene ble macrodissected ved manuell skraping de merkede områdene fra serie ufargede FFPE- seksjoner. Tumor celletall ble bestemt ved visuell inspeksjon av antall tumorcellekjerner sammenlignet med stromal bakgrunn i de områdene som er merket for macrodissection, og de fleste prøver (88%) ble klassifisert som inneholder enten høyt eller moderat tumorcelledannelse (tabell B i S1 Fil og S2 Fig ). gDNA ble hentet fra FFPE-prøver ved hjelp av Maxwell

® 16 FFPE Plus LEV DNA Purification kit (Promega). To til ti objektglass inneholdende 10 um tykke seksjoner ble skrapet inn i en microtube og inkubert over natten ved 70 ° C med proteinase K-løsning og inkuberingsbuffer. Deretter ble hver prøve ble behandlet med lyseringsbuffer, overført til lasting patroner og drives i den automatiserte instrument. Lokal testing viste at denne protokollen, ga lignende mengder av DNA i forhold til manuelle systemer (data ikke vist). gDNA kvantifisering ble utført ved hjelp av Quant-iT

™ High-Sensitivity DNA Assay Kit (Life Technologies

™).

DNA kvalitetsvurdering

For å avgjøre generelle kvaliteten på den gDNA, en PCR-basert QC assay ble påført, og brukes som en guide for å anbefale mengden av DNA inn i biblioteket preparat, som anbefalt av produsenten. [35] i korthet ble 10 ng av hver DNA-prøve ble amplifisert med to uavhengige primerpar for å generere amplikonene av inkrementelle størrelser: 105 basepar (bp), og 236 bp. Som en ikke-degradert positiv kontroll, brukte vi gDNA utvunnet fra en NSCLC cellelinje (A549). Etter PCR, ble produktene vurdert for utbytte og nivå av fragmentering med Agilent 2200 TapeStation (Agilent Technologies). QC-forholdet ble beregnet å dividere band kvantifisering for hver prøve ved de respektive bånd i den positive kontroll, og deretter gjennomsnitt hvert bånd forhold. En QC ratio over 0,20 indikerer gunstig kvalitet, mens forhold under 0,20 tyder på moderat eller dårlig kvalitet. [35]

Hybridisering-fangst og sekvense

En spesialpanel er designet ved hjelp av Internett-basert Sure design programvare (Agilent Technologies) for å dekke de kodende regioner i 81 utvalgte gener som er relevante for NSCLC (tabell C i S1 File). Den totale panel dekket 920,980 basepar, og inkludert 44,234 amplikonene. Bibliotekene ble konstruert og indekseres med Agilent Haloplex Target Enrichment System (Agilent Technologies). De indekserte bibliotekene ble samlet ved ekvimolare mengder og parvise end sekvensert (2 x 100 basepar) til 1,000X gjennomsnittlig dekning på en Illumina HiSeq 2500.

Databehandling

Sekvense leser ble justert til det menneskelige genom (hg19 montasje) og bam filene ble generert ved hjelp av SureCall programvare (Agilent Technologies). Variant kall ble utført ved hjelp av Genome Analysis Tool Kit (GATK) Unified Genotyper. Variant merknaden ble utført på GenomOncology sin GenomAnalytics plattform (GenomOncology, Cleveland, OH), og Integrative Genomisk Viewer (IGV, Broad Institute) ble brukt til å bekrefte sanne positive. Sekvense ytelse ble vurdert ved å måle antall leser, kartlagt leser, target basen dekning, og lese kvalitet ved hjelp av Picard (Broad Institute), SAMtools og BEDTools. [36, 37] Dybden av dekning i genomiske regioner ble bekreftet med dybden av dekning verktøy (GATK), [38] og i bestemte genomisk posisjon (hotspots) ved hjelp av IGV.

Statistiske metoder

Tre preanalytiske variabler ble brukt til å forutsi sluttsekvensedybde FFPE lagringstid PCR /QC-forhold, og DNA-inngang. FFPE lagringstid i parafin blokk ble beregnet som intervallet (i år) fra datoen for kirurgi for å date svulst behandling (DNA ekstraksjon) for sekvensering. For å teste effekten av disse variablene på den generelle sekvense effektivitet, vi brukte flere parametre som dybde av dekning, justering rate, off-target rate, basen kvalitet, blant andre. Den parvise korrelasjonen mellom preanalytiske variabler (lagringstid, PCR /QC-forhold og DNA-inngang) og sekvense ytelse parametere ble evaluert av Pearson metode. Deretter opprettet vi en trening datasett bestående genomisk endringer som ligger i gener med minst dekning variabilitet. Ti gener ble filtrert i:

ALK

,

BCL11A

,

REL

,

VGLL4

,

RAF1

,

FBLN2

,

RET

,

FGFR2

,

MAP2K1

,

U2AF2

. Vi ekskluderte genomiske regioner med generelt dårlig dekning (mindre enn 100 gjennomsnittlige leser) eller med høy dybde variasjon (med standardavvik i de øvre kvartil av variansen) innenfor disse genene. Disse kriteriene førte til en trening datasett av 33 genomiske regioner, som ble brukt til å sammenligne pre-sekvense variabler. Multivariabel lineær regresjon ble utført for korrelasjonen mellom medianen leser og de tre forhånds analytiske variabler og for den potensielle Multikolineæritet blant de tre faktorer. Denne analysen indikerer om hver kovariat i modellen var fortsatt signifikant korrelert til sekvense ytelse etter å ha justert for andre kovariatene. En ligning basert på den trinnvise modellen utvelgelsesprosessen av alle tre individuelle faktorer og to-veis interaksjon termer ble bygget for å generere den kombinerte stillingen eller prediktiv sekvense ytelse. Den endelige modellen valgt de tre individuelle pre-sekvense faktorer. Formelen er presentert her…

Kombinert poengsum = 202

95-7

86 * Lagring tid + 249

95 * PCR prosent + 0

.

08 * DNA innspill

. For å evaluere dekning variasjon i genomet (i GC innholdsanalyse), totaldekning ble quantile-normalisert og deretter stratifisert i henhold til GC-innhold forholdet. For å sammenligne effekten av GC innhold og kvalitet vev helt, ble prøver stratifisert etter baseline kvalitet (definert av pre-sekvensering kombinert poengsum kvartiler), og den totale dybden av dekningen var quantile-normalisert innenfor hver gruppe. P-verdi ≤ 0,05 ble ansett som statistisk signifikant. Statistiske analyser ble utført ved hjelp av R-versjon 3.0.1, SAS 9.3, og IBM SPSS versjon 22.0.

Resultater

Utvalg og sekvense parametere

Vi observerte en stor variasjon i sample og pre-sekvensering QC parameter på tvers av de utvalgte prøver (Tabell 1), inkludert et område i FFPE lagringstid på 0,32 år til år 24.22. PCR-baserte QC analysen indikerte en median-forhold på 0,19 (område 0,03 til 0,58), hvilket antyder at den gDNA hadde en gunstig kvalitet i omtrent halvparten av prøvene, mens den andre halvparten hadde lavere kvalitet. Mengden av gDNA brukt som input i biblioteket forberedelse varierte fra 77 ng til 2337 ng, med en median på 899 ng.

Median antall sammenkoblede slutten leser og kartlagt leser per prøve var 5,0 millioner (range 01.04 til 07.07) og 4,9 millioner (range 01.01 til 07.06), henholdsvis, og 98,1% (fra 78,4 til 98,9) av leser kartlagt til målområdet. Median faktiske mål dekning var 881X (range 204-1,373), med median prosenter av mål-leser dekket på minst 20 ganger (20x), 50-fold (50x), og 100 ganger (100X) er 95,4% (område 78,9 til 98,8), 90,8% (fra 66,7 til 97,7), og 84,6% (fra 52,1 til 95,1), henholdsvis. Medianinnskuddsstørrelse var 89,4 basepar (område 73,5 til 120,7), og 98,5% av basis samtalene hadde en Phred kvalitet score på minst 30. Disse parametrene er oppsummert i tabell 1 og S3 Fig.

Sammenheng mellom preanalytiske variabler og sekvense effektivitet

preanalytiske variabler (FFPE lagringstid, PCR /QC-forhold, og DNA-inngang) var signifikant korrelert med de fleste parameterne sekvense effektivitet (fig 1 og tabell D i S1 File ). FFPE lagringstid er negativt korrelert til antall leser (

r

= -0,356), mener målet dekning (

r

= -0,405), justering rate (

r

= -0,354), sette inn størrelse (

r

= -0,764, p 0,01 i alle tilfeller), og mener basen kvalitet (

r

= -0,188, p = 0,046), og positivt korrelert til off-target rate (

r

= 0,285, p 0,01), kompatibel med bedre resultater hvis de senere prøver blir valgt. QC forholdet ble korrelert å sette størrelse (

r

= 0,601, p 0,01), og ubetydelig korrelert å målrette dekning (

r

= 0,183, p = 0,058), justering rate (

r

= 0,169, p = 0,08), og basen kvalitet (

r

= 0,162, p = 0,094). DNA innspill ble korrelert til antall leser (

r

= 0,548), mener målet dekning (

r

= 0,549), justering rate (

r

= 0,449), mener basen kvalitet (r = 0,477), og off-target rate (

r

= -0,336, p 0,01 i alle tilfeller), men ikke å sette størrelse (

r

= 0,081, p = 0,395). Disse dataene tyder på at bedre QC forhold og høyere DNA innspill i biblioteket preparatet kan forutsi større sekvense effektivitet.

Tre preanalytiske variabler (FFPE lagringstid, PCR /QC-forhold, og DNA-inngang i biblioteket forberedelse) ble signifikant korrelert til de fleste post-sekvenseringsparametere (A). De pre-analytiske variabler ble klassifisert som under eller over medianverdiene for å illustrere virkningen på innskuddsstørrelse (B) og på lese kvalitet /Phred stillingen (C). Forkortelser: FFPE-, formalinfiksert parafin-embedded tissue blokker; PCR /QC, PCR-basert kvalitetskontroll.

Den kombinerte effekten av preanalytiske variabler

Den kombinerte effekten av preanalytiske variabler ble undersøkt i en trening datasett av 33 genomisk regioner, med median dybde på dekning av 267 (range 43-464). FFPE lagringstid er negativt korrelert til dybden av dekning (

r

= -0,558, p 0,01; figur 2A), mens QC forhold og DNA innspill ble positivt korrelert (

r

= 0,37 og 0,47, henholdsvis; p 0.01 i begge, fig 2B og 2C). Ved hjelp av en multivariat analyse viste vi at hver av disse variablene var fortsatt signifikant korrelert til sekvense ytelse (Tabell E i S1 File). For å generere en unik poengsum som spår prøve kvaliteten i denne kohorten, fusjonerte vi alle tre variabler i en samlet poengsum, som beskrevet i metodene. Som forventet ble det kombinerte resultatet sterkt korrelert til dybden av dekning i treningsdatasettet (

r

= 0,751; p 0,01; Fig 2D). For å bekrefte dens nøyaktighet, vi sammenlignet det med gjennomsnittsmålet dekning i alle undersøkte genomiske regioner (uavhengig av skjevhet forårsaket av eksemplar nummer endringer), og for å lese dybde i baser huse hyppig kimcellelinje eller somatiske enkelt nukleotidvariasjoner (SNV), som ligger i genene ikke benyttes i treningsdatasettet. Det var sterk positiv korrelasjon mellom det kombinerte resultatet og dybden av dekning i alle disse tilfeller. I tillegg demonstrerte vi sterk korrelasjon mellom den kombinerte resultatet og 20x, 50x og 100x target basis dekning (

r

= 0,779, 0,790, og 0,792, respektivt; p 0,01), så vel som til andre sekvense effektivitet parametre (Tabell 2 og fig 3A).

FFPE lagringstid (A), PCR /QC ratio (B), og DNA-inngang (C) ble korrelert til sekvense dybde på dekning. En kombinert score (D) ble konstruert basert på disse tre parameterne, og var sterkt korrelert til sekvense dybde. Forkortelser: FFPE-, formalinfiksert parafin-embedded tissue blokker; PCR /QC, PCR-basert kvalitetskontroll.

Den kombinerte stillingen var sterkt korrelert til post-sekvense parametre (A). Korrelasjon til 50x dekningen ble brukt til å definere pre-analytiske terskler som kan forutsi sekvense effektivitet, og er illustrert ved å jevne kurver (B).

neste søkt å definere en pre-analytisk cut-off verdi som kunne forutsi tilstrekkelige sekvense resultater. For dette formål, plottet vi pre-sekvense variabler (inkludert den kombinerte stillingen) mot 50x dekning i vår datasettet, og definert 90% 50x dekning som et parameter for gode resultater. I henhold til denne analysen, en FFPE lagringstid på 8,6 år, et PCR /QC-forhold på 0,22, en inngang på 960 ng DNA, eller en samlet score på 266 ble terskler forbundet med sekvense effektivitet (figur 3B).

lav dybde på dekning var karakteristisk for regioner med lav GC innhold

i tillegg til prøvekvalitet, vurderte vi effekten av basen sammensetning på sekvense dybde. For å vurdere dybden av dekning ensartethet, vurderte vi gjennomsnittlig normalisert dekning på tvers av de genomiske regioner spredt av de utformede sonder. Vi viste en stor variasjon, og observert at dårlig dekning var signifikant assosiert med regionene presentere lavere GC innhold (Fig 4A). Den beste dekningen ble observert i områder med innholdsforhold 0,5-0,7 GC, med en markert forverring under 0,4 (p 0,01). Deretter stratifisert vi prøver i henhold til utgangs kvalitet (målt ved pre-sekvensering kombinert score), og re-vurdert GC innhold effekt. Spesielt, regioner med lav GC innhold (under 0,4) hadde dårligere dekning i hvert stratum, med en markert lavere dekning i prøver med dårlig pre-sekvense kvalitet (fig 4B).

Normalisert dybde på dekning presenterer bred variasjon innen genomet, med dårligere dekning observert i regioner med lavere GC-innhold (A). GC innhold effekten var tilsetningsstoff til å smake kvalitet å forutsi dybde av dekning, som ble observert etter stratifisering prøvekvalitet ved hjelp av den kombinerte stillingen (B). Forkortelser:. St. Dev, standardavvik. Obs: ** indikerer signifikans på p 0,01

Impact dekning variasjon på genet hotspots

Som sekvense beregninger er i siste instans et surrogat for optimal variant ringer, vi forhørt om prøvekvalitet. og GC innhold vil ha en innvirkning på målet dekning på hotspot stillinger i

KRAS Hotell og

EGFR

. Som vist i tabell 3, er disse genene eksemplifisere de motsatte ytterpunktene av deknings spekteret observert heri. Mens hotspot stillinger i

EGFR

presenteres en ideell GC innhold (0,51 til 0,55) og en optimal dekning,

KRAS

viste lavere GC innhold (0,33 til 0,36) og en dramatisk verre dekning. Median antall leser i

KRAS

kodon 12 var bare 51 (range 3-183), og 20x og 50x target dekning var 87,9% og 51,4%, henholdsvis. På den annen side, alle

EGFR

hotspot stillinger presenteres tilfredsstillende dekning (tabell 3). Som NGS variant ringer rørledninger vil ofte omfatte filtre baser på en minimal dekning (f.eks. 20x eller 50x), tilbakevendende

KRAS

mutasjoner kan lett bli savnet på grunn av lav dekning. Faktisk 12 av 22

KRAS

mutante tilfeller ble oppdaget blant prøver med 50 leser eller mindre, og 3 saker ble funnet med mindre enn 20 leser (tabell F i S1 File), som alle ble bekreftet av visuell lese inspeksjon. Dårlig dekning i disse områdene kan også svekke følsomheten for å detektere lave allel frekvens mutasjoner. Ved hjelp av en minimum kombinert poengsum terskel på 266, leser median antall i

KRAS

kodon 12 var 72,5 (range 18-183), og 20x og 50x dekningen var 98,2% og 80,4%. I tråd med de siste rapportene, observerte vi en negativ sammenheng mellom PCR /QC forholdet og dinucleotide CpG til TPG overganger (

r

= -0,186, p = 0,049). Lignende korrelasjoner ble ikke sett på andre preanalytiske variabler eller andre dinukleotidpolyfosfater endringer.

Diskusjoner

I denne studien fikk vi bekreftet at kliniske FFPE-prøver er en pålitelig kilde til DNA for målrettet genet sekvensering i kreft, forutsatt tilstrekkelig prøvekvalitetskontroller utøves. Vi viste at tre preanalytiske variabler-FFPE lagringstid, PCR /QC forhold, og DNA innspill i biblioteket forberedelse-signifikant korrelert til de fleste parametre for sekvense effektivitet. Den kombinerte undersøkelse av disse funksjonene kan være spesielt nyttig å definere prøve dekningen for sekvensering, som demonstrert av en samlet modell avledet fra dem, som var sterkt korrelert til sekvense effektivitet. Vi viste også en signifikant variasjon i dybden av dekning i genomet, avhengig av GC-innholdet forholdet. Genomiske regioner med lavere GC innhold presenteres verre dybde på dekning, og denne effekten var tilsetningsstoff til å smake kvalitet.

Det er vist at NGS data fra FFPE-prøver har mindre bibliotek innsats størrelser og større dekning variabilitet. [23] heri, dro vi videre for å vise at FFPE lagringstid, kan PCR /QC-forhold, og DNA-inngang hele spå sekvense kvalitet innenfor denne gruppen. For eksempel ble FFPE lagringstid (eller tumor alder) negativt korrelert til flere post-sekvenseringsparametre, inkludert dybde av dekning, innskuddsstørrelse, og basen kvalitet. Disse resultatene er i tråd med funnene fra Hedegaard et al [12], som også viste bedre resultater når mer nylig innhentet FFPE-prøver ble brukt. I denne forstand kan flere faktorer har negativt påvirket resultatene i eldre prøver, inkludert ikke-standardiserte metoder som brukes i fortiden for svulst fiksering, prosessering, embedding, samt lagringstiden

per se

. På den annen side, Schweiger et al [39] ikke finne en påvirkning av tumor alder på sekvense dybde, men denne studien var begrenset av en meget liten prøvestørrelse (bare 7 FFPE-prøver). Selv om eldre svulster kan være et unntak i klinisk setting, kan patologer trenger å bruke gamle FFPE-prøver i bestemte forskningsmiljøer. Noen mulige scenarier inkluderer retrospektiv analyse av uavhengige utvalg ervervet i kliniske studier, studier av sjeldne sykdommer, og når vev bank prøvene er den eneste tilgjengelige kilden. Hvis eldre prøver som skal inkluderes er, kan det være nødvendig å velge for de med bedre kvalitet DNA (ved å bruke estimater av DNA-fragmentering). Når alternative kilder er ikke et alternativ, noe som øker DNA-inngang eller sekvenseringsdybden kan bidra til å overvinne de iboende begrensninger forbundet med lengre sample lagring og håndtering eldre metoder.

Forskjellige metoder har blitt rapportert til å vurdere kvaliteten av gDNA avledet fra kliniske FFPE- prøver. Disse inkluderer verifisere A260 /280-forholdet ved hjelp av Nanodrop spektrofotometer (et forhold på 1,8 eller større indikerer rimelig renhet), beregning av den beregnede dobbeltkjedet DNA mengde delende qubit

® DNA estimering av Nanodrop (-forhold på 0,4 eller høyere er ideelt) , kjører en delmengde av gDNA på en agarosegel eller TapeStation (fragmenter på 200 bp eller mindre tyder på dårlig kvalitet), eller ved hjelp av en PCR-basert metode. [30-33] i denne studien, benyttet vi en standard protokoll som anbefales av produsenten , basert på PCR-oppformering av genomiske regioner av forskjellige størrelser. [35] lav kvalitet DNA vil generere mindre rikelig amplikonene, simulere de forventede resultatene i løpet av target berikelse. Denne type analyse ble uavhengig korrelert til dybde dekningsområde, med høyere forhold gir den beste dekning. Dette PCR-basert test er relativt enkel, billig, bruker lav mengde DNA som input, og er derfor lett anvendelig i de fleste laboratorier.

DNA innspill i biblioteket forberedelse er en viktig prediktor for sekvense suksess. [21 ] for plattformen som brukes i denne studien, produsenten anbefaler minimum 225 ng gDNA (anslått av fluorescens metoder som PicoGreen

® eller qubit

®), som kan økes i tilfelle av lav kvalitet DNA . Våre data viser at DNA innspill ble korrelert til sekvense dybde, justering rate, basen kvalitet, og off-target rate. Enda viktigere, DNA innspill var utbyttbare med andre pre-sekvense parametre (tumor alder, PCR /QC) å forutsi sekvense dybde. Det vil si at høyere inngangs DNA kan ofte kompensere for lav kvalitet DNA, mens høy-kvalitet DNA kunne anvendes med vesentlig lavere inngang, som vist ved den kombinerte stillingen analysen presentert heri.

Vi ga en unik poengsum som tar hensyn til data fra tre preanalytiske variabler som viste uavhengig innvirkning på sekvense dybde. Videre har vi spekulert på potensielle cut-off verdier for hver av disse variablene som kan bidra til å definere vev dekningen for sekvensering. Selv om det kan være attraktivt å vurdere disse verdiene i det rutinemessige sekvense laboratorier, noen begrensninger må diskuteres. For eksempel er det fortsatt usikkert om denne evalueringen kan brukes til andre innstillinger, spesielt hvis distinkte QC eller NGS analyser er ansatt.

Legg att eit svar