PLoS ONE: Kombinert Målrettet DNA-sekvensering i ikke-småcellet lungekreft (NSCLC) Bruke UNCseq og NGScopy, og RNA sekvense Bruke UNCqeR for påvisning av genetiske Avvik i NSCLC

Abstract

Den siste FDA godkjenning av MiSeqDx plattformen gir en unik mulighet til å utvikle målrettede neste generasjons sekvensering (NGS) paneler for menneskelig sykdom, inkludert kreft. Vi har utviklet en skalerbar, målrettet panel-baserte analysen betegnes UNCseq, som innebærer en NGS panel på over 200 kreftassosierte gener og en standardisert nedstrøms bioinformatikk rørledning for påvisning av single nucleotide variasjoner (SNV) samt små innsettinger og slettinger (Indel ). I tillegg har vi utviklet en ny algoritme,

NGScopy

, designet for prøver med sparsom sekvensering dekning for å oppdage store kopinummervariasjoner (CNV), ligner menneskelige SNP Array 6,0 samt småskala intragenic CNV . Samlet, søkte vi denne analysen til 100 snap-frosset lungekreft prøvene mangler samme pasient germline DNA (07-0120 vev kohort) og validert våre resultater mot Sanger-sekvensering, SNP Array, og vår nylig publisert integrert DNA-seq /RNA-seq analysen, UNCqeR, der RNA-seq av samme pasient vevsprøver bekreftet SNV oppdaget av DNA-seq, hvis RNA-seq dekning dybde var tilstrekkelig. I tillegg benyttet vi den UNCseq analysen på selvstendig lungekreft svulstvev samling med tilgjengelige samme pasient germline DNA (11-1115 vev kohort) og bekreftet mutasjoner ved hjelp av analyser utført i en CLIA-sertifisert laboratorium. Vi konkluderer med at UNCseq kan identifisere SNV, Indel, og CNV i vevsprøver mangler germline DNA i en kostnadseffektiv måte

Citation. Zhao X, Wang A, Walter V, Patel NM, Eberhard DA, Hayward MC , et al. (2015) Kombinert Målrettet DNA-sekvensering i ikke-småcellet lungekreft (NSCLC) Bruke UNCseq og NGScopy, og RNA sekvense Bruke UNCqeR for påvisning av genetiske Avvik i NSCLC. PLoS ONE 10 (6): e0129280. doi: 10,1371 /journal.pone.0129280

Academic Redaktør: Raffaele A. Calogero, Universitetet i Torino, ITALIA

mottatt: 13 januar 2015; Godkjent: 06.05.2015; Publisert: 15 juni 2015

Copyright: © 2015 Zhao et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: All relevant data er i avisen og dens saksdokumenter filer

Finansiering:.. støttet av NCI Cancer Clinical Investigator teamet Leadership Award (SJM) og Universitetet Cancer Research Fund

Konkurrerende interesser: Margaret L. Gulley er rådgiver for Illumina, Inc. Dette endrer ikke forfatternes tilslutning til PLoS ONE politikk på deling av data og materialer.

Innledning

bruk av neste generasjons sekvensering (NGS) for stor -skala-analyse av DNA-sekvensendringer i humant vev, som kan være relatert til etiopathogenesis av sykdom, er ikke bare nyttig i grunnleggende vitenskapen studier, men er nå et etablert laboratorieteknikk som brukes i klinisk medisin, spesielt for behandling av pasientene med fjernt metastatisk kreft (anmeldt i [1]). Implementering av NGS som en standard klinisk laboratorietest er det neste logiske skrittet etter FDA-godkjenning av flere førstegenerasjonsinnvandrere sekvensebaserte følges diagnostiske tester det siste tiåret at avgrense bruken av målrettede genvarianter for å håndtere forskjellige kreft subtyper. I tråd med FDA godkjenning av MiSeqDx plattformen i november 2013 rettet panel sekvensering (TPS) er neste skritt mot å implementere rimelig, småskala, NGS-baserte laboratorium diagnostikk [2].

FDA-godkjenning av et generisk plattform for NGS har oppfordret private laboratorier for å løse de iboende utfordringer knyttet til utvikling av slike tester. Disse utfordringene innebære skattemessige forhold, problemer i metodikk og optimal bioinformatikk rørledninger som tilbyr et rimelig kompromiss mellom teknisk raffinement og tid effektivitet. Siden ulike laboratorier løse slike saker på en annen måte, formidling av informasjon om metoder og egenskapene til en bestemt NGS-baserte laboratorium analysen er grunnlag for diskusjon og evaluering av styrker og svakheter ved det vitenskapelige samfunn.

I tråd med dette , et økende antall rapporter om NGS-baserte laboratoriemetoder for å analysere kliniske vevsprøver ved ulike laboratorier for klinisk avgjørelse ble nylig publisert [1, 3-8]. Ved University of North Carolina i Chapel Hill (UNC-CH), har vi utviklet en skalerbar NGS assay (UNCseq) som innebærer TPS av DNA hentet fra svulsten og matchet ikke-maligne prøver for et gen panel (ClinSeq) på over 200 kreft tilhørende genene som ble valgt og oppdatert kvartalsvis av UNC-komiteen for formidling av genetisk forskning resultater (CCGR). I tillegg UNCseq utviklet en standardisert nedstrøms bioinformatikk rørledningen, som for tiden blir brukt til å bestille bekreftende tester for rapportering av klinisk «handlings» genetiske hendelser til behandlende lege under en Institutional Review Board (IRB) -godkjent studie (figur 1). I denne rapporten, tester vi vår evne til å utføre Illumina HiSeq 2000 sekvensering på DNA ekstrahert fra vevsprøver fra pasienter med lungekreft, særlig den ikke-småcellet lungekreft (NSCLC) subtype. I tillegg har vi oppsummere vår erfaring i prøven oppkjøpet, patolog-vetted svulst diagnose, DNA-ekstraksjon, NGS, og analytisk validering av genetiske resultater. Til slutt gir vi vår erfaring med å anvende denne NGS-baserte analysen i rapporteringen somatiske mutasjoner fra «virkelige verden» prøver-både snap-frosset (SF) og formalinfiksert og parafininnebygd (FFPE) -for diagnostiske formål med validering av resulterer i en CLIA-sertifisert laboratorium. Vi har bekreftet at TPS i en brønn annotert lungekreft kullet er ikke bare en mer følsom metode enn Sanger-sekvensering i SNV deteksjon, men også mer spesifikt å identifisere genetiske avvik i kjente kreft-relaterte gener med viktige prognostiske og behandlings implikasjoner. Ved å utføre dyp sekvensering av cDNA fremstilt fra RNA (RNA-seq) i en undergruppe av disse prøvene, også bekreftet vi flere SNV detektert ved sekvensering av DNA (DNA-seq), avhengig av dekningen dybden av RNA-seq og mutanten allel frekvens (MAF) av DNA-seq. Gitt det faktum at matchet normal DNA kan ikke alltid være tilgjengelig, gir vi systematisk sammenligning av SNV ringer algoritmer bruker matchet kimcellelinje versus sammenslått normal DNA, og versus bare svulst genotyping i en undergruppe av disse prøvene. Til slutt presenterer vi en ny algoritme,

NGScopy plakater (https://www.bioconductor.org/packages/release/bioc/html/NGScopy.html), for å oppdage genom-wide CNV bruker TPS data. Vi konkluderer med at vår NGS-baserte laboratorium analysen er sensitiv, men likevel bestemt, kostnadseffektiv, robust og standardisert, og legger til rette nedstrøms bioinformatikk analyse for å vurdere SNV, Indel, og CNV i en tid-effektiv og klinisk virkningsfulle måte.

(A) UNCseq prosjektet er et initiativ som involverer klinikere og pasienter som er interessert til å delta i en ikke-terapeutisk klinisk studie gjennomført gjennom Lineberger Omfattende Cancer Center (IRB-godkjent protokoll 11-1115), samt et tverrfaglig team som innebærer klinisk og forsknings fakultet (medisinske onkologer, patologer, bioinformatikere og molekylærbiologer) som genererer, kritisk vurdere, og drøfte NGS data i forhold til pasientens sykehistorie og gjennomgå tidligere identifiserte genetiske avvik for å bestemme hva som er potensielt klinisk handlekraftige og målrettet for nedstrøms validering ved hjelp av validerte metoder i en CLIA-sertifisert laboratorium. (B) Etter samtykke til 11-1115, tumorvev og perifert blod er hentet fra kreftpasienter. Hematoxylin og eosin (H E) -stained representative vevssnitt fra tumorprøver (SF eller FFPE-) blir vurdert av en sertifisert patolog for prosentandelen av gjenværende svulst /stroma innhold og tilstedeværelse /fravær av nekrose (prøve QC). Hentet DNA fra tumorprøver behandles gjennom ulike trinn (fragmentering, DNA bibliotek forberedelse, in-løsning fangst av DNA-fragmenter av interesse, småskala forsterkning av fanget DNA-fragmenter) før Illumina NGS. Data generert diskuteres i et tverrfaglig Molecular Tumor styremøte. Etter validering i en CLIA-sertifisert laboratorium, disse genetiske avvik rapportert i pasientenes personlige elektronisk pasientjournal.

Materialer og metoder

Pasienter, Svulster og Histopatologisk Assessment

Under IRB og Office of human forskningsetikk, The University of North Carolina i Chapel Hill (UNC-CH), godkjent protokoll 07-0120, pasienter som gjennomgikk standard vare (SOC) kirurgi for primær lungekreft ble identifisert, etterfulgt av gjenfinning av SF, banked tumorvev (vev kohort 07-0120 svulst; n = 100). En egen kohort av pasienter med lungekreft som hadde blitt ildfast til standard systemiske behandlinger ble godkjent under IRB og Office of Human Etisk, godkjent UNC-CH-protokollen 11-1115 (11-1115 svulstvev kohort; n = 24). Skriftlig informert samtykke fra de aktuelle pasientene ble innhentet for bruk av disse prøvene i forskning. Den 11-1115 protokollen åpner for TPS av SF eller arkivert FFPE- tumorvev og samme pasient germline DNA for å identifisere genetiske avvik av prognostisk eller terapeutisk betydning bruker UNCseq analysen. Genetiske avvik som avdekkes under UNCseq analysen og har potensial klinisk betydning er så utsatt for validering i en CLIA-sertifisert laboratorium bare for 11-1115 svulstvev kohort (fig 1). I tillegg ble svulst innhold for hver prøve for begge kohorter estimert basert på rutine mikroskopisk analyse av representative hematoxylin og eosin (H E). -stained Seksjoner fra tilstøtende svulst av en patolog (XY) som var blind til pasient historie

DNA Bibliotek Forberedelse og Capture

5 mikrometer tykke vevssnitt ble preparert fra SF eller FFPE- tumorvev. DNA ble isolert ved hjelp av Gentra Puregene Tissue Kit (Qiagen, Valencia, CA). 3 pg av DNA ble deretter skåret i 60-90 sekunder ved hjelp av Covaris ultrasonicator instrument (E220) etter produsentens instruksjoner (Covaris Inc., Woburn, MA). Ikke strand-spesifikke DNA bibliotek forberedelse ble utført ved hjelp av en Agilent SureSelectXT Reagens kit med tilpassede mål berikelse følge produsentens anbefalinger (Agilent Technologies Inc., Santa Clara, CA). DNA ble så underkastet reparere, ende-polering (butt-ende eller A-overheng), og ligering av tilpassede, enkelt-end adaptere. Bibliotekene ble deretter tatt med biotinylerte RNA baits designet av Agilent Technologies for å skille exonic sekvenser for en konsensus liste av gener assosiert med kreft. Mer spesifikt ble genene valgt av UNC CCGR fra publikasjoner og fra jevnlig oppdatert Katalog av somatiske mutasjoner i Cancer (COSMIC) database [9], basert på frekvensen av mutasjonen (e) i solide tumorer, deres potensielle rolle i onkogene trasé og deres potensielle betydning av antitumorrespons til lavmolekylære inhibitorer. Dette genet Listen oppdateres kvartalsvis ved UNC CCGR ifølge ny forskning og medisinske funn [UNCseq ClinSeq versjoner 4, 5 (07-0120 svulstvev kohort), og versjon 7 (11-1115 vev kohort tumor); S1 tabell]. Et sett med genomisk region mål som dekker alle eksoner for hvert gen ble utviklet basert på University of California i Santa Cruz (UCSC) kjent Gene database [10, 11]. Regioner av målrettede eksoner for fangst ble utvidet til å omfatte 250 basepar (bp) av flankesekvenser i intronic regioner omfattende dekke målrettede gener. Disse genomiske steder gitt grunnlag for utforming av 120 nukleotid (nt) biotinylerte fangst oligos for Agilent atVelg fangst ved bruk av Agilent eArray nettportal (https://earray.chem.agilent.com/suredesign/). Hvert sett målrettet 3379 (ClinSeq v4), 3323 (ClinSeq v5), eller 5997 (ClinSeq v7) regionene spenner 2231841-bp for totalt 228 gener (ClinSeq V4), 3451622-bp for totalt 184 gener (ClinSeq v5) og 2.820.216-bp for totalt 248 gener (ClinSeq V7) (S1 Table). Fangst av strekkode-og-sammenslåtte eller unpooled bibliotekene ble behandlet av Agilent atVelg Protokollen.

Før innlevering for NGS, ble DNA-bibliotekene utsatt for en tre-trinns kvalitetskontroll protokollen. DNA-konsentrasjonen ble målt ved anvendelse av en qubit 2,0 fluorometer (Life Technologies, Grand Island, New York), ble DNA-kvalitet bedømmes ved hjelp av Agilent 2100 Bioanalyzer høy følsomhet DNA-analyse, og DNA-størrelsen ble bestemt ved den Experion® automatisert elektroforesesystem (BioRad, Hercules, CA) . Et normalisert molariteten for hvert bibliotek ble deretter beregnet på grunnlag av DNA størrelse og konsentrasjon. Bibliotekene ble slått sammen for å inkludere 2-8 prøver per sekvense kjørefelt. Hver pulje ble fortynnet til 17:05, som per Illumina CBOT Cluster Generation trinn. Klynger ble deretter generert ved hjelp TruSeq SR Cluster Kit v.2 og ble lastet inn i HiSeq 2000 sequencer (Illumina Inc., San Diego, California). Sekvensering ved syntese [12] ble utført ved bruk av standard enkeltrom indeksert bibliotekene på enten én leste (07-0120) eller sammen-end (11-1115) flyt celler med 100 sykluser (ClinSeq 1 x 100-bp eller 2 x 100- bp, henholdsvis) og en indeks lese ( «strekkode») består av 7 sykluser av sekvensering ved hjelp av Illumina TruSeq SBS v.3 kjemi. S2 tabell oppsummerer viktige forskjeller i utvalgets behandling og sekvensering mellom 07-0120 og 11-1115 tumorvev kohorter.

DNA NGS Data Analysis Pipeline

Forbehandling, Pre-filtrering, justering og filtrering .

data~~POS=TRUNC analysen~~POS=HEADCOMP rørledning er vist i figur 1. No strand-skjevhet ble vurdert i en hvilken som helst av de pre-prosesstrinn. Raw sekvens leser ble analysert ved hjelp av casava v.1.8 pakken (Illumina) for å generere strek leser og ble rapportert som FASTQ filer [13]. Hvis det er aktuelt, leser ble deretter utsatt for kvalitet-filtrering og adapter-stripping bruker FASTX-Toolkit (https://hannonlab.cshl.edu/fastx_toolkit/index.html). Den Phred kvalitet score på basen ringe (CallQ) av hvert nukleotid i en lese var da undersøkt for å finne ut om å trimme lese i endene når et antall kontinuerlige nukleotider gjennomsnittlig per-basen CallQ ≤ 20, eller ≤ 99% nøyaktighet. Den rå sekvens leser i FASTQ filene ble deretter justert til Genome Reference Consortium menneskelige genom, bygge 37 (GRCh37; https://www.ncbi.nlm.nih.gov/assembly/GCF_000001405.13/), ved hjelp av enten Burrows- Wheeler Aligner [14] (BWA 0.6.2) for 07-0120 kohort eller BWA-MEM (versjon 0.7.4) for 11-1115 kohort. Leser ble deretter sortert og indeksert ved hjelp SAMtools (0.1.19-44428cd) [15]. Lokal omstilling og basen kvaliteten score rekalibrering ble utført ved hjelp av enten Genome Analysis Toolkit (GATK 2,6) og GATK ressurspakke (2.5) [16] i 07-0120 kohort eller ABRA (0,46) [17] i 11-1115 kohort. Innstillingene ble brukt med verktøyene ovenfor. Kartlagt leser ble ytterligere filtrert gjennom kartlegging kvalitet før nedstrøms analyse. Filtrering ble utført ved å pålegge et minimum Phred kvalitet score på lesekartlegging (MapQ). Leser med lav kvalitet kartlegging (MapQ mindre enn 5, dvs. 70% nøyaktighet) ble fjernet. Median og tilnærmet 95% konfidensintervall (ca. 95% KI) ble beregnet for on-target leser for hver svulst kohort og for hver ClinSeq bildetekst versjon. Medianen av per-sample median RPKM (leser per region kilobase per million målrettet leser kartlagt) [18] ble brukt for å beskrive den gjennomsnittlige leser per region.

Kvalitetskontroll.

Dybde, bredden i dekning, og på målet hastighet ble beregnet i henhold til definisjonene som er skissert i S1 tekst.

Variant Calling.

på grunn av den retrospektive prøvetaking av 07-0120 svulstvev årsklasse, DNA fra samme pasient normalt vev (f.eks perifert blod) var ikke tilgjengelig til å trekke germline DNA. For kontroll-DNA, kan vi i stedet sekvensert og sammenslåtte DNA ble ekstrahert fra 8 normale vev (6 lever og uterus fra 2 totalt 4 pasienter) under tilsvarende betingelser og behandlingsprotokoller som brukes på de for DNA-seq av tumorprøver. Genetiske varianter ble kalt av deepSNV [19]. SNV samtaler fra vår analyse ble videreutviklet ved hjelp av tidligere kunnskap fra en svært kuratert liste over 41 gener med 279 SNV og 91 Indel stillinger som har blitt brukt av OncoMap systemet (versjon 4, en ekspert kuratert kilde som vi kaller «konservative» -listen ) [20] og den kosmiske database (versjon 66) med merknad i lungekreft bare. Vi kaller den kosmiske listen «mindre konservative «som det består av 18,722 gener med 250741 SNV og 4,949 Indel posisjoner; 265 ut av disse 18,722 gener som ikke har noen genomisk koordinatinformasjon av variantene ble ekskludert [9]. Av notatet, alle gener og SNV /Indel posisjoner av OncoMap system er alle kommentert i «mindre-konservative» -listen, og derfor sistnevnte er også referert til som OncoMap pluss COSMIC system.

For variant ringer på 07-0120 svulst årsklasse, vi definert betydelig SNV ved å filtrere hver av mutasjon anrop med «deepSNV» pakke med Bonferroni justert

p

-verdi ≤ 0.001, MAF ≥ 0,005, mutant allel lese count ( MAC) i tumor ≥ 5, og logaritmisk transformert (log

2) odds ratio (OR) [21] av MAC av hver enkelt tumorprøve versus pool av normale prøver ≥ 4. med andre ord, oddsen for å ringe en SNV i enkelte tumorprøve var ≥ 16 (dvs. 2

4) ganger høyere sammenlignet med sammenslått normalt. Vi har valgt denne MAF terskel fordi det var minst to ganger høyere enn det som tidligere er rapportert sekvenseringsfeil på omtrent 0,001 til 0,002 [22]. Når det gjelder MAC terskelen, vi vilkårlig satt den til 5, som er strengere enn MAC 2 som tidligere var rapportert [23]. Filtrerte SNVs ble kommentert av ANOVAR (2014.07.14). For å forbedre tilliten ringer uovertruffen svulster, SNV ble videreutviklet ved hjelp av «konservative» liste [24] samt den «mindre konservative» -listen.

Basert på gen-messig aggregering av den betydelige SNV identifisert ovenfor , hver enkelt gen ble deretter testet under null-hypotesen om at mutasjonsfrekvens for genet er i overensstemmelse med bakgrunnen mutasjonshastighet, for å oppnå en

p

-verdi ved hjelp av en konvensjonell binomialsannsynlighet modell [25] for å justere mutasjon priser for genet lengde. Til slutt ble den SMG rapportert ved bruk av betydelig grad av muterte gener for alle testede gener med falske funnrate (FDR) ≤ 0,05. Indel ble kalt av VarScan (2.3.6) med standardinnstillingen.

Variant kall av vevsprøver 11-1115 tumor ble utført av den oppdaterte versjonen av UNCseq rørledningen (august 2014). Mer spesifikt har vi brukt Strelka somatiske varianten som ringer (2013) med standardinnstillingene [26] for å oppdage både SNV og Indel med kvalitet score på minst 30 for begge, ANOVAR (versjon 2014.07.14) kommentere oppdaget varianter, og SAMtools /BCFtools (versjon 0.1.19-44428cd) for normal frie variant ringer. Å etablere en «moderne sammenslått» normal DNA for denne svulstvevet årsklasse, vi først genererte en leave-one-out «samlet DNA består av alt sekvensert leser fra tilgjengelige kimlinje DNA av 11-1115 årsklasse, unntatt matchet germline DNA for den spesielle prøve. Med andre ord, for en gitt i-te tumorprøve, den samlede normal besto av 23 normale prøver fra pasienter 1, 2, …, i-1, i + 1, …, n (n = 24). Som et andre trinn, delutvalgt vi den totale leser fra sammenslått normal DNA for å redusere regnemaskintiden, og genererte en tilsvarende størrelse av moderne bibliotek for optimal statistisk analyse. Den S2 tabell oppsummerer viktige forskjeller i bioinformatikk analyse mellom 07-0120 og 11-1115 tumorvev kohorter.

deteksjon av kopiantall variasjoner.

kalkulert kromosom-nivå kopi nummervariasjoner (CNV ) i 07-0120 svulstvev kohort med lese- dybde. På grunn av den iboende heterogene, avbrutt dekning av genomet av TPS, ansatt vi en begrensning pålagt, «fleksibel vindus algoritme for å sikre en balansert rekke leser per vindu på tvers av hele genomet i R /Bioconductor pakke

NGScopy

(1.0.0). For å muliggjøre deteksjon av kopiantall i begge målrettede og off-målrettede områder av genomet, som vanligvis har høy og lav dekning dybde, henholdsvis off-target leser ( «bakgrunn leser») ble anvendt i tillegg til på målet. To kriterier definert slik fleksibel vindu. Først, for å sikre jevn varians samt tilstrekkelig antall lyder pr vindu, lese dybde pr vindu i sammenslått normal kontrollprøve var ikke mindre enn 20 ganger per prøve. For det andre, var dens minimale størrelsen på vinduet holdes innenfor et område bestemt av deknings egenskaper, som i genomiske regioner med høy-tetthet lest, bruk av små vindusstørrelser fører til et «sagtann», undersmoothened signal. For denne studien, minimum vindusstørrelsen var 20 kbp. Bibliotek størrelse-normalisert leser pr vindu for både sammenslått normal kontroll og hver tumor prøve ble tellet for å beregne tumor /normal log

2 kopitall-forhold (CNR) i det relative kopiantall. Å gjøre rede for kopiantall nøytralitet, normalisert vi våre data per tumorprøve ved sentre medianen av de relative kopiantall til null over hele genomet. Direkte visualisering ble brukt for å vurdere strukturelle variasjoner på tvers av genomet. Til slutt, segmentering ble utført av en heterogen skjult Markov modell, kalt BioHMM [27], som ble tilrettelagt for NGS data.

For å beregne gen-nivå CNV i 07-0120 svulstvev årsklasse, vi brukte dybden av genet ekson-spesifikke sekvens leser med 1-bp oppløsning. Vi har beregnet den relative kopitall, på samme måte som ovenfor, ved å beregne log

2-forhold av den per-base-lese dybde av tumor mot den sammenslått normal kontroll.

Validering av DNA NGS data ved RNA-sekvense .

Agilent strand-spesifikke RNA med fangst ble utført for forberedelse. RNA-sekvensering (RNA-seq) hel-transkriptomet analyse i et delsett av tumorprøver fra 07-0120 tumorvevet kullet ble utført på Illumina GAII som tidligere beskrevet [28, 29]. Den fulle 76-bp, single-end leser ble først justert til den menneskelige referansen genom (hg19) ved MapSplice [30]. SNV kalles av DNA-seq ble senere bekreftet ved analyse av RNA-seq data ved hjelp av to uavhengige mutasjoner ringer algoritmer: den SAMtools (mpileup kommandoen) /BCFtools [15] og vår nylig publisert RNAseq spesifikke mutasjon kaller metoden, UNCeqR [31].

DNA Non-NGS analyser.

for 07-0120 svulstvev kohort, har vi tidligere utført Sanger-sekvensering ved hjelp av en DNA-analyser (ABI 3730xl, Applied Biosystems, Foster City, CA) for mutasjon deteksjon av utvalgte eksoner av

KRAS

genet samt utvalgte eksoner av genene

BRAF

,

CDKN2A

,

EGFR

,

STK11

, og

TP53

. I tillegg ble prøver fra 07-0120 kohorten utsatt for analyse ved bruk av Genome-Wide Menneskelig SNP Array 6,0 microarray (Affymetrix, Santa Clara, CA) for å påvise CNV i en undergruppe av våre lungekreft prøver [32]. SNP rekke analyse for CNV ble utført ved hjelp av åpen kildekode R pakke aroma.affymetrix versjon 2.5.0 (https://cran.r-project.org/web/packages/aroma.affymetrix) og DNACopy versjon 1.30.0 (http: //www.bioconductor.org/packages/release/bioc/html/DNAcopy.html) for databehandling og CNV analyse, henholdsvis.

konfidensintervall for en Median.

Konfidensintervall ( CI) i en median ble beregnet som tidligere beskrevet [33].

Resultater

Clinicopathologic Kjennetegn ved 07-0120 og 11-1115 pasientprøver

tumorvev fra 100 og 24 pasienter med primær lungekreft ble inkludert i analysen for 07-0120 og 11-1115 tumorvev kullene, respektivt. Clinicopathologic egenskaper for hver gruppe er vist i tabell 1. Rettet panel fangst med ClinSeq versjon 4 og 5 ble utført i 64 og 36 av de 07-0120 SF prøver, henholdsvis, og ClinSeq versjon 7 ble anvendt på alle 24 tumorprøver fra 11 -1115 svulstvev kohort. Sammenslått normal DNA var tilgjengelig for analyse av 07-0120 svulst årsklasse, mens matchet germline DNA var tilgjengelig for 11-1115 svulst kohort. S1 tabell viser listen av gener som eksoner ble sekvensert som en del av ClinSeq versjoner 4, 5 og 7.

Bioinformatikk Analyse av 07-0120 pasientprøver

Vi har fått en totalt 2,100,991,292 leser fra alle 64 prøvene som ble sekvensert med ClinSeq versjon 4, og 591 549 582 leser fra alle 36 prøvene som ble sekvensert med ClinSeq versjon 5. alle prøver har passert kvalitetskontrollen bruker FASTX-Toolkit. 93,96 ± 0,85% av disse lesninger ble entydig tilordnet referanse genomet med MapQ ≥ 5, dvs. 1985916272 (94,5%) og 551 493 714 (93,2%) for ClinSeq 4 og 5, respektivt. Median antall entydig kartlagt (mapQ ≥ 5) leser per prøve var 18.171.425 (ca. 95CI 16,442,697-27,015,601) og 14350546 (ca. 95CI, 13,786,985-15,363,758) for prøver sekvensert i ClinSeq versjon 4 og 5, henholdsvis. Vi var i stand til å hente 71,6% (median;. Ca 95CI, 70,9% -72,5%) og 30,6% (median;. Ca 95CI, 29,9 til 31,4%) på target baser med vårt målrettede panel fangst strategi for ClinSeq versjon 4 og 5, henholdsvis. Bryteren fra ClinSeq versjon 4 til 5 er forbundet med flere endringer, inkludert ad hoc utforming av primere av undersøkerne, i motsetning til leverandøren (Agilent), så vel som nye genomiske regioner av interesse som har fangst effektivitet og evne til lett å sekvens var tvilsom. Medianen av per-sample median RPKM var 452 (ca. 95CI, 448-458) og 446 (ca. 95CI, 440-454) for prøver sekvensert bruker ClinSeq versjon 4 og 5, henholdsvis. SNV /Indel analysen ble begrenset til de delte DNA-områder for ClinSeq versjon 4 og 5, 1,190,667 baser per prøve, eller 168 gener, for sammenligning mellom prøvene. For kopitall-analyse, ble hele genomet i betraktning, enten på-target eller ikke.

En vanlig strategi for å overvinne den iboende høy feilrate på NGS instrumenter og for å sikre en tilstrekkelig dekning av begge allelene for hver variant området eller eksistensen av multiple kloner er å ideelt sekvens individuell genomer til 20-30x dekning dybde [34]. Slik dekning dybde er tilstrekkelig for en normal vev, en genetisk homogen cancer vev, så som cancer-cellelinjer eller tumorvevet med minimal stromal «forurensning», men ikke for tumorvev med varierende grad av cellulær og /eller molekylær heterogenitet (dvs. subkloner av ulik genotype) (fig 1). En fersk studie viste at en 30x dekning dybde var tilstrekkelig for en omtrentlig 90% sensitivitet å ringe mutasjoner på allel fraksjoner av ≥ 0,2 [35]. For de sistnevnte tilfeller er minst 50x dekning dybde vanligvis brukes til å ringe enkelt nukleotid eller andre genetiske varianter.

For å etablere den optimale balansen mellom kostnader og dekning dybde for vår TPS strategi, vi sekvensert 2 (n = 24 prøver), 4 (n = 4), eller 8 prøver (n = 72) per Flowcell kjørefelt. Som vist i figur 2, ble en target totale dekning dybde på 50x nådd når opp til 8 sampler pr kjørefelt ble lastet. De gjennomsnittlige prosenter av on-target baser som har ikke mindre enn 50x dekning dybde for 2, 4 og 8 prøver per kjørefelt er 98%, 95%, 93%, henholdsvis; og 97%, 92%, 86%, henholdsvis, for ikke mindre enn 100 x dybde. Vi konkluderer med at 8 sampler pr kjørefelt gi tilstrekkelig kostnads- og tidseffektiv dekning (50x) i henhold til vår TPS-strategi.

for hver tumorprøve er prosentandelen av målrettede baser dekket ved gitt deknings dybde (1x, 20x , 50x, 100x) og sekvensert under forskjellige kjørefelt innstillinger i HiSeq 2000 instrument (2, 4 og 8 DNA-biblioteker per kjørefelt, Lib /Ln).

Sammenligning i SNV Calling Mellom NGS og Sanger sekvense~~POS=TRUNC i 07-0120 pasientprøver

for å vurdere om NGS er minst like følsom som Sanger-sekvensering i SNV ringer for kjente mutasjoner hotspots, sammenlignet vi resultater for påvisning av

KRAS

hot-spot SNV mellom de to sekvenseringsplattformene. Vi valgte

KRAS

for denne undersøkelsen fordi den bærer udiskutabelt hotspot somatisk SNV for lungekreft i kodon 12 og 13, som tidligere har blitt godt identifisert [36, 37]. Som vist i figur 3, paneler A og B, ved hjelp av vår NGS rørledning, vi har oppdaget alle 8 hotspot SNV identifisert av Sanger-sekvensering. Videre åtte ekstra hotspot SNV ikke identifisert av Sanger-sekvensering ble også kalt av vår NGS rørledning. Som vist i figur 3, panel C, heller lav NGS dekning eller lav svulsten renhet var forskjellig mellom 8 avtalt og de 8 uoverensstemmende tilfeller ved NGS og Sanger-sekvensering (

p

-verdi 0,1, tosidig Wilcoxon test). Sammenlignet med Sanger-sekvensering, NGS var i stand til å gjenkjenne

KRAS

mutante alleler med betydelig lavere MAF (

p

verdi = 0,0006, tosidig Wilcoxon test; figur 3, panel C). Interessant, MAF av 4 uoverensstemmende tilfeller (ID: 30, 65, 72, 60) ligger under, men i nærheten av 0,20, noe som tyder på at Sander-sekvensering er mindre følsom til å påvise SNV med MAF ≤ 0,20, i samsvar med tidligere rapporter [38]. Den MAF av de andre 4 avvikende tilfeller (ID: 97,56,38,70) er nær 0,05 eller lavere, noe som indikerer NGS var i stand til å fange opp SNV med svært lav MAF

(A) Sekvense kromatogrammene (. Finch TV spor viewer v1.4.0) hentet fra to eksempler tumorvev viser konkordans (prøve 24) eller disharmoni (prøve 38) i

KRAS

SNV ringer. (B) SNV anløper hot-spot loci i

KRAS

kodon 12 og 13 for alle 16 svulster ved hjelp av noen av de to sekvense strategier. Samtaler med Sanger og NGS er farget i oransje og blått, henholdsvis. Samtaler med begge plattformene er farget i en halv appelsin og en halv blå. NGS-dekning dybde, renhet, og MAF er også vist. (C) boksplott av MAF, tumor renhet, og dekningen dybde mellom uharmoniske og samstemmige SNV samtaler vises (

p

verdi = 0,0006, tosidig Wilcoxon test).

for å vurdere sensitiviteten av våre NGS SNV ringer algoritme, fokuserte vi på den første koding ekson av

KRAS (RefGene ID

:

NM_033360)

. Denne 111-bp DNA-regionen (

chr12

:

25

,

398

,

208-25

,

398

,

318

) inneholder seks-bp stillinger som tilsvarer de hotspot områder i kodon 12 og 13 (

chr12

:

25

,

398

,

280-25

,

398

,

285

). Av de resterende 105 bp, det er 52-bp stillinger med varianter kommenterte etter OncoMap pluss COSMIC system eller dbSNP, og 53-bp stillinger uten varianter kommenterte ved enten OncoMap pluss COSMIC system eller dbSNP [39]. PCR, polymerase kjedereaksjon;

Legg att eit svar