Abstract
Neste generasjons sekvensering har nå aktivert en kostnadseffektiv opplisting av hele mutasjons komplement av en svulst genom-spesielt single nucleotide varianter (SNVs). De fleste aktuelle beregnings og statistiske modeller for å analysere neste generasjons sekvensering av data, men tar ikke hensyn til kreftspesifikke biologiske egenskaper, herunder somatisk segmental kopinummer endringer (CNAS) -som krever spesiell behandling av dataene. Her presenterer vi Conan-SNV (Kopier nummer Annotated SNV): en roman algoritme for slutning av single nucleotide varianter (SNVs) som overlapper kopi nummer endringer. Metoden er basert på modellering den oppfatningen at genomiske regioner av segmental duplisering og forsterkning indusere en utvidet genotype plass hvor en undergruppe av genotyper vil stille sterkt skjeve allele distribusjoner i SNVs (og dermed gjør dem umulig å oppdage ved hjelp av metoder som antar diploidy). Vi innføre begrepet modellering allele tellinger fra sekvenseringsdata ved hjelp av et panel av binomiske blandingsmodeller hvor antall blandinger for et gitt locus i genomet blir informert av en diskret kopitallet tilstand gis som inndata. Vi anvendte Conan-SNV til en tidligere publisert hele genomet hagle datasettet innhentet fra et lobular brystkreft og viser at det er i stand til å oppdage 21 eksperimentelt forlenges somatiske ikke-synonyme mutasjoner i en lobul brystkreft genomet som ikke ble påvist ved hjelp av kopiantall ufølsom SNV algoritmer. Viktigere, viser ROC analyse at den økte følsomheten of Conan-SNV ikke medfører uforholdsmessig tap av spesifisitet. Dette ble også støttet av analyse av en nylig publisert lymfom genom med en relativt stille karyotype, hvor Conan-SNV viste lignende resultater til andre innringere unntatt i områder av kopiantallet gevinst der økt følsomhet ble tillagt. Våre resultater tyder på at i genomisk ustabile svulster, vil kopiantall annotering for SNV deteksjon være avgjørende for fullt karakterisere mutasjons landskapet av kreft genomer
Citation. Crisan A, Goya R, Ha G, Ding J, Prentice LM , Oloumi A, et al. (2012) Mutasjon Discovery i Regions of Segment Cancer Genome Amplifikasjoner med Conan-SNV: En blanding modell for Next Generation Sequencing av svulster. PLoS ONE 7 (8): e41551. doi: 10,1371 /journal.pone.0041551
Redaktør: Chad Creighton, Baylor College of Medicine, USA
mottatt: 30 juni 2011; Godkjent: 27 juni 2012; Publisert: 16 august 2012
Copyright: © Crisan et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble finansiert av det kanadiske Breast Cancer Foundation (fellesskapet til SPS), og den kanadiske Institutes of Health Research University of British Columbia /Simon Fraser University Bioinformatikk treningsprogram (stipend til AC). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Nylige fremskritt i massivt parallelle genomkort lese sekvenseringsmetoder (såkalt neste generasjons sekvensering (NGS)) har satt som mål å fullstendig avgrensning av kreft genom landskap ned til single nucleotide løsning innen praktisk rekkevidde. Nye metoder for analyse av kort-leser sekvensdata er nødvendig, imidlertid, spesielt de som er i stand til å takle de komplekse genomiske landskap av tumorer. Kreft genomer gjennomgå ulike former for somatiske avvik, inkludert single nucleotide mutasjoner, trans, Genfusjonene, slettinger, inversjoner og segmentell genomet kopi nummer endringer (CNAS). Flere typer somatisk avvik er rapportert å forekomme sammen: for eksempel Kadota et al. [1] observert tilbakevendende mutasjoner i
PIK3CA
i brystkreft med allel konkrete presiseringer av mutant allel i samme svulster og foreslo at
PIK3CA
punktmutasjoner med samtidig CNA forsterkning resulterte i synergi onkogene effekter . Tilsvarende Laframboise et al. [2] viste allel spesifikk forsterkning av
EGFR
mutante alleler i en kreftcelle lunge linje; eksempler på forsterkning co-forekommende med somatiske mutasjoner i
MYC product: [3],
HRAS product: [4], og
MET product: [5] har også blitt observert. Samtidig forekomst av enkelt-nukleotid-varianter i regioner av segmental kopiantallet forsterkning medfører spesielle problemer på grunn ukjente blandinger av allel Forekomsten kan resultere fra prosessen med segmental forsterkning og /eller etter valg, i noen tilfeller confounding tolkning. Dette er fordi blandingene av allelene til enhver stilling kan være skjev, noe som resulterer i et avvik fra den teoretiske frekvens (0,5) for heterozygote varianter forventes på diploide genomer. Figur 1 viser et eksempel fra kromosom 19 fra et lobulær brystcarcinom genom rapportert i Shah et al. [6] og illustrerer en forskyvnings i den alleliske frekvens bort fra heterozygoter på grunn av en allel-spesifikk amplifikasjon kopitall på 19q. Både B-allel frekvensanalyse i tabellens data og allelisk forhold analyse i NGS data understøtter en mono-allelisk forsterkning på 19q i dette genom. Vi rapporterer i denne artikkelen at denne hendelsen havner 7 co-eksisterende somatiske mutasjoner (se resultater) i gener (kommenterte på karyogram) som er umulig å oppdage ved analysemetoder som antar diploidy. Nøyaktige og sensitive variant kaller metoder kan derfor kreve konseptuelle inkludering av co-eksisterende segmental kopi antall varianter (somatisk eller germline) inn i tolkningen av målte allelfrekvenser fra NGS data. Høy tetthet genotyping arrays har tillatt for kvantifisering av allel-spesifikk CNAs ved å inkludere kopiantall med allel genotype. Algoritmer som QuantiSNP [7], vaniljeis [8], Birdsuite [9], PennCNV [10] og PIKNIKEN [11] modell allel-spesifikk CNAs ved å forlenge genotypen tilstandsrom fra de konvensjonelle tre diploide genotyper: aa (homozygote for større allel), ab (heterozygot) og bb (homozygot for mindre allel). For forsterket regioner tall mulige genotypene naturligvis utvide, for eksempel, kan en triploid kromosom eller segmental gevinst har følgende genotyper. Til tross for den innsikt opparbeidet gjennom disse metodene, er alle i siste instans begrenses av oppløsningen og omfanget av rekken design. Viktigst, oppdagelsen av nye somatiske punktmutasjoner er generelt ikke mulig med rekke plattformer. Neste generasjons sekvenseovervinner disse begrensningene, siden hele genomet hagle sekvensering (WGSS) kan avhøre hele genomet og avsløre somatiske mutasjoner i loci som ikke omfattes av arrays. Videre er hyppigheten av alleler i en gitt prøve er et digitalt telle øvelse der det dynamiske området ikke er begrenset av hybridiserings- og fluorescens intensitet metning og sensitivitet begrensninger.
A somatisk høyt nivå forsterkning av 19q armen er bekreftet i NGS samt Affymetrix SNP6.0 data. Nye somatiske varianter som var umulig å oppdage ved samtools variant som ringer eller SNVMix er markert på karyogram. A) og B) indikerer rå log kopiantall og b allel intensitet, henholdsvis for normal DNA (fra den samme pasient) på Affymetrix SNP 6,0 array. Blå farge viser diploid (nøytral) eksemplar nummer tilstand; lysere fargen rød jo høyere nivå av forsterkning. De tre distinkte bånd i (B) indikerer nærværet av allelene som bærer en av de tre genotyper diploide: AA, AB og BB. C) og D) viser metastatisk tumor kopiantall og b allel intensitet respektivt. Den høye forsterkning på 19q armen er ledsaget av B-allel intensiteter som viser et fravær av AB heterozygote (i midten) band som var til stede i det normale. E) viser allele teller fra neste generasjons sekvensering for stillingene representert på tabellen som andel av dybde; den alleliske forhold beregnes ved å summere det totale antall lesninger inneholdende en variant i hver posisjon dividert med den totale dybde ved den posisjonen. F) viser rå kopi fra NGS data kommenterte med forsterkning informasjon og viser de samme nettstedene til forsterkning avslørt av ortogonale array plattform.
Flere kreft genomer er nå dypt sekvensert med NGS og analysert for CNAs og SNVs uavhengig ved hjelp bioinformatiske metoder etterfulgt av målrettet validering for å bekrefte somatiske endringer. Disse undersøkelser har avdekket nye somatiske punktmutasjoner i akutt myeloid leukemi [12], [13], brystkreft [6], [14], eggstokk-kreft [15], melanom [16], lymfom [17] og lungekreft [18 ]. Arbeid med Pleasance et al. [16], Chiang et al. [19] og vårt eget arbeid [6] tyder på at CNAs kan utledes fra sekvensdata, har imidlertid ingen av disse studiene brukte algoritmene som eksplisitt integrerer CNAs å informere slutning av SNVs. Her viser vi hvordan inkorporering av CNA informasjon i SNV funn i kreft genomsekvensdata gir flere nye somatiske mutasjoner som var umulig å oppdage ved hjelp av konvensjonelle SNV prediksjon algoritmer designet for normale diploide genomer.
Studier som Ding et al. [14] og vår egen [6] har brukt ultra dypt rettet amplikon sekvensering for å beregne hyppigheten av mutasjoner i populasjonen av tumorceller for å detektere sub-dominante eller sjeldne klonale cellepopulasjoner. Her viser vi at ikke-diploide allel forhold kan også oppstå fra regioner av kopi rekke forbundet forstyrrelser av allel overflod. Vi konkluderer med at hensynet til kopitall resulterer i økt følsomhet til å oppdage både kimcellelinje og somatiske varianter i ikke-diploide regioner av kreft genomer.
Resultater
Conan-SNV modell
for å ta opp problemet med allele stater i regioner av kopiantallet aberrasjon, har vi utviklet en ny modell, Conan-SNV, designet for å innlemme kunnskap om kopiantall staten ved enkeltposisjoner. Vist skjematisk i figur 2A, og som en generativ probabilistisk grafisk modell i figur 2B, anvender modellen en hierarkisk Bayes [20] betinget uavhengighet rammeverk for estimering parameter og slutning. Conan-SNV gjelder SNVMix1 modellen beskrevet i Goya et al. [21], men med store forskjeller; nemlig at SNVMix1 ikke koder kopitallet endres ofte funnet i cancer genomer (for eksempel 19q forsterkning er vist i figur 1). For å overvinne denne begrensningen, innganger Conan-SNV et sett av allele teller og en diskret kopi nummer staten for hver posisjon i dataene. Et eksempel på inn- og utgang, er vist i figur 2C. Målet er å forutsi hvilken, av et fast antall genotyper (informert av kopiantallet stat), ville være mest sannsynlig å ha gitt opphav til de observerte allel teller ved en gitt posisjon. De allele teller er representert som antall leser i hver posisjon som samsvarer med referanse, der
T
er det totale antall stillinger i inngang. Vi lar representerer det totale antall leser justert til posisjon
i
(eller dybde) i inngangs. Vi introduserer som kopiantallstilstand i posisjon
i
, og vi antar er kjent under kjøring. Teoretisk sett kan hele plassen av allel tilstander utledes med kunnskap om absolutt kopiantall, men metoder for bestemmelse av absolutte eksemplar nummer fra aCGH data forblir problematisk og i praksis er det lite sannsynlig at alle stater kan løses selv med dagens prøvetakings dypet av NGS (se diskusjon). Derfor i første tilnærming, har vi definert kopiantall tilstand, hvor TAP tilsvarer en sletting, er neut kopiantall nøytral, GAIN nærmer seg lavt nivå kopiering, AMP tilnærmet lik lav-middels forsterkning og HLAMP er et høyt nivå kopiantall forsterkning. Her bruker vi HMM-baserte fremgangsmåten beskrevet av [6]. De nøkkelen intuisjon i Conan-SNV modellen er at informerer staten plass av mulige genotyper i posisjon
i
som følger: (1) tap segmenter blir analysert med en nøytral stat-plass fordi de presenterer utfordringer som krever hensyn som er atskilt fra presiseringer og faktisk kan også kreve en gratis normal genom. Regnskap for kopi nummer gevinster er spesielt viktig når slike endringer er allel bestemt, og når allel som forsterkes er referanse allelet. For eksempel vurdere tilfellet der, dette vil indusere en genotype tilstand plass av. Vår modell er derfor teoretisk stand til å oppdage varianter med allele distribusjoner skjevt bort fra heterozygositet (dvs.
aaaab
eller
abbbb
). Vi lar representerer parameteren til binomial fordeling som koder for den forventede andel av leser som samsvarer med referansesekvensen, for et gitt eksemplar antallstilstand og genotype tilstand. Vi kan derfor uttrykke sannsynligheten for å observere antall referansen leser gitt dybde, kopiantallet staten, genotype og modellparametrene som følger: (2) og dermed anta at er fordelt i henhold til state-spesifikke Binomisk fordeling indeksert av genotype
og Selge kopiantall. Vi kode også en kopi-nummer bestemt før i løpet av genotyper, forutsatt at genotyper for kopiantall tilstand c fordeles etter en multinomisk fordeling med parameter for alle, der er det totale antall stillinger med kopi nummer tilstand. Vi bruker Bayes regel for å beregne den bakre sannsynligheten for at genotype
k
ga opphav til de observerte data med den eksplisitte koding av kopiantall tilstand: (3) der er antallet mulige genotyper for kopiantall tilstand
c
(se ligning (1)). Gitt, kan vi da velge å beregne: hvor representerer en variant genotype stat (dvs. en stat som ikke er
aa
,
aaa
,
aaaa
, etc. som tilfellet kan være) for å representere en enkelt sannsynligheten for at en stilling koder for et SNV.
A) Conan-SNV genotype state-space ekspansjon vist skjematisk. Som høyere nivåer av forsterkning er oppstått, er et større genotype state-plassen som kreves for å imøtekomme de ulike hendelser som kan oppstå på grunn av presiseringer (eksempler i figur S1). B) Conan-SNV generativ probabilistisk grafisk modell. Sirkler representerer tilfeldige variabler, og avrundede firkanter representerer faste konstanter. Skraverte noder indikerer observerte data, for eksempel allele teller, mens hvite noder indikerer mengder som er inferred under trening om forventning maksimering. (. Definert av HMM beskrive i Shah et al [6]) representerer CNA tilstander av et segment som spenner posisjon
i
; representerer genotype, som varierer avhengig av CNA tilstand; er antallet leser og er antall referanse leser; er tidligere eksisterende over genotyper og strekker seg for å imøtekomme CNA sier; og er genotypen spesifikke binomisk parameter for genotype k i CNA tilstand Ci. C) Eksempel på Conan-SNV inngang og utgang. Conan-SNV tar allele teller og i tillegg er CNA segment data som input, mens SNVMix krever bare allele teller. De samme posisjoner og teller er anordnet for begge algoritmer, med forskjellige resultater. I noen tilfeller Conan-SNV vil kalle en variant med en
aaaab
eller
aaab
genotype, som ellers ville bli savnet av SNVMix; imidlertid også Conan-SNV vil også genotype et stillinger med
abbbb
stedet for
bb plakater (som SNVMix [21] ville), noe som gir bedre tolkning av hendelser.
Hyperpriors og hyperparameters.
Vi antar fordeles etter et konjugat Dirichlet fordeling med parametre. Dette er en brukerdefinert parameter. I vår studie setter vi for å favorisere ikke-variant tilstander siden de fleste stillinger i genomet vil være homozygotisk for referansesekvensen (dvs. vill-type). Vi antar fordeles etter et konjugat Beta fordeling med parametre. Vi satt ved hjelp av biologiske intuisjonen som homozygot referanseposisjoner vil være nesten «ren», med synkende andel mot homozygot variant stillinger. Alle hyperparameter innstillinger er gitt i tabell S1.
Model montering og parameterestimering.
Gitt de frie modell parametere, kan vi viste hvordan å bruke ligningene (3) og (4) å antyde for alle
i
i inndata. Som vi viste i [21], er det fordelaktig å tilpasse modellen til data ved hjelp av forventning maksimering (EM) for å lære. For Conan-SNV, vi behandler dataene i hvert eksemplar nummer stat separat og kjøre EM for hvert sett av data uavhengig (se Methods). Vi beskriver det kort her. La representerer komplett sett av posisjoner i inndata merket med kopi nummer tilstand
c
. Iterere over kopitall tilstander, består i E-trinnet for databehandling ved bruk av ligning (3) for hver posisjon, og de nåværende estimater av. Den M-trinns re-estimater med standard konjugat oppdatering:
Conan-SNV ytelse (5) (6) Algoritmen fortsetter til hele data logge posteriore ikke lenger øker eller maksimalt antall iterasjoner er nådd. på simulerte data.
Vi simulert ca 1000 stillinger for hver kopi nummer stat å trene modellen og deretter evalueres ytelse i 100 simulerte testsett, som også inneholdt 1000 stillinger per eksemplar nummer tilstand. Posisjoner ble simulert i henhold til en binomial fordeling, hvor ble avledet fra de hyperparameters beskrevet i tabell S1, med dybde simulert fra en Poisson-fordeling. Fordelingen av genotyper i hver av de simulerte kopitall tilstander ble tilfeldig prøvetatt i henhold til (også beregnet fra hyperparameters). De gjennomsnittlige AUC og 95% konfidensintervall, sammen med følsomhet på tre ulike falske positive verdier (0.01,0.05 og 0,1) ble beregnet for hver CNA-stat og er vist i tabell S2. Conan-SNV og SNVMix hadde nesten identisk ytelse i de ulike kopinummer stater, men Conan-SNV hadde forbedret følsomhet i høyeste CN staten. For CN tilstand 5, ved falske positive verdier på 0,01, 0,05 og 0,1, Conan hadde en gjennomsnittlig sensitivitet på 0,77, 0,84 og 0,88, mens SNVMix hadde følsomhet på 0,72, 0,78 og 0,82. Disse resultatene var ikke statistisk signifikant, men de etablere marginal forbedring av Conan-SNV løpet SNVMix uten tap av spesifisitet.
Eksperimentell validering av Conan-SNV modell
For å bestemme sensitivitet og spesifisitet of Conan-SNV på reelle kreftdata, vi brukt modellen til metastatisk lobular karsinom tidligere publisert i [6] og senere gjen sekvensert alle nye spådommer gjort av modellen for å etablere sin nøyaktighet. Genomet ble delt inn i diskrete CNA segmenter ved hjelp av en skjult Markov modell som beskrevet i [6] og viste en variabel CNA landskapet. Som rapportert tidligere, ble 30,2% av genomet spådd som tap /nøytral, 44,5% var gevinst, 19,1% forsterkning og 4,2% høyt nivå forsterkning (se tabell S3). Kopiantallet profilen i overensstemmelse med data fra den utledet fra Affymetrix Snp6 genotyping array (figur 1) som bekrefter at forutsagte regioner av kopitallvariasjoner ikke ble indusert ved Illumina sekvensering-plattformen. Figur 1 viser kromosom 19 og belyser et eksempel på et somatisk høy forsterkning på 19q armen som også demonstrerer en forskyvnings i den alleliske frekvens, bort fra heterozygositet, på grunn av en allel-spesifikk kopiantall forsterkning. Både B-allel frekvensanalyse i tabellens data og allelisk forhold analyse i NGS data understøtter en mono-allelisk forsterkning på 19q i dette genom. En ny analyse av genomet med Conan-SNV skrevet totalt 61643 SNV samtaler i exonic regioner av genomet (NCBI bygge 36.1, Ensembl V51 merknader); sammenlignet mot 58,518 spådommer av SNVMix [21] og 51085 med samtools mpileup variant som ringer [22]. Figur 3 viser overlapping mellom Conan-SNV, samtools og SNVMix spådommer. Totalt 49,966 spådommer var felles for alle tre metodene som tyder rimelig samlet enighet. Men 2,857 spådommer var Conan-spesifikke. I motsetning til dette bare 781 posisjonene var spesifikke for samtools og 64 var spesifikke for SNVMix. Figur 3A viser overlappinger mellom Conan-SNV, samtools og SNVMix. Nøytrale regioner næret 191 Conan-spesifikke spådommer mens Gain, Amplification og High Level Amplifikasjoner næret 977, 589 og 1100 Conan-spesifikke spådommer hhv. Interessant, Conan-SNV kalt flere SNVs i de nøytrale statene sammenlignet med SNVMix tross deler et felles rammeverk. Vi foreslår at eksplisitt betraktning av CNAs i opplæringsfremgangsmåter gjør det mulig å bedre estimering av parametere som ellers ville bli påvirket av allelisk skjevheter i forsterkede regionene (se Metoder). SNVs i regioner av AMP av HLAMP kalt av SNVMix og ikke av Conan-SNV hadde lave dybder. Disse lave dybde sekvenser i regioner av AMP og HLAMP kan gjenspeile grenser oppløsningen av kopiantallet algoritmen. Ved en slik lav dybden binomiske sannsynligheter, for større antall allel-spesifikk kopi nummer genotyper, overlapper og dermed legger mer vekt på det før kalle den endelige genotype (som forutinntatt mot homozygot henvisning genotype).
Skille etter CNA staten viser en berikelse av Conan-SNV konkrete spådommer i GAIN, AMP og HLAMP deler av genomet.
Figur 3A viser at det var en betydelig berikelse av Conan-spesifikke SNVs i CNA forsterkning stater. Fra en fullstendig liste over 2,857 Conan-spesifikke spådommer, vi filtrert ut noen stillinger som var til stede i dbSNP V130 og senere identifisert et sett av 140 proteinkodende, ikke-synonyme substitusjons SNVs kandidater for validering av målrettet, ultra dypt amplicon sekvensering (vist skjematisk i figur 4) i den metastatiske og primære (fra ni år tidligere) tumor-genom-DNA, så vel som den normale buffy coat-genom-DNA fra den samme pasient. Totalt 52 SNVs kan ikke løses på grunn av PCR fragment feil under validering, forlater 88 igjen for videre analyse. Tabell 1 viser 21/125 (23,9%) nye, koding, ikke-synonyme somatiske mutasjoner som ble validert av dyp amplicon sekvensering. For alle disse somatiske varianter, deres spådd genotypene var svært skjev mot referanse allel og hadde en mest sannsynlig genotype av AAB, aaab eller aaaab (tabell 1). Disse amplikonene som genereres et gjennomsnitt av leser som representerer det mutante allel i den metastatisk genomet (med en gjennomsnittlig dybde på dekning av 96 669), mens den normale genomet for amplikonene hadde en gjennomsnittlig mutant allel frekvens på og en midlere dybde av dekning av 71963. Legg merke til at bare en somatisk mutasjon, K187M i ZNF607, et sink-finger-protein putatively involvert i transkripsjonsregulering, ble også bekreftet i den primære tumor. Dette støtter konklusjonen fra [6] at bare noen få mutasjoner stede i metastatisk tumor var til stede i det primære ved diagnose, og dermed var kandidat bilførere tumorigenesis. I tillegg har vi identifisert 42 (47,7%) kimlinje-varianter, hvor den SNV var til stede i både normal og metastatisk DNA. Til slutt, 20 (22,7%) posisjoner klarte å validere som SNVs og ble ansett som falske positive spådommer. Fem stillinger (5,68%) var mangelfulle fordi ulikhet i dybden av dekning mellom normale og metastatisk tumor validering av data var for stor til å trekke konklusjoner. En full oversikt over alle 140 stillinger er tilgjengelig i tabell S4. Potensialet funksjonelle effekten av hver av de 21 somatiske mutasjoner ble vurdert ved hjelp MutationAssessor (https://mutationassessor.org), og er presentert i supplerende materiale.
Under heterozygot allelet overflod kan resultere fra sub-dominerende populasjoner av celler eller ulik allel forsterkning i områder av kopiantall aberrasjon. For eksempel vil fortrinnskopiantall forbundet amplifisering av et villtype-allel resultere i mindre enn heterozygote forhold på en somatisk mutant allel. Spesielt, var gjennomsnittlig overflod av de nye somatiske SNVs fra valideringsforsøk ovenfor, var med fire mutasjoner (som påvirker genene
NCF2
,
IPO9
,
ZNF480 Hotell og
ZSCAN22
) oppviser en andel på mindre enn 10%. Uten hensyn til kopitall status, er sannsynligheten for en ikke-referanse arrangement ville bli ned-veid, noe som fører til tap av følsomhet. Videre kan germline allele forholdstall hjelpe bekrefte om kopiantallet segmentet involvert er hovedsakelig mono-allel. Vi undersøkte allele forholdstall for alle informative stillinger i CNA segmenter analysert. Vi fant sytten av 42 validert kimcellelinje varianter også utstilt betydelig allel skjevheter, som fremhevet i tabell 2 (se Methods). Spesielt germline varianter i posisjonene chr19: 40691038, chr19: 42074256, chr19: 50869860 og chr19: 59415177 innen det høye nivået amplicon på chr19 hadde allele distribusjoner i svulsten som ble forskjøvet vesentlig bort fra sin normalfordeling (Chi Sq test,). Disse germline SNPs er proksimalt for somatiske mutasjoner K187M i
ZNF607
, E24 * i
PRR19
, Q311 * i
ALDH16A1
, E16Q i
ZNF480
, V328M i
LILRA2
, og G348E i
ZSCAN22
. Det mulige antall forklaringen på disse funnene er at somatiske mutasjoner var en senere hendelse, men det er ikke kjent om de forekommer på en av de amplifiserte kromosomer eller rest unamplified søster kromosom. En annen validerings prosedyren ville være nødvendig for å gjøre denne slutning. Dette støttes av ytterligere 424 SNVs innenfor 19q høyt nivå fragment (chr19: 24301089-63793263 se tabell S5) som ble spådd å være enten aaaab eller abbbb av Conan-SNV, men ble ikke sendt for forlengelse. Berikelse av skjeve
germline
alleler i områder med betydelig kopi nummer endring gjengir mulig forklaring på allel forvrenger av somatiske varianter i de samme regionene knyttet til tumor-normal blanding ekstremt usannsynlig. Til slutt, spådde OncoSNP https://groups.google.co.uk/group/quantisnp/web/downloads-oncosnp algoritmen en ubalansert forsterkning spenner chr19: 32439833-63789666 (figur S1) i tilsvarende Affymetrix SNP 6,0 data. Dette segmentet ble spådd av OncoSNP å inneholde 638 varianter, og 591 varianter, støtter konklusjonen i et allel-spesifikk forsterkning i 19q. Interessant, allel frekvensen av K187M i
ZNF607
, den eneste somatiske varianten funnet i primærtumor (16,67%) ble konsekvent i metastatisk tumor (15,25%), noe som tyder på at de andre 19q mutasjoner oppsto senere i svulst evolusjon.
Conan-SNV henter mer sanne positive uten at det går samlet nøyaktighet.
Vi vurderte ytelsen ved å evaluere arealet under mottaker operatør karakteristikk (AUC) for Conan-SNV og SNVMix. Stillingene som brukes som første sannheten ble hentet fra en Affymetrix SNP 6,0 stillinger genotypet ved hjelp CRLMM [23] og i tillegg med OncoSNP (se Methods). Selv om høy tillit CRLMM samtaler hadde vært tilstrekkelig som målestokk for SNVMix i [21], er det viktig å merke seg at CRLMM foruts diploidy og dets samtaler vil derfor bli beriket for heterozygote stillinger som nærmer forventede allele distribusjoner for diploide genomer. OncoSNP omvendt, utvider sin topp plass til genotyper indusert av CNA hendelser og kan derfor fange allel-spesifikk presiseringer. Som tidligere nevnt, OncoSNP samtaler var konkordant med NGS data og støttet den oppfatningen at kromosom 1 og 19 har allel-spesifikk presiseringer (Tabell S6 og Figur S1).
ROC resultater for OncoSNP tyder på at Conan-SNV og SNVMix utføre på samme måte, bortsett fra i områder med høyt nivå amplifikasjoner (se figur 5). AUC for SNVs i regioner av GAIN var 0,998 for SNVMix og 0,999 for Conan-SNV. For forsterkning og høyt nivå forsterkning, AUC var (0,998, 0,999) og (0,991, 0,998) hhv. Undersøkelse av nedbryting av samtalene (Tabell S7) vi fastslå at Conan-SNV kaller mer sanne positive samlet, sammenlignet med SNVMi1, som også ble observert i simuleringen datasettet, men er også utsatt for å ringe flere falske positiver. Nærheten av AUC målinger tyder på at falske positiver introdusert av Conan-SNV ikke oppveier de ekstra sanne positive hentet. ROC for HLAMP er svært forskjellig fra de andre, på grunn av SNPs næret i allel-spesifikk CNA regioner i kromosom 1 og 19 som ikke kunne oppdages av SNVMix.
CRLMM resultatene er en målestokk for varianter som er lett å oppdage ved SNVMix. Arealet under ROC kurve beregninger indikerte at Conan-SNV utfører samme måte SNVMix for disse stillingene (Figur S2). AUC for SNVs i regioner av GAIN var 0,979 for SNVMix og 0,975 for Conan-SNV. For forsterkning og høyt nivå forsterkning, AUC var (0,991, 0,990) og (0,911, 0,928) hhv. Dette tyder på at den økte følsomheten vunnet av Conan-SNV ikke kompromittere sin samlede nøyaktigheten i forhold til SNVMix, som også ble demonstrert ved hjelp OncoSNP å vurdere ytelsen.
Conan-SNV ytelse på en hvilende tumor.
genomisk landskapet av en svulst varierer på tvers av ulike krefttyper. Conan-SNV gjelder svulster med hvilende genomarkitektur samt de med mer forstyrret Karyotyper; å demonstrere dette vi vurdert Conan-SNV prestasjoner i en lymphoma svulst opprinnelig publisert i Morin et al [24] hvor 71,9% av genomet ble spådd som tap /nøytral, 22,1% var gevinst, 4,30% forsterkning og 1,67% på høyt nivå forsterkning (se metoder). Vi brukte Conan-SNV, SNVMix samt samtools å profilere mutasjons landskapet av lymfom svulst genomet; hver metode funnet 62,162, 61352 og 47,164 varianter henholdsvis (figur 3B). For denne tumor, en tilnærmet 30 x dekning WGSS datasett for treff-normal DNA var tilgjengelig, for derved å tillate den konstatering av somatiske mutasjoner direkte fra selve dataene. Totalt 782 varianter var unik for Conan-SNV, ellers var det stor grad av enighet mellom alle tre metoder (figur S4). Vi brukte mutationSeq programvare for å bestemme tilstedeværelsen av somatiske varianter (se Metoder). Dette ga 392, 365 og 228 somatiske mutasjoner for Conan-SNV, SNVMix og samtools (Tabell S8). Av de 228 somatiske spådommer fra samtools, ble 221 også funnet av Conan-SNV; og alle 365 somatiske spådommer fra SNVMix ble funnet av Conan-SNV (figur S4). Tilstedeværelsen av unike somatiske varianter å Conan var nesten utelukkende i områder av kopiantallet GAIN (19/22).