PLoS ONE: SomatiCA: Identifisere, karakterisere og kvantifisere Somatic Kopier nummer Avvik fra Cancer Genome Sequencing data

Abstract

Hele genomsekvensering av passet tumor normal prøve parene blir rutine i kreftforskning. Imidlertid er analyse av somatiske kopinummer endringer fra sekvense data fortsatt utfordrende på grunn av utilstrekkelig sekvense dekning, ukjent tumorprøve renhet og subclonal heterogenitet. Her beskriver vi en beregnings rammeverk, oppkalt SomatiCA, som eksplisitt står for svulst renhet og subclonality i analysen av somatiske kopinummer profiler. Tar leser dybder (RD) og mindre allelfrekvenser (LAF) som input, SomatiCA vil produksjonen 1) blanding rate for hver tumorprøve, 2) somatisk allel copy-nummer for hver genomisk segment, 3) fraksjon av tumorceller med subclonal endring hver somatisk kopi antall avvik (SCNA), og 4) en liste over betydelige genomisk aberrasjon arrangementer, inkludert gevinst, tap og LOH. SomatiCA er tilgjengelig som en Bioconductor R pakke på https://www.bioconductor.org/packages/2.13/bioc/html/SomatiCA.html

Citation. Chen M, Gunel M, Zhao H (2013) SomatiCA: Identifisere, karakterisere og kvantifisere Somatic Kopier nummer Avvik fra Cancer Genome Sequencing data. PLoS ONE 8 (11): e78143. doi: 10,1371 /journal.pone.0078143

Redaktør: Jörg D. Hoheisel, Deutsches Krebsforschungszentrum, Tyskland

mottatt: 31 juli 2013; Godkjent: 07.09.2013; Publisert: 12.11.2013

Copyright: © 2013 Chen et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne forskningen ble støttet av NIH stipend R01 GM59507. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet. Ingen ekstra ekstern finansiering ble mottatt for denne studien

Konkurrerende interesser:. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

I løpet av kreftutvikling, er det ofte endringer av. doseringen og /eller struktur av tumorsuppressorgener eller onkogener i kreftceller ved somatiske kromosomale endringer. Identifisere genomiske regioner med tilbakevendende eksemplar nummer endringer (gevinster og tap) i kreft genomer er en effektiv måte å finne kreft driver gener [1]. Ideelt sett bør en slik karakterisering omfatter både presis identifisering av kromosomstoppunkter for hver endring og den absolutte estimering av kopiantall i hver kromosomsegment. Tidligere studier brukes oligonukleotid mikromatriser å antyde genomkopinummerendringer. Nylige fremskritt i massivt parallell sekvensering gir et kraftig alternativ til DNA-mikromatriser for å detektere kopinummer endringer [2]. Fordelene ved sekvensebaserte tilnærminger inkludere sin omfattende og upartisk undersøkelse av alle genomiske variasjoner [3] og evne til å gjenkjenne både eksemplar nummer avvik (CNAS) og single nucleotide variasjoner (SNVs) samtidig i hver prøve, som tilbyr viktig informasjon for vår forståelse av kreft genom evolusjon

Mange algoritmer har blitt utviklet for å oppdage kopi nummer variasjoner (CNVs) fra hele genomet eller exome sekvense data, for eksempel metoder ved hjelp av rå lese grundig [2] -. [5], lese- pair justering [6], [7], split-lese kartlegging [8], [9] og montering baserte (AS) metoder [10], [11]. Imidlertid er disse fremgangsmåter ikke er godt egnet til å utlede absolutt somatisk kopitall, fordi de er utviklet for å analysere data fra normal stedet for tumorprøver. Sammenlignet med normale prøver, viste prøver tatt har noen unike funksjoner, inkludert: (i) en ukjent brøkdel av normale celler (blanding rate) som er nesten alltid blandede med kreftceller; og (ii) heterogeniteten av kreftcellepopulasjon på grunn av pågående subclonal evolusjon. Selv om noen metoder har blitt utviklet for Somatisk CNA (SCNA) identifikasjon i hele kreftgenomsekvensering, de fleste av dem ikke eksplisitt modell svulst renhet [12], [13]. For de som sto for svulst renhet, ExomeCNV [14] anslår blanding rate basert på de største tap av heterozygositet (LOH) region i et genom, noe som trolig gir en partisk estimering. En mer vanlig alternativ i ExomeCNV en standardinnstilling på 0,3 for blandingen hastigheten er. Kontroll-FREEC [15] krever en forutgående spesifisering av den normale forurensning nivå eller et forhåndsspesifisert ploiditet for å estimere den normale forurensning gjennom median forskyvning av kopiantall i endrede områder mot den normale grunnlinjen. Begge metodene har lav toleranse for forurensning. Algoritmer utviklet på arrayCGH data, for eksempel ASCAT [16] og ABSOLUTE [17], er spesialisert til å anslå tumor renhet, men gir ikke et helhetlig rammeverk for subclonality identifikasjon eller segment ringer.

Her presenterer vi SomatiCA, en roman rammeverk som er i stand til å identifisere, karakterisere og kvantifisere SCNAs fra kreft genomsekvensering (figur 1). Ved direkte regnskap for svulst renhet og subclonality ble SomatiCA spesielt utviklet for å analysere tumorprøver med forurensning og /eller heterogenitet. Først SomatiCA segmenter genomet og identifiserer kandidatens CNAs utnytte både lese dybder (RD) og mindre allelfrekvenser (LAF) fra kartlagt leser. For det andre, anslår SomatiCA tilsetningshastigheten fra de relative kopitall forhold av et tumor-normal par av en bayesisk endelig blanding modell, som har høy toleranse på forurensning fra normale celler. Til slutt, kvantifiserer SomatiCA somatisk kopitall og subclonality for hver genomisk segment for å styre dens karakterisering. Resultater fra SomatiCA kan bli ytterligere integrert med SNVs fra samme sekvense eksperiment for å få en bedre forståelse av svulst evolusjon.

Først SomatiCA segmenter genomet og identifiserer kandidatens CNAs utnytte både lese dybder (RD) og mindre allelfrekvensene (LAF) fra kartlagt leser. For det andre, anslår SomatiCA tilsetningshastigheten fra de relative kopitall forhold av et tumor-normal par av en bayesisk endelig blanding modell, som har høy toleranse på forurensning fra normale celler. Endelig kvantifiserer SomatiCA somatisk kopitall og subclonality for hver genomisk segment for å lede sin karakteristikk.

Resultater

segmentering strategi i SomatiCA

Selv om neste generasjons sekvensering ( NGS) teknologi genererer data med høyere oppløsning enn SNP arrays og utvalg komparativ genomisk hybridisering (aCGH), signalet er komplisert av mappability, GC-innhold, justering skjevhet og andre problemer [15]. Dette gjør analyse av NGS data ikke bare en direkte tilpasning av eksisterende metoder på aCGH men en utvidelse som krever ekstra pleie av mange faktorer som påvirker dataanalyse og tolkning. For eksempel, etter kvalitetskontroll og de-noising, mange eksisterende NGS CNV ringer verktøy direkte anvende metoder som er utviklet for aCGH data [14]. Men da vi søkte CBS [18], en vanlig metode for aCGH data, fant vi det var veldig følsom for svingninger i NGS signaler og rapportert giringspunktene sannsynlig å være falsk positiv (se simuleringsresultatene).

I derimot implementerer SomatiCA en utjevningsbasert de-noising trinn for å redusere virkningen av avvikende verdier fra inngangs LAF (figur S1). Gitt de første giringspunktene oppdaget av CBS, vi implementert et varierende utvalg prosedyre for å fjerne endringspunkter som er sannsynlig å være falske positiver. Dette gjøres i SomatiCA ved hjelp av CBS oppdaget endringspunkter som prediktorer for innspill LAF og deretter utføre varierende utvalg via Bayesian Information Criterion (BIC) basert på en LARS [19] løsning banen. For de valgte giringspunktene, SomatiCA videre vurderer om de fange opp endringer i somatiske kopi tall. For å kvantifisere disse endringene, definerer vi somatisk forholdet som RD forholdet mellom svulsten til den sammenkoblede normalt i et segment (med identisk dekning i svulsten og normal prøve antatt). SomatiCA kommer en Maximum Likelihood Estimate (MLE) av somatisk ratio for hvert segment ved hjelp av RD informasjon fra alle sammenkoblede SNPs i det segmentet. To tilstøtende segmenter flettes hvis forskjellen i de somatiske forhold er mindre enn T, som er en avstemningsparameter i gjennomføringen med en standardverdi på 0,05, tilsvarende 5% forandring i somatisk kopitall uten normal forurensning. De mles av somatisk forhold for raffinerte segmenter er beregnet på nytt. Dette raffinement prosedyren brukes flere ganger til ingen tilstøtende segmenter har somatisk forholdet forskjellen mindre enn T. I SomatiCA, informasjon fra både germline heterozygot og homozygot SNPs er utnyttet. LAF på heterozygote områder anvendes i den innledende segmentering. RD på heterozygote og homozygote nettsteder brukes til å beregne de somatiske forhold.

Simulering Strategy

Vi utfører simuleringer for å vurdere den statistiske kraften i SomatiCA og for sammenligninger med andre metoder. I fravær av validerte biologiske datasett, kan slike simuleringsstudier gi innsikt i fordeler og ulemper med ulike metoder. Imidlertid, på grunn av kompleksiteten av genomet og sekvensering prosess, for eksempel den ikke-ensartet fordeling av RD over hele genomet i NGS, er det ikke er trivielt å simulere kreft sekvensering av data som fanger kompleksiteten i reelle NGS-data. Inspirert av Ivakhno et al [12], vi utnyttet en normal prøve (betegne som GLI-N1, upubliserte data) for å simulere kreft sekvense data som følger (skript i Tekst S1):

Dupliser RD og mindre allel teller fra GLI-N1 prøven.

for hver 10 kb genomisk vindu, anslå median og standardavvik av RD av alle områder og mindre allel teller alle heterozygot nettsteder.

på forhånd bestemt posisjonene, plasser SCNA hendelser som strekker seg fra 10 kb til et helt kromosom, med varierende størrelser av endringer, inkludert doble slettinger, LOH, 1 og 2 kopitall gevinster (samt ulike subclonalities inkludert 20% og 40%). Hver aberrasjon inneholder minst 5 heterozygot nettsider.

Simuler SCNA hendelser ved å endre medianer i samsvarer med vinduer.

Simuler RD og mindre allel teller i SCNA hendelser vinduer gjennom normalfordelinger med midler lik endret medianer resulterte fra trinn 4) og standardavvik lik estimatene fra trinn 2).

Admix pseudo kreft teller og normale teller med en gradient av blandingen rate, 0,2, 0,4 og 0,6.

i tillegg til selve RD rapportert i Telenor-N1 (-60 ×), simulere lese dypet av 40 × og 20 × ved tilfeldig fjerne en del av lyder.

i alt vi simulert 90 kreft genomer (3 tilsetningsstoff priser * 3 dekning * 10) og hver av dem inneholdt 40 SCNAs.

SomatiCA effektivt reduserer falske positive i segmentering

Vi søkte SomatiCA til disse simulerte data til evaluere resultatene for SCNA deteksjon under forskjellige scenarier. Vi sammenlignet ytelsen med CBS og cumSeg [20], en lignende segmentering metoden bruker modellvalg for å identifisere endringspunkter med en annen innledende overdeteksjonstrinnet. For bedre sammenligninger, vi brukt samme utjevning og raffinement prosedyre som gjennomføres i SomatiCA for både CBS og cumSeg. Tatt i betraktning at CBS og cumSeg ikke justerer for blanding hastighet, brukte vi en skånsom kriterium for å avgjøre om en SCNA samtalen var en positiv oppdagelse. Hvis somatisk ratio var mindre enn 0,8 eller større enn 1,2, ble det tilsvarende segment rapportert som en genomisk region med somatisk gevinst eller tap. For en ekte positiv SCNA samtale, krevde vi oppdaget stoppunkter innen 100 kb sanne seg.

Totalt CBS og SomatiCA utkonkurrerte cumSeg i sensitivitet på å oppdage SCNAs større enn 1 Mb (figur 2). Men CBS hadde 30% falske positive samtaler mens SomatiCA oppnådd høyere presisjon. Videre CBS tendens til å over-oppdage stoppunkter på samme endring. I gjennomsnitt CBS rapporterte 1,82 segmenter for en ~ 1 Mb arrangement og 3,15 segmenter for en ~ 10 Mb hendelser. I kontrast, SomatiCA og cumSeg rapporterte 1,01 og 1,07 segmenter for SCNAs større enn 1 Mb. Forbedringen skyldes modellvalg skritt for endringspunkter som fjerner de viser små svingninger, noe som mer sannsynlig resultat fra samme avvik.

Oppsummering av presisjon og følsomhet over 90 simulerte kreft genomer med forskjellige tilsetningsstoffer priser og dekning . CBS og SomatiCA utkonkurrerte cumSeg i sensitivitet på å oppdage SCNAs større enn 1% falske positive samtaler mens SomatiCA oppnådd høyere presisjon. For SCNAs mindre enn 1 Mb, CBS fortsatt opprettholdt en høy sensitivitet på 98%, men over 60% av CBS samtaler var falske positiver. Både SomatiCA og cumSeg brukt modell utvalg for å effektivt redusere falske positive med noen kompromisser på følsomhet.

For SCNAs mindre enn 1 Mb, CBS fortsatt opprettholdt en høy sensitivitet på 98%, men over 60% av CBS samtaler var falske positiver. Både SomatiCA og cumSeg brukt modell utvalg for å effektivt redusere falske positive med noen kompromisser på følsomhet. SomatiCA oppdaget 83% simulerte SCNAs mens cumSeg bare tatt 10%. Vi merker oss at penalization gjennom modellvalg er bare en av mange årsaker til lavere følsomhet i mindre SCNAs identifikasjon. Fordi SomatiCA segmenter genomet kun basert på LAF fra heterozygote områder, kan det overse avvik med færre heterozygote nettsteder. På kromosomer 3 til 15 i GLI-N1 prøve, som vi brukte som mal for simulering, avstandene mellom nabo heterozygote områder varierte fra 5 bp (1% quantile) til 17 036 bp (99% quantile) med en median på 453 bp . Antallet heterozygote områder innenfor de uoppdaget SCNAs varierte 6-76 med en median på 22. sterk avhengighet av antallet heterozygote områder er en stor ulempe med alle tilnærminger ved hjelp av LAF (eller BAF) i kromosom segmentering. Nonuniform dekning og feil signal i sekvensering av data gjør det utfordrende å lage slutning med bare noen få markører. I praksis foreslår vi å bruke RD baserte metoder som komplementære tilnærminger til å dekke et bredere spekter av SCNA hendelser (som utdypet mer i diskusjonen).

Når forurensningen fra normale celler økt over 50% (blanding rate = 0,6), alle tre metodene led i kraft og presisjon på detektere kopi tap eller gevinst. For eksempel, når blandingen rate er 0,6, er den forventede somatisk ratio for en kopi tap og én kopi gain 0,8 og 1,2. Dermed cutoff verdiene som brukes i de foregående sammenligninger kan være for strengt å identifisere SCNA hendelser. Dette tyder på viktigheten av å justere parametere for blandingen rate i SCNA kall.

Eksplisitt modellering av innblanding rente

Som vi har nevnt, en ukjent brøkdel av normale celler og heterogenitet av kreft cellepopulasjonen er to faktorer som krever spesiell oppmerksomhet i analysene av tumorprøver. Vi begynner med å forklare hvordan blanding rente ville påvirke SCNAs ringer ved hjelp av et hypotetisk eksempel. For en tumorprøve med 0, 1, 3 og 4 kopier på ulike kromosomsegmenter er blandet med 40% av en sammenkoblet normal prøve med 2 eksemplarer, de forventede somatiske forhold er 0,4, 0,7, 1,3 og 1,6, henholdsvis. Uten justering for blanding rente, ville de inferred kopi tallene være henholdsvis 1, 2 (eller 1), to (eller tre), og 3,. I dette tilfellet ville doble slettinger bli feilaktig kalt som Lohs, mens sanne Lohs ville være nesten umulig å oppdage noe som resulterer i unøyaktig slutning på kopiantall. Et sentralt observasjon her er at det er en samlet forskyvning av de forventede somatiske forholdene fra de som er uten noen forurensning, og denne generelle forskyvning kan bli anvendt for å utlede blanding hastighet. Men det er to komplikasjoner å kapitalisere på denne observasjonen: først, hvilke typer SCNAs er ukjent (f.eks det er 4 typer i vår hypotetisk eksempel); sekund, kan tilstedeværelsen av subclonal SCNAs ytterligere komplisere den somatiske forholdet mellom profilen og følgelig påvirke kopiantall. For å løse disse problemene i et helhetlig måte, har vi utviklet en sannsynlighetsmodell under full bayesiansk rammeverk som beskrevet nedenfor.

Den grunnleggende ideen bak blanding hastighet estimering i SomatiCA er at de somatiske prosenter av klonale segmenter er sentrert rundt en viss diskret nivå, mens de av subclonal segmenter har ingen begrensninger. Derfor basert på sin somatiske forhold, kan hver genomisk segment enten tildeles et heltall kopitall eller klassifisert som en subclonal hendelse. Andelen av blandede normale celler kan estimeres fra forskyvning av somatiske forhold på klonale SCNAs fra sine forventninger i de rene og homogene tumorprøver. For å oppnå dette, må vi først estimert det mest sannsynlige antall komponenter fra inngangssomatiske forholdet fordeling, og deretter monteres et bayesisk endelig blanding modell for å tildele kopitallet for hvert segment av den respektive bakre sannsynlighet, og til slutt vi beregnet blandingen hastighet ved hjelp av en optimal løsning bidratt med forklaring på kopien antall skift av alle klonale segmenter fra heltall nivåer.

Vår modell er lik ABSOLUTE [17], en Gaussian blanding modell for å identifisere svulst renhet og ploiditet på arrayCGH eller low-pass sekvense data, med de store forskjellene på antakelser blir: 1) ABSOLUTE forutsetter en jevn fordeling på subclonal hendelser; i SomatiCA, er subclonal hendelser identifisert basert på de bakre sannsynligheter, dvs. avgang fra heltall kopiantall; 2) ABSOLUTE begrenser genomisk massen fordeles på hver kopi-stat mens SomatiCA ikke. Videre disse to metodene tar forskjellige mengder som input. ABSOLUTT tar kopi-forholdet som input, en mengde som måler den lokale DNA dosering kondisjone på Aneuploidy av tumoren, mens SomatiCA bruker somatiske forholdet, som er et absolutt mål mellom normale og tumorprøver uten kondisjonering på den globale mål på tumor ploiditet (identisk dekning for to bibliotekene er antatt). Bruken av somatiske forholdet frigjør SomatiCA fra estimering av ploiditet. I stedet for å søke alle mulige kombinasjoner av ploidiresultat og blanding rate, SomatiCA bare søker etter en løsning av blanding hastighet med somatiske forhold på en tilsvarende heltallet kopi antall 2.

Vi har evaluert resultatene av vår metode med 90 simulerte kreft genomer. SomatiCA generert nøyaktig estimering av blandingen rate selv når dekningen var så lav som 20 ×. Til sammenligning har vi også beregnet blandingen renten med ABSOLUTE og en variant av ASCAT. ASCAT bruker BAF og logR forhold (condition på Aneuploidy av svulsten) for å estimere tumor ploiditet og renhet, som ikke er direkte relevant for våre data. I våre sammenligninger, vi brukte en variant av ASCAT algoritme som opprettholdt de viktigste funksjonene: vi beregnet den totale avstanden til en allel heltall kopi nummer løsning for hvert segment og summert over alle segmenter; Da vi søkte på en løsning av blandingen sats som minimert den totale distansen. For ABSOLUTE, blant topp fem mulige kombinasjoner av blanding hastighet og ploiditet (med sannsynlighet), valgte vi den med kopi forholdet mellom en tilsvarende heltallet kopi nummer 2 som den endelige løsningen. Resultatene er oppsummert i Figur 3 viser at SomatiCA har en sammenlignbar ytelse med ABSOLUTE og utkonkurrerer ASCAT.

Både SomatiCA og ABSOLUTE utkonkurrerer ASCAT-variant. SomatiCA oppnår sammenlignbar ytelse som ABSOLUTE med få begrensninger og mindre beregningskapasitet.

Vi tror to grunner bidratt til bedre ytelse av SomatiCA forhold til ASCAT-variant. Først anslår ASCAT heltallet kopiantallet for hvert segment ved hjelp av det hele tall som ligger nærmest den observerte somatisk alleliske kopi. Når blandingen er høy, er denne tilnærming problematisk. For eksempel, når blandingen rente er 0,6, den somatiske kopi av dobbelt sletting er 1.2. Heltallet kopitallet for denne doble sletting arrangementet er tildelt som en i stedet for 0. I motsetning til dette SomatiCA forhånds beregner antall mulige diskrete nivåer fra histogrammet av de somatiske forholdstall og tildeler heltallet kopitall basert på rekkefølgen av sin diskrete nivået med nivået på to eksemplar som referanse. Derfor er det fortsatt er i stand til å estimere absolutte kopiantallet godt med stor nøyaktighet når blandingen er høy. For det andre, optimaliserer ASCAT over hele SNPs, mens SomatiCA tar hensyn til påvirkning av intra-tumor subclonal heterogenitet og bare optimaliserer løpet klonale hendelser. Denne tilnærmingen kompenserer for undervurdering fra optimaliseringen med alle segmenter.

Dessuten oppnår SomatiCA sammenlignbar ytelse som ABSOLUTE med få begrensninger og mindre beregnings byrde. SomatiCA ikke begrense genomisk massen fordeles på hver kopi-stat, eller den relative andelen av subkloner. Potensielle subkloner, identifisert av lave bakre sannsynligheter, er utelukket fra blanding hastighet estimering. Med antagelsen om kopien forhold på 1 svarende til heltallet kopiantallet av 2, SomatiCA optimaliserer bare over en parameter – blanding hastighet, noe som reduserer belastningen av samtidig estimering av blanding hastighet og ploiditet. Den gjennomsnittlige CPU driftstid for blandingen hastighet estimering i SomatiCA er 27,5 sekunder (5000 MCMC trinn), mens det for ABSOLUTE (ploidiresultat varierte 0,95 til 4) er 450 sekunder. I SomatiCA kunne ploiditeten anslås ved gjennomsnitt kopitall over genomet etter justering for blandingen rate.

Vi videre så inn de simulerte genomer med høye normale forurensninger hvor blandingen hastigheten var 0,6. Vi utledes kopiantallet for SCNAs oppdaget fra disse simulerte genomer med justering ved hjelp av estimert blanding rente fra SomatiCA, og sammenlignet resultatene med kopi nummer utledes uten justering, og de med justering ved hjelp av en blanding rate på 0,2 og de som bruker 0,4. Som vist i Figur S2, estimering fra SomatiCA bidratt til å øke nøyaktigheten av inferred kopi nummer slutning for SCNAs forhold til å sette blanding hastighet på forhåndsdefinerte (og feil) nivåer.

Subclonality karakterisering

tilstedeværelsen av genetiske mangfoldet innen tumorprøver, det vil si subclonality, gir viktige ledetråder til tumor evolusjon. Nøyaktig slutning av kopiantall status gjennom justering av blanding hastighet gir muligheter for SomatiCA å identifisere subclonal endringer på bakgrunn av de dominerende seg. SomatiCA karakteriserer subclonality for hvert segment gjennom å utføre hypotesetesting. Den beregner først kopiantallet for hvert segment i kontrollprøven normal. Deretter tester hvorvidt det kopiantall endring i den tilsvarende tumorprøve kan resultere i en endring av nøyaktig en kopi av en allel. I vår simulering studie som er lagt vi 4~5 SCNAs (større enn 10 MB, subclonal prosent på 0,2 eller 0,4) på ​​kromosom 12 til 15 i hver simulerte kreft genom. Totalt for hver kombinasjon av blanding hastighet og dekning, er det 46 sanne positive subclonal arrangementer over ti simulerte kreft genomer. De subclonal samtaler fra andre kromosomene er falske positiver, som følge av enten en undervurdering av klonal hendelser eller en feilklassifisering av kopiantall nøytral hendelse. Når blandingen hastighet er 0,2 eller 0,4, SomatiCA gjenvinnes 87% av sanne subclonal hendelser (40 av 46) og rapporterte 8 falske positiver i gjennomsnitt. Når blandingen rente er 0,6, var SomatiCA fortsatt i stand til å gjenopprette 84% av sanne subclonal hendelser, men rapporterte 20 falske positiver. 95% av falske positiver subclonal hendelser er feilklassifisert fra eksemplar nummer nøytrale hendelser. Dette resultatet indikerer at SomatiCA oppnår høy presisjon på å oppdage klonale hendelser. Men når blandingen rente blir høyere, ville flere falske positive samtaler komme ut feilklassifisering av eksemplar nummer nøytrale hendelser.

Søknad til TCGA benchmark 4 data

Vi brukte TCGA mutasjon ringe referanse 4 datasett til evaluere resultatene av SomatiCA og andre på reelle data. Det hele genomet sekvensereferansesettet er ideell for en slik vurdering fordi den består av kunstig blandede prøver med andelen av tumorprøver i en gradient fra 20% til 95%. Vi fokuserte vår analyse på 7 blandede HCC1143 prøver sekvensert 30 × (tabell 1). For hver blandet prøve, vi urfremført segmentering implementert i SomatiCA og beregnet de somatiske forhold ved hjelp HCC1143 30 × normal prøve som matchet par. Vi justerer medianen av svulsten biblioteket slik at medianer av to var de samme. Da vi innførte somatiske forhold til SomatiCA, ASCAT-variant og absolutt. For hver prøve, ABSOLUTE utgang 19 mulige kombinasjoner av blanding hastighet og ploiditet (til lov rekke ploidiresultat sett være 0,95 til 4) som dekket et bredt spekter. Ta prøve HCC1143.n60t40 som et eksempel (60% normale celler blandet med 40% tumorceller), er estimert blanding hastigheten varierte 0,32 til 0,84. For å matche den underliggende antakelsen i SomatiCA, vi manuelt valgte ABSOLUTE løsninger med kopi forholdet mellom en tilsvarende heltallet kopi nummer 2 (eller). Men vi oppmerksom på at utvalgte ABSOLUTE løsningene under slike kriterier er mer nøyaktige enn løsninger med topp SCNA-fit log-sannsynlighet poengsum. Vi oppsummerer de beskrevne beregninger i tabell 1. Samlet har SomatiCA en sammenlignbar ytelse til ABSOLUTE. Både utkonkurrere ASCAT-variant. I tre replikate prøver med 25% forurensning fra normale celler (men forskjellig spike-in SNVs innført), SomatiCA produsert mer presise og stabile estimater. Dette resultatet tyder på at korrespondanse fra 1 til heltall kopi nummer 2 kan være en rimelig antakelse å gjøre i kreft sekvense data med en sammenkoblet normal prøve sekvensert ved en tilsvarende dybde.

Etter å ha justert for estimert blanding rate, brukte vi SomatiCA å kalle SCNAs for disse prøvene. Figur 4 viser somatisk kopiantall og subclonality preget for 7 prøver vi analysert. Resultatet er konsistent over prøver med forskjellige blandingsforhold av normale celler, noe som viser hvor robust SomatiCA til ulik grad av forurensning. Men på grunn av den potensielle modellen overtilpassing og uunngåelig identifiability problemet, SomatiCA rapporterer ikke noen blanding rente over 80%. For TCGA benchmark fire prøve HCC1143.n80t20 og HCC1143.n95t5 (blandet med 80% og 95% normale celler), SomatiCA bare rapportert segmentering resultater uten å justere for innblanding rate.

kall resultatet er konsistente på tvers av prøver med forskjellig blande andel av normale celler, noe som viser hvor robust SomatiCA til ulik grad av forurensning.

Bruk av SomatiCA til en GBM prøve

Vi søkte SomatiCA til hele genomsekvensering av data på Complete Genomics plattformen av en pasient diagnostisert med primær glioblastom (GBM) (upubliserte data). I figur S3 og S4, viser vi den segmentering fra SomatiCA og dens forhold til CBS og cumSeg hjelp kromosomer 7 og 10 henholdsvis. Estimert blanding sats for denne prøven var 37,1%. Justert for innblanding rente, identifiserte vi 121 SCNAs med størrelser fra 3428 bp til et helt kromosom. Disse SCNAs inkludert en kopi gevinst på hele kromosom 7, en kopi gevinst for hele kromosom 9, og begge Lohs og kopi nøytral Lohs på kromosom 10. Vi ytterligere sammenlignet disse SCNAs med 20 kjente GBM drivere oppført i [21], og fant at disse SCNAs viste overlapp med 15 av 20 kjente GBM drivere. Blant disse er forsterkning på CDK6, EGFR og MET, og sletting på NF1 er klonal mens andre hendelser er subclonal.

Diskusjoner

I denne artikkelen har vi beskrevet en ny beregnings rammeverk, SomatiCA, for å identifisere SCNAs fra kreft-sekvenseringsdata. Den ble utviklet for å håndtere forurensning og heterogenitet i tumorprøver, to store utfordringer i kreftgenomanalyse. Omfattende simuleringer har vist bedre ytelse av våre metoder enn de eksisterende

SomatiCA har blitt implementert som fire funksjonelle moduler i R:. Innledende segmentering, estimering av somatisk forholdet med segmentering raffinement, justert for innblanding hastighet og subclonality karakterisering . Hver modul i SomatiCA kan kalles uavhengig av hverandre. Det er enkelt å implementere tilpasset prosedyre som omfatter en eller alle modulene fra SomatiCA. Selv om dataene motiverende utvikling av SomatiCA ble generert fra Komplett Genomisk plattformen, er inngangen til SomatiCA RD og LAF for alle sammenkoblede SNP nettsider, slik at det gjelder generelt for å analysere data fra andre plattformer. SomatiCA er også skalerbar fordi segmentering på ulike kromosomer kan parallell (se tekst S2 for en manuell av SomtiCA pakken) bli.

Til tross for mange fordeler, vi oppmerksom på at det er flere begrensninger for bruk av SomatiCA.

for det første krever SomatiCA tilordning til en referanse genom og genotype ringer som pre-behandlingstrinn. Det har vist seg at mappability, GC-innhold forspenningen og kvalitetskontroll mål på leser alle påvirker lese dybder således CNV ringer [22]. Selv om virkningene av disse problemene kan reduseres i SCNA ringer med sammenkoblede normal-tumorprøver til en viss grad, er spesielle forholdsregler fortsatt nødvendig med hensyn til valg av aligners, kartlegging kvalitet filtre og genotype innringere. Sekvense dybde kan også påvirke ytelsen til SomatiCA. SomatiCA ble utviklet på sekvense data med en anstendig dekning på 30 × eller høyere. For lav dekning prøver (for eksempel 0,01-0,5 ×), anbefaler vi spesialisert metoder som BIC-seq [23] og CNAnorm [24].

For det andre, segmentering i SomatiCA er avhengig av endringspunkter oppdaget av CBS. I en fersk undersøkelse, Cai et al [25] rapporterte at CBS hadde mangel på deteksjon av sparsom og korte segmenter med intervall lengder mindre enn 40 datapunkter. Det har også blitt vist i våre simuleringsstudier at segmentene med bare et par markører har en tendens til å bli oversett ved CBS og dermed av SomatiCA. Lav sensitivitet på korte segmenter blir ytterligere forsterket ved bruk av den fortynnede signal fra heterozygot områder. Derfor SomatiCA, som for tiden gjennomføres, kan ikke være egnet for tynt og kort segment funn i kreft sekvensering av data. Dette er et vanlig problem for de metoder ved hjelp av BAF (LAF). Ifølge en undersøkelse av 3131 kreftprøver ble median lengde fokus SCNAs rapportert å være 1,8 Mb (orden 0,5 kb-85 Mb). For å identifisere et bredt spekter av SCNAs fra flere hundre basepar til enda et kromosom, anbefaler vi å vurdere komplementære tilnærminger i praksis. Den segmentering metoden i SomatiCA faller inn i kategorien av globale tilnærminger, som kaller break poeng gjennom testing på bakgrunn av en hel kromosom. Lokale tilnærminger, som refererer til de metoder som tar sikte på å identifisere SCNAs ved å sammenligne RD i tumoren genomet med den for den samsvarende normal genomet ved hver genomisk posisjon (eller vindu), slik som BIC-seq [23], CNVseg [12] eller SegSeq [2], kan bidra til å identifisere korte segmenter ved å skanne genomet med et lite vindu størrelse.

Legg att eit svar