Abstract
Tilbakevendende kopinummerendringer (CNAs) spiller en viktig rolle i kreft genesis. Mens en rekke beregningsmetoder har blitt foreslått for å identifisere slike CNAs, deres relative fordeler fortsatt i stor grad ukjent i praksis siden svært få forsøk har vært fokusert på komparativ analyse av metodene. For å lette studier av tilbakevendende CNA identifikasjon i kreft genom, er det viktig å gjennomføre en omfattende sammenligning av ytelse og begrensninger blant eksisterende metoder. I denne utredningen, seks representative metoder er foreslått i de siste seks årene er sammenlignet. Disse inkluderer ett-trinns og to-trinns tilnærminger, som arbeider med rå intensitet forholdsdata og diskretisert data hhv. De er basert på forskjellige teknikker som kernel regresjon, korrelasjonsmatrise diagonal segmentering, semi-parametrisk permutasjon og sykliske permutasjon ordninger. Vi utforsker flere kriterier inkludert type I feil hastighet, gjenkjenning makt, Receiver Operating Kjennetegn (ROC) kurve og arealet under kurven (AUC), og beregningsorientert kompleksitet, for å evaluere resultatene av metodene under flere simuleringsscenarier. Vi har også karakterisere sine evner på søknader til to reelle datasett hentet fra kreft med lunge adenokarsinom og glioblastom. Denne sammenligningen Studien avdekker generelle kjennetegn ved de eksisterende metoder for å identifisere tilbakevendende CNAs, og videre gir ny innsikt i deres styrker og svakheter. Det antas nyttig å akselerere utviklingen av nye og forbedrede metoder
Citation. Yuan X, Zhang J, Zhang S, Yu G, Wang Y (2012) komparativ analyse av metoder for å identifisere Regelmessig Kopier nummer Endringer i Kreft. PLoS ONE 7 (12): e52516. doi: 10,1371 /journal.pone.0052516
Redaktør: Noam Shomron, Tel Aviv University, Israel
mottatt: 7 august 2012; Godkjent: 14 november 2012; Publisert: 20.12.2012
Copyright: © 2012 Yuan et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet av stiftelsen av Kina Natural Science henhold tilskudd 61201312, 61070137, 61202175 og 91130006; USAs National Institutes of Health i henhold tilskudd CA160036, CA149147, og GM085665; og prosjekt støttet av Natural Science Basis Forskning Plan i Shaanxi-provinsen i Kina (programnummer 2012JQ8027, 2012JQ1010); og de grunnleggende forskning Midler til de sentrale universiteter (K50511030002, K50511030001, og K5051270012). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Identifisere gjentatte kopi nummer endringer (CNAS) i kreft genomer er et viktig skritt i å finne kreft driver gener og forstå mekanismene for startfasen. Mange humane kreftformer, inkludert eggstokk-karsinom serøs [1], lunge adenokarsinom [2], glioblastoma multiforme [3], og andre typer kreft [4], [5], er i stor grad blitt undersøkt ved å analysere CNAs. Men de identifiserte CNAs med høy frekvens på tvers av flere prøver bare utgjør en liten brøkdel av klinisk eller biologisk relevante avvik for mange kreftformer. Den vanligste årsaken til manglende noen kjente driver mutasjoner er at nesten alle krefttilfeller er heterogene [6], noe som indikerer at mange tilbakevendende CNAs bare vises i en undergruppe av prøver (dvs. prøvene innenfor subtyper) og deres frekvens mindre ekstrem tvers over hele prøvene. For denne utfordringen, har en rekke statistiske og beregningsmetoder med lovende resultater er rapportert. De er inndelt i ett-trinns [7], [8], [9], [10], og to-trinns fremgangsmåter [3], [4], [11], [12], [13]. Mange av dem ble anmeldt og diskutert av Rueda og Diaz-Uriarte i sin siste artikkel [14].
En enestående fenomen kopinummer profiler er at en del av markørene er endret i identiske regioner i flere genomer og resten markører endres i tilfeldige steder av genomene. Dermed er frekvensen av CNA forekomst på tvers av sampler, vanligvis brukt for å skille tilbakevendende hendelser fra vilkårlige markører. Men på grunn av de kompliserte strukturer av kopitalldata, er identifisering av mindre ekstrem tilbakevendende CNAs en ekstremt vanskelig oppgave. Nedenfor profil vi en ekte kopi nummer datasettet for å vise kompleksiteten i CNAs, og videre bruke det som et eksempel for å illustrere hvorfor de mindre ekstreme CNAs er vanskelige å oppdage.
Figur 1a og Figur 1b viser frekvensen av CNA forekomst på tvers av hele genomet og dens frekvens på tvers av prøvene i et sett av lunge cancer, som inneholder 371 prøver og 216,327 markører [3], [5]. Det kan bemerkes fra tallene at de fleste av markører endres (amplifiserte eller slettet) i det minste i en prøve, og mange av dem er overlappet av en del av prøvene. I tillegg er størrelsen på CNA områder varierer fra kromosomet til kromosom. For et gitt sett av
N
cancerprøver, forutsatt at alle de observerte CNAs er tilfeldig fordelt over hele genomet i hver prøve, forventet sannsynlighet (E (
P
)) av en CNA markør delt med minst
n
prøver (tilsvarer en prosentandel
f
av hele prøver) kan estimeres ved hjelp av ligning (1), og dermed forventet antall (E (
l
)) av slike delte markørene i genomet kan uttrykkes ved ligning (2) (1) (2) hvor
L
er lengden av genomet som blir analysert.;
r
ki Hotell og
r
kj
er CNA priser av
i
-te og
j
-te prøvene i
k
-te undergruppe, som refererer til
k
-te kombinasjon av
n
prøver valgt fra hele
n
prøver. Her, det totale antall kombinasjoner av å velge
n
fra
N
er tilknyttet.
Her bruker vi logg
2-prosenter 0,322 (2,5 eksemplarer) og -0.415 (1,5 kopier) for å definere presiseringer og slettinger. (A) De gjennomsnittlige priser på CNA for forsterkning og sletting blant de 371 prøvene er 0,0379 og 0,0417, henholdsvis. (B) En stor del av presiseringer og slettinger er mindre enn 0,1 i form av frekvens.
La oss vurdere et sett av 100 prøver med hver har 1000 markører, og i hver prøve satsene for CNA er 0,035 for forsterkning og 0,040 for delesjon (disse frekvenser er forholdsvis mindre enn hjelp av den ovennevnte kreft datasettet lunge). Hvis vi antar at CNAs er tilfeldig plassert i genomet, er sannsynligheten for en markør som deles av minst 100
f plakater (0
f
≤1) prøver kan betraktes som en kumulativ sannsynlighet , kalt
P
c product: (
f
) (vist i ligning (3)). For eksempel,
P
c plakater (0,1) er lik til 0,0027 i tilfellet med forsterkning, noe som indikerer at sannsynligheten for en markør amplifisert i minst 10 (0,1 multipliserer 100) prøvene er 0,0027. Figur 2 viser en slik kumulativ sannsynlighets versus frekvensen av en CNA markør på tvers av 100 prøver. Dermed kan antallet av slike markører i hele genomet anslås som 1000
P
c product: (
f
). (3)
Hvis frekvens blir brukt som en statistikk for å teste betydningen av CNAs enkeltvis, beregnet
p
-verdi for markøren med frekvens
f
kan beregnes ved å bruke ligning (4), som er i henhold max-T prosedyre for å kontrollere familiemessig feilrate (FWER) [15]. For klart å forstå forholdet mellom CNA frekvens og dens
p
-verdi, demonstrerer vi
p
-verdi som en funksjon av frekvensen i området fra 0,01 til 1 for amplifisering og sletting separat i Figur 3. det kan bemerkes at
p
-verdi avtar med økt frekvens av CNA, og spesielt,
p
-verdi er 0,05 når
f
= 0,13 i tilfelle av forsterkning og
p
-verdi tilsvarer 0,05 når
f
= 0,14 i tilfelle av slettingen. Dette tyder på at hvis en
p
-verdi cutoff 0,05 er ansatt, CNA markører med frekvens mindre enn 0,13 for forsterkning (eller mindre enn 0,14 for sletting) kunne ikke påvises, mens i reelle data slik frekvens kan være av vesentlig biologisk relevans ettersom mange CNAs kan påvirke bare et mindretall av kreftprøver [3], [7]. (4)
Når det gjelder forsterkning, p-verdi (0,12) = 0,20 og p-verdi (0,13) = 0,05; i tilfelle av delesjon, p-verdi (0,13) = 0,18 og p-verdi (0,14) = 0,05.
Generelt er det frekvens-statistikken og vilkårlig permutasjon av markører i det foregående eksempel bare en grunnleggende strategi for å teste betydning. For å komplettere denne strategien, mange metoder designe ulike statistikker og null distribusjoner for denne utfordringen. For eksempel, STAC (Betydning Testing for Aberrant Kopier nummer) [4] foreslår en ny statistikk «footprint» å score hver markør og etablerer fordelingen under nullhypotesen om at de observerte CNA regionene er like plasseres hvor som helst over hele genomet; GISTIC (Genomisk Identifisering av vesentlige mål i Cancer) [3] score hver markør ved å kombinere frekvens og amplitude, og konstruerer en halv akkurat rundet null distribusjon, og dens forlengelse GISTIC2.0 [11] vurderer æren av bakgrunnen frekvens mellom samlings CNAs og bred CNAS og score hver markør proporsjonal med dens amplitude; Kommandoer (korrelasjonsmatrise Diagonal Segmentering) [9] score hver markør og basert på dens korrelasjon med dens omkringliggende områder konstruerer en elevs
t
distribusjon; og dinamic (Discovering Kopier nummer Avvik manifestert i Cancer) [13] benytter en oppsummering statistikk og en syklisk permutasjon ordningen til å generere null distribusjon. I tillegg, for å justere statistiske verdier og forbedre null fordelinger, mange metoder anvender en avrivnings algoritme for å iterativt teste CNAs [3], [13], [16], [17]. Dette vil hjelpe mye i å identifisere lav til moderat frekvens (eller /og lav til moderat amplitude) markører.
Sammen med fersk forkant av genomisk teknologi og rask produksjon av store datasett, nye metoder med mer avanserte funksjoner og funksjoner for å oppdage tilbakevend CNAs fortsetter å dukke opp. Men de relative styrker og svakheter ved de eksisterende metoder er vanskelig å skjelne, på grunn av mangel på omfattende ytelses sammenligninger. Dette er en sann problem spesielt fra perspektivet til biologiske forskere som trenger å velge en metode for et datasett av interesse. I denne artikkelen sammenligner vi seks klassiske og offentlig tilgjengelige metoder basert på kriterier inkludert type I feil hastighet, gjenkjenning makt, Receiver Operating Kjennetegn (ROC) kurve og arealet under kurven (AUC), og beregningsorientert kompleksitet, slik at brukerne raskt kan få en oversikt over dem og deres prestasjoner. Ulike simulerings datasett og to reelle datasett innhentet for lunge adenokarsinom og glioblastom prøvene brukes til å evaluere metodene.
Materialer og metoder
metoder for å identifisere Regelmessig CNAs
En rekke statistiske og beregningsmetoder er blitt foreslått nylig for å identifisere tilbakevendende CNAs. Disse metodene kan kategoriseres på ulike måter, for eksempel rammer, strategier for å etablere null distribusjoner, kildekoder, og så videre. Vanligvis ulike kreft datasett har forskjellige profiler og mønstre av kopitall endringer, og de kan kreve ulike beregningsmetoder for analyse, så det er ingen enkel metode som kan være egnet for alle datasett. Det er nødvendig å utforske de metoder som besitter forskjellige funksjoner og ulike fordeler. Å gjenspeile dette, velger vi nøye seks representative metoder for vurdering og sammenligning, basert på deres rapporterte effektivitet i reelle søknader. Vi lister de seks metoder i tabell 1, samt deres egenskaper for en oversikt. Disse metodene har blitt utviklet under ulike begrunnelser i de siste seks årene, og noen av dem har vært mye brukt i kreftdataanalyse [2], [18], [19]. For en generell forståelse av dem, gir vi en kort oppsummering av sine prinsipper som følger.
(1) STAC [4].
input av STAC er en binær matrise
X
, der hvert element
x
ij
representerer status for
j
-te markør på prøve
i
. Spesielt
x
ij
= 1 står for forsterkning (eller sletting),
x
ij
= 0 betyr normalt. Den analyserer forsterker og sletting matrisene hver for seg, og tester betydning av dem på samme måte. Nullhypotesen bak STAC er at de observerte CNA segmentene er tilfeldig plassert hvor som helst i kromosomet som vurderes [4], [17], derav permuted prøver kan bevare de opprinnelige strukturene i kopitalldata. STAC vedtar to statistikkene, hyppighet av avvik og «footprint», for å vurdere
p
-verdier for hver markør, og styrer familiemessig feilrate (FWER) basert på det ekstreme høyre hale sannsynlighet [4 ], [13], [20].
«frekvens» for markør
x
beregnes som andel av prøvene som deler aberrasjon, mens «footprint» for markør
x
beregnes som en rekke steder som finnes i en stabel, som er et sett av intervaller som inneholder
x
over prøver [4]. Prinsippet bak «footprint» er at strammere justeringer av avvik er mindre sannsynlig å forvente ved en tilfeldighet, og dermed er mer sannsynlig å foreslå biologisk relevante hendelser, mens de mer avslappede justeringer avvik kan tyde på passasjer mutasjoner med høyere sannsynlighet.
(2) GISTIC [3].
Denne metoden krever segmenterte inngangsdata med kontinuerlig logg
2-verdier resultat av enkelteksempler analysemetoder som CBS [21] og GLAD [22] . Det permuterer individuelle markører på hele genomet ved å anta at markørene er uavhengige [3], [17], og utleder et halv nøyaktig estimert null fordeling basert på den foldingsfunksjonen [3] av (5) der er fordelingen (histogram ) av forsterkning i
i
-te prøven. Basert på null distribusjon, bruker GISTIC en
G
-score kombinere både frekvens og amplitude (ligning 6) for å vurdere betydningen for hver markør og korrigerer for multippel hypotesetesting gjennom Benjamini-Hochberg FDR prosedyre [23] . Den samme prosedyre anvendes til analyse av delesjon og LOH (tap av heterozygositet). (6) der og er frekvensen til forsterkning og den gjennomsnittlige amplitude av den
j
-te markør på tvers av prøvene.
intuisjonen bak
G
-score er at en villfarelse med høyere amplitude og frekvens er mer sannsynlig å være en driver hendelse. For å avlaste den bivirkning av peak regioner med høyest amplitude og frekvens, vedtar GISTIC en «peel-off» algoritme for å iterativt teste CNAs innenfor de betydelige regionene.
(3) KC-SMART [8 ].
Forskjellig fra de ovennevnte to fremgangsmåter, er en-trinns rammeverk omfavnet for denne fremgangsmåte uten å kreve en forutgående trinn med å segmentere (glatting) kopiantall profiler. Prinsippet bak KC-SMART er at det medfører en kjernefunksjon på hvert sted
m
å konstruere en statistikk, kernel glattet estimat (KSE) [8] 🙁 7) der er en summert positiv eller negativ log
2-prosenter på tvers av alle prøvene for hvert sted, er en kjernefunksjon (f.eks flat-top Gaussian kernel funksjon), og er et sett med markører rundt plassering
m Hotell og det er vanligvis fastsettes på grunnlag av bredden av kjernen funksjon. Teoretisk sett anser denne statistikken sammenhengene mellom kopitalldata og inneholder informasjon fått fra nabo markører.
For å identifisere de travleste steder (dvs. tilbakevendende CNAS), sammen metoden den observerte KSE av hvert sted mot et null distribusjon som etableres gjennom permutasjoner av individuelle log
2-prosenter på genomet blir vurdert. For å korrigere for flere hypoteser testing, KC-SMART vedtar Bonferroni strategi ved å multiplisere den takserte
p
-verdier bruker det totale antall steder som blir testet.
(4) Kommandoer [9] .
De inngangsdata til Kommandoer er i stor grad ligner på KC-SMART. Denne metoden er ikke direkte nytte av frekvens og amplitude av kopinummer avvik å konstruere testobservatoren. Det tildeler en RCNA poengsum til hver markør. Den RCNA score er en gjennomsnittlig korrelasjon verdi over de omkringliggende områdene av markør. Nullhypotesen av Kommandoer er at det ikke er noen sammenheng mellom markører innenfor kromosomene, slik at det kan skapes ved tilfeldig permutasjon individuelle markører i strekningen av kromosomet blir vurdert. For å spare beregningstid, bruker Kommandoer informasjonen fra de observerte korrelasjonsverdier i kopiantallet genomet for å etablere en standard normalfordeling, som tilnærmes
t
fordeling. Den multiple-testing effekten er også korrigeres med Bonferroni strategi, akkurat som KC-SMART-metoden.
Den intuitive oppfatningen bak Kommandoer er at kopiantallet støy ikke er korrelert mens tilbakevend CNAs er i høy korrelasjon. En annen fremragende funksjon i Kommandoer er at den ikke analysere forsterkning og sletting separat, men bruker gjennomsnittskopitallverdi over forhåndsdefinerte vinduet på tvers av alle prøvene og dens betydning nivå [9] for å avgjøre om den tilsvarende markør er forsterkning eller sletting. Dette er forskjellig fra de fleste andre eksisterende metoder.
(5) DINAMIC [13].
Denne metoden kan brukes for både kontinuerlig rå signal og diskrete segmentert data. Det vedtar en global oppsummering statistikk som omfatter både frekvens og amplitude av hver markør for å analysere enten forsterkning eller sletting. To nye funksjoner underliggende DINAMIC avsluttes som følger. For det første benytter det en syklisk permutasjon strategi for å lage null-fordelingen [13], [17], som bevarer strukturene til de opprinnelige kopitalldata til en høyere grad enn de fleste andre metoder som STAC [4] og GISTIC2.0 [ ,,,0],11]. For det andre, for å øke kraften for å detektere mindre ekstreme CNA markører, benytter fremgangsmåten en «peel-off» algoritme forskjellig fra det som brukes av GISTIC [3], som vurderer de betydninger av nye regioner ved å fjerne alle avvik overlappet av den tidligere detektert tilbakevendende regioner, mens DINAMIC re-tester markører ved å generere en ny null distribusjon på en ny data matrise der tidligere oppdaget markører
K
er null og markører bidra til betydningen av
K
er skalert ved hjelp av en faktor.
Denne fremgangsmåte er ment for å teste en markør i løpet av hver «peel-off» iterasjonsprosedyren vil dermed beregningskostnaden bli et betydelig problem, særlig når et stort antall iterasjoner er nødvendig. For dette, gir DINAMIC
Quick Look Kjøpe og
Detalj Look
plattformer for brukerens alternativer. I den første, blir den opprinnelige null fordeling gjenbrukes for å teste betydningen av de mest ekstreme markører, og således sparer følgelig et stykke av regnetid. I tillegg er det betydning for multippel testing korrigeres med max-T prosedyre akkurat som STAC [4].
(6) GAIA [16].
I motsetning til andre eksisterende metoder [3 ], [13], [24], GAIA (Genomisk Analyse av Viktig Endringer) inkorporerer innen-prøven homogenitet i «peel-off» prosedyren under sitt statistisk hypotese rammeverk: først, er individuelle markører tilfeldig permuted å generere en null distribusjon, på grunnlag av hvilken den observerte telle (antall avvik på tvers av prøver, er dette ekvivalent med virkningen av hyppigheten av avvik) av hver markør vurderes og tilordnet med et signifikansnivå; andre, definerer GAIA en homogenitet verdi for hver parede tilstøtende markører i hver prøve og produserer en ny datamatrise som heter
H product: (
N
×
M
-1), i der hvert element
H
ij
∈ {0, 0,5, 1}, representerer maksimum, medium eller minimum homogenitet; Endelig er en homogen peel-off utført på matrisen
H
å utvide grensene for de vesentlige regionene oppdaget tidligere. Denne «peel-off» ordningen var forventet å identifisere flere tilbakevendende CNA topper og utelate falske topper.
Evaluering av metodene
Ganske evaluere den relative verdien av disse metodene er nødvendig, men dette er komplisert på grunn av flere realistiske forhold. Først av alt, inngangsdataformater (segmentert eller rå) til ulike algoritmer er ikke alltid det samme, og de krever segmenterte innganger vanligvis vedta ulike segmenteringsalgoritmer. For eksempel standard segmentering algoritmer som brukes av STAC, GISTIC, dinamic, og GAIA er GenePix Pro 4.0 [25], GLAD [22], CBS [26], og henholdsvis VEGA [27]. Tatt i betraktning at ulike segmenteringsalgoritmer kan ha forskjellige egenskaper i behandling av enkelte CNA-profiler, og dermed vil utgjøre stor innvirkning på nedstrøms analyse, velger vi å bruke CBS segmentering algoritme [26] for alle to-trinns metoder i denne sammenligningsstudie, siden CBS er et svært populært algoritme og den utfører konsekvent godt i å oppdage kopi nummerendringer [28]. Dernest betydningen utgangene de seks metodene omfatter to typer:
p
-verdier (stac, KC-SMAR, Kommandoer, og dinamic) og
q
-verdier (GISTIC og GAIA), og tersklene for å erklære betydelig i disse metodene er forskjellige. For en rettferdig sammenligning, velger vi de mest brukte terskler 0,05 for
p
-verdi og 0,25 for
q
-verdi her. For det tredje, parametrene i ulike metoder variere sterkt. For eksempel krever DINAMIC en inngang på antall iterasjoner, der standardinnstillingen er 10. Men en slik setting er vanligvis ikke stor nok i reelle søknader, siden det kan være et stort antall avvikende markører som bør vurderes. Således vi endre denne standardinnstilling inn i et større antall i gjennomføringen av algoritmen. For de fleste av algoritmen parametrene, bruker vi standardinnstillingene så mye som mulig, eller de tilgjengelige verdiene i avisene eller programdokumenter. Til slutt ble forskjellige algoritmer skrevet på forskjellige språk og implementert i ulike plattformer, som vist i tabell 1. Dette vil øke vanskelighetene å sammenligne regnetid av metodene i praksis.
For å kvantitativt evaluere resultatene av metoder, test vi fire vanlig anvendte kriterier [13], [28], [29], [30] basert på et stort antall simuleringsdatasettene. Kriteriene er beskrevet i detalj nedenfor.
1. Type I feilrate.
Formålet med vurderingen av type I feilraten er å undersøke betydningen av betydning nivåer resulterte fra de statistiske metoder for å påvise tilbakevend CNAs [13], [30]. Hvis type I feil hastighet er for konservativ eller for aggressiv, den tiltenkte betydningen av
p
-verdier (eller
q
-verdier) ville bli redusert eller tapt, og det er ikke enig med den virkelige falsk positiv rate på resultater. Således nøyaktigheten av type I feilrate er en kritisk indeks for å vurdere fremgangsmåter. Til dette formål, simulere vi et stort antall () av replikert datasett med null bakken sannhet CNAs, og beregne type I feil hastighet ved hjelp av ligning (8) 🙁 8) der er terskelen for å kalle signifikant (f.eks), og er en indikator funksjon, det vil si, hvis noen CNAs i datasettet er erklært betydelig, da; ellers. Dermed ligning (8) er faktisk en beregning av familie-messig type I feil hastighet [17].
2. Detection makt
Siden CNA er en strukturell enhet, og det inkluderer vanligvis en rekke markører, kan påvisning kraft beregnes gjennom to måter:.. Enhet basert og markørbaserte beregninger
CNA enhet-basert gjenkjenning makt:
for en bakke sannhet (tilbakevendende) CNA enhet, er det nødvendig å observere hvor sannsynlig det kan være vellykket erklært betydelig ved en metode. Vi definerer dette deteksjon makt som sensitiviteten for å oppdage tilbakevendende CNA enhet. Vanligvis nøyaktig å detektere grenser (eller alle markørene i) den tilbakevendende enhet CNA er vanskelig å oppnå, og dette er ikke alltid nødvendig for å lokalisere de genene som omfattes av CNA. For eksempel, kan genene kartlegges om en del av markører i dem er overlappet av de detekterte CNA enhetene. For en praktisk vurdering, bruker vi midt markør av tilbakevendende CNA enheten for å finne ut om enheten er deklarert, dvs. hvis midtmarkøren blir oppdaget, så vi antar at enheten er vellykket oppdaget, ellers er det ikke. Følgelig kan CNA enheten basert registrering kraft av en fremgangsmåte beregnes ved [30] (9) hvor det totale antall bakkesannhets CNA enheter i hver simulerte datasettet, og indikerer antallet bakken sannhets CNA heter som er deklarert betydelig i
i
-te datasettet
CNA markør-basert gjenkjenning makt.
i tillegg til plasseringen av kreft driver gener, tilbakevendende CNAs kan også brukes til å analysere kromosom ustabilitet indeksen og andre biologiske betydninger [1]. Så det er nødvendig å se hvor mange bakken sannhet markører oppdages. Derfor definerer vi denne kraften som ligning (10) [30], der er det totale antallet bakken sannhet CNA markører og angir antall bakkesannhets markører som er vellykket oppdaget i
i
-te datasett . (10)
3. Mottaker operasjonelle egenskaper (ROC) kurve og AUC tiltak.
Vi vurderer den generelle ytelsen av de seks metoder, målt både sensitivitet og spesifisitet gjennom ROC-kurver, som viser hvor mye prosentandel av grunnsannhets markører er valgt betinget videre på et gitt falske positive. I tillegg måler vi arealet under kurven (AUC) for disse metodene med det formål å vurdere deres gjennomsnittlige ytelse, spesielt når noen ROC kurver har krysset.
4. Computational kompleksitet.
Vi evaluerer beregningskompleksiteten basert på kjøretid og minnebruk. Siden forskjellige fremgangsmåter blir vanligvis gjennomført i forskjellige plattformer som C ++, R språk, og JAVA, kan sammenligning av beregningstiden bli påvirket. For å overvinne dette problemet og gi en generell sammenligning av effektiviteten av de seks metoder, gir vi big-O kompleksiteten for dem, i tillegg til selve løpetider.
Simulering datasett
Ekte datasett sjelden har absolutt bekreftet bakken sannhet CNAs, og kan derfor ikke brukes til å evaluere resultatene av metodene. Imidlertid simuleringsteknologi gir en rimelig måte å løse dette problemet [31]. Siden de fire evalueringskriterier illustrert ovenfor benyttes for å kvantifisere de metoder fra forskjellige perspektiver, er det nødvendig å anvende forskjellige simulerings ordninger for å generere en rekke av datasettene.
For det første kriterium for testing av type I-feil sats, vi vedta simuleringen algoritmen introdusert av Hsu et al [32] og Walter et al [13] for å opprette null datasett. Algoritmen er basert på en ustabilitet-utvalg modell [33], som har vært opprinnelig brukt av mange forskere til å modellere LOH (tap av heterozygositet). Prinsippet om å simulere kopi nummer avvik under ustabilitet-utvalget modellen kan enkelt oppsummeres som følger [13]. Markøren status er for det første merket enten med 0 som ingen avvik eller ved en som avvik. For å generere sammenhengende markører som er iboende korrelert sammen et kromosom med lengde
M
, en innledende markør posisjon
x
k product: (
k
∈ {1, 2 , …,
M
}) er forhåndsdefinert og status for dets naboland markør
x
k
1 blir deretter modellert basert på overgangen sannsynligheten [13],
p
a, b product: (
d
) =
p product: (
T product: (
x
k
1) =
en
|
T product: (
x
k
) =
b
), der
a
,
b
= 0, 1, og
d
er avstanden mellom tilstøtende markører
x
k Hotell og
x
k
1. Nærmere bestemt, har overgangssannsynligheter er definert som [13], [33] 🙁 11) hvor
μ
er bakgrunnen eller sporadisk sannsynlighet av aberrasjon ved en markør, og
λ
ligger overgangen hastighet mellom regionene avvik og normalitet (dvs. ingen avvik). De andre overgangssannsynlig er
p
0, 0 (
d
) = 1-
p
1, 0 (
d
) og
p
1, 1 (
d
) = 1-
p
0, 1 (
d
) . Ifølge slike sannsynligheter, status for markørene
x
k
1, …,
x
M
fastsettes med utgangspunkt i en binomisk fordeling. For start markør
x
k
, er statusen tilordnes med en binomisk tilfeldig variabel med sannsynlighets
μ product: [13]. Den venstre delen av kromosomet kan også bestemmes på samme måte.
For å få en idealisert kopi talldata, simuleringen ovenfor prosessen er gjennomført to ganger, og de to simulerte profiler blir deretter kombinert for å generere en enkelt prøve [13 ]. For å gjøre de simulerte data mer realistisk, vil en normal celle kontaminering med en vilkårlig andel ~ Uniform (0,7, 0,9) tilsettes til hver prøve, så vel som en gaussisk støy med midlere 0 og standardavvik 0,25. For en mer detaljert beskrivelse av denne simuleringen algoritmen, kan interesserte lesere henvises til [33], [13] og [32].
For det andre kriteriet for å teste statistisk styrke av metodene kombinerer vi funksjonene av simulerings strategier introdusert av Willenbrock et al [34] og Zhang et al [9], for å generere flere ratio profiler med bakken sannhets CNA regioner, og vi anser signal scenarier oppsummert av Rueda og Diaz-Uriarte som scenarier videre I- III, og scenario V [14]. Vi skaper en innledende datamatrise i hvilken hvert element er tilordnet med et normalt kopi-antall-nivå. Basert på denne matrisen, setter vi den første sannheten CNA regioner ved å vurdere følgende faktorer som er generelt ansett for å påvirke statistisk styrke til å oppdage tilbakevend CNAs: lengde (
L
) og amplitude (
CN
) av tilbakevendende CNA, frekvens (
F
) av tilbakevendende CNA over prøvene [9], signal støynivå (
σ
) av forholdet profiler, normal celle forurensning (
δ
) i tumorprøver [35]. For å gjøre de simulerte dataene mer realistisk, legger vi en rekke tilfeldig plassert bakgrunns CNA regioner til hver prøve. Lengden av disse regionene er generelt lik den for den tilbakevendende CNAs. For det tredje og siste evalueringskriterier, vi fortsatt vedta denne simuleringen ordningen, men bruker ulike faktor innstillinger. Spesielt for den siste kriteriet, fokuserer vi på å simulere omfanget av datasett, dvs. størrelsen på prøvene og lengden på genomet, siden disse er generelt antatt å være de viktigste faktorene som påvirker beregningskompleksitet.
For å fullt ut undersøke