Abstract
Somatisk kopiantall endring (CNA) er et vanlig fenomen i kreft genom. Skille betydelige konsensus hendelser (SCE-foretak) fra tilfeldig bakgrunn CNAs i et sett av fagene har vist seg å være et verdifullt verktøy for å studere kreft. For å identifisere SCE-foretak med en akseptabel type I feilrate, bør bedre beregnings tilnærminger utvikles basert på rimelige statistikk og null distribusjoner. I denne artikkelen, foreslår vi en ny tilnærming kalt TAGCNA for å identifisere SCE-foretak i somatiske CNAs som kan omfatte kreft driver gener. TAGCNA benytter en peel-off permutasjon ordningen til å generere en rimelig null fordeling basert på en forutgående trinnet valg tag CNA markører fra genomet blir vurdert. Vi viser den statistiske kraften i TAGCNA på simulert bakken sannhet data, og validere sin anvendbarhet ved hjelp av to offentlig tilgjengelige kreft datasett: lunge og prostata adenokarsinom. TAGCNA identifiserer SCE-foretak som er kjent for å være involvert med proto-onkogener (
f.eks
EGFR, CDK4) og tumorsuppressorgener (
f.eks
CDKN2A, CDKN2B), og gir mange flere SCE-foretak med potensial biologisk relevans i disse dataene. TAGCNA kan brukes til å analysere betydningen av CNAs i ulike kreftformer. Det er implementert i R og er fritt tilgjengelig på https://tagcna.sourceforge.net/
Citation. Yuan X, Zhang J Yang L, Zhang S, Chen B, Geng Y, et al. (2012) TAGCNA: En metode for å identifisere vesentlige Consensus Hendelser til kopiantall Endringer i Cancer. PLoS ONE syv (7): e41082. doi: 10,1371 /journal.pone.0041082
Redaktør: Gayle E. Woloschak, Northwestern University Feinberg School of Medicine, USA
mottatt: 03.02.2012; Godkjent: 17 juni 2012; Publisert: 18.07.2012
Copyright: © 2012 Yuan et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet av stiftelsen av Kina Natural Science henhold Grants 61070137, 91130006, og 60933009; det amerikanske National Institutes of Health i henhold Grants CA160036, CA149147, og GM085665; og prosjekt støttet av Natural Science Basis Forskning Plan i Shaanxi-provinsen i Kina (Program No. 2012JQ8027); Science and Technology Research Development Program i Shaanxi-provinsen i Kina (No. 2009K01-56), og de grunnleggende forskning fond for de sentrale universiteter (No. K50511030002). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Somatiske kopi nummer endringer (CNAS) er fordelt over hele genomet i nesten alle kreft hos mennesker [1]. En av de systematiske innsats i å utforske effekten av CNAs på kreftutvikling er å skille vesentlige konsensus hendelser (SCE-foretak) som representerer «driver mutasjoner» fra tilfeldige bakgrunns CNAs som representerer «passasjer mutasjoner» [2], [3]. Ekstremt høy oppløsning array-teknologi og stor samling av kreft fag videre en omfattende forståelse av de mutasjonshendelser i et slikt program [1], [3], [4]. Det i mellomtiden fører til et kritisk krav for beregningsfremgangsmåter for identifisering av betydning avvik som er felles for flere individer.
For tiden er mange statistiske tilnærminger er blitt utviklet. STAC (Betydning Testing for Aberrant Eks nummer) [5] tester CNAs separat for amplifikasjoner og delesjoner, og det krever binære inngangsdata matriser, i hvilket «en» representerer amplifikasjon (eller delesjon) og «null» representerer normal status. Denne metoden benytter to komplementære statistikk: frekvens og fotavtrykk, for å måle hver markør under nullhypotesen om at de observerte CNA regionene er like plasseres hvor som helst over hele genomet blir analysert. Nærmere bestemt er «frekvens» statistikk som brukes til å gjenspeile den common av et avvik på tvers prøver og «footprint» statistikken brukes for å reflektere den stramme innretting av en avvikende region på tvers av prøver. Videre «footprint» tar i betraktning de korrelasjoner mellom avvik og lengdene av CNA regioner. Men både av statistikken har ikke innarbeidet amplitude av avvik, slik at viktig informasjon kan være savnet, siden høyt nivå presiseringer og slettinger kan føre til ulike biologiske konsekvenser i forhold til lavnivå avvik [6]. I likhet med STAC, GISTIC (Genomisk Identifisering av vesentlige mål i Cancer) [3] analyserer også presiseringer og slettinger separat, men det krever inndata med segmenterte signaler. Denne metoden designer en G-stillingen ved å inkorporere både frekvensen og amplituden av aberrasjoner, og tildeler den G-stillingen til hver markør for å vurdere betydningen basert på et halv nøyaktig tilnærmet null fordeling. Null fordeling blir etablert ved å anta at CNA markører er uavhengige. Følgelig er de felles virkninger mellom tilstøtende markører ignorert i CNA deteksjoner [7]. For å forbedre gjenkjenning makt, en forlengelse av GISTIC, GISTIC2.0 [8], er foreslått, som vurderer æren av bakgrunnen frekvens mellom samlings CNAs og brede CNAs og score hver markør proporsjonal med dens amplitude. En annen lignende metode er DINAMIC (Discovering Kopier nummer Avvik manifestert i Cancer) [9], som definerer et sammendrag statistikk for hver markør og design et nytt rammeverk for betydningen vurdering. Den benytter en syklisk permutasjon ordning for å generere null fordeling, hvor den strukturelle informasjon for den opprinnelige kopiantallet data opprettholdes. DINAMIC vedtar ytterligere en «peel-off «algoritme for å oppdage mindre hyppige markører. Generelt er det trekk at de ovennevnte fremgangsmåter andelen er deres to-trinns metode, dvs. at de trenger et forutgående trinn med discretizing CNA signalene ved hjelp av individuelle utvalgs analysemetoder [10], [11]. For å unngå avhengighet av enkelt-analyse av prøver, mange forfattere foreslår ett-trinns beregnings tilnærming. For eksempel, KC-SMART (Kernel Convolution: en statistisk metode for Aberrant Region Detection) [12] direkte analyserer rå intensitet forholdsdata (dvs. data uten diskretisering i enkeltprøver) for å identifisere SCE-foretak ved hjelp av en ny statistikk: Kernel glattet Estimate (KSE ), som tar hensyn til signalstyrken for nabo markører; og Kommandoer (korrelasjonsmatrise Diagonal Segmentering) [13] score hver markør basert på dens korrelasjon med de omkringliggende områdene i den rå intensitetsforhold. Mange andre tilnærminger er diskutert av Shah [14] og Rueda
et al product: [7]
Innenfor de eksisterende tilnærminger, er tre vanlige og viktige komponenter oppsummeres som følger:.. (1) data plattform, dvs. rå intensitetsforholdet data eller data diskretisert (tilsvarende ett-trinns eller to-trinns metoden), for detektering av SCE-foretak; (2) statistikk knyttet genomiske enheter (
f.eks
markører eller gener.); og (3) null fordeling for testing av statistikken. Imidlertid er en overraskende vanskelig spørsmål her hvordan å lage en konsistens mellom de tre komponentene, hensyntatt CNA strukturer og statistisk signifikans. Så langt er det ingen klare løsninger på dette spørsmålet. Ett-trinns metoder kan føre til en stor skjevhet signal til statistikken [15], der null distribusjon er ikke akkurat forenlig med det formål å identifisere SCE-foretak fra tilfeldig bakgrunn CNAs,
f.eks
nullhypotesen underliggende Kommandoer er at det er ingen CNA. I dette tilfellet kan deteksjon SCE kraft bli sterkt påvirket av forekomsten sannsynligheten for tilfeldig CNAs. To-trinns metoder ofte utnytte definert CNAs (gevinst eller tap) til å generere null distribusjon gjennom permutasjoner. Men mange av dem vedta markør-basert score, men regionbaserte permutasjon ordninger, slik som stac og dinamic metoder. GISTIC programmet gjør ut et rimelig samsvar mellom de tre komponentene, men det tar ikke hensyn til korrelasjoner mellom markørene. Dette kan gjøre den statistiske signifikans konservative i multiple testing [16], og vil kanskje ikke være biologisk relevant [7]. Totalt sett, de fleste eksisterende metoder i enten ett-trinns eller to-trinns rammeverk kvantifisere CNAs og teste betydningen basert på individuelle markører, som vanligvis er forbundet med hverandre. Dette kan føre til en redusert effekt i å oppdage CNA regioner spesielt for de mindre ekstreme regionene [7]. Videre, de vanligvis genererer null distribusjoner basert på en blanding av SCE-foretak (falsk nullhypotese) og tilfeldig bakgrunn CNAs (sann nullhypotese). Dette er teoretisk avvek fra den sanne null fordelingen i statistisk hypotesetesting, redusere betydningen av betydning vurdering.
Med disse hensynene, i denne artikkelen foreslår vi en ny tilnærming, TAGCNA, for å identifisere SCE-foretak basert på kontinuerlig segmentert signal forholdstall. Tilnærmingen er sammensatt av to trinn. Først velger tag CNA markører fra genomet blir analysert, og deretter frembringe en ny datamatrise som består av kodemerker, som hver er scoret ved å inkorporere både frekvens og amplitude av CNA; og andre, basert på data matrise, skape en null distribusjon med en avrivnings permutasjon ordningen. De primære funksjonene i tilnærmingen omfatter: (1) både scoring og permutasjon er utført basert på tag markør-nivå, med tanke på korrelasjoner mellom tilstøtende spisser; (2) gjennomsnittet av null distribusjons trekk igjen på grunn av peel-off prosedyre på tag markører, konvergerende til at sannheten null distribusjon. TAGCNA kan brukes til å analysere data fra de enkelte kromosomer i tillegg til data som er utledet fra genom studier. Vi tester sin statistisk styrke på omfattende simulert bakken sannhet data, og deretter bruke den til to reelle datasett av lunge og prostata kreft. TAGCNA vellykket identifiserer SCE-foretak i forbindelse med kjente kreft driver gener, og gir mange flere SCE-foretak med potensiell biologisk relevans.
Materialer og metoder
Data Format
Opprinnelig dataene preprocessed gjennom individuelle sampler analysemetoder som CBS [10], [17], og lagres i matrisen
X product: (
N
×
L
), der hver rad representerer en utsett og hver kolonne representerer en markør. TAGCNA starter arbeidet fra dette punktet. Det vedtar terskler (
θ
amp og
θ
del) for å definere presiseringer og slettinger i
X
, og skiller
X
i to matriser
X
amp (
N
×
L
) og
X
del (
N
×
L
). TAGCNA analyserer forsterkning og sletting separat siden de er generelt ansett som å spille forskjellige roller i kreftutvikling.
I matrisen
X
amp (eller
X
del), er aberrasjon representert med en log
2-forhold, og ingen avvik er representert med en null. Nedenfor vil vi beskrive den TAGCNA prinsipp for å teste betydning CNAs enten i analysen av forsterknings eller delesjonsdatamatrise.
Valg av kode CNA Markers
Somatic CNA er en strukturell variasjon i det humane genom, og dermed probene i genomet er iboende korrelert selv om CNAs er tilfeldige bakgrunns arrangementer. Det er ønskelig å opprettholde denne sammenheng og for å maksimere den uavhengighet mellom teststatistikk i analysen av CNAs. Disse betraktningene ledet oss til å designe TAGCNA å teste CNAs ved fordeling genomet i små korrelasjons blokker og velge tag markører i forskjellige blokker, som antas uavhengige. Scoring og permutasjon prosedyrer TAGCNA blir deretter utført på tag markører
(a) En matrise profil 100 emner og 1000 markører.; de hvite fargede stillinger indikerer kopi nummer endringer. (B) Den korrelasjonsverdi for hver markør, som er den gjennomsnittlige koeffisienten hos de omliggende markører. (C) Blokk korrelasjonsverdi resultat av delingen av genomet basert på (b). (D) En ny datamatrise bestående av tag CNA markører (her
N
= 100,
M
= 50); hver tag markør velges fra hver blokk i (c), hvor de røde prikkene er midten av blokkene, som representerer tag markører.
CNA korrelasjon blokkinndeling er utført basert på et sett av fag (Figur 1). Det første trinnet er å beregne korrelasjonskoeffisientene mellom tilstøtende markører via Pearson korrelasjon formel [13] 🙁 1) der
r
ij
er korrelasjonskoeffisienten mellom markørene
i
og
j
;
N
er antall prøver;
x
ni
er log
2-ratio på faget
n
markør
i
; , Og er logg
2-ratio gjennomsnitt og standardavvik av markører
i
og
j
i alle fag. Da får vi en korrelasjonsverdi for hver markør
k
ved gjennomsnitt koeffisienter blant dets omliggende markører ved ligning (2) [13] 🙁 2) der
w
er en pre-spesifisert vindusstørrelse rundt markør
k
. Figur 1 (b) viser korrelasjonsverdi for de 1000 markørene i eksemplifisert populasjonen. For å utnytte den romlige sammenhengen mellom tilstøtende markører, antar vi at de korrelasjonsverdier i de nærliggende markører er på samme nivå og ansette CBS algoritme [10] for å partisjonere hele genomet i blokker hvor korrelasjonsverdier endres mellom sammenhengende blokker (figur 1 (c )). I hver blokk, er en tag markør valgt fra den på midten området. Således er det totale antall kodemarkører antall blokker resultat av delingen av genomet. En ny datamatrise T (
N × M
) blir deretter produsert basert på brikke markører (figur 1 (d)), der
M
er antall tag markører.
Peel-off permutasjon og vurdering Statistisk signifikans
Basert på data matrise
T
, utfører TAGCNA peel-off permutasjon [3], [9] for å generere null distribusjon under hypotesen at det ikke er SCE-foretak, dvs. at alle tag markører i
T
er passasjerer, og deretter vurderer den statistiske betydningen av de observerte tag markører. For å gjenspeile dette, TAGCNA score hver tag markør
m
ved å innlemme frekvens og amplitude av CNA [3] 🙁 3) der
t
nm
er log
2-ratio av faget
n
tag markør
m
i matrisen
T
. Legg merke til at betydningen av tag markør er ment å representere betydningen av den tilsvarende genomet blokken.
Den starter fra tag markør data matrise
T product: (
N
×
M
), og genererer null distribusjon
D
1 gjennom permutasjoner på dataene. Basert på
D
1, signifikansnivå er tildelt hver tag markør. Hvis signifikansnivået er mindre enn en cutoff (
f.eks
0,05), tilsvarende markører (
f.eks
i
-te tag markør) vil bli fjernet fra matrisen i neste iterasjon av permutasjon og betydning test. Denne prosedyren fortsetter inntil oppnå null distribusjon
D
H
, basert på hvilke det er ingen ekstra tag markører er identifisert betydelige. I denne prosedyren, gjennomsnittet av null distribusjons beveger seg mot venstre etter hvert,
f.eks
i andre iterasjon,
D
2 beveger seg mot venstre sammenlignet med
D
1.
nå beskrive fremgangsmåten i avrivnings permutasjon og betydning test i detalj, som også er illustrert i figur 2. i begynnelsen, en null fordeling
D
1 er beregnet ved permutasjon på matrisen
T
1 (
T
1 =
T
). Basert på
D
1, er hver tag markør tildelt en p-verdi. Denne algoritmen kan deles opp i følgende trinn:
I hvert fag, utføre en permutasjon av tag markører, dvs. tilfeldig plassere tag markører i tag steder i genomet
I permuted datasettet
δ product: (
T
1), beregne score over tag markør
m
, merket med
S
m plakater (
S product: (
T
1)),
m
= 1, 2, …,
m
.
Gjenta trinn (1) og (2)
E
ganger, dvs. utføre
E
permutasjoner av datasettet, og dermed oppnå
E
permuted datasett
δ
1 (
T
1),
δ
2 (
T
1), …,
δ
E product: (
T
1), og de tilsvarende score
S
m product: (
δ
1 (
T
1)),
S
m product: (
δ
2 (
T
1)), …
S
m product: (
δ
E product: (
T
1))
. Let
D
1 være fordelingen av max
m S
m product: (
δ product: (
T
1)) over alle
E
permutasjoner, og definere p-verdi for tag markør
m
0 (
m
0∈ {1 …
M
}) av det ekstreme høyre sannsynlighet [5], [9] 🙁 4) hvor jeg (·) er indikatoren funksjon.
bilder
deretter TAGCNA skanner p-verdier på tvers av alle tag markører. Dersom en eller flere av p-verdiene er mindre enn en betydning cutoff (
f.eks.
0,05), tilsvarende tag markører vil slettes (figur 2). Deretter en ny datamatrise
T
2 er produsert uten å innlemme de betydelige tag markører. Basert på
T
2, en null distribusjon
D
2 kan opprettes via de ovennevnte fire trinn og betydningen nivået på resten tag markører kan vurderes.
prosedyren fortsetter inntil oppnå null distribusjon
D
H
, basert på hvilke ingen ekstra tag markører kan identifiseres betydelig. Under prosedyren, en sekvens av data matriser
T
1,
T
2, …,
T
H Hotell og en sekvens av null distribusjoner
D
1,
D
2, …,
D
H
oppnås. Vi ser at antall kolonner i data matriser er synkende og midlene for null utdelinger bevege venstre gradvis sammen med sekvensen. Dette innebærer at
T
H
kanskje ikke omfatte svært ekstreme tag markører og andelen av sanne nullhypotese er betydelig økt, så det resulterte null distribusjon
D
H
kanskje være svært nær sannheten null distribusjon. Til slutt, basert på
D
H
, TAGCNA vurderer betydningen nivåer av alle observerte tag markører igjen. Dette kan gi bedre effekt for å identifisere mindre ekstreme SCE-foretak og også korrigere p-verdier i form av statistisk signifikans.
Resultater
simuleringsstudier
Ekte datasett sjelden har absolutt bekreftet bakken sannhets SCE-foretak, så det er vanskelig å vurdere resultatene av statistiske metoder på reelle data. I denne delen vi designe simuleringsstudier for å teste den statistiske kraften i vår tilnærming. Simuleringsmodellen foreslått av Willenbrock og Fridlyand [18] er endret for å generere CNA datasett under ulike parameterinnstillingene. I hver innstilling, simulere vi 100 personer hver med 10000 markører. Logg
2-ratio for hvert fag er generert ved å blande normale og kreftceller. Andelen av normal celle for et bestemt emne blir trukket fra en jevn fordeling mellom 0,3 og 0,7. Gaussisk støy med midlere null og varierende varians blir tilsatt til hvert fag. Her ser vi på tre nivåer av variansen i den gaussiske støyfordelingen, dvs. dens standardavvik (SD) (σ) trekkes jevnt fra [0,1, 0,2], [0,2, 0,4], eller [0,4, 0,6] [18] i simulering av hvert fag. For ytterligere å gjøre simuleringen mer realistisk, legger vi to ikke-SCE regioner med lengde fra 50 til 500 til hvert fag. Posisjonene av de ikke-SCE regionene er tilfeldig valgt i den strekning av den simulerte genomet, og loggen
2-forhold av regionene er generert jevnt mellom 0,585 (kopier 3) og 1,322 (5) kopier. Tre bakken sannhets SCE-foretak er innebygd i de simulerte datasettene. Loggen
2-prosenter og lengder av dem er spesifisert som Ratio = {0,585, 1, 1,322} og L = {200, 100, 50}, henholdsvis. Hyppigheten av alle de tre SCE-foretak på tvers av fag betegnes som
f
. To frekvensnivå, 0,15 og 0,20, anses for å simulere ulike genom datasett.
Vi implementerer TAGCNA på de simulerte datasett ved å sette parametrene
θ
en
mp og
θ
del til 0,1 og -0,1, samt
w
til 20, og sitt resultat mot Kommandoer [13] basert på ROC-kurver, som er vist i figur 3. hver ROC-kurve er plottet for en simulering parametrisering, karakterisert ved at TPR (sanne positive rate) versus FPR (falske positive) beregnes ved forskjellige signifikansnivåer og blir så midlet over 100 simulert gjennomkjøringer. Fra figur 3 kan vi oppmerksom på at i de fleste tilfeller, er TAGCNA kraftigere enn Kommandoer i form av større områder under ROC-kurver. Derfor er TAGCNA et verdifullt verktøy i å identifisere SCE-foretak fra bakgrunnen CNAs.
TPR og FPR er midlet over 100 simulerte kjøringer i hvert parameter setting. Vi bruker to alternativer (dvs. b = 10 og b = 20) for Kommandoer fremgangsmåten i dataanalysen.
I tillegg, for å studere oppførselen til TAGCNA under sann null hypotesen om at det ikke er SCE-foretak vedta vi algoritmen introdusert av Walter et al. [9] for å simulere null CNA datasett og utføre TAGCNA på disse dataene. Igjen er tre nivåer av Gaussian støy vurderes i simuleringen ordningen i et forsøk på å vise robust atferd TAGCNA. Resultatene av disse forsøkene er vist i tabell 1. I hvert tilfelle, er den typen jeg feilrate resulterte etter TAGCNA beregnet i henhold til følgende trinn:
Simuler 600 kjøringer hjelp av simuleringsalgoritmen med standard parameterinnstillingen i Walter . et al arbeid [9]
For hver data replikering, implementere TAGCNA basert på 1000 permutasjoner, og finne ut om det er noen CNAs er signifikante på p-verdi. 0,05
Beregn antall gjennomkjøringer der det foreligger betydelig CNAs, og definere type jeg feilrate som andel av disse gjennomkjøringer i 600 kjøringer.
verdiene av den typen jeg feilrate oppført i tabell 1 er svært nær til 0,05, noe som indikerer at TAGCNA er litt konservativ og permutasjonsmatrisen prosedyren på tag CNA markører er relativt rimelig.
Application Real datasett
Vi benyttet TAGCNA til to offentlig tilgjengelig kreft datasett. Den første består av 371 lunge adenokarsinom fag, som hver omfatter 216,327 markører. Dette datasettet er hentet fra TSP (Tumor Sekvensering Project) prosjektet og er tilgjengelig på https://www.broadinstitute.org/cancer/pub/tsp/[19]. Det andre settet er generert fra 82 prostata adenokarsinom fag i TCGA (Kreft Genome Atlas) prosjekt, hver gjenstand ble profilert bruker SNP6.0 i 1,868,857 markører, og dataene er tilgjengelig på https://cancergenome.nih.gov/. Originale CNA data er segmentert via individuell-analysen og er forvandlet til inngangs format til TAGCNA som beskrevet i programvarepakken dokumentet. TAGCNA er implementert i hvert kromosom for å analysere forsterkning og sletting separat. Vi setter loggen
2-ratio terskler
θ
amp og
θ
del til 0,848 (3,6 kopier) og -0,737 (1,2 eksemplarer), som er innstillingen av GISTIC fremgangsmåten i å analysere kreft genomer [19], så vel som parameter
w
til 20, og utfører 1000 tilfeldige variasjoner for å vurdere betydningen av kodemarkører. Tag markører med p-verdier mindre enn 0,05 anses vesentlig, og følgelig de relevante genom blokker regnes som SCE-foretak.
Resultat på lunge adenokarsinom datasett.
Figur 4 viser betydningen landskapet hele genomet resultat av analysen av lunge adenokarsinom datasett. TAGCNA identifiserer en total av 16 amplifikasjoner og 29 delesjoner i forskjellige kromosomer som oppført i begge sider av figur 4. De gener som dekkes av disse SCE-foretak er gitt i tabell S1. Mange kjente kreft driver gener som inngår i resultatet. For eksempel er EGFR (epidermal growth factor receptor) er et onkogen som inneholdes i 7p11.2 (p-verdi 0,001). Dens amplifikasjoner kan resultere i forhold til ekspresjon og ukontrollert celledeling, som er en predisposisjon for kreft [20]. Maksimalt utledes kopiantall på 7p11.2 er 9,1, og det er 11 (3%) pasienter med kopi nummer over terskelen 3.6 på regionen og 50 (13,5%) pasienter over terskelen 2.5.
-log10 ( p-verdier) er gitt for forsterkning og sletting regioner respektivt. Den stiplede grønne linjen er plassert på 1,3 (tilsvarende p-verdi på 0,05) som en cutoff for å ringe betydelige konsensus hendelser. Kromosom 23 indikerer sex kromosom.
Vi bruker Venn-diagram for å sammenligne SCE-foretak resulterte fra TAGCNA med at fra GISTIC i figur 5. TAGCNA gir statistisk støtte for 80% av forsterker hendelser og 50% av sletting hendelser som GISTIC oppdaget. De fleste av de overlappende SCE-foretak omfatte en eller flere onkogener eller tumorsuppressorgener. I tillegg blir en del av de ikke-overlappende sletting av SCE-foretak TAGCNA støttes av Kommandoer resultat [13] som 10q21.2 og 15q11.1. Videre antar vi at eksisterende tilnærminger kan gå glipp av noen SCE-foretak vist seg å være statistisk og biologisk betydning. Her karakteriserer vi en SCE (21q22.2) entydig identifisert ved TAGCNA. Sletting ved 21q22.2 (p-verdi 0,001) forekommer i 11 (3%) pasienter med kopi nummer under 1,2 og forekommer hos 24 (6,5%) pasienter med kopi nummer under 1,5, og minimum utledes kopiantall er 0,3. Dette SCE dekker tre gener (PCP4, DSCAM, og TMPRSS3), der TMPRSS3 har blitt validert for å være klinisk og biologisk forbundet med menneskelige sykdommer [21], [22].
De overlappende forsterkning og sletting hendelser er oppført i toppen og bunnen av Venn-diagram. Her bruker vi den vanlige tidsavgrensninger q 0,05 og p. 0,05 for GISTIC og TAGCNA henholdsvis
I figur 5, er det lett å merke seg at antall nye SCE-foretak som registreres av TAGCNA i sletting er større enn det i forsterkning. Undersøkelse av eksemplar nummer profilene i lunge adenokarsinom datasettet og de oppdagede SCE-foretak avslører to grunner til dette avviket. Den vanligste forklaringen er at slettingen arrangementet er til stede oftere enn en forsterkning aktivitet [19], og de fleste av de slettinger er heterogenitet (dvs. tap av en kopi) [3], slik som sett i lunge adenokarsinom prøver for 17p11.2 sletting . Her, 6,8% av prøvene oppviser sletting størrelse mellom 1 og 1,5, mens bare noen få (1%) av prøvene oppviser sletting størrelse under 1. Det er følgelig 17p11.2 en mindre ekstrem-region (dvs. frekvens og størrelse er relativt lav), som ikke kan bli oppdaget under null distribusjon bidratt med flere store sletting SCE-foretak. Imidlertid vil slike regioner nå betydning ved å fjerne SCE-foretak fra genomet og re-skape nye null utdelinger utført av TAGCNA. Den andre forklaringen er at korrelasjonskoeffisienten mellom sletting sonder i denne datakilden er relativt høyere enn blant forsterknings sonder, og dermed oppdage individuelle sonder uten vurderer sammenhenger ville føre til en høyere conservativeness. For eksempel er slettingen ved 7q11.22 tildelt p-verdi mindre enn 0,001 av TAGCNA, men det er rapportert av GISTIC med q-verdi mer enn 0,025.
Resultat på prostata adenokarsinom datasett.
betydningen landskapet i hele genomet analysert av TAGCNA på prostata adenokarsinom datasettet er gitt i Figur 6. En totalt 91 forsterker SCE-foretak og 97 sletting SCE-foretak er identifisert i datasettet, og dekket genene er oppført i tabell S2. De fleste av disse SCE-foretak som er vist å være biologisk relevant og støttes av tidligere rapporterte resultater. For eksempel, presiseringer på 1q21.1, 7p21.2, 7q36.1, 8q13.3, 8q23.1, 9p13.1, 14q24.2, 14q32.31, og 16p11.2 er introdusert av Outi [23], der 7p21.2 inneholder transkripsjonsfaktor ETV1, som ble funnet å være betydelig overuttrykt i en undergruppe av prostatakreft, og 14q24.2 ligger nær inntil HIF1A, og proteinet kodet for av dette genet blitt vist å være overuttrykt i mange prostatakreft; og presiseringer på 11p15.4, 3p12.3, 3p12.1, 13q13.3, 17q12, 7p15.3, 7p15.2, 7q34, 5q35.3, og 8p11.23 er rapportert av andre forfattere [24], [25 ], [26], [27]. Slettinger på 2q14.2, 4p16.1,4q26, 6q13, er 9p13.1, 10q23.2, 16q23.1, og 17p13.3 introdusert av Outi [23], hvor 10q23.2 and16q23.1 er svært nær viktig potensielle tumorsuppressorgener PTEN og HSD17B2; og slettinger på 8p12, 1q21.2, 5p15.2,5p14.3,5p12,14q12, 14q32.31, 6q14.1,13q13.3, 3q26.1, 11p15.4, og 20p13 presenteres av andre forfattere [25 ], [26], [27], [28]. Disse resultatene indikerer at TAGCNA er anvendelig for analyse av reelle CNA datasett.
-log10 (p-verdier) er gitt for forsterkning og sletting regioner respektivt. Den stiplede grønne linjen er plassert på 1,3 (tilsvarende p-verdi på 0,05) som en cutoff for å ringe betydelige konsensus hendelser. Kromosom 23 indikerer sex kromosom. Mange viktige SCE-foretak er oppført i begge sider av figuren.
Dessuten er det mange flere forsterker og sletting SCE-foretak identifisert av TAGCNA (en del av dem er listet opp i tabell 2), som kan brukes for videre undersøkelser. For eksempel, 12p11.21 og 15q24.1 omfatte henholdsvis gener FGD4 og HCN4. Mutasjoner i disse genene har blitt assosiert med Charcot Marie Tooth sykdom type 4H [29] og syk sinus syndrome2 [30] hhv. Vi merker oss at de to SCE-foretak viser statistisk signifikans (p-verdi 0,001) i begge forsterker og sletting situasjoner. En annen sletting SCE 10q23.1 inneholder GRID1, som har vist seg å ha sammenheng med økt risiko for å utvikle schizofreni [31].
Diskusjoner
Generelt Oppsummering
Identifisering av SCE-foretak i somatisk kopiantall data har vist seg å være en effektiv teknikk for å oppdage kreft driver gener. I denne artikkelen foreslår vi en ny tilnærming TAGCNA, med formål å øke den statistiske kraften for å oppdage SCE-foretak. TAGCNA er motivert av nøye vurderer biologisk og statistisk signifikans. For å bevare de iboende sammenhenger i CNA data og for å gjøre en konsistens mellom statistikk og permutasjon prosedyre, konstruerer TAGCNA CNA blokker og tester statistisk signifikans av tag markører som representerer blokkene. For å rette opp p-verdier tildelt merke markører, TAGCNA vedtar en peel-off permutasjon ordningen til å generere en rimelig null distribusjon.
Vi utfører simuleringsstudier for å undersøke resultatene av TAGCNA i sammenligning med at av Kommandoer metoden. Siden begge metodene har vurdert sammenhengene mellom tilliggende markører og har modellert den gjennomsnittlige korrelasjonene ved hjelp av en vindusstørrelse, for en rettferdig sammenligning, velger vi
w
= 20, som standardverdien av Kommandoer algoritme [13 ], i simuleringsstudier. Resultatet viser at TAGCNA presenterer høyere positiv sann kurs på samme falske positive i forskjellige simulerings datasett enn for den Kommandoer metoden.