PLoS ONE: Bestemme Hyppige Mønstre av Kopier nummer Endringer i Cancer

Abstract

Kreft progresjon er ofte drevet av en opphopning av genetiske endringer, men også ledsaget av økende genomisk ustabilitet. Disse prosessene fører til et komplisert landskap med kopi nummer endringer (CNAS) innenfor enkelte svulster og stort mangfold på tvers av tumorprøver. Høy oppløsning matrise-basert komparativ genomisk hybridisering (aCGH) er brukt til å profilere CNAs av stadig større svulst samlinger og bedre beregningsmetoder for behandling av disse datasettene og identifisere potensielle driver CNAs er nødvendig. Typiske studier av aCGH datasett ta en rørledning tilnærming, som starter med segmentering av profiler, samtaler av gevinster og tap, og til slutt bestemmelse av hyppig CNAs tvers prøver. En ulempe med rørledninger er at valg på hvert trinn kan gi ulike resultater, og fordommer blir spredd videre. Vi presenterer en matematisk robust ny metode som utnytter probe-nivå sammenhenger i aCGH data å oppdage undergrupper av prøver som viser felles CNAs. Vår algoritme er relatert til nyeste verk på maks-margin clustering. Det krever ikke pre-segmentering av data og gir også gruppering av tilbakevendende CNAs i klynger. Vi testet vår tilnærming på en stor kohort av glioblastom aCGH prøver fra Kreft Genome Atlas og gjenvunnet nesten alle CNAs rapportert i den første studien. Vi fant også ekstra viktig CNAs savnet av den opprinnelige analysen, men støttes av tidligere studier, og vi identifisert signifikante sammenhenger mellom CNAs

Citation. Rapaport F, Leslie C (2010) Bestemme Hyppige Mønstre Kopier nummer Endringer i Cancer . PLoS ONE 5 (8): e12028. doi: 10,1371 /journal.pone.0012028

Redaktør: Jean Peccoud, Virginia Tech, USA

mottatt: 27 april 2010; Godkjent: 02.07.2010; Publisert: 12. august 2010

Copyright: © 2010 Rapaport, Leslie. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av National Science Foundation tilskudd IIS-0705580 og National Institutes of Health innvilge en-U24-CA143840. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Kreft er et komplekst sett av proliferative sykdommer som progresjon, i de fleste tilfeller, er drevet delvis av en opphopning av genetiske endringer, herunder kopi nummer avvik (CNAS) av store eller små genomiske regioner [1], [ ,,,0],2], [3] som for eksempel kan føre til amplifikasjon av onkogener eller tap av tumorsuppressorgener. Imidlertid er kreft progresjon også ofte preget av økende genomisk ustabilitet, potensielt generere mange «passasjer» CNAs som ikke konferere klonal vekst fordel. Disse prosessene gir opphav til et komplisert landskap med genomisk endringer innenfor en individuell svulst og stort mangfold av disse CNAs tvers tumorprøver, noe som gjør det vanskelig å identifisere sjåføren mutasjoner assosiert med kreft progresjon.

I de senere årene, array-baserte komparativ genomisk hybridisering (aCGH) [4], [5] og enkeltnukleotidpolymorfi (SNP) arrays [6] har blitt brukt til å analysere CNAs av tumorprøver ved en genomisk skala og ved progressivt høyere oppløsninger. Dessuten har mange store kreft profilering studier generert kopi nummer datasett for store årskull av svulster [7], [8]. Disse store og komplekse «kreft genom» datasett dagens vanskelige statistiske utfordringer [9]. Individuelle CNAs kan være så små som et par tilstøtende sonder, eller så stor som et hele kromosomer, og kan være vanskelig å oppdage ovenfor sonde-nivå støy; dessuten er det uklart hvordan man skal gi mening ut av diverse CNAs fra hundrevis av svulster

Vanligvis har to typer analyser utført på kopi nummer datasett.

gruppering av prøver av deres CNAs, for å bestemme mulige kreft subtyper preget av et felles mønster av presiseringer og slettinger,

avgjøre betydelige genetiske avvik, enten gevinst eller tap, som forekommer hyppig i datasettet, siden disse kan representere driver mutasjoner viktige for tumorprogresjon

Nesten alltid, er disse problemene løses med en rørledning tilnærming, hvor aCGH profiler av kromosomer for de enkelte prøvene er først behandlet av en segmentering algoritme.; enkelte segmenter (genomiske regioner) er «kalt» som gevinst eller tap, basert på deres amplitude, ved hjelp av et utvalg av statistisk prosedyre og betydning terskel; og til slutt som kalles segmenter blir brukt som inngang til en gruppering algoritme [1], [10], [11] eller ballen-basert fremgangsmåte for å bestemme signifikante vanlige avvik [12], [13], [14]. Ulempen med rørlednings nærmer seg, er imidlertid at algoritmisk valg og justeringsparametere på hvert trinn kan gi svært forskjellige resultater, og feil eller skjevheter blir spredd videre.

For det første skrittet, er det mange segmenteringsalgoritmer [15 ], [16], [17], [18] som gir vesentlig forskjellige segmenter grenser [19], som fører til ulike samtaler av gevinster og tap. Det siste trinnet i å analysere CNAs over prøver avhenger kritisk på valgene som er gjort tidligere. Som et eksempel, den mye brukte GISTIC fremgangsmåte for å bestemme hyppige aberrasjoner [12], brukes som sin teststatistikken, ved hver locus, antallet prøver hvor en gevinst (eller tap) er til stede multiplisert med den midlere amplitude av gevinsten ( tap). Men både teller og gjennomsnittlig amplitude avhenge av tidligere valg i rørledningen.

I denne studien foreslår vi en ny og matematisk robust metode for å finne signifikante mønstre av CNAs i en stor kopi antall datasettet direkte fra de probe-nivå data. Ved å unngå en rørledning tilnærming som involverer en segmentering skritt, til våre algoritme utnytter probe-nivå sammenhenger i aCGH data oppdage undergrupper av prøver som viser felles CNAs. Ved å bruke tilnærmingen i en hierarkisk måte å iterativt partisjonere datasettet, oppdager vi både stor og liten skala hendelser og kan oppdage statistisk signifikante CNAs oppstår på 5% av prøvene. På denne måten løser den algoritmen både clustering problemet og den hyppige aberrasjon problem samtidig. Algoritmisk er vår tilnærming knyttet til nylig arbeid på et maksimum-margin clustering [20], [21], [22], [23], som strekker seg støttevektormaskin lignende optimering tilnærminger til problemet med ukontrollert gruppering. Det vil si, hver partisjon av datasettet oppnås ved å lære en lineær klassifikator av sonden-nivå aCGH profiler som tildeler prøver til en gruppe eller den andre. Vi bygger også på ideer som er utviklet for korrekt klassifisering av aCGH prøver [24], [25], [26], [27], særlig ved bruk av stykket messig konstant og Lasso [17], [26], [28 ] regularisering vilkårene i optimaliseringsproblem, som oppfordrer klassifikator å ta avgjørelser med bare et lite antall sonder i informative sammenhengende regioner.

Vi testet vår tilnærming på en stor kohort av glioblastom aCGH prøver nylig generert av Kreft Genome Atlas Project (TCGA) [7]. Vi fant ut at de store CNAs oppdaget av vår algoritme er i stor grad i tråd med den opprinnelige TCGA studien, ved at nesten alle CNAs tidligere rapportert var også i våre resultater. Men vi fant flere betydelige CNAs savnet av den TCGA analyse, men støttes av tidligere studier og /eller uttrykk analyser. Videre oppsummerer den hierarkiske partisjone tilnærming settet relasjoner og avhengigheter mellom ulike CNAs, som kan være nyttig for å generere hypoteser om sekvensen av CNAs i tumorprogresjon.

Resultater

Algoritme oversikt

Vår algoritme iterativt skillevegger et datasett av tumor aCGH profiler for en gitt kromosom å oppdage undergrupper av svulster med lignende CNAs. I stedet for å bruke standard forbehandling som segmenteringsalgoritmer, vi direkte bruke probe-nivå data og innlemme tidligere kunnskap om innholdet av disse dataene, nemlig: (1) følgende sonder er korrelert, dvs. er sannsynlig å representere de samme kopiantall; og (2) et kromosom vanligvis (men ikke alltid) havner noen CNAs. Ved hvert partisjone trinn, får vi en lineær separator som tildeler aCGH profiler til en av to klasser, representert geometrisk ved de to halv mellomrom (dvs. og) på hver side av hyperplan definert av normalvektoren og forspenningen sikt (Figur 1) . Her, kromosomprofilene og vektvektor er reelle verdier vektorer med dimensjon lik antallet av prober for kromosomet, og bestemmes ved å løse et optimaliseringsproblem (se Metoder) hvor det er begrenset til å være stykkevis konstant (på hverandre følgende sonder har en tendens til å har samme vekt) og sparsom (noen få prober ha ikke-null vekter). Vår tilnærming bygger på en nylig foreslått maksimal margin clustering algoritmen [21], [22], noe som bringer ideer fra stor-margin overvåket lære teknikker som støtte vektor maskin klassifisering og støtte vektor regresjon til uten tilsyn clustering problem; Valget av begrensninger ble motivert av nyere arbeid på smeltet lasso regresjon [28] (se Methods).

Algoritmen finner en lineær funksjon som er i stand til å partisjonere aCGH prøvene inn i to grupper. Ved å løse et optimaliseringsproblem, bestemmer algoritmen vektoren, som geometrisk representerer den normale vektor av et hyperplan (vist i rødt) separering av prøvene, sammen med forspenningen sikt, og tilordningen av prøvene til grupper. I leken viste eksemplet skiller hyper prøvene som presenterer en sletting på q armen (over hyper) fra de som ikke gjør det (under hyperplan).

Siden hver lineære separator resultater i et binært partisjon av samples, bruker vi vår fremgangsmåte iterativt å skille hver gruppe av prøver i to nye grupper på en slik måte at den nye lineære separatoren er ortogonal til den tidligere fastsatte seg. Derfor vil hvert trinn finne en ny retning av variasjon i aCGH data (ligner prinsipal komponent analyse [29]), og de samlede prosedyren gir en hierarkisk oppdeling av datasettet (se Methods).

stor-margin partisjone avslører hierarki av kopinummeret endres

Vi har samlet våre datasettet fra Kreft Genome Atlas (TCGA) data portal [7]. Den inneholder 345 glioblastom tumorprøver med kopi nummer endringer profilerte på Agilent 244K arrays (228K prober). Dette datasettet har tidligere blitt analysert for å bestemme hovedforsterker og delesjonshendelser ved hjelp av RAE [13] og [12] GISTIC algoritmer [7].

Vi brukte nivå 2-data som allerede er produsert av den foregående analyse [7 ]. Disse dataene er allerede blitt normalisert ved anvendelse av en algoritme lowess på stokken forholdet data, og prober flagget som lav-kvalitet (mettet, ikke-uniform eller svak) er ekskludert. Kvaliteten av de matriser ble også målt ved den andel av ekskluderte prober og konsistensen av verdier forbundet med suksessive følere, og lav kvalitet matriser ble fjernet fra datasettet.

Vi løp algoritmen separat på hvert kromosom, med en sparseness koeffisient og en stykkevis-constantness koeffisienten (se Methods). Empirisk har vi funnet det følgende avhengighet av valget av disse koeffisientene: hvis koeffisientene ble valgt til å være for liten, ville det resultere i en triviell gruppering, med alle prøvene som er tilordnet til den samme gruppe; dersom parameterne var for ettergivende, vil den oppnådde clustering være den samme som standard en anordning (). Men mellom disse to ytterpunktene, clustering Resultatene var ikke altfor følsomme for parameter valg. Vi venter at passende område av parametere for å være avhengig av matrisen plattformen samt statistiske egenskapene til matrise profilene i et gitt datasett. Vi foreslår derfor å utføre et rutenett søk på en undergruppe av prøvene og velge den minste mulige parametere som gir en ikke-triviell clustering på hvert kromosom.

For å vurdere betydningen av våre resultater, brukte vi en tilfeldig modell der vi stokket sondene i vårt datasett og sammenlignet avstanden mellom median prøver av våre to grupper til distribusjon av 1000 avstander median prøver av to tilfeldige utvalgsgrupper adskilt med samme klassifikator. Vi har bekreftet at den randomiserte avstanden fordelingen er normalfordelt, og vi beregnet på -verdi for avstanden mellom median prøvene svarende til halen av denne normalfordeling.

For hvert kromosom, vi konstruert en «clustering tre «av iterativt splitte hver gruppe i to hvis det respekteres tre kriterier. Det første kriteriet er at det må inneholde mer enn fem prøver (1,5% av datasettet), siden det ville være vanskelig å oppnå en statistisk signifikant skillevegg av meget små delmengder. Det andre kriteriet var at å splitte denne gruppen ikke ville gjøre dybden av våre tre større enn 3. Den maksimale dybden ble valgt heuristisk: etter tre gjentakelser, vi empirisk fant at gruppene var for små eller separasjon var ikke signifikant lenger. Det siste kriteriet var at partisjonen generere denne gruppen må tilfredsstille en betydning terskel. Selv om dette -verdi kan virke altfor ettergivende, er det viktig å forstå at vår estimator (tyngdepunktavstand) er ikke direkte optimalisert ved algoritmen; Derfor, de empiriske -verdier genereres er relativt konservativt.

Figur 2 gir et eksempel på en «clustering tree» produsert av algoritmen for kromosom 19. Den første iterasjon skiller prøvene i to grupper, en med 17 prøver som presenterer en delesjon av en region av q arm og en av 326 prøver, med. Tyngdepunktet av hver klynge vises i grønt (figur 2, kolonnen lengst til venstre); i tillegg, en segmentering av hver klynge sentroide ved hjelp av et standardverktøy (sirkulær binær segmentering [30]) er vist for å hjelpe til visualisering av kopiantallet forskjellene mellom de to gruppene. Som for separasjon og hver klynge er større enn 5 prøver, splittet vi hver av disse undergruppene i to nye grupper. Splitting av gruppen av 17 prøver ikke er forbundet med en betydelig nok median separasjon (), og derfor er ikke splittet igjen. På den annen side, deling av gruppen av 326 sampler frembringer en gruppe av 250 prøver uten noen åpenbar betydning CNA og en gruppe på 76 prøver hvis sentroide viser en forsterkning av hele kromosomet. Denne delingen har sterk betydning (), og derfor begge disse gruppene deles igjen. Delingen av den gruppe av 250 prøver oppnår ikke signifikans (), og ingen av de resulterende klyngene viser noen signifikant CNAs. Gruppen av 76 prøvene delt i to nye grupper med 37 og 39 prøver (). Hver av disse gruppene viser en forsterkning av hele kromosom, men gruppen med 39 prøver synes å ha en lavere forsterkning av q arm enn i p armen mens den andre ikke gjør det. Som vi begrense oss til trær av dybde 3, har vi ikke partisjonere en av disse gruppene videre.

I hver iterasjon av algoritmen, er hvert tidligere identifisert gruppe av prøver partisjonert i to nye klynger brukt for maksimums margin clustering teknikk som utnytter sammenhenger i aCGH profiler (se Methods). Partisjoneringen prosessen stopper når (i) en gruppe har færre enn 5 prøver; (Ii) å generere partisjons gruppen ikke klarer å oppnå en statistisk signifikans terskel av; eller (iii) treet er allerede ved den maksimale dybde av 3. I bildet ovenfor, blir hver gruppe representert ved dens sentroide, dvs. dets median-profil, i grønt. For visualisering formål, segmentering av tyngdepunktet, produsert av sirkulær binær segmentering [30], er vist i rødt.

Analyse av glioblastom aCGH data gjen kjent CNAs uten å segmentere prøver

Vi søkte iterativ prosedyre til hvert kromosom uavhengig av hverandre, som beskrevet i forrige avsnitt. For å ringe karakteristisk CNAs av hver klynge, søkte vi sirkulære binær segmentering [30] ved å bruke standardparameterne på dens sentroide, dvs. median profilen i klyngen, og er tilknyttet den karakteristiske CNA (e) av denne geometriske tyngdepunkt for klyngen. Man bør forstå at avvik av tyngdepunktet profilen ikke kan deles av hver og en av klase prøvene, men at det gir et godt estimat av disse hendelsene. Vi advarer også at størrelsen på partisjonen gir et godt inntrykk av pene men er ikke helt tilsvarende.

Den første iterasjon av vår algoritme funnet en forsterkning av hele kromosom 1, av hele kromosom 7 og av hele kromosom 20. det er også identifisert sletting av hele armen 9 p, så vel som en stor del av 19q, hele kromosom 10, hele kromosom 13, hele kromosom 14, og det hele kromosom 22. den andre iterasjon av algoritmen fant tap av 6q arm, delesjon av hele kromosom 15, av hele kromosom 16 og en forsterkning av hele kromosom 19. det er også vist at noen prøver som presenterer en forsterkning på kromosom 7 inneholder også en fokal og meget kraftig forsterkning hendelse på 7 p armen. Den tredje gjentakelse av algoritmen identifiserte fokale forsterkningsarrangementer på kromosom 3 og på kromosom 4. Den viste også et tap av hele kromosomer 9 og 21. Disse resultater er oppsummert i tabell 1, sammen med størrelsen på partisjonen hvor hver CNA ble identifisert i form av antall prøver og prosentandel av hele datasettet.

en analyse av det samme datasettet ved hjelp av både RAE [13] og GISTIC [12] algoritmer har allerede blitt publisert [7 ]. Begge metodene enige om betydelige store forsterknings arrangementer for hele kromosomer 7, 19 og 20 og fokusforsterknings hendelser på kromosom 1 og 12; betydelige store sletting aktiviteter kromosomarmer 6Q, 9 p, 15Q, på hele kromosomer 10, 13, 14 og 22; og knutepunkter sletting hendelser på kromosom 1. I tillegg RAE funnet vesentlige knutepunkter forsterkning hendelser på kromosom 14, samt betydelige knutepunkter sletting hendelser på kromosom 11. Derimot var GISTIC funnet forskjellige tilleggs knutepunkter forsterknings hendelser på kromosomene 3 og 4. Figur 3 inneholder en oppsummering av resultatene våre, samt en sammenligning med forsterkning og sletting hendelser funnet av begge disse analyse.

de horisontale spor viser CNAs identifisert ved første tre gjentakelser av vår metode, sammenlignet med de som finnes av GISTIC og RAE. Den midterste sporet viser kromosomene, med enda kromosomtall kommenterte. Gevinst er merket i rødt og tap i blått.

Som vist i figur 3, de fleste av hendelsene som finnes i både RAE og GISTIC analysene er funnet av de to første gjentakelser av vår metode, inkludert alle store -skala hendelsen identifisert av disse metodene. Unntak er en liten forsterkning hendelse på kromosom 12, hendelsene på kromosom 1 (hvor vår metode er uenig med funn av RAE og GISTIC) og en forsterkning hendelse på kromosom 4, som du finner på vår tredje iterasjon.

iterativ partisjone avslører roman CNAs støttet av uavhengige glioblastom studier

Utover utvinne nesten hele CNAs identifisert ved hjelp av metoder som RAE og GISTIC, vår iterativ partisjone algoritme funnet en rekke viktige hendelser som ikke ble oppdaget av tidligere analyser av dette datasettet . Disse hendelsene inkluderer en forsterkning av hele kromosom 1, en sletting hendelse på hele kromosomer 9, 15, 16 og 21, samt en sletting av 19q arm.

Noen av disse hendelsene har blitt dokumentert i studier av uavhengige kopitall datasett, for eksempel delesjon på 19q arm [31], [32] og i kromosom 16 [33]. Slettingen av kromosom 21 tidligere er blitt forbundet med glioblastom [34], og det har blitt foreslått at den lave forekomst av glioblastoma i Downs syndrom pasienter som er knyttet til kromosom 21 trisomy som karakteriserer denne genetisk sykdom [35]. Her finner vi kromosomet sletting forbundet med en svært liten klynge (6 prøver), og den lave frekvensen forklarer antagelig hvorfor denne villfarelse var savnet av tidligere analyser. Slettingen av kromosom 15 faktisk omfatter sletting på 15Q arm funnet i tidligere analyser. Formen på det geometriske tyngdepunkt for denne skillevegg viser at amplituden av delesjonen er mindre på resten av q arm og på den p arm, og det er mulig at full kromosom delesjon ikke ble funnet ved RAE eller GISTIC grunn av den mindre amplitude .

for å identifisere gener som er godt korrelert med CNAs, utførte vi en betydning analyse av microarray (SAM) ved hjelp av samr pakken. For hver klynge, vi merket hver prøve i henhold til etiketten (på innsiden eller utsiden av klynge av interesse), og så på det antall gener i regionen av CNA som var signifikant forskjellig underexpressed i tilfelle av en delesjon, eller betydelig overuttrykt i Ved en forsterkning. Beregningene er utført ved hjelp av t-statistikken, 100 permutasjoner og Tusher metoden [36].

Våre resultater, oppsummert i tabell 1, viser at i de fleste tilfeller et stort antall gener hadde uttrykk nivåer som er betydelig korrelert med tildeling av prøvene til klyngen skjuler CNA. Det skal bemerkes at forholdet mellom uttrykk og kopiantall er sammensatt, og at fravær av signifikante korrelasjoner utelukker ikke tilstedeværelsen av CNA, spesielt i tilfeller hvor lavt antall av gener eller prøver gjør denne sammenheng statistisk vanskelig å påvise.

romanen CNAs oppdaget av vår analyse er korrelert med flere viktige gener. For eksempel er sletting av kromosom 16, de 19q13.2-19q13.43 regioner, og kromosom 21 signifikant korrelert med underexpression av kandidat kreft-suppressor-gener, henholdsvis CBFB [37], [38] eller CDH11 [39] , TFPT [40] og DSCR1 [35], noe som gir ytterligere bevis til støtte for disse hendelsene.

Flere sett med hyppige kromosomavvik viser høy korrelasjon

En fordel med vår metode i forhold til score- baserte tilnærminger som RAE og GISTIC er at det gir et oppdrag av prøver til grupper – eller, mer presist, identifiserer CNAs ved samtidig å finne grupper av prøver som havn dem – noe som gjør det lettere å identifisere hvilke prøver blir påvirket av hvilke hyppige CNAs . Vi tilhørende hver prøve til et sett av hyppig CNAs basert på dens klynge oppgaver i kromosom-baserte iterativ prosedyre partisjonering. Vi fant at samtidig forekomst av hyppige CNAs innenfor en prøve var vanlig; ja, et flertall av prøvene (249 av 345) inneholdt to eller flere av de hyppige CNAs oppført i tabell 1.

Vi videre undersøkt co-forekomster av par av hyppige CNAs, og vi fant ut at 31 parene kan anses som korrelert (dvs. med et kryss prøve oppdrag bedre enn forventet av bakgrunnen frekvenser) med ved Fishers eksakte test (se Utfyllende Figur S1).

en enkel analyse av disse vesentlige parene viste at disse korrelert CNAs faktisk kan ses som tre grupper av co-forekomster:

den forsterkning av kromosom 7 og tilhørende brennvidde forsterkning hendelsen, sletting på 9p, sletting av kromosomer 10, 13 og 14 samt presiseringer på kromosomene 19 og 20 er alle sterkt korrelert.

sletting av 6Q er godt korrelert med fokus forsterkning hendelsen på kromosom 7 samt med slettingen på 9 p.

sletting på kromosom 22 er vel korrelert med forsterkning av kromosom 7 (men ikke med den tilhørende brennvidde hendelse), sletting av kromosom 10 og sletting av kromosom 14.

Diskusjoner

Recovery av CNAs savnet av sammendrag statistikk

Noen av de nye glioblastom CNAs som vi har funnet er gode eksempler på hvordan vår metode forbedrer sammendrag statistikk tilnærminger, for eksempel RAE og GISTIC. For eksempel har sletting av kromosom 15 bare blitt sett på q arm av RAE og GISTIC. Når vi undersøkte profil av sentroiden av en klynge identifisert ved vår metode, så vi en lavere amplitude sletting på armen p i tillegg. På grunn av denne lave amplitude, ville hver sonde på egen hånd ikke har en betydelig gjennomsnittlig sletting over datasettet, og vil dermed bli savnet av et sammendrag statistikk. Men fordi alle prober for kromosomet er berørt, slettingen skal betraktes som en betydelig CNA og er lett identifiseres ved tilnærming.

Som et annet eksempel, 19q2-19q13.3 har slettingen av regionen ikke blitt funnet av andre metoder brukes på TCGA datasettet, selv om det har blitt bekreftet som en sletting hendelse ved tidligere studier. Her er problemet synes å være det faktum at den samme region er også tilstede som en forsterkning hendelse på et større antall prøver, noe som forvirrer deteksjon av denne delesjon av et sammendrag test statistikk. Til slutt blir delesjon av hele kromosom 21 antagelig savnet av andre metoder, fordi det er presenterer på bare et lite antall prøver (6 prøver eller 2%). Imidlertid, siden dette arrangementet er en delesjon av hele kromosomet og derfor understøttes på mange prober, intuitivt bør det være mye mer statistisk signifikant at en mindre, men likeledes sjeldne event. Faktisk, er betydningen av denne CNA bekreftet ved tidligere studier knytter trisomy 21 i Downs syndrom til lavere Utbredelsen av glioblastom, så vel som ved korrelasjon med under-ekspresjon av en kandidattumor lyddemper-genet til stede i dette området.

Recovery fokale hendelser

Figur 3 viser at selv om den første iterasjon av algoritmen vår ser ut til å fokusere på store avvik, følgende iterasjoner er i stand til å finne fokus hendelser som de på kromosomene 3 og 4, og at vår algoritme er derfor i stand til å finne fokus arrangementer, samt store. Den eneste samlings hendelsen hvis tilstedeværelse er enige om både RAE og GISTIC og at vår metode er ikke i stand til å finne er den på kromosom 12. Ser på rådata viser oss at denne hendelsen er delt av omtrent 40 prøver, men påvirker bare to sonder, som gjør det vanskelig signal å finne når man ser en flere sonder. Men ved å begrense vår analyse til et lite intervall sentrert på hendelsen (300kbp eller 40 prober), var vi i stand til å identifisere felles hendelse ved hjelp av vårt maksimale-margin clustering algoritmen (se Utfyllende Figur S2), noe som tyder på at vår metode kan kanskje være brukes i forbindelse med et glidende vindu for å bedre deteksjon av svært små arrangementer.

Analyse av prøver med høy støy og genomisk ustabilitet

glioblastom kopitall profiler som vi analysert her har relativt få CNA hendelser og derfor gi en gunstig test for matematisk analyse. Kopi antall datasett for andre kreftformer har vist seg langt mer problematisk. For eksempel kan en ny kopi antall studier av lunge adenokarsinom [8] samlet en meget stor (400 sampler), men utfordrende datasett, hvor signal-til-støy variert mye over prøvene – muligens på grunn av stromal forurensning – og en betydelig fraksjon av prøvene viste en rekke arrangementer. Forfatterne kuratert prøvene inn i tre nivåer basert på signalkvalitet og begrenset analysen til den beste tier. Til tross for det store gjennomsnittlig antall hendelser per prøver, studien identifiserte bare noen få regioner endret i et betydelig antall prøver, med de mest vanlige CNA (forsterkning av kromosom 14q13.3) bare til stede i 12% av de beste tredje (øverst tier ) av sine prøver. Vi har anvendt vår metode til denne lunge adenokarsinom datasettet for å se hvordan det ville opptre en høy støy innstilling. Siden den opprinnelige tildeling av prøver til lagene var ikke lett tilgjengelig, gjorde vi en første pass analyse av hele datasettet – uten å forsøke å redusere til de reneste prøvene – med de samme parametrene som vi brukte på TCGA datasettet. Interessant, den første iterasjon av algoritmen fordelt hvert kromosom i to grupper som inneholder nøyaktig de samme prøvene (med), med en gruppe bestående av prøver med en sterk, men meget støyende signal og den andre inneholdende prøvene med et svakt signal. Dette resultatet tyder på at vår metode kan være i stand til å automatisk skille signalkvalitet.

Den første valg av parametere ikke finne noen vesentlige avvik ved en -verdi cutoff på 0,05, muligens på grunn av ulike array plattform samt de ulike statistiske egenskapene til kopinummer profiler (se Utfyllende Figur S3 og analytiker Tabell S1). Men ved å bruke vår algoritme med et annet sett med parametere (og) på kromosom 14 tillot oss å finne forsterkningen av 14q13.3, om enn bare i 6 prøver (2% av det totale antallet av prøver) og med en svak -verdi () . Her kan tilstedeværelsen av en stor gruppe av meget støyende prøver i datasettet være ansvarlig for nedbrytning av -verdi. Selv om vi ikke var i stand til å direkte sammenligne med den opprinnelige analysen på de beste prøvene tier, dette rask analyse på hele datasettet er ganske oppmuntrende, ved at vi var i stand til å hente det viktigste resultatet uten et

ad hoc

konservering av prøvene.

Mulige algoritmisk utvidelser

analysen ovenfor understreker også betydningen av valget av de to begrensnings parametre, og (se metoder), som bestemmer graden av sparseness og piecewise- constantness, henholdsvis, av de lineære klassifiserere. Vi valgte parametrene for glioblastom studier gjennom heuristikk og gjenvunnet mest kjente arrangementer, samt flere nye og troverdige CNAs. Imidlertid kan full utforskning av denne parameteren plass gi ytterligere resultater; for eksempel å disponere algoritme for å finne fokus hendelser, kan man prøve å gjøre det sparsity begrensningen strengere. Forskjellige strategier kan bli anvendt for å optimalisere valget av parametere, inkludert bruk av et kryssvalidering sløyfe. For å implementere denne tilnærmingen, ville man ha for å velge en egnet metode for å anslå kvaliteten av klyngene: standard estimatorer er nært knyttet til objektfunksjonene optimalisert av tradisjonelle clustering algoritmer (for eksempel en anordning), som ikke tar hensyn til egenskapene av kopiantall profiler (dvs. romlige sammenhenger, sparsity av sletting /amplication hendelser). Imidlertid vil en slik kryssvalidering sløyfe medfører også omstendelig beregningstider. Denne kostnaden kan bli sterkt redusert hvis vi var i stand til å beregne hele regularisering banen til smeltet lasso i én omgang, som andre var i stand til å gjøre med den opprinnelige lasso [41] og SVM [42] optimeringsproblemer.

<

Legg att eit svar