PLoS ONE: Spesifikke Genomisk regioner Forskjellig Påvirket av kopiantall Endringer over Klare krefttyper, i Aggregert Cytogenetisk data

Abstract

Bakgrunn

Regionale genomiske kopi nummer endringer (CNA) er observert i de aller fleste kreftformer. Foruten spesielt rettet mot kjente, kanoniske onkogener, kan CNAs også spille mer subtile roller i form av moduler genetiske potensial og brede genuttrykksmønster utviklings svulster. Noen vesentlige forskjeller i den samlede CNA mønsteret mellom ulike krefttyper kan dermed peke mot spesifikke biologiske mekanismer som virker i disse kreftformer. I tillegg kan forskjeller mellom CNA profiler være verdifull for kreft klassifikasjoner utover eksisterende merknads systemer.

hovedfunnene

Vi har analysert molekylære-cytogenetisk data fra 25579 svulster prøver, som ble klassifisert til 160 kreft typer i henhold til International Classification of Disease (ICD) kodesystem. Når korrigere for forskjeller i den samlede CNA frekvenser mellom krefttyper, ble relatert kreft ofte funnet å klynge sammen etter likheter i sine CNA profiler. Basert på en randomisering tilnærming, ble avstand tiltak fra klynge dendrogrammer brukt for å identifisere de bestemte genomiske regioner som i vesentlig grad bidrar til dette signalet. Denne tilnærmingen er identifisert 43 ikke-nøytrale genomiske regioner som har tilbøyelighet for forekomsten av kopitall endringer varierte med den type kreft for hånden. Bare et delsett av disse identifisert loci overlappet med tidligere underforståtte, svært tilbakevendende (hot-spot) cytogenetiske ubalanse regioner.

Konklusjoner

Derfor, for mange genomiske regioner, en enkel null-hypotesen om uavhengighet mellom krefttype og relativ kopi nummer endring frekvens kan bli avvist. Siden en undergruppe av disse regionene viser relativt lave total CNA frekvenser, kan de peke mot andre-lags genomiske mål som er adaptiv relevant, men ikke nødvendigvis avgjørende for kreftutvikling

Citation. Kumar N, Cai H, von Mering C, Baudis M (2012) Spesifikke Genomisk regioner Forskjellig påvirket av kopiantall Endringer over Klare krefttyper, i Aggregert Cytogenetisk data. PLoS ONE 7 (8): e43689. doi: 10,1371 /journal.pone.0043689

Redaktør: Patrick Tan, Duke-National University of Singapore Graduate Medical School, Singapore

mottatt: 30 april 2012; Godkjent: 23 juli 2012; Publisert: 24 august 2012

Copyright: © Kumar et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Forfatterne har ingen finansiering eller støtte til rapporten

konkurrerende interesser:.. forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Genetiske endringer som punktmutasjoner, regional kopiantall forandringer /avvik (CNA) og strukturelle endringer (f.eks genet fusion hendelser) er alle kjennetegnene til kreft. CNAs oppstår som somatiske endringer i tumorcellegenomet gjennom en rekke mekanismer, og kan observeres i praktisk talt alle typer kreft, i varierende grad. Så langt har de mest brukte metoder for påvisning av CNAs vært kromosom og matrisebasert komparativ genomisk hybridisering (CGH) teknikker [1] – [4]. Lokalisert, gjentakende CNAs (hot-spots) har vist seg å målrette kanoniske onkogener (f.eks duplikasjoner /presiseringer av MYC, MYCN, REL loci) eller tumorsuppressorgener (for eksempel sletting av CDKN2A /B, TP53, ATM loci). Noen regionale CNAs som gevinster på 8q og tap på 3p er til stede på tvers av flere krefttyper, mens andre ubalanser kan i stor grad begrenset til et begrenset antall kreft enheter [5].

datasett integrert på tvers av flere krefttyper har tidligere blitt analysert, rapportere regionale «hot-spots» av hyppige CNAs [5], [6]. I et gitt sett av individuelle tumorprøver, antallet og fordelingen av CNAs varierer betydelig [5], og denne genetiske heterogenitet er blitt anvendt for å detektere og rapportere samtidig forekommende CNAs [7].

I prinsipp, spesifikke mønstre og likheter i de enkelte og /eller sykdomsspesifikke CNA profiler kan peke til forskjellige oncogenomic mekanismer som virker i ulike krefttyper og prøver, gitt et tilstrekkelig stort antall datapunkter. Faktisk, gruppering av CNA mønstre er blitt benyttet for å identifisere oncogenomic likheter [5], [8] – [11]. Tilpasningen av clustering teknikker for analyse av CNA mønstre har vært gjenstand for tidligere studier [12] – [14]. Med noen få unntak [5], [14], men sample-basert clustering har vært hovedfokus for slike studier så langt. I kontrast, vi her utforske gruppering av krefttyper, ikke av enkeltkreftprøver.

Både beskrivende og klyngebaserte analyser av CNA tvers av flere krefttyper lider av en bias mot de oftere forekommende hendelser. På grunn av heterogeniteten av den samlede CNA-signalet, med høyst varierende gjennomsnitts frekvenser av CNAs pr krefttype (figur 1a), kan clustering resultater bli forvrengt, avhengig av sykdomsenheter analysert. Denne variasjonen i samlet CNA hendelsesfrekvensen over krefttyper kan rett og slett være owed til forskjeller i gjennomsnitts tidspunkter klinisk påvisning eller i ulike progresjons egenskaper, og bør korrigeres for før clustering analyser. Så langt vi kjenner til, så langt ingen implementeringen har blitt rapportert for en omfattende, svært store clustering analyse av frekvens normalisert kreft CNA profiler.

boksplott viser CNA frekvensfordelingene mellom tumorprøver i 10 tilfeldig utvalgte krefttyper. Boksplott delineations markere percentil 5%, 25%, 75% og 95%. De røde linjene indikerer gjennomsnittsfrekvensen for hver krefttype, mens den blå linjen representerer den samlede gjennomsnittsfrekvensen på tvers av alle 160 krefttyper analysert her. Frekvensverdiene er definert som forholdet av antall sampler som viser et CNA for en genomisk region (dvs. cytogenetisk bånd) i løpet av totalt antall prøver i den krefttype. a) Før normalisering b) Etter normalisering. I b) den nominelle frekvensfordeling for hver krefttype er re-skalert slik at middel matcher den totale gjennomsnittet på tvers av alle krefttyper. (NOS – «ikke annet er spesifisert»: høy ordre klassifikasjoner, ikke videre tildelt mer detaljerte nivåer)

Her har vi fokus på identifisering av genomiske regioner som bidrar menings til clustering av kreft. typer. Fra heretter vil vi referere til dem som «ikke-nøytrale» regioner. Som utgangspunkt for vår analyse, bruker vi hierarkiske clustering å ordne krefttyper på basis av deres CNA frekvens profiler. Vi benytter da en permutasjon tilnærming for å estimere den relative bidrag fra hvert av genomiske regioner til kvaliteten på clustering og til den utledede relasjonen treet. Den clustering kvalitet utledes fra en iboende mål (summeres avdelings lengder: trehøyden statistikk), og genomiske regioner som forkaster nullhypotesen kalles ikke-nøytral. Identifiserte regioner er i forhold til kanoniske CNA hot-spots (dvs. de som forekommer oftest på tvers av hele datasettet).

Vår nåværende Analysen er basert på data fra totalt 25579 prøver, som er klassifisert i 160 forskjellige kreft enheter (tabell S1) i henhold til International Classification of Disease in Oncology (ICD-O 3). Vår tilnærming er unik ved at den a) fokuserer mindre på clustering som sådan, men mer om de enkelte genomiske regioner som best støtter clustering, b) bruker en iboende kvalitet tiltak koplet til en permutasjon strategi for validering, c) utfører CNA frekvens normalisering før analyse, og d) er basert på et meget stort datasett, behandlet i en standardisert oppsett. Vi tar sikte på å identifisere potensielle kreftspesifikke sjåfør /modulator regioner, som kanskje ikke har vært påvist i tidligere, i stor grad hot-spot-fokusert tilnærming. Alle de underliggende kreft data er tilgjengelig gjennom vår Progenetix repository (www.progenetix.org [15]).

Resultater

Den gjennomsnittlige generelle hyppigheten av CNAs over hele genomet varierer blant annet krefttyper (Figur 1a). Siden den relative vekten av CNAs på individuelle genomiske regioner i en gitt krefttype avhenger av observerte totale genom-wide frekvens, samles vi alle pasientprøver av krefttype og normalisert frekvensene av CNAs for hver krefttype til total gjennomsnitts observert over hele datasettet (figur 1b, fig S1). De normaliserte CNA frekvens profiler ble deretter samlet ved hjelp av hierarkisk clustering.

For å vurdere kvaliteten og den biologiske signal i clustering, vi merket hver krefttype med sin «root» celletype (dvs. en udifferensiert celletype fra som svulsten sannsynligvis stammer). Vi forventet kreft i samme rot celletype å klynge sammen; Dette ble anvendt som en ekstern proxy for de forventede biologiske relasjoner mellom kreft enheter. Random Index [16] ble brukt til å beregne denne eksterne klyngen kvalitet tiltaket. Svulster i samme celletype faktisk ofte gruppert sammen, vanligvis i 2-3 små grupper (figur 2). Konsistensen av denne grupperingen var signifikant høyere enn antatt tilfeldig, som peker mot biologisk betydningsfulle forskjeller i CNA profiler mellom tumorer av forskjellige opprinnelse. Cutting treet på flere høyder alltid førte til en observert kvaliteten clustering som var bedre enn forventet tilfeldig verdi (figur 2), med unntak av kutt på høyeste nivå, noe som resulterte i kun tre klynger. Dette argumenterer sterkt mot en helt nøytral forekomst mønster av CNAs i genomet, og støtter en sammenheng mellom biologisk meningsfulle grupper av kreft enheter og deres CNA profiler.

a) eksempler på enkeltkromosomsegmenter, som viser deres observerte CNA frekvenser stratifisert etter celletype. Hver prikk oppsummerer alle prøvene klassifisert under en bestemt ICD type, fargekodet etter rot celletype. I venstre panel, er tre kromosomsegmenter vist at utstillingen sterke forskjeller mellom celletyper; på høyre side, tre negative eksempler uten et slikt signal. Alle p-verdier ble korrigert for multippel testing i henhold til Benjamini-Hochberg. b) dendrogram (tre) er oppnådd ved hjelp av hierarkisk Ward clustering på de globale frekvens normalisert CNA profiler på tvers av alle 160 genomiske regioner. Kreftformer er nytt fargekodet i henhold til celletype av opprinnelse, med den samme legenden som i a). Partisjonering treet ved å kutte i ulike høyder produserer flere klynger; validering av disse klynger basert på kreft opprinnelse (metrisk: Random Index) viser at klynge fungerer vesentlig bedre enn forventet på måfå

Randomizations av hele frekvens matrise føre til en fullstendig tap av signalet. stede i clustering treet (figur S2), og også sterkt redusert oppsummerte avdelings lengder tree-høyde statistikken.

ikke-nøytral CNAs

den normaliserte og gruppert frekvens matrise som omfatter 160 storskala genomiske regioner og 160 krefttyper er vist i figur 3. for å bestemme hvor mye hver enkelt genomisk region bidrar til det totale signal, vi individuelt randomisert dens profil på tvers av krefttyper, samtidig som resten av dataene uendret. Vi undersøkte samtidig reduksjon i treet lengdestatistikken (TLS) av clustering dendrogram, på 100000 uavhengige randomizations, for å fastslå den statistiske betydningen av at regionens bidrag. De resulterende kreft-divergerende CNA regioner er viktige som de ikke kan være helt nøytral og har potensial til å definere relasjoner mellom krefttyper. Faktisk, 43 av de 160 genomiske regioner (tabell S1) ble observert å ha en ikke-nøytral bidrag (Bonferroni-korrigert p-verdi) i de aggregerte kreft CNA data. Merk at gevinst og tapshendelser ble behandlet uavhengig av hverandre, og ingen fortrinnsrett bias mot gevinster eller tap ble observert blant de oppdagede ikke-nøytrale områder (22 gevinster og 21 tap). CNA forekomst frekvensene av de ikke-nøytrale genomiske regioner spre grundig hele frekvensspekteret (figur 4). Bare 13 (8 gevinster og 5 tap) av de ikke-nøytrale områder ble funnet endret samlet oftere enn gjennomsnittet (figur 5, skjæringspunktet mellom svart og grått rektangel), noe som indikerer at delsett av hyppig endrede hotspot regioner bære et påvisbart signal for å skjelne kreft typer (antall hyppig endrede regioner står på 59, Bonferroni-korrigert p-verdi, tabell S1). Denne observasjonen streker vår viktigste punktet at ikke bare de hyppige CNA regionene bør brukes til å klynge og kommentere krefttyper.

a) Heatmap av CNA profiler på genomiske regioner (samme gruppering som i figur 2). Genomiske steder er representert med oransje farge når de vurderer duplikasjoner /gevinster, og i blått når de vurderer slettinger /tap. Fargeintensitet viser relative CNA frekvenser; den mest rammede regionen i hver rad er vilkårlig satt den til lyseste fargen (1.0) for visning formål. b) Små regioner (svarte rektangler på heatmap) har zoomet inn for å vise hvordan ikke-nøytral CNAs kan skille mellom krefttyper. Eksempelet viser at 7q fortrinnsvis fått i hjernesvulster (røde etiketter), mens det er fortrinnsvis tapt i bakterie celle (svarte etiketter), myeloid og myeloproliferative krefttyper (blå etiketter). c) Små regioner (røde rektangler på heatmap) har zoomet inn for å vise hvordan 8q fortrinnsvis tapt i medullublastomas (grønne etiketter) og fortrinnsvis fått i epiteltumorer (rosa etiketter). Noen kromosomer består i sin helhet av ikke-nøytrale områder (for eksempel kromosomer 18 og 7). Legg merke til at den romlige oppløsningen på CNA data på kromosom er begrenset (omtrent tilsvarende cytogenetisk bandet oppløsning).

Genomisk regioner (band) er sortert i henhold til deres generelle hyppigheten av CNAs observert. De regionene som er informativ med hensyn til krefttype clustering er merket med piler. a) Vurderer duplikasjoner (gevinst) b) Vurderer slettinger (tap).

Genomisk regioner rammet av CNAs, enten oftere enn gjennomsnittet (svart rektangel), eller ikke-nøytralt med hensyn til kreft-type klassifikasjoner (grå firkant). Skjæringspunktet definerer områder som berøres både ofte og ikke-nøytralt. Endringer er fargekodet (gevinst i oransje og tap i blått).

22 genomiske intervaller over 12 kromosomer ble funnet å være informativ når spesifikt vurderer duplikasjoner /gevinster bare (Tabell 1 og figur 5). Alle tre genomiske segmenter av kromosom 18 (18p1, 18p2, 18q2) utviste et signal. For andre kromosomer som kromosom 1 (1q2,1q3,1q4,1p2), kromosom 3 (3q1, 3q2, 3P1), kromosom 12 (12q1,12q2) og kromosom 21 (21p1, 21q1) mer enn 50% av genomiske regioner var informativ som gevinster, noe som tyder samtidig involvering av flere loci fra disse kromosomene. Endringer på kromosom 1 (1P2), kromosom 3 (3P1, 3q1), kromosom 5 (5q2, 5q3), kromosom 9 (9p1), kromosom 11 (11p1), kromosom 12 (12q1, 12q2), kromosom 18 (18p1, 18q1 , 18q2) og kromosom 21 (21p1, 21q1) var selektivt informativ kun som gevinster. Når det gjelder slettinger /tap ble 10 kromosomer som omfatter 21 genomiske regioner funnet å være ikke-nøytral. Som for kromosom 18 gevinster, ble fullstendig kromosom 7 (7p1, 7p2, 7q1, 7q2, 7q3) funnet å være informativ når tapt (tabell 1). Informative regionene på kromosom 1 (1p1,1q1, 1q2, 1q3, 1q4) og kromosom 9 (9q1, 9q3, 9p2) dekket mer enn 50% av genomiske segmenter som finnes på disse kromosomene. Selektive tap ble observert på kromosom 1 (1P1, 1q1), kromosom 6 (6q2), 7 (7q1, 7q2, 7q3, 7p2), 8 (8q1, 8q2), 9 (9p2, 9q1, 9q3), 12 (12p1) , 16 (16q1). CNAs involverer kromosom 1 (1q2, 1q3, 1q4), kromosom 3 (3q2), kromosom 7 (7p1), kromosom 19 (19p1) og kromosom 22 (22q1) var informativt både gevinst og tapshendelser. Dette representerer en liten andel (16%) av ikke-nøytral CNA. Involvering av en region som både gevinst og tap kan peke mot multippel adaptiv relevant loci, og /eller mot et generelt ustabile natur disse regionene.

Kreft divergerende Nature of Non-nøytral CNA

for å gi noen eksempler på kreft klassifisering oppførsel av ikke-nøytrale forandringer, valgt vi noen av de anrikede endringer og analyserte dem for deres spesifikke forekomst i forskjellige kreftformer. Et eksempel inkludere kreft enheter viser dominerende tap versus gevinster på 7q. Fortrinnsrett tap involverer 7q ble observert i bakterie celle, myeloid og myeloproliferative tumorer (figur 3), mens neuroepithelial hjernesvulster (blant andre enheter) vises fortrinnsvis gevinster på 7q. Tap som involverer 7q er vanlig i myeloid og myeloproliferative tumorer [17] – [20] og er forbundet med høy alder og motstand mot terapier [21], [22]. Men her viser vi at 7Q tap er ganske spesifikke for myeloide tumorer og fremme deres selektive avvik fra andre krefttyper. 7Q tap i bakterie celle svulster hadde ikke blitt utforsket i detalj [23], [24]. Ved akkumulering av 7Q tap praktisk talt begrenset til myeloide /myeloproliferative neoplasier og bakterie celle svulster og i motsetning til kromosom 7 (q) gevinster observert i f.eks neuroepithelial hjernesvulster, er det fristende å foreslå involvering av minst ett felles oncogenetic mekanisme som opptrer i disse klinisk urelaterte malignitet.

kromosom 8Q gevinster kan observeres i de fleste kreft enheter [5], [6]. Men i vår analyse 8Q tap ble beriket som ikke-nøytrale hendelser. Fortrinnsrett tap involverer 8q var til stede i noen hjernesvulster (f.eks medulloblastoma, figur 3), som skiller dem fra andre epiteltumorer. Forskjeller i fortrinnsrett tap involverer 8q separert neuroepithelial svulster i to kategorier med begge har gevinster på 7q men bare en (hovedsakelig meduloblastomas) har fortrinnsrett tap på 8q (Figur S3). Tap som involverer kromosom 8q over Medulloblastomas har blitt rapportert av noen [25] studier før. Vår analyse viser at 8Q tap er valgt for i noen Medulloblastomas og derfor kunne være viktig for kreftutvikling /progresjon. Fortrinnsrett tap av 8q ble også observert i bakterie celle svulster skille dem fra andre epiteliale neoplasier (figur S4).

Som et annet eksempel på begrensede CNA typene vi også sett for kreft som viser gevinster involverer kromosom 18. Follikkelfasen lymfomer utstilt bestemt gevinster på kromosom 18 der som epiteltumorer foretrakk å løse kromosom 18 (figur S4). Kromosom 18 gevinster er svært vanlig i follikulære lymfomer og er ment å gi en alternativ mekanisme for BCL2 aktivering [26], [27]. Men her viser vi at dette CNA hendelsen statistisk skiller dem fra andre krefttyper.

Diskusjoner

Vår nåværende studien representerer den største analyse utført oppdatert på kreft CNA data, med sikte på å avdekke oncogenomic funksjoner som kan være spesielt forbundet eller beriket i visse undergrupper av kreft enheter. I motsetning til gen-sentriske tilnærminger, vår analyse vurderer fullstendig informasjon løpet av genomiske kopi nummer ubalanser fra hele genomprofilerings eksperimenter.

Totalt hyppigheten av CNAs over genomisk intervaller varierte mellom 0,01% til 23% ( figur 4). Gruppering av krefttyper på basis av deres frekvens profiler bidratt til å identifisere en klasse av underliggende molekylære signaler som er ortogonal på histologiske klassifiseringer eller kliniske kategorier (den sistnevnte er hovedsakelig drives av det påvirkede organ /vev). Cancertyper varierer fra hverandre i deres CNA overflod, CNA størrelsesspektrum og graden av genomiske ustabilitet. Med hensyn til genom-dekning, store CNAs er generelt hyppig i kreft [6], og skal ikke utelukkes fra statistiske analyser av kreft genom mønstre. Mens sammenligne CNA profiler av krefttyper, deres kompleksitet og variasjon i frekvenser må tas i betraktning. Når man korrigerer for disse parametrene, kan regionale CNAs definerer divergensen av de samlede profilene være avgrenset.

Vi utførte en analyse av en global kreft CNA datasett, identifisere 43 genomiske regioner på 15 kromosomer som vesentlige for CNA profil divergens i krefttyper. Selvfølgelig trenger disse endringene ikke dekke hele spekteret av CNA hendelser i kreft, men definere en undergruppe av genomiske regioner som kan ha en muligens adaptiv link til distinkte biologi av ulike krefttyper. Disse områdene overlapper heller dårlig med hot-spot-regioner observert i mange kreftformer. Dette tyder på at hot-spot-områder, men ofte forbundet med kanoniske onkogener, kan ikke alltid være svært nyttig i å hjelpe datadrevet evaluering av kreft (under) typer.

Sykdoms spesifikke studier har potensial til å oppdage en representant spekter av oncogenomic avvik i de gitte enhetene. Det kan forventes at krefttypen spesifikke områder markert med vår tilnærming hadde vært diskutert i forbindelse med de respektive publikasjoner. Men med vår nåværende studien, har vi som mål å gi en ny, generell tilnærming til å identifisere genomiske elementer som har betydning i dannelsen av individuelle kreft enheter. Selv her utstillingsvindu en «global» tilnærming uten enhet forvalg, kan vår metodikk være verdifull når målretting relevante genomisk separatorer i begrensede, biologisk relatert entitet sett.

Siden dagens analyse er i hovedsak basert på molekylær-cytogenetiske data fra kromosom CGH eksperimenter med en romlig oppløsning på flere megabases, bare kunne utledes informasjon om årsaks genene som finnes i de ikke-nøytrale regioner oppnås. Med kommende høy oppløsning genomisk matrise og /eller sekvensering av data, vil lignende analyser mer spesifikt definere ikke-nøytrale CNAs og kan være verdifulle utgangspunkter for en integrering av resultatene med funksjonelle sti rammer. Vi har nylig kunngjorde etableringen og offentlig tilgjengelighet av en referanse ressurs for oncogenomic matrisedata (www.arraymap.org [28]), som vil tjene som utgangspunkt for slike tilnærminger både fra vår side, så vel som fra interesserte medlemmer av forskning samfunnet. Også, selv om vi har fokusert vår nåværende analyse utelukkende på en CNA datasett, bør vår metodikk bevise spesielt verdifull når den kombineres med andre sett med relaterte diagnostikk (for eksempel punktmutasjon data), slik at tildeling av mulige sjåfør gener i de ikke-nøytrale regioner kan bli mulig.

Materialer og metoder

data~~POS=TRUNC

Vår undersøkelse er basert på godt kommentert kreft CNA data fra Progenetix prosjektet [5], herunder totalt 25579 prøver analysert ved kromosom (cCGH, 18708) og rekke CGH (aCGH; 6871) eksperimenter. De kliniske prøvene hadde blitt klassifisert i 160 forskjellige kreft enheter i henhold til International Classification of Disease koder (ICD). I skrivende stund, representerer Progenetix samling den største ressurs for merket, hele genomet CNA profilering data i kreft.

For vår analyse, ble regional CNA informasjon på tvers av alle krefttyper redusert til 80 genomiske intervaller som dekker hele genom med unntak av de kjønnskromosomer. Gevinst og tapshendelser ble vurdert separat for analyse, noe som resulterer i en matrise av dimensjoner, der er antall prøver og er antall genomiske intervaller (

dvs.

160).

Kreft Clustering

hyppigheten av CNA endringer på tvers av alle genomiske intervaller ble beregnet for hver ICD type, og hele frekvensområdet matrise var så normalisert (figur S1). Frekvensen matrise ble beordret å bruke hierarkisk Ward clustering. Den samlede avstanden mellom kreft enheter oppnådd ved bruk av hierarkisk clustering kan analyseres ved analyse clustering treet (dendrogram). Treet representerer slektskap blant grupper som er tilstede i det samme clade (tilsvarende fylogenetiske trær). Randomized data forstyrrer treet helt (figur S2), og den generelle trehøyden statistikken er redusert tre ganger, noe som reflekterer den fullstendig tap av informasjon om bestilling til stede i det opprinnelige treet.

Metode til sammenligning trehøyden

Vi brukte trehøyden som en iboende tiltak for å sammenligne kreftforeninger oppnås ved hjelp av clustering og å måle den informasjon som finnes i treet; Dette ble brukt for å definere ikke-nøytral CNAs. Dette har fordeler fremfor tradisjonelle clustering evalueringsteknikker, som det a) ikke krever ytre gullstandard informasjon, og b) krever ikke å kutte treet ved en vilkårlig avstand. Den samlede høyde treet er definert som summen av alle direkte foreldre-barn forhold veilengder i treet. Tre avstander (avdelings lengder) generelt reflektere CNA profil avvik mellom to kreftformer (eller grupper av kreft). For enhver node kan trehøyden mellom denne noden og dens umiddelbare overordnede måles som. Den samlede trehøyden av et tre med noder er enn oppnås som = (figur S3).

Tre lengde statistikk (TLS).

For å identifisere genomiske regioner som er ikke-nøytralt påvirket av CNA vi har utviklet følgende permutasjon strategi:

Normalis frekvenser av CNA tvers av alle genomiske intervallene~~POS=HEADCOMP er beregnet på tvers av alle krefttyper

kreften klassifikasjonstre oppnås ved hjelp av hierarkisk Ward clustering

observert over hele trehøyden () beregnes som nevnt ovenfor. (figur S5)

En teller er satt til null for hver genomisk intervall i betraktning.

for noen genomisk intervall, sine statusverdier stokkes blant alle prøver å holde sin over hele frekvens det samme ().

hyppigheten av CNA ved genomisk intervall er beregnet på nytt etter randomisering tvers av alle krefttyper. Stokkingen i det foregående trinn forandrer frekvensen til intervallet på tvers av alle krefttyper holde den normaliserte frekvens fordeling av alle andre genomiske intervaller.

Frekvensene for intervallet i den normaliserte frekvens matrisen fra trinn en er erstattet med permuteres frekvenser for dette intervall og permuteres generelle treet hau () beregnes.

er C inkrementert som C = C + 1.

p-verdi for genomisk plassering, på slutten av N ( 100’000) permutasjoner er beregnet som.

p-verdier på tvers av alle band er korrigert for falske funnrate hjelp Bonferronikorreksjon.

Frekvens Basert Enrichment (FBE)

Vanlige observerte CNA regioner ( «hot-spots») er genomisk endringer som oppstår oftere enn forventet under en fullstendig tilfeldig null modell. Slike hot-spot-CNAs kan identifiseres ved hjelp av binomisk sannsynlighetsfunksjonen [29]. La oss anta at genomisk intervallet viser en CNA over prøvene ut av prøvene. Bakgrunnen CNA frekvens () kan representeres som den midlere frekvensendringen på tvers av alle intervaller. Den p-verdi at frekvensen av CNA, er mer enn en hvilken som helst frekvens () blir oppnådd ved bruk av binomial sannsynlighetsfunksjonen.

Genomiske intervaller som viser et stort avvik fra middelverdien vil bli tildelt lave p-verdier. Alle p-verdier er korrigert for falske funnrate hjelp Bonferronikorreksjon.

Hjelpemiddel Informasjon

Figur S1.

Metode for CNA frekvens normalisering over krefttyper. Alle frekvensene blant krefttyper ble normalisert til gjennomsnittsfrekvensen av CAN endringer på tvers over 160 krefttyper. Dette normalisering ble oppnådd ved å multiplisere kreft-type-spesifikke frekvenser med en indeks, der verdien ble beregnet som vist

doi:. 10,1371 /journal.pone.0043689.s001 plakater (PNG)

Figur S2.

dendrogram av en permuted frekvens matrise. For dette clustering, ble frekvensene blant krefttyper permuted og deretter normalisert. Hierarkisk Ward clustering ble deretter utført og dendrogram treet vist ble oppnådd. Treet høyde er sterkt påvirket av permutasjon. I denne randomiserte clustering, tilsvarende krefttyper ikke lenger gruppert sammen

doi:. 10,1371 /journal.pone.0043689.s002 product: (PDF)

Figur S3.

Små regioner fra heatmap i hoved figur 3 er vist her. Disse områdene representerer gevinster og tap på 7q og 8Q. 8Q endringer skille mellom to kategorier av hjernesvulster, med en undergruppe viser fortrinnsrett tap på 8q (grønne etiketter) og annen sjelden viser involvering av 8q locus (rød etikett). Dermed avhengig 8q engasjement neuroepithelial svulster kan deles inn i to forskjellige kategorier. Begge viser 7Q gevinster

doi:. 10,1371 /journal.pone.0043689.s003 product: (PDF)

Figur S4.

Eksempler på ikke-nøytrale CNA regioner. a) Heatmap av CNA profiler på genomiske regioner (samme som i Figur 3). b) Små regioner (røde rektangler på heatmap) har zoomet inn for å vise hvordan 8q fortrinnsvis tapt i in bakterie celle (svarte etiketter) svulster og fortrinnsvis fått i epiteliale krefttypene (rosa etiketter). c) Små regioner (svarte rektangler på heatmap) har zoomet inn for å vise hvordan 18q fortrinnsvis fått i medullublastomas (brune etiketter) og fortrinnsvis tapt i epiteltumorer (rosa etiketter). Eksemplene her viser at hvordan to ulike ikke-nøytrale endringer differensial epiteltumorer fra bakterie celle svulster og follikulære lymfomer

doi:. 10,1371 /journal.pone.0043689.s004 product: (PDF)

Figur S5.

Beregning av over all trehøyden. Skjematisk fremstilling av summert gren-lengde trehøyden statistikken. Samlet trehøyden beregnes ved å summere opp avstanden mellom alle foreldre og barn noder. Merk at avdelings lengder av terminal grener ( «blader») ikke er vurdert. . Totalt tre height =

doi: 10,1371 /journal.pone.0043689.s005 product: (PDF)

Tabell S1.

tabell med informasjon om krefttyper som brukes i analysen, ikke-nøytral og hot-spot-p-verdiene. Tabellen gir detaljer om alle krefttyper som brukes i denne analysen med tilsvarende antall prøver i dem og roten celletype av hver kreft. Bordet har også informasjon om de ikke-nøytrale og hot-spot-p-verdier innhentet for alle genomisk band i analyse

doi:. 10,1371 /journal.pone.0043689.s006 plakater (ODS)

Legg att eit svar