Abstract
Høy oppløsning, har hele systemet characterizations demonstrert evne til å identifisere genomiske regioner som gjennomgår genomiske avvik. Slike forskningsinnsats ofte sikte på å knytte disse regionene med sykdom etiologi og utfall. Identifisere de tilsvarende biologiske prosesser som er ansvarlig for sykdom og utfallet er fortsatt utfordrende. Ved hjelp av nye analysemetoder som utnytter strukturen av biologiske nettverk, er vi i stand til å identifisere de spesifikke nettverk som er meget betydelig, nonrandomly endret ved regioner av kopiantallet forsterkning observert i et system bred analyse. Vi demonstrerer denne metoden i brystkreft, hvor tilstanden til en undergruppe av trasé identifisert gjennom disse regionene er vist å være sterkt assosiert med sykdom overlevelse og tilbakefall
Citation. Efroni S, Ben-Hamo R, Edmonson M, Greenblum S, Schaefer CF, Buetow KH (2011) oppdage kreft Gene Networks preget av tilbakevend Genomisk Endringer i en befolkning. PLoS ONE 6 (1): e14437. doi: 10,1371 /journal.pone.0014437
Redaktør: Toshi Shioda, Massachusetts General Hospital, USA
mottatt: 17 juni 2010; Godkjent: 08.10.2010; Publisert: 04.01.2011
Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Public Domain erklæring som fastslår at en gang plassert i det offentlige rom, dette arbeidet kan fritt kopieres, distribueres, overføres, endres, bygd på, eller brukes av alle for ethvert lovlig formål
Finansiering:. SE er finansiert av EU gjennom sin Internasjonale reintegrering Grants (IRG) program. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Biologiske fenotyper fremstå som en konsekvens av gener i samspill gjennom komplekse nettverk. Onkogenese har vist seg å være avhengig av biologiske nettverk som styrer prosesser som apoptose, begynnende alderdom, proliferasjon og angiogenese [1], [2]. Det er imidlertid klart at dagens kunnskap om hvilke prosesser som påvirker forskjellige kreft fenotyper er ufullstendig. Dette gjelder særlig når det gjelder å forstå prosesser assosiert med sykdomsforløp.
En kompleks samling av genomiske forandringer forekommer i løpet av tumorcelleutvikling, inkludert mutasjoner, translokasjoner, og kopiantall forandringer. For eksempel har genom-omfattende analyse av brysttumorer hos en rekke teknikker reproduserbart demonstrert gjentatte mønstre av kopiantallet endring (CNA) [3], [4], [5], [6], [7], [8], [ ,,,0],9], [10], [11]. Uttrykket av gener innenfor disse endrede segmentene har vist seg å være korrelert med kopiantallet tilstanden i regionen [3], [9], [12], [13], [14], [15], [16], [17], [18], [19]. Det er imidlertid uklart om disse tilbakevendende mønstre representerer de viktigste sett CNAs eller representerer bare en undergruppe av nøkkelregioner.
Mønstre av kopiantallet endring har vist seg verdifulle i klassifisering av kreft subtyper og kan tjene som predikator for pasientenes prognose [19]. Disse forandringer målgener som påvirker nettverk som gir tumorer med en selektiv fordel i forhold til celler med normal sammensetning. Gitt deres tilknytning til utfallet, er det sannsynlig at de også påvirke prosesser som driver kliniske fenotyper og respons på tiltak.
Identifisere prosesser rettet av regionene identifisert gjennom hele systemet analyse er kompleks. For eksempel kopiere nummer-endret regioner inneholde et stort antall gener. Det er også en enorm grad av mellom-individ heterogenitet i beholdningen av regionene funnet å bli endret.
Arbeid med andre for å identifisere prosesser som ligger til grunn komplekse egenskaper har kombinert arvet varianter og nettverksanalyse for å kartlegge faktorer, heterogene sykdoms fenotyper [20]. I dette arbeidet, forfatterne utvide tradisjonelle genet kartlegging tilnærminger ved å inkludere mulige gen-interaksjoner for å løse heterogenitet. Andre har undersøkt flerdimensjonale datasettene som inneholder forskjellige genom-skala målinger samtidig i forbindelse med veier [21], [22], [23] .. De gjelder statistisk metode for å måle reaksjonsveien anrikning og bruke gen-ekspresjons-data for å vurdere variasjonen pathway aktivitet. Gjennom slike analyser de hypoteser nye cellefunksjoner.
I arbeidet presenteres her, vi kompliment og utvide disse metodene for å systematisk analysere somatisk CNAs å identifisere biologiske nettverk underbygger kreft fenotyper. Vi viser fremgangsmåten ved hjelp av brystkreft datasett av Chin et al [24]. Vi identifiserer endrede veier forskjellig målrettet av eksemplar nummer avvik.
I likhet med tidligere tilnærminger, addresse vi heterogenitet av mønstre ved å erkjenne at ulike mønstre av CNA kan representere alternative ruter som kreftceller kan ta for å endre de samme kjernesett av felles biologiske prosesser. Den tilsynelatende heterogenitet i kartplassering i forbindelse med CNAs kan rett og slett gjenspeiler det faktum at genene som utgjør et gitt nettverk er fordelt over hele genomet. Vi vil derfor teste om enkelt kanoniske trasé er ikke-tilfeldig målrettet over kopi antall endrings regioner. I motsetning til tidligere tilnærminger, utnytter vi eksisterende nettverksstruktur i motsetning til de novo skape nettverk. Nettverket samspillet struktur for disse kanoniske nettverkene blir deretter utnyttes for kartlegging fenotyper. Vi bruker tidligere beskrevne metoder [25] for å avgjøre om endret tilstand av ikke-tilfeldig endrede prosesser kan forutsi pasientens utfall.
Resultater
Chin et al. har tidligere rapportert genom-wide kopiantall og genekspresjon analyse av 145 primære brystkreftsvulster [19]. Disse endringer ble bestemt ved anvendelse av genom BAC matrise CGH [26], [27], [28], [29] som består av 2464 BACS utvalgte ved omtrent megabasis intervaller langs genomet som tidligere beskrevet [26], [28]. Ved å benytte dette datasettet og den fremgangsmåte som er beskrevet i Materialer og Metoder, genet innholdet av hvert segment er beskrevet i Chin et al. ble identifisert.
Canonical biologisk nettverksstruktur informasjon og genet innhold er hentet fra offentlige kilder [30], [31], [32] .En totalt 565 kanoniske trasé ble undersøkt. Disse banene representerer samlinger av interaksjoner som er undergrupper av større biologisk nettverk kuratert å fange spesifikke funksjoner. Derfor er deres genet innholdet ikke unike. Genet Innholdet i disse reaksjonsveier varierer dramatisk. For eksempel, som pathway «degradering av RAR og RXR av proteasomet [33]) bare inneholder to gener mens IL12 signalveien» [34], [35], [36]) inneholder 80
for å ta høyde for heterogenitet av genet engasjement når analysen er utført ved hjelp av en nettverksmodell vi definerer en ny statistisk beregning (beskrevet i ligningene (2.5) og (2.6) i materialer og metoder). Betydning for hver vei over prøvene ble vurdert ved hjelp av Fisher Omnibus [49] og justert for multiple sammenligninger ved hjelp av Bonferoni metoden.
Anvende metoder til data levert av Chin et al., Identifiserer vi trasé der gener endret av CNAs er svært betydelig overrepresentert i forhold til tilfeldige forventninger (tabell S1).
for å illustrere de ulike over-representasjon mønstre for et gitt nettverk vi presentere de CNA hendelser assosiert med sti «CDC25 og CHK1 «[37] (figur 1). I figuren er genamplifisering betegnet gjennom en lilla firkant og genet sletting gjennom sorte firkanter.
Lilla rektangler bety genamplifisering og svarte firkanter betegne sletting. Hver kolonne representerer et tilfeldig valgt individ med totalt 18 personer. Hver rad representerer en annen gen av veien gener. Ulike fag målrette «CDC25 og CHK1» bane gjennom vekslende genomisk strategier. Den veien som en enhet, men er rettet i hele populasjonen.
Som figur 1 viser, ikke enkelt gen i reaksjonsvei synes å være den differensial målet for CNA på tvers av de 18 brystkreft prøvene vist … eller når undersøkt på tvers av de resterende 127 personene i studien.
på den annen side, kan vi se at veien, som en enhet, er målrettet i nesten alle fag i panelet (hele panelet fag for denne veien er inkludert i Tabell S2). Legg merke til det metriske (se Materialer og Metoder) kompenserer for pathway størrelse. Som sådan, for å oppnå en signifikant p-verdi, større trasé trenger å akkumulere et større antall gener amplifikasjoner eller overstrykninger.
neste vurdert om nettverkene som er identifisert ved overrepresentasjon av CNA er assosiert med sykdomsforløp. Bruke pathway aktivitet og sti konsistens scorer [26], gruppert vi enkeltpersoner i henhold til deres sti beregninger og utført overlevelsesanalyse. Når vi stratifisere pasientene til to grupper, kan vi trekke overlevelseskurver og sjekke for å se om de skiller befolkningen på en betydelig måte (figur 2).
Denne veien, som har blitt fremhevet gjennom sin svært signifikant p-verdi som målrettet av genomiske forandringer, har stor betydning med sin evne til å stratifisere pasientenes prognose. Figuren viser hvor viktig genomisk endringer indikerer en sti betydning som en lagdeling verktøy
gjentar over samling av hundrevis av veier, finner vi 29 baner som oppfyller vesentlige kriterier av p. 0,05 (tabell S3) . Men når du justerer for multippel testing med Bonferroni metoden bare to veier betydelig målrettet av genomiske forandringer er også sterkt knyttet til overlevelse, «» hypoksisk og oksygen homeostase regulering av HIF-1-alfa «[38], [39], [40] og glvkosaminoglvkan degradering [refs]. er
En alternativ tilnærming til justering for multiple sammenligninger for å vurdere betydning for å validere funnene disse veiene som viser marginal betydning på tvers av datasett. To offentlige datasett med uttrykk data og sykdom utfallet ble valgt fra Gene Expression Omnibus database (https://www.ncbi.nlm.nih.gov/geo) [41] Det første datasettet (GSE2990) [42] inneholdt 189 enkeltpersoner. Den andre (GSE3494) [43] inneholdt 251 individer. Genuttrykk i begge datasett utnyttet Affymetrix plattform for å bestemme genekspresjon tilstand. Av de opprinnelige 29 trasé observert å være signifikant assosiert med overlevelse i Chin et al. [19], 8 ble observert å være betydelig i GSE2990 og åtte ble observert å være betydelig i GSE3494. ble observert Totalt 4 veier å være betydelig i alle tre datasett. Samstemmighet blant de datasettene er mer enn det som forventes ved en tilfeldighet alene.
Diskusjon
Resultatene ovenfor tyder på at gener i CNA ikke-tilfeldig målrette prosesser viktige for onkogene tilstand. I arbeidet som presenteres her, kan vi tilby et middel for objektivt identifisere de biologiske prosessene som kan være målet for disse endringene. Videre trasé over-representert i disse segmentene viser forskjeller i aktivitet og konsistens som er relatert til kreft utfallet.
Det totale antallet veier identifisert som ikke-tilfeldig målrettet er slående. En mulig forklaring er mangelen på uavhengighet av genet innhold knyttet til hver vei. Hierarkisk clustering av trasé utnytte p-verdi knyttet til den ikke-tilfeldig målretting (tabell S4) bekrefter at veier med tilhørende navnene vanligvis klynge med høy korrelasjon (r 0.5, ikke data vist). Inspeksjon av veien p-verdier på tvers av individer viser enorm variasjon (tabell S4). Dette tyder på diverse underliggende molekylære mekanismene som driver onkogenese. Dessverre, ingen åpenbare mønster av gruppering av individer kommer fra analyse av veien spesifikk variasjon.
CNA har tidligere blitt vist å vise tilknytning til pasientenes prognose [44], [45], [46], [47] ). I Chin et al. [19] individuelle kopinummeret er endret segmenter viste sammenheng med overlevelse og tilbakefall av sykdommen, men utført ujevnt. Når det tas som et sett, fant de at endring av noen av hva de identifisert som «tilbakevendende amplikonene» ble assosiert med redusert overlevelse varighet (p 0,04) og fjernmetastaser (p 0,01).
De oppnådde resultater fra veien basert analyse av det samme datasettet produsere en slående forbedring og foreslår at veier kan representere en bedre måte å evaluere tilbakevendende endringer. To veier viser en meget signifikant sammenheng innenfor Chin et al. alene og 4 trasé vise betydning på tvers av flere data uttrykk datasett. På grunn av den høye dimensjonalitet systemer bred data, er det alltid en fare på over montering. Som sådan bør resultatene fra en individuell studie sees skeptisk. Men den betydelige samstemmighet på tvers av flere gir uavhengig validering.
Økt reproduserbarhet og omfanget av effekten forbundet med sti tilstand sammenlignet med det som ble observert i direkte undersøkelse av «tilbakevendende» regioner kan skyldes flere faktorer. Ved en mekanisk nivå, undersøkelse av dataene på veien nivå tillater informasjon fra forskjellige regioner som skal integreres over nettverket. Det faktum at en hvilken som helst gitt tilbakevendende region forsterkes er ikke lenger kritisk prediktor. Hva som kommer i stedet er betydningen av sett av endrede regioner som enkelte medlemmer treffer ulike deler av en målrettet vei. Pathways pre-aggregere effekten av flere gener. Som sådan, er det mulig å påvise multigen vekselvirkninger som påvirker kreft fenotyper, men som, hvis den ikke samles i en reaksjonsvei, kanskje ikke klarer å tilfredsstille kravene til statistisk signifikans i en liten datasettet.
CNA er bare en faktor som kan kjøre sti engasjement i fenotyper. Mange andre genomisk mekanismer (f.eks individuelle genmutasjoner, epigenetisk aktivering /Silencing) kan påvirke tilstanden i veien. Som sådan, trasé som er identifisert her representerer en undergruppe av de som sannsynligvis involvert.
Konseptuelt er det sannsynlig at fordi reaksjonsveien er den underliggende enhet av fenotype, med fokus på trasé øker signal og reduserer støy. Genomisk endringer som har bygd seg onkogenese og sykdomsprogresjon oppstår tilfeldig. Den observerte sammenheng oppstår sannsynligvis fordi visse prosesser må endres for å komme frem til den gitte fenotype. Tilsynelatende genomisk heterogenitet, «støy», oppstår fordi det finnes flere måter et reaksjonsvei kan endres. Alle disse måtene er «signal» fra perspektivet til en vei.
Det er mulig å spekulere i at analysen lik de utførte for kopiantall endring av veien (over) kan være nyttig for andre genom analyser som genome-wide mutasjons skjermer eller assosiasjonsstudier. For eksempel, de komplekse mutasjonsmønster sett i 1672 genene karakterisert ved human og brystcancer [48] er alle observert å mutere gener i en eller flere av seks kanoniske trasé tilstand identifisert fra genekspresjon data som universelt skiller tumor fra normal [25] . Tilsvarende kan komplekse, lave Odd-ratios haplotype foreninger mønstre reflektere heterogene ruter til å endre vanlige veier. De ovennevnte observasjonene har flere praktiske implikasjoner i vurderer neste generasjons intervensjonsstrategier. Først nettverk gir et grunnlag for å utforme kombinatoriske terapier. Undersøkelse av nettverkene og deres aktivitetstilstander, gir en rasjonell middel til å bestemme hvilken kombinasjon av gener må være målrettet for å endre tilstanden av kritiske noder. Det er også interessant at ikke alle endringer i trasé sier innflytelse utfallet. Dette observerte forskjellen i effekt på utfallet, noe som kan gjenspeile resultatet av naturlige eksperimenter av svulsten, kan også vise seg å være viktig i prioritering av hvilke gener og samhandling kan være mest produktivt målrettet for å forbedre resultatet.
Materialer og metoder
Mapping Entrez Gene til Golden Path
NCBI er Entrez Gene database inneholder 36470 menneskelige poster, 25 441 av dem kommenterte som protein-koding. For hvert gen i dette settet vi benyttet en rekke metoder for å finne beliggenheten Golden Path genomsekvens. Version (hg18) av genomet database inneholder omfattende notater som vi brukte der det er mulig. I noen tilfeller har vi brukt BLAT å finne genomiske steder.
Plasseringen av ca 18 342 (~54%) gener ble kommentert direkte i Golden Path er refLink og refGene tabeller. Selv om dette er den enkleste referansen, det overlater 18,128 gener kartlagte, 6757 (~18.5%) av dem proteinkodende.
I tilfeller hvor en direkte genet merknad var ikke tilgjengelig, vi søkte Golden Path er merknader for steder av tilknyttede sekvenser fra en rekke kilder, som er oppført nedenfor i prioritert rekkefølge:
mRNA tiltredelser fra Entrez genes «gene2accession» table
kryss-referert tiltredelser fra HUGO databasen
kryss-referert tiltredelser fra uniSTS databasen
primære representant sekvens fra forbundet UniGene klynge
mRNA sekvenser fra forbundet UniGene klynge
EST sekvenser fra forbundet UniGene klynge
Tiltredelser ble samlet fra hver av disse kildene i sving, og så opp i ulike Golden Path merknads tabeller (all_mrna, stsMap, clonePos, og all_est). En lokalt bygd database av mRNA og refseq BLAT resultater (montert av Robert Clifford) ble også søkt, og gir noen ekstra kamper. De resulterende genomiske plasseringer av søke sekvenser ble samlet, og akseptert som genets posisjon hvis de stedene falt innenfor en 3 mb region (3 mb være en noe vilkårlig cutoff basert på de største observerte refLink basert genet kartlegging av ca 2,3 mb). Hvis et kromosom merknad var tilgjengelig fra Entrez Gene, HUGO, eller uniSTS, ble genomisk stillinger bare inkludert hvis de var på samme kromosom. En kjent kromosom merknad var nødvendig i tilfelle av UniGene mRNA og EST sekvens oppslag.
I tilfeller hvor tiltredelses merknader var tilgjengelig, men stillingene ble ikke funnet, utførte vi våre egne BLAT søk. Dette var nødvendig for visse klasser av tiltredelser som ikke vises i den gyldne stien database (f.eks den «XM_» -serien av forventet refseqs). Hvis et kromosom annotering var tilgjengelig for genet, ble en BLAT søk kjøre bare mot at kromosom, ellers alle kromosomene ble søkt. Resultatene ble samlet og akseptert som genets posisjon hvis de falt innenfor en 10 mb eller mindre region. Dette er en mindre strenge krav enn anvendt i aksesjonsbaserte kartsystem, men det kan tilveiebringe i det minste en generell posisjon, mye mer spesifikk enn en cytogenetisk basert koordinatsystem (den eneste kartleggingsinformasjon om enkelte Entrez Gene oppføringer). Hvis plausible treff ble funnet på flere kromosomer, ble genet kartlegging avvist som tvetydig.
BLAT resultater er merket med en av fire kategorier av kamptyper, så merknadene kan utelukkes senere hvis de anses for bred. De fire kategoriene er:
En enkelt perfekt match for søket sekvensen ble funnet. Den ideelle kartlegging resultat.
Mer enn en perfekt match for søket sekvensen ble funnet.
En enkelt nesten perfekt kamp (minst 95%, men mindre enn 100% identitet) ble funnet.
Flere nesten perfekt treff
særbehandling ble gitt til perfekt refseq kamper i resultatene -. dvs. en perfekt BLAT kamp til en refseq ble ansett genets genomisk posisjon, uavhengig av tilstedeværelsen av andre nesten perfekt kampene i resultatene
Hvis kartlegging sviktet av noen av de ovennevnte metoder noen grove metoder for siste utvei ble forsøkt:.
Hvis et gen ble plassert på en NCBI genomisk contig sekvens (NC_ * serien tiltredelse, via EG er «gene2refseq» tabellen), og en nabo gen på samme kromosom, arm,
og bandet kan bli funnet i Golden Path, den relative
avstanden mellom de to genene i NCBI sekvens
ble brukt til den gyldne stien koordinater for å tilnærme
sin posisjon.
Hvis et gen hadde bare en cytogenetisk plassering tilgjengelig, koordinater av Golden Path-kartlagt gener med samme cytogenetisk stedet ble samlet og en forening av deres posisjon generert. De resulterende kartlegginger er svært bred, men i det minste peker på en generell molekylær regionen som fremdeles kan være nyttig i enkelte tilfeller.
Kartlegging BACS til Golden Path
Det andre datasettet som skal kartlegges til Golden Path besto av settet av BACS anvendt i de CGH matriser fra Chin et al [24]. Som med Entrez Gene kartleggingen, inneholder den gyldne stien merknaden database en ideell tabell for vårt formål, «bacEndPairs», holder de genomiske stillinger BACS deres ende sekvenser har begge blitt kartlagt. Men bare ca 39% av BACS i vår sett inneholde en oppføring i denne tabellen. Den «fishClones» table gitt kartlegginger for ytterligere 6% av BACS. For resten brukte vi BAC-relaterte kommentarer som grunnlag for kartlegging.
NCBI klone registeret gitt en viktig kilde til BAC merknader. Fra det, hentet vi BAC relaterte tiltredelse slutten sekvens, STS og kromosom informasjon. Registeret har også gitt krysskoblinger til uniSTS, der vi samlet flere relaterte akses. Vi søkte på de resulterende sekvensene i Golden Path er all_mrna, clonePos, stsMap og all_ests tabeller. Vi tok også spesielt merke til noen kamper for BAC sluttsekvenser. I tillegg til å klone registret, vi brukte også merknader fra UCSF 2,0 arrays (data fra https://cancer.ucsf.edu/array/analysis/), samt GenBank poster refererer BAC navn i tittelen blokken. Genom kartlegginger ble akseptert for Bács hvis de ikke lenger enn 500 kb i lengde, og kartlegginger til tvetydige kromosomer ble avvist.
For BACS som ikke ble funnet ved hjelp av NCBI klone register eller UCSF matrise merknader, vi forsøkt en surrogat-basert kartlegging tilnærming. Chin et als [1] CGH matrise merknader gitt grove genomiske posisjoner (i megabases) hvis koordinatene justert tettest med en eldre genom bygge, hg16. For hver BAC, hentet vi sekvens IDer fra hg16 som ble kommentert som å være i nærheten av denne posisjonen. Sett av sekvensene ble hentet fra hver av de all_mrna, stsMap, og all_est merknads tabeller. For mRNA og STSs, brukte vi sekvenser som ligger innenfor pluss eller minus 5 kb av målområdet. For ESTs, tok vi sekvenser innenfor pluss eller minus 1 kb av målet posisjon. Disse hentet sekvenser ble brukt som surrogater for BACS, og så opp i hg18, søke (i prioritert rekkefølge) mRNA, STSs og ESTs. Denne tilnærmingen ble brukt til å generere hg18 stillinger for ca 8,7% av BACS.
For BACS som ikke kunne tilordnet hg18 bruker noen av de ovennevnte metoder, ble en andre pass utført for å finne generere omtrentlige posisjoner basert på interpolert nabo BAC steder. For hver BAC, vi prøvde å finne flankerer BACS med hg18 kartlegginger. Vi deretter brukt relative forskyvninger til hg18 posisjoner basert på avstandene i hg16 stillinger. Dette ble bare nødvendig for ca 1,4% av BACS.
BAC preprosessering.
To sett med modifiserte genomiske stillinger genereres for hver BAC, som vi refererer til som utvidet og utvidet koordinater.
Utvidede koordinater er et forsøk på å kompensere for de mange tilfellene der BAC kartlegging og sluttsekvens er ufullstendig. De er ment å sikre at alle BACS dekke et minimum av genomet, og at fullt kartlagt BACS ikke fortrenge BACS har mindre komplett kartlegging merknader. Dette innebærer å utvide kartlagt BAC koordinerer opp til ca Ca.165KB, som er vår observasjon av medianstørrelse BACS hvor både sluttsekvensene er kartlagt. Koordinater er ikke utvidet i tilfeller hvor begge ende sekvenser har blitt kartlagt, eller om eksisterende kartlegging informasjonen går over 100 kB eller mer. Hvis en enkelt ende sekvens kartlegging er kjent, er ekspansjons laget bort fra den forankrede ende, ellers koordinatene ekspanderes likt i begge retninger. Kollisjoner under ekspansjonen mellom nært kartlagt BACS oppdages og løses av en multi-pass prosess hvor den tilgjengelige liggende rom er tildelt likt mellom BACS. Hvis ekspansjonen i en retning bevirker en kollisjon med en nabo BAC er passende kompenserende ekspansjon forsøkt i den andre retning, med mindre dette formål er løst ved nærvær av en kjent ende sekvens.
Utvidede koordinatene bygger på de utvidede tilordningene ved å dele ufordelte regioner av genomet mellom nabo BACS. Dette tilveiebringer pseudo-fliser dekning av genomet, slik at en hvilken som helst gitt område for å være assosiert med den mest hensiktsmessige BAC i settet. Generere utvidede koordinater krever utvidet koordinater skal beregnes først, slik at den mest rettferdige tildelingen av mellomliggende regioner.
utvidet og forlenget koordinatene er beregnet dynamisk basert på BAC medlemstall på CGH matrisen blir jobbet med. Mens hg16 baserte CGH arrays var ment å smake genomet med jevne mellomrom, er deres beregnede posisjoner i hg18 ikke så pent plassert. For disse formålene Bács ble arrangert som vi har observert dem i hg18.
Det finnes tilfeller hvor BAC koordinater overlapping. I tilfeller hvor en BAC er beregnet til å ligge helt innenfor et større BAC, mottar mindre BAC de samme endelige koordinater som større BAC (det er i hovedsak ansett som en duplikat). I tilfeller hvor en BAC delvis overlapper med en annen, er koordinatene i overlappingsområdet uendret, og ingen utvidelse eller er utført på slutten med overlapping.
Knytte BACS med gener
det er tre hovedtyper av kryss mellom gen og BAC Opplysninger:
genet kartlegging faller helt innenfor BAC kartlegging
genet kartlegging ligger delvis innenfor BAC kartlegging og dels utenfor
genet kartlegging er større enn den BAC kartlegging. Dette kan skje for gener med svært brede cytogenetisk-avledet genet kartlegginger.
Gene-til-BAC sammenslutninger av den første typen er trivielt å beregne. De to sistnevnte tilfeller kreve noen ekstra trinn for å bestemme hvorvidt et gen som skal være forbundet med en BAC eller ikke. Foreninger er generelt avvist dersom lengden av BAC kartleggingen er mindre enn en tredjedel av lengden av den genkartlegging. Dette hindrer foreninger blir dannet basert på uvesentlige overlappinger. Dersom utvidet sett med BAC-koordinater blir brukt, blir en forening avvises dersom minst 50% av genet koordinater ligger innenfor BAC-koordinater. Siden i utvidet modus BACS flis genomet helt, sikrer dette trinnet at gener i grenseområdene vil bli tildelt en BAC eksklusivt. Spesifikke sammenslutninger av BACS og deres gener har blitt beskrevet tidligere i Chin et al. [24].
Identifisere gener i kopiantall Altered regioner. For å identifisere genene i kopiantallet endrede områder var det nødvendig å oversette BACS koordinaten anvendt i sammenlignende genomisk hybridisering (CGH) analyser i genom koordinater. Dette omfattet kartlegging av Entrez Gene database og CGH BACS til et felles koordinatsystem plass (Golden Path menneskelige genom bygge hg18), og deretter overliggende resultatene. Disse prosesser er beskrevet i det supplerende materiale [19].
Kartlegging Genes til Pathways
Vi bestemt liste av gener som brukes i hver bane i ved spørring av den Pathway Interaction Database [49].
p-verdi for en pathway sin genomisk endringer i et bestemt utvalg
Hver vei nettverk har blitt tatt som et sett av gener. Det vil si at for hver vei, og i henhold til (2,4), vi listet opp de genene som er medlemmer av veien.
For å fastslå sannsynligheten for at en vei er å bli truffet av nøyaktig k treff, må vi først beregne sannsynligheten for at veien er tilfeldig treffer ganger. Med G-genene kvantifisert i en gitt plattform (for eksempel en plattform som dekker hele genomet vil dekke omtrent G = 24 000), og N
I genene i en reaksjonsvei i (N
i er vanligvis mellom 10-70 gener) får vi: (2.4) sannsynligheten for tilfeldig treffer null til
k
i
,
j
gener, gitt at
M
j
genene er endret på prøve
j
er den hypergeometriske kumulative fordelingsfunksjon: (2,5) den tilhørende p-verdi er derfor definert som: (2.6)
p-verdi for en global sti målgruppe på tvers av en befolkning
for å kunne statistisk tallfeste genomisk målretting av en vei på tvers av en befolkning på fagene vi trenger for å iterere over p-verdiene som er definert i (2.5). Dette er i realiteten en kombinasjon av en ensidig binomiske tester. Dette har blitt løst ved forskjellige teknikker, inkludert Fisher omnibus [50], som vi benytter her. Denne testen statistikk for pathway
i
uttrykkes her som: (2.7) og den tilsvarende p-verdien er: (2.8) hvor er Chi-kvadrat kumulative fordelingsfunksjon og
d
er antall frihetsgrader (antall prøver).
Hjelpemiddel Informasjon
Tabell S1.
Bonferronikorreksjon ble brukt på p-verdiene som er beregnet ved hjelp av Fisher Omnibus test for å ta opp problemet med multiple sammenligninger. Verdien for signifikans ble tilordne å være 8,834 x 10
-5, som er 0,05 /566 (når 566 er antall veier). Tabell S1 viser alle 566 trasé regnet fra Chin datasett med p-verdien beregnes via Fisher Omnibus test. I tillegg ble alle p-verdien justeres og sti signifikans ble omplassert
doi:. 10,1371 /journal.pone.0014437.s001 plakater (0,65 MB DOC)
Tabell S2.
Tabell S2 viser hele panelet av fag for følgende bane «cdc25 og chk1 regulatoriske sti som svar på DNA-skade». Denne veien er sammensatt av 9 gener. Denne tabellen viser kopitall endringer over 145 brystkreftpasient: -1 indikerer sletting, 1 indikerer forsterkning og 0 indikerer ingen signifikant endring
doi:. 10,1371 /journal.pone.0014437.s002 plakater (0,19 MB DOC )
Tabell S3.
Tabell S3, som presenteres her, viser alle veier som viser seg å være betydelig ved hjelp av Kaplan-Meier overlevelsesanalyse. Alle de banene som presenteres her ble funnet å være betydelig målrettet gjennom kopitall forandring ved bruk av Fisher omnibus-test (etter korreksjon). Alle 29 veier ble testet i to offentlige datasett få fra GEO (https://www.ncbi.nlm.nih.gov/geo). . A – aktivitet, C – konsistens
doi: 10,1371 /journal.pone.0014437.s003 plakater (0,05 MB DOC)
Tabell S4.
tabell viser Fisher Omnibus verdi for hver vei.