PLoS ONE: Identifisering av viktige prosesser underliggende Cancer fenotyper Bruke Biologisk Pathway Analysis

Abstract

Kreft er anerkjent for å være en familie av gen-baserte sykdommer som årsaker er å finne i forstyrrelser av grunnleggende biologiske prosesser. En stadig dypere katalog over kanoniske nettverk beskriver spesifikke molekylære samspill av gener og deres produkter. Imidlertid er kartlegging av sykdoms fenotyper til endringer av disse nettverkene av interaksjoner oppnådd indirekte og ikke-systematisk. Her vi objektivt identifisere pathways assosiert med malignitet, iscenesettelse, og utfallet i kreft gjennom anvendelse av en analytisk tilnærming som systematisk evaluerer forskjeller i aktiviteten og konsistens av interaksjoner i kanoniske biologiske prosesser. Ved hjelp av store samlinger av offentlig tilgjengelig genom-wide genekspresjon, identifiserer vi små, felles sett av trasé – Trka Receptor, apoptose svar på DNA Damage, Ceramide, Telomerase, CD40L og Calcineurin – hvis forskjellene robust skille ulike krefttyper fra tilsvarende normale prøver, forutsi svulst klasse, og skille fenotyper som østrogen reseptor status og p53 mutasjon tilstand. Pathways identifisert gjennom denne analysen utføre like godt eller bedre enn fenotyper som brukes i de opprinnelige studiene i å forutsi kreft utfallet. Denne tilnærmingen gir et middel for å bruke genom-wide characterizations å kartlegge viktige biologiske prosesser til viktige kliniske funksjoner i sykdom

Citation. Efroni S, Schaefer CF, Buetow KH (2007) Identifisering av viktige prosesser underliggende Cancer fenotyper hjelp biologisk Pathway Analysis. PLoS ONE 2 (5): E425. doi: 10,1371 /journal.pone.0000425

Academic Redaktør: Nick Monk, University of Sheffield, Storbritannia

mottatt: 05.01.2007; Godkjent: 29 mars 2007; Publisert: 09.05.2007

Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Public Domain erklæring som fastslår at en gang plassert i det offentlige rom, dette arbeidet kan fritt kopieres, distribueres, . Denne forskningen ble støttet av egenutført forskning program for NIH, National Cancer Institute

Konkurrerende interesser:

finansiering overføres, endres, bygd på, eller brukes av alle for ethvert lovlig formål. .: forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Biologiske fenomener fremstå som følge av handlingen av gener og deres produkter i trasé. Sykdommer oppstår ved endring av disse komplekse nettverk [1] – [5]. For å gjøre mekanistiske påstander som supplerer dagens tilnærminger til genom-wide analyse [6] – [9], kartlegger vi kanoniske biologiske veier til kreft fenotyper. Totalt 2011 Affymetrix Genechip matrise hybridizations hentet fra 9 forskjellige offentlig tilgjengelige datakilder [10] – [17] ble analysert. De hybridizations representerte 70 ulike krefttyper (1348 prøver). I tillegg 83 forskjellige typer prøver av normal histologi ble inkludert (663 prøver). Expression nivåer ble justert ved hjelp av RMA [18]. Definisjonen av normal brukt her utelukker uninvolved og /eller tumor tilstøtende eksempler hentet fra personer med kreft.

Bruk av trasé som et rammeverk for analyse er ikke i seg selv roman. Disse inkluderer projeksjon av kjente kreftgener og genuttrykk data på veier [19], [20]. Det som skiller arbeidet som presenteres her er systematisk evaluering av samspillet struktur over forhåndsdefinerte kanoniske nettverk. Ved måling av tilstanden til interaksjonen kombinerer den informasjon fra genet tilstand og nettstruktur. Flere genet tilstander kan føre til en felles vei poengsum. Motsatt kan pathway score vise større forskjeller enn gen signaturer.

Tilnærminger til Pathway Analysis

Denne undersøkelsen utfyller annet arbeid utnytte pathway informasjon.

Mer spesifikt Segal et. al. [6] definert biologiske moduler og raffinerte dem til et sett med signifikante moduler. De var i stand til å bruke disse modulene til å få et bedre perspektiv på de ulike biologiske prosesser som aktiveres og deaktiveres i ulike kliniske tilstander. Vi noterer to viktigste forskjellene mellom det vi presenterer her og arbeidet i Segal et. al. [6]: For det første, de biologiske moduler som brukes i papiret, selv om svært lærerikt og nyttig, er internt definert innenfor papiret. Bestemmelsen av gener i disse modulene ble utledet fra de samme data som de er senere anvendelse. De kanoniske trasé vi bruker er eksternt definert uavhengig fra de data vi analysere, representerer dagens forståelse i feltet, og ble ikke hentet ad-hoc. For det andre, Segal et. al. gjør ikke eksplisitt bruk av sammenhengene, eller den nettverksstruktur som eksisterer mellom gener som omfatter biologiske moduler. Poengene for aktivitet og konsistens vi presenterer her er avhengig av nettverksstruktur og spesifikke relasjoner (for eksempel hemming og markedsføring) som er funksjoner av nettverksinformasjon.

En annen viktig tilnærming er at av Rhodes et. al. [21], hvor det humane interactome nettverket brukes til å identifisere subnett aktivert i kreft. Tilnærmingen Rhodes el. al. bruke, i motsetning til den som presenteres her, prøver ikke å beregnings og algoritmer markere forskjeller i fenotyper ved å bygge en klassifikator rundt målbare nettverksfunksjoner. I stedet, genererer det subnett av deres tilknytning sett med gener identifisert gjennom over (eller under) uttrykk i hver biologisk fenotype. Rhodes et. al. tilnærmingen gjør gjøre bruk av nettverksstrukturen for å bygge subnettet, men gjør ikke videre bruk i observerer co-uttrykk eller co-stanse av sett av gener, slik tilfellet er i arbeidet som presenteres her.

Bild et. al. [14] og Glinski et. al. [22] viser at genet signaturer bestemmes av lite sett med forhåndsvalgte kanoniske trasé kan skille tumor egenskaper. I sitt arbeid, de starter med et begrenset sett av veier, (f.eks Bild et. Al. Bruke 5 trasé) og vise at de er forskjellige i ulike fenotyper. Som denne tilnærmingen starter med et lite sett med stier forfatterne valgte å undersøke, det har ikke kapasitet til å oppdage nye pathway assosiasjoner med fenotyper. I motsetning til den nåværende arbeid, betyr det ikke ansetter en objektiv metode for å identifisere et sett med veier som kan diskriminerer fenotyper.

Gene sett berikelse Analyser [23] gjør at forfattere til å velge et sett av gener og til å bestemme deres relative statistisk betydning i en liste av gener som skiller fenotyper. Gene sett berikelse starter med premisset om enkeltgener som classifiers. Pathway medlemskap måles for å vurdere samlede bidrag. Igjen, fremgangsmåten ikke gjør bruk av strukturen av nettverket, og heller ikke tilveiebringe en systemisk konto for den kombinerte kunnskaper om veier for å redusere til et optimalt sett av klassifiseringsprosesser. Siden metoden starter med diskriminering av enkeltgener, kan det bare bygge videre på dette statistisk inferens, og ikke ta hensyn til eventuelle forskjeller som kommer fra den inter-avhengighet av flere gener interaksjoner. For eksempel, hvis gen A synes å permutate tilfeldig i de to fenotyper og genet B synes å permutate tilfeldig i de to fenotypene deretter hver av de gener som scorer dårlig i en statistisk signifikant test. Men poengsummen definert av deres samlede avhengighet (f.eks (hvis A så B)) kan gi mye større diskriminering.

Metoden Tomfohr, et. al. [24] er kanskje det nærmeste til den som presenteres her i at den ser på kombinerte grupper av gener og rangerer dem deretter. Imidlertid Tomfohr, et. al. ikke bruke nettverket struktur kunnskap for å få poeng, men i stedet utføre singulærverdidekomposisjonen (SVD) for å velge en bestemt metagene, og definere en sti aktivitet som uttrykk for at genet. Som sådan, ikke resultatet ikke utnytte den gjensidige avhengigheten mellom nettverket som gjør arbeidet er presentert ovenfor

Metoder

Vurderer et gen status.

Gene status i å vurdere nettverket interaksjon er beregnet ut fra observerte data som en av to alternative tilstander: ned og opp. For å være i stand til å identifisere hvorvidt et gen som er i en «ned» tilstand eller en «opp» tilstand, ser vi på sin (RMA justert [18]) ekspresjon verdien i en prøve, sammenlignet med de uttrykk verdier av det samme genet i alle andre prøver. For å være i stand til å imøtekomme en rekke sannsynlighetsfordelinger, bruker vi en gammafordeling som mal til både «ned» fordeling skjema samt «opp» distribusjon, og omdefinere problemet som en blanding av to gammafordelingen. Den undertrykt form følger ofte en eksponensiell fordeling, noe som er et spesielt tilfelle av en gamma-fordeling. Den markedsførte tilstand følger ofte en form som ligner en normal fordeling, noe som kan approksimeres ved en gamma fordeling av en stor middelverdi. Per hver probe sett målt ved mikromatriser, ser vi på uttrykket distribusjon og prøver å passe denne fordelingen i en blanding av to gammafordelinger. Vi gjør dette ved hjelp av en forventning-maksimering (EM) algoritme, gjentar over dataene på en måte som sikrer økningen av sannsynligheten for å tilpasse dataene ved de modellerte distribusjoner. I tilfelle av to gammafordelinger, vi først dele dataene inn i to grupper: «ned» verdier og «opp» verdier. Antall gener i «opp» gruppen er

N

U Hotell og antall gener i undertrykte gruppen er

N

D

. De tidligere sannsynlighetene er derfor:

Vi antar hver gruppe distribuerer ifølge en gammafordeling:

Formålet med EM-algoritmen er å gi oss med maksimal-likelihood estimatene til

en

U, b

U

verdier for fremmet gruppen og til

et

D, b

D

verdier for undertrykt gruppe. I tillegg beregner den maksimumssannsynlighetsanslag av blandingen koeffisientene, η

1, η

2.

Vi antar at uttrykket fordelingen av hvert gen er enten kommer fra en blanding av to fordelinger (én for «opp» case og én for «ned» case) eller fra en enkelt fordeling (for eksempel, når genet er «opp» i alle prøvene har vi). Vi bestemmer antallet underliggende distribusjoner (ett eller to) ved hjelp av EM-algoritmen i kombinasjon med en modell valgmetoden, se nedenfor.

For å finne den maksimale av loggen sannsynlighet, må vi finne det maksimale av hjelpefunksjon

Q product: [25]: whereHere,

θ

er samlingen av parametre som definerer distribusjon, og hevet 0 angir størrelsene som hadde blitt bestemt i forrige iterasjon

.

for å finne maxima, skiller vi

Q

med hensyn til modellparametrene, og sammenlign zero.And den coefficientswhere Ψ (

x

) er psi funksjon.

Ved hjelp av en Lagrange multiplikator for å innlemme constrain vi har å maksimere målet functionwith hensyn til

η

i

, deriveand vi obtainWe løse dette numerisk (ved hjelp Matlab®) i hvert iterativ skritt, før vi nå noen forhåndsdefinert konvergens kriterium

Velge et optimalt antall distribusjoner.

Selvfølgelig, jo mer fordelingene vi ta som vårt grunnlag for den samlede utdelinger, jo bedre passform vi har for data og bedre sannsynligheten vil være. Tenk, for eksempel, som mange distribusjoner som det er datapunkter. Det ville passe dataene nøyaktig og produsere maksimal sannsynlighet. For å bøte på dette, og for å kunne velge et optimalt antall, vi sammenligne modeller med forskjellig antall distribusjoner bruker Bayesian Information Criterion (BIC) [26], kompenserer beregnet asthis kostnadsfunksjonen for ytterligere økning i kompleksitet. Den statistiske modellen som er valgt er den med størst BIC

Beregn Og på samme måte. Men vi trenger sannsynligheten for å være i «forfremmet» tilstand for en bestemt uttrykk verdi: Og sincewe kan skaffe de nødvendige verdier ved å: for eksempel uttrykket av genet CDKN1A i datasettet [13] (en samling av 698 tumorprøver) følger denne fordelingen (se figur 1):

opp /ned-samtaler for gen-statene er basert på en uttrykk verdi klassifiseres som bosatt i en av de to forskjellige distribusjoner.

de to forskjellige distribusjoner (ned og opp) er tydelig og algoritmen gir rammene for de to gammafordelinger.

pathway aktivitet og sti konsistens

pathway konsistens poengsum: for å finne veien konsistens score på en gitt signalveien i en prøve, følger vi disse trinnene:

Hver bane er en samling av interaksjoner. Input gener og utgangs gener definere hver interaksjon. For hver interaksjon i veien, må vi først se på inngangs gener og bestemme, for hver slik genet, vil sannsynligheten for å være i en «down» eller «opp» tilstand (se «genet state» over)

Vi deretter bestemme sannsynligheten for materialisering av den spesifikke interaksjon som felles sannsynligheten for alle nødvendige komponenter (gener)

deretter ser vi på det molekylære utgangen av samspillet. Vanligvis er dette generere en liste av gener, som vi etablere sannsynligheten for å være i en «down» eller «opp» tilstand (se «genet state» over)

Deretter beregner vi sannsynligheten for at utgang genet (e) være i en av de to statene, under gitte sannsynligheten av samspillet (beregnet i (b))

til slutt, for å få veien konsistens score, beregner vi konsistensen poengsum for hver interaksjon i veien og gjennomsnittlig score enn alle interaksjoner som vi var i stand til å få en poengsum. I figur 2 viser vi et eksempel for å beregne konsistensen verdien av en interaksjon tatt fra bane «Signalise hendelser som medieres av stamcellefaktor-reseptor (c-Kit)», en av de NCI-Nature kuratert trasé fra Pathway Interaction Database (PID ) [27]. De konkrete skritt for å beregne konsistens i dette eksempelet er:

Etablere sannsynligheter for alle gener som er involvert i samspillet. Dette gjøres i henhold til fremgangsmåten som er beskrevet nedenfor (se «genet state» -delen). Verdiene vi får er: P (CREBBP) = 0,95; P (STAT5A) = 0,8; P (KIT) = 0,7

Beregn felles sannsynligheten for en aktiv samhandling. Siden inngangs molekyler til interaksjonen ikke er co-avhengige, den kombinerte sannsynlighets av interaksjonen er P (CREBBP) x P (STAT5A) = 0,95 x 0,8 = 0,76

Beregn sannsynligheten for at utgangs molekylet er resultat av interaksjonen. Siden molekylet er utelukkende avhengig av samspillet sannsynligheten er enkel:

Reagere denne beregningen gjennom alle interaksjoner i veien. Sluttresultatet i en sti er et gjennomsnitt over alle interaksjoner.

En vei aktivitet poengsum er den gjennomsnittlige over aktiviteten interaksjoner i en sti. For eksempel, i det tidligere eksempel, er interaksjonen aktivitet 0,76. Den største fordelen til å beregne pathway aktiviteter på toppen av hovedbane konsistenser er at aktiviteter kan beregnes, selv når det ikke er nok data til å arbeide med utgang, slik tilfellet for eksempel når interaksjonen er basert på aktivering eller endre molekyler uten generering av et nytt molekyl som utgang. I slike tilfeller kan vi likevel beregne aktivitet, selv om konsistensen mister sin mening.

Se Metoder for detaljer.

Velge en minimalt sett med veier å klassifisere fenotype

Som vi får pathway aktivitet og konsistens score for hver vei, er vi i stand til å forvandle representasjon av hvert bio-prøve fra en liste over genuttrykk målinger i en roman representasjon, viser hver prøve med innsamling av veien aktivitet og konsistens score. Som vi bruker denne representasjonen til å skille mellom fenotyper, ønsker vi å finne den minimalt sett med pathways score som er i stand til å gjøre skillet mellom fenotypiske klassene. Vi bruker funksjonen utvalg å velge en optimal minimumssett (se resultater). Vi brukte ulike metoder for funksjonen utvinning og funksjon klassifisering [28], [29], inkludert fremover utvalg, bakover valg, og flytende søk [29]. Disse metodene hjelper med å eliminere pathway score som ikke bidrar til å gjøre skillet og fremhever spesifikke trasé som sammen oppnår en optimal klassifisering hastighet.

Pathway beregning for å forutsi utfallet

Som representerer hver bio-sample hjelp sin sti beregninger tillater oss å se etter mønstre i samlingen av trasé. Ved å bruke clustering algoritmer, ser vi at pathway metriske verdier skille prøvene inn i grupper. Hvis vi ser på overlevelse mønstre av disse gruppene, ser vi at i noen tilfeller og for noen stier, gruppene korrelerer med forskjellige mønstre for å overleve.

Resultater

Analysen brukes her behandler en sti som et nettverk av gener som interaksjoner er logisk evaluert i veien sammenheng å generere sett av score. Biologisk sti struktur informasjonen ble innhentet fra offentlige kilder [27], [30], [31].

Hver vei er vurdert for konsistens og aktivitet. En sti konsistens score er beregnet som gjennomsnittet sannsynligheten for den logiske konsekvens av samlingen av interaksjoner gitt de beregnede tilstander av genene (se Methods). En sti aktivitet score er beregnet som gjennomsnittet sannsynligheten for at pathway individuelle interaksjoner være aktiv gitt de beregnede genet stater. Bruke grunnleggende prinsipper for maskin overvåket læring [28], [29] en klassifisering algoritme som preget hver onkogene fenotype (f.eks kreft prøve vers normal) ble generert og validert. Basert på enkelhet og sammenlignbarhet av alternative tilnærminger testet, ble en bayesiansk lineær diskriminant klassifiserer brukes.

Først en klassifisering algoritme ble hentet for å skille ulike kreft fenotyper fra normal fenotype vev. En klassifiserings utledet fra en 1800 prøve treningssettet (10 gangers validering) viste 98% suksess i en uavhengig validering testsett med 211 prøver (se figur 3 og tabell 1).

Hvert panel i figuren tilsvarer en annen fenotypisk forskjell, ifølge panelbildetekster. Den horisontale akse i hvert panel svarer til den en-dimensjonale projeksjon beregnes ved klassifiseringen algoritmen, som indikerer avstanden mellom biologiske prøver, i henhold til den multi-dimensjonale sti beregninger. Den vertikale aksen er en jitter scatter av prøvene for å muliggjøre et klart syn på separasjon.

Siden lineære classifiers snu hver av banene i problemet inn i en variabel i klassifikator, det er mulig gjennom funksjon analyse for å identifisere undergrupper av Klassifiserings variabler (pathways) som, som en gruppe, skille fenotyper med høy nøyaktighet. Funksjonsvalg ble anvendt for å identifisere et sett demonstrerer den optimale 98% nøyaktighet av den opprinnelige klassifiseringen i valideringen analyse av prøver. Det består av aktivitets score til seks veier:. Trka Pathway, DNA Damage vei, Ceramide Pathway, Telomerase Pathway, CD40L Pathway og Calcineurin Pathway

Kreft er en sykdom i stor fenotypiske og molekylære heterogenitet. Selv innenfor et gitt organ nettstedet, er fenotypiske heterogenitet forbundet med betydelige forskjeller i kreft utfallet. Det er derfor av ekstra interesse for å identifisere molekylære prosesser som ligger bak fenotypiske forskjeller og som forutsier utfallet. Vi hentet derfor underskrifter for en rekke undergrupper av brystkreft. Disse undertyper er: histologisk grad (Elston karakterene 1 vs 3, eller karakterene 2 vs 3); P53 status (mutert /villtype); østrogen reseptor positive /negative status (ER +/-); og progesteron reseptor positive /negative status (PGR +/-). Ytelsen av klassifiserere blir vist i figur 3. I alle tilfeller klassifiserere med et lite antall reaksjonsveier (tre til seks) oppnås en høy grad av nøyaktighet (83% til 95%). Tabell 1 viser de ulike sti grupper som klassifiserer ulike fenotyper.

Vi har evaluert neste muligheten av kreft subtype-spesifikke signaturer til stratify de 236 brystkreftprøver av utfallet. Etter unsupervised gruppering av kreftprøver ved hjelp av trasé er identifisert ovenfor, analyser Kaplan Meier ble utført (figur 4). I tre tilfeller en enkelt sti fra sub-type signatur betydelig spådd utfallet: døgnrytme vei, fra karakteren 1/3 signatur (P = 2.9E-11); Sonic Hedgehog vei, fra karakteren 2/3 signatur (P = 4E-8); og Agrin i postsynaptiske Differensiering, fra P53 signatur (P = 4.6E-7). De tre baner i PGR +/- signatur skilles prøvene i to grupper med en P-verdi 0,0001, med Bone Remodelling vei regnskap for det meste av effekten. I tillegg er de fem baner i ER +/- signaturen separert prøvene i to grupper med en P-verdi på 0,004, med den SREBP veien står for det meste av effekten.

(A) (1) Kaplan -Meier overlevelse tomt på brystkreftpasienter fra [15], stratifisert etter gruppering basert på sti aktivitet. Panel (2) i (A) viser aktiviteten poengsummen for Sonic pinnsvinet vei farget i henhold til tilknytning til noen av de tilsvarende fargede overlevelseskurver i (1); (B) De samme analysene gjort med brystkreftpasienter fra [15], basert på veien remodelle (se tekst for sti valg). (C) Kaplan Meier overlevelses plott av lungekreftpasientdata fra [17], stratifisert i henhold til aktiviteten i CSK veien og (D) NFKβ veien. I hvert panel viser (2) sub-panel den mest innflytelsesrike veien metriske ut av gruppen av stratifiseringsinnretningen veier. Dette betyr ikke at veien representert er ansvarlig for hele separasjon i to grupper.

Det er viktig å merke seg at en rekke funn i litteraturen dukke opp uavhengig av vår sti analyse av brystkreft prøver. Som betydningen av ER +/- skillet forvaltning av brystkreft er godt etablert, har vi sett på hver av disse undergruppene separat. Det er blitt observert [32] at Trka Pathway (identifisert i både den generiske onkogene signatur og den klasse 2/3 underskrift) spiller en betydelig rolle i ER- tilfeller. Vår analyse viser at den generiske onkogene signaturen skiller de ER- prøvene inn i to grupper (P = 4.6E-9) med trkA-reaksjonsveien står for det meste av effekten av høy aktivitet av denne veien korrelere med dårlig prognose. Likeledes har det blitt observert [33], [34] som beta-catenin spiller en betydelig rolle i respons til tamoxifen, en standard behandling for ER + sykdom. For å analysere arten av tamoxifen-indusert respons, avledet vi et sorteringsapparat for å skille de ER + saker som var blitt behandlet med tamoxifen fra de tilfeller som ikke var blitt behandlet, og deretter brukes banene i den resulterende signatur til å klynge de tilfeller ved utfall . Beta-catenin pathway dukket opp som den mest signifikante (P = 1E-13) bane i å forutsi utfallet.

Det har lenge vært foreslått at molekylære klassifiseringer av kreft kan ha kapasitet til å overskride definisjoner organ eller vev-spesifikk . Mer spesifikt, har det vært antydet at molekylære definisjoner som gjenspeiler universelle egenskaper av celletype eller ontologi og som understøtter en felles molekylær etiologi kan dukke opp over organ språk definisjoner. For å vurdere om underskriftene observert ovenfor i kreft i bryst epitel kan generaliseres til andre kreftformer, undersøkte vi deres evne til å forutsi fenotyper i lunge og tykktarmskreft. Vi søkte signaturer avledet fra brystkreft subtyper å klynge lungekreft utfall (figur 4). Trasé forutsi utfallet inkludert IL-7 Pathway (P = 0,002) og CSK Pathway (P = 3E-11). Det har tidligere bemerket at disse banene har vært knyttet til utfallet i lungekreft [35], [36]

Til slutt undersøkte vi den generelle onkogene signatur evne til å forutsi organ stedet bestemt utfall. Interessant, signatur trasé skilte 236 brystkreft prøver i fem forskjellige undergrupper overlevelse (p = 2E-8) og den 90 lungekreft prøvene i to ulike undergrupper (P = 5E-17).

diskusjon

resultatene ovenfor tyder på at bruk av veien som analyseenhet kan utfylle dagens individuelle genet basert tilnærming til kartlegging fenotype til underliggende molekylære prosess. Mål identifisering av prosesser som tidligere var tilknyttet fenotyper utnytte genom-wide datasett gir delvis validering av de observerte resultatene. Nylig observerte prosess kartlegginger til fenotyper imidlertid klart krever enten bekreftelse fra uavhengige datasett eller eksperimentell bekreftelse.

De observasjoner gjort gjennom denne analysen er provoserende. Mange av disse reaksjonsveier (f.eks apoptose, telomere vedlikehold) er tidligere blitt beskrevet som universelle komponenter i onkogenesen [2]. I tillegg er fremgangsmåter som identifiseres som kan ligge til grunn for felles relatert kreft fenotyper, slik som inflammasjon. Interessant, nye veier også identifisert som en del av den generelle onkogene signatur som avbildet i de seks banene kollektive (f.eks Ceramide og Calcineurin trasé). Økende interesse for Ceramide støtter denne hypotesen. Ceramide har vært lenge kjent for å være involvert i apoptose [37] – [39] og nyere arbeider er å se på relevansen av ceramid i kreft [40] – [42] og i kreftbehandling [43], [44]. Lignende interesse har utviklet seg i kalsineurin. Mens interessen ble tidligere begrenset til sin aktivitet i immunrespons, er det nå å bli anerkjent som en dominerende aktør i onkogenese [45], [46]. Kombinasjonen av dette settet med trasé kan definere sentrale prosesser som er karakteristisk for en universell stamcelletype.

Omvendt sti analyse av kreftunder fenotyper kan også gi nye mekanistiske innsikt som avslører underliggende biologi. For eksempel er tamoxifen effektive i behandling av visse tilfeller av ER + brystkreft. I slike tilfeller må tamoxifen påvirke aktiviteten av interaksjons nettverk. Det er derfor logisk å hypoteser om at det vil være observerbare forskjeller i nettverket aktivitet mellom de tilfeller hvor tamoxifen er effektiv og de tilfeller der medikamentet er ikke effektive. Vår tilnærming bruker pathway signaturer å forutsi variasjon i utfallet, som er tatt som mål på narkotika effektivitet. Vi spekulerer i at vår tilnærming kan avsløre disse nettverkene som er både forskjellig aktiveres i respons på behandling med tamoxifen og viktig for tumorvekst og bærekraft.

Den tilnærmingen brukes her har paralleller til bruk av genet kart for sette fenotyper inn molekylært domene. Først pathway modeller representerer en reproduserbar rammeverk som kan testes på tvers av studier og utvides etter ytterligere kunnskap blir tilgjengelig. Også, trasé og deres struktur gir en høyere orden konstruere for å vurdere rollen til gener.

Hver interaksjon innenfor en sti krever bidrag fra flere gen observasjoner. Hver enkelt gen aktivitetsnivå bidrar bare i sammenheng med andre gener som deltar i en vekselvirkning i prosessen nettverket. Dette er demonstrert av den observasjon at vi ikke var i stand til å utlede effektive classifiers, direkte fra gen-statlige verdier alene (for genene som utgjør de viktigste seks trasé).

Det er også interessant at fem av de seks banene vi bruker til å klassifisere normal og tumorprøver danne en enkelt sammenhengende nettverk (Figur 5, forblir telomerase veien frakoblet). Dette samtrafikk kan gi nye muligheter for å utvikle intervensjoner. Kunnskap om sammenhengene kan foreslå alternative mål som ville ha flere spredningsveier effekter. Minimalt, kan det tillate identifisering av kompleksiteten knyttet til valg av målsetting før intervensjon design.

sluttet trasé farge felles noder.

Det er enighet om at sannsynlighets klassifisering av gener i alternative statene ned og opp er en forenkling av mye større kompleksitet mønstre av genet atferd og handling. Finner imidlertid empirisk evaluering av de observerte data som genuttrykksmønster ofte kan passe en av to alternative uttrykksnivå distribusjoner. Videre har en slik forenkling vist seg nyttig i andre forsknings domener. For eksempel den forenkling som abstracts digitale logiske fra den underliggende kontinuerlig strøm av elektroner i integrerte kretser har gjort det mulig utforming av innretninger av staggeringly kompleks funksjonalitet [47].

Det er klart at nåværende kunnskap biologiske reaksjonsveier er ufullstendig og ufullkommen. Som sådan, prosesser identifisert er nesten sikkert ikke de eneste faktorene som påvirker fenotyper av interesse. Likevel, hvor prosesser er identifisert, de tjener som viktige mål for videre undersøkelser. Videre er prosessen orientert tilnærming gjør det mulig å skille ut hvilke komponenter av komplekse nettverk i hvilke gener som deltar er forskjellig bidrar til en fenotype av interesse. Kombinert bruk av aktivitet og konsistens poengsum tillater diskriminering av prosesser aktivert på grunn av fenotype versus de som logikk skiller mellom fenotyper. Sistnevnte (konsistens), er potensielt årsaks knyttet til fenotype og foreslår kandidater som har blitt endret. Men utnytte genuttrykk data, konsistens score kan bare beregnes for interaksjoner som involverer transkripsjons hendelser, begrense deres diskriminerende makt.

Legg att eit svar