Abstract
Kreft er blitt stadig mer anerkjent som en systembiologi sykdom siden mange forskere har vist at denne ondartede fenotype kommer fra unormal protein-protein, regulatoriske og metabolske interaksjoner forårsaket av samtidige strukturelle og regulatoriske endringer i flere gener og veier. Derfor er identifisering av onkogene interaksjoner og kreftrelaterte signalnettverk avgjørende for bedre forståelse kreft. Som eksperimentelle teknikker for bestemmelse av slike interaksjoner og aliserte nettverk er arbeidskrevende og tidkrevende, vil utviklingen av en beregningsorientert tilnærming i stand til å utføre denne oppgaven være av stor verdi. For dette formålet, presenterer vi her en ny beregnings tilnærming basert på nettverkstopologi og maskinlæring i stand til å forutsi onkogene interaksjoner og trekke ut relevante kreftrelaterte signal subnett fra et integrert nettverk av menneskelige gener interaksjoner (
INHGI
). Denne tilnærmingen, kalt
graph2sig
, er todelt: For det første, tildeler det onkogene score til alle interaksjoner i
INHGI
og deretter disse onkogene score brukes som kant vekter for å trekke onkogene signal subnett fra
INHGI
. Når det gjelder prediksjon av onkogene interaksjoner, viste vi at
graph2sig
er i stand til å gjenvinne 89% av kjente onkogene interaksjoner med en nøyaktighet på 77%. Videre er interaksjoner som fikk høye onkogene score anriket i gener hvor mutasjoner er blitt kausalt implisert i kreft. Vi har også vist at
graph2sig
er potensielt nyttig i å trekke onkogene signal subnett: mer enn 80% av bygget subnett inneholde mer enn 50% av originale interaksjoner i deres tilsvarende onkogene lineære baner stede i KEGG PATHWAY database. I tillegg er de potensielle onkogene signaliserings subnett oppdaget av
graph2sig
støttes av eksperimentelle bevis. Samlet utgjør disse resultatene tyder på at
graph2sig
kan være et nyttig verktøy for etterforskere som er involvert i kreftforskningen interessert i å oppdage signalnettverk mest utsatt for å bidra med fremveksten av ondartede fenotype
Citation. Acencio ML, Bovolenta LA, Camilo E, Lemke N (2013) Prediksjon av onkogene Interaksjoner og kreft-relaterte Melde Networks Basert på Network Topologi. PLoS ONE 8 (10): e77521. doi: 10,1371 /journal.pone.0077521
Redaktør: Julio Vera, Universitetet i Erlangen-Nürnberg, Tyskland
mottatt: 1 april 2013; Akseptert: 3. september 2013, Publisert: 25 oktober 2013
Copyright: © 2013 Acencio et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet har blitt støttet med tilskudd # 2010 /20684-3, # 2012 /13450-1, # 2012 /00741-8 og # 2013 /02018-4 fra São Paulo Research Foundation. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
kreft fenotype er drevet av den samtidige uttrykk for seks biologiske evner: selvforsyning i vekstsignaler, ufølsomhet overfor antivekst signaler, unngåelse av apoptose, vedvarende angiogenese, ubegrensede replicative potensial og vev invasjon og metastasering [1] . Alle disse «kjennetegnene til kreft» dukke opp som et resultat av det komplekse samspill mellom onkogene signaler som er sett av sekvensielle fysiske og biokjemiske reaksjoner, det vil si fosforylering, defosforylering, binding, dissosiasjon etc., som er utløst av onkogener eller tumorsuppressorgener og munne i uttrykket av grunnleggende cellefysiologi endringene i forbindelse med malign fenotype.
generelt onkogene signaler forstyrrer den normale interaksjoner så lenge disse signalene overføres via signalnettet. For eksempel er overekspresjon av
CCND1
, et gen som er en viktig regulator i cellesyklusprogresjon, er et resultat av den konstitutive onkogene signalisering utløst av mutert KRAS i mange kreftceller [2]. Samspillet nedstrøms til KRAS og oppstrøms til CCND1 blir forstyrret, og som en konsekvens,
CCND1
er overexpressed. Men overekspresjon av CCND1 alene er ikke tilstrekkelig til å kjøre onkogene transformasjon gjennom selvforsyning i vekstsignaler støttet av mutert KRAS. I stedet er flere onkogene signaler endrer atomhandel og ubiquitin-formidlet proteolyse som kreves for å fremme den kjernefysiske retensjon av overuttrykt CCND1 [3], tilstand hvor den fortsatte spredning av cellen, en av funksjonene som er nødvendig for en fullstendig ondartet transformasjon, kan bli vedvarende.
den ovennevnte eksempel forsterker det faktum at en normal celle blir forvandlet til en kreftcelle bare hvis flere vanlige interaksjoner samtidig forstyrret av flere onkogene signaler. I denne forbindelse, er bestemmelse av den onkogene rollen individuelle gener eller proteiner som er tilstrekkelig til å omsette detaljene av de signalveier som er involvert i kreft. Bestemmelsen av onkogen rolle av gener og proteiner i et systemnivå, på den annen side, ville være å foretrekke for dette formål, og som faktisk, til systemer biologi baserte tilnærminger har vært overbevisende vist å være vellykket i avdekke funksjon kreft signalveier (for anmeldelser på kreftsystembiologi, se [4] og [5]).
kombinasjonen av maskinlæring og grafteori er en av de systembiologi baserte tilnærminger som brukes til å bestemme og forutsi hvordan fenotyper dukke opp fra samspill mellom biologiske enheter. Vi har tidligere brukt denne tilnærmingen til å forutsi viktige gener på et genom-wide skala og bestemme cellulære regler for vesentlighet på
Escherichia coli product: [6] og
Saccharomyces cerevisiae product: [7]. Videre har vi også brukt en kombinasjon av maskinlæring og grafteori til å forutsi morbide og druggable gener og fastsette regler for sykelighet og druggability i menneskelig [8]. Foruten å oppnå vellykket prediksjon priser, har vi også fått biologisk plausible cellulære regler i disse tilfellene. Disse funnene bedt oss om å undersøke om kombinasjonen av maskinlæring og grafteori vil også være nyttig for å avdekke i et system-nivå hvordan kreftsignalveier opptre på konsert for å generere ondartede fenotype.
For dette formålet, vi til stede i dette papiret en ny beregningsmetode basert på maskinlæring og grafteori,
graph2sig
, som avgjør (1) onkogene potensial for en interaksjon, dvs. dens evne til å overføre onkogene signaler i et integrert nettverk av menneskelig gen interaksjoner (INHGI) og (2) utdrag fra INHGI potensielle kreftrelaterte signal subnett gitt to gener av interesse ved hjelp av onkogene potensielle score tildelt interaksjoner. Ved hjelp av
graph2sig
, kunne vi sikkert forutsi onkogene potensial for interaksjoner samt å trekke ut fra
INHGI
subnett som inneholder kjente og potensielle onkogene trasé som støttes av eksperimentelle bevis. Så langt vi kjenner til, er dette første gang at kombinasjonen av maskinlæring og grafteori brukes til å forutsi både onkogene potensialet for interaksjoner og potensielle kreftrelaterte signal subnett.
Materialer og metoder
Formålet med
graph2sig
er todelt: prediksjon av onkogene potensial for interaksjoner (figur 1) og utvinning av potensielle onkogene signal subnett fra
INHGI plakater (figur 2). Det første trinnet av
graph2sig
er byggingen av
INHGI Hotell og beregning av nettverks centralities av gener i
INHGI plakater (tabell 1). Det andre trinnet gjelder bruk av disse beregnet nettverks centralities som treningsdata for trening maskin læring algoritmer (eller elever) til å generere prediksjonsmodeller for tildeling av onkogene potensial til samhandling. Det tredje trinnet er tildelingen av en «onkogene potensial» () til hver interaksjon med disse prediksjonsmodeller (figur 1).
Etter å ha bygget
INHGI Hotell og beregning nettverks centralities, balansert trening grupper er konstruert og presentert for den valgte maskinlæringsalgoritme (skaffet J48) som i sin tur genererer prediksjonsmodeller som vist i (A). Disse prediksjonsmodeller er kombinert i en endelig prediksjon modell av Stem algoritmen. Denne endelige modellen blir så brukt til å tildele onkogene score til samhandling i
INHGI
stammer
wINHGI
som vist i (B).
(A) Søknaden av
REA
på
wINHGI
genererer en liste over stier sammen med sine kostnader for hvert par av gener og disse kostnadene er konvertert til vekter og normalisert slik at minimumsvekten er null og maksimum vekten er 1. (B) Tjue subnett genereres fra denne listen over baner og subnettet med høyest gjennomsnittlig clustering koeffisient er valgt. (C) For hvert par av gener, er 41 subnett generert, og blant disse subnett, er den med høyest gjennomsnittlig clustering koeffisient valgt som den endelige potensielle kreftrelaterte subnettet.
det fjerde trinnet er å finne stiene mellom to gener som er av interesse, og i
INHGI
med de høyeste verdiene ved å bruke den rekursive telling algoritme (
REA
) [9], en bane finne algoritme som viser de baner i den rekkefølge deres vekter (i dette tilfellet). Det siste trinnet er utvalget og sammenslåing av stier funnet av
REA
for å bygge den potensielle kreftrelatert signale subnettet som inneholder de høyeste onkogene trasé linking og (figur 2). Disse trinnene ble gjennomført i et bash script tilgjengelig på https://www.lbbc.ibb.unesp.br/graph2sig
Første trinn:.
INHGI
konstruksjon og beregning av nettverk centralities
INHGI
konstruksjon.
INHGI
, som inneholder bare eksperimentelt verifisert interaksjoner, ble konstruert basert på antagelsen om at to gener, og koding for henholdsvis proteiner og er i samspill gener hvis
(i) Hotell og samhandle fysisk (protein fysisk interaksjon),
(ii)
transkripsjonsfaktor regulerer direkte transkripsjon av genet, dvs. bindes til promoter-regionen av (transkripsjonsregulering interaksjon), eller
(iii)
enzymer og dele metabolitter, dvs. et produkt dannet ved en reaksjon som katalyseres av enzymet som benyttes som reaktant ved en reaksjon katalysert ved enzymet, eller det enzym genererer en metabolitt som samhandler med en ikke-enzymatisk (metabolsk interaksjon). De eksperimentelt verifiserte menneskelig interaksjon ble oppnådd fra forskjellige kilder i henhold til den type interaksjon som beskrevet nedenfor.
Protein-protein-interaksjoner fysikalske data ble oppnådd fra versjon 1.3 av Menneskelig Integrated Protein-protein interaksjonsreferanse (HIPPIE), en database dedikert til innsamling av eksperimentelt verifisert og scoret menneskelige protein-protein interaksjoner integrert fra flere kilder [10]. Vi samlet inn fra HIPPIE bare interaksjoner oppdaget av eksperimentelle teknikker som fikk score på 5 eller mer, dvs. teknikker som ble vurdert av hippie dyktige kuratorer som de med høy pålitelighet og lav feilrate [10]. Protein-protein interaksjoner fra HIPPIE (og fra alle andre lignende databaser faktisk) anses urettet interaksjoner fordi denne type samhandling er ment å være ikke-retningsbestemt. Imidlertid, som utvinning av potensielle onkogene signaliserings subnett fra
INHGI
avhenger av retningen på interaksjoner, dvs. retningen av signalstrømmen mellom proteiner, og interaksjoner levert av vår kilde av treningsdata, den KEGG PATHWAY [11], rettes (se flere detaljer i avsnittet «Bygging av trening datasett»), hvert protein-protein interaksjon – ble forvandlet i to forskjellige rettet interaksjoner: og Selge
Mennesketranskripsjonsregulering interaksjoner ble hentet fra den gjeldende versjonen av. human Transkripsjonell forordning Interaksjon database (HTRIdb [12]). Laget av vår gruppe, er HTRIdb et oppbevaringssted for eksperimentelt verifisert interaksjoner mellom mennesketranskripsjonsfaktorer og deres målgener oppdages av 14 forskjellige eksperimentelle teknikker omfavner både små og store teknikker. Vi samlet inn fra HTRIdb alle transkripsjonsfaktorer /målgener interaksjoner.
Metabolske interaksjoner ble hentet fra den menneskelige metabolske modellen Recon 1 [13] av en kode implementert i Mathematica
® 7.0 (Wolfram Research, Inc.) . Vi utelatt de metabolske interaksjoner genereres av de såkalte «valuta metabolitter», tallrike molekyler som foreligger gjennom hele cellen mesteparten av tiden, og derfor lite egnet til å pålegge begrensninger på dynamikken i metabolske reaksjoner [14]. Vi vurderte valuta metabolitter de åtte mest knyttet metabolitter (ADP, ATP, H, HO, NADP, NADPH, ortofosfat og pyrofosfat) i den opprinnelige metabolsk modellen Recon 1. I tillegg har vi lagt til settet av metabolske interaksjoner noen viktige interaksjoner som er mangler i Recon 1: PIK3CA PDPK1, PIK3CA ILK, PIK3CA akt3, PIK3CA akt2, PIK3CA akt1, PIK3CB PDPK1, PIK3CB ILK, PIK3CB akt3, PIK3CB akt2, PIK3CB akt1, PIK3CD PDPK1, PIK3CD ILK, PIK3CD akt3, PIK3CD akt2, PIK3CD akt1 og PTEN akt1.
den endelige
INHGI
er en rettet nettverk dannet av integrering av protein fysiske, metabolske og transkripsjonsregulering interaksjoner gjennom gener som er felles for disse datasettene (se Dataset S1). Før du utfører integrasjon, konverterte vi alle menneskelige genet navn til sin GeneID – som leveres av Entrez Gene databasen [15] -. For å unngå å skape falske interaksjoner som følge av genet navn tvetydighet
Beregning av nettverks centralities.
for hvert gen i
INHGI
, vi beregnet 4 nettverk sentralitetsnivåer tiltak som er oppført i tabell 1. i korthet grad sentralitet () er definert som antall linker til node (i vårt tilfelle, genet). Clustering koeffisient () av en node (i vårt tilfelle, et gen) kvantifiserer hvor nær knutepunktet og dets naboer er til å være en klikk, dvs. alle noder koblet til alle noder. For
INHGI
, er definert som andelen av koblinger mellom genene i nabolaget delt på antall linker som kan finnes mellom dem. Betweenness sentralitet () gjenspeiler den rollen en node (i vårt tilfelle, et gen) i det globale nettverket arkitektur og for
INHGI
, er definert som brøkdel av korteste stier mellom og passerer gjennom. Nærhet sentralitet () måler hvor nær en node (i vårt tilfelle, et gen) er alle andre i nettverket, og for
INHGI
, er definert som middelkorteste veien mellom og alle andre gener kan nås fra den. Alle disse nettverks sentralitetsnivåer tiltakene ble beregnet av Python-pakken
NetworkX
1.6 [16]
Andre trinn:.. Generasjonen av prediksjonsmodeller
Bygging av opplærings datasett
Vi bygget to grupper av balanserte trening datasett, dvs. datasett som inneholder det samme antall positive (i vårt tilfelle, kjent onkogene interaksjoner) og negative (i vårt tilfelle, ikke-onkogene interaksjoner) eksempler: «normale datasett» og » stokket datasett «. Disse treningsdataene er tilgjengelig på https://www.lbbc.ibb.unesp.br/graph2sig
For å lage opplærings datasett, må vi først samlet en liste over onkogene interaksjoner -. Interaksjoner er kjent for å overføre onkogene signaler – fra kreft sti kart levert av KEGG pATHWAY database [11] og deretter kartlagt dem til INHGI. Den endelige listen over onkogene interaksjoner brukes som positive eksempler for å trene vår maskinlæring algoritmen består av 265 onkogene interaksjoner stede i INHGI (se Dataset S1). Når det gjelder det negative eksemplene vi betraktet som «ikke-onkogene interaksjoner» de resterende vekselvirkninger som er tilstede i INHGI fordi tiden det ikke er mulig å bygge opp en liste over interaksjoner ikke er kjent for å overføre onkogene signaler. Vi tilfeldig valgt 1000 forskjellige sett med 265 av disse ikke-onkogene interaksjoner og kombinere dem med på listen over 265 kjente onkogene interaksjoner å bygge 1000 forskjellige trenings datasett som inneholder 530 interaksjoner hver. Dette er de «normale datasett». Fra disse normale datasett, genererer vi 10000 forskjellige «stokket datasett» ved tilfeldig stokking klassen etiketter (onkogene og ikke-onkogene) blant interaksjoner (figur 1).
Bygging av prediksjonsmodeller.
Vi benyttet den versjonen 3.7.5 av WEKA (Waikato Environment for Kunnskaps Analysis) programvarepakke, en samling av maskinlæring algoritmer for data mining oppgaver [17], for å generere prediksjonsmodeller. Vi brukte treningsdata som er beskrevet i forrige avsnitt for å trene bootstrap aggregere (bagging), en maskin læring ensemble meta-algoritme som kombinerer flere base elever [18]. I vårt tilfelle valgte vi som base elev på J48-algoritmen, en WEKA implementering av C4.5 beslutningstreet [19], med standardparameterne.
Vanligvis generering av prediksjonsmodeller ved bagging er gjennomført som følger: (1) bootstrap gjentak av treningsdatasettet blir opprettet; (2) hver replikere presenteres til base eleven som enn bygger prediksjonsmodeller; og (3) i disse prediksjonsmodeller blir til slutt samlet i en enkelt modell. I vårt tilfelle ble bagging konfigurert til å produsere 20 bootstrap gjentak av hver trening datasett og disse replikater ble deretter presentert for J48 som i sin tur generert 20 prediksjonsmodeller for hver trening datasett. Disse modellene ble endelig kombinert i en enkelt modell for hver trening datasett på totalt 1000 kombinert «normale» modeller (generert fra det normale datasett) og 10000 kombinert «stokket» modeller (generert fra stokkes datasett).
Utførelse av bygget prediksjonsmodeller.
Vi har vurdert resultatene av våre prediksjonsmodeller ved å estimere deres tilbakekalling, presisjon og området under mottaks opererer karakteristikk (ROC) kurve (AUC). Recall er andelen av faktiske onkogene interaksjoner som er riktig spådd som sådan mot alle aktuelle kreftrelaterte interaksjoner:
TP (sanne positive) betegner mengden av selve kreftrelaterte interaksjoner korrekt spådd som sådan og FN (false negativ) angir mengden av selve kreftrelaterte interaksjoner feilaktig forutsett som ikke er kjent å være relatert til kreft, respektivt.
Presisjonen er den andel av selve kreftrelaterte interaksjoner som er riktig forutsagt som sådan mot alle interaksjoner forutsagt som er relatert til kreft:
FP betegner mengden av interaksjoner faktisk ikke er kjent å være relatert til kreft feilaktig forutsagte som kreft-relaterte interaksjoner henholdsvis
AUC er en oppsummering mål på ROC. kurve – en grafisk fremstilling av den virkelige positive hastighet i forhold til falske positive som angir sannsynligheten for at en sann positiv prediksjon som en funksjon av sannsynligheten for et falskt positivt prediksjon for alle mulige terskelverdier [20] – og er ekvivalent med sannsynligheten for at en tilfeldig valgt negativt eksempel (i vårt tilfelle, en ikke-onkogen interaksjon) vil ha en mindre estimert sannsynlighet for å tilhøre den positive klasse enn en tilfeldig valgt positivt eksempel (i vårt tilfelle, en onkogen interaksjon) [21].
ved hjelp av WEKA, beregnet vi de ovenfor nevnte ytelsesmål ved å utføre en 10 gangers kryssvalidering for å teste den kombin 1000 normal og 10000 kombin stokkes prediksjonsmodeller. Den 10-fold kryssvalidering fungerer på følgende måte: hvert datasett er tilfeldig fordelt i 10 undergrupper. Av de 10 undergrupper, er en enkelt undergruppe beholdt som valideringsdata for testing av modellen, og de resterende 9 delsettene blir brukt som treningsdata. Kryssvalideringsprosessen blir så gjentatt 10 ganger, med hver av de 10 delmengdene anvendt nøyaktig en gang som valideringsdata. 10 Resultatene fra foldene blir så gjennomsnittsberegnet for å gi et enkelt anslag for hver opptreden tiltak for hver anslagsmodell. I vårt tilfelle, hver opptreden tilmålt hver anslagsmodell er et gjennomsnitt av 200 resultater, ettersom hver modell er en kombinasjon av 20 andre modeller. Til slutt, rapporterte vi arbeidsmål er estimert av 10-fold kryssvalidering som median av 1000 kombinert normal og 10000 kombinert stokkes prediksjonsmodeller.
De statistiske sammenligninger av arbeidsmål anslått av våre prediksjonsmodeller generert av normale og stokket datasett ble utført ved hjelp av Mann-Whitney-U test [22]. Ifølge etablerte konvensjoner i maskinlæringsfellesskap, brukte vi denne testen siden det gjør ingen forutsetninger om den underliggende fordelingen av ytelse tiltak som brukes for å evaluere prediksjonsmodeller [23]. Forskjeller mellom arbeidsmål anslått av våre prediksjonsmodeller generert av normale og stokket datasett med en p-verdi 0,005 ble betraktet som statistisk signifikant
Tredje trinn:. Prediksjon av potensielle onkogene interaksjoner
Vi har montert 1000 kombinert normale prediksjonsmodeller bygget i forrige trinn i en enkelt modell (tilgjengelig på https://www.lbbc.ibb.unesp.br/graph2sig) ved å bruke «Stem», en WEKA implementering av de stemmeberettigede meta-algoritme som kombinerer utgangs spådommer om hver prediksjon modell av forskjellige regler [24]. Vi deretter påført denne ene anslagsmodell, som inneholder 20000 modeller som et resultat av kombinasjonen av de 1000 kombinerte modeller som i sin tur inneholder 20 modeller hver, for å gi verdier, det vil si mulighet for å overføre onkogene signaler, til hele settet av interaksjoner i INHGI verdier. Den endelige verdien er et gjennomsnitt på 20.000 verdiene individuelt tildelt av hver modell i den enkelt prognosemodellen
Fjerde trinn:. Henrettelsen av den rekursive opplisting algoritmen (
REA
)
For å finne de baner med de høyeste verdiene mellom to gener og i
INHGI
,
graph2sig
bruker
REA product: [9]. Denne algoritmen nummerer stier mellom en start og en slutt node i motsatt rekkefølge av sine kostnader, slik at banen med minimum er rangert først blant de baner. Før du utfører
REA
, verdier i
INHGI
omdannes til kostnader () siden
REA
vurderer vekten av kantene som kostnader. På denne måten, banen med maksimum, der er det totale antall interaksjoner i banen, tilsvarer banen med minimum for
REA
.
I
REA
, i tillegg til å velge en start-node – i vårt tilfelle et gen som utløser den onkogene signal – og en endenode – i vårt tilfelle et gen av interesse som mottar den onkogene signal utløses av start-genet – det er også mulig å definere opp til en maksimal verdi forhåndsbestemt for hver størrelse av nettverket. For
INHGI
, for eksempel
REA
gjør det mulig å definere maksimum baner. For hvert par -,
graph2sig
går
REA
med 41 forskjellige verdier av: 100 til 1000 i trinn på 100 baner, 2000 til 10 000 i trinn på 1000 baner, 20000 til 100000 i trinn på 10000 stier, 200000 til 1000000 i trinn på 100000 stier og 1.500.000 til 3.000.000 i trinn på 500000 stier.
fra de 41 gruppene av stier returneres av
REA
, 41 potensielle kreftrelaterte signal subnett er konstruert for hver – par som vist i neste avsnitt
siste trinn. utvinning av potensielle kreftrelaterte signal subnett
i dette siste trinnet av
graph2sig
, fra hver gruppe av banene som returneres av
REA plakater (f.eks gruppe med 1000 baner eller 100000 baner) for hver – paret, blir den potensielle kreftrelatert signale subnettet konstruert som følger:
for hver bane, omdannes til vekt, hvor;
verdiene er normalisert slik at og som følgende: (1) hvor er normalisert for banen, og er den beregnede vekt i (1) for banen;
Tjue subnett er konstruert slik at hver subnettet består av et sett med stier med hvor spenner 0 til 0,95 i trinn på 0,05 (figur 2),
subnettet med høyest gjennomsnittlig clustering koeffisient blant alle 20 subnett er valgt som potensialet kreft-relaterte signale subnettet (figur 2)
på dette nivået,
graph2sig
inneholder en samling av 41 mulige kreftrelaterte signal subnett for hver -. pair . Den ultimate potensialet kreft-relaterte signale subnett for hver – paret er subnettet med høyest gjennomsnittlig clustering koeffisient blant de 41 subnett (figur 2)
Diskusjon
Resultater og
INHGI
: generelle trekk
byggingen av
INHGI
er grunnleggende for
graph2sig
siden utnyttelse av nettverks sentralitetsnivåer tiltak av gener som treningsfunksjoner i maskinen læring tilnærming foreslått her er kjernen i hele prosessen. I tillegg til utvinning av en signalerings delnettverk gir mening bare i et nettverk sammenheng. Derfor er det viktig å være klar over noen generelle trekk ved
INHGI
som disse funksjonene kan tjene som nyttige ressurser for analyse og tolkning av resultater.
INHGI
er en rettet nettverk bestående av 19789 gener og 318332 interaksjoner. Fra disse 19789 gener, 13932 samhandle med hverandre via 242716 protein fysiske interaksjoner (vurderes her som anvist interaksjoner, se detaljer i «metoder»), 1166 via 24299 metabolske interaksjoner og 18310 via 51317 transkripsjonsregulering interaksjoner. Videre 896 gener samhandle med hverandre via protein fysisk og metabolske interaksjoner, 12508 via protein fysisk og transkripsjonsregulering interaksjoner og 1042 via metabolske og transkripsjonsregulering interaksjoner (se Dataset S1).
INHGI
er sikkert langt fra komplett hvis vi vurdere, for eksempel estimatene beregnet av Stumpf og kolleger [25]: de har anslått at størrelsen av menneskelig nettverk av protein-protein interaksjoner er ca 650 000 interaksjoner. Derfor
INHGI
inneholder 19% av totalt antall estimerte menneskelige protein-protein interaksjoner som 121358 urettet protein-protein interaksjoner er til stede i dette nettverket. Videre
INHGI
inneholder ca 46% av de som allerede er identifisert 43059 menneskelige gener (i henhold til EntrezGene databasen [15] vist 10. september, 2012). De resterende 23211 gener fraværende fra
INHGI
er transcriptionally regulert av minst en transkripsjonsfaktor antyde at det i fremtiden,
INHGI
økes ved tilsetning av minst 23211 transkripsjonsregulering interaksjoner.
på grunn av ufullstendighet av
INHGI
omtalt ovenfor – faktisk en merkbar karakteristisk for alle nettverk konstruert utelukkende av eksperimentelt validerte interaksjoner – resultatene er beskrevet i de neste avsnittene er bare gyldig for strøm~~POS=HEADCOMP
INHGI
. Enhver endring i strukturen av
INHGI
vil også endre nettverks sentralitetsnivåer tiltak, og som en konsekvens, bygging av prediksjonsmodeller samt tildeling av verdier.
Evaluering av ytelsen prediksjonsmodeller
den andre og tredje trinn på
graph2sig
bekymring, henholdsvis generering av prediksjonsmodeller og tildeling av onkogene potensielle score, til samhandling i
INHGI
. Før tildeling av verdier (som beskrevet i detalj i «metoder»), forsøkte vi å beregne ytelsen til de genererte prediksjonsmodeller i å utvinne kjente onkogene interaksjoner og skille ikke-onkogene fra onkogene interaksjoner. For dette formålet, vi vurderte sine prestasjoner ved å måle deres median tilbakekalling, presisjon og AUC over 1000 vanlige modeller (se «Metoder» for flere detaljer).
Før analysere arbeidsmål av våre prediksjonsmodeller, vi estimert de resultatmål av prediksjonsmodeller generert fra stokket datasett og deretter sammenlignet dem med prediksjonsmodeller generert fra de vanlige datasettene. Dette ble gjort for å sjekke om de prediksjonsmodeller bygget ved å trene pose J48 på ikke-stokket datasett lærte de egenskapene faktisk forbundet med kreft i stedet for trekk forbundet med noen tilfeldig undergruppe av gener. For denne sammenligningen har vi brukt Mann-Whitney-U test [22] som beskrevet i «metoder». For stokkes modeller, tilbakekall varierte 0,22 til 0,81 med en median på 0,49, presisjonen varierte 0,39 til 0,69 med en median på 0,5 og AUC varierte 0,38 til 0,62 med en median på 0,49. Alle disse verdiene er signifikant forskjellig fra de arbeidsmål av normale modeller (p-verdi for alle tiltak), hvilket indikerer at de egenskapene faktisk forbundet med kreft ble lært av vår normale prediksjonsmodeller.
Etter bekreftelse på at forutsigelsen modeller generert fra normale datasett er sannsynlig å lære de egenskapene faktisk forbundet med kreft, vi forsøkte å analysere sine resultatmål. Som vist i figur 3, tilbakekalling av prediksjonsmodeller varierte 0,83 til 0,94 med en median på 0,89, og deres nøyaktighet varierte 0,71 til 0,83 med en median på 0,77. Deretter ble prediksjonsmodeller fullstendig restituert 89% av kjente onkogent interaksjon med en nøyaktighet på 77%. Videre vil sannsynligheten for at en interaksjon forutsagt som onkogene faktisk tilhører settet med kjente onkogene interaksjoner varierte fra 84% til 93% med en median på 89% som indikert ved median AUC (figur 3).
Boxplot viser fordelingen av tilbakekallingen, presisjon og AUC-verdier for 1000 prediksjonsmodeller generert fra normale datasett (røde bokser) og 10000 prediksjonsmodeller generert fra stokket datasett (blå bokser). Fordelinger av ytelsesverdier for modeller generert fra normal og stokket datasett er statistisk forskjellig i henhold til Mann-Whitney-U test (p-verdi for alle tiltak).
Mens våre prediksjonsmodeller er i stand til å gjenopprette de fleste kjente onkogene interaksjoner som åpenbart ved deres høye tilbakekalling (median på 89%), deres evne til å skille onkogene fra ikke-onkogene er mindre uttalt som åpenbart ved deres moderat nøyaktighet (median på 77%). Dette indikerer en viss grad av støy i treningsdataene som er sannsynligvis forbundet med eksistensen av delte fellestrekk mellom onkogene og ikke-onkogene interaksjoner som induseres vår forutsigelse modeller for å gi en moderat ytelse i å diskriminere onkogene fra ikke-onkogene interaksjoner.