Abstract
I biomedisin, er vitenskapelig litteratur en verdifull kilde til kunnskap funn. Mining kunnskap fra tekstlige data har blitt en stadig viktigere oppgave som volumet av vitenskapelig litteratur vokser uhørt. I denne artikkelen foreslår et rammeverk for å undersøke en bestemt sykdom basert på eksisterende informasjon fra vitenskapelig litteratur. Sykdomsrelaterte enheter som inkluderer sykdommer, medikamenter og gener blir systematisk trukket ut og analysert ved hjelp av en tre-nivå nettverksbasert tilnærming. En papir-enhet-nettverk og en enhet samtidig forekomst nettverk (makronivå) er utforsket og brukes til å konstruere seks konsernets egne nettverk (meso-nivå). Viktige sykdommer, narkotika og gener samt fremtredende foretakets relasjoner (mikronivå) er identifisert fra disse nettverkene. Resultatene fra litteraturen basert litteratur gruvedrift kan tjene til å hjelpe kliniske applikasjoner
Citation. Zhu Y, Song M, Yan E (2016) Identifisere leverkreft og sitt forhold til sykdommer, narkotika og gener: A litteratur-Based Approach. PLoS ONE 11 (5): e0156091. doi: 10,1371 /journal.pone.0156091
Redaktør: Ying Xu, University of Georgia, USA
mottatt: 24 august 2015; Godkjent: 09.05.2016; Publisert: 19 mai 2016
Copyright: © 2016 Zhu et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet:. All relevant data er i avisen og dens saksdokumenter filer: S1-fil. Entity bord for gener, narkotika og sykdommer. S2 fil. Papir enhet tilknytningstabellen
Finansiering:. Dette prosjektet ble gjort mulig i en del av Institutt for museum og bibliotek Services (Grant Award Nummer: RE-07-15-0060-15), for prosjektet med tittelen «Building en enhet-baserte forskning rammeverk for å forbedre digitale tjenester på kunnskap funn og levering «. I tillegg ble prosjektet støttet delvis av Bio-Synergy Research Project (NRF-2013M3A9C4078138) av departementet for vitenskap, IKT og fremtidig planlegging gjennom National Research Foundation
Konkurrerende interesser:. Forfatterne har erklært at ingen konkurrerende interesser eksisterer.
Innledning
Vitenskapelig litteratur er den primære kilde for forskere til å kommunisere med andre, så vel som publikum. Forskere publisere artikler og presentere forskningsresultater på konferanser for å formidle ideer og formidle kunnskap til samfunnet. Som online tilgjengelighet til akademisk litteratur er forbedret, er veksten i akademisk litteratur uhørt høy. En lineær vekst publikasjoner har blitt rapportert for felt som bioinformatikk [1]. En bekymring som et resultat av slike proliferations er lagget forbruket av vitenskapelig litteratur. For å avhjelpe denne spenningen, har forskere forsøkt å bruke en rekke tekst mining teknikker, for eksempel informasjon utvinning [2], emne modellering [3], og dokumentet samandrag [4], systematisk destillere kunnskap fra store vitenskapelige litteratur korpus.
i biomedisin, vitenskapelig litteratur, primært fra PubMed [5] -en gratis portal til publikasjoner og sitat i Medline, har vært ansatt i forhold til tekst mining teknikker for å hjelpe biomedisinsk forskning. Fokuset er vanligvis å pakke relasjoner mellom biomedisinske enheter som protein-sykdom foreninger [6], Gene relasjoner [7], gen-medikamentelle relasjoner [8, 9, 10], gen-sykdom relasjoner [11, 12], og protein -protein interaksjoner [13, 14]. Al-Mubaid Singh [6] brukt en tekst mining tilnærming til Medline abstracts å oppdage protein-sykdom forening og bekreftet at litteraturbasert tilnærming er i stand til å oppdage sammenhenger mellom proteiner og sykdommer. I samme ånd, Stephens og kolleger [7] foreslått en metode for å detektere genetiske relasjoner fra Medline sammendrag og understreket at et av litteraturbaserte metoder som er evnen til å analysere store mengder data i en begrenset periode. Chang Altman [8] har foreslått en metode for å utvinne gen-legemiddelforbindelser fra litteraturen og viste effektiviteten av en samtidig forekomst metode for å utvinne gen-medikamentforbindelser i publiserte artikler (ved 78% nøyaktighet). Tilsvarende Chun og kolleger [11] foreslått et system som brukte en co-forekomst-basert maskin læring algoritme for å automatisk trekke relasjoner mellom gener og relasjoner fra Medline, og understreket viktigheten av genet og sykdoms ordbøker. Temkin Gilder [13] foreslått en metode som brukes kontekstfri grammatikk for å trekke protein interaksjoner fra ustrukturerte tekster. De rapporterte at den foreslåtte metoden registrert en presisjon på 70% for å trekke ut interaksjoner mellom proteiner, gener og små molekyler (PGSM). I tillegg til forhold identifikasjon studier har også fokusert på å utvinne enheter som gener [15] og kjemiske enheter [16]. Stapley Benoit [15] hentet gener fra litteratur ved hjelp av genet co-forekomst informasjon kuratert i genomisk databaser for å forbedre biomedisinsk informasjonsgjenfinning. Grego Couto [16] brukt en semantisk likhet validering basert metode for å forbedre identifisering av kjemiske enheter. De viste at metoden kan brukes som en komplementær metode for å hjelpe andre enhet identifiseringsmetoder uten overflødige enhet filtreringer. Detaljerte undersøkelser om biomedisinsk tekst mining er gjort tilgjengelig i Cohen Hersh [17], Zweigenbaum et al., [18] og Simpson og Demner-Fushman [19]. Utvunnet enheter og foretakets relasjoner kan bli ytterligere analysert ved hjelp av teknikker som nettverks sentralitet [20], statistisk analyse [21], og siteringsanalyse [22].
er det tydelig fra disse studiene at det å forstå ulike relasjoner mellom biomedisinsk enheter er en hjørnestein, fordi disse enhetene er bedre forstått ved sondering i deres samspill med andre. Det er en ny trend for å bruke bibliometriske metoder for å studere biomedisinsk enheter, som ble skapt av begrepet «Entitymetrics» [23]. I Entitymetrics, enhetsdrevet Bibliometri takler problemene med kunnskapsoverføring og funn på tre ulike nivåer: mikro-, meso- og makronivå. Mens mange tidligere nevnte studier hovedsakelig undersøkt måter å oppdage biomedisinsk enheter og foretakets relasjoner fra vitenskapelig litteratur, det mangler en integrert forskning som bruker utvunnet enheter og foretakets relasjoner til rette for litteratur basert informasjon oppdagelse. Derfor er målet med denne studien er å fylle gapet mellom teknikker for foretaket og foretakets forhold utvinning og bruk av disse teknikkene for å få innsikt i vitenskapelig litteratur.
Konkret følgende to forskningsspørsmål vil bli etterforsket : 1) i biomedisin, gitt en mengde vitenskapelig litteratur, hva biomedisinske enhetene har en høyere effekt på andre og thusly bør videre studert? 2) Hvilke par av enhetene har potensial til å ha meningsfulle relasjoner for informasjon oppdagelse, enhet og enhet forhold anbefaling, og andre gjenfinning og kliniske applikasjoner? I denne forstand, våre studie servere som en bro som kobler tidligere studier på biomedisinsk tekst mining med praktiske programmer for å hjelpe mer fokusert forskning gjennom enheter og deres relasjoner av høyeste viktighet. For å oppnå dette mål, foreslår et rammeverk for å identifisere viktige sykdommer, legemidler, og gener for en gitt sykdom. Rammeverket omfatter en enhet utvinning fremgangsmåte og et tre-nivå nettverksbasert tilnærming for analyse av en litteratur-baserte datasett.
Kreft er en primær årsak til død på verdensbasis, blant annet, leverkreft er den andre ledende årsaken til kreft dødsfall [24]. Så mange som 564 000 mennesker er diagnostisert med leverkreft hvert år, og trenden har en tendens til å fortsette i flere tiår i flere utviklede land som USA [25]. Det er kjent at de fleste tilfeller av leverkreft startet fra andre deler av kroppen, og flere typer av tumorer kan vokse i leveren fordi lever omfatter forskjellige typer celler [26]. Derfor, i denne brede omfanget av litteraturbasert leverkreft studien, identifisering av viktige enheter og relasjoner mellom enheter som er svært relevante for leverkreft blir sett på som gunstig. I denne forbindelse søker vi de foreslåtte metoder til en publikasjon datasett for å forstå sykdommen ved hjelp av denne rik kilde til vitenskapelig litteratur.
Data- og metoder
Data
«leverkreft «ble valgt som frø sikt å spørre PubMed. Vi hentet 169,774 PubMed poster og lastet dem ned i XML-format. Vi deretter analysert de nedlastede poster for å trekke ut titler og sammendrag for enhet utvinning ved å implementere en SAX Parsing modul. Vårt datasett består av 16.568 enheter (S1-fil. Enheter), og 1,023,204 entity-enhet og papir foretakets relasjoner (S2-filen. Papir Entity Relations). Tabell 1 viser andelen av hver type enheter blant alle 16.568 enheter. Prosessen med enhet utvinning fra de nedlastede poster vil bli diskutert i metodeseksjonen.
Metoder oversikt
Sykdom, narkotika, og genet enheter ble hentet fra artikler hentet fra PubMed. Ekstraherte enhetene er benyttet for å konstruere en papir-enhet nettverk, så vel som en enhet samtidig forekomst nettverk. Disse makronivå nettverk ble videre delt inn i tre typer av meso-nivå nettverk (dvs. sykdoms nettverk, narkotika-nettverk, og genet nettverk). Disse enhetsspesifikke nettverk er ansatt for å undersøke viktige sykdommer, narkotika og gener samt fremtredende relasjoner innenfor hver enhet gruppe. Figur 1 viser prinsippskisse for foreslår metoden.
Vi forklarer to hovedtrinn av den foreslåtte metoden, informasjon utvinning og nettverksanalyse, i følgende deler.
Informasjon Extraction.
Vi implementert en enhet utvinning modul ved å utvide Stanford CoreNLP [27]. Stanford CoreNLP gir et sett med verktøy naturlig språk prosessering (NLP) analyse som kan ta engelskspråklige tekster og utfører en rekke NLP oppgaver som setning splitting, Part Of Speech (POS) tagging og avhengighet parsing. Foretaket utvinning modul gikk gjennom følgende fire trinn. Det første trinnet er å splitte en rekord i setninger. Vi brukte «ssplit» rør gitt i Stanford CoreNLP. Det andre trinnet er å bygge tre ordbøker for sykdommer, gener og narkotika. Vi brukte CTD database (https://www.ctdbase.org/) for å lage de tre ordbøker. Totalt omfatter narkotika ordboken 151,729 narkotika navn; sykdommen ordboken omfatter 11,937 sykdoms navn; og genet ordboken omfatter 297,514 genet navn. Det tredje trinnet er å innlemme PubTator [28] for å styrke innsette ordbøker. Vi gjennomførte en innledende test av utvinne bio-enheter bare med CTD-baserte ordbøker og fant at kvaliteten på enhet utvinning var ikke tilfredsstillende. Derfor bestemte vi oss for å legge PubTator å ytterligere styrke ordbøkene. PubTator, utviklet for å oppfylle to Curation oppgaver-dokument triage og bio-konseptet merknader, inneholder bio-enhet merknader i flere enheter som kjemikalier, sykdommer, gener, mutasjoner, og arter. Ut av disse typene, er vi bare interessert i sykdom, narkotika, og genet typer. Pubtator inneholder 16,582,474 gener, 26,788,622 sykdommer, og 24,915,999 narkotika. Når vi slått sammen tre CTD ordbøker med tre PubTator ordbøker for narkotika, sykdom, og genet, sjekket vi om det er en vanlig ordbok oppføring delt i begge ordbøkene. Hvis funnet, vi bare holdt en oppføring. Denne doble eliminasjonen trinn resulterer i 25,053,123 legemiddelnavn for stoffet ordboken, 26,791,436 sykdoms navn for sykdommen ordboken, og 16,761,566 genet navn for genet ordboken. Det fjerde trinnet er å matche tokenized fraser til de tre ordbøker. I dette trinnet, ansatt vi følgende tre sub-trinn: tokenization, lemmatisering, og normalisering
tokenization.. Vi brukte Stanford PTBTokenizer tokenization teknikk [29]. PTBTokenizer er designet for å være en rask, regelbasert tokenizer for samsvar med Penn trebank tokenisering konvensjoner [29].
lemmatisering. Vi brukte lemmatisering teknikk som er tilgjengelig i Stanford CoreNLP pakken. Det gir full morfologisk analyse for nøyaktig identifisering av lemma for hvert ord. Lemmatisering er lik ord stammer, men i stedet for å fremstille en stamme av ordet, det erstatter suffikset for å få den normaliserte ord form.
Normalisering. Vi brukte strengen normalisering teknikk for å redusere streng variant av store og små bokstaver og spesialtegn inkludert +, *,,, og _. Strenger med store bokstaver er endret til de med små bokstaver, og /eller de oppnevnte spesialtegn blir fjernet fra alle innspill tekster og ordbok data. Når det gjelder spesialtegnet «-«.., Blir det erstattet med mellomrom, slik at for de generelle enhetsnavnet mønstre
Nettverksanalyse
nettverksanalyse består av seks trinn (fig 2) : 1) konstruksjon av et papir-enhet nettverk; 2) identifisering av topp enheter; 3) bygging av en enhet samtidig forekomst nettverk; 4) identifisering av enheter høyt co-skjedde med topp enheter; 5) bygging av konsernets egne nettverk (PageRank- og betweenness-basert); og 6) utforskningen av konsernets egne nettverk. Disse trinnene er utdypet i følgende avsnitt.
En papir-enhet nettverket ble bygget ved hjelp av de utpakkede enheter. Det er en heterogen, uvektet nettverk som inneholder fire typer noder: papirer, sykdommer, medikamenter og gener. Nettverket registrerer forholdet mellom papirer og enhetene slik at det er en fordel hvis en papir omfatter en enhet (dvs. en sykdom, medikament, eller genet). Den papir enhet nettverk danner grunnlag for å identifisere viktige enheter gjennom topologiske undersøkelser. To nettverksbaserte tiltak, Pagerank og betweenness sentralitet, ble brukt til å identifisere viktige enheter fra dette nettverket. Pagerank er en algoritme som brukes til å rangere nettsider i henhold til virkningen av inlinks [30]. Entities rangert høyt av Pagerank er de med høyest effekt. Betweenness sentralitet er en indikator for å måle innvirkningen av noder med hensyn til evnen til å overføre informasjon i et nettverk [31]. Dermed vil en node med høy sentralitet betweenness betyr at det spiller en viktig rolle i å overføre informasjon til andre. I papir-enhet-nettverk, enheter med høy betweenness sentralitet spille en nøkkelrolle i hele nettverket ved å koble andre enheter. Disse to algoritmer har blitt brukt på en rekke områder for å identifisere viktige gjenstander og skuespillere. For eksempel, Zhu Yan [32] brukt Pagerank til å identifisere viktige delfelt innenfor informatikk for å forstå dens kunnskap diffusjon mønstre; Jing Baluja [33] brukt Pagerank for å hente svært relevante bilder i et bilde søk. Likeledes ble betweenness sentralitet anvendt for å identifisere viktige noder for å løse problemet med nettverkskontroll i kommunikasjonsnett [34]; Det ble også brukt til en allianse nettverk for å utforske nye teknologier [35].
En co-forekomst nettverket ble deretter konstruert fra papir-enhet-nettverk. Samtidig forekomst nettverk er en heterogen, vektet nettverk består av sykdommer, narkotika og gener. Papir foretakets relasjoner ble brukt til å beregne co-forekomst verdier. Det vil si, hvis to eller flere enheter samtidig er skjedd innenfor et papir, antall co-forekomst ble registrert og behandlet som vekten i foretaket samtidig forekomst nettverk. Samtidig forekomst nettverk har vært mye studert [36, 37], basert på forestillingen om at enhetene har sterke interaksjoner med hverandre har en tendens til å co-forekommer ofte. Dermed co-forekomst relasjoner er en viktig funksjon i å undersøke mellom-enhet relasjoner.
I en enhet samtidig forekomst nettverk, sykdommer som høyt co-skjedd med topp sykdommer identifisert fra papir-enhet-nettverk ble deretter ekstrahert . Fordi vi har to sett med topp sykdommer identifisert separat fra Pagerank og betweenness sentralitet, to sykdomsspesifikke datasett ble samlet. Fire datasett (det vil si om narkotika og gener) ble også konstruert separat ved hjelp av den samme metode. Dermed omfatter hver av de seks datasett øverste enheter og enheter som svært samarbeids skjedd med disse topp enheter. De seks datasettene ble deretter brukt til å konstruere seks homogene nettverk (dvs. to sykdoms nettverk (Rank-baserte og betweenness sentralitet basert), to narkotikanettverk og to gene nettverk) ved å reservere samtidig forekomst verdi som kobling vekt. Disse seks nettverk er de transformerte nettverk av den foregående enhet samtidig forekomst nettverk med bare herunder en type av enhetene, samt et lite sett av viktige enheter. Foretaket bestemt nettverk er konstruert for å få en fortettet og meningsfull utsikt over frø sykdom. I hver av de seks enhets nettverkene, vi også ekstrahert høyt co-inntruffet enhetspar. Fordi hver entitetstype er assosiert med to konsernets egne nettverk (Pagerank-baserte og betweenness sentralitet-basert), ble to sett med par i en entitetstype identifisert.
Resultater
I denne delen, vi fortløpende rapportere viktige sykdommer, narkotika og enheter samt viktige par av enheter i området av leverkreft forskning.
viktige Entities
Tabell 2 viser to sett med topp ti sykdom, narkotika og gener: én basert på Pagerank og andre basert på betweenness. Vi diskuterer disse viktige enheter i følgende tre deler.
Diseases.
Som vist i tabell 2, tre sykdommer (dvs. svulst, kreft, og lever) dukket opp i begge listene . Leverkreft, HCC, og hepatoma betegne det samme konseptet og det gjør skrumplever og skrumplever. Leverkreft er en vanlig type av leverkreft forårsaket av cirrhose i de fleste tilfeller. Skrumplever /levercirrhose kan være forårsaket av hepatitt [38]. Sammenlign med Pagerank, inkluderer betweenness sentralitet mer spesifikke termer (dvs. autosomal recessiv, arvelig lidelse, intrahepatisk og ekstrahepatisk kolangiokarsinom, og CRLM og ekstra leversykdom) og ord som ikke kan være lett assosiert med leverkreft som tyreotoksikose, mitokondriell dysfunksjon, og HPV. Disse sykdommene «forbindelser til leverkreft kan være de som har potensial til å bli ytterligere forstått.
Drugs.
I motsetning til sykdommer, kun ett medikament (dvs. tyrosin) dukket opp i begge listene. Tyrosin eller tyrosin kinase inhibitor (TKI) er et stoff som brukes til å behandle leverkreft ved å hemme Tyrosinkinaser som er enzymer som brukes av cellene til å overføre vokser og deler seg signaler [39, 40]. Trastuzumab brukes til å behandle brystkreft og maligne tumorer [41] og kalsiumfolinat anvendes for å redusere bivirkninger forårsaket ved hjelp av noen anti-kreft legemidler [42]. Betweenness sentralitet rangerer kjemiske forbindelser høyt som metallocorrole, [11C] CH3OTf, 3-methylcholanthrene, CBD (cannabidiol), og diethylnitrosamine. Vi gir s kort oversikt til noen viktige stoffer i denne delen
Cisplatin:.. Cisplatin brukes til å behandle ulike kreftformer, inkludert leverkreft [43]
Glukose: Leverceller er kjent for å produsere glukose noe som bidrar til menneskelig opprettholde sunne blodsukkernivå. Hvis disse cellene bli kreft, så de mister evnen og dette gjør kreftceller sprer [44]
5-FU: 5-fluorouracil er et stoff som brukes til å behandle kreft [45]
Glutathione: glutation, også kjent som gamma-glutamyl, er en substans som inneholdes i cellene. Det er tatt for å avgifte og forebygge hjertesykdommer, forskjellige kreftformer, etc. [46].
I tillegg til disse stoffene, noen grunnleggende elementer, slik som oksygen, aminosyre, tyrosin (en av de 22 amino- syrer) er også høyt rangert av Pagerank. Disse elementene har evnen til å stimulere kroppens funksjoner og reparasjon kroppsvev.
Genes.
I motsetning til sykdommer og legemidler, to lister i tabell 2 ikke deler noen felles genet. Fordi gener er mer detaljerte enheter enn sykdommer og legemidler, kan de ikke utelukkende forholder seg til leverkreft. Leserne kan besøke GeneCards (https://www.genecards.org), et menneskelig gen database, for mer informasjon om disse genene.
Nettverks Kjennetegn på Entity Networks
Topp enheter vist i tabell 2 ble brukt til identitets andre enheter som svært samarbeids skjedd med disse enhetene i foretaket co-forekomst nettverk. Deretter, disse enhetene til sammen danne to sykdoms nettverk (Pagerank-baserte og betweenness sentralitet basert), to narkotikanettverk, og to gen nettverk, som vi identifiserte topp par av sykdommer, narkotika og gener. Tabell 3 viser statistikken for hvert nettverk.
Som vist i tabell 3, Pagerank-baserte nettverk har høyere gjennomsnittlig grader samt gjennomsnittlig vektet grader. Dette tyder på at enhetene i pagerank baserte nett kommuniserer mer aktivt med hverandre. For midlere banelengde, har hvert nettverk en lignende gjennomsnitts veilengde (dvs. ca. 3). Alle nettverk er sparsom med grafen tetthet lavere enn 0,1. Modularitet brukes til å måle sannsynligheten for at et nettverk kan deles inn i grupper [47]. Sykdoms nettverk har lavere modularitet enn narkotika og genet nettverk. Dette er fordi sykdommer generelt samhandle med mange andre sykdommer. Mens betweenness sentralitetsnivåer-baserte nettverk har flere miljøer enn Pagerank-baserte nettverk, Pagerank-baserte sykdom nettverk har bare to samfunnene, som er mye lavere enn minimum antall samfunn av andre nettverk. Betweenness sentralitet-baserte gen nettverk registrert en gjennomsnittlig clustering koeffisient på null. Dette tyder på at det ikke er trekant i dette nettverket, som gener vist i tabell 2 (betweenness sentralitet-basert) har heller forskjellige egenskaper.
Fremtredende Par av sykdommer, narkotika, og Genes
Tabell 4 viser svært co-inntraff par av sykdommer, narkotika og gener. Disse parene ble delt i tre grupper basert på antall co-forekomst. Vi diskuterer disse viktige foretakets parene i følgende tre deler.
Diseases.
Pagerank-baserte og betweenness sentralitetsnivåer baserte sykdoms nettverk er visualisert i figur 3. Node etiketter er proporsjonal med vektet grad og bredden av koblinger er proporsjonal med antall co-forekomst mellom to sykdommene.
Pagerank-baserte (a) og Betweenness sentralitet-baserte (b) sykdoms nettverk.
Den viktigste enheten i figur 3 (A) er svulst. Tumor svært co-skjedde med leverkreft, HCC, kreft, og hepatom. Viktige sykdommer i figur 3 (A) er generelt de samme sykdommer som er høyest rangerte av siderangering i tabell 2.
Sykdommer i figur 3 (B) har en tendens til å ko-komme i enkelte tilfeller med hverandre, noe som er i motsetning med Pagerank-baserte sykdom nettverk. En mulig forklaring er at topp sykdommer med høy betweenness sentralitet ikke ble studert mye i avisene; dermed de ikke samtidig forekommer ofte sammen med andre sykdommer.
Seks par av sykdommer (dvs. tumorleverkreft, svulst-HCC, tumorlevermetastaser, kreft-HCC, tumormetastase, og hepatoma -hepatitis B) dukket opp i begge listene. Relations av disse sykdommene er selvforklarende, sannsynligvis med unntak av «hepatoma-brystkreft». Nyere funn har funnet ut at brystkreft, ligner på kreftformer som tykktarmskreft, blærekreft, og nyrekreft, er en av de kreftformer som kan spre seg til leveren [48].
Drugs.
figur 4 viser to typer narkotika nettverk konstruert fra papir-enhet-nettverk, og enheten samtidig forekomst nettverk.
Pagerank-baserte (a) og Betweenness sentralitetsnivåer-baserte (b) narkotikanettverk.
ti mest synlige virksomheter er vist i figur 4 (A) er akkurat det samme som de 10 enhetene rangert etter Pagerank i tabell 2 mens nivået av synlighet er annerledes.
To viktige stoffene i fig 4 (B) er tyrosin og diethylnitrosamine. Tyrosin, som nevnt i forrige avsnitt, brukes til å behandle leverkreft ved å hemme Tyrosinkinaser [36]. Diethylnitrosamine, rangert de andre, co-forekommet 392 ganger med andre rusmidler. Statusen til diethylnitrosamine er mer tydelig i stoffet bestemt nettverk (rangeres den andre) enn i papir-enhet nettverk (rangeres den 10.). Dette funnet har støttet behovet for å konstruere en slik konsernets egne nettverk-ved å gjøre det, er vi i stand til å få mer detaljert forståelse av interaktivitet av enheter som kan bli oversett i det globale nettverket.
Topp 15 narkotika parene er vist i Tabell 4. To par (dvs. tyrosin-serin og tyrosin-imatinib) er vist i både PageRank- og betweenness sentralitetsnivåer baserte lister. Både tyrosin og serin tilhører samme gruppe- proteingenic aminosyrer som er byggesteinene i proteiner [49]. Imatinib er en slags tyrpsine-kinase inhibitor brukes til behandling av kreft. I listen over betweenness sentralitet, er det ingen par skjedd mer enn 100 ganger.
Relations vist i tabell 4 ble undersøkt ved å referere til elektroniske ressurser inkludert WebMD (https://www.webmd.com) og narkotika. com (https://www.drugs.com). Disse nettstedene gir detaljert informasjon om narkotika samt interaksjons kontrolløren tjenester. Relasjoner som ble nevnt av de to elektroniske ressurser var fet-faced i tabell 4. Bare to relasjoner (dvs. bilirubin-aspartat og tyrosin-serin) ble ikke bekreftet i Pagerank-baserte Listen I betweenness sentralitet basert liste, to relasjoner (dvs. gamma-glutamyl-glutamyl og tyrosin-imatinib) ble bekreftet. Dermed er litteraturbasert tilnærming en verdifull måte å hjelpe kliniske studier.
Genes.
Figur 5 illustrerer to gen bestemte nettverk konstruert fra en samling av topp gener og gener som svært co-inntraff med disse genene.
Pagerank-baserte (a) og Betweenness sentralitet-baserte (b) gen-nettverk.
Betweenness sentralitet baserte genet nettverket omfatter 47 viktige gener, som har færre gener enn Pagerank-basert en som har 67 gener. En funksjon av figur 5 (B) er at de fleste gener co-forekom mindre enn fem ganger med andre gener. Dette tyder på at de ikke ble mye studert i tidligere litteratur og interaksjoner mellom disse genene og leverkreft kan måtte undersøkes nærmere.
Tabell 4 viser topp 15 genpar identifisert fra PageRank- og betweenness sentralitet baserte genet nettverk. Alle parene i listen over betweenness sentralitet skjedde mindre enn 50 ganger. Gransker interaksjoner mellom sykdommer og gener kan være vanskeligere enn å se inn i forholdet mellom sykdommer og sykdommer /medisiner fordi genene er mer detaljerte enheter og kan aktivt eller latent forholde seg til en haug med sykdommer eller medisiner. I denne forstand kan interaksjoner vist i denne studien brukes til å sette i gang en meningsfull forskning.
For å undersøke genet relasjoner i tabell 4, vi refererte elektroniske ressurser inkludert BioGRID (https://www.thebiogrid.org), Biograph (https://www.biograph.be), CTD (https://www.ctdbase.org), og GeneCards (https://www.genecards.org). BioGRID bekreftet tre forbindelser (dvs. p53-Bcl-2, p53-Bax, og histon-HDAC), Biograph bekreftet en forbindelse (dvs. p53-P21), og CTD bekreftet ett forhold (dvs. insulin-glukagon). Relasjoner som ble bekreftet av disse elektroniske ressurser var fet-faced i tabell 4. I motsetning til sykdommer og medikamenter, en rekke gener relasjoner i tabell 4 ble ikke bekreftet av kliniske studier. Dette er sannsynligvis på grunn av det store volumet av gener og deres relasjoner som kan være knyttet til leverkreft.
Diskusjon og konklusjoner
I denne studien foreslo vi en litteraturbasert tilnærming for å identifisere sykdoms relaterte enheter som inkluderer sykdommer, medikamenter og gener for leverkreft. En rekke nettverksbaserte tilnærminger ble brukt til å identifisere viktige enheter blant de utpakkede enheter. Topp sykdommer, narkotika og gener ble identifisert av to forskjellige tiltak og Thusly to grupper av enheter ble oppnådd. En gruppe dannet basert på enheter som har de høyeste Pagerank score, omfatter enheter som vunnet popularitet og ble mye undersøkt i litteraturen. Enheter som inngår i denne gruppen er viktig for å forstå sykdommer. Den andre gruppen, dannet på grunnlag av foretak som har høyest betweenness sentralitet, omfatter enheter som spilte nøkkelroller i hele nettverket i å koble andre enheter. Enheter i denne gruppen muligens ha topologisk betydning i å studere den gitte sykdommen. Seks konsernets egne nettverk ble konstruert ved å kombinere foretaket co-forekomst nettverk og de identifiserte øverste enheter å oppdage fremtredende foretakets relasjoner. En del av de påviste foretakets relasjoner ble bekreftet ved kliniske forsøk
Viktige funn ble oppnådd:. 1) Pagerank og betweenness sentralitet er komplementære i å identifisere viktige enheter. Som Pagerank identifiserer populære enheter mens betweenness sentralitet identifiserer innflytelsesrike enheter, er kombinatorisk bruk av de to en rimelig og effektiv måte å velge og undersøke viktige enheter; 2) integrerende bruk av globale og regionale nettverk identifiserer effektivt globale enheter samt enheter som er viktige, men ikke merkbart i den globale topologi. Regionale nettverk gjør det mulig å identifisere viktige par av enheter fra et stort volum av koblinger i globale nettverk; 3) sykdommer, narkotika og gener presentere ulike egenskaper i identifisering av viktige enheter og par av enheter som er knyttet til leverkreft. Identifiserte sykdommer og parene av sykdommer som har høyest kjennskap mens tolkningen av identifiserte stoffer og gener medfører flere utfordringer som vist i kryssvalidering av resultatene med eksterne ressurser. Dette innebærer en økt nivå av demandingness i bio-enhet forskning som de studerte enhetene blir mer kornete. Dermed lignende forskning i et mer detaljert nivå er lovende og kritisk i å fremme litteraturbasert biomedisinsk forskning; og 4) noen relasjoner identifisert av den foreslåtte metoden har en høy konsistens med kliniske studier (dvs. narkotika relations), mens noen ikke (dvs. genet relasjoner). Ubekreftede relasjoner mener ikke uviktige relasjoner; heller, de skiller seg ut blant mange andre fordi de betegner potensielt viktige relasjoner som kan være validert i fremtidig forskning. Forskere og praktikere kan ta resultatene av litteraturbasert tilnærming som en utgangs punkt i sin forskning. Den foreslåtte metoden kan tjene til å hjelpe kliniske studier for å identifisere viktige enhetsrelasjoner.
Denne studien har noen begrensninger. Koblinger mellom enhetene var basert på co-forekomst relasjoner. Samtidig forekomst kan ikke direkte demonstrere faktiske samspill mellom enheter.