Abstract
Bakgrunn
Protein kinaser er en stor og mangfoldig familie av enzymer som er genomisk endret på mange humane kreftformer. Målrettet kreftgenomsekvense innsats har avduket mutasjons profiler av protein kinase gener fra mange forskjellige krefttyper. Mens mutasjons data på proteinkinaser er for tiden katalogisert i ulike databaser, er integrering av mutasjons data med andre former for data på proteinkinaser så som sekvens, struktur, funksjon og sti nødvendig å identifisere og karakterisere nøkkel kreft forårsaker mutasjoner. Integrative analyse av protein kinase data, derimot, er en utfordring på grunn av mange ulike systemer for protein kinase datakilder og dataformater.
Resultater
Her beskriver vi ProKinO, et protein kinase spesifikk ontologi, som gir et kontrollert vokabular av begreper, deres hierarki og relasjoner samlende sekvens, struktur, funksjon, mutasjon og sti informasjon om proteinkinaser. Den konseptuelle representasjon av slike ulike former for informasjon på ett sted ikke bare tillater rask oppdagelse av vesentlig informasjon knyttet til et bestemt protein kinase, men også gir store integrerende analyse av protein kinase data på måter som ikke er mulig gjennom andre ressurser kinase-spesifikke. Vi har utført flere integrerende analyser av ProKinO data og, som et eksempel, fant at et stort antall av somatiske mutasjoner (~288 forskjellige mutasjoner) i forbindelse med
hematopoetisk svulst
krefttypen kartet til bare 8 kinaser i menneske kinome. Dette er i motsetning til
glioma
, hvor mutasjonene er fordelt over 82 forskjellige kinaser. Vi gir også eksempler på hvordan ontologi-basert dataanalyse kan brukes til å generere testbare hypoteser om kreft mutasjoner.
Konklusjon
Vi presenterer et integrert rammeverk for storskala integrerende analyse av protein kinase data . Navigasjon og analyse av ontologi data kan utføres ved hjelp av ontologi leseren tilgjengelig på:. https://vulcan.cs.uga.edu/prokino
Citation: Gosal G, Kochut KJ, Kannan N (2011) ProKinO : En ontologi for Integrative Analyse av proteinkinaser i Cancer. PLoS ONE 6 (12): e28782. doi: 10,1371 /journal.pone.0028782
Redaktør: Fazlul H. Sarkar, Wayne State University School of Medicine, USA
mottatt: 27 juli 2011; Godkjent: 15 november 2011; Publisert: 14.12.2011
Copyright: © 2011 Gosal et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Midler til dette arbeidet ble gitt av American Cancer Society (RSG-10-188-01-TBE) og Georgia Cancer Coalition (GCC). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Kreft er forårsaket av en opphopning av mutasjoner, ofte i en undergruppe av gener som konferere overlevelse og vekst fordel. Proteinkinasen genfamilie, som kontrollerer viktige signalveier assosiert med cellevekst og overlevelse, er en av de mest over representerte familie av oncogener [1]. Målrettet sekvensering av 518 proteinkinase-eksoner som er kodet i det humane genomet (samlet kalt kinome) har avdekket hundrevis av mutasjoner i protein kinase domene [2]. Selv om disse mutasjoner er for tiden katalogisert i ulike databaser [3], [4], [5], er essensielt for utvikling av nye behandlingsformer for kreft identifikasjon og karakterisering av eksperimentell nøkkelkreftfremkallende mutasjoner.
Experimental karakterisering av cancer mutasjoner, krever imidlertid at man først formulere de riktige hypoteser basert på analyse av eksisterende data. Spesielt er nødvendig analyse av mutasjon data i lys av andre former for data som er tilgjengelige på proteinkinaser slik som sekvens, struktur, funksjon og vei til å utvikle og teste nye hypoteser angående den funksjonelle virkningen av kreft mutasjoner [6], [7], [8], [9]. Integrative analyse av protein-kinase-data, men er en utfordring på grunn av de mange ulike systemer for proteinkinase-datakilder og formater. For eksempel, en forsker som er interessert i det strukturelle plassering av en kreft mutasjon, eller fordeling av kinase-mutasjoner i forskjellige krefttyper, må gå gjennom den tidkrevende og utsatt for feil prosess for innsamling og analysering av data fra forskjellige kilder, ofte i forskjellige data formater. Selv om flere kinase-spesifikke ressurser som KinBase [10], KING [11], PKR [12] og KinMutBase [4] har blitt utviklet, disse ressursene i stor grad fokusere på ett eller noen få typer, av protein kinase data (f.eks sekvens , struktur, eller mutasjon), forlater side utfordringen med data integrasjon.
Ontologier [13] har dukket opp som et kraftig verktøy for integrerende og kvantitativ analyse av biologiske data [14], [15], [16] , [17]. Ved å fange domenekunnskap i form av begrepene (klasser) og relasjoner, ontologier tilveiebringe en begrepsmessig representasjon av data på en måte som datamaskiner kan lese og mennesker kan forstå. For eksempel, for en automatisert og informert svar på søket «kinase mutasjoner assosiert med krefttyper», må datamaskinen til å forstå begrepene, «kinase mutasjoner» og «krefttyper», og forholdet mellom begrepene, nemlig «
assosiert med «
. Det er denne begreps representasjon av kunnskap som skiller ontologier fra relasjonsdatabaser, og muliggjør effektiv integrering og utvinning av ulike datasett [18]. Faktisk har flere ontologier er utviklet for å fange og utvinne vell av informasjon om gener (GO) [19], sekvens [20], pathways (https://rgd.mcw.edu/tools/ontology/ont_search.cgi
)
, proteinmodifisering [21] og andre [20], [22]. Fokuserte ontologier på utvalgte proteinfamilier som proteinfosfatasen familien og transporter familie er også utviklet [23]. Men frem til nå, et fokusert ontologi fange viten på protein kinase familien har ikke blitt rapportert.
Her rapporterer vi Protein Kinase ontologi (ProKinO). ProKinO gir et kontrollert vokabular av begreper og relasjoner som forbinder sekvens, struktur, funksjon, sti, og mutasjon data på proteinkinaser. ProKinO er kodet med Web ontologi Language (OWL) (https://www.w3.org/TR/owl-ref/), en ontologi authoring språk anbefalt av World Wide Web Consortium (http: //www.w3. org /). Integreringen av ulike datasett i et maskinlesbart format tillater ikke bare navigering av ulike former for protein kinase data på ett sted, men gjør det også mulig samlede spørringer på eksisterende data på måter som ikke er mulig gjennom eksisterende kinase-spesifikke ressurser. For eksempel samlede spørsmål som «tellinger av kinaser i forbindelse med krefttype» eller «teller kreft mutasjoner på ulike kinase sub-domener» lett kan utføres ved hjelp ProKinO og ontologi spørrespråk SPARQL (http: //www.w3 .org /TR /RDF-sparql-spørring /). Vi beskriver betydningen av slike spørsmål i kunnskap funn og hypotesegenerering. Et aggregat søket «tellinger av kinase mutasjoner i ulike krefttyper», for eksempel, avdekket at mutasjoner assosiert med
hematopoetisk svulst plakater (288 forskjellige mutasjoner) primært mot bare 8 kinaser i menneske kinome, sammenlignet med
glioma
, hvor mutasjoner er spredt over 82 forskjellige kinaser. Likeledes kan spørringer som «mutasjoner målretting kinase funksjonelle egenskaper» benyttes til å generere nye hypoteser angående det strukturelle og funksjonelle virkningen av kreft mutasjoner. Vi beskriver også en nettleser som muliggjør rask navigering og undersøkelse av ProKinO data, tilgjengelig på:. https://vulcan.cs.uga.edu/prokino
Metoder
ProKinO kunnskapsorganisasjon
for å konseptualisere vell av kunnskap om protein kinase sekvens, struktur, funksjon, stier og sykdommer, har vi innført flere viktige begreper (klasser) og relasjoner (objektegenskapene) i ProKinO. Disse klassene, organisert i en hierarkisk måte, og forholdet mellom disse klassene, representerer og beskrive protein kinase kunnskap på en måte analogt til et domene ekspert.
For eksempel vil en kinase ekspert beskriver en spesiell mutasjon beskrive mutasjon i sammenheng av genet hvori mutasjonen er funnet, den kinase kodet for av genet, gruppe eller familie kinase tilhører, den kinase sub-domene mutasjonen er plassert i, og de veier hvor det muterte genet deltar . Den ProKinO skjema er konstruert for å fange opp og integrere protein kinase kunnskap å bruke begrepene og relasjonene som ligner de som vanligvis brukes av en ekspert (figur 1). For eksempel er forholdet mellom «Gene» og «Mutasjons» klasser beskrevet av «
hasMutation»
eiendom (figur 1), mens «
locatedin»
eiendom fanger forholdet mellom den «Mutation» og «underdomene» klasser. Tilsvarende sekvens en kinase tilhører er representert ved «
hasSequence»
egenskap mellom «Gene» og «sekvens» klasser, og sub-domener knyttet til en bestemt sekvens er definert av den «
hasSubDomain «
forhold (figur 1). Den veien og reaksjon informasjon relatert til kinaser er begrepsfestet av «
participatesIn»
forholdet mellom «Gene» og «bane», og «
hasReaction»
mellom «Pathway» og «Reaksjon». Å krysse referanse ProKinO data til eksterne databaser og kilder, den «DbXref» class og «
hasDbXref»
forholdet har blitt innført (se figur 1).
Figuren viser begreper (klasser) organisert i en klasse underklassehierarkiet (vist som ovaler). Relasjonene (objektegenskaper) mellom klassene er vist som røde fargede linjer. De interne detaljene (data egenskaper) av klasser vises som brune fargede linjer. Forekomstene av klasser er vist som rektangler. Den komplette ontologi skjema kan nås fra ProKinO nettstedet, og også gitt som Figur S1.
Bakgrunnen representerer protein kinase data på den ovenfor beskrevne måten er at det gir kontekst for å tolke mutasjon data . Dette kan illustreres ved hjelp av missense mutasjon
p.L858M
i
EGFR plakater (figur 1).
p.L858M
er en mutasjon i
EGFR
kinase ha typen «missense». Mutasjonen er innblandet i kreft
carcinoma Hotell og ligger i subdomene VII, som tilsvarer N-terminalen av aktiverings segment (betegnet som
Activation-segment-NT
i figur 1) . Proteinet kodet av
EGFR
gen deltar i en sti
Signa av EGFR
, som inkluderer
EGFR dimerization
som en av sine reaksjoner. Andre klasser og underklasser er også koblet til mutasjon
p.L858M
via relasjonene som er beskrevet i figur 1, som gir en integrert visning av alle data som ville være nødvendig for å gi strukturell og funksjonell sammenheng for
s. L858M
mutasjon.
I tillegg til de store klasser og objekt egenskaper som er beskrevet ovenfor, flere flere underklasser og objektegenskaper er definert i ProKinO å fullt ut fange og er basert på tilgjengelig kunnskap på protein kinase sekvens, struktur, funksjon og sykdom. For eksempel, underklassene av «Mutation» class – «ComplexMutation», «DeletionMutation», «InsertionMutation», «SubstitutionMutation» og «OtherMutation» – fange opp informasjon om hvilke typer mutasjoner identifisert i kinaser. Likeledes de tre underklassene under «FunctionalFeature» class – «ModifiedResidue», «TopologicalDomain», «SignalPeptide» – fange opp informasjon om de spesifikke funksjonelle egenskaper. Denne hierarkiske organiseringen av klasser i ProKinO er vist i figur 1.
I tillegg til objektegenskapene, har viktige data egenskaper blitt introdusert for å beskrive den interne organiseringen av konseptene og legge til rette for data mining og utvinning. For eksempel er data egenskapen «
hasOtherName»
, lagrer de andre navn som et gen som kan være kjent fra litteraturen (synonymer). For eksempel
EGFR
er også omtalt som
EGFRvIII
,
ERBB1
,
erbB
, eller
MENA
i litteraturen. Ved å inkludere «
hasOtherName»
data eiendom, all informasjon relevant til
EGFR
kan oppnås uavhengig av hvilket gen navnet er brukt som en spørring.
Med et stort sett av klasser og egenskaper knyttet til kinaser i designet skjema (se Figur S1 for hele skjemaet), ProKinO, representerer en eksplisitt konseptualisering og organisering av kunnskap om menneske proteinkinaser. ProKinO inneholder for tiden 351 klasser, 25 objektegenskaper og 27 data egenskaper (Tabeller S1, S2 og S3 for fullstendig liste) å fange informasjon om protein kinase sekvens, struktur, funksjon, sti og sykdom.
ProKinO Befolkning
ProKinO har vært befolket med data fra datakilder som er godt kuratert og vedlikeholdt. Den kjøpte data har blitt lagret som forekomster i skjemaet beskrevet ovenfor (figur 1).
Datainnsamling og lagring
Sequence.
Data om protein kinase sekvens og klassifisering har innhentet fra KinBase [10], depotet for kinase sekvens og klassifisering. 538 kinase genene for tiden er identifisert i det humane genomet er blitt klassifisert i store grupper og familier basert på sekvenslikhet i kinasedomenet. Siden KinBase klassifiseringen er allment akseptert av kinase samfunnet, har vi innført det samme klassifiseringssystemet i ProKinO. Den automatiske prosessen med datainnsamling og befolkningen fra KinBase inkluderer utvinning, integrasjon og befolkning på informasjon fra 538 menneskelige proteinkinaser og deres klassifisering i ulike grupper, familier og underfamilier. Informasjon om genet navn, synonymer og kromosom posisjon er også hentet fra KinBase. Ervervet kunnskap er befolket som forekomster av «ProteinKinaseDomain» klassen, som er videre inndelt i grupper, familier og underfamilier som underklasser. Videre har sekvensdataene protein kinase gener i FASTA format er ekstrahert og befolket som forekomster av «Sequence» -klassen.
Funksjon.
Informasjon om funksjonelle domener og funksjonelle funksjoner tilknyttet kinase domener er hentet fra Uniprot [24], en kuratert ressurs for protein funksjonell informasjon. Informasjon om de regulatoriske domener knyttet kinase domener, krystallstrukturer løses for hver kinase, isoformer identifisert for kinaser, modifiserte rester, signal peptid, topologisk domene, cellular plassering og vev spesifisitet er også hentet fra Uniprot. Funksjonelle domener knyttet til protein kinaser er befolket som forekomster av «FunctionalDomain» klasse, og kryss refererte til Pfam [25], et protein familie database, via «DBxRef» -klassen. Tilsvarende er informasjon om krystallstrukturer befolket som forekomster av «Structure» klasse med kryssreferanser til Protein Data Bank (PDB) [26]. Funksjonell funksjonen informasjon lagres som forekomster i «FunctionalFeature» klasse, med sub-klasser basert på den type funksjon som «ModifiedResidue», «TopologicalDomain» og «SignalPeptide».
Disease.
Selv om protein kinaser har vært forbundet med en rekke menneskelige sykdommer, den gjeldende versjonen av ProKinO fokuserer primært på kreft. Informasjon om kreft mutasjoner er hentet fra COSMIC [3], som er en av de eldste og kuratert ressurser for lagring av informasjon om somatiske ervervet mutasjoner assosiert med kreft hos mennesker. I tillegg til mutasjoner, har annen informasjon som primære områder, primært histologi, prøver, beskrivelse og andre relevante funksjoner også blitt innhentet og lagret som forekomster i «Mutation» -klassen. Den «Mutation» -klassen er spesialisert videre inn i sub-klasser basert på den type mutasjon, nemlig komplekse, sletting, innsetting, substitusjon og andre. Referanser til PubMed, MEDLINE og kosmisk databaser er gitt i «DbXref» -klassen.
Pathway.
Pathway data er hentet fra Reactome, et manuelt kuratert og peer-reviewed veien ressurs [27] . Pathways og reaksjon lagres som forekomster i «BiochemicalEvent» -klassen. For ordens skyld, har vi innført de samme begrepene /begreper som brukes i Reactome å representere pathway informasjon. «BiochemicalEvent» er et begrep som brukes i både Reactome og ProKinO å representere biologiske prosesser som konverterer inndata enheter til utgang enheter. «Pathway» og «Reaction» er sub-klasser under «BiochemicalEvent» (figur 1). For eksempel
Signa av EGFR
er et eksempel på «Pathway» -klassen, som er relatert til «Reaction» klasse av «
hasReaction»
eiendom (figur 1). Den «Reaction» klasse har flere reaksjoner for en gitt bane.
EGFR dimerization
er en av reaksjonene i
Signa av EGFR
pathway (figur 1). Denne reaksjonen «
forbruker»
et kompleks som heter
EGF: EGFR [plasmamembran]
, og «
produserer»
en kompleks,
EGF: EGFR dimer [plasma membran] Hotell. Begge komplekser lagres som medlemmer av «Complex» -klassen.
Kinase Sub-domener.
For å gi strukturell sammenheng for kreft mutasjoner, har vi innarbeidet sub-domene i ProKinO. Sub-domener som svarer til ledernes konservert motiver /strukturelle elementer som definerer kinase katalytiske domenet [28]. Den sub-domene notasjon er mye brukt for å beskrive den strukturelle organiseringen av motiver og regulatoriske segmenter som utgjør det katalytiske domenet. Foreløpig sub-domene informasjon om menneske kinaser er ikke tilgjengelig fra enhver offentlig ressurs. Den proteinkinase ressurs (PKR) gir sub-domene på noen (18 kinaser), men ikke på alle kinaser. For å fange sub-domene i ProKinO den har vi brukt et motiv modell som fanger opp viktige motiver som svarer til hver av XII sub-domener i kinase domene [6], [29]. Motivet modellen ble kjørt mot alle Uniprot og kosmisk sekvenser for å identifisere starten og slutten plasseringen av sub-domener i sekvenser. Start- og slutt plassering av sub-domener har blitt lagret i ProKinO som forekomster i «underdomene» -klassen. Fordi sub-domenet grenser er vanskelig å avgrense for avvikende protein kinaser, for eksempel atypiske kinaser, er underdomenet klasse ikke utfylt for alle proteinkinaser.
Automatisering av datainnsamling og oppdateringer
Vi har laget en spesialisert programvare system for å automatisk fylle ProKinO fra kildene som er beskrevet. Programvaren er skrevet med Java programmeringsspråk. Programvaren utfører alle de nødvendige funksjoner for ontologi etablering og automatisk befolkningen, inkludert datainnsamling, analysering og behandling, samt etablering av forekomster og forbindelser mellom dem ved hjelp av relasjoner som er definert i ProKinO skjema. Den befolkede ontologi er kodet og produksjon i OWL, en ontologi redigering og deling språk anbefalt av World Wide Web Consortium. Vår programvare bruker også Jena, et mye brukt Java-baserte Application Programming Interface (API) (https://jena.sourceforge.net/) for analysering, skape og spørring Resource Description Framework (RDF) (http: //www.w3 .org /RDF /
) Hotell og OWL ontologier.
ontologier, og dermed eventuelle programmer og ressurser som benytter dem, er nødt til å utvikle seg med tiden. ProKinO integrerer kunnskap fra ulike kilder uten å endre noen av de opprinnelige dataene. Derfor, eventuelle endringer i datakildene som brukes i ProKinO etableringen krever tilsvarende endringer i ontologi for å sikre at det er up-to-date og konsekvent. Kildene til kunnskap som brukes i ProKinO er gjenstand for hyppige endringer og er oppdatert på en jevnlig basis. For eksempel er Uniprot oppdateres hver tredje uke og COSMIC omtrent annenhver måned. For kunnskap er integrert i ontologi å være oppdatert og i samsvar med de eksisterende data tilgjengelig i mors kilder, vil ProKinO bli oppdatert av vårt automatiske befolkning prosessen på en jevnlig basis, så vel. Versjonen informasjon om alle datakilder som brukes til å fylle ProKinO vil bli inkludert, også. For å sikre at behovene til brukeren samfunnet er oppfylt, vil eventuelle nødvendige skjema modifikasjoner og utvidelser bli introdusert i nye ProKinO versjoner på riktige tidspunkt. Alle versjonene av ProKinO vil bli arkivert sammen med informasjonen om forskjellene mellom versjonene. Ontologi livssyklus spores av et versjons system [30], og eventuelle tidligere versjoner av ProKinO vil være lett tilgjengelig.
Diskusjon
ProKinO Evaluering
Resultater og
Fordi ontologi utviklingsprosessen er kostbart og tidkrevende, er forsiktig evaluering av ontologi innhold er nødvendig for å bestemme sin egnethet i å betjene det tiltenkte formålet med sin utvikling. ProKinO har blitt evaluert for sin nøyaktighet og nytte. Vi har brukt to fremgangsmåter for å evaluere nøyaktigheten av ProKinO innhold: (i) en manuell metode, hvor et sett av forekomster og forholdet mellom dem er tilfeldig valgt og kryss-sjekket med innhold fra originale kilder, og (ii) en spørring basert tilnærming der ontologi dataene spørres etter informasjon som kan lett bli kryss validert med data fra originale kilder.
manuell tilnærming.
i den manuelle tilnærmingen, er testsettene ble valgt til å vurdere en bred dekning av ontology innhold. Nøyaktigheten av dataene ble kontrollert ved kryssvaliderings med de opprinnelige datakildene. Integreringen av dataene i ProKinO ble også bekreftet ved å evaluere de innførte objektdata og egenskaper for nøyaktighet. For eksempel
EGFR
kinase forhold til trasé representert som en eiendom «
partcipatesIn»
ble verifiseres ved kryss validere innholdet i ProKinO med de opprinnelige dataene som er tilgjengelige i Reactome. Vår verifisering har ikke oppdaget noen feil i ProKinO. Detaljene i evalueringen er vist i tabell S4.
Query basert tilnærming.
I tillegg til den manuelle tilnærmingen, ble en spørring basert tilnærming brukes til å bekrefte innholdet i ontologi. Den SPARQL spørrespråk ble brukt til å utføre spørringer. For eksempel: Spørsmålet «telling av krystallstrukturer for alle proteinkinaser» resulterte i 200 treff for
Cdk2 plakater (figur 2). Dette resultatet ble kryss validert ved å kontrollere
Cdk2
«PDB» oppføring i Uniprot. Tilsvarende søket «telling av isoformer for alle protein kinaser» resulterte i 20 treff for
FGFR2
og 19 for
FGFR1 plakater (figur 3). Dette ble kryss validert ved å kontrollere for
FGFR1 Hotell og
FGFR2
isoform oppføringer i Uniprot. Likeledes «tellinger av kinaser forbundet med trasé» resulterte i 11 trasé for
SRC
og 10 for
PKACA product: (
PRKACA
i Reactome). Dette resultatet ble også kryss validert med den opprinnelige kilden, dvs. Reactome (figur 4). Tilsvarende «tellinger av kinaser involvert i ulike typer kreft» resulterte i flest antall treff for
BRAF
(30 krefttyper) (figur 5), som var cross-validert fra COSMIC database.
Topp ti kinaser i synkende rekkefølge av tellinger vises. Y-aksen viser antall strukturer løst for hver av ti over representert kinaser. Strukturer løses med inhibitorer ble inkludert i den totale tellingen. X-aksen betegner kinase navn. Aurora kinase er merket som AURA. Den SPARQL spørringen som brukes til å generere dette tallet kan sees og excuted fra ProKinO leseren ved å velge «Query en» under «Eksempel spørringer» -kategorien på hovedsiden.
Topp 10 kinaser vises i synkende deres verdier. Y-aksen viser antall godkjente isoformer for hver av kinass. Den SPARQL spørringen som brukes til å generere dette tallet kan sees og excuted fra ProKinO leseren ved å velge «Query 2» under «eksempel spørringer» -kategorien på hovedsiden.
Topp 10 kinaser med mest antall veier er vist i synkende rekkefølge. Den SPARQL spørring for å generere dette tallet kan være direkte vises og excuted fra ProKinO leseren ved å velge «Query 3» under «eksempel spørringer» -kategorien på hovedsiden.
Topp ti kinaser er i synkende rekkefølgen av deres verdier. Den SPARQL spørring for å generere dette tallet kan være direkte vises og excuted fra ProKinO leseren ved å velge «Query 4» under «Eksempel spørringer» -kategorien på hovedsiden.
ProKinO Application
samling av kunnskap representert i ProKinO kan brukes til en rekke applikasjoner som data mining, tekst gruvedrift og genom merknader. Spesielt representasjon av ulike protein kinase data i maskinlesbar form muliggjør komplekse samlede spørringer på ontologi data, på måter som ikke er mulig gjennom eksisterende kinase-spesifikke ressurser. Nedenfor beskriver vi noen av disse søkene for å illustrere hvordan ProKinO data kan brukes til kunnskap oppdagelse og hypotesegenerering. Spørringene, som har blitt formulert i SPARQL, også gi en første vurdering av ProKinO nytten.
Query 1.
SPARQL spørringer «tellinger av substitusjon missense mutasjoner i krefttyper», og » tellinger av proteinkinaser med missense mutasjoner «ble utført på ProKinO for å analysere fordelingen av kinase-mutasjoner i forskjellige krefttyper. Analyse av resultater fra denne spørringen viser at fordelingen av kinase mutasjoner er påfallende forskjellig for ulike krefttyper (figur 6). Spesielt
carcinoma plakater (1168 mutasjoner),
glioma product: (180),
malignt melanom product: (201),
hematopoetisk svulst product: (288), og
lymfoid svulst product: (164) er svært overrepresentert i kinase mutasjoner i forhold til andre krefttyper (figur 6). Videre er 288 og 164 mutasjoner assosiert med
hematopoetisk svulst Hotell og
lymfoid svulst
kartet til bare 8 og 12 kinaser, henholdsvis. Dette er i motsetning til
glioma
, hvor mutasjonene er fordelt over 82 forskjellige kinaser. Selv om dette funn kan resultere fra forspenningen i den sekvensering av kreft kinomes fra utvalgte krefttyper, er det også mulig at bare noen få signalveier (forbundet med de 8 kinaser) er endret i
hematopoietiske svulster
, sammenlignet
glioma
. Slike observasjoner har implikasjoner i målretting det muterte kinome for terapi, og i generere nye hypoteser for eksperimentelle studier.
Som nevnt i teksten,
haematopoietic_neoplasm
har 288 mutasjoner i 8 kinaser, mens
glioma
har 180 mutasjoner spredt over 82 kinaser. Den SPARQL spørring for å generere dette tallet kan være direkte vises og excuted fra ProKinO leseren ved å velge «Query 5a» og «Query 5b» under «eksempel spørringer» -kategorien på hovedsiden.
Query 2.
Basert på observasjon fra Query en, kan flere SPARQL spørringer utføres for å skaffe ytterligere informasjon om de 8 kinaser forbundet med
hematopoetisk svulst
. For eksempel, spørringen ber for «tellinger av protein kinaser som har missense mutasjoner i
hematopoetisk svulst
» indikerer at
ABL1
,
KIT
,
FLT3
og
JAK2
er oftere mutert i forhold til andre kinaser (figur 7). Denne observasjonen er i tråd med funnene rapportert i litteraturen [31], [32], videre kryss-validere innholdet i ontologi.
Topp 10 hits i synkende rekkefølge av tellingene vises. Den SPARQL spørring for å generere dette tallet kan sees og excuted fra ProKinO leseren ved å velge «Query 6» under «Eksempel spørringer» -kategorien på hovedsiden.
Query 3.
Query 2 (ovenfor) kan bli ytterligere raffinert for å få testbare hypoteser om kreft mutasjoner. For eksempel spørsmål ber funksjonelle egenskaper og sub-domene plassering for
ABL1
mutasjoner i
hematopoetisk svulst
avdekket at
Y253F
ligger i funksjonelt viktig
Glysin rik sløyfe product: (Sub-domene jeg; tabell S5), og har endret rester eiendom «
fosfotyrosin
«. Med denne informasjonen, kan man formulere en testbar hypotese om at «
Y253F
mutasjon bidrar til unormal
ABL1
fungerer ved å endre fosforylering status for glysin rike loop».
I tillegg til de spørsmål som er beskrevet ovenfor, har vi formulert flere andre spørringer på ProKinO. Resultatene fra disse søkene Resultatene er gitt som supplerende tall (se figur S2, S3, S4, S5, S6, S7, S8, S9). Den SPARQL spørringer selv er gitt i figur S10.
fremtidige retninger
ProKinO er en ontologi av begreper og relasjoner fange viten på protein kinase familien. Representasjon av proteinkinase kunnskap i form av ontology tillater effektiv gruvedrift og system-nivå analyse av protein-kinase-data, som demonstrert gjennom flere sparql spørringer. For å aktivere navigering og integrerende analyse av ontologi data, har en ontologi leseren blitt utviklet. kan nås leseren fra https://vulcan.cs.uga.edu/prokino.
Mens den gjeldende versjonen av ProKinO stor grad fokuserer på menneskelige protein kinase gener, informasjon om andre modellorganismer kan bli innarbeidet i ProKinO gjennom tilførsel av nye klasser og data egenskaper i ontologi skjema. På samme måte kan det vell av informasjon som genereres på protein kinase underlag gjennom high-throughput phospho-proteomikk data innlemmes å integrere kreftdata med proteomikk data. Videre forventer vi ProKinO å være nyttig i å gi konsistent annotering av identifiserte mutasjoner i kreftgenomsekvense studier.
Ved hjelp av konkrete spørsmål vi har vist hvordan data i ontologi kan brukes til å generere nye hypoteser om den strukturelle og funksjonelle virkningen av mutasjoner. Spesielt den observasjon at nesten 288 mutasjoner kart til bare åtte kinaser i
hematopoetisk svulst
er ny og gir nye hypoteser for oppfølgingsstudier. Likeledes, prediksjon at
Y253F
mutasjon forandrer fosforylering status for glysin rike sløyfe i ABL tyrosin kinase kan testes eksperimentelt.