Abstract
Database of Human Gastric Cancer (DBGC) er en omfattende database som integrerer ulike menneskelige mage kreft-relaterte dataressurser. Menneske mage kreft-relaterte transcriptomics prosjekter, proteomikk prosjekter, mutasjoner, biomarkører og narkotika-sensitive gener fra forskjellige kilder ble samlet og enhetlig i denne databasen. Videre epidemiologiske statistikk over mage kreftpasienter i Kina og clinicopathological informasjon merket med magekrefttilfeller ble også integrert i DBGC. Vi tror at denne databasen vil i stor grad legge til rette for forskning om menneskelig magekreft på mange felt. DBGC er fritt tilgjengelig på https://bminfor.tongji.edu.cn/dbgc/index.do
Citation: Wang C, Zhang J, Cai M, Zhu Z, Gu W, Yu Y, et al . (2015) DBGC: En Database of Human Gastric Cancer. PLoS ONE 10 (11): e0142591. doi: 10,1371 /journal.pone.0142591
Redaktør: Arun Sreekumar, Baylor College of Medicine, USA
mottatt: 18 februar 2015; Godkjent: 24 oktober 2015; Publisert: 13.11.2015
Copyright: © 2015 Wang et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Datatilgjengelighet: Data er Tilgjengelige via Datadryad (https://datadryad.org). Det unike sjonsnummer er: doi:. 10,5061 /dryad.271dk
Finansiering: Dette arbeidet ble delvis støttet med tilskudd fra Natural Science Foundation National of China (81172329, 31571363, 81372644, 81372645 og 8157111077), kinesisk National High Tech Program (2012AA02A504 og 2012AA02A203), International Cooperative prosjekt fra Shanghai Science and Technology Commission (12410706400), Innovasjon Foundation of translasjonell medisin av Shanghai Jiao Tong University School of Medicine (15ZH1002 og 15ZH3001), Fong Shu Fu Tong Foundation og Gastrointestinal Carcinoma biobank Prosjekt av Shanghai Jiao Tong University School of Medicine. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Som en av de vanligste kreftformene, har magekreft den tredje høyeste dødelighet og fjerde høyest sykelighet av alle krefttilfeller i verden [1]. Ifølge GloboCan statistikken i 2012, nye magekrefttilfeller nummerert nesten millioner (952 000), og mer enn 700.000 dødsfall ble forårsaket av magekreft; nesten halvparten av disse pasientene kom fra Kina (405.000 nye tilfeller og 325.000 dødsfall) [1, 2]. Selv om både dødelighet og sykelighet av magekreft har sunket de siste årene, er fortsatt den 5-års overlevelse ganske lav [3]. Derfor vil magekreft er fortsatt en av de vanskeligste utfordringene for forskere og leger i lang tid [4].
Forskere verden over har gjennomført mange genomikk, transcriptomics, proteomikk, og epidemiologiske undersøkelser og kliniske studier om patogenesen og behandling av magekreft [5-10]. Disse undersøkelsene har generert store mengder data som er relevante for magekreft, og hastigheten på disse undersøkelsene er akselererende med den raske veksten av kreft kunnskap, redusert kostnadene for påvisning og beregning, og spredningen av Internett [11]. Disse dataene inneholder viktig informasjon for å undersøke og herding magekreft. Men på grunn av den begrensede bakgrunnskunnskap av klinikere og fundamentale forskere, potensialet i disse data kan ikke fullt utviklet. Ny teknologi og forskningsmetoder krever fortsatt utvikling; imidlertid lav effektivitet i å håndtere data er en primær begrensning av denne utvikling [12]. På grunn av den langsiktig oppbygging av desentralisert forskning, disse dataene og deres formater bare tilfredsstille individuelle behov, mangler integrasjon og standardisering og resulterer i spredning, isomerisering, og disseksjon av kreftdata [13, 14].
i dag er rikelig kliniske og grunnleggende studier om magekreft planlagt eller pågår. Ulike typer data blir lagret i ulike databasesystemer [13], uten å dele eller kommunikasjon. Dermed sterkt korrelert informasjon forblir isolert, i det som kalles «informasjons øyer». På den ene siden, øker data disseksjon vanskeligheten av data mining, mens på den annen side, det hindrer klinikere fra å gjøre full bruk av resultatene av grunnleggende forskning for å utvikle kliniske studier og programmer og holder grunnleggende forskere fra å utføre effektive utforskende studier som refererer klinisk relevant informasjon [15].
i denne situasjonen hente omfattende informasjon om magekreft er ikke en lett oppgave, og deler av disse dataene kan forsvinne i havet av internett, noe som ville være svært uheldig.
Denne forskningen tok fordel av ressurser fra Internett og publikasjoner fra den kinesiske Center for Disease Control and Prevention (CDC) og Gastric Cancer Center for diagnostisering og behandling, Key Laboratory of Gastric Svulster i Shanghai. Denne studien systematisk samlet inn ulike typer mage kreft-relaterte data, integrert disse dataressurser etter filtrering og standardisering, og til slutt dannet den første omfattende kunnskapsgrunnlag for å analysere magekreft.
Materialer og metoder
data Resources
Database of human Gastric Cancer (DBGC) har integrert følgende mage kreft-relaterte ressurser:
Epidemiologiske statistikk av magekreftpasienter i Kina fra CDC publikasjoner
Clinicopathological informasjon om magekreft vev etter kirurgisk reseksjon fra pasienter diagnostisert i Shanghai Ruijin Hospital
Molekylærbiologiske data om magekreft fra offentlige elektroniske ressurser (inkludert magekreft relaterte mutasjoner, biomarkører, narkotika-sensitive gener, transcriptomics prosjekter og tilsvarende forskjellig uttrykte gener, og proteomikk prosjekter og tilsvarende forskjellig uttrykt proteiner)
Rå forskningsdata fra Shanghai Institute of Digestive Surgery og Shanghai Key Laboratory of Gastric Svulster
datainnsamling
1) epidemiologiske statistikk over mage kreftpasienter i Kina.
CDC har hatt et etablert kreft rapporteringssystem i mange år og har samlet rikelig epidemiologisk informasjon om kreftpasienter i Kina. De epidemiologiske statistikk for magekreft, inkludert saksnummer, død nummer, insidensraten (råolje rente, aldersjustert og kumulativ rate), dødelighet (råolje rente, aldersjustert og kumulativ rate), og forekomst (eller dødelighet) fordeling av aldersgruppe ble hentet manuelt fra CDC publikasjoner. DBGC 1.0 dekker alle epidemiologiske statistikk for alle typiske regioner i Kina fra årene 2004 til 2009, og ytterligere statistikk vil bli inkludert i den oppgraderte versjonen.
2) Clinicopathological informasjon om magekreft vev.
Clinicopathological informasjon ble gitt av Shanghai Ruijin Hospital. Klassifikasjons- og iscenesettelse metoder som vanligvis brukes for magekreft diagnose ble kommentert ved hjelp av magekrefttilfeller diagnostisert på Ruijin Hospital. Typiske mage kreft vev av ulike stadier og typer ble valgt ut fra en magekreft biobank at vi har opprettholdt i mange år. All pasientinformasjon ble anonymisert og avidentifisert før vår analyse.
3) Molekylærbiologiske data om magekreft fra offentlige elektroniske ressurser.
Molekylærbiologiske data ble hentet ut og kuratert fra elektroniske ressurser. Transcriptomics data ble samlet inn fra GEO database (https://www.ncbi.nlm.nih.gov/geo/) og EBI database (https://www.ebi.ac.uk/). Proteomikk data ble hentet fra publisert litteratur gjennom manuell lesing og standardisering [16, 17]. Mutasjon data ble samlet inn fra dbVar database (https://www.ncbi.nlm.nih.gov/dbvar/), OMIM database (https://www.ncbi.nlm.nih.gov/omim/), HGMD database (https://www.hgmd.org/), og publisert litteratur [18, 19]. Alle biomarkør data ble ekstrahert fra publisert litteratur [20, 21]. Narkotikarelaterte gener ble hentet fra PharmGKB database (https://www.pharmgkb.org/), CancerDR database (https://crdd.osdd.net/raghava/cancerdr/) og publisert litteratur [22, 23]. Vi laget detaljerte utvinning standarder for hver type molekylærbiologiske data ressurs, og hver datainnsamlingsprosedyre måtte følge disse standardene for å sikre data koherens. Den detaljerte samling prosedyren er gitt under:
transcriptomics data:
Søk i GEO-databasen ved hjelp av nøkkelordene 🙁 «mage svulster» [MeSH termer] eller «magekreft» [All Fields] ) og «Homo sapiens» [porgn].
Filtrer resultatene manuelt, og velg publikasjonene knyttet til menneskelig magekreft for senere henting av informasjon.
Gi programmene etter utvalgsstørrelse og prøvetype .
Extract publikasjon informasjon (tittel, publisering tid, eksperimentere type, vevstype, prøvemengde, sample beskrivelse, sample eksperiment, prøve av kontroll, plattform, GSE ID, GSM-IDer, nedlastingskoblinger og litteratur sitat ) manuelt, med henvisning til MIAME (Minimum informasjon om en microarray Experiment).
Pre-prosess rådata (serie matrise filer i GEO database) ved hjelp av Perl for å eliminere forskjellene fra ulike plattformer
Pakk differensielt uttrykte gener ved hjelp av R språk
proteomics data:
Søk rådata i PubMed ved bruk av følgende søkeord: ( «proteomikk» [MeSH termer] eller «proteomikk» [ ,,,0],all Fields]) AND ( «mage svulster» [MeSH termer] eller ( «magen» [all Fields] OG «svulster» [all Fields]) eller «mage svulster» [all Fields] eller ( «mage» [all Fields] oG «kreft» [All Fields]) eller «magekreft» [All Fields]).
Filtrer resultatene manuelt, og velg proteomikk publikasjoner knyttet til menneskelig magekreft for senere henting av informasjon.
Bruk disse papirene som frø litteratur og filtrere referansene igjen.
Gi publikasjoner av utvalgsstørrelse og prøvetype.
lese manuelt papirer og trekke ut publikasjonen informasjon (tittel, publisering tid, sample kvantitet, sample eksperiment, prøvekontroll, sample beskrivelse, teknologi metode som brukes, brett endring, oppregulert protein mengde, nedregulert protein kvantitet, og referanse) og tilsvarende oppregulert proteiner og nedregulert proteiner (basert på konklusjonene fra forfatterne)
Mutation data:.
Søk i OMIM, HGMD og dbVar databaser ved hjelp av søkeord «mage kreft» og trekke mutasjon informasjons (genet, mutasjonstype, beskrivelse av cDNA , beskrivelse av full AA, beskrivelse av AA, og referanse)
Søk i PubMed ved bruk av følgende søkeord:. ( «mutasjon» [MeSH Vilkår] eller «mutasjon» [All Fields]) og ( «mage neoplasmer «[MeSH Vilkår] eller (» magen «[All Fields] og» svulster «[All Fields]) eller» mage svulster «[All Fields] OR (» mage «[All Fields] og» kreft «[All Fields]) OR «magekreft» [All Fields]).
Filtrer resultatene manuelt, og velg papirene knyttet til menneskelig magekreft for senere henting av informasjon.
Ta disse papirene som frø litteratur og filter referansene igjen.
Les disse papirene og trekke mutasjon informasjonen manuelt (genet, mutasjonstype, beskrivelse av cDNA, beskrivelse av full AA, beskrivelse av AA, og referanse)
. fjerne dupliserte data fra de fire kildene
Biomarker data.
Søk i PubMed ved bruk av følgende søkeord:
( «biologiske markører» [MeSH termer] eller ( «biologisk» [Alle felt] og «markører» [All Fields]) eller «biologiske markører» [All Fields] OR «biomarkør» [All Fields]) AND ( «mage svulster» [MeSH termer] eller ( «magen» [All Fields] OG » svulster «[All Fields]) eller» mage svulster «[All Fields] OR (» mage «[All Fields] og» kreft «[All Fields]) eller» magekreft «[All Fields]).
Filtrer resultatene manuelt, og velg papirene knyttet til menneskelig magekreft for senere henting av informasjon.
Ta disse papirene som frø litteratur og filtrere referansene igjen.
Les disse papirene og trekke mutasjon informasjonen manuelt (biomarkør, fulle navn, type, scene, beskrivelse, mekanisme, sensitivitet, spesifisitet, og referanse).
Gi biomarkører av biomarkør type, scene, spesifisitet og sensitivitet.
narkotika~~POS=TRUNC sensitive data.
Søk i PharmGKB bruker søkeordene «magekreft» og manuelt pakke narkotika-sensitiv informasjon (medikamentnavn, genet navn, genet type mekanisme, og referanse)
Søk i PubMed ved hjelp av følgende søkeord: «motstand» [All Fields] og ( «mage svulster» [MeSH termer] eller ( «magen» [All Fields] OG «svulster» [All Fields]) eller «mage svulster «[All Fields] OR (» mage «[All Fields] og» kreft «[All Fields]) eller» magekreft «[All Fields])
filtrere resultatene manuelt, og velg papirene relatert til human magekreft legemiddelresistens for senere henting av informasjon.
Ta disse papirene som frø litteratur og filtrere referansene igjen.
Oppsummer de 19 stoffene vanligvis brukes for klinisk behandling av magekreft (5- fluorouridin, camptothecin, karboplatin, cisplatin, docetaxel, doksorubicin, doksorubicinhydroklorid, epirubicin, etoposid, fluorouracil, irinotecan, folinsyre, mitomycin c, oksaliplatin, paclitaxel, tamoxifen, trastuzumab, vinblastin og vinkristin).
Tar «cisplatin» som et eksempel, søk i PubMed ved hjelp av søkeord:
( «cisplatin» [MeSH Vilkår] eller «cisplatin» [All Fields]) og «motstand» [All Fields] og ( «mage svulster» [MeSH Vilkår] eller ( » magen «[All Fields] og» svulster «[All Fields]) eller» mage svulster «[All Fields] OR (» mage «[All Fields] og» kreft «[All Fields]) eller» magekreft »[Alle felt ]).
Filtrer resultatene manuelt, og velg papirene knyttet til menneskelig magekreft legemiddelresistens for senere henting av informasjon.
Ta disse papirene som frø litteratur og filtrere referansene på nytt.
Les disse papirene og pakke narkotika sensitiv informasjon manuelt (medikamentnavn, genet navn, genet type mekanisme, og referanse).
Vi kommenterte alle gener og narkotika i denne databasen til å hjelpe brukere forstår bedre og bruke disse dataressurser. Genene er merket i henhold til NCBI (https://www.ncbi.nlm.nih.gov), HGNC (https://www.genenames.org/), Ensembl (https://feb2014.archive.ensembl.org /) og Gene kort (https://www.genecards.org/). Stoffet er merket i henhold til DrugBank (https://www.drugbank.ca/).
Videre mutasjoner oppdaget i TCGA prosjektet ble også tatt med for å kommentere gener i DBGC. Brukere kan finne alle mutasjoner av en viss gen oppdaget i TCGA prosjektet. Disse mutasjoner ble behandlet med ICGC (https://dcc.icgc.org) basert på informasjonen og TCGA betegnet med hver mutasjon i DBGC.
I tillegg har flere magekreftrelaterte fundamentale forskningsprosjekter er gjennomført av vår forskning team. Prosjektbeskrivelser og rådata er gitt i DBGC for nedlasting og videre analyse.
Database Construction
DBGC er en relasjonsdatabase med en MySQL datalaget. Et brukervennlig grensesnitt designet for å organisere og vise dataressurser ved hjelp av HTML og Javascript. Samspillet mellom datalaget og webgrensesnittet ble gjennomført ved bruk av Java EE plattform.
Diskusjon
Database Beskrivelse
Denne databasen består i hovedsak av tre langsgående datasystemer
Resultater og , epidemiologiske, clinicopathological og molekylærbiologiske data (fig 1). De molekylærbiologiske data består av mage kreft-relaterte transcriptomics, proteomikk, mutasjon, biomarkør og narkotika sensitive genet data. Den samlede statistikken for disse dataene er oppført i tabell 1. Sammen med de epidemiologiske statistikk over mage kreftpasienter i Kina og clinicopathological informasjon merket med magekrefttilfeller, ble alle disse data hentet fra offentlige databaser, publikasjoner og publisert litteratur.
Database grensesnitt
1) Quick Search (fig 2). Den raske søkefunksjonen modulen gjør identifisere rollen av et gen eller protein i magekreft mulig via taste inn søkeord i søkeboksen plassert på navigasjonslinjen. Søkeresultatet vil fortelle deg om genet eller proteinet er uttrykt forskjellig i noen transcriptomics prosjekter eller proteomikk prosjekter og om det har blitt identifisert som en biomarkør for magekreft eller et medikament-sensitive genet. Dessuten, hvis genet har noen mutasjon som er relatert til magekreft, en detaljert liste vil bli vist på resultatsiden. For eksempel bruker «EGFR» som søkeord, kan vi konkludere med at det ble identifisert som en oppregulert genet i GSE51936 og GSE27342 og som en nedregulert genet i GSE29630. Den tilsvarende protein av genet EGFR ble identifisert som en opp-regulert protein i 3 proteomikk prosjekter (PubMed Ids: 23161554, 24263233 og 24722433). EGFR har blitt rapportert som en prognose faktor av magekreft og er relatert til medikamentresistens til irinotecan, som er et vanlig brukt medikament for behandling av magekreft. Fire mutasjoner i EGFR relatert til magekreft er rapportert (c.2361G A, c.2402A G, c.2573T G, c.2588G A).
2) Se gjennom og Søk (figur 3). Ved hjelp av navigasjon, kan brukerne klikke tilsvarende elementer for å bla gjennom dataressurser som er gitt i DBGC. Detaljert informasjon vil bli listet nedenfor. Vi har også etablert flere søkekriterier for hver type data ressurs der alle dataelementer som oppfyller vilkårene vil bli vist.
3) Vår database skiller seg fra andre elektroniske ressurser på grunn av inkludering av epidemiologiske statistikken på mage kreftpasienter i Kina. Brukere kan sammenligne statistikk etter kjønn (mann og kvinne), område (urban og rural), og alder ved diagnose eller død. Saksnummer, død nummer, forekomst og dødelighet i en valgt intervallet kan vises i både grafen og tabellen format (figur 4).
Diskusjoner
Magekreft er en ledende kreft over hele verden i både dødelighet og sykelighet. Høyere forekomst og dødelighet av magekreft er observert i asiatiske regioner, spesielt i Kina. De epidemiologiske statistiske data av magekreft i denne databasen ble oppnådd primært fra publikasjoner av CDC, som har vært engasjert i ondartede kreftstudier i flere tiår og har etablert omfattende arkiv av ondartet svulst pasienter i Kina. Disse dataene har spilt en viktig rolle i å fremme kreft forebyggende og helsefremmende politikkutforming i Kina [24-26]. Gjennom å hente mage kreft epidemiologi data i denne databasen, kan forskere og klinikere raskt finne de epidemiologiske trender av magekreft i Kina.
magekreft relaterte mutasjoner, biomarkører, narkotika-sensitive gener, transcriptomics prosjekter og tilsvarende forskjellig uttrykte gener, og proteomikk eksperimenter og tilsvarende ulikt uttrykte proteiner ble manuelt hentet fra online databaser og publisert litteratur. Den raske søkefunksjonen gitt av DBGC gjør forskerne å identifisere rollen av et gen eller protein i magekreft. Disse forskjellig uttrykt gener og proteiner inneholder rikelig viktig informasjon om magekreft, og mange analytiske studier kan gjennomføres ved hjelp av dem.
Vårt forskningsteam har vært engasjert i magekreft forskning i mange år og har akkumulert betydelig erfaring i tumor epidemiologisk forskning, magekreft clinicopathology og biomarkør forskning, biobank bygning, molekylærbiologisk mekanisme forskning, bioinformatikk analyse og store database konstruksjon [27-30]. Å gi forespørsel og analyseverktøy som er mer praktisk og praktisk for mage kreftforskere, bygget vi denne databasen. Den gjeldende versjonen er 1.0. Fordi store mengder data som genereres av ulike eksperimentelle plattformer i ulike felt er sterkt spredt og heterogen, kan noen nyttig informasjon har vært savnet i vårt arbeid med datainnsamling. Vi vil fortsette å hente disse dataene og oppdatere de nyeste dataene i lang tid for å sikre aktualitet og fullstendigheten av dataene. I neste versjon, skal vi dekke de nyeste menneskelige mage kreft-relaterte mutasjoner, biomarkører og narkotika-sensitive gener. Transcriptomics data vil bli lagt vekt på den neste versjonen, der alle transcriptomics prosjektene vil bli re-analysert for å hente ut forskjellig uttrykte gener på ulike fold endre verdier. Dermed kan brukerne søke om et bestemt gen er uttrykt forskjellig gjennom konfigurasjonen av prøvetype og brett endringsverdien.
Konklusjon
Databasen er beskrevet i denne artikkelen, DBGC, er en omfattende og web -accessible database av menneskelig magekreft. Denne databasen har integrert en rekke data ressurser knyttet til magekreft og gitt flere enkle å bruke web-baserte funksjonelle moduler. Vi tror at DBGC vil være et viktig verktøy for magekreft klinikere, tumor grunnleggende forskere, kreft genom forskere, offentlige helse politikere og mage kreftpasienter.