PLoS ONE: MGEx-Udb: En Pattedyr Livmor Database for Expression-Based Cataloguing av gener på tvers forhold, blant annet Endometriose og livmorhalskreft

Abstract

Bakgrunn

Gene uttrykk profilering av livmor vev er utført i ulike sammenhenger, men en betydelig mengde data forblir ubenyttet som det ikke er dekket av de eksisterende generelle ressurser.

metodikk /hovedfunnene

Vi kuratert 2254 datasett fra 325 livmor relatert masse skala genuttrykk studier på mennesker, mus, rotte, ku og gris arter. Vi beregnings utledet en «pålitelighet score «for hvert gen uttrykk status (transkribert /sovende), for hver mulig kombinasjon av forhold og steder, basert på omfanget av enighet eller uenighet på tvers av datasett. Dataene og hentet informasjon har blitt samlet inn i

M

ammalian

G

ene

Ex

pression

U

terus

d

ata

b

ase plakater (MGEx-Udb, http : //resource.ibab.ac.in/MGEx-Udb/). Databasen kan spørres med genet navn /ID, sub-vev steder, samt ulike forhold som livmorhalskreft, endometrial sykluser og lidelser, og eksperimentell behandling. Følgelig vil resultatet være a) transkribert og hvilende gener som er oppført for de spørres tilstand /sted, eller b) ekspresjonsprofilen av genet av interesse i forskjellige uterine forhold. Resultatene inkluderer også påliteligheten poengsum for ekspresjon status for hvert gen. MGEx-Udb gir også informasjon relatert til Gene Ontologi merknader, protein-protein interaksjoner, karakterutskrifter, arrangører og uttrykk status av andre sekvense teknikker, og legger til rette for ulike andre typer analyser av enkeltgener eller co-uttrykt gensamlingene.

Konklusjon /Betydning

i korte trekk, MGEx-Udb muliggjør enkel katalogisering av co-uttrykte gener og forenkler bio-markør oppdagelsen av ulike livmor forhold også

Citation. Bajpai AK, Davuluri S, Chandrashekar DS, Ilakya S, Dinakaran M, Acharya KK (2012) MGEx-Udb: En pattedyr Livmor Database for Expression-Based Cataloguing av gener på tvers forhold, blant annet Endometriose og livmorhalskreft. PLoS ONE 7 (5): e36776. doi: 10,1371 /journal.pone.0036776

Redaktør: Zhanjiang Liu, Auburn University, USA

mottatt: 10 januar 2012; Godkjent: 05.04.2012; Publisert: 11 mai 2012

Copyright: © 2012 Bajpai et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av Department of Information Technology [Grant antall DIT /R D /BIO /15 (5) /2008 til KKA en institusjonell bevilgning under kompetansesenter ordningen] Regjeringen i India. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:. Forfatterne erklærer at den tilsvarende forfatteren (Kshitish K. Acharya) er tilsluttet både Báb, en akademisk forskningsinstitutt og Shodhaka Life Sciences Pvt. Ltd Sistnevnte er et nyetablert kommersielt selskap, som for tiden er involvert i forskning og opplæring. Den har også to produkter relatert til litteratursøk og online test for biologi-relaterte jobber og kurs. I fremtiden vil selskapet å yte tjenester i database og programvareutvikling. Forfatterne bekrefter tilknytning til selskapet og involvering av den tilsvarende forfatter som direktør i selskapet. De bekrefter også at dette ikke endrer sin tilslutning til alle PLoS ONE politikk på deling av data og materialer.

Innledning

Livmoren er et viktig pattedyr organ som må være godt undersøkt for sin rolle i normale funksjoner som sperm migrasjon, embryoimplantasjonen og føtal næring, samt flere lidelser [1], [2]. Livmorhalskreft er en av de viktigste årsakene til kreftdødsfall hos kvinner over hele verden [3]. Tilsvarende livmorkreft, endometriose og infertilitet på grunn av defekte livmor funksjoner har også vært store menneskelige helseproblemer. Mye er fortsatt ukjent om det normale fysiologiske og patologiske detaljer av uterus vev.

Forstå mønster og mekanismer for regulering av genekspresjon er sentralt i de fleste aspekter av biologi, inkludert de normale og unormale tilstander i pattedyr uterus. Storskala påvisning av genuttrykksmønster er enklere ved transkripsjon nivå i forhold til proteinnivået. Mikromatriser aktivert genom bredt transkripsjon profilering og de har blitt brukt mye til å utforske ulike biologiske fenomener.

Variasjoner i uttrykket nivå og status av gener, over resultatene av microarray eksperimenter [4], har forårsaket begrensninger i verktøyene av slike genuttrykk data. Anbefalte standarder for microarray eksperimenter og rapportering [5] – [7], og forbedrede meta-analyse metoder [8] – [11] kan legge til rette for en bedre utnyttelse av de rapporterte data. Mens forskere i dag ser ut til å foretrekke sekvense baserte metoder for transkripsjon profilering [12], [13], verdien av allerede eksisterende microarray data kan ikke undervurderes. Microarray og andre high-throughput genuttrykk data har blitt samlet inn i flere nyttige databaser /repositories (for en liste, se https://www.startbioinfo.com/gene-expression). Men ineffektivitet i søkealternativene er spesifikke for fysiologiske og eksperimentelle forhold begrenser også utnyttelsen av de tilgjengelige databaser. Det har også blitt observert at en betydelig mengde av dataene mangler i slike databaser [14], [15]. Kompilering fleste av uttrykket data på ett sted ville være en stor utfordring på grunn av to hovedgrunner: a) å samle data spredt i litteratur er en arbeidskrevende oppgave, men det synes å være noe alternativ; b) det ikke har vært en praktisk måte å utlede brukbar informasjon på tvers av ulike plattformer, studier og datatyper (rå /behandlet data eller de endelige anrop). Vårt team tidligere brukte rundt 3 år å møysommelig kompilere genuttrykk data for pattedyr testis, og deretter brukt romanen konsensus basert pålitelighet vurdering metode for å utlede en binær uttrykk status for hvert gen [15].

En lignende innsats er nødvendig for livmor vev. Betydelig mengde microarray data er faktisk tilgjengelig for pattedyr uterus vev [16]. Det har vært noen databaser som er spesifikke for en komponent av livmor som endometrievev, (Livmor Data Base: https://www.endometrialdatabase.com og SCCPIR Endometriet Database Resource: https://endometrium.bcm.tmc.edu/edr ) eller til en tilstand, CCDB, livmorhalskreft genet DataBase [17]. Men, har det ikke vært en livmor bestemt database. Med en intensjon om å kompilere maksimal eksisterende livmor genuttrykk data og støtte forskning på ulike aspekter av pattedyr livmoren, har vi laget pattedyr Gene Expression Livmor database (MGEx-Udb), og rapporterer det samme.

Resultater

database innhold

(A) dATA anses for scoring: Foreløpig databasen dekker 325 studier med 2254 datasett som tilsvarer 1092 «Expression Status under bestemte steder og betingelser» (ESLCs) for menneske, mus , rotte, ku og gris. Om 83% av dataene i MGEx-Udb er fra studier på menneskelige arter (figur 1). Databasen gir 970 forskjellige ESLCs for mennesker (23,735 gener), 91 for mus (24,428 gener), 15 for rotte (14,497 gener), 8 for ku (10,875 gener), og 8 for gris (1,720 gener). Databasen har maksimalt antall studier for livmorhalskreft (38% av alle studier). De neste mest tallrike studier tilsvarer livmorkreft og endometriose (ca. 13% studier for hver). Andre medvirkende forholdene omfatter normal, leiomyoma, leiomyosarcoma, livmorhalsen (CIN), endometriehyperplasi, endometrial sykluser, svangerskap, behandling med kjemikalier /hormoner og knockout og transfeksjon studier knyttet til spesifikke gener (figur 2). De fleste sykdomsrelaterte rapporter er fra humane vev og /eller cellelinjer. Mens studier relatert til hormonbehandling, embryoimplantasjonen og normalt vev er vanlig i mus, studier av kjemiske /hormonbehandling og endometriose er vanlig i rotte. Ved ku og gris, graviditet relaterte studier er vanlig.

Andre arter inkluderer ku og gris. Blant de innsamlede dataene fra GEO eller «PubMed GEO «, 85% av studiene var også til stede i ArrayExpress, selv om dette ikke er vist på figuren.

(og studier) i MGEx-Udb tilsvarer ulike fysiologiske og patologiske livmor forhold. «Andre» representerer etter fødsel, genetisk-ablasjon, kunstig inseminasjon og embryo implantasjon. Studier vurderer vev som brukes som kontroller, men kan ikke være helt «normal» er gruppert i

«kan være normale»

kategori (eksempler: «normalt vev ved siden av svulst /kreft tissue», «kjøretøy-behandlet «).

av de 325 studiene identifisert for datainnsamling, 295 publiserte forskningsartikler ble kuratert å samle informasjon knyttet til hvert gen listen. I resten av tilfellene ble den nødvendige informasjonen kuratert direkte fra repositories; var det ingen tilsvarende publikasjon for disse eksperimentene. Av alle studiene, ble rundt 55% utelukkende hentet fra litteraturen. De resterende dataene kom fra Gene Expression Omnibus (GEO) [18], ArrayExpress [19] og andre repositories alene, eller i kombinasjon med litteratur (figur 1). I databasen 90% av studiene tilsvarer mRNA-nivå ekspresjon og 10% studier samsvarer med uttrykk ved proteomikk nivå. De fleste (91%) av mRNA nivå rapportene kom fra microarray-teknologi, noe som også bidrar til 72% av den totale datasettene. Affymetrix (66%) er den ledende bidragsyter blant microarray plattformer, etterfulgt av cDNA tilpassede arrays (21%) (figur 3). Småskala studier basert på revers transkripsjon Polymerase Chain Reaction (PCR), kvantitativ real time PCR, blotting teknikker, etc., bidro også datasett. Blant de totale datasettene, 52% har 500 gener i hver, 8% av dem har 50-500 og de resterende 40% inneholder 50 gener (figur 4). I de fleste tilfeller datasett tilsvarende småskala studiene var fra valideringsforsøk av en masse skala genekspresjon studie.

«andres inkludere datasett bidratt hovedsakelig av GE Healthcare og Illumina plattform.

(med genet count) samlet inn fra ulike kilder. I tilfelle av «PubMed GEO «og» PubMed ArrayExpress «, mindre genet listene kom fra valideringsforsøk og ble hentet fra PubMed, mens rå /bearbeidede data ble alltid hentet fra repositories (GEO /ArrayExpress)

B) Data ikke ansett for å score.: MGEx-Udb har også sekvensering av data. Slike data kan ikke være ansatt i ledelsen med konsensus på grunn av inkompatibilitet av disse datatypene med dagens beregnings scoring system. Next Generation Sequencing (NGS) data ble inkludert for HeLa celler med differensial uttrykk krever 2 behandlingsforhold, fra 3 studier. Det finnes koblinger til andre relevante NGS (rå) datasett. Hovedtyngden av sekvensering av data, men tilsvarer Uttrykt Sequence Tags (samle såkalte).

Et eksempel

( «stadium IIA non-keratiniserende plateepitelkarsinom livmorhalskreft»)

hierarki av vilkårene og sub -conditions, der data er samlet inn, og drop-down alternativene i søket og laste opp sider med MGEx-Udb. Foreløpig databasen lar opptil fire nivåer i hierarkiet til å spørre.

webgrensesnitt

Kriterier funksjoner.

MGEx-Udb gir flere spørringsvalg. For å søke etter et gen, kan brukeren angi identifikatorer av en av følgende typer: navn, symboler, synonymer, Entrez genet IDer, og genet søkeord /beskrivelser. Tilstandsbasert søk kan gjøres ved å velge tilstanden interesse fra rulle valg av fysiologiske eller eksperimentelle forhold på ulike nivåer av hierarkier for et utvalgt art. For eksempel kan gener transkriberes eller sovende fås for menneskelig livmorhalskreft samt, plateepitelkarsinom tilstand. På samme måte kan spørringer være begrenset til en spesifikk region av vev (sub-vev), og celle-type. Det er også en mulighet til å velge en bestemt populasjon typen som kaukasisk, i tilfelle av mennesker, og belastningsskader typer som C57BL6 eller Sprague-Dawley i tilfelle av mus og rotter, henholdsvis.

Output.

for gen-basert søke har database en liste over identisk samt delvis samsvarende gener i ulike arter. Hvert gen i denne siden kan klikkes for grunnleggende informasjon om genet, sine arrangører, uttrykk status, produkter (transkripsjoner og proteiner), Gene ontologi (GO) merknader, protein-protein interaksjoner, kryssreferanser til andre ressurser store bioinformatikk, og relevante PubMed sitater. Grunnleggende genet består i sekvens, loci og genet sammendrag. Avskrift av informasjonen inkluderer avskrift ID, koding sekvens og exon-intron detaljer. Arrangøren detaljer dekke transkripsjon Start-området (TSS), potensiell promotorsekvens og dens kromosom posisjon. Protein informasjonen gir ulike isoformer av det protein (er), med tilsvarende sekvens, funksjon, molekylvekt og aminosyre lengde. Ekspresjonsstatus (e) av genet er vist, sammen med en pålitelighet poengsum, for flere vev regioner /sub-vev og celletyper under forskjellige fysiologiske og eksperimentelle forhold. Den opprinnelige kilden til uttrykk data vises i et eget panel. I tillegg til dette, viser database en veiledende uttrykk status (s) basert på sekvense data (EST NGS)., Av ulike livmor vev /vilkår

spørring med en tilstand (tilstandsbasert søk) gir lister over gener transkriberes og sovende i spørres tilstand. I hver av disse to listene, er den «pålitelighet score» vist for hvert gen. Faktisk er genene arrangert i synkende rekkefølge av deres score. GO kommentarer vises også for de første 100 gener. Brukeren kan eksportere en komplett liste av gener sammen med sine pålitelighet score. Referanser til kildedatasettene som anses for å score kan sees i denne produksjonen siden. Ved å klikke på en hvilken som helst gen i resultatsiden vil være lik i effekt til genet hvilket problem er beskrevet i det foregående avsnitt. The «analysere» i produksjonen siden lar brukeren utføre rask analyse av vesentlige funksjoner /prosesser av utvalgte gener. Brukeren kan raskt starte GO analyse og multippel sekvenssammenstilling (av gener, proteiner og arrangører), og lett tilgang til relevante trasé og enkeltnukleotidpolymorfi (SNP) poster. Databasen tillater også co-uttrykk, protein-interaksjon og sti analyser, og tilbyr visualisering av nettverkene blant den valgte klynge av gener ved hjelp GeneMANIA [20] funksjonelt analyseverktøy.

Databasen inneholder enkel søking av gener og forhold. I tillegg er linkene til livmor relaterte data (NGS og kopiantall variasjoner), med en indeks på forhold og andre ressurser.

Diskusjoner

En betydelig mengde av de publiserte microarray data er ikke funnet i noen av de brukte databaser eller lagringssteder [14], [15]. Utarbeidelse av slike data må være manuell og vil være en tid tar prosessen. Vi har startet vev klok samling av pattedyr genuttrykk data med sikte på å bruke de eksisterende data for katalogisering av genuttrykksmønster. En sammenlignende studie [15] av databaser med tilstanden spesifikke spørsmål indikerte overlegenhet slikt vev klok biocuration av genuttrykk data. En tilsvarende sammenligning av MGEx-Udb med andre repositories /databaser viste at tidligere gir enklere spørring system og gir høyere antall relevante studier og gener (detaljer i statistikk-delen av databasen).

Styrken i «pålitelighet score «, for det binære uttrykk status, er proporsjonal med mengden av datasett og enighet på tvers av dem, for en hvilken som helst tilsvarende tilstand. Det er noen begrensninger [15] på en slik konsensus basert scoring av de binære uttrykk stater. Men, gjør dette binære konsensus metoden gi en betydelig fordel i forhold til de fleste andre meta-analyse metoder i å utlede en semi-kvantitativ konsensus. Det fungerer på tvers av plattformer og teknologier, uavhengig av tilgjengeligheten av rå /bearbeidede data så lenge det endelige samtalen har blitt gjort.

hierarkisk visning av gener transkriberes /sovende i spesielle forhold kan være en nyttig representasjon av transkripsjon profiler. Jo høyere score indikerer konsistens i uttrykket status for de tilsvarende gener på tvers av biologiske prøver (brukt i ulike studier) og teknologier. Faktisk synes konsistensen skal opprettholdes for mange gener til tross for variasjoner i teknologien som microarray plattform, RNA isoleringsmetoder og statistikk, samt prøvene, som også kan variere i forhold til populasjoner /stammer og andre relaterte aspekter som alder, sosiale interaksjoner og kosthold. De resulterende lister kan brukes til å identifisere gener som har sterk tilknytning til en hvilken som helst fysiologisk status /tilstand i pattedyr uterus vev. For eksempel kan brukeren få en liste av gener som blir transkribert eller sovende i den sykdomstilstand av interesse og sammenligne med de som har den motsatte ekspresjonsstatus i normal tilstand. En union liste av gener på tvers av de to forholdene kan utledes og hierarkisk ordnet basert på score. En slik liste ville omfatte gener med varierende grad av tilknytning til sykdommen. Som et eksempel, genene

«transkriberes livmorhalskreft, men sovende i normal livmorhals /livmor»

med høy pålitelighet score kan være bedre kandidat biomarkører enn genene vanligvis identifisert som forskjellig uttrykt av en enkelt studie.

CDKN2A

, som er en allerede velkjent markør for livmorhalskreft [21], [22], er et slikt gen som har en score på 318 for

«transkriberes status på livmorhalskreft»

fra 79 studier fra PubMed, 6 fra GEO, en fra ArrayExpress og to fra caArray, og 88 for

«sovende status i normal livmor «, etter fra 32 studier fra PubMed og en fra GEO. Tvert imot noen av de gener fra den hvilende liste for kreft i livmorhalsen var også i dvale i normal livmor, og følgelig er det mindre sannsynlighet for å ha sterk sammenheng med sykdommen. Således kan utgangs erholdte tvers betingelser benyttes for å skille gener som har sterk tilknytning til en livmor tilstand fra de med svak eller ingen krets. Denne tilnærmingen kan bane en ny måte å liste potensielle diagnostiske, prognostiske og terapeutiske mål for livmor relaterte lidelser. Denne prosessen kan benyttes for å oppnå raffinerte klynger av co-uttrykte gener.

gensamlingene oppnådd ved MGEx-Udb kan være nyttig ikke bare for å forstå de molekylære mekanismer og trasé forbundet, men også for å belyse de mekanismer transkripsjonsregulering, sykdomsstadiet identifikasjon, gen prioritering og genet funksjon spådommer. Vi har satt i gang noen studier i promoteren analyse av noen av de viktige klynger av co-uttrykte gener. Den kompilerte (etter en stor screening innsats) referanseliste av genet listene som svarer til hver tilstand og plassering av interesse kan være spesielt nyttig for brukere som er interessert i å søke andre meta-analyse metoder til genuttrykk data.

siden MGEx-Udb gir de fleste eller alle av de gener som er assosiert med en bestemt tilstand, kan det tjene som et godt utgangspunkt for en hvilken som helst form for funksjonell analyse av ulike uterine betingelser. MGEx-Udb gir også en mulighet til å sammenligne genuttrykksmønster over subtile variasjoner i forhold og behandlinger. For eksempel kan man sammenligne uttrykket status fra ubehandlede normalt vev rapporter med de fra humbug /kjøretøy-behandlede prøver (kan være normal); tumor tilstøtende vev (kan være normal) med tumor mangler vev (normal); livmor lag /sykluser; stadier av kreft etc -. på tvers av studier

De allerede eksisterende ressurser som tilsvarer bestemte livmor under vev /vilkår er fordelaktig på mange måter sammenlignet med MGEx-Udb. Derfor har vi tatt med linker til slike ressurser i vår database. CCDB [17], en database som er spesifikk for livmorhalskreft, gir ikke bare opp /ned regulert, denaturert, muterte og forsterket gener, men gir også informasjon om mirnas knyttet til livmorhalskreft. Livmor Data Base (https://www.endometrialdatabase.com) og SCCPIR Endometriet Database Resource (https://endometrium.bcm.tmc.edu/edr) kompilere flere rapporter om differensial genekspresjon i livmor forhold. Men, bortsett fra å være begrenset til spesifikke forhold, deres genet dekning synes å være mindre enn MGEx-UDB. De er heller ikke laget for å gi en konsensus uttrykk status gjennom meta-analyse, eller legge til rette slik prosess. På den annen side, vev spesifikke databaser som Tiger [23] og TiSGeD [24] gir livmoren spesifikke gener, men tillater ikke spesifikke spørsmål for sykdommer og /eller eksperimentelle forhold.

Fremtidig utvikling

Den nåværende arbeid har tatt oss 3 år, hovedsakelig på grunn av manuell utvelgelse oppgavene. Data som tilsvarer visse forhold og arter er ennå ikke inkludert og scoring for binære status har sine begrensninger. Vi har til hensikt å oppdatere databasen med data for flere pattedyrarter og livmor betingelser ved: a) å invitere andre forskere å laste opp dataene, og b) vår egen innsats etter ytterligere finansiering. Vi planlegger også å forbedre poengsystemet på mange måter: a) annen vekt oppdrag basert på antall prøver, hybridizations og valideringsforsøk; b) innlemme enighet om differensial uttrykk status sammen med transkribert /sovende status; c) kanskje i samarbeid med andre organisasjoner, etablere metoder for å innlemme data fra andre high-throughput genuttrykk data, for eksempel NGS og EST, mens utlede konsensus.

Sammendrag

Den nyutviklede MGEx-Udb er ment å øke flere typer innsats av biologer som arbeider på livmor vev. De viktige programmer /funksjoner i denne databasen er følgende. A) Den omfatter en stor mengde manuelt samlet genuttrykk data svarende til livmor fra forskjellige rapporter og databaser. B) Det gir en katalog av co-uttrykte gener i ulike normale og unormale livmor forhold. C) Det gir en «pålitelighet poengsum» for å indikere omfanget av avtalen eller motsetningene i uttrykket status på tvers av mikromatriser og proteomikk studier knyttet til en bestemt tilstand /celle-type, for hvert gen. D) Den bruker også sekvense data i ulike livmor vev /vilkår som indikerer uttrykk status av hvert gen. E) Det kan undersøkes med normal eller en hvilken som helst av de patologiske tilstander i livmoren, så vel som gener, fra mus, rotte og humane arter. F) I tillegg til uttrykket status sammen med pålitelighet score for flere livmor forhold, gir databasen enkel tilgang til andre viktige grunnleggende detaljer som sekvensene av gener, proteiner og karakterutskrifter, GO merknader, protein-protein interaksjoner og relevante sitater . G) Den lar utføre sekvens og funksjonelle analyser av avledet co-uttrykt sett av klynger. H) Hvert gen er også krysshenvisninger til andre ressurser nyttige bioinformatikk. I) Det gir en enkel tilgang til det utarbeidet listen over referanser til genet lister tilsvarende ulike livmor forhold som er nyttige for ulike meta-analyse tilnærminger. Alle disse funksjonene er sannsynlig å katalysere prosessen med transkripsjon katalogisering, og diverse andre livmor relaterte forskningsinnsatsen.

I figuren representerer datainnsamling (øverste delen), arkitektur (midtre delen) og drift (nedre del) av databasen.

Materialer og metoder

Datainnsamling

Et søk strategien ble nøye utformet for å samle inn relevante artikler som er rapportert i litteraturen, (detaljert fremgangsmåte kan bli funnet på https://dx.doi.org/10.1038/npre.2011.2101.3). Kort fortalt er involvert denne identifisere kombinasjoner av søkeord /setninger for hver søkeverktøy, å skaffe sitatene bruker flere verktøy og deretter kompilere hits inn i en ikke-redundante union liste ved hjelp av Citation-Compiler verktøy (https://www.shodhaka.com /kompilator). Et eksempel på den fullstendige søkestrategi og spørre sett kan bli funnet i FAQ-delen av databasen. Målet var å samle sitater relatert til masse skala genuttrykk i livmor vev. En innledende screening av artiklene ble utført for å bekrefte relevans, ved å lese abstracts. Artiklene er identifisert som relevante ble deretter søkte på listen av gener som er rapportert å bli uttrykt, oppregulert, nedregulert, etc ved en grundig fulltekst lesing. Gene lister fra disse relevante artikler ble hentet fra manuskriptet, supplerende merknader eller forfatternes nettsted. Store repositories som GEO [18] og ArrayExpress [19], og andre repositories som Oncomine [25], Stanford Microarray Database (SMD) [26], senter for informasjonsteknologi Biology genekspresjon database (CIBEX) [27], caArray (https://array.nci.nih.gov/caarray), GEMMA (https://www.chibi.ubc.ca/Gemma/) og offentlig uttrykk profilering Resource (PEPR) [28] ble også lett etter den store skala genuttrykk data om pattedyr livmor vev. Bearbeidet data ble samlet der dette er tilgjengelig, som scoring metoden krever bare den siste samtalen om nåtiden /fraværende status av genene. Hvis det var ingen behandlet data, ble rådata lastet ned og behandlet ved hjelp av egnede standardmetoder som anbefalt i Bioconductor pakker (https://www.bioconductor.org).

Sammen med genet listen tilhørende informasjon slik som uttrykk status, arter, vev og sub-vev eller cellelinje, celle-type, og de tilsvarende fysiologiske eller eksperimentelle forhold ble samlet inn fra de publikasjoner eller repositories. Dette settet med grunnleggende parametrene blir heretter referert til som «Expression Status etter bestemt sted og tilstand «(ESLC). «Forholdene «inkluderer normal fysiologisk tilstand, sykdommer, endometrial sykluser, svangerskap, behandling med hormoner og /eller andre kjemikalier, etc. Et kontrollert vokabular ble satt for hver tilstand, for å opprettholde ensartethet og å utlede enighet på tvers av tilsvarende studier. Figur 5 illustrerer den hierarki av en tilstand og multi-nivå sub-forhold. Annen informasjon samlet inn om genselister inkludert antall prøver, alder av individer, antall RNA isoleringer og hybridiseringer, og detaljene viktigste samt valideringsforsøk (eksempel: plattform, sonder og statistiske metoder). Disse genet listene sammen med den kommenterte informasjon (heretter kalt datasett) ble lastet opp til databasen. Minimum antall gener per datasett var 3, det høyeste var 21 609, og gjennomsnittlig var 8554. Hver innlegget ble kryssjekket med minst en annen forsker, og på en gjennomsnittlig 0,7% feil (f.eks genet chip navn, befolkning typen , tiden løpet av behandlingen) ble funnet og utbedret.

En «pålitelighet score» ble utledet for hver ESLC av hvert gen, ved hjelp av prosedyrene som er beskrevet tidligere [15], for å indikere grad av enighet eller uenighet på tvers av datasett, som svarer til samme eller tilsvarende betingelser og steder for hver art. Høyere score indikerer at de tilsvarende gener er konsekvent rapportert å bli transkribert eller sovende. Gener med lavere score for samme /lignende forhold skulle tilsi enten mindre antall tilsvarende studier eller tilstedeværelse av motsi rapporter for den spesifikke uttrykk status under vurdering.

Sekvense data relatert til livmor vev /vilkår ble også utarbeidet. Mens rapporter om RNA sekvensering ble hentet fra litteratur, ble EST data direkte hentet fra UniGene [29].

Database skapelse

Perl basert CGI-skript ble brukt til å lage et grensesnitt for oppføring av genet lister og tilhørende informasjon. En in-house databasen ble brukt til å konvertere genet identifikatorer fra datasettene i Entrez genet identifikatorer. Disse Entrez genet identifikatorer ble lagt i kø opp for å laste ned andre genet relatert informasjon. LWP modul (https://search.cpan.org/~gaas/libwww-perl-5.836/lib/LWP.pm) ble brukt til å koble til NCBI og nødvendig informasjon ble lastet ned ved hjelp av NCBI e-verktøy (http : //eutils.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.html). Lastet ned informasjonen inkluderer offisielle genet symbol, aliaser, gensekvensen, genet sammendraget, kromosom sted, potensial promotorsekvens [-1000 til 200 bp] og alle transkripsjons sekvenser (sammen med exon-intron detaljer) tilsvarer hvert gen. Protein relatert informasjon ble lastet ned fra Uniprot (https://www.uniprot.org [30]). Tilsvarende ble transkripsjonsstartsider ned fra dbTSS (ftp://ftp.hgc.jp/pub/hgc/db/dbtss/[31]), versjon 7.0. Når informasjonen ikke var tilgjengelig i dbTSS for et gen, ble den 5 «ende av tilsvarende NCBI-gensekvensen som brukes til å representere den TSS stilling. Gene ontologi informasjon lastet ned fra ftp stedet av databasen (ftp://ftp.geneontology.org/pub/go/[32]) og protein-protein interaksjon informasjonen ble lastet ned fra BioGRID (https://thebiogrid.org /download.php [33]), versjon 3.1. EST data ble lastet ned fra UniGene (ftp://ftp.ncbi.nih.gov/repository/UniGene [29]). Perl koder ble skrevet for å sikre automatisk inkorporering av de nedlastede dataene inn i databasen. ClustalW ble lastet ned fra https://www.clustal.org/clustal2/og integrert i databasen, for å gi anlegget for å utføre multippel sekvensanalyse.

MySQL relasjonsdatabase Management System (RDBMS) brukes til lagring av data. En tabell er dedikert til å lagre den grunnleggende genet relatert informasjon, inkludert de genet navn, locus og transkripsjon detaljer. En annen tabell brukes til å lagre genet identifikatorer som genet navn, genet beskrivelse, offisielle genet symbol og NCBI genet identifikator, microarray plattform probe identifikatorer, etc. Separate tabeller vedlikeholdes for å lagre informasjon knyttet til arter, celle-type, vev, cellelinje og tilstander som utgjør ESLC. Hver oppføring i disse ikke-redundante tabeller er merket med unik identifikator. Resultatene fra scoring system resultatene er opprettholdt som flat fil database. Hver fil korresponderer med unik ESLC, som er oppkalt bruker identifikatorer fra ESLC tabeller. Hele databasen arkitektur og funksjon er representert i en skjematisk i Figur 6.

Takk

Vi vil gjerne takke Bhaskar Mudhagantgi og Nisha Ann Vishwan for kuratering noen av studiene, og bidra til den primære data.

Legg att eit svar