PLoS ONE: Potensielle terapeutiske mål for Oral Cancer: ADM, TP53, EGFR, LYN, CTLA4, SKIL, CTGF, CD70

Abstract

I India har kreft i munnhulen konsekvent rangert blant topp tre årsaker til kreft relaterte dødsfall, og det har dukket opp som en topp årsak til kreftrelaterte dødsfall blant menn. Mangel på effektive behandlingsalternativer er en av hovedutfordringene i klinisk behandling av oral kreftpasienter. Vi avhørt stor pool av prøvene fra orale kreft genuttrykkstudier å identifisere potensielle terapeutiske mål som er involvert i flere kreft kjennetegn hendelser. Terapeutiske strategier rettet mot slike mål kan forventes å effektivt kontrollere kreftceller. Datasett fra ulike genuttrykkstudier ble integrert ved å fjerne batch-effekter og ble brukt for nedstrøms analyser, inkludert differensial uttrykk analyse. Avhengighet nettverksanalyse ble utført for å identifisere gener som gjennomgår markerte topologiske endringer i orale kreftprøvene sammenlignet med kontrollprøver. Årsaks resonnement analyse ble utført for å identifisere viktige hypoteser som kan forklare genuttrykk profiler observert i orale kreftprøver. Tekst-mining basert tilnærming ble brukt til å oppdage kreft kjennetegnene knyttet til gener betydelig uttrykt i kreft i munnhulen. I alt ble 2365 gener påvist å være differensielt uttrykte gener, som inkluderer noen av de svært differensielt uttrykte gener som matriks-metalloproteinaser (MMP-1-/3/10/13), chemokine (CXC-motivet) ligander (IL8, CXCL-10 /-11), PTHLH, SERPINE1, NELL2, S100A7A, MAL, CRNN, TGM3, CLCA4, keratin (KRT-3/4 /13/76/78), SERPINB11 og serin peptidaseinhibitorer (Spink-5/7). XIST, TCEAL2, NRAS og FGFR2 er noen av de viktige gener oppdaget av avhengighet og årsaksnettverksanalyse. Litteratur gruvedrift analyse kommenterte 1014 gener, hvorav 841 gener ble statistisk signifikant kommenterte. Integreringen av produksjon av ulike analyser, resulterte i listen over potensielle terapeutiske mål for kreft i munnhulen, som inkluderte mål som ADM, TP53, EGFR, LYN, CTLA4, SKIL, CTGF og CD70

Citation. Bundela S Sharma A, Bisen PS (2014) Potensielle terapeutiske mål for Oral Cancer: ADM, TP53, EGFR, LYN, CTLA4, SKIL, CTGF, CD70. PLoS ONE 9 (7): e102610. doi: 10,1371 /journal.pone.0102610

Redaktør: Enrique Hernandez-Lemus, National Institute of Genomic Medicine, Mexico

mottatt: 12. desember 2013, Godkjent: 20 juni 2014; Publisert: 16.07.2014

Copyright: © 2014 Bundela et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Økonomisk bistand ble tildelt av Rådet for industriell og teknisk forskning (CSIR), New Delhi etter emeritus Scientist ordningen til professor PS Bisen. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Om 7,6 millioner kreftdødsfall ble anslått i 2008 på verdensbasis, hvorav 0,64 millioner mennesker døde av kreft i India [1]. Oral kreft har dukket opp som en av de tre beste årsakene til kreftrelaterte dødsfall i sørasiatiske land som India, Bangladesh og Sri Lanka [1]. Ifølge de siste kreft statistikk rapportert fra India, er munnhulekreft den øverste årsaken til kreft dødsfall hos menn, og det bidrar med ca 23% av dødsfall forårsaket av alle krefttyper hos menn [2]. India har blitt et episenter for orale kreftrelatert dødelighet, og ifølge et grovt anslag mer enn halvparten av den verdensomspennende muntlige kreftdødelighet er fra India [1] – [3]. Oral kreft er for tiden styres gjennom kirurgi, stråling og kjemoterapi. Cetuximab er den eneste godkjente målrettet terapi tilgjengelig for oral cancer, som retter seg mot epidermal vekstfaktor reseptor (EGFR) som er involvert i cellevekst. Målrettet behandling har vist sin nytte i å håndtere ulike kreftformer, hovedsakelig på grunn av sin evne til å redusere toksisitet av flere folder sammenlignet med cellegifter. Oppkjøpet av resistens mot målrettede kreft terapi på grunn av en fremveksten av ulike genetiske og /eller ikke-genetiske mekanismer, har alvorlig undergravd sin kliniske programmet [4] – [6]. Utfordringen med fremveksten av resistens i kreftceller kan løses ved – (a) rettet mot flere mål ved kombinasjonsbehandling, (b) utforme et medikament mot molekylære mål (e) som er involvert i diverse stier kritisk knyttet til overlevelse, vekst og spredning av kreftceller, eller ved en kombinasjon av (a) og (b).

den aktuelle studien, forsøk på å identifisere potensielle terapeutiske mål for kreft i munnhulen som er forbundet med flere kreft kjennetegnene, som kan legge til rette for rasjonell funn av effektive behandlinger for kreft i munnhulen. Vi har brukt microarray datasett som er tilgjengelige fra NCBI-GEO database, for å studere transkripsjons profiler spesielt endret i kreft i munnhulen. Vi har integrert datasett fra to studier med lignende eksperimentelle design (dvs. oral cancer vs. kontrollen) for å utlede meningsfulle resultater fra underliggende datasettet med forbedret statistisk styrke. Den direkte integrasjon av datasett fra ulike studier er utfordrende på grunn av eksistensen av utallige kilder til ikke-biologiske variasjoner, ofte omtalt som «batch-effekter «. En slik probe-nivå integrering av datasettet fra to ulike studier er mulig ved å fjerne batch-effekter ved å kryssplattform normalisering [7]. Ulike analytiske metoder har blitt integrert for å muliggjøre logisk valg av de mest lovende terapeutisk mål for kreft i munnhulen (fig. 1). Vi har brukt genet avhengighet nettverksanalyse for å forstå de topologiske egenskaper under kreft og kontroll tilstand, kan genene med markerte forskjeller topologiske betraktes som terapeutiske målgener [8]. Årsaks resonnement analyse ble brukt for å identifisere potensielle gener som kan forklare differensial genuttrykk endringer i oral cancer. Utviklingen av kreft er en flertrinnsprosess aktivert ved forekomst av viktige kjennetegn hendelser som opprett proliferativ signalisering, gå utenom vekstdempere, motstand apoptotisk celledød, slik replicative udødelighet, indusere angiogenese, aktivere invasjon, metastaser og betennelse [9]. Novel litteratur gruvedrift metoden har blitt brukt til å knytte disse kreft kjennetegnene til gener av vår interesse. I denne studien, mangfoldet av kreft kjennetegnene forbundet med et gen, sammen med imponerende topologiske profil i dependency- og /eller årsaks-nettverk, kvalifiserer et gen for å være en potensiell narkotika mål for kreft i munnhulen.

Storskala integrasjon av datasett fra munnhulekreft genuttrykkstudier hadde blitt forsøkt tidligere med et mål å utvinne transkripsjons signaturer knyttet neoplastisk transformasjon [10] eller overlevelse [11]. Nylig har det blitt brukt til å identifisere hyppige somatiske drivere for oral karsinogenese [12]. Oppgaven med å identifisere potensielle terapeutiske mål ved integrerende analyse, har vært forsøkt for første gang i denne studien. Med en økning i dødsfall forårsaket av kreft i munnhulen, spesielt i indiske subkontinentet regionen, det er et presserende behov for å fremskynde arbeidet med å finne nye behandlingsformer for kreft i munnhulen. Den aktuelle studien, presentere et logisk rammeverk for å finne potensielle terapeutiske mål som er forbundet med flere kreft kjennetegnene, og målretting dem forventes derfor å være en perfekt svar på utfordringer knyttet til ervervet resistens til målrettet terapi.

materialer og metoder

data~~POS=TRUNC kilde~~POS=HEADCOMP

genuttrykk data orale kreftpasienter og normale personer (kontrollprøver), rapportert i to ulike studier [13], [14] ble brukt i den aktuelle arbeid (tabell 1).

direkte data Integration

genuttrykk data generert av forskjellige eksperimenter kan ikke kombineres direkte for nedstrøms analyse, selv etter behandling med lignende normalisering metoden, på grunn av de iboende ikke-biologiske eksperimentelle variasjoner eller «batch-effekter». Den direkte integrasjon av data er mulig etter behandlingen datasett med passende normalisering metoden etterfulgt av chip merknader og etterprosesseringsoperasjoner som kreves for fjerning av batch-effekter ved hjelp av batch korreksjonsmetoder.

Normalisering.

de rådata eller CEL filer som brukes i genuttrykk profilering studie av Peng et al. [14] ble lastet ned fra NCBI genuttrykk dataregister (NCBI-GEO), og nivået sammendrag sonde ble oppnådd ved Robust multichip Analysis (RMA) algoritme [15] implementert i Affymetrix Expression Console-programvaren (versjon 1.3). RMA-algoritmen passer til en robust lineær modell ved sonden nivå for å minimalisere effekten av probe-spesifikk affinitet forskjeller. Den normaliserte datasettet, avsatt i NCBI-GEO av Ambatipudi et al. [13], ble lastet ned og brukt i denne studien. Detaljene i normaliserings prosedyrer som brukes for dette datasettet kan bli funnet i relatert publikasjon [13].

Chip merknad.

Netaffyx merknadsfil HuEx-1_0-st-v2.na33.1. hg19.transcript.csv ble lastet ned fra https://www.affymetrix.com/, og brukes som en primær kilde til annotering for HuEx-1_0-st rekke datasett. Custom parser ble skrevet i Perl å trekke ut mest relevante kolonner som Probeset ID, representant offentlig ID, Entrez GeneID fra disse merknadsfiler. Merknaden fil for Agilent-014850 Antall Human Genome Microarray 4x44K G4112F (Probe Navn versjon) ble lastet ned fra tilsvarende plattform filen (GPL6480) tilgjengelig fra NCBI-GEO. Custom parser ble skrevet i Perl å trekke ut Entrez GeneID og Gene Symbol kartlagt mot tilsvarende probe IDer

chip merknaden ble ytterligere forsterket ved hjelp av gene2accession fil lastet ned fra NCBI ftp området (ftp:. //Ftp. ncbi.nlm.nih.gov/gene/DATA). Den gene2accession fil hjalp oss med å finne savnede Entrez GeneIDs for sondene basert på annen tilgjengelig informasjon som RNA /genomisk nucleotide tiltredelse id som er et felles felt mellom merknadsfil og gene2accession. Vi kunne kommentere 30,932 sonder i Agilent-014850 Antall Human Genome Microarray 4x44K G4112F (Probe Navn versjon) og 38,349 sonder i HuEx-1_0-st (transkripsjon versjon) med tilsvarende Entrez GeneIDs. Sonder uten kommentarer ble ikke ansett for nedstrøms analytiske prosesser.

Dealing med mange-til-mange-relasjon mellom prober og gener.

Det er ikke alltid 12:59 korrespondanse mellom microarray prober og tilhørende genene , noe som skaper tvetydighet mens analysere resultatene av nedstrøms statistiske og /eller funksjonell analyse. To typer konkrete tilfeller oppstår på grunn av de mange-til-mange relasjoner mellom prober og gener, nemlig. (A) en sonde er tilordnet til mer enn en GeneID (f.eks Probe1- BIRC5, BIRC3), på grunn av en ikke-spesifikk natur av sonden, og (b) mer enn en sonde kan tilordnes til samme GeneID, ofte referert som «søsken» prober (f.eks Probe1- BIRC5, Probe2- BIRC5)., som vanligvis oppstår på grunn av clustering natur sekundære databaser (UniGene, RefSeq) eller på grunn av duplisere flekket sonder

bare Vurderer prober med en-til-en forhold ville være den enkleste analytisk tilnærming; men det ville bety å miste informasjon. Ramasamy et al. [16] anbefales å bytte ut prober kartlagt til flere gener med ny rekord for hver GeneID. Vi har skrevet tilpasset perl script for «voksende» sondene med flere gener å håndtere ikke-spesifikke prober, som kart til mer enn ett gen. Dette skaper ny rekord for hver GeneID.

Opplysningene spredt over søsken prober ble konsolidert med hjelp av en robust statistikk, den Tukey sin biweight [17]. Median relatert Tukey s biweight er en robust statistikk, som er kjent for å ha god oppførsel i nærvær eller fravær av utliggere, på grunn av disse egenskaper, ble det implementert i MAS5.0 algoritmen som brukes i sonden nivå summe [18]. Definerte skript ble skrevet i perl og R for å håndtere søsken sonder, og R-metoden «tbrm () «tilgjengelig med dplR pakken ble brukt til å beregne Tukey sin biweight robust gjennomsnittet. Grupper av søsken prober ble identifisert, og disse postene ble erstattet av én representant posten der uttrykket verdier spredt over søsken prober ble erstattet av Tukey sin biweight robust gjennomsnittet; denne prosessen ble gjentatt for hver søsken sonde gruppe.

Etter å løse mange-til-mange-relasjon mellom prober og gener, 19,593 og 23,407 probes /gener ble beholdt i Agilent-014850 Whole Genome og HuEx-1_0-st arrays hhv. Begge datasettene ble videre slått sammen basert på felles felt, dvs. Entrez GeneID. Det fusjonerte datasettet besto av 18,927 probes /gener, 84 kreftprøver og 27 kontrollprøver. Dette fusjonerte datasettet ble brukt for den etterfølgende batch korreksjonsprosessen.

Batch Correction.

Vi brukte to analysemetoder, dvs. Combat [19] og XPN [20] for å håndtere ikke-biologiske variasjoner eller batch-effekter. Disse metodene ble rapportert å utkonkurrere andre kryssplattform normaliseringsteknikker [21], [22].

R gjennomføring av kamper (www.bu.edu/jlab/wp-assets/ComBat/) ble brukt for fjerne batch-effekter fra de to datasettene. Tilsvarnormaliserte datasett ble behandlet av XPN metoden implementert i CONOR pakke [22] tilgjengelig med CRAN pakken repository (cran.r-project.org/web/packages/). Den normaliserte og batch korrigerte data vil tillate probe /gennivå integrasjon av data fra to studier, og dermed legge til rette for en generasjon av robuste hypoteser på data med forbedret statistisk styrke.

Vurdering av Quality of Batch Correction.

batch korrigerte datasettet ble vurdert for attributter som distribusjon av prøvetyper og endring i eksperimentell makt. Dette ble gjort for å velge blant kamp og XPN, som en batch korreksjonsmetode som passer best for våre datasett. R gjennomføring av Principal Component Analysis – PCA (dvs. prcomp () -metoden) ble anvendt for å vurdere fordelingen av kreft og kontrollprøver mellom to datasett anvendt i denne studien [13], [14]. R statistikkpakke ssize () ble brukt for estimering av eksperimentell makt [23].

Differensial uttrykk analyse

Den normaliserte og batch korrigerte datasettet ble brukt for videre analyse. Differensial uttrykk Analysen ble utført ved hjelp LIMMA pakke (versjon 3.14.4) med minste kvadraters regresjon og empirisk Bayes moderert t-statistikk [24], [25]. Utformingen matrise ble konstruert for å representere utformingen av kreft og kontrollprøver i data-matrise. Forskjellen i uttrykk nivåer av prøver i to forhold ble studert ved å sette kontrast «kreft-kontroll». P-verdiene ble justert for multiple sammenligninger ved hjelp av Benjamini Hochberg falske funnrate korreksjon eller «FDR» [26]. Gener med den justerte p-verdi mindre enn eller lik 0,05 og ganger endring terskel på 1,5 ble ansett som forskjellig uttrykt i denne studien.

Nettverksanalyse

R statistikkpakke « GeneNet «(versjon 1.2.7) [27] ble brukt til å utlede store genet foreningen nettverk blant differensielt uttrykte gener oppnådd i vår studie. Foreningen nettverk inferred av GeneNet er grafiske Gaussian modeller (GGMs), som representerer multivariate avhengigheter i bio-molekylær nettverk ved partiell korrelasjon. Denne fremgangsmåten frembringer en graf hvor hver node representerer et gen, og kantene representerer direkte avhengighet mellom koblingsnodene /gener. Denne metoden beregner også statistisk signifikans verdi (p-verdi) sammen med FDR rettet /justert Q-verdi for kantene i GGM nettverk, noe som tilveiebringer en mekanisme for å trekke ut bare signifikante kanter i nettverket. Avhengighet nettverk ble generert for hver tilstand uavhengig. Terskelen av Q-verdi som er mindre enn eller lik 0,05, ble brukt til å filtrere ut ikke-signifikante kanter i den endelige nettverket. Custom Perl-skript ble skrevet for å trekke ut tilkoblings eller grad statistikk nettverk for kreft og kontrollprøver.

årsaks Reasoning

årsaks resonnement forsøker å forklare de antatte biologiske årsaker til de observerte genuttrykk endringer basert på rettet årsakssammenhenger. Årsakssammenhenger kan representeres som «årsaks grafer «, som består av noder (gen /biologisk prosess), og rettet kanter skildrer forholdet mellom tilkobling noder. Biologisk regulering kan også være representert i slike årsaks grafer i form av signerte kanter, med skiltet som indikerer om en endring i årsaksvariabelen påvirker andre variable positivt eller negativt.

I denne studien har vi brukt kausal resonnement metoden foreslått av Chindelevitch et al. [28], for å hente listen over statistisk signifikante oppstrøms hypoteser som forklarer observert genuttrykk endringer i vår studie datasett. Denne metoden identifiserer antatte oppstrøms hypotese basert på et sett av årsakssammenhenger representert som en årsaks graf, og rangerer en slik hypotese ved å beregne sin samlede poengsum basert på natur prediksjon (riktig = 1, feil = -1, tvetydig = 0) laget av hypotesen i årsaks grafen. Denne metoden beregner også statistisk signifikans for hver score og utgang hypoteser som er statistisk signifikant.

R-kode årsaks resonnement metoden [28] krever tre innganger viz. (I) årsaks Network Entities: en tabulatordelt fil som består av informasjon om enhetene i årsaksnettverk, i vår studie besto det av listen av gener, som er en del av årsaks nettverk, (ii) uttrykt forskjellig Genelist: en tabulatordelt fil som består av to kolonner (dvs. genet navn og retning av regulering, som er en eller -1 opp- eller nedregulering), (iii) Årsaks Network Relasjoner: en tabulatordelt fil som består av utgjør enheter (dvs. kilden genet target genet) og type relasjon mellom enheter (type: «øke» eller «minske» beskriver årsaks effekten av kilde på mål). Utdatafilene produsert av denne metoden er: (i) HypothesisTable.xls (se tekst S4): en tabulatordelt fil, som er hver rad en hypotese (dvs. en enhet i grafen med en retning av + eller – og en antall nedstrøms hva som blir gjort for å forutsi transkripsjoner) og kolonnen består av score, navn og antall riktige, feil, og ikke forklart transkripsjoner samt p-verdier og Bonferroni korrigert p-verdi [29], [30] som et konservativt estimat av betydning under flere testing korreksjon (ii) xGMML filer: årsaks sub-grafer av betydelig hypotese oppdaget av metoden blir generert i xgmml format

årsaks Graph Creation

Vi har.. brukte årsakssammenheng innebygd i KEGG trasé [31] som en kilde til å generere den kausale grafen i denne studien. KEGG API ble utnyttet som et rammeverk for analyse av enheter og relasjoner fra kgml fil av en sti. KEGG trasé for mennesker ble ansett for å samle informasjon som er nødvendig for å konstruere den kausale nettverk. Den kgml filen inneholder enhet liste (gen /sammensatte etc.) og forholdet informasjon (aktivering /hemming /uttrykk osv). Vi har vurdert «aktivisering» og «hemming» sammen med enhetene som er involvert i et slikt forhold for å konstruere årsaks grafen. Den endelige årsaks grafen genereres fra KEGG trasé besto av 11,586 årsakssammenhenger.

Post behandling av XGMML filer og generering av konsoliderte årsaks Network.

xgmml filer generert av årsaks resonnement analyse ble analysert ved tilpasset perl script til å trekke ut viktig informasjon om oppstrøms hypotese og å skape en konsolidert årsaks nettverk. Hypotesene og de antatte relasjoner ble ytterligere utsatt til skjermen for å fjerne hypoteser som ikke støttes av våre data, og også for å fjerne feilaktig spådd årsaksforhold, som kan identifiseres som «I (+/-)» i tekst S5. De predikerte riktig forhold kan bli identifisert som «C (+/-) «i Tekst S5. Hypotesene som ikke var forskjellig uttrykt ble sjekket for sin uttrykksnivået (dvs. opp /ned-regulering) avbildet i årsaks graf og deretter sammenlignet med tilsvarende uttrykk nivå i vårt datasett. Enhver hypotese med motsier retning i uttrykket profil (dvs. oppregulert i årsaks grafen og nedregulert i uttrykket datasettet, eller vice-versa) ble ikke ansett for videre analyse. Dermed vil riktig spådd hypotesene omfatter bare de hypoteser som kan bekreftes ved integrert uttrykk datasettet brukt i denne studien (dvs. hypotesen avbildet som over uttrykt i årsaks nettverk, bør også vise over-uttrykk i uttrykket datasettet, eller vice-versa ).

korrekt spådde relasjoner og hypoteser ble vurdert mens du oppretter den konsoliderte årsaks nettverk. Tilkobling informasjon sammen med naturen av forholdet (økninger /reduksjoner) mellom hypotesen og nedstrøms gener ble lagret i «Causal_Net.rel» (se tekst S6). Tilkobling statistikk ble også beregnet for alle kanter i finalen årsaks nettverk og lagret i «Causal_Net.degree» (se tekst S7).

Litteratur Mining

Forskjellig uttrykte gener ble ansett for funksjonell analyse basert på informasjon som er tilgjengelig i publiserte artikler arkivert i NCBI PubMed database. NCBI eUtils, særlig eSearch og Efetch, ble brukt sammen med Perl LWP modul, for gruvedrift NCBI PubMed database [32]. Omfanget av litteratur søk med genet symbol på forskjellig uttrykt gener ble utvidet ved hjelp av genet synonym tabellen, spørringer som omfatter synonymer sammen med andre søketermer ble deretter sendt til PubMed ved bruk av e-Search verktøyet, etterfulgt av innhenting av relevante poster ved Efetch verktøyet.

den metoden bruker tekst-mining regler definert i algoritmen, for å klassifisere differensielt uttrykte gener i henhold til markør type (terapeutiske /diagnostiske /prognostiske) og relevante kreft kjennetegnene (apoptose /celle-spredning /angiogenese /metastase /betennelse) rapporterte for den aktuelle genet i artikler som er publisert i NCBI-PubMed. Algoritmen beregner statistisk signifikans av søkestatistikken og konsoliderer litteratur gruve resultater som rapportfiler. Den algoritmiske strømmen av litteratur gruvedrift metode som brukes i denne studien er vist i fig. 2.

Perl-skript ble skrevet for funksjonell annotering av innspill gen-liste, basert på teksten utvinning av relevante artikler hentet med hjelp av NCBI eUtils. Litteraturen gruvedrift algoritme implementert i denne studien består av følgende hovedkomponenter:…

Opprettelse av gen-synonym bord

Query formasjon

Tekst-mining

Betydningen analyse av tekst-mining resultat.

Gene synonym tabellen.

tabulatordelt «gene_info» filen ble lastet ned fra NCBI ftp området, og ble brukt til å lage genet synonym tabellen. Oppføringene for human ble ekstrahert fra den gene_info fil ved hjelp av organismen kode for human (Taxonomy id: 9606), og disse oppføringene ble brukt til å opprette en mellomliggende fil, som ble videre anvendt for å skape gen synonym tabell. Kolonnene i mellom filen som ble brukt til å generere alternative navn for genene er: (i) «genet synonymer», (ii) «beskrivende navn», og (iii) «andre navn»

. resulterer genet synonym bord ble lagret som en tabulatordelt fil med to kolonner nemlig. gen symbol og synonymer. En oppføring i genet synonym bord var i følgende format:.

MMP1 CLG # fibroblast kollagenase # interstitiell kollagenase # matriksmetalloprotease 1 # matriksmetalloproteinase 1.

Query formasjon

søkene ble optimalisert ved hjelp av egnede søkekoder [33], for å hente relevante artikler fra PubMed. Dette optimalisering var nødvendig fordi PubMed ikke støtter frasesøk. Mens du søker etter setning som består av flere ord, ville PubMed søk returnere artikler som har alle ordene i uttrykket spredt på ulike steder i abstrakt. Denne standardvirkemåten til PubMed kan styres ved hjelp av søkekoder. Søke tag «[Tiab] (Tittel /sammendrag) ble brukt etter genet vilkårene og biologiske begreper som apoptose eller angiogenese, som ble brukt for spørring PubMed database. Videre ble søket tag «[MH] (mesh Vilkår) søkt om å begrense forbindelse med søk spesifikke for kreft i munnhulen ved hjelp av MeSH begrepet» munn svulster [MH] «og har brukt søkeordet« svulster [MH] «for å søke artikler relatert til en hvilken som helst type kreft

De brukes av vår metode forespørsler kan grovt deles inn i to kategorier nemlig

Globale spørringer:.. Disse søkene ble brukt til å trekke søke global statistikk for å beregne statistisk signifikans av litteratur gruvedrift resultater. De globale statistikk som kreves for Fisher Exact test omfatter det totale antall artikler relatert til kreft i munnhulen /kreft, og antall artikler relatert til den funksjonelle konsept (som apoptose, metastase, angiogenese etc.) samt kreft i munnhulen /kreft.

Eg (Celledød [Tiab] eller apoptose [Tiab] eller apoptotisk [Tiab] eller anti-apoptose [Tiab] eller anti-apoptotiske [Tiab]) og munn svulster [MH] Hotell

Gene spesifikke spørsmål:. Gene symboler fra forskjellig uttrykt gen-liste ble oversatt til tilsvar synonymer ved hjelp av genet synonym tabellen. Gene spesifikke spørsmål som omfatter synonymer søkeord for konsepter og kreft-type (munn svulster eller svulster) ble sendt til PubMed ved bruk av e-Search verktøyet, etterfulgt av innhenting av aktuelle dokumenter ved hjelp av Efetch verktøyet. Ingen restriksjoner ble satt for antall artikler hentet per spørringen, siden vårt mål var å tildele annotering basert på konsensus blant publiserte artikler. Siden munnhulekreft er fokus for denne studien, den første forsøk på vår metode var å spørre blant artikler relatert til kreft i munnhulen, og deretter vurdere artikler relatert til eventuelle krefttyper bare i stand til svikt for å hente noe informasjon med spesifikk kontekst til kreft i munnhulen. Dette ble gjort for å forbedre merknad frekvensen av inngangs gen-listen.

f.eks. ((MMP1 [Tiab] OR CLG [Tiab] OR fibroblast kollagenase [Tiab] eller interstitiell kollagenase [Tiab] OR matriksmetalloprotease en [Tiab] OR matriksmetalloproteinase en [Tiab]) og (((terapeutisk [Tiab] eller terapi [Tiab ] eller diagnostisk [Tiab] eller diagnose [Tiab] eller prognostisk [Tiab] OR prognose [Tiab] eller provoserende [Tiab]) AND (mål [Tiab] eller molekyl [Tiab] eller markør [Tiab])) OR (celle [Tiab ] OG (spredning [Tiab] eller proliferativ [Tiab] eller død [Tiab] OR vekst [Tiab] OR immortalization [Tiab] OR migrasjon [Tiab])) OR (apoptose [Tiab] OR apoptotisk [Tiab] eller anti-apoptose [ ,,,0],Tiab] eller anti-apoptotiske [Tiab] eller angiogenese [Tiab] eller metastase [Tiab] eller metastatisk [Tiab] eller betennelse [Tiab] OR invasjonen [Tiab] OR (immun [Tiab] OG (modulasjon [Tiab] eller motstand [Tiab ] eller ødeleggelse [Tiab]))))) og munn svulster [MH].

Text Mining.

De relevante artikler ble hentet i PubMed «XML» format, som gjør henting av informasjon mer presis grunn av tilstedeværelsen av innhold lukket i xml tag par. Oversiktsartikler ble ikke ansett for tekst gruvedrift, fordi det kan føre til utvinning av overflødig informasjon, som allerede er tatt til fange av gruve av de originale forskningsartikler som er nevnt i disse oversiktsartikler. Den abstrakte delen av artiklene ble ansett for tekst gruvedrift. I en artikkel, kan genet navnet anvendes som et akronym for et konsept som ikke er relatert til genet og således kan bli en kilde til falsk-positive [34], [35]. Vår metode forsøker å løse tvetydigheten forårsaket av et akronym ved å søke etter utvidet form av forkortelsen i innholdet før et akronym og deretter sammenligne den med synonymer av akronym hentet fra genet synonym tabellen. Sammendraget er ekskludert fra analysen, hvis ingen match er funnet i synonym listen.

Den abstrakte delen av en artikkel er en kjerne av artikkelen, som inneholder kortfattet informasjon om bakgrunn, resultater og konklusjoner av arbeidet nevnt i artiklene. Mange variasjoner kan sees i strukturen av abstrakte i vitenskapelige artikler. Noen artikler har egne underkapitler for bakgrunn, resultater og konklusjoner, mens andre artikler ville ha alle disse opplysningene skrevet i henhold til abstrakte delen uten sub-seksjonering. Innholdet i «konklusjoner» ledd artikler kan betraktes som den mest informative og mindre tvetydig for funksjonell merknads oppgaver som vårt. Innholdet brukes for tekst gruvedrift i vår metode ble hentet fra «konklusjoner» ledd artikler med veldefinerte ledd i abstrakte delen. For andre artikler uten sub-seksjonert abstrakt, vår metode trekker denne informasjonen fra de siste 25% andel av den abstrakte delen med en antagelse basert på generell observasjon at konklusjonene alltid vises mot slutten av abstrakte og utgjør om lag en fjerdedel av hele innholdet i den abstrakte delen.

Perl regulært uttrykk ble brukt til å påvise tilstedeværelse av søkeord relatert med markør-typer og /eller kreft kjennetegnene i innhold som er hentet fra abstrakte delen av artikkelen. Nøkkelordet inneholder ekstrakt av innholdet ble delt inn i enheter på én setning. Analyseringen av et slikt enkelt setning i forhold til den analyseringen av hele avsnittet som en enkelt enhet er blitt rapportert å gi høyere effektivitet for tekst-mining basert informasjon utvinning [36]. Den perl modul «Lingua :: EN :: Sentence» ble brukt for setning grensen deteksjon, deler den inn tekstlig innhold i setninger for nedstrøms analyse. Setninger som inneholder både utvidet genet synonymer og søkeord relatert med markør-type og /eller kreft kjennetegnene ble brukt for å tildele merknad til genet. Små bokstaver regulært uttrykk matching ble utført for å påvise setninger som inneholder søkeordene av interesse og genet synonymer. Søkeordene som brukes for funksjonell kommentere gener i den aktuelle studien kan grovt klassifiseres under følgende to kategorier:

Marker relaterte søkeord:

Therapeutic markør: et gen ble ansett som den terapeutiske markør dersom genet /synonym inneholder setning har en eller flere elementer fra den relaterte søkeord-liste [terapeutisk eller terapi]

prognostisk markør. et gen ble ansett som prognostisk markør dersom genet /synonym inneholder setninger har ett eller flere elementer fra den relaterte søkeord-liste [prognostisk eller prognose]

diagnostisk markør. et gen ble ansett som diagnostisk markør dersom genet /synonym inneholder setninger har en eller flere elementer fra den relaterte søkeord-liste [diagnostisk eller diagnose eller logisk [1. 3].

Legg att eit svar