Abstract
Forskning i biomedisinsk tekst mining begynner å produsere teknologi som kan gjøre informasjon i biomedisinsk litteratur mer tilgjengelig for bio-forskere . En av dagens utfordringer er å integrere og videreutvikle denne teknologien for å støtte virkelige vitenskapelige oppgaver i biomedisin, og å vurdere nytten av det i forbindelse med slike oppgaver. Vi beskriver krabbe – en fullt integrert tekst gruvedrift verktøy utviklet for å støtte kjemisk helserisiko. Denne oppgaven er komplisert og tidkrevende, krever en grundig gjennomgang av eksisterende vitenskapelige data på en spesiell kjemisk. Dekker menneske, dyr, cellulære og andre mekanistisk data fra ulike felt av biomedisin, er dette svært variert og derfor vanskelig å høste fra litteraturdatabaser via manuelle metoder. Vårt verktøy automatiserer prosessen med å trekke ut relevante vitenskapelige data i publisert litteratur og klassifisere den i henhold til flere kvalitative dimensjoner. Utviklet i nært samarbeid med risiko sakkyndige, gjør at verktøyet navigere i klassifisert datasettet på forskjellige måter og dele data med andre brukere. Vi presenterer en direkte og brukerbasert evaluering som viser at teknologien er integrert i verktøyet er svært nøyaktig, og rapporterer om en rekke case-studier som viser hvordan verktøyet kan brukes til å støtte vitenskapelig oppdagelse i kreft risikovurdering og forskning. Vårt arbeid viser nytten av en tekst mining rørledning tilrettelegge komplekse forskningsoppgaver i biomedisin. Vi diskuterer videre utvikling og anvendelse av vår teknologi til andre typer kjemisk risikovurdering i fremtiden
Citation. Korhonen A, Ó Séaghdha D, Silins jeg, Sun L, Högberg J, Stenius U (2012) Tekst Mining for litteraturgjennomgang og Knowledge Discovery i Cancer Risk Assessment and Research. PLoS ONE 7 (4): e33427. doi: 10,1371 /journal.pone.0033427
Redaktør: Neil R. Smalheiser, University of Illinois-Chicago, USA
mottatt: 25 november 2011; Godkjent: 08.02.2012; Publisert: 12. april 2012 |
Copyright: © 2012 Korhonen et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. AK og DOS støttes av Engineering og Fysisk Sciences Research Council (www.epsrc.ac.uk) stipend EP /G051070 /1 til AK. LS er støttet av en Dorothy Hodgkin Graduate Award. IS, er USA og JH støttet av Vetenskapsrådet (https://www.vr.se/). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Ny forskning i biomedisin er avhengig av effektiv utnyttelse av eksisterende vitenskapelig kunnskap – en oppgave som bio-forskere finner stadig vanskeligere. Gitt den doble eksponentielle veksten av biomedisinsk litteratur de siste årene [1], er det nå et stort behov for å utvikle teknologi som kan gjøre informasjon i publisert litteratur mer tilgjengelig og nyttig for forskere. Slik teknologi kan være basert på tekst gruvedrift. Tegning på teknikker fra naturlig språk prosessering, innhenting av informasjon og data mining, kan tekst gruvedrift automatisk hente, trekke ut og oppdage ny informasjon selv i store samlinger av skrevet tekst. Selv om det ennå ikke kan erstatte mennesker i komplekse oppgaver, kan det gjøre det mulig mennesker til å identifisere og kontrollere nødvendige opplysninger i litteraturen mer effektivt og avdekke relevante opplysninger skjult av volumet av tilgjengelig informasjon.
I de siste årene har biomedisinsk tekst gruvedrift økt i popularitet. Teknikker har blitt utviklet for å hjelpe, for eksempel utvinning av dokumenter, databaser, ordbøker, ontologier, sammendrag og spesifikk informasjon (f.eks interaksjoner mellom proteiner og gener, nye forsknings hypoteser) fra relevant litteratur [2] – [4]. Evaluering av slike teknikker har vist lovende resultater. Men mye av evalueringen har vært direkte i naturen og har ansatt forhåndsbestemt gull standarder. Det er nå generell erkjennelse av behovet for å flytte biomedisinsk tekst mining forskning nærmere praksis: å integrere teknologi for å støtte virkelige vitenskapelige oppgaver (for eksempel prosessen med vitenskapelige funn) og å vurdere nytten av det i forbindelse med slike oppgaver [3] [5].
En rekke studier har reagert på dette behovet for brukersentrert evaluering, selv om foretaket av brukerundersøkelser er fortsatt langt fra universell. Noen studier har målt i hvilken grad semi-automatisering kan fremskynde en konservering eller annen arbeidsflyt [6] – [8]. En annen strand, mer nært knyttet til vårt arbeid, søker å oppdage nye sammenhenger mellom biologiske enheter som støttes av, men ikke gjort eksplisitt i litteraturen [9] – [11]; for eksempel kan eksistensen av en kjent forbindelse mellom en sykdom og et gen og mellom det samme gen og et medikament antyder en rolle for medikamentet i behandling av sykdom. Bruker evaluering i denne sammenheng innebærer å sammenlikne de foreslåtte forhold til tidligere foreslåtte hypoteser og å gjøre kvalitative vurderinger om hvorvidt de synes å tilby fruktbare retninger for videre forskning. Våre casestudier følger samme grunnleggende mal, selv om oppgaven, krever syntetisk analyse av full abstracts, er en mer sammensatt enn å klassifisere forholdet mellom foretaket nevner.
I denne artikkelen presenterer vi en ny, helintegrert tekst mining system utformet for å støtte den komplekse og svært litteratur avhengig oppgaven med kjemisk helserisiko. Denne oppgaven er viktig, fordi kjemikaliene spille en viktig rolle i hverdagen og deres potensiell risiko for menneskers helse må vurderes. Med tusenvis av kjemikalier introdusert hvert år, mange land over hele verden har etablert stadig strengere lover som regulerer deres produksjon og bruk. For eksempel, den siste EU registrering, evaluering, autorisasjon og restriksjoner (REACH) lovgivning [12] krever at alle kjemikalier som produseres eller importeres i store mengder skal gjennomgå en grundig risikovurdering.
Vurderingen av store mengder kjemikalier er lettere sagt enn gjort. Bruke tiden tilgjengelig metodikk, tar det opp til to år for å vurdere en enkelt kjemisk [13]. Selv om utviklingen av et helt nytt system for toksisitet testing kan bidra til å forbedre effektiviteten i kjemisk vurdering på sikt [14], er det et stort behov for å forbedre state of the art på kort til mellomlang sikt.
Chemical risikovurdering er en kompleks prosess som består av flere komponenttrinn. Den første hovedkomponent er vanligvis en omfattende gjennomgang og analyse av de tilgjengelige vitenskapelige data på det aktuelle kjemikaliet. Denne anmeldelsen fokuserer på data av potensiell relevans – ikke bare humandata, men også dyr, cellulære (in vitro) og andre mekanistiske data [15]. Den primære kilden for denne informasjonen er vitenskapelig fagfellevurdert litteratur.
Ifølge en fersk rapport, risiko sakkyndige finne litteratur innsamling og analyse uoverkommelig tidkrevende [16]. Dette er ikke overraskende siden de biomedisinske vitenskaper som kjemisk risikovurdering trekker på (epidemiologi, cellebiologi og kreft forskning, blant mange andre) utvikler seg raskere enn noen gang før. Denne utviklingen kan observeres ved å undersøke veksten av MEDLINE (Medisinsk litteratur Analyse og Retrieval System Online) – USA National Library of Medicine (NLM) premier bibliografisk database som er en betydelig litteratur ressurs ansatt i dagens kjemisk risikovurdering. I 2005, denne databasen inkluderte 13 millioner referanser. I dag har det over 18 millioner, med 2000-4000 referanser lagt til Medline hver dag; faktisk, er databasen vokser med en dobbel-eksponentiell rate [1]. Dataene for en enkelt kjemisk kan finnes spredt over tusenvis av tidsskriftartikler (f.eks MEDLINE omfatter over 30000 artikler for kadmium).
I dag risiko sakkyndige og forskere bruker systemer som PubMed for å samle relevant litteratur fra databaser . Disse systemene returnere en liste over tidsskriftartikler som svar på søkeordbasert spørringer. Men gitt det store omfanget og kompleksiteten av vitenskapelige data som brukes for risikovurdering, antall søkeord, deres synonymer og mulige kombinasjoner rett og slett overstiger det menneskelige risiko sakkyndige med rimelighet kan huske og håndtere. Hva er egentlig trengs er mye kraftigere teknologi som går utover søkeord-basert søke – teknologi som kategoriserer og rangerer ulike vitenskapelige data på grunnlag av deres relevans, gjør koblingene mellom ellers usammenhengende artikler, og skaper oppsummeringer, statistikk, visualiseringer og nye hypoteser fra den vitenskapelige litteraturen, slik at risiko sakkyndige for å utforske de resulterende strukturerte data. Arbeidet rapporteres her deler noen av målene i Semantic MEDLINE prosjektet [17], [18] i å legge en «semantisk» lag med automatisk behandling over søkeordbasert gjenfinning funksjonalitet PubMed eller lignende søkemotor. Vi mener at vårt arbeid skiller seg fra semantisk MEDLINE ved vår bruk av statistiske NLP metoder, med fokus på et underexplored oppgave å sette med en særegen informasjon trenger, og etter vårt fokus på brukersentrert evaluering.
Hvis en dedikert tekst mining verktøyet ble utviklet for kjemisk risikovurdering det kan brukes til å effektivt identifisere, mine, og klassifisere vitenskapelige data i biomedisinsk litteratur så vel som å oppdage nye mønstre i klassifiserte data. Tilrettelegging for storskala vurdering av eksisterende data, kan et slikt verktøy har midler til å forbedre nøyaktighet, grundighet og effektivitet av kjemisk risikovurdering. Verktøyet kan også brukes til å støtte vitenskapelig forskning innen der risikovurdering er avhengig.
I Korhonen et al. [16] vi tok det første skritt mot utviklingen av tekst mining teknologi for kjemisk risikovurdering med fokus på kreft risikovurdering. Vi innførte en grunnleggende taksonomi som dekker de viktigste typer vitenskapelig bevis som brukes for å bestemme kreftfremkallende egenskaper av kjemikalier, og en overvåket maskinlæring tilnærming som kan brukes til å klassifisere MEDLINE abstracts til relevante taksonomi klasser. Evalueringen viste at taksonomi er velformet og at maskinen læring tilnærming er ganske nøyaktig. Selv om forsøket var liten i omfang og ingen evaluering av den praktiske nytten av teknologien for real-life risikovurderingen ble utført, resultatene var likevel lovende
Vi tar denne linjen av forskning betydelig lenger og innføre KRABBE. – et fullt integrert tekst mining verktøy rettet mot å støtte hele prosessen med litteraturgjennomgang og kunnskap funn i kreft risikovurdering. Tilgjengelig til sluttbrukere via en online web-grensesnitt gjør det tilgang til PubMed, nedlasting vitenskapelige sammendrag på utvalgte kjemikalier, og klassifisere dem i henhold til en omfattende taksonomi ved hjelp av overvåket maskinlæringsteknologi. Verktøyet gjør det mulig å navigere klassifisert datasettet på forskjellige måter og dele data med andre brukere. Vi presenterer både direkte og oppgavebasert evaluering av teknologien integrert i verktøyet, sammen med en rekke case-studier som viser nytten av verktøyet i støtte kunnskap funn i kreft risikovurdering og forskning.
Vår forskning viser at en relativt ambisiøs tekst mining rørledning som består av både henting og multi-klassifiseringstrinn kan være nyttig for komplekse forskningsoppgaver i biomedisin. Selv i dag gjelder for kreft, kan verktøyet være oversiktlig tilpasset for å støtte vurderingen og studier av andre viktige helserisiko knyttet til kjemikalier (f.eks allergi, astma, reproduktive lidelser, blant mange andre).
Metoder
følgende tre under deler beskriver de viktigste komponentene i kRABBE: kreft risikovurdering taksonomi, corpus av MEDLINE abstracts kommentert i henhold til taksonomi klasser, og klassifikator basert på maskinlæring. Den siste ledd presenterer den generelle arkitekturen av krabbe verktøyet sammen med brukergrensesnittet.
Taksonomi
I hjertet av krabbe er en taksonomi utviklet av eksperter innen kreftforskning, som spesifiserer vitenskapelig datatyper som er relevante for kreft risikovurdering. Vi tok taksonomi av Korhonen et al. [16] som utgangspunkt og utvidet og videreutviklet den på ulike måter. Den resulterende taksonomi omfatter datatyper som er nevnt i offentlig tilgjengelige kreft risikovurderings retningslinjer (f.eks amerikanske retningslinjer EPA [15]) samt ytterligere, mer detaljerte og nyere data oppdaget under ekspertanalyser av risikovurdering litteratur.
taksonomi har to hoveddeler. Den første delen (vist i figur 1) fokuserer på
Vitenskapelig dokumentasjon for kreftfremkallende aktivitet
. Den har fem øverste nivå klasser som representerer ulike typer vitenskapelig bevis:
Menneske studie /Epidemiology
,
Animal studie
,
Cell eksperimenter
,
Studier på mikro- organismer
, og
subcellulære systemer
. Noen av disse deles videre inn i underklasser; for eksempel
Menneske studie
har fem underklasser inkludert
Tumor relaterte Hotell og
Polymorphism
. Vi adopterte alle de beste nivå klasser og de fleste underklasser foreslått av Korhonen et al. [16]
Den andre delen av taksonomi (vist i figur 2) fokuserer på
Virknings plakater (MOA,. Dvs. sekvensen av viktige hendelser som fører til kreft formasjon f.eks mutagenese, økt celledeling, og reseptor aktivering), fange den gjeldende forståelsen av ulike prosesser som fører til kreftutvikling. Vi tok den enkle MOA taksonomi av Korhonen et al. [16] som skiller to brukte MOA typer –
Gentoksisk plakater (dvs. en kreftfremkallende binder seg til DNA) og
Ikke-gentoksisk /indirekte gentoksisk plakater (dvs. en kreftfremkallende binder seg ikke til DNA) – som et utgangspunkt. Vi har lagt fire sub-klasser under
Ikke-gentoksisk /indirekte gentoksisk
klasse (
Co-initiering
,
Promotion
,
Progresjon Hotell og
Multiphase
), etter nylig foreslått MOA klassifisering av Hattis et al. [19]. Hver av disse klassene deler videre inn i underklasser etter hvilke typer bevis som kan indikere MOA typen. For eksempel
Cytotoksisitet
kan gi bevis for både
Promotion Hotell og
Fler
non-gentoksisk MOAs.
Den resulterende taksonomi inneholder 47 klasser . Hver klasse er assosiert med en rekke søkeord (og søkeuttrykk) som, når de blir funnet i litteraturen, er gode indikatorer for tilstedeværelsen av den type vitenskapelige data i spørsmålet (f.eks
Celledød
klasse i
MOA
del av taksonomi inneholder søkeord som
apoptose
,
DNA fragmentering
,
caspase-9
,
BCL2
,
Bax
,
apoptosome
,
programmert celledød
,
Fas
,
nekrotisk celledød
, og
levedyktighet
). Figur 3 viser representative søkeord for hver klasse i
Vitenskapelig dokumentasjon for kreftfremkallende aktivitet
taksonomi gren. Figur 4 viser eksempler på søkeord for
MOA
taksonomi gren. Søkeordene som vises ble valgt ut fra den kommenterte korpus beskrevet nedenfor.
På grunn av den raske utviklingen av vitenskap en taksonomi som dette vil aldri være komplett. Men det kan bli utvidet og enkelt oppdateres av eksperter ved hjelp av verktøyet vårt.
Annotated Corpus
KRABBE klassifisering programvaren krever som treningsdata et korpus (dvs. en samling) av MEDLINE abstracts som har vært manuelt klassifisert i henhold til taksonomi. Den Korhonen et al. [16] corpus ble laget ved å velge åtte kjemikalier som er (i) godt undersøkt ved hjelp av et bredt spekter av vitenskapelige tester og som (ii) representerer de to mest brukte MOAs (
gentoksisk Hotell og
ikke -genotoxic
): 1,3-butadien, benzo (a) pyren, diethylnitrosamine, styren, kloroform, diethylstilbestrol, fumonisin B1 og fenobarbital. Et sett med 15 journaler ble deretter identifisert som brukes ofte for kreft risikovurdering og fellesskap gir en god dekning over de forskjellige typer vitenskapelig bevis relevant for oppgaven (f.eks Cancer Research, Karsinogenese, Environmental Health Perspectives, mutagenese, blant annet). Fra disse tidsskriftene ble alle abstracts returneres av PubMed for årene 1998 til 2008 som inkluderer en av de 8 kjemikalier lastet ned (1297 abstracts totalt). Hver abstrakt ble deretter undersøkt av en ekspert på kreft risikovurdering og tildelt relevante taksonomi klasser via nøkkelord merknader. En merknad verktøyet ble utviklet og brukt i dette arbeidet (se Korhonen et al [16] for detaljer.)
kommenterte datasettet er tilgjengelig under en Creative Commons Attribution Non-Commercial lisens (Informasjon S1 og S2.); så langt som vi er klar over, er dette første gang at et korpus av kjemisk risiko annotering data har vært offentlig tilgjengelig.
Vi re-annotert korpus av Korhonen et al. [16] ved hjelp av vår taksonomi og utvidet det betydelig: vi valgte tolv ytterligere kjemikalier (vist i tabell 1) – de som til sammen representerer typer vitenskapelige bevis og MOAs dekket av vår utvidede taksonomi. Abstracts returneres av et søk i PubMed for disse kjemikaliene (alle fra årene 1999-2009) ble lastet ned og kommentert av kreft risiko sakkyndige bruker merknad verktøyet for Korhonen et al. [16]. Den resulterende kombin corpus består av 3078 kommenterte MEDLINE abstracts for 20 kjemikalier. Det totale antall sammendrag og kommenterte ordene som hører til hver klasse taksonomi er vist i figur 5 (se kolonnene 1-3). Vi ser at 1292 abstracts er klassifisert i henhold til
Vitenskapelig dokumentasjon for kreftfremkallende aktivitet
sub-taksonomi, mens 1766 er klassifisert i henhold til MOA taksonomi. Antallet sammendrag og individuelle søkeord assosiert med topp nivå klasser er høy, men får stadig mindre som vi går inn i de dypere nivåer av taksonomi.
Klassifisering eksperimenter
Klassifiserings
KRABBE klassifikator tildeler usett MEDLINE abstracts til riktig taksonomi klasser ved hjelp av en overvåket maskinlæring teknikk. Teknikken baserer seg ikke på forhåndsdefinerte søkeord, men den bruker et sett av dokument språklige funksjoner (beskrevet nedenfor) og de tilhørende korpus kommentarer (beskrevet i avsnittet over) som treningsdata for å oppnå optimal ytelse.
Korhonen et al. [16] brukt et sett av Support Vector Machine (SVM) classifiers [20], en for hver taksonomi klasse, for å bestemme hvilke (om noen) taksonomi klasser beskrive innholdet i en abstrakt. Siden SVMer har gitt gode resultater i mange tekst mining oppgaver [2], [21], og siden de ga lovende resultater i de innledende eksperimenter Korhonen et al. [16] vi bruker dem også i vårt system. Men vi innføre en forbedret modell og ekstra funksjoner for å oppnå bedre resultater på vår oppgave.
I likhet med andre kjente classifiers som logistisk regresjon eller perceptron, SVMer skille en trening datasett inn i to klasser ved å lære en avgjørelse funksjon som tilsvarer en kombinasjon av funksjonsverdier og har vekter. For SVMer denne funksjonen kan skrives som: (1) der er en vektor av vekter lært av treningsdata og er en funksjon som kartdatapunkter fra inngangen plass til en (potensielt forskjellige) «-funksjonen plass». Den SVM trening algoritmen setter vekten vektor i korrespondanse med
max-margin
prinsippet velge den grensen som maksimerer separasjon mellom klassene. Ofte den egenskap plass kartleggingen behøver ikke beregnes direkte som dens virkning kan fanges opp via bruk av en
kjernen funksjon
som sammenlikner to datapunkter; Dette gjør det mulig sammendragsverdimetrikker til å lære ikke-lineære beslutnings grenser samtidig som beregningsmessig effektivitet av lineær klassifisering. Bøkene [22], [23] gir omfattende oversikter over SVMer og av kernel metoder generelt.
En standard kernel-funksjonen er prikk-produktet eller
lineær kjerne
, som vi brukte i Korhonen et al. [16] 🙁 2) En alternativ kjernefunksjon, er egnet for sammenligning av sannsynlighetsfordelinger (eller L1-normaliserte vektorer), kan utledes fra den Jensen-Shannon divergens (JSD) [24] via en metode foreslått av Hein og Bousquet [25 ] 🙁 3) Ó Séaghdha og Copestake [26] viser at denne
JSD kernel
gir betydelig bedre ytelse enn den lineære kjernen på en rekke klasse oppgaver i naturlig språk prosessering; derfor vi bruker det her med en forventning om at det vil forbedre nøyaktigheten av våre automatiske abstrakt merknader.
Abstracts er innspill til klassifiseringen rørledningen som PubMed XML, der innholdet i hver abstrakt og noen assosiert markup er hentet . Sammendraget teksten tokenised (splittet i sine enkelte ordsymboler) bruker OpenNLP toolkit [27] og forvandlet til en «pose med ordene» -funksjonen vektor som lagrer antall ganger hvert ord forekommer i teksten. Et eget sett med funksjoner registrerer ordene som dukker opp i det abstrakte tittelen, for å fange intuisjon at tittelen ordene har en privilegert status i å identifisere hoved temaet for en artikkel. Disse funksjonene er utvidet med mesh (
Medical Subject Headings
) overskrifter som tilbys av MEDLINE; for eksempel kan en abstrakt ha fått de beskrivende overskrifter
Drug Interactions Hotell og
hemmere
. De overordnede kategorier eller
hypernyms
av disse overskriftene i MeSH taksonomi er også lagt; for eksempel hypernyms av
hemmere
inkluderer
molekylære mekanismer av Handling
og
Farmakologiske Handlinger
. Endelig er alle tegn strenger av lengde 7 (inkludert setning interne tegnsetting og mellomrom) hentet fra teksten og konvertert til et annet sett av funksjoner; den foreslåtte sekvenslengde på 7 følger Wang et al. [28], men bruk av tegnbaserte funksjoner for streng sammenligning har en lang historie i bioinformatikk, f.eks
spekteret kernel
av Leslie et al. [29].
Sammenlignet med systemet av Korhonen et al. [16], integrerer systemet følgende forbedringer: (1) bruk av den JSD kjernen i stedet for den lineære kjerne; (2) bruk av tittelen ordet funksjoner; . (3) tilsetting av MeSH hypernyms
klassifikator knyttet til hver taksonomi klasse spår en binær etikett; en abstrakt er klassifisert som enten er merket med den klassen eller ikke. Hver klassifikator er trent selvstendig og gjør sin prediksjon uavhengig av de andre classifiers. Men det faktum at klassene er plassert i en taksonomi betyr at det er faktisk avhengigheter mellom dem; hvis en abstrakt er et positivt eksempel for
trådbrudd da
det er også per definisjon et positivt eksempel for
gentoksisk virknings
. Slike avhengigheter fanges opp av en postprosessering trinn der positive klassifikasjoner ved en gitt klasse blir spredd opp taksonomi til alle høyere klasser.
Den KRABBE verktøy
I tett samarbeid med risiko sakkyndige, har vi utviklet en elektronisk tekst mining verktøy som integrerer de komponentene som er beskrevet i de ovenfor angitte sub-seksjoner. Verktøyet har en pipeline struktur, som illustrert i figur 6. En bruker kan definere den kjemiske (r) av interesse og laster ned den tilsvarende samling av abstracts fra PubMed i XML-format. Sammendragene blir så preprocessed og klassifisert i henhold til taksonomi som beskrevet ovenfor. KRABBE skjermer, for en gitt kjemisk, fordelingen av klassifiserte sammendrag over ulike deler av taksonomi. Brukeren kan navigere i datasettet ved å velge en taksonomi klasse og vise alle abstracts klassifisert som positivt for den klassen. Brukeren kan også gi tilbakemelding til systemet ved å markere feilaktig klassifisert koder; disse blir så fjernet fra skjermen. Resultatene lagres i en MySQL database, slik at vedvarende datatilgang: resultatene av tidligere økter kan være revisited og deles med andre brukere. Figur 7 viser skjermbilder som viser noen av funksjonene i verktøyet. Vi har gjort KRABBE tilgjengelig for sluttbrukere via en online web-grensesnitt som er tilgjengelig på forespørsel via https://omotesando-e.cl.cam.ac.uk/CRAB/request.html.
forsøkene som presenteres her bruker SVM gjennomføringen levert av LIBSVM bibliotek [30], tilpasset for å forenkle bruken av JSD kjernen. Under trening, vi utfører også funksjonen utvalg for å fjerne de mange ikke-prediktive egenskaper av hensyn til økt effektivitet og nøyaktighet. Hver funksjon er scoret i henhold til sin diskriminerende makt over treningsdata ved hjelp av
F-poengsum
metode for Chen og Lin [31]. Cross-validering på trenings informasjonen blir brukt til å velge hvor stor andel av funksjoner for å forkaste; Dette gjøres ved å måle ytelse med topp-scoring av funksjoner og holde undergruppe som gir best ytelse. Den SVM klassifikator har to parametre som brukes i opplæring, «kostnaden» parameter og vekten parameter som angir den relative vekting av positive trenings eksempler; spiller en viktig rolle når noen etiketter er svært sjeldne, som i programmet for hånden. I likhet med funksjonen utvelgelsesprosessen, er begge parametrene satt gjennom et rutenett søkeprosedyren som utforsker området
Vi brukte en 10-fold kryssvalidering metodikk i vår evaluering. Datasettet er tilfeldig delt inn i 10 atskilte partisjoner og tar en partisjon på en tid klassifikator er trent på de andre ni partisjoner og gjort å forutsi merkingen av abstracts i den valgte partisjonen. På denne måten hvert abstrakt er merket nøyaktig en gang, og vi kan vurdere disse spådommene ved hjelp av målinger av Precision (), Recall () og F-mål (ikke å forveksles med F-poengsum brukes for funksjonsvalg) 🙁 4) ( 5) (6) der, og stå for det antall sanne positive, falske positive og falske negative, henholdsvis. Disse evalueringstiltak er standard i naturlig språk prosessering og tekst gruvedrift. Gitt et sett med label spådommer for alle dataelementer, er Precision, Recall og F-mål beregnes uavhengig for hver etikett. For å produsere en samlet resultatmål disse pr-label score kan i gjennomsnitt (
makro gjennomsnitt
) eller enkel presisjon og tilbakekalling tall kan beregnes for hele datasettet og en
mikro-gjennomsnittet
F-mål produsert ved anvendelse av formelen i (6). Micro-gjennomsnitt ytelse har en tendens til å bli dominert av mer utbredte klasser, mens makro gjennomsnitt ytelses behandler alle klasser like.
Bruker eksperimenter og case-studier
En brukertest ble gjennomført for å måle aksept av klassifikator utgang til risiko sakkyndige som skulle bruke det for sitt arbeid. Syv kreftfremkallende kjemikalier ble valgt (se den første kolonnen i tabell 2); ingen av disse kjemikaliene har tidligere blitt brukt i merknads, klassifisering eller evalueringsformål. En test corpus ble samlet for hvert kjemikalie ved å søke PubMed for alle ikke-artikler nevne den kjemiske som ble publisert mellom 1996-2010 (per 07.12.2010) i tidsskrifter som er oppført i tabell 3. Den resulterende datasettet inneholdt 2546 abstracts. Som i realistisk bruk, mange av disse abstracts er irrelevant for kreft risikovurdering; klassifikator må skille relevante artikler fra irrelevante artikler samt tildele passende klasse etiketter. Test korpus ble sendt til klassifiseringssystemet for automatisk merknader.
Sammendragene klassifisert som positive for minst en taksonomi klasse ble inspisert av to risiko sakkyndige som arbeider uavhengig av hverandre. De bestemte seg for hvorvidt de abstracts returneres for hver klasse ble korrekt merket eller ikke. Etter den første komplette runden av merknader, ble nivået av avtalen mellom risiko sakkyndige beregnes som andel av klassifikasjoner om hvor begge annotators gjorde det samme vedtaket. Vi fikk ikke bruke Kappa mål på interannotator avtalen [32], som ofte brukes i NLP, så det er ikke gyldig når klassen fordelingen er svært skjev: hvis noen annotator gjelder samme etikett til alle forekomster (i vårt tilfelle, bærer ut den ønskede oppførselen til kommentering alle returnerte sammendrag som positive) Kappa verdi vil være null. Det faktum at den marginale fordelingen av klasser både i datasettet selv og i dommene fra annotators påvirker omfanget av mulige og sannsynlige Kappa score har blitt observert i en rekke studier [33] – [35]. Slike studier anbefaler ofte at ytterligere statistikk bli rapportert som et hjelpemiddel for å bedre tolke meningen med et gitt Kappa poengsum; imidlertid, i det tilfelle hvor en annotator benytter bare ett merke effekten når et patologisk stadium der Kappa alltid er lik null uavhengig av den andre annotator avgjørelser, og det er i det vesentlige ikke noe å tolke.
En åpenbar fordel med en tekst gruvedrift verktøy som krabbe er mye bedre effektiviteten av en stor del av risikovurderingen: gjennomgang av eksisterende vitenskapelige data på det aktuelle kjemikaliet. Menneskerisiko sakkyndige kan bruke måneder å gjennomføre delvis gjennomgang av relevant MEDLINE litteratur [16], mens KRABBE kan utføre en grundig gjennomgang i løpet av sekunder. En annen stor fordel er muligheten til å utføre multi-dimensjonale klassifisering av litteratur i henhold til taksonomi, dvs. de forskjellige typer av vitenskapelige bevis for hver artikkel har for risikovurdering. Denne typen klassifisering ville være svært vanskelig og tidkrevende å utføre for hånd, spesielt for uerfarne risiko sakkyndige, men det kan være svært verdifullt fordi det muliggjør både kvantitative og kvalitative oversikter over tilgjengelige data.
Vi har utført en rekke case-studier for å demonstrere hvordan slike oversikter kan brukes til å støtte kreft risikovurdering og forskning. Metodikken av disse studiene involvert plotte fordelingen over etiketter tildelt av klassifiserings til komplett sett med MEDLINE abstracts nevne kjemikalier av direkte interesse for risiko sakkyndige. Disse kvantitative funnene er sammenlignet med kjente egenskapene til hver kjemisk og også brukes til å generere nye hypoteser som fortjener videre eksperimentell undersøkelse.
Resultater
I denne delen rapporterer vi både direkte og brukerbasert evaluering av klassifisering teknologi, og presentere case-studier for å undersøke nytten av krabbe verktøy for det virkelige liv risikovurdering.
klassifisering resultater
Vi først tok den utvidede taksonomi og datasett og evaluert nøyaktigheten av