PLoS ONE: Bayesianske nettverk for klinisk beslutningsstøtte i Lung Cancer Care

Abstract

Survival prediksjon og behandling utvalg i kreftomsorg lunge er preget av høye nivåer av usikkerhet. Bayesianske nettverk (BNS), som naturligvis grunn med usikker domenekunnskap, kan brukes til å hjelpe lunge kreft eksperter ved å gi personlige overlevelsesestimater og behandling utvalgs anbefalinger. Basert på den engelske Lung Cancer Database (LUCADA), vurderer vi muligheten for BNS for disse to oppgavene, mens sammenligne forestillinger av ulike årsaks oppdagelse tilnærminger for å avdekke den mest gjennomførbare nettverksstrukturen fra ekspertkunnskap og data. Vi viser først at BN struktur utløses fra klinikere oppnår et skuffende areal under ROC-kurven på 0,75 (± 0,03), mens en struktur mottas ved CAMML hybridårsaks oppdagelse algoritme, som følger med tidsmessige restriksjoner, oppnår 0.81 (± 0.03) . Sekund, våre årsaksintervensjons Resultatene viser at BN behandlingsanbefalinger, basert på forskrivning behandling plan som maksimerer overlevelse, kan bare forutsi registrert behandlingsplan 29% av tiden. Men stiger denne andelen til 76% når deler av ord er inkludert.

Citation: Sesen MB, Nicholson AE, Bañares-Alcantara R, Kadir T, Brady M (2013) Bayesianske nettverk for klinisk beslutningsstøtte i Lung Cancer Care. PLoS ONE 8 (12): e82349. doi: 10,1371 /journal.pone.0082349

Redaktør: Raffaele A Calogero, Universitetet i Torino, Italia

mottatt: 29 august 2013; Godkjent: 30 oktober 2013; Publisert: 06.12.2013

Copyright: © 2013 Sesen et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne forskningen har blitt finansiert av Clarendon og New College Graduate Stipend gjennom CDT i Healthcare Innovation Programme ved Biomedical Engineering Institute ved University of Oxford. MB erkjenner støtte fra theCancer Forskning Storbritannia /Engineering og Fysisk Sciences Research Council Oxford Cancer Imaging Centre. AN erkjenner midler fra Feder midler og den spanske regjeringen (Ministerio de Ciencia e Innovación) gjennom prosjektet TIN2010-20900-C04-03. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:. Forfatterne ønsker å erklære at en av forfatterne, TK, er ansatt i det kommersielle selskapet: Mirada Medical. Men dette betyr ikke utgjøre noen interessekonflikter i forbindelse med arbeidet som presenteres. I tillegg ønsker forfatterne å understreke at dette ikke endrer sin tilslutning til alle PLoS ONE politikk på deling av data og materialer.

Innledning

Den akselererende trend mot personlig medisin, parallelt med den raske utviklingen av ulike maskinlæring (ML) verktøy, har utløst Gjenvinning av medisinsk datasett å foreslå diagnostiske og prognostiske alternativer, til et punkt selv for å anbefale individualiserte behandlingsplaner [1,2]. I sammenheng med klinisk beslutningsstøtte (CDS), er ML verktøy som brukes til å hjelpe klinikerne ankommer mer informerte beslutninger behandling basert på tidligere pasientjournaler. Slike systemer opererer typisk ved å matche en pasientjournal til informasjon «lært» fra tidligere pasientjournaler som foreskrevet behandling planer og pasientens utfall er kjent.

Medisinsk datasett er vanligvis preget av sin ufullstendighet og lydnivå, som forårsaker en betydelig grad av usikkerhet under behandlingen av dem [2]. Totalt sett gjennomsyrer usikkerhet kausalitet i medisin, selv om det ikke alltid er gjort eksplisitt. For eksempel, i et datasett som inneholder «Age «og» Survival «, er årsakssammenheng mellom de to tydelig selv om det ikke kan være lett å finne gjennom hvilke variabler det kan etableres. Enda viktigere, usikkerhet oppstår også naturlig i pasientbehandling prosesser som ligger til grunn for data, ikke minst i spørsmål som: «Hva er sannsynligheten for overlevelse for denne pasient?» Og «Hvordan ulike behandlings beslutninger påvirker denne sannsynligheten?»

et godt eksempel på en klinisk setting, der usikkerheten er allestedsnærværende, er behandling utvalg i kreftomsorg, hvor mangfoldig natur pasienten og sykdomskarakteristika og den raskt voksende utvalg av behandlingsalternativer ofte tilstede dilemmaer om optimal behandling beslutninger [ ,,,0],3]. Som en konsekvens av den komplekse og tverrfaglig karakter av beslutningsprosessen, er behandling planer for kreftpasienter forvaltes i tverrfaglig team (MDT) møter som mobiliserer den felles kompetanse av klinikere fra ulike spesialiseringer.

Personlig overlevelse prediksjon og behandling valg er fremtredende i MDT miljø. Forutsi svaret på det første av de ovennevnte spørsmålene er knyttet til prognostiske resonnement [4]. En nøyaktig prediksjon av overlevelse kan brukes til å stratifisere kreftpasienter i ulike risikogrupper og potensielt hjelpe til å utforme tilpassede behandlingsplaner [5,6]. Videre spådde overlevelse informasjon kan også være sentral i å håndtere pasient og familie forventninger om behandlingsresultatene [7]. Som en sannsynlighets uttrykk, kan dette prognostisk spørsmålet betegnes «P (Survival = Alive | Evidence) =?». Ved hjelp av en BN, kan dette spørsmålet bli besvart via observasjons slutning, hvor fokus er på å oppdage den bakre fordelingen av spørringen variable. Survival, under forutsetning av at den observerte Bevis for andre noder

På den annen side, andre spørsmålet, som spør effekten av behandlings valg på den prognostiske utfallet, adresser pragmatisk mål om kurativ kreftomsorgen. Selvsagt, hvis prognosen for pasienten er dårlig, kan det endelige målet er lindring og behandling av symptomer, snarere enn å øke sannsynligheten for å overleve. I forhold til sannsynlighetsteori, er dette spørsmålet betegnet som «P (Survival = Alive | Evidence, T) =?», Hvor T representerer behandlingsplanen variabel. Sammenlignet med den tidligere, med mål om spørring for å finne den bakre fordelingen av overlevelse under forutsetning av at T, som er – i motsetning til innen kunnskaps unobserved ved å stille spørsmålet. Med andre ord, er spørsmålet hypotetisk og kan ikke besvares bare ved de målte verdiene til det punktet. For å forutsi hva overlevelse sannsynlighet kommer til å bli, gitt ulike behandlingstilbud, ville vi trenger å gjøre en kausal intervensjon, som tillater oss å spørre «hva om?» Spørsmål. Denne typen årsaks resonnement er svært viktig i CDS-programmer, og er ikke kompatibel med diskriminerende ML metoder som regresjonsmodeller [8,9].

Bayesian Networks

BNS muliggjør årsaks resonnement med domene begreper i et visuelt tiltalende og mer intuitiv måte sammenlignet med mange andre ML teknikker [9], og de kan brukes for å løse de ovennevnte kliniske spørsmålene. De kode usikker domene kunnskap på en naturlig måte. En BN består av en rettet asyklisk graf (DAG), og en underliggende kombinerte sannsynlighetsfordelingen, noe som sammen gir en matematisk godt og kompakt måte å kode usikkerhet i en gitt domene. Fra starten av har medisinsk informatikk vært den viktigste driveren i utviklingen av BNS [10,11]. Dette er delvis på grunn av deres evne til å intuitivt kapsle årsakssammenhenger mellom de diagnostiske eller prognostiske faktorer som er lagret i medisinske datasett [4,12,13].

BNS er egnet verktøy for sannsynlighets slutning som kan hjelpe klinisk beslutningstaking, siden 1) sin grafisk natur gjør at informasjonen de inneholder å være lett forstått av en kliniker [14]; 2) de kan formelt innlemme forkunnskaper mens læring struktur og parametere for nettverket [15]; 3) de lette parameterestimering grunn av den kompakte fremstilling av den kombinerte sannsynlighets plass; 4) de ikke bare tillate observasjons slutning men også årsaks intervensjoner [9]; 5) de kan brukes til å spørre en gitt node i nettverket, og er derfor vesentlig mer allsidig enn klassifiserere bygget basert på bestemte utfallsvariabler; og 6) de gjør det bra i å gjøre forutsigelser med ufullstendige data, siden Predictor variablene er brukt til å estimere ikke bare spørsmålet variabel, men også hverandre [16] [5,17]. For en detaljert dekning av BNS, henvises leseren til [9,13].

Den primære motivasjonen for dette arbeidet er å undersøke muligheten for å utvikle BNS i å gi beslutningsstøtte for overlevelse prediksjon og behandling utvalg i lunge kreftomsorgen. Lungekreft er den ledende årsak til kreft-relaterte dødelighet over hele verden [18] [6]. Våre analyser er basert på en anonymisert undergruppe av den engelske Lung Cancer database (LUCADA), som omfatter mer enn 126.000 pasienter som ble diagnostisert mellom 2006 og 2010. Vi bruker denne store og unike datasett for å utvikle og evaluere en rekke BNS hvis strukturer er lært i sin tur ved manuell, automatisert og hybrid tilnærminger. Struktur læring av BNS er fortsatt noe av en svart kunst, og derfor et sekundært mål med artikkelen er å vurdere hensiktsmessigheten av ulike metoder for å avdekke årsaks strukturen i domenet ved hjelp av en real-life medisinsk datasett av størrelsen og kompleksiteten av LUCADA.

Litteraturgjennomgang

Cruz og Wishart [19] rapport at vedtakelsen av ML teknikker for prognose prediksjon og behandling utvalget er en relativt ny utvikling. Den eksisterende litteraturen på BNS og kreft i hovedsak gjelder programmer for å hjelpe diagnose, risikovurdering og overlevelse prediksjon. Videre mellom ulike kreft domener, har det vært en konsentrasjon på anvendelser i brystkreft [20-24] i forhold til BN applikasjoner i andre typer kreft [5,7,25-28].

I forhold til relevante BN programmer på overlevelse prediksjon, i en studie publisert i 2011, som har som mål å forutsi 1-års levetid på 189 pasienter med skjelettmetastaser, Forsberg et al. oppnådd gode resultater med et logisk område under ROC-kurven (AUC) av 0,83 [7]. I en nyere studie basert på en vesentlig større datasett som inneholder 146,248 pasientjournaler, Stojadinovic et al. bygget en BN å utføre personlig overlevelse prediksjon for tykktarmskreft, rapporterer om en AUC-verdien på 0,85 [16]. Ingen av disse studiene sammenegnetheten av forskjellige tilnærminger i den kausale oppdagelsen av domenestrukturen. I tillegg har begge årsaks intervensjoner og gjennomførbarheten av behandlingsanbefalinger ved BNS var ute av omfanget av begge studiene.

Med fokus på lungekreft spesifikke anvendelser av BNS i 2010 Jayasurya et al. utformet et BN for å forutsi overlevelse i ikke-småcellet lungekreft (NSCLC) pasienter behandlet med strålebehandling. De konkluderte med at BN modeller prediktiv oppnå en høyere ytelse med manglende data, sammenlignet med støtte vektormaskiner og er derfor mer egnet for den medisinske domenet [5]. I en mer teknisk orientert publikasjon, Oh et al. foreslått en BN struktur læringsalgoritme som kombinerte både fysiske og biologiske faktorer for å forutsi lokal svikt i lungekreft [27]. Imidlertid ble begge disse studiene basert på datasett som inneholdt et begrenset antall pasientjournaler -For en studie i [27] bare 18 pasienter, som nødvendig replikering på større datasett.

I sammendraget, er antall studier rapporterer anvendelsen av BNS til kreft begrenset. Videre, bortsett fra en håndfull unntak, mest publiserte resultatene fra foreløpige studier basert på begrensede pasientdata. Så vidt vi vet, finnes det ingen tidligere arbeids, som tar hensyn til histologisk, klinisk og demografisk informasjon basert på en nasjonal datasett av størrelsen på LUCADA, i overlevelse prediksjon eller behandling anbefaling i lungekreft.

Materialer og metoder

The National Lung Cancer Audit (NLCA) har vært å samle elektroniske pasientdata i den engelske Lung Cancer Database (LUCADA) siden 2004. Gjennom en datadelingsavtale mellom NLCA og University of Oxford, har vi hatt tilgang til anonymisert delsett av LUCADA datasettet for å utføre forskning i Biomedical Engineering innen klinisk beslutningsstøtte og maskinlæring. Dette datasettet omfatter 126,986 engelsk pasientjournaler lagt inn i systemet fra begynnelsen av 2006 til slutten av 2010. All potensielt pasientidentifiserbare opplysninger ble fjernet av NLCA før du gjør data tilgjengelig.

Siden LUCADA samles primært for revisjonsformål, det inkluderer mange administrative variabler som er av tangentiell interesse for denne studien. Basert på innspill fra våre kliniske samarbeidspartnere og litteraturgjennomgang, fokuserte vi våre analyser på de 13 mest vanlig fore LUCADA variabler i de store nasjonale og internasjonale lungekreft vare veiledende dokumenter [6,29-31]. I tillegg til deres kliniske relevans, disse ble valgt på basis av å være tilgjengelig på det tidspunkt en ny pasient blir presentert for en behandling beslutning om å MDT. Disse variablene er oppført i Tabell 1.

Kode

navn

Verdier

Oral Tier

1Age 50; 50-60; 60-70; 70-80; 80Pre-treatment2Staging Identifier6; 7Pre-treatment3FEV1 absolutte mengden 1,0; 1-1,5; 1,5 – 2,0; 2.0Pre-treatment4FEV1 Prosent 30; 30-40; 40-80; 80Pre-treatment5Performance Status0; 1; 2; 3; 4Pre-treatment6Number av Comorbidities0; 1; 2; 3; 4; 5Pre-treatment7Primary DiagnosisC33; C34; C34.0; C34.1; C34.2; C34.3; C34.8; C34.9; C38.4; C38.3; C38.8Pre-treatment8Tumour LateralityLeft; Høyre; midtlinjen; bilateral; Ikke ApplicablePre-treatment9TNM CategoryIA; IB; IIA; IIB; IIIA; IIIB; IV; UncertainPre-treatment10HistologyM8010 /2; M8041 /3; M8046 /3; M8070 /3; M8140 /3; M8250 /3; M8012 /3; M8020 /3; M8013 /3; M8240; M8980 /3; M8940 /3; M9999 /9Pre-treatment11Site spesifikke Staging ClassificationLimited; Omfattende; UnknownPre-treatment12Suggested kreftbehandling planListed i tabell 2Treatment131-yr SurvivalAlive; DeadPost-treatmentTable 1. 13 pasient- og sykdomsspesifikke variabler fra LUCADA, sammen med verdiene de kan ta og deres timelige ordrer.

CSV ned CSV

I tabell 1, de første 11 variablene er kategorisert som «pre- behandling variabler «. De inneholder informasjon om pasienten eller sykdomsspesifikke aspekter av en pasientjournal som kreves før en behandling beslutning fattes. Blant de pasientrelaterte detaljer notert: «Performance Status» indikerer generell fysisk velvære, mens «FEV1 absolutte mengden» og «FEV1 Andel» lagre lungekapasitet (mer presist, forsert ekspiratorisk volum i ett sekund) av en pasient. I tillegg «Antall komorbiditet «gir informasjon om antall signifikante komorbiditet, som for eksempel hjerte-og karsykdommer og nyredysfunksjon, at en pasient har ved diagnosetidspunktet.

Blant de sykdomsspesifikke variabler «primærdiagnose» identifiserer ICD-10 kode [32] som best beskriver beliggenheten og den generelle type av sykdommen. «Histologi» indikerer SNOMED kode [33] av histo-patologiske type primærtumor, og det amerikanske Joint Committee on Cancer (AJCC) definert «kategorien TNM» oppsummerer det generelle alvorlighetsgraden av sykdommen i form av tumorstørrelse og spredning av kreftceller. Tilsvarende «Site-spesifikke Staging Classification» butikker om sykdommen er begrenset eller omfattende for småcellet lungekreft pasienter.

Den «Forslag til kreftbehandling plan «variable lagrer behandling gis til pasienten. Den definitive behandling for ikke-metastatisk lungekreft er kirurgisk reseksjon. Imidlertid, siden de fleste pasientene diagnostisert bare når sykdommen er på et avansert stadium, kun 10-15% av pasientene kan behandles med kirurgi [34,35]. Tabell 2 viser alle tilgjengelige behandlingsplan typer innen LUCADA, sammen med sine frekvenser. I denne tabellen, alle behandlingstyper, bortsett fra palliasjon (5) og Aktiv overvåkning (6), er kategorisert som kurativ behandling. Behandlingene kodede 1, 9, 10 og 11 er de som involverer kirurgisk reseksjon. Resten av behandlingene, kodet 2, 3, 7 og 8, omfatter individuell kjemoterapi og radioterapi eller en kombinasjon av de to.

Kode

Navn

Prosentandel (%)

1Surgery102Radiotherapy14.793Chemotherapy195Palliative care236Active Monitoring97Sequential kjemoterapi og radiotherapy78Concurrent kjemoterapi og radiotherapy19Induction kjemoterapi til Downs før surgery0.0810Neo-adjuvant kjemoterapi og surgery0.1311Surgery fulgt av adjuvant chemotherapy2-Null14Table 2. De tilgjengelige behandling plan alternativer i LUCADA og deres frekvenser.

CSV ned CSV

til slutt, i tabell 1, inneholder «1-års overlevelse» variabel overlevelse utfallet informasjon for alle pasientjournaler. I kreftomsorgen, er det 5-års overlevelse er det mest brukte cut-off point for å måle sykdomsfri overlevelse. Siden LUCADA ennå ikke inneholder mye pasientdata på 5-års overlevelse, bruker vi 1-års overlevelse som et surrogat effektmål. Dette valget er understøttet både av våre kliniske samarbeidspartnere, og i litteraturen, som rapporterer nesten alle forbedring i overlevelse kreft lunge som skyldes en økning i ett års overlevelse [36,37]. Den samlede «1-års overlevelse «rate innenfor LUCADA er 33%.

Pre-behandling LUCADA datasett

Før designe et sett av domenespesifikke BNS, vi først analysert og pre-behandlet den LUCADA datasett. Data pre-prosessering er et viktig skritt i en hvilken som helst maskin læringsøvelse, siden påliteligheten av en prediktiv modell avhenger avgjørende på kvaliteten av data som brukes [38]. For dette formålet, gjennomførte vi følgende pre-behandlingstrinn.

Først vi fjernet disse postene hvor pasienten ble diagnostisert med Mesothelioma manuelt, ettersom vårt fokus var på NSCLC og småcellet lungekreft (SCLC) pasienter . I tillegg har vi fjernet disse pasientjournaler som er tatt opp behandlingsplan var brachyterapi (mindre enn 100 pasienter, noe som gjør det lite sannsynlig) eller var det ingen 1-års overlevelse informasjon. Disse slettinger redusert antall observasjoner som er tilgjengelig i datasettet fra 126 987 til 117 426.

For det andre, vi discretised den «

Age

«, «FEV1 i prosent» og «FEV1 absolutte mengden» datafelt, som er de eneste ikke-kategoriske felt i LUCADA datasett. Selv om det er mulig å bygge BNS med kontinuerlige variabler, de fleste av kliniske applikasjoner oppdatert utnytte kategoriske variabler [4]. Disse tre variablene ble diskretisert basert på kliniker råd og på kuttet verdier gitt i retningslinjen regler. Selv om det finnes ulike teknikker for automatisk discretisation av kontinuerlige variabler [39-41], tilgjengeligheten av cut-off-verdier innenfor de retningslinjene dokumenter og klinisk samarbeidspartner råd gjort oss i stand til å utføre manuell discretisation basert på klinisk relevante intervaller. Disse ekspert fremkalte intervallene som er oppført i Tabell 1.

For det tredje har vi utviklet en strategi for å håndtere manglende data, som dekker 32% av LUCADA. Data ufullstendighet er et faktum av livet for kliniske datasett [5,42] og avhengig av hvordan ufullstendighet av en bestemt variabel er relatert til andre variabler, manglende data er ofte modellert basert på en av tre forskjellige forutsetninger: 1) mangler helt tilfeldig (MCAR); 2) mangler tilfeldig (MAR); eller 3) ikke mangler på måfå (NMAR), hvor sistnevnte omfatter alle de saker som ikke faller inn under en eller to, og som sådan nødvendig modellering mangler data eksplisitt.

De to vanligste metodene for å håndtere LAR-data er Forventning Maksimerings (EM) og Multiple Imputation (MI) [43]. Imidlertid må det tas i betraktning at både EM og MI er beregningsmessig komplekse algoritmer som kanskje ikke er gjennomførbart for store datasett med høy forekomst av ufullstendigheter. Enda viktigere, avhenger deres bruk vesentlig på gyldigheten av MAR antagelsen, uten noe som de fører til partisk estimater [44]. Graham forteller at «den beste måten å tenke på alle mangler data er som et kontinuum mellom MAR og Mnar», og man må ta stilling til om MAR brudd i et gitt datasett er stor nok til å gjengi estimatene for MI og EM ugyldig [45 ].

Informert av vår samhandling med NLCA ansatte, vi konkluderte med at NMAR missingness var fremtredende i LUCADA og vedtakelsen av EM eller MI kan ha negative effekter. Som et resultat har vi valgt å modellere «missingness» eksplisitt gitt kontekst. Faktisk er manglende datamønstre i kliniske datasett ofte korrelert med den kliniske relevansen av de manglende verdiene for en bestemt pasient, og kan ofte legemliggjøre informasjon [42,46]. For å vurdere hvorvidt fraværet av data i LUCADA data kan gi nyttig informasjon i å bygge prediksjonsmodeller, kjørte vi et sett av eksperimenter på våre valgte 13-variabel undergruppe med 117,426 pasientjournaler.

For å oppnå dette, valgte vi 1-års overlevelse som vår binær utfallet variabel og adskilt resten av datasettet som vår prediksjon matrise. Etter dette har vi utarbeidet en binær indikator matrix «der elementene var null eller en, avhengig av om de tilsvarende elementene i prediksjon matrise ble observert eller manglet. Vi innspill den resulterende indikator matrisen inn i Naive Bayes [47] og Logistisk [47] algoritmer og i hvert fall spådd en-års overlevelse. AUC-verdier og prediktiv nøyaktighet prosenter oppnås ved informasjon om dataufullstendig alene er gitt i tabell 3. rapportert i tabellen er gjennomsnitt og standardavvik på 10-fold stratifisert kryssvalideringsresultater.

Gjennomsnittlig AUC

Std. Dev. AUC

Gjennomsnittlig Nøyaktighet

Std. Dev. Nøyaktighet

Logistic Regression0.720.024720.37Naive Bayes0.690.021710.36Table 3. Areal under kurven (AUC) og prediktiv nøyaktighet resultatene for den manglende data indikator matrise forutsi 1-års overlevelse utfallet.

CSV ned CSV

Disse resultatene viser klart at den savnede data mønsteret er faktisk svært informativ i å forutsi 1-års overlevelse i LUCADA datasett. Av denne grunn har vi valgt å modellere mangler data eksplisitt i våre analyser. Ved å gjøre det, brukte vi PostgreSQL [48] spørringer for å erstatte null observasjoner i databasen med en eksplisitt «Ukjent /Missing» tilstand.

Eksperimentelle metoder

Anvendeligheten av BNS å forutsi en -års overlevelse i LUCADA datasettet var motivert ovenfor. Strukturen læring av de tilknyttede DAGS kan utføres manuelt eller, i nærvær av en omfattende datasettet, via automatiske kausale oppdagelse algoritmer. I våre forsøk, sammenlignet vi plausibilitet av DAG strukturer, som var 1) fremkalte fra klinikere oppfatning av domenet; 2) lærte strengt fra data; og 3) lært via en hybrid tilnærming som bygger på fagkunnskap til automatisert struktur læring.

Expert fremkalte strukturer er svært vanlig i kliniske applikasjoner, ettersom årsakssammenhenger mellom ulike variabler er godt forstått av klinikere. Lucas et al. rapport at mange av BNS [28,49-55] utviklet for virkelige applikasjoner i biomedisin og helse har blitt konstruert manuelt [4]. Men slike BNS er tilbøyelige til subjektiv skjevheter og kan ikke være i stand til å fullt ut fange statistiske signaturer (som independencies) som er implisitt i dataene. Disse kan føre til suboptimale modeller, spesielt i tilfeller hvor det endelige målet er posterior parameterestimering eller klassifisering, snarere enn å gjøre eksplisitt årsakssammenhenger til å få en bedre forståelse av problemet domenet.

På den annen side, automatisk læring av den kausale strukturen i en BN fra data er en aktiv utfordring føres i ML, særlig fordi det ikke er noen unik BN som representerer den kombinerte sannsynlighetsfordelingen gitt ved de data som [9]. Generelt kan automatisk struktur læring algoritmer kategoriseres i: 1) Constraint-baserte algoritmer som bruker betingede independencies; og 2) Score-basert søkealgoritmer, som søk etter DAG modell som maksimerer en beregning poengsum i årsaksmodellen plass [13]. Begrensnings baserte metoder er fokusert på å utvinne en kausal struktur basert på betingede independencies i dataene. I våre forsøk har vi gjort bruk av en forbedret versjon av inferred kausalitet (IC) algoritme som beskrevet i [56] og implementert av Bouckaert i WEKA 3 [57].

De rille-basert søkealgoritmer gjøre bruk av nedbrytbart score som gir den totale poengsummen for en DAG skal beregnes som summen (eller produkt) av de enkelte node score i nettverket. I våre forsøk, har vi gjort bruk av K2 stillingen [58], som er en type av bayesisk poengsum [58-60], for å beregne den kombinerte sannsynlighets av en graf (G) og datasettet (D) [58] . Den generelle ligningen for en bayesiansk poengsum er gitt i ligning 1. product: (1)

Alle automatiserte læring algoritmer presenteres i denne artikkelen ble gjennomført enten i Matlab BNT verktøykassen [61] eller WEKA 3 [57] maskinlæring programvare. Spesielt i våre eksperimenter brukte vi følgende score-basert søkealgoritmer: 1) Tre Augmented Naive Bayes (TAN), som ble introdusert av Friedman og Geiger som en avslapning av den sterke uavhengighet forutsetning mellom Predictor variablene i en naiv Bayes klassifikator [ ,,,0],62]. Den versjonen av TAN som vi brukte ble implementert i WEKA 3; 2) K2, som ble foreslått av [58] og implementert i BNT verktøykasse; 3) Markov Chain Monte Carlo Modell Nedbrytning MC

3, først foreslått av Madigan og York [63] og implementert i BNT verktøykasse; og til slutt 4) Simulert Annealing for å søke på plass av alle sannsynlighetsmodeller, som gjennomføres av Bouckaert i WEKA 3 [57].

I tillegg til disse fullt automatiserte algoritmer, vi også utforsket bruk av en hybrid struktur læring algoritme, kalt årsaks Minimum Message Lengde (CaMML) [64], noe som gjør at ulike typer spisskompetanse, for eksempel time nivåer (A skjer før B, betegnet som A ≺ B), direkte relasjoner (A og B er i slekt, betegnet som A – B) og direkte årsaks forbindelser (A direkte påvirker B, betegnet som A → B), skal innlemmes i den automatiske læringsprosess. For struktur læring, vi brukte Java gjennomføringen av CaMML, utviklet ved Monash University. Det har tidligere vært brukt av Flores et al. [15] og Twardy et al. [65] for å lære kliniske kausale strukturer i domenet for kardiovaskulær sykdom. Overall, en felles egenskap av alle struktur læring algoritmer brukt var at de antok alle variabler å være diskret og datasettet for å være fullt observert.

Forsøksoppsett

I alle de BN eksperimenter, representert vi felles sannsynlighetsfordelinger som bruker betinget sannsynlighet tabeller (CPTs), som ble lært via maksimum likelihood estimatene ved å anta ensartede Dirichlet tidligere utdelinger over hele diskrete variabler. Denne «flatet banen» i form av parametrisering. Vi fokuserte vår innsats på å sammenligne variasjonen av struktur læring algoritmer.

Vi har gjennomført alle forsøkene ved fordeling valgt 117426-pasient-sterk undergruppe av LUCADA inn i 10 like store deler med omtrent like før utfallet sannsynligheter, hvor sannsynligheten for 1-års overlevelse var 0,33. For hvert BN eksperiment, ble strukturen og para læring utført på 9 partisjoner og testet på den gjenværende. Ved å gjenta denne prosessen er over alle ti partisjoner, sikret vi inkludering av alle pasientjournaler i forsøkene. Forestillinger av alle årsaks BNS og andre prediktive modeller ble vurdert basert på AUC verdier og prediktiv nøyaktighet prosenter av disse stratifisert ti-fold kryss valideringer.

Det eksperimentelle oppsettet som vi lærte struktur og parametere og rapportere prediktiv resultattall for hver algoritme er oppsummert i figur 1. For hver fold kryssvalidering, separert vi datasettet D (xv) inn opplæring og testsett. Vi brukte treningssett for å lære den DAG og parametere av BN, og deretter testsettet til å evaluere den prediktive utførelsen av lært struktur. I henhold til dette, representert vi DAG (xv) for hver fold i form av en logisk naboskapsmatrisen. På slutten av kryssvalidering, vi innspill DAG array, som besto av alle strukturer lært i løpet av 10-fold kryssvalidering, inn i en rettet maksimal spenntre (MWST) algoritme for å tilegne seg den resulterende DAG

finalen. Vi har gjort bruk av bayesianske Score beregning, gitt i ligning 1, for å beregne P (D, DAG

final).

Den pseudo-koden til eksperimentelle oppsettet for læring og vurdering Dags via forskjellige algoritmer.

Selv om vårt hovedfokus er på BNS, for å gi baseline referanse benchmarks, vi rapporterer også klasse forestillinger innhentet av den mye brukte naive Bayes (NB), Logistisk regresjon, og C4 0,5 beslutningstre algoritme. I våre forsøk, har vi gjort bruk av NB algoritmen i Matlab R2011a. For Logistisk regresjon og C4.5 beslutning tre algoritmer vi brukte WEKA 3 [66]. NB har blitt vedtatt som baseline resultatberegningen i mange ML studier. Til tross for sin enkelhet, er det blitt rapportert å gi sammenlignbare resultater til mer avanserte teknikker ML, spesielt i nærvær av store datasett [67,68]. Logistisk regresjon er ofte brukt i kliniske kohortstudier og forsøk [69]. Den konkrete gjennomføringen av Logistic Regression i WEKA 3 er basert på bruk av «Ridge estimatorer «for å forbedre Koeffisientestimatene [70]. C4.5 er en vanlig brukt algoritme for å bygge beslutningstrær, som anses å være spesielt egnet for domener med diskrete variabler som vårt [71,72]. Den konkrete gjennomføringen av C4.5 algoritme som vi brukte i WEKA 3 heter «J48».

Inference

Som understreket tidligere, til en av våre grunner representerer vårt domene som BN er allsidigheten probabilistiske slutning levert av BNS, der du skriver inn bevis på noen variabel i nettverket resulterer i å oppdatere de bakre fordelinger av resten av variablene. Disse sannsynlighets oppdateringer, dvs. tros oppdateringer, kan visualiseres på toppen av grafen strukturer, noe som gir en grad av åpenhet under slutning. Dette skiller BN slutning fra «black-box» ML prosesser [9].

I alle våre eksperimentelle resultater, har vi gjort bruk av Junction treet algoritme [73] som separat implementert av Murphy [61] i Matlab BNT verktøykassen og ved Bouckaert [57] i WEKA 3. Denne algoritmen består av

Legg att eit svar