PLoS ONE: Sammenligning av kunstige nevrale nettverk og logistisk regresjon modeller for å forutsi i sykehus Dødeligheten etter primær leverkreft kirurgi

Abstract

Bakgrunn

Siden de fleste publiserte artikler som sammenligner resultatene av kunstige nevrale nettverk (ANN) modeller og logistisk regresjon (LR) modeller for å forutsi leverkreft (HCC) utfall bare brukes en enkelt datasett, har den grunnleggende spørsmålet om intern validitet (reproduserbarhet) av modellene ikke er løst. Studien formål å validere bruk av ANN modell for å forutsi i sykehus dødelighet i HCC kirurgi pasienter i Taiwan og å sammenligne den prediktive nøyaktigheten av ANN med at av LR modell.

metodikk /hovedfunnene

Pasienter som gjennomgikk en HCC kirurgi i perioden 1998 til 2009 ble inkludert i studien. Denne studien i ettertid sammen 1000 par av LR og Ann modeller basert på innledende kliniske data for 22,926 HCC kirurgi pasienter. For hvert par av Ann og LR-modeller, arealet under mottaker drift karakteristiske (AUROC) kurver, Hosmer-Lemeshow (H-L) statistikk og nøyaktighet rate ble beregnet og sammenlignet ved hjelp av parvise t-tester. En global sensitivitetsanalyse ble også utført for å vurdere den relative betydningen av input parametere i systemet modellen og den relative betydningen av variabler. Sammenlignet med LR-modeller, Ann modellene hadde en bedre nøyaktighet i 97,28% av tilfellene, en bedre H-L statistikken i 41,18% av tilfellene, og en bedre AUROC kurve i 84,67% av tilfellene. Surgeon volum var den mest innflytelsesrike (sensitive) parameter som påvirker i sykehus dødelighet fulgt av alder og lengde på oppholdet.

Konklusjon /Betydning

I sammenligning med konvensjonelle LR modell, ANN modellen i studien var mer nøyaktig forutsi i sykehus dødelighet og hadde høyere generelle ytelsen indeksene. Videre studier av denne modellen kan vurdere effekten av en mer detaljert database som inneholder komplikasjoner og kliniske undersøkelse funn samt mer detaljerte resultatdata

Citation. Shi HY, Lee KT, Lee HH, Ho WH, Sun DP, Wang JJ, et al. (2012) Sammenligning av kunstige nevrale nettverk og logistisk regresjon modeller for å forutsi i sykehus Dødeligheten etter primær leverkreft kirurgi. PLoS ONE 7 (4): e35781. doi: 10,1371 /journal.pone.0035781

Editor: William B. Coleman, University of North Carolina School of Medicine, USA

mottatt: 05.01.2012; Godkjent: 21 mars 2012; Publisert: 26 april 2012

Copyright: © 2012 Shi et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet delvis av National Science Council, Taiwan, Kina, etter tilskudds tall NSC 99-2320-B-037-026-MY2 og NSC 99-2314-B-037-069-My3. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet. Ingen ekstra ekstern finansiering mottatt for denne studien

Konkurrerende interesser:. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

leverkreft (HCC) er utbredt i regionene. av Asia, Middelhavet, og Sør-Afrika. I Taiwan, en hepatitt B-virus (HBV) og hepatitt C-virus (HCV) epidemi region, er HCC den ledende årsak til kreft dødsfall hos menn [1]. Forekomsten av HCC har også økt i både USA og Storbritannia de siste to tiårene [1] – [3]. Prognosen er vanligvis sturen, og de eneste kjente kurative behandling er kirurgisk, dvs. lever reseksjon eller levertransplantasjon. I tillegg er de prosentvise pasienter med passende indikasjoner for kirurgi er forholdsvis liten, [2]. I de senere år har undersøkelser av kirurgisk behandling for HCC og andre sykdommer forsøkt å utvikle modeller for å forutsi utfallet kirurgisk [4] – [6]. Imidlertid har utfallet prediksjonsmodeller med akseptabel nøyaktighet vært vanskelig å utvikle [7].

Kunstige nevrale nettverk (Anns) er komplekse og fleksible lineære systemer med egenskaper som ikke finnes i andre modellering systemer. Disse egenskapene inkluderer robust ytelse i arbeidet med støyende eller ufullstendige inngangsmønstre, høy feiltoleranse, og evnen til å generalisere fra inngangsdata [8], [9]. Selv om mange forskjellige ANN har blitt utviklet, er en vanlig funksjon en sammenhengende gruppe av noder i flere lag, hvor inngangsnoder og utgangsnoder har kliniske korrelater [10]. Skjulte noder, som kobles til inngangene og utgangene, tillate ikke-lineære interaksjoner mellom input variabler og ikke har virkelige verden korrelerer. Nodene er forbundet ved hjelp av koblinger, som hver har en tilknyttet vekt. Dette nettverket er «opplært» ved å utsettes for inngangene koblet sammen med kjente utganger, og læring skjer når vektene mellom noder er endret i henhold til feedback [8] – [10]. Regnekraften av et ANN er avledet fra den fordelte natur av forbindelser. Når en modell er trent, kan prediksjon utganger genereres fra nye poster [8] -. [10]

Tidligere sammenligninger av logistisk regresjon (LR) og Ann-modeller for å forutsi utfallet av HCC kirurgi har vist store mangler [ ,,,0],11], [12]. For det første, noen har brukt longitudinelle data for mer enn to år. For det andre har de data som brukes i de fleste studiene vært for HCC pasientpopulasjoner i USA eller i Organisasjonen for økonomisk samarbeid og utvikling (OECD) land, noe som kan vesentlig avviker fra dem i Taiwan. For det tredje, har ingen studier anses gruppeforskjeller i andre faktorer som alder, kjønn og ikke-kirurgisk behandling. Til slutt, siden de fleste publiserte artikler som sammenligner resultatene av ANN modeller og LR modeller for å forutsi HCC utfall bare brukes en enkelt datasett, det essensielle spørsmålet om intern validitet (reproduserbarhet) av modellene har ikke blitt behandlet.

Derfor hoved~~POS=TRUNC med denne studien var å validere bruk av ANN modeller for å forutsi i sykehus dødelighet i HCC kirurgi pasienter. Sekundært mål var å sammenligne utfallet prediksjon mellom Ann og LR-modeller.

Materialer og metoder

Etikk erklæringen

Denne studien analysert administrative krav data innhentet fra Taiwan Bureau of National Health Insurance (BNHI). Fordi BNHI er den eneste betaleren i Taiwan, BNHI datasettet var assumedly den mest omfattende og pålitelig datakilde for studien. Fagene i denne studien ble rekruttert ved å gjennomgå månedlige pasientutslippsdata utgitt av BNHI. Videre inneholder databasen et register av innleide medisinske fasiliteter, et register over bord-sertifisert leger og månedlige oppsummeringer for alle innleggelse krav. Fordi disse var samlet sekundærdata uten personlig identifikasjon, denne studien var fritatt for full gjennomgang av den interne vurdering bord. Studieprotokollen er i samsvar med etiske standarder i henhold til Helsinkideklarasjonen publisert i 1964. I tillegg til kravet om skriftlig eller muntlig pasientenes samtykke til disse dataene sammenhengen studien var fravikes.

Studiepopulasjon

studien utvalget omfattet alle pasienter med diagnosen ondartet svulst i leveren og intrahepatiske galleganger (ICD-9-CM koder 155.XX) i løpet av årene 1998-2009 (n = 148,018). Etter å utelukke andre enn de som hadde fått delvis hepatectomy (ICD-9-CM prosedyre kode 50.22) eller lever lobektomi (ICD-9-CM prosedyrekode 50,3) tilfeller forble 24,748 tilfeller. Pasienter med sekundær og uspesifisert ondartet svulst (ICD-9-CM koder 196.XX-199.XX), ondartet svulst i intrahepatiske galleganger (ICD-9-CM kode 155,1), eller ondartet svulst i leveren annet enn en primær eller sekundær svulst (ICD-9-CM kode 155,2) ble også ekskludert, som forlot en prøve av 22,926 kvalifiserte personer med primær lever malignitet som hadde fått hepatectomies i løpet av studieperioden.

Potensielle confoundere

de analyserte pasientkarakteristika og sykehus karakteristikker av studiepopulasjonen inkludert alder, kjønn, komorbiditet, sykehus volum, kirurg volum, lengde på oppholdet (LOS), og i sykehus overlevelse. Komorbiditet ble beregnet ved hjelp av Charlson komorbiditet indeksen (CCI) [13]. For hvert sykehus eller kirurg, ble HCC volum definert ved å beregne prosentandelen av HCC operasjoner i den totale operasjoner som utføres av de respektive sykehus eller kirurgen under studieperioden. Spesielt ble HCC volum for et sykehus eller kirurg kategorisert som lav, middels, høy og svært høy dersom antall HCC operasjoner utført ved sykehuset eller kirurgen under et gitt år i studieperioden omfattet $ \\ raster = «RG1» $ 25%, 26% -50%, 51% ~74%, og $ \\ raster = «RG2» $ 75%, henholdsvis av den totale kirurgiske prosedyrer utføres ved sykehuset eller kirurgen det året.

Utvikling av LR modell

Datasettet settet~~POS=HEADCOMP ble tilfeldig delt inn i en opplæring sett av 18,341 tilfeller (80% av den totale datasettet) og et testsett fra 4,585 tilfeller (20% av det samlede datasettet). Treningssettet ble brukt til å bygge LR modell. Alder, kjønn, CCI, sykehus volum, kirurg volum og LOS var de uavhengige variablene, og resultatet (død /overlevelse) var avhengig variabel. LR modellen ble deretter testet ved anvendelse av testdatasettet. Disse trinnene (randomisert fordeling av datasettet og regresjonsanalyse vurderer de samme variablene) ble gjentatt 1000 ganger for å oppnå 1.000 par av trening og testing datasett (80% og 20% ​​av det opprinnelige datasettet, henholdsvis), som ble lagret for videre behandling av nevrale nettverk

Utvikling av ANN modell

ANN brukt i denne studien var en standard mate-frem, tilbake-forplantning nevralt nettverk med tre lag:. et inngangslag, et skjult lag og et utgangslag. Den flerlags perceptron (MLP) nettverk er en voksende verktøy for å designe spesielle klasser av lagdelte fôr-forward nettverk [14]. Dens inngangslaget består av kildenoder, og dens utgang laget består av neuroner; disse to lagene koble nettverks til omverdenen. I tillegg til disse to lag, MLP har vanligvis ett eller flere lag av nerveceller referert til som skjulte neuroner fordi de ikke er direkte tilgjengelig. Den skjulte nevroner trekke viktige funksjoner som finnes i det innførte beløp.

En MLP er vanligvis trent av en back-forplantning (BP) algoritme med forover og bakover faser [14]. BP læringsalgoritme er lett implementeres, og dens lineære kompleksiteten i den synaptiske vektene i nettverket gjør det beregningsmessig effektiv. For optimal effektivitet læring, blir de nevroner som regel aktivert med både anti-symmetriske funksjoner (f.eks hyperbolsk tangens funksjon) og ikke-symmetriske funksjoner (f.eks logistisk funksjon). Den følgende kryssvalidering teknikk som brukes for å optimalisere den tid da et MLP nettverk trening «stopper». Først blir en estimering undergruppe av eksemplene som brukes for trening modell, og en validering undergruppe er brukt for å evaluere modell ytelse. Det neurale nettverk er optimalisert ved hjelp av et treningsdatasett. Et separat testdatasettet blir brukt til å stanse trening for å dempe over montering. Treningen syklusen gjentas inntil testen feilen ikke lenger synker [15], [16].

Statistisk analyse

analyseenhet i denne studien var det enkelte HCC kirurgisk pasient. Dataanalyse ble utført i flere trinn. For det første ble det kontinuerlige variabler testet for statistisk signifikans ved en-veis analyse av varians (ANOVA), og kategoriske variabler ble undersøkt ved Fisher eksakte analyse. Univariate analysene ble utført for å identifisere signifikante prediktorer (p 0,05). Dernest ble den diskriminerende effekt av modellene analysert ved hjelp av arealet under mottakeren opererer karakteristiske kurver (AUROCs). Her refererer diskriminerende effekt til evnen til en modell for å skille dem som døde av de som overlevde. En perfekt diskriminerende modell ville tildele en høyere sannsynlighet for død til pasienter som døde enn til pasienter som overlevde. For det tredje ble den relative kalibrering av modellene sammenlignet med Hosmer-Lemeshow (H-L) statistikk for å studere prediktiv nøyaktighet av modellene over hele spekteret av alvorlighetsgrad. H-L-statistikken er en enkel oppsummering mål på kalibrering, og er basert på en sammenligning av de observerte og beregnede dødelighet hos pasienter gruppert etter estimert dødelighet [17]. Jo lavere H-L-statistikken, desto bedre passform. Derfor bør en perfekt kalibrert modell har en H-L verdi på null. Til slutt ble sensitivitetsanalyse utført for å vurdere betydningen av variablene i de monterte modellene. For å forenkle opplæringsprosessen, ble viktige variabler innført, og unødvendige variabler ble ekskludert. En sensitivitetsanalyse ble også utført for å vurdere den relative betydningen av input parametere i systemet modellen og å rangere viktigheten av variablene. Den globale følsomhet av inngangsvariablene mot utgangsvariabelen ble uttrykt som forholdet mellom den nettverksfeil (summen av kvadratene av restene) med en gitt inngangs utelatt til den nettverksfeil med inngangs inkludert. Et forhold på 1 eller lavere angir at den variable svekker nettverksytelsen og bør fjernes

X

1, alder.; X

2, kjønn; X

3, Charlson komorbiditet indeksen; X

4, sykehus volum; X

5, kirurg volum; X

6, lengden på oppholdet; IB, inngang lag skjevhet; HB, skjulte laget bias.

For hver 1000 par av ANN modeller og LR modeller (trent og testet på samme datasett) disse indeksene (nøyaktighet rate, AUROC, og HL-statistikken) ble beregnet og sammenlignet ved hjelp av parvise t-tester

STATISTICA 10,0 (Statsoft, Tulsa, Oklahoma) programmet ble brukt til å konstruere Ann modeller og LR modeller av forholdet mellom de identifiserte prediktorer og utvalgte signifikante variabler (p 0,05)..

Resultater

Tabell 1 viser pasientkarakteristika og sykehus kjennetegn ved studien. Gjennomsnittsalderen for studiepopulasjonen var 58,6 år (standardavvik 12,7), og 73,7% av pasientene var menn. Den samlede sykehusdødeligheten var 97,3%. Gjennomsnittlig CCI i studiepopulasjonen var 3,6 (standardavvik 1,6). Tabell 2 viser koeffisientene for sykehus dødelighet oppnådd for treningssett i LR modell. In-sykehuset dødelighet hadde en signifikant negativ sammenheng med alder, mannlig kjønn, CCI og LOS (p 0,05), men en signifikant positiv sammenheng med sykehusvolum og kirurg volum (p 0,05).

ANN-baserte tilnærminger brukt tre-lags nettverk og de relative vekter av nerveceller til å forutsi i sykehus dødelighet. MLP-modellen inkludert 6 innganger (dvs. alder, kjønn, CCI, sykehus volum, kirurg volum, og LOS), en skjevhet nevron i input lag, 3 skjulte nevroner, en skjevhet nervecellen i det skjulte laget, og en utgang nevron ( Figur 1). Aktiverings funksjoner av logistikk sigmoid og hyperbolsk tangens brukes i hvert nevron av den skjulte lag og utgang lag, henholdsvis.

Tabell 3 viser at ANN betydelig bedre enn LR når det gjelder diskriminering, kalibrering og nøyaktighet (cutoff point 0,5). Sammenlignet med LR, ANN hadde en overlegen nøyaktighet rate i 97,28% av tilfellene, en overlegen HL statistikk i 41,18% av tilfellene, og en overlegen AUROC i 84,67% av tilfellene.

Treningen datasettet også brukes for å beregne de variable følsomhetsforhold (VSR) for ANN modell. Tabell 4 viser VSR verdier for utfallet variable (i sykehus dødelighet) i forhold til kjønn, alder, CCI, sykehus volum, kirurg volum og LOS. I ANN-modell, kirurg volum var den mest innflytelsesrike (sensitive) parameter som påvirker i sykehus dødelighet fulgt av alder og LOS. Alle VSR verdier overskrides en, som indikerte at nettverket gjorde det bedre når alle variabler ble vurdert.

tabell 5 sammenligner ANN modellen og LR modell i form av sensitivitet, spesifisitet, positiv prediktiv verdi (PPV) , negativ prediktiv verdi (NPV), nøyaktighet rate, og AUROC. Sammen utgjør disse verdiene bekreftet at ANN modellen hadde overlegen følsomhet (78,40% mot 62,64%), spesifisitet (94,57% mot 91,92%), PPV (84,22% mot 76,65%), NPV (96,91% mot 87,18%), nøyaktighet rate ( 95,93% mot 84,47%) og AUROC (0,82 versus 0,73).

Diskusjoner

sammenligningen av prediksjonsmodeller i denne studien viste at nøyaktighet i forutsi i sykehus dødelighet var betydelig høyere i ANN modellen enn i LR modellen (p 0,001). Så vidt vi vet, er denne studien den første til å bruke en landsomfattende befolkningsbasert database for å trene og teste et nettverk for å forutsi HCC kirurgi utfallet. Det neurale nettverksmodell ble sammenlignet med de faktiske resultater, og med en LR-modellen konstruert ved anvendelse av identiske innganger. Gitt et begrenset antall kliniske innganger og en bestemt endepunktet, den ANN modellen konsekvent gjorde det bedre enn LR modell.

Mens andre prediksjonsmodeller har brukt data for en enkelt medisinsk senter, ble prediksjon modellen i denne studien konstruert ved hjelp nasjonale registerdata fra Taiwan BNHI. Derfor gir det en bedre oversikt over gjeldende utfall av HCC kirurgi i en HBV og HCV-epidemien regionen. Sammenlignet med data innhentet av enkeltsenterseriestudier, data fra registerstudier gi en bedre oversikt over praksis i store befolkningsgrupper og samtidig unngå henvisning fordommer eller skjevhet reflekterende praksis i enkelte kirurger eller institusjoner [18], [19].

Fordi ANN benytte en dynamisk metode for å analysere dødelighet risiko, de kan endre sin indre struktur i forhold til en funksjonell objektiv med bottom-up beregningen (dvs. ved hjelp av data seg for å generere modell). Selv om de ikke kan forholde seg til manglende data kan ANN samtidig håndtere en rekke variabler ved å bygge modeller med referanse til uteliggere og lineære interaksjoner mellom variabler [8] – [10]. Mens konvensjonelle statistiske metoder avslører parametere som har betydning bare for den generelle befolkningen, ANN inkludere parametere som har betydning på individnivå, selv om de ikke er av betydning for den generelle befolkningen. I motsetning til andre standard statistiske tester, kan ANN også leder kompleksitet selv når prøvestørrelsen er liten, og selv når forholdet mellom variable og registre er ubalansert [8] – [10]. Det vil si, ANN unngå dimensjonalitet problem. Den store og homogene datasett i denne studien aktivert robust nettverk trening fordi alle kliniske variabler hadde vist potensielle effekter på dødelighet i tidligere LR modeller [7], [20].

Chen et al. viste at ANN kombinert med genetisk algoritme kan identifisere klinisk signifikante variabler og kan nøyaktig forutsi Tacrolimus blodkonsentrasjoner i levertransplanterte pasienter [21]. I en sammenligning av Ann og LR modeller for å forutsi skrumplever i kroniske hepatitt C-pasienter, Cazzaniga et al. viste også at ANN var litt mer nøyaktig og mer reproduserbar [20]. Nylig Cucchetti et al viste at ANN er mer nøyaktig enn konvensjonelle LR for å identifisere HCC svulst klasse og mikroskopisk vaskulær invasjon basert på preoperative variabler og er å foretrekke fremfor LR for å skreddersy klinisk ledelse [5].

ANN tilnærming utviklet i denne studien utvider den prediktive rekkevidden av LR-modellen ved å erstatte identiteten funksjoner med ikke-lineære aktiveringsfunksjoner. Tilnærmingen er tilsynelatende overlegen i forhold til lineær regresjon for å beskrive systemer. De ANN kan trenes med data ervervet i ulike kliniske sammenhenger og kan vurdere lokal ekspertise, raseforskjeller, og andre variabler med usikre effekter på klinisk utfall [8] – [10]. Analysen er ikke begrenset til kliniske parametere. Andre variabler kan bli testet for bruk i å forbedre den prediktive nøyaktigheten av modellen. Den foreslåtte ANN arkitektur kan også inkludere mer enn én avhengig variabel og kan utføre en ikke-lineær transformasjon mellom avhengige variabler. Fremtidige studier kan vurdere hvordan andre pasienten egenskaper eller kliniske karakteristika påvirker den foreslåtte arkitekturen.

Gjennom dette landsomfattende befolkningsbasert studie, den beste enkelt prediktor for sykehusdødeligheten var kirurg volum, noe som var i samsvar med resultatene av andre rapporter som høyvolum kirurger konsekvent oppnå overlegne resultater av hepatectomy for HCC [22], [23]. Derfor bør deres behandlingsstrategier bli nøye analysert og etterlignet. Hvis sykehusdødeligheten er ansett som en benchmark, kirurg volum, som er en viktig prediktor for postoperativ utfallet, er avgjørende. Åpenbart utfall av kirurgiske prosedyrer avhenger ikke bare av pasientbehandling, men også på dyktighet og erfaring av individuelle kirurger. I mellomtiden, høy-volum kirurger i høyvolum sykehus er mest sannsynlig å oppnå gode pasient utfall fordi de er assistert av dyktige og tverrfaglig omsorg lag [22], [23].

Denne undersøkelsen har flere begrensninger som er iboende i en hvilken som helst stor database analyse. For det første er det kliniske bildet oppnådd i denne analysen av kravene data ikke så presis som den for en potensiell analyse av kliniske data på grunn av mulige feil i kodingen av primære diagnoser og kirurgiske modaliteter. For det andre komplikasjoner forbundet med HCC kirurgiske prosedyrer ble ikke vurdert, som begrenser gyldigheten av sammenligningen. Til slutt ble bare LR og Ann modeller brukes til å forutsi i sykehus dødelighet etter HCC kirurgi. Databasen kan ikke brukes til å forutsi andre utfall som pasient-rapporterte livskvalitet. Men gitt den robuste omfanget av effektene og den statistiske betydningen av effektene som er observert i denne studien, disse begrensningene er usannsynlig å inngå kompromiss resultatene.

I konklusjonen, sammenlignet med den konvensjonelle LR modell, ANN modellen i denne studien var mer nøyaktig forutsi i sykehus dødelighet og hadde høyere generelle ytelsen indeksene. Den globale sensitivitetsanalyse viste også at kirurgen volum var den beste prediktor for i sykehus dødelighet etter HCC kirurgi. De prediktorer analysert i denne studien kan rettes av helsepersonell under preoperative og postoperative helse konsultasjoner med kandidater for HCC kirurgi for å utdanne dem i den forventede løpet av utvinning og helseutfall. Videre studier av denne modellen kan vurdere effekten av en mer detaljert database som inneholder komplikasjoner og kliniske undersøkelse funn samt mer detaljerte resultatdata. Forhåpentligvis vil modellen utvikle seg til en effektiv tilleggs kliniske beslutningsprosesser verktøy.

Legg att eit svar