PLoS ONE: En svært effektiv Gene Expression Programming (GEP) Modell for Hjelpe Diagnostisering av småcellet lungekreft

Abstract

Bakgrunn

Lungekreft er en viktig og vanlig kreft som utgjør et stort folkehelseproblem, men tidlig påvisning av småcellet lungekreft kan forbedre overlevelsen av kreftpasienter . En rekke serum biomarkører har vært anvendt ved diagnose av lungekreft; imidlertid, oppviser de lav sensitivitet og spesifisitet.

Måter

Vi brukte biokjemiske metoder for å måle blodnivåer av laktatdehydrogenase (LDH), C-reaktivt protein (CRP), Na

+ Cl

-, carcinomaoppfinnelse-embryonale antigen (CEA), og neuron spesifikk enolase (NSE) i 145 småcellet lungekreft (SCLC) pasienter og 155 ikke-småcellet lungekreft og 155 normale kontroller. En genuttrykk programmering (GEP) modell og Receiver Operating Characteristic (ROC) kurver innlemme disse biomarkører ble utviklet for hjelpe diagnostisering av SCLC.

Resultater

Etter passende modifisering av parametrene, GEP modellen ble i utgangspunktet satt opp basert på en trening sett av 115 SCLC pasienter og 125 friske kontrollpersoner for GEP modell generasjon. Da GEP ble brukt til de resterende 60 pasienter (testsettet) for modellvalidering. GEP vellykket diskriminert 281 av 300 tilfeller, viser en korrekt klassifisering sats for lungekreftpasienter på 93,75% (225/240) og 93,33% (56/60) for opplæring og testsett, henholdsvis. En annen GEP modell som omfatter fire biomarkører, inkludert CEA, NSE, LDH, og CRP, utstilt litt lavere følsomhet enn GEP-modellen, inkludert seks biomarkører. Vi gjentar modeller på kunstig nevralt nettverk (ANN), og resultatene viste at nøyaktigheten av GEP modellene var høyere enn i ANN. GEP modell som omfatter seks serum biomarkører som utføres av NSCLC pasienter og friske kontrollpersoner viste lav nøyaktighet enn SCLC pasienter og var nok til å bevise at GEP modellen er egnet for SCLC pasienter.

Konklusjon

Vi har utviklet en GEP modell med høy sensitivitet og spesifisitet for hjelpe diagnostisering av SCLC. Denne GEP modellen har potensial for den utstrakte bruken for påvisning av SCLC i mindre utviklede regioner

Citation. Yu Z, Lu H, Si H, Liu S, Li X, Gao C, et al. (2015) En svært effektiv Gene Expression Programming (GEP) Modell for Hjelpe Diagnostisering av småcellet lungekreft. PLoS ONE 10 (5): e0125517. doi: 10,1371 /journal.pone.0125517

Academic Redaktør: Lanjing Zhang, University Medical Center of Princeton /Rutgers Robert Wood Johnson Medical School, USA

mottatt: Mai 20, 2014; Godkjent: 24 mars 2015; Publisert: 21. mai 2015

Copyright: © 2015 Yu et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: All relevant data er i avisen og dens saksdokumenter filer

Finansiering:. Dette arbeidet ble støttet av Jieping Wu fundament: 320.6750.13210 og Jieping Wu fundament: 320.6753.1219. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Lungekreft er en viktig årsak til kreft dødsfall på verdensbasis, som representerer ca 12,7% (1,6 millioner tilfeller) av alle nye krefttilfeller hvert år, og 18,2% (1,4 millioner dødsfall) av alle kreftdødsfall [1]. Det har en dårlig prognose, med en 15% 5 års overlevelse, og mer enn 75% av pasientene som blir diagnostisert ved sene stadier av sykdommen [2,3]. Småcellet lungekreft (SCLC) er en av de store typer lungekreft, med den høyeste grad av malignitet. Nåværende terapi metoder, for eksempel cellegift, strålebehandling og kirurgi er svært begrenset for behandling av sent stadium SCLC. Selv enorm innsats og fremgang har blitt gjort i behandlingen av lungekreft, har de siste fremskritt i tidlig oppdagelse førte til små forbedringer i prognosen [4]. Derfor, er en effektiv screening-fremgangsmåte for tidlig diagnose av SCLC kritisk viktig for å øke effektiviteten klinisk diagnose og resultatet av denne sykdommen.

Mange forskjellige teknikker har blitt brukt i påvisning av lunge cancer, inkludert brystRøntgenBilde (x -ray), computertomografi (CT), magnetisk resonanstomografi (MRI), Sputum Cytologi, og bronkoskopi [5]. I de senere år har hel-legeme positron-emisjonstomografi (PET) fremkom for å forenkle og forbedre evaluering av pasienter med denne type tumor [6]. Imidlertid er disse teknikker er invasiv, dyre, og /eller tidkrevende. For eksempel kan bronkoskopi forårsake skade på bronchus og lunge. I tillegg er disse påvisningsmetoder er ikke tilstrekkelig sensitive og spesifikke nok i de fleste tilfeller [7,8] og feildiagnose av lat tumorer, på grunn av den lave spesifisiteten av disse metodene, kan føre til unødvendige kirurgiske behandlinger [9,10]. For å unngå overbehandling av sykdommen, har ikke-invasive blodprøver vært mye brukt i kliniske sammenhenger for screening av SCLC. Biomarkører er molekyler i blodet, andre kroppsvæsker eller vev som kan brukes til å evaluere de normale og unormale forhold til mennesker. Biomarkører kan utfylle eller erstatte radiologiske undersøkelser for screening av kreft eller rutinemessige kliniske besøk [11,12]. I lungekreft, har biomarkør evalueringene utført i serum, vev, spytt og [12]. Flere serum biomarkører, herunder carcinoembryonic antigen (CEA), den cytokeratin 19 fragment (Cyfra 21-1), vevet polypeptid-antigenet (TPA), squamous cell carcinoma antigen (SCC), kreft antigen 125 (CA-125), den kreftantigen 153 (CA-153), pro-gastrin-frigjørende peptid (ProGRP), den kreftantigen 199 (CA-199), tumor-assosiert glykoprotein 72-3 (TAG-72.3) og neuron-spesifikk enolase-( NSE), har vist nytten for diagnostisering av lungekreft [13] [14] [15]. Likevel, hver av dem har ikke klart å demonstrere den nødvendige sensitivitet og spesifisitet som et diagnostisk verktøy for å rettferdiggjøre klinisk utvikling [8]. Kombinasjonen av et antall av biomarkører kan forbedre den diagnostiske effektiviteten av kreft [16]. Imidlertid er den kombinerte bruk av tumor biomarkører ikke mye brukt, særlig i små sykehus og i mindre utviklede land, på grunn av de høye kostnadene for utstyr og reagenser. I denne studien har vi funnet en kombinasjon av økonomisk effektivitet og samsvarende serum som LDH, CRP, Na

+, Cl

-, som kan fås ved felles biokjemiske deteksjonsmetode og trenger ikke ublu agentias eller fasiliteter. I et landlig og fattig område ved hjelp av tilnærming, kan en grunnleggende serum test advare folk som har høyere risiko for lider av kreft og å gjøre en inngående helseundersøkelse som CT, PET-CT og så videre.

Derfor er ny teknologi sterkt behov for å finne sammenhengen informasjon mellom et stort sett av biomarkører og for tidlig deteksjon av lungekreft. I de senere år, med utvikling av vitenskap og teknologi, har dataassistert konstruksjon blir et hjelpeverktøy for diagnostisering av kreft hos mennesker. I dag har maskinlæringsmetoder, som for eksempel nevralt nettverk (Anns), beslutningstrær, naiv bayesiansk (NB) algoritme, og støtte vektor maskiner (SVM) blitt brukt i diagnose og prognose prediksjon av kreft [17]. For eksempel, har ANN av forskjellig EGFR microdeletion mutasjoner blitt brukt til å forbedre effektiviteten diagnose av ikke-småcellet lungekreft (NSCLC) [18]. ANN modell kombinert med seks tumor biomarkører, inkludert CEA, gastrin, NSE, sialinsyre (SA), Cu /Zn, og Ca, ble brukt for å kunne skille lungekreft fra benign lungesykdom, en normal kontroll, og gastrointestinal-kreft [19 ]. En tidligere studie har vist at NB teknikkene er nyttige for diagnose og til å generere behandlingsanbefalinger og forutsi 1-års-overlevelse i lungekreftpasienter [20]. Kombinasjonen av protein egenskaper og attributtvektings modeller med en støttevektormaskin (SVM) ble anvendt for å diskriminere SCLC og NSCLC [21]. Disse fremgangsmåter har ført til utviklingen av klassifiserere som er i stand til å diskriminere mellom kreft og ikke-cancerprøver. Den ANN, SVMer og NBs har vært mye brukt for klassifisering problemer [17] [20] [22]. De ANN har evnen til å oppfylle den statistiske som inneholder lineære, logistisk og ikke-lineær regresjon, men det er vanskelig for ANN for å forstå strukturen av algoritmen, på grunn av at ANN er en «black-box» teknologi, og dermed kan de neppe oppdage hvordan å operere klassifisering. Ellers sjenerøse attributter føre overfitting lett [17]. Kontrast til ANN, i SVM den overtilpassing neppe skje, men trening er treg når inputing stort antall data. NB er veldig lett å skjelne, men som ANN dreven attributter kan feilinformere klassifiseringen [17] [23]. Nylig har en ny evolusjonær algoritme kalt Gene Expression Programming (GEP), som er en automatisk programmering tilnærming først introdusert av Ferreira [24] ble studert for hjelpe diagnostisering av kreft. GEP har fordelene av fleksibilitet og kraft til å utforske hele søket plass, som kommer fra separasjon av genotype og fenotype, og har visualisering datamodell. Det er lett å implementere og påpeke hvorfor GEP ikke kan arbeide via parameter justering [24] [25] [26]. En spesiell studie har manifestert den overlegne verdien av GEP i å forutsi bivirkningene av radikal hysterektomi i livmorhalskreftpasienter med en nøyaktighet på 71,96% [27]. I vår grunnleggende forskning, ble klassifiseringen av lungesvulster gjort basert på biomarkører (målt i 120 NSCLC og 60 SCLC pasienter) ved å sette opp optimale biomarkør felles modeller med GEP algoritme [28]. Men det er lite relevante data om GEP brukt til lungekreft så langt.

I denne studien har vi utviklet en forutsigelse modell med GEP metode for å forbedre den diagnostiske effekten av SCLC. Et antall av biomarkører har tidligere blitt vist å være nyttig for diagnose av lungekreft. Vår GEP modell foreslått en ny multi-analyse av serum biomarkører for tidlig deteksjon av SCLC.

Materialer og metoder

Pasienter og kontroller

I alt 430 tilfeller, inkludert 145 SCLC pasienter, 130 ikke-småcellet lungekreft (NSCLC) pasienter og 155 ikke-kreft kontroller ble inkludert fra Affiliated Hospital of Qingdao universitet mellom juli 2006 og mai 2013. diagnosen 145 SCLC pasienter var basert på biopsi og histopatologi, og de ble vist seg å være ubehandlet primær lungekreft (figur 1), ble 130 NSCLC pasienter diagnostisert med primær tumor i stadium i, II før operasjonen. Histologisk diagnose av primær lungekreft ble etablert i henhold til revidert klassifisering av lungesvulster av Verdens helseorganisasjon og International Association for Lung Cancer Study [29].

A. hematoxylin-eosin farging av biopsi prøven skive. B. CD56 (+) funn i immunhistokjemisk metode. C. Syn (+) funn i immunhistokjemisk metode. D.TTF-1 (+) funn i immunhistokjemisk metode

SCLC gruppe inkluderte 94 mannlige og 51 kvinnelige pasienter, i alderen mellom 33 og 78 år gamle. Kontrollgruppen bestod av 155 ikke-krefttilfeller, som gjennomgikk undersøkelser som beviser deres helse (86 hanner og 69 hunner). NSCLC pasienter (69 menn og 61 kvinner) ble inkludert i den negative kontrollen for å vise forskjellen fra SCLC, vi valgte 130 tilfeller fra 155 ikke-krefttilfeller som sunn kontroll. Forskning godkjenning ble innhentet fra tilsvarende etisk komité og skriftlig informert samtykke ble innhentet fra alle deltakerne. Prøver og helseinformasjon ble merket ved hjelp av unike identifikatorer for å beskytte underlagt taushetsplikt (tabell 1 og 2).

Valg av seks serum biomarkører

Vi valgte seks biomarkører som er tett relatert til lungekreft, spesielt til SCLC, og som har blitt mye brukt i screening av SCLC. Indeksene vi valgte har blitt innlemmet i GEP modell. Basert på tidligere klinisk undersøkelse, serumnivåene av LDH og CRP i SCLC-pasienter er signifikant høyere enn hos friske kontroller, men serumnivået av natrium og klorid er betydelig lavere enn i normale kontroller. Serumnivået av LDH, som vanligvis forhøyet i neoplastiske lidelser, har blitt foreslått som en kraftig svulst markør i mange år. Derfor er disse markørene har vesentlig betydning i SCLC. For eksempel er lungekreftpasienter, spesielt SCLC pasienter, den syndrom av Upassende Anti Vanndrivende hormon (SIADH) anses å være den ledende årsaken til hyponatremi og hypokloremi og kan være forårsaket av komorbiditet som lungekreft. Også de store osmotiske virkestoff som i ekstracellulærvæsken rektor inneholder serum natrium og tilhørende anioner klorid [30] [31]. Det finnes også mange rapporter om sammenhengen mellom kronisk betennelse og kreft [32]. CRP er en ikke-spesifikk akutt fase inflammatorisk respons i serum markør fremstilt av hepatocytter under regulering av interleukin (IL) -6 [33]. CEA og NSE er de vanligste biomarkører som brukes i kreftscreening lunge i sykehus [34] [35].

Målinger av serum biomarkører

Blod (10 ml) ble samlet inn i serum separator rør, behandles umiddelbart, og separert ved sentrifugering ved 3000 rpm ved romtemperatur i 10 minutter. Det separerte serum ble deretter oppdelt i aliquoter og lagret ved -80 ° C for måling av de seks biomarkører som er nevnt ovenfor. CEA og NSE ble bestemt av elektro chemiluminescence immunoassay (ECLIA), ved hjelp av Roche E601 kjemisk luminescens immunitet analysator med hjelpe reagenssett (Dongying J M Chemical Co., Ltd., Kina). LDH, CRP, Na

+ og Cl

– ble målt ved polyakrylamidgelelektroforese (PAGE), immunoturbidimetry (ITM), og ioneselektive elektrode metoder, henholdsvis, ved hjelp av Hitachi 7600-020 automatisk biokjemiske analysator (Beijing Leadman biokjemiske Technology Company, Beijing, Kina). Resultatene ble presentert som middelverdier av dubletter etter subtraksjon av bakgrunnsverdier. Den normale kritiske verdier av LDH (99-245 u /l), CRP (0-3mg /l), Na

+ (136-146 mmol /l, Cl

– (96-108mmol /l), CEA (0 til 3,4 ng /ml), og NSE (0-17ng /ml) ble brukt som standard.

Gene uttrykk programmering (GEP) modeller

GEP er en evolusjonær algoritme introdusert av Ferreira i 2001 [25]. det kan emulere biologisk evolusjon basert på programmering. med forutsetning av å være, på noen måte, en naturlig utvikling av genetisk programmering (GP) bevarer noen egenskaper av genetiske algoritmer (GA) [36] [37 ]. Den GEP algoritmen arver fordelene av GA og GP, men overvinner sine ulemper. i motsetning til GP, blir kromosomene i GEP ikke representert som trær, men som lineære strenger av fast lengde, med funksjoner tatt fra GA. GEP vedtar en enkel lineær fast lengde måte å beskrive personer, det er derfor lett å bruke en ikke-lineær trestruktur for å løse kompliserte ikke-lineære problemer, og dermed oppnå hensikten med å bruke enkel koding for å løse komplekse problemer [38]. GEP bruker karakteristiske lineære kromosomer, som er sammensatt av genene strukturelt organisert i hodet og halen. Hodet kan inneholde funksjonelle elementer som {Q, +, -, ×, /} eller terminal elementer som «Q» er statistisk funksjon av kvadratroten. Størrelsen av halen (t) er beregnet som t = h (n-1) + 1, hvor n er det maksimale antall av parametere som er nødvendige i funksjons sette [39]. Når representasjon av hvert gen er gitt, blir det etablert genotype. Det blir deretter omdannet til fenotypen uttrykket treet (ET). Den kromosomer Funksjonen benyttes som et genom, og er modifisert ved hjelp av mutasjon, transponering, rot transponering, transgenet, gen rekombinasjon, og en- og to-punkts rekombinasjon. Den flytskjema over en algoritme genekspresjon (GEA) er vist i figur 2. [24].

Algoritmen begynner med tilfeldig opprettelse av kromosomene i den opprinnelige populasjon. Deretter kromosomene er uttrykt og egnethet av hver enkelt blir vurdert. Ifølge fitness, er reproduksjon med endring, enkeltpersoner blir deretter valgt og resultatene føre til nye egenskaper. I tillegg er de individer av denne nye generasjon underkastet den samme utviklingsprosess: ekspresjon av genomene, konfrontasjon av det merkede miljø, og gjengivelse med modifikasjon. Det blir gjentatt for et visst antall generasjoner før en tilfredsstillende løsning er blitt funnet. Det er viktig at enkeltpersoner er valgt og kopieres inn i neste generasjon i henhold til treningssenteret ved roulette hjulet prøvetaking med elitisme. Dette garanterer overlevelse og kloning av den beste individuelle til neste generasjon. Hver GEP genet inneholder en liste over symboler med en fast lengde som kan være et element fra en funksjon satt [36]: product: (1)

Den optimale trenings er: (2) (3) (4) TP, TN, FP, FN er antall sanne positive (TPS), sanne negative (TNS), falske positiver (FPS), og falske negative (FNS), henholdsvis.

teorien om ANN modeller

nevralt nettverk (ANN) som har evnen til klassifiseringen er en matematisk modell, som opprinnelig utviklet for å etterligne humant nervesystem. Flere neuroner sammenkoblinger til hverandre og anordnet i til et ledningsnett lag. ANN bruke komplisert lag (kalt skjulte lag) for å håndtere input og output, input der hver Nevron representerer en uavhengig variabel. ANN inneholde en rekke ulike arkitekturer, inkludert multi Perceptron (MLP) og Radial Basis Function (RBF) [17] [39]. MLP anvender rygg-forplantning læringsalgoritme og en ikke-lineær funksjon for å overføre summen. RBF nettverk aktiverer neuron i det skjulte lag gjennom radielle basis funksjon som har to parametere: midtpunkt av funksjonen og dens forspenning. I RBF nettverk, det skjulte laget aksepterer inndata via en unsupervised form [40].

Statistiske analyser

statistiske analysene ble utført ved hjelp av SPSS 16.0. Forskjeller mellom grupper ble beregnet ved hjelp av en parametrisk Wilcoxon test (Mann-Whitney U-test), uavhengige-Samples T Test og chi-kvadrat test.

P-verdiene 0

.

05

ble ansett for å være statistisk signifikant.

Detection evne sammenligning

Receiver Operating Characteristic (ROC) kurver ble brukt for å beskrive følsomhet av biomarkører, alene og kombinert, som ble fremstilt grafisk ved «R programmeringsprosjekt 2,15 til 1». Bruke ANN å sammenligne gjenkjenningsmuligheter, kan vi fastslå den optimale algoritmen.

Etikk uttalelse

Forskning godkjenning er innhentet fra etikkomiteen Qingdao University Medical College og skriftlig informert samtykke ble innhentet fra alle deltakere. Studien ble etterfulgt av Stard (Standarder for rapportering av diagnostisk nøyaktighet) sjekkliste for å forbedre nøyaktigheten og fullstendigheten av rapportering av studier av diagnostisk nøyaktighet [41].

Resultater

Demografiske og kliniske profiler , samt serumnivåene av seks biomarkører av SCLC pasienter og friske kontroll

de kliniske kjennetegn ved SCLC pasienter og friske kontrollpersoner ble oppsummert i tabell 1, NSCLC pasienter og kontroller var i Tabell 2. ingen signifikante forskjeller av alder og røyking historie ble observert mellom disse to gruppene. Å etablere en ny fler analyse av serum biomarkører for effektiv screening av SCLC, ble et sett med seks biomarkører valgt og deres serumkonsentrasjoner ble bestemt ved 145 lungekreftpasienter og 155 kontrollpersoner (S1 datasettet). SCLC pasienter viste signifikant høyere konsentrasjoner av serum LDH, CRP, CEA, og NSE enn normale kontroller (

p. 0

001

), mens konsentrasjonene av Na

+ og Cl

– var betydelig lavere enn i normale kontroller, (tabell 3) (

p & lt 0

001

.). Det er betydelige forskjeller i konsentrasjonene av LDH, Na, Cl og NSE mellom SCLC og NSCLC betyr at disse biomarkører er særlig egnet for SCLC (tabell 4). Den korrelasjonsanalyse avhengig Spearman rank korrelasjonsanalyse var å utelukke potensielle confounders, korrelasjonskoeffisienten som er nær «en» betyr repeterende i GEP-modeller, de seks biomarkører utføre sitt oppdrag godt og har betydelig rolle henholdsvis. (Tabell 5).

ROC kurver analyser for å representere sensitivitet /spesifisitet av hver biomarkør og deres kombinasjoner

ROC kurver for å oppdage sensitivitet /spesifisitet i hver biomarkør ble bestemt ved sammenligning med arealet under kurven, vi fant resultat i serum natrium og serum klorid var lavere enn noen andre biomarkører (figur 3), og deretter bygge modeller dele i to grupper for å bekrefte om Na

+ og Cl

– er meningsfulle i påvisning av lungekreft pasienter og kontroller. Modell 1 har forent alle de seks biomarkører og modell 2 har siamesiske fire biomarkører som fjerner serum natrium og serum klorid. Den slående forskjell på ytelsen i modell 1 og modell 2 ble fremstilt grafisk i figur 4, modell 1 med 6 biomarkører i ROC kurven har en betydelig fordel (fig 4).

Følsomheten opplært av seks biomarkører kombinasjonen gjorde det bedre enn fire biomarkører.

GEP modellering

GEP modell 1 som omfatter seks serum biomarkører.

En programvare som kalles «Automatisk problemløser 3,0» ble anvendt for å kjøre algoritmen. GEP modellering tilfeldig valgt fire av fem partisjoner som treningssett (240 pasienter) for modell generasjon, inkludert 115 SCLC pasienter og 125 friske kontrollpersoner. Deretter ble de GEP parametrene endres for å teste de resterende 60 fag for modellvalidering. Konsentrasjonen av seks biomarkører var innspill til GEP-modellen for å beregne følsomhet og spesifisitet for diskriminering av SCLC og normale kontroller. GEP modellen en brukt alle seks biomarkører som innganger og algoritmen var:

Hvis den beregnede verdien av «y» lik eller større enn avrunding terskel, så posten er klassifisert som «1», «0» noe annet. Variablene x

0, x

1, x

2, x

3, x

4, og x

5 representerte biomarkører LDH, CRP, Na

+ Cl

-., CEA, og NSE, henholdsvis

Pasientene led av lungekreft ble merket som klasse «1», mens de friske individer ble merket som klasse «0». Serumkonsentrasjon av LDH, CRP, Na

+, Cl

-, CEA, og NSE ble brukt som input i modellen 1. Den generelle oppsettet av eksperimentet ble oppsummert i tabell 6. Denne modellen med hell diskriminert 281 av 300 fag, som representerte en bestemmelse koeffisient på 93,75% (225/240) og 93,33% (56/60) for opplæring og testsett, henholdsvis (S1 datasett).

GEP modell 2 inkludert fire biomarkører .

Mens resultatene av modell 1 med 6 biomarkører var bra, vi ønsket å finne ut om antallet biomarkører kunne bli redusert til bare fire, noe som kan redusere kostnader og tid for SCLC screening. I modell 2, vi bare valgte markører som ble mye brukt i deteksjon av lungekreft, inkludert LDH, CRP, CEA, og NSE, med samme funksjon sett beskrevet ovenfor.

algoritme av GEP modell 2 var:

Hvis den beregnede verdi for «y» er lik eller større enn den avrunding terskel, så plata er klassifisert som «1», «0» ellers. I denne modellen, variabler x

0, x

1, x

2, og x

3 var biomarkører LDH, CRP, CEA, og NSE, henholdsvis.

Nøyaktigheten av GEP modell 2 var 91,66%, og følsomheten var 86,67% i testsettet, som var lavere enn den i modell 1 (tabell 7). Alle opplærings ble gjort i triplikat for å sikre at den beste arkitekturen ble valgt. Vi har gjort andre kombinasjoner for å sørge for at modellen en er optimalisert biomarkør panel som kjøpte den høyeste forventede verdi.

Utvikling av modell av nevralt nettverk

For å kunne sammenligne klassifisering makt mellom GEP og ANN, ble IBM SPSS statistikk 18,0 søkt å bygge ANN (MLP og RBF modeller) prediksjonsmodeller. Den MODEL1 og MODEL2 var så samme til GEP. SCLC pasienter og kontroller (0 eller 1) var innspill som en avhengig variabel som GEP modeller. Ved hjelp av modell 1, MLP angitt nøyaktighet på 85,4%, 80,0% og i RBF kjøpt en nøyaktighet på 80,0%, 78,3% for opplæring og testfase, henholdsvis. I tillegg, i modell 2 korrekt klassifisering hastighet for MLP representert identifisering av 83,3% og 83,3%, og for RBF ble for 84,2%, 83,3% mellom opplærings- og testtrinn, henholdsvis. Programvaren har blitt løp tre ganger og covariant var annerledes sørge for å velge den beste (tabell 8) (fig 5).

I forhold til ANN, beviser GEP algoritmen den øverste prediktiv rate som har betydelige styrker. ROC kurve og GEP modellen viste at modellen en er tilstrekkelig kombinasjon for å skille lungekreftpasienter fra høyrisiko mennesker.

GEP modell 1 som omfatter seks serum biomarkører utført av begrenset scenen og omfattende scenen.

Den optimale GEP modell 1 ble brukt til å gjøre en sammenligning mellom tidlig og sen SCLC (74 begrenset scenen og 71 omfattende scenen). Vi valgte 74 tilfeller fra de 155 ikke-krefttilfeller som sunn kontroll. For det første, for å utforske den tidlige SCLC, som den ovennevnte metode GEP-modellen valgt tilfeldig fire av fem skillevegger som et treningssett (118 pasienter) for modellgenereringen, blant annet for 59 tidlig SCLC-pasienter og 59 friske kontrollpersoner. Resterende 30 tilfeller (15 tidlig SCLC og 15 friske kontrollpersoner) var for modellvalidering. Det kan observeres at den tidlige SCLC ervervet nøyaktigheten av 92,37% (109/118) og 90% (27/30) for trening og testsett, henholdsvis. For det andre, for sent SCLC, 116 pasienter (57 sent SCLC og 59 normale kontroller) for modell generasjon og 29 saker for modellvalidering, representerte nøyaktigheten av 96,52% (112/116), 91,30% (27/29) for opplæring og testsett, henholdsvis. Resultatene viste at nøyaktigheten av sent SCLC i GEP modell 1 ble utført bedre enn tidlig SCLC og totalt 145 SCLC, men tidlig SCLC nøyaktighet var nær et resultat av 145 SCLC, var det likevel en god prestasjon (S3 datasettet) (S4 settet).

GEP modell 1 utført av NSCLC pasienter og normale kontroller.

For å bekrefte GEP modellen en test, NSCLC pasienter har blitt inkludert i den negative kontrollen med friske personer. Som metoden ovenfor, GEP tilfeldig valgt 208 personer (104 NSCLC pasienter og 104 friske kontrollpersoner) for modell generasjon, 52 fag (26 NSCLC pasienter og 26 friske kontrollpersoner) for modellvalidering hhv. Det indikerte henhold at nøyaktigheten av 87,5% (182/208), 86,5% (45/52) for opplæring og testsett,. I mellomtiden, resultatene var betydelig dårligere enn SCLC pasienter og var nok til å bevise at GEP modellen er egnet for SCLC pasienter (tabell 9) (S2 datasett).

Diskusjoner

SCLC utgjør ca 13-18% av alle lungekrefttilfellene, med varierte forekomsten hos forskjellige land [42]. Uten behandling, har den mest aggressive kliniske forløpet av alle lungekrefttyper, med overlevelse fra 2 til 4 måneder [43]. Diagnostisering av SCLC på et tidlig stadium er utfordrende, fordi det er vanligvis asymptomatisk til avanserte stadier, noe som fører til dårlig prognose [44]. Dette understreker betydningen av en pålitelig tidlig stadium diagnose metode for å forlenge liv [45].

Forskjellige metoder er blitt brukt for påvisning av SCLC, slik som thorax radiografi, sputum cytologi, og CT. Effekten av disse verktøyene har blitt evaluert i kliniske studier, og det viser seg at thorax radiografi og sputum cytologi har lav sensitivitet for tidlig stadium påvisning av SCLC [46,47]. Selv om CT bildebehandling har dukket opp som en effektiv teknikk for diagnose av mange menneskelige sykdommer, er det mest fremtredende begrensning av CT bildebehandling for påvisning av lungekreft den høye frekvensen av feilaktige godartet lunge knuter som lungekreft [48,49]. I tillegg er CT bildebehandling undersøkelse fortsatt kostbart for de fleste mennesker i utviklingsland og medisinsk forsikring byråer ville ikke godkjenne bruk av CT-skanner som et overvåkingsstrategi for lungekrefttilfellene.

Biologiske markører kan lett oppdages i biologiske væsker ved hjelp av minimalt invasive prosedyrer, som i betydelig grad kan øke deteksjonsraten av en rekke humane kreftformer. Mange tumormarkører, slik som ɑ-fetoprotein (AFP), prostataspesifikt antigen (PSA), og kreft antigen125 (CA 125), har vist seg å være svært følsom og effektiv for screening av lever, prostata, og eggstokk-kreft [50] . Hver biomarkør har lav diagnostisk grunn av begrenset sensitivitet og spesifisitet som er delvis på grunn av den heterogene av sykdommen [15,51]. Mange tumor markører brukes ikke alene for rutinemessig svulst screening på grunn av lave deteksjon priser og uakseptable falske positive diagnoser [52]. I denne studien noen konvensjonelle og økonomisk markører slik som LDH, CRP, Na

+, Cl

– og to andre tumor biomarkører (CEA, NSE) ble valgt basert på tidligere studier for å etablere den GEP modell for påvisning av SCLC. Disse biomarkører kan lett testes, selv i utviklingsområder, ved hjelp av to sensorer. For eksempel, LDH og CRP, to viktige betennelsesmarkører, blir rutinemessig testet i de fleste sykehus i Kina, enn si elektrolyttoppløsning Na

+, Cl

-.

En tidligere studie utført av Flores,

et al

. [44,53,15] inkluderte 63 lungekreftpasienter, 87 ikke-kreft kontroller. Den ANN modellen ble trent med et sett av biomarkører (Cyfra 21,1, CEA, CA125 og CRP) og oppnådde en korrekt klassifisering sats på 88,9%, 93,3% og 90% i trening, validering og testing faser, henholdsvis. Feng,

et al

. [19] oppnådd en forutsigelse hastighet på 87,3% for påvisning av lungekreft i en testfase ved hjelp av et ANN modell med de ovennevnte seks biomarkører og 19 flere parametere, slik som risikofaktorer symptomer, røyking, kjemisk eksponering, kjøkken miljø, etc. en annen studie nådd 90% spesifisitet for påvisning av lungekreft i treningssettet, basert på en tre-biomarkør panel bestående av makrofag migrasjon hemmende faktor (MIF), prolaktin (PRL) , og trombospondin (THSP) [12]. Ifølge karakteristisk for «black-box» i ANN, visste vi ikke hvordan en ANN lærer å utføre sin klassifisering, bare gi et endelig resultat fordi vi ikke klarer å skjelne hvorfor det ikke fungerte [17]. Likevel GEP utføre godt selv om det er store sofistikerte data og gir en visuell formel modell. I vår undersøkelse, ved hjelp av ROC-kurven for å detektere hver sensitivitet /spesifisitet, oppfattet vi at arealet under kurven av Na

+ og Cl

– er lavere enn andre, og de seks biomarkører fremkom det beste.

Legg att eit svar