Abstract
Bakgrunn
Mer enn to tredjedeler av kvinner som gjennomgår kirurgi for mistanke ovarian svulst har ikke kreft. Våre tidligere resultater tyder fosfolipider som potensielle biomarkører for eggstokkreft. I denne studien har vi målt serumnivåene av flere fosfolipider blant kvinner som gjennomgår kirurgi for mistanke om kreft i eggstokkene til å identifisere biomarkører som bedre forutsi om en eggstokkmasse er ondartet.
metodikk /hovedfunnene
oppnås serumprøver preoperativt fra kvinner med mistanke om kreft i eggstokkene registrert gjennom en prospektiv, populasjonsbasert rask konstatering system. Prøvene ble analysert fra alle kvinner i som en diagnose av ovarialcancer (EOC) ble bekreftet, og fra benigne sykdomstilfeller tilfeldig valgte fra de gjenværende (ikke-EOC) prøver. Vi målte biologisk relevant fosfolipider ved hjelp av væskekromatografi /elektrospray ionisering massespektrometri. Vi brukte et kraftig statistisk og maskinlæring tilnærming, Hybrid huberized støtte vektor maskin (HH-SVM) for å prioritere fosfolipider å angi biomarkør-modeller, og brukt kryssvalidering for å få konservative estimater av klassifiseringsfeilrater.
Resultater
HH-SVM modell ved hjelp av målinger av spesifikke kombinasjoner av fosfolipider supplerer klinisk CA125 måling og forbedrer diagnostisk nøyaktighet. Spesielt måling av fosfolipider forbedret sensitivitet (identifikasjon av tilfeller med preoperative CA125 nivåer under 35) blant to typer saker der CA125 ytelse er historisk dårlig – tidlig stadium saker og de av mucinous histologi. Måling av fosfolipider bedre identifisering av tidlig stadium saker fra 65% (basert på ca125) til 82%, og mucinkjertler saker fra 44% til 88%.
Konklusjoner /Betydning
Nivåer av spesifikke serum fosfolipider varierer mellom kvinner med eggstokkreft og de med godartede tilstander. Hvis validert av uavhengige studier i fremtiden, kan disse biomarkører tjene som en medhjelper ved klinisk presentasjon, for å skille mellom kvinner med eggstokkreft og de med godartede tilstander med felles symptomer og funksjoner
Citation. Shan L, Chen YA, Davis L, Han G, Zhu W, Molina AD, et al. (2012) Måling av Fosfolipider kan forbedre diagnostisk nøyaktighet i eggstokkreft. PLoS ONE 7 (10): e46846. doi: 10,1371 /journal.pone.0046846
Redaktør: Anthony WI. Lo, det kinesiske universitetet i Hong Kong, Hong Kong
mottatt: 26 oktober 2011; Godkjent: 10 september 2012; Publisert: 17 oktober 2012
Copyright: © Shan et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Denne studien ble finansiert av American Cancer Society (CRTG-00-196), National Cancer Institute (R01-CA106414), Department of Defense DAMD17-98-1-8659 og Celma Mastry Ovarian Cancer Foundation. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:. Forfatterne har lest journalen politikk og har følgende konflikter: 1) Forfattere og tilknyttede institusjoner holder patenter på fosfolipider analysert for denne publikasjonen og 2) en eller flere forfattere er ansatt av et kommersielt selskap. Følgende patenter ble innlevert som et resultat av forskning utført: metode for påvisning av kreft ved hjelp LPA som en markør, Serial # 61/189495, File Dato 08/20/08. Licensed 01/09; Metode for påvisning av kreft ved hjelp Plasmalogens som markører, Serial # 61/199565, File Dato 11/18/08. Licensed 01/09; Metode for å påvise eller overvåke Cancer Bruke LPC som en markør (LPC 14:00), PCT /US2008 /012483, File Dato 11/05/08. Licensed 01/09; Lysofosfatidylcholin som en biomarkør for eggstokkreft, Patent # US6248553 B1, Filing Dato 5/13/05. På den tiden denne forskningen ble utført, og manuskriptet ble skrevet to medforfattere, Lain Shan og Lorelei Davis, ble ansatt av et kommersielt selskap ved navn Frantz biomarkers, LLC. Frantz Biomarkører, er LLC ikke lenger et opererer kommersielt selskap. Dette endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.
Innledning
data tyder på at blant kvinner med nylig diagnostisert kreft i eggstokkene, de som første operasjonen er utført ved en gynekologisk onkolog har lavere morbiditet og dødelighet og øket total overlevelse [1], [2]. Men til dags dato i USA, første operasjonen for mistanke om eggstokkreft er ofte utført uten henvisning til slike spesialister [1]. Dette er delvis fordi det er ingen nøyaktig måte å vite i forkant av operasjonen om et bekken massen mistenkt for å være eggstokkreft er faktisk kreft. Som et resultat, har mer enn to tredjedeler av kvinner som gjennomgår kirurgi for mistanke ovarian svulst ikke har kreft [3] – [5]. Siden det er anslått at 5-10% av amerikanske kvinner vil gjennomgå et kirurgisk inngrep for mistanke ovarian svulst i løpet av livet, er dette et problem med betydelig innvirkning på folkehelsen [6].
Det er i dag vanskelig å riktig triage kvinner med bekken masse til Gynekologisk Onkologi basert på en sterk mistanke for eggstokkreft, siden det er begrensede verktøy for å utføre en slik vurdering. En ny blodprøve, OVA1, nylig fått FDA-godkjenning som et supplement i presurgical evaluering av adnexal massene [7]. Den eneste godt validert eggstokkreft biomarkør i klinisk bruk, serum CA125, er forhøyet i bare omtrent halvparten av tidlig stadium ovarialcancer (EOC) og er ikke forhøyet i ca 20% av alle scene EOC, som gjør det tilstrekkelig følsom [8] [9] sikret hyppigst rapporterte CA125 referanseverdi som angir en klinisk positiv screeningtest er 35 enheter /ml selv om CA125 er også forhøyet i mange godartede gynekologiske sykdommer, inkludert mange forhold knyttet til bekken massene. En av de første screeningstudier som kombinerer CA125 og ultralyd har vist at ved anvendelse av serum CA125 som den første linjen testen og bekken ultralyd som en sekundær test har høy spesifisitet (99,9%) og positiv prediktiv verdi (26,8%) for å detektere eggstokkreft [10 ]. I en retrospektiv analyse av høy-risiko kvinner, bruk av gjentatte målinger av CA125 verdier innlemmet i langsgående statistiske modeller viste en forbedret følsomhet fra 70% til 86% under opprettholdelse av spesifisitet på 98% [11]. En fersk stor prospektiv studie (UK Collaborative Trial of Ovarian Screening [UKCTOC]), vurdere multimodalitet screening (årlig CA125 screening tolket ved hjelp av en algoritme for risiko for eggstokkreft sammen med transvaginal ultralyd som et andrelinjetest) antyder at multimodalitet har betydelig høyere spesifisitet (99,8%) enn ved bruk av ultralyd alene (98,2%) for å detektere primære ovarier og tubene cancer, selv om ingen statistisk signifikant forskjell i følsomhet ble funnet [12]. I Prostate, Lung, Colorectal og eggstokkreft Screening rettssaken, en randomisert studie, resultater gjennom fire runder med eggstokkreft screening viste at de fleste skjerm oppdaget tilfeller var sent stadium [13], som støtter behovet for ytterligere metoder og strategier for å oppnå tidlig deteksjon. Dermed vil et verktøy eller biomarkør som tillater nøyaktig klassifisering av pasienter i høy og lav risikogruppene for eggstokkreft malignitet bedre evne til riktig triage pasienter til gynekologisk onkologi. I tillegg, i enkelte tilfeller av bekkenmasse hvor klinisk mistanke om malignitet er ikke høy, er det mulig at biomarkør evaluering kan legge til rette for vaktsom venter og resultere i færre og /eller mindre presserende operasjoner.
Vi har tidligere analysert sirkulerer fosfolipider, inkludert lysofosfatidisk syre (LPA), lysofosfatidylcholin (LPC) og beslektede arter, for deres potensial til å skille mellom kvinner med EOC og friske kontroller, med lovende resultater [14]. I andre nyere arbeider, identifiserte vi plasmalogens som en annen gruppe av sirkulerende stoffer med potensial som eggstokkreft biomarkører [15]. I denne studien, forsøkte vi å utvide vår tidligere arbeid mot validering av disse lovende biomarkører for klinisk bruk i diagnose av eggstokkreft. Vi målte serumnivåene av flere lipid arter, inkludert bestemte arter av LPA, LPC og plasmenylphosphoethanolamine (PPE) for å vurdere deres prestasjoner i å skille mellom EOC og godartet sykdom sammenlignet med, eller i kombinasjon med, klinisk måling av CA125 i preoperative prøver innhentet prospektivt fra kvinner som opplever mistanke om kreft i eggstokkene
Noen av de generelle beregnings utfordringene for biomarkør studier omfatter følgende:. identifisere kraftige statistiske metoder, velge prediktive markører fra en (stor) panel av potensielle kandidater, vurdere felles virkninger av multiple markører, og en unngår modell overtilpassing på grunn av kompleksiteten av ikke-lineære beregningsmodeller. Support vektor maskin (SVM) har vist seg å ha overlegen ytelse i forhold til klassifisering nøyaktighet og har blitt identifisert som en av de mektigste statistiske og maskinlæringsmetoder for å analysere høy-dimensjonale data, for eksempel som stammer fra genekspresjon og biomarkør studier [16], [17]. I vår studie har vi ansatt SVM. Å prioritere de markører som kommer inn i modellen, må vi først brukt Hybrid huberized støttevektormaskiner (HH-SVM), som automatisk velger variabler og beregne deres betydning med effektiv beregnings kostnader [18]. For å unngå modellen overtilpassing, bruker vi en felles resampling teknikk, fem ganger kryssvalidering, for å få mer objektive feil priser [19]. I korthet vi først montert på modellen ved hjelp av 4/5 av dataene under testing av resultatene på den gjenværende 1/5 av dataene, og dette trinn ble gjentatt 5 ganger slik at hver 1/5 av dataene ble validert en gang i løpet av modellen utvikling. Vi har utviklet to typer modeller i denne studien, ett-trinns modeller og to-trinns modeller. Å utvikle vår ett-trinns modeller, CA125 ble inkludert sammen med de andre målte biomarkører som kontinuerlige variabler uten forhåndsspesifisert skjæringspunkt. For å utvikle to-trinns-modeller, først benyttet vi den hyppigst rapporterte kliniske referanseverdi på 35 enheter /ml for CA125 som angir en positiv screeningtest, og deretter anvendes vårt algoritmen for de andre målte biomarkører for å spørre hvorvidt en ytterligere test tilsatt til denne referanseverdi CA125 kan forbedre diagnostisk nøyaktighet for å klassifisere, blant kvinner med en klinisk presentasjon av mistanke om kreft i eggstokkene, mellom «case» (prøver fra kvinner i hvem kirurgi bekreftet EOC) og «benigns» (prøver fra kvinner i hvem kirurgi bekreftet nei eggstokkreft). Flere detaljer for modellutvikling er gitt i den statistiske delen.
Materialer og metoder
Fag
Studiet Protokollen ble gjennomgått og godkjent av Institutional Review Board ved Universitetet of South Florida og alle deltakerne gitt skriftlig informert samtykke. Pasientene i den aktuelle studien ble inkludert gjennom en pågående prospektiv populasjonsbasert undersøkelse av eggstokkreft i Tampa, Florida Metropolitan Area (befolkning ca 2 millioner). Gjennom studiet raske konstatering system, ble totalt 1057 kvinner med mistanke om kreft i eggstokkene registrert preoperativt mellom januar 2005 og mars 2009, sto for anslagsvis 75% av alle kvalifiserte tilfeller i det definerte geografiske området. Kvinner med en tidligere unilateral eller bilateral ooforektomi var ikke kvalifisert, som var kvinner med en tidligere historie av kreft (med unntak av ikke-melanom hudkreft). Alle pasientene gjennomgikk preoperativ radiologisk bildebehandling, enten ved bekken ultralyd, CT og /eller MR. Kun pasienter som gjennomgikk kirurgi basert på klinisk mistanke om kreft i eggstokkene var kvalifisert, og hvis en pasient ble diagnostisert med EOC, ble kirurgisk stadieinndeling dokumentert (inkludert 233 i hvem EOC ble bekreftet – definert som primær eggstokk, primær eggleder eller primær peritoneal kreft). De gunstige Prøvene ble tilfeldig valgt ut fra de gjenværende (ikke-EOC) prøver; godartede sykdommer inkluderer endometriose, eggstokk cyste, og eggstokkreft fibroma. Preoperativ serum CA125 kliniske målinger ble hentet fra pasientjournaler. Patologi var sentralt vurdert av en sakkyndig eggstokkreft patologen (søknader nr). Alle histologiske evaluering ble utført blindet for laboratorieverdier av biomarkør analyser og alle laboratorietesting ble utført blindet for histologisk utfallet (godartet versus EOC). Prøver fra noen av fagene i denne studien ble uavhengig genotypede i et genom-wide forening studie for å identifisere mottakelighet loci forbundet med kreftrisiko eggstokkreft [20] og /eller testet for mutasjoner i kjente eggstokkreft resistensgener [21].
Serumprøver prøver~~POS=HEADCOMP
Blodprøver prøver~~POS=HEADCOMP for studie biomarkør målinger ble oppnådd ved rutinemessig venepunksjon før operasjonen. Prøvene ble tillatt å levre seg og opprettholdt ved romtemperatur under transport. Prøvene ble sentrifugert og serum aliquotted inn cryotubes, frosset til -80 ° C innen fire timer etter prøvetaking og holdt frosset inntil laboratorieanalyse.
lipidekstrahering
lipider ble hentet ved hjelp av en modifisert Bligh -Dyer metoden [22], som følger fremgangsmåten nedenfor: En blanding ble fremstilt som består av 1000 pmol DHPE (1,2-Diheptadecanoyl-
sn
-Glycero-3-phosphoethanolamine), 200 pmol [
13C
16] 16:00 LPA (tung isotop karbon-13-merket 1-palmitoyl-2-hydroksy-sn-glycerol-3-fosfatidinsyre), og [
13C
3] 14:00 LPC (tung isotop karbon-13-merket 1-myristoyl-2-hydroksy-sn-glycerol-3-fosfokolin (N, N, N-
13C-trimetyl)), som ble tilsatt til 200 ul pasientserum, som samles beskrevet ovenfor. Disse lagt lipider fungert som interne standarder for kvantifisering av LPA, PPE, og LPC, henholdsvis. Blandingen ble vortex-blandet, og 2 ml 2:01 (v:v) metanol-kloroform ble tilsatt. Den nye blanding ble vortex-blandet på nytt, og holdt ved romtemperatur i 10 min. og deretter ble sentrifugert ved 3000 g ved 10 ° C i 10 min. Etter sentrifugering, ble to lag sees i denne blandingen. Det øverste laget er en blanding av vann, metanol og kloroform, mens bunnlaget er et proteinholdig pellet. Det øverste væskelaget ble overført til et annet rør og tørket under nitrogen. Den tørkede pellet ble rekonstituert i 200 ul 0,1 M ammoniumacetat ble oppløst i metanol og overført til en injeksjons sette inn inne i et hetteglass.
kromatografi og massespektrometri
Væskekromatografi elektro tandem massespektrometri (LC /ESI /MS /MS) analyser av LPA, PPE, og LPC ble utført ved anvendelse av et Quattro Micro massespektrometer (Waters, Milford, MA, USA) utstyrt med en elektrospray-ionisering (ESI) probe og tilkobles med en Shimadzu SCL-10Avp HPLC system (Shimadzu, Tokyo, Japan).
for LPA og PPE kvantifisering, lipidene ble separert med en Luna 5μ C18 (2) kolonne (50 x 2,0 mm, 5 um partikkelstørrelse, Phenomenex, Torrance, CA, USA). 1 mM ammoniumacetat vandig løsning ble anvendt som mobil fase A, mens 1 mM ammoniumacetat ble oppløst i metanol ble anvendt som mobil fase B. Den totale driftstid var 15 minutter, og strømningshastigheten var 200 mL /min. Gradienten ble brukt var som følger: Kolonnen ble først ekvilibrert med 20% B (80% A), etterfulgt av en lineær endring fra 20% B (80% A) til 100% B (0% A) i den første 3 min . Gradienten ble holdt ved 100% B (0% A) i det følgende 8 min. I den gjenværende fire minutter ble gradienten endret tilbake til 70% B (30% A) til å re-ekvilibrere kolonnen. For å redusere forurensningen av massespektrometer ble elueringsmidler mellom 0-2,5 min og 13-15 min rettet inn i avfallet. 20 pl prøve ble injisert i en 50 ul injeksjonssløyfe. Massespektrometriske analyser ble utført på nettet ved bruk av elektrospray ionisering av tandem massespektrometri i den negative modus multiple reaksjon overvåking (MRM). MS parametere er: kapillær spenning, 3,0 KV; kjegle spenning, 50 V; kilde temperatur, 100 ° C; desolvation temperatur, 350 ° C; strømningshastigheten for gass desolvation, 500 l /t; strømningshastigheten for gass kjegle, 50 l /t; masse oppløsning på både foreldre og datter ioner, 15,0; multiplikator, 650.
For LPC kvantifisering, ble lipidene separert med en Hypersil GOLD DASH HTS kolonne (20 x 2,1 mm, 5 um av partikkelstørrelse, Thermo Electron, Waltham, MA). 0,3% maursyre i vann ble anvendt som mobil fase A, mens 0,3% maursyre i metanol ble anvendt som mobil fase B. Den totale driftstid var 14 min, og strømningshastigheten var 200 mL /min. Gradienten ble brukt var som følger: Kolonnen ble først ekvilibrert med 20% B (80% A), etterfulgt av en lineær endring fra 20% B (80% A) til 100% B (0% A) i den første 3 min . Gradienten ble holdt ved 100% B (0% A) i det følgende 7 min. I den gjenværende fire minutter ble gradienten endret tilbake til 20% B (80% A) til å re-ekvilibrere kolonnen. For å redusere forurensningen av massespektrometer ble elueringsmidler mellom 0-2,5 min og 11-14 min rettet inn i avfallet. 40 pl prøve ble injisert i en 20 ul injeksjonssløyfe. Massespektrometriske analyser ble utført på nettet ved bruk av elektrospray ionisering av tandem massespektrometri ved den positive måte multiple reaksjons overvåking (MRM). MS parametere er: kapillær spenning, 4,0 KV; kjegle spenning, 40 V; kilde temperatur, 100 ° C; desolvation temperatur, 350 ° C; strømningshastigheten for gass desolvation, 500 l /t; strømningshastigheten for gass kjegle, 50 l /t; masse oppløsning på både foreldre og datter ioner, 15,0; multiplikator, 650.
Laboratorie kvalitetskontroll tiltak
Fordi batch effekter er et potensielt problem i biomarkører innsats, har vi ansatt flere strategier for å overvåke og står for denne bekymringen, herunder interne standarder, kvalitet kontrollprøver og kalibratorer. De interne standarder er beskrevet ovenfor (under «Lipid Extraction»). Kvalitetskontroll (QC) prøver besto av flere identiske 300 ul aliquoter av sammenslått humant serum. En QC prøve ble kjørt før hver 10 kliniske prøver. Kalibratorer besto av varierende konsentrasjoner av renset lipid standarder tilsatt i 4% humant serumalbumin i DPBS-buffer. Ni forskjellige konsentrasjoner av kalibratorer ble gjort fra stamløsning og kjøre før hver 100 prøver.
Data Pre-prosessering og Normalisering
Data innhentet fra tre kvalitetskontroll strategier som er beskrevet ovenfor ble brukt til å adresse run-bruk-variasjon, og gir grunnlag for omdannelse av kromatografi topparealet til absolutte konsentrasjon for hver analytt. Arealene under kromatografi toppene 8 ppes, 6 LPAs, 5 LPC og deres tilsvarende interne standarder (merket med tunge isotoper) ble erholdt. Arealene under toppene av de interne standarder ble brukt for å estimere toppen forholdet mellom analytten og de interne standarder. Oppførselen til hvert analytt i topp generasjon sammenlignet med den tilsvarende interne standard var like, med unntak av SPC og PAF-C16; disse analyttene ble ekskludert fra analysene. Dermed ble til sammen 17 lipider og CA125 inkludert i analysene.
La
R
betegne peak forholdet mellom arealet under kromatografisk topp for analytten over interne standarder, og
C
betegne konsentrasjonen. Gitt den observerte lineært forhold mellom den kvantifiserte topp-forholdet og kjent konsentrasjon i hver kalibrator datasett, ble en enkel lineær regresjon utføres for å estimere den regresjonen hellingen for hver gruppe, ble som deretter anvendt for konsentrasjon konvertering for de kliniske prøvene fra toppen forholdet som. Vi brukte QC prøven løp mellom hver 10 kliniske prøver for å undersøke variasjonen av enhver potensiell batch effekt. Den estimerte QC-konsentrasjonen ble også brukt for å beregne batch-justerte konsentrasjoner for hver analytt, slik at konsentrasjonene var sammenlignbare grader grupper for hver av de LPAs og ppes. Dersom den justerte konsentrasjonen var lavere enn null, så null ble anvendt for den beregnede konsentrasjon. For LPC, var det ingen observerbar indikasjon på batch-effekter. Derfor ble ingen batch justering utføres.
Utvikling av statistiske modeller
Vi ansatt en kraftig statistisk og maskinlæring tilnærming, SVM [16], [17], for å klassifisere de 211 prøver av pasienter diagnostisert med EOC (tilfeller) og 212 godartede prøver (benigns) inkludert i analysen. Selv om SVM viser en overlegen klassifisering ytelse til mange andre statistiske og maskinlæringsmetoder, deler det også noen felles utfordringer med andre metoder, nemlig varierende utvalg (biomarkør utvalg) og fare for å generere optimistiske feil priser takket være modellovertilpassing. Vi brukte HH-SVM [18] for å først prioritere markører for å gå inn i modellen for klassifisering mellom benigns og saker. HH-SVM kombinerer huberized hengsel tapsfunksjonen og elastisk-net straff for å utføre klassifisering og varierende utvalg. Vi brukte tidligere utgitt
R
kode [18] for å generere vekt tomter å prioritere markører basert på deres betydning i klassifiseringen. Fordi serum CA125 er en vanlig biomarkør brukt i klinisk praksis, bygde vi modellene ved å inkludere CA125 og legge kandidat markør lipider én etter én, basert på vektene anslått av HH-SVM. Hver av de SVMer ble montert ved hjelp av Matlab funksjon
svmclassify Hotell og parametrene ble estimert. Vi brukte
K
fold kryssvalidering (CV) for å unngå modell overfitting [19], der
K
= 5 i vår studie. De gener feil estimert ved hjelp fem-fold kryssvalidering er mer objektiv [19] enn feilrater beregnet uten kryssvalidering. Dataene ble delt inn i
K
(= 5) omtrent lik størrelse deler. For
k
th (dvs. 5
th) del, det er omtrent en like stor del av EOC saken og godartede prøver (halvt om halvt) og modellen ble montert til den andre
K
-1 (= 4) deler av dataene. Prediksjon feil av modellen ble deretter beregnet for
k
th del. Prosedyren ble utført for
k
= 1, 2, …, er fem, og deretter kryssvalidering estimat av prediksjonsfeil (CV feil) ble beregnet aswhere den delen som inneholder observasjon
i
, og er utstyrt verdi for observasjon
i
, beregnet med
th del av dataene fjernet.
Vi har utviklet to typer modeller, ett-trinns modeller og to- trinn modeller. For ett-trinns modeller, fikk vi ikke bruke en bestemt skjæringspunkt for CA125 verdier selv om CA125 verdiene ble inkludert i SVM modeller. For to-trinns modeller, utviklet vi våre algoritmer for de høye og lave risikogrupper ved først å bruke ca125 skjæringspunkt på 35 enheter /ml, siden dette er den hyppigst rapporterte referanseverdi brukes klinisk til å utpeke en positiv test, og har også blitt brukt i screening tester for å definere en unormal testresultat, blant annet i prostata, lunge, Colorectal, Ovarian Cancer screening Trial [13] .Derfor, brukte vi den enkle skjæringspunkt på 35 enheter /ml som første skritt i å bygge den to- trinn modeller. Merk at alle pasientene i studien gjennomgikk diagnostisk radiologisk avbildning, ikke screening, og bildeinformasjon er ikke innarbeidet i modellutviklingen.
For ett-trinns modeller, for et gitt sett av markører, modellen er utviklet på samme måte for alle prøver, uansett den preoperative CA125 nivå. Vi begynte modellutvikling med ca125 alene. Kandidat fosfolipider ble rangert etter vektene generert ved hjelp av HH-SVM som beskrevet ovenfor, og deretter lagt inn i modellene en etter en under modellutvikling. Ved hjelp av kryssvalidering er mer konservativ i forhold til de modeller som er utviklet uten kryss-validering. For bevis på prinsippet, utviklet vi begge modellene med og uten kryssvalidering, illustrerer at modellene med kryssvalidering avkastning mer objektive feil priser.
For de to-trinns modeller, prøvene ble først klassifisert i høy -CA125 (CA125≥35 enheter /ml) og lav-CA125 (CA125 35 enheter /ml) grupper. I det andre trinnet, har vi utviklet forskjellige modeller for hver av de to grupper, de høy- og lav-CA125 gruppene, respektivt. Spesielt utviklet vi to-trinns modeller basert på den hyppigst rapporterte skjæringspunkt av CA125 35 enheter /ml som første skritt; vi da spørres om en ny test lagt til denne referanseverdien av CA125 kan forbedre diagnostisk nøyaktighet for å klassifisere «case» (prøver fra kvinner med EOC) og «benigns» (prøver fra kvinner uten kreft).
Resultater
den aktuelle studien inkluderte prøver fra alle deltakere i hvem en diagnose av EOC ble bekreftet (N = 233) og et tilsvarende antall tilfeldig utvalgte prøver fra kvinner fra samme kohort diagnostisert med benign sykdom. To saker ble ekskludert på grunn av utilgjengelighet av data på preoperative CA125 nivå. Innledende analyse (ved hjelp av boksplott og histogrammer, data ikke vist) antydet at nivåene av de målte biomarkører potensielt kan variere mellom ulike rasegrupper, og bare en liten del av prøvene fra ikke-kaukasiske fag. Derfor begrenset vi analysen til kaukasiske fag. Dette resulterte i totalt 211 EOC prøver og 212 godartede prøver inkludert i analysene. Blant de 211 EOC tilfeller gjennomsnittsalderen (± standardavvik) var 62 (± 12) år gammel, med 31 premenopausale og 180 postmenopausale. Blant de 212 benigns, gjennomsnittsalderen (± standardavvik) var 57 (± 14), blant dem 65 var premenopausale og 147 postmenopausale. Nærmere opplysninger om egenskaper ved EOC tilfeller er gitt i tabell 1.
CA125 resultater
I alt 211 tilfeller og 212 benigns ble inkludert i analysen. Bruke bare ca125 konsentrasjon med skjæringspunkt på 35 enheter /ml for å klassifisere prøvene i tilfeller (CA125≥35 enheter /ml) og benigns (ca125 35 enheter /ml), er feilraten 29,79% (126/423). Følsomheten er 84,36% (178/211) og spesifisiteten er 56,13% (119/212). Den falske positive rate (godartet prøver klassifisert som tilfeller) er ganske høy, som er vanlig i klinisk praksis.
En-trinns modell Resultater
Vi begynte modellutvikling med ca125 alene, den eneste brukte klinisk biomarkør for kreft i eggstokkene. Andre markører ble lagt inn i modellene én etter én basert på vektene beregnes ved hjelp av HH-SVM (tabell 2).
Som beskrevet i metodene, ett sett av modellene ble utstyrt med CV, og den andre uten CV. De estimerte feilrater for modeller med 1 til 5 inkludert markører er oppsummert i tabell 3. Som forventet, modeller uten CV har mer optimistiske anslag for feilrater. Etter hvert som antall variabler øker, feilrater blir mindre. I motsetning er CV feil av modellene med to markører, CA125 og 16:00, 18:01 PPE, minimum blant de 5 modellene utstyrt med CV (tabell 3). Ettersom antallet markører økes fra 2 til 5, CV-feil blir større (i stedet for mindre). De CV feil øke etter hvert som antall markører øker og indikere overtilpassing som forventet. Modellene med høyere antall markører er ikke oppført her. Modellen med minimum CV feil inneholder to markører, CA125 og 16:00, 18:01 PPE. Dens forbedring for klassifisering over modellen med bare CA125 skyldes forbedringen i spesifisitet. Spesifisiteten er 85,38% og følsomheten er 70,62%. For å sammenligne resultatene av modellen til den av skjæringspunkt på 35 enheter /ml for CA125, sette spesifisitet til 56,13%, er følsomheten forbedret fra 84,36% til 88,15%. På lignende måte, ved å bruke denne modellen, er det tilsvarende diagnostisk spesifisitet på 58,49% (sammenlignet med 56,13%) i dette settet av prøver, og samtidig opprettholde følsomheten ved 84,36%.
To-trinns Model resultater
i ett-trinns modeller ovenfor, har vi vist at modellen utvikling ved hjelp av kryssvalidering er mer konservativ. Derfor, for de to-trinns modeller, brukte vi bare konservativ tilnærming til å utvikle modeller for å unngå overtilpassing. Som beskrevet i avsnittet Materialer og metoder ble prøvene først klassifisert i høy-CA125 (CA125≥35) eller lav-CA125 (CA125 35) grupper. For det andre trinnet, har vi utviklet separate SVM modeller for høy-CA125 og lav-CA125 grupper. HH-SVM som beskrevet i Materialer og metoder ble brukt til å prioritere biomarkører for høy- og lav-CA125 grupper, henholdsvis.
Basert på rangeringen av markører i hver av de høy- og lav -CA125 grupper (Tabell 4), cross-valideringsfeil for SVMer med 1 til 7 markører ble estimert, henholdsvis. For lav CA125 gruppe, inneholder den første SVM modellen topprangerte markør, 16:00, 18:01 PPE. Modellen ble først montert og CV feilen ble estimert. Den andre SVM modellen inneholder en ekstra markør i modellen, 15:00 LPC, i tillegg til den opprinnelige (høyest rangerte) markør, 16:00, 18:01 PPE. Denne fremgangsmåten for å legge til markører én etter én inn i modeller basert på vektene anslått av HH-SVM gjentas for modellene med 3 markører, 4 markører, og opp til 7 markører. Ettersom antallet av markører i modellen øker, økte CV feil indikerer det overtilpassing av modeller som forventet, så vi stoppet tilsetning av markører. For lav-CA125 gruppe, modellen med den minste CV feilraten er modellen med 4 markører: 16:0, 18:01 PPE, 15:00 LPC, 18:02 LPA og 18:00, 22:06 PPE (som en del av alle 3 modellene i tabell 5), referert til som «4 markør set» i tabell 5. for høy CA125 gruppe, ble modellene montert på samme måte. Den første SVM inneholder de topprangerte markør, 16:00, 18:01 PPE, og flere modeller med flere markører ble bygget ved å legge dem én etter én. Modellen ble først montert og CV feilen ble estimert. Den minste CV feilrate er at av modellen med 2 markører: 16:00, 18:01 PPE og 14:00 LPC, (som en del av modellen
M3
i tabell 5). Disse 2 markørene er referert til som «to markør sett» i tabell 5.
Klassifiseringen feil priser, særegenheter, og sensitiviteter av de tre to-trinns modeller med kombinasjoner av enten to markørsett og /eller 4 markørsett er oppsummert i tabell 3. det første trinn i modelleringen for alle tre modellene er identiske, dvs. ved hjelp av CA125 konsentrasjon på 35 enheter /ml som den skjæringspunkt for å klassifisere prøvene inn i høy- og lav- CA125 grupper. Ulike modeller for høy- og lav-CA125 grupper ble montert separat (tabell 5). Den første modellen,
M1
, har egne SVM modeller for høy- og lav-CA125 grupper. Markørene for hver SVM er de 4 markører nevnt ovenfor (16:00, 18:01 PPE, 15:00 LPC, 18:02 LPA, og 18:00, 22:06 PPE), men modellene er utstyrt separat for hver