Abstract
Bakgrunn
Vår systematisk gjennomgang oppsummerer bevis om nøyaktigheten av serum diagnostisk og prognostisk tester for tykktarmskreft (CRC).
Metoder
databaser MEDLINE og EMBASE ble søkt iterativt å identifisere relevant litteratur for serummarkører CRC publisert fra 1950 til august 2012. artiklene som følger tilstrekkelig informasjon til å oppfylle kravene i den meta-analyse av diagnostiske og prognostiske markører ble inkludert. En 2-for-to bord av hver diagnostisk markør og dens hazard ratio (HR) og konfidensintervall (KI) for hver prognostisk markør ble direkte eller indirekte hentet fra de inkluderte avisene, og samlet sensitivitet og spesifisitet av diagnostisk markør og den samlede HR og CI av prognostisk markør ble deretter beregnet ved hjelp av datautdragene.
Resultater
i alt 104 papirer knyttet til diagnostiske markører og 49 papirer knyttet til prognostiske serummarkører av CRC ble oppsamlet, og bare 19 av 92 diagnostiske markører ble undersøkt i mer enn to studier, mens 21 av 44 prognostiske markører ble inkludert i to eller flere undersøkelser. Alle de sammenslåtte følsomheten til de diagnostiske markører med = 3 repetisjoner var mindre enn 50%, og meta-analyser av de prognostiske markører med mer enn 3 studiene ble utført, VEGF med høyest (2.245, KI: 1,347 til 3,744) og MMP-7 med lavest (1,099, CI: 1.018 -1,187)) sammenslåtte HRS presenteres.
Konklusjoner
kvaliteten på studier som omhandler den diagnostiske og prognostisk nøyaktighet av testene var dårlig, og resultatene var svært heterogen. De fattige karakteristikker indikerer at disse testene er av liten verdi for klinisk praksis
Citation. Liu Z, Zhang Y, Niu Y, Li K, Liu X, Chen H, et al. (2014) en systematisk gjennomgang og metaanalyse av diagnostisk og prognostisk Serum Biomarkører for tykktarmskreft. PLoS ONE 9 (8): e103910. doi: 10,1371 /journal.pone.0103910
Redaktør: Valli De Re, Centro di riferimento Oncologico, IRCCS National Cancer Institute, Italia
mottatt: 10. oktober 2013, Godkjent: 08.07.2014; Publisert: 08.08.2014
Copyright: © 2014 Liu et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Midler til dette arbeidet ble gitt av China Postdoktor Science Foundation (201150M1569 og 2012T50893 til ZL) og Luoyang søknad teknologi forskning og utviklingsprosjekter (1401088A-5). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
tykktarms~~POS=TRUNC kreft~~POS=HEADCOMP (CRC) er en av de vanligste kreftformen i utviklede land [1]. Forekomsten av CRC i Kina var lavere enn i Vesten, men har økt de siste årene [2] og har blitt en betydelig kreft byrde i Kina. Barnekonvensjonen dødeligheten i Kina er 7,35 /100.000 mennesker, ifølge en retrospektiv undersøkelse om dødsfall forårsaket av ondartede svulster i Kina 2004-2005 [3]. Hvert år i Storbritannia og USA, er det ca 32.000 og 160.000 nye tilfeller henholdsvis diagnostisert, og ca 500 000 nye tilfeller diagnostisert i verden [4]. Til tross for fremskritt i dosering og planlegging av kjemoterapi i både adjuvant og avanserte innstillinger, er tidlig påvisning av CRC alltid overstreket [5].
FOBT (fekal okkult blod test) og koloskopi er de tradisjonelle metoder for CRC screening. Selv om FOBT er ikke-invasiv og billig, jo lavere følsomhet av resultatene gjør det uakseptabelt for promotering og popularisering [6]. Selv koloskopi pluss biopsi er gullstandarden for tykktarmskreft screening og diagnose på grunn av invasiv art og intestinal ubehag av koloskopi, mer enn halvparten av pasientene ikke ønsker det [7]. Sammenlignet med disse screeningsmetoder, testing av serum biomarkører er mer praktisk og mindre invasiv og kan være mer akseptabelt som en del av en rutinemessig fysisk undersøkelse [8], men de fleste serum CRC markører fortsatt dårlig for de fleste pasienter [9]. Selv om en rekke blodprøver av utfallet i CRC er rapportert [10], det har vært noen klar enighet om sin rolle, med mange studier rapporterer motstridende resultater [11] – [13].
En viktig vurdering er at en systematisk gjennomgang kan fremheve de underliggende problemene over enkeltstudier og bidra til å identifisere behov for videre forskning [14]. I dagens papir, er begge disse aspektene adressert, og vi håper at våre funn vil forbedre studier på CRC markører i fremtiden.
Materialer og metoder
Søkestrategi
den systematiske søk adressert artikler med informasjon om markører i serum for å inkludere eller utelukke tilstedeværelse av CRC publisert fra januar 1950 til august 2012. for å oppfylle våre kriterier, studiene måtte ha blitt publisert som en full papir på engelsk. Artikler ble identifisert ved en elektronisk Medline og PUBMED søk ved hjelp av følgende søkeord: «Colorectal «,» Colon «,» rektal «,» kreft «,» serum «og» markør «(se Vedlegg 1 i material S1 for de viktigste ordene og tilsvarende «assosiert ordene», se vedlegg 2 for detaljer om søkestrategi). I denne studien ble duplikater fra Medline og EMBASE slettes automatisk og manuelt med Reference Manager versjon 11 (Thomson Reuters, New York, NY, USA).
inklusjons- og eksklusjonskriterier
For diagnostisk markør (s), fokuserer meta-analyse på sensitivitet og spesifisitet av en markør, og den mest grunnleggende kravet er en 2 × 2 tabell over utfallet av markør index test for å beregne de to verdiene. En kort oversikt over kriteriene for en diagnostisk markør er følgende:.
Den opprinnelige artikkelen er på engelsk og om diagnostiske serum markør (er) på bare primær tykktarmskreft (CRC, tykktarm eller endetarmskreft)
det er nok informasjon til å direkte eller indirekte konstruere en 2 × 2 tabellen (e) av utfallet av markøren (e) indeks test.
gull~~POS=TRUNC (referansestandard) for diagnostisering av CRC , kolon eller endetarmskreft er basert på klinisk histopatologi.
Kun pasienter (CRC, tykktarm eller endetarmskreft) versus kontroll (friske befolkningen) er undersøkt.
Hjelpe informasjon som studien design og cut-off verdier (se tabell S3 av vår manuskript) er ikke veldig viktig for kvantitativ syntese av effektstørrelser av en diagnostisk markør. Vi oppsummert studiedesign for studier med følgende design: case-control, retrospektiv case-control, prospektive kohortstudier, nested case-control, prospektiv nested case-control, kohortstudier, prospektive kohortstudier og kohort påfølgende pasienter (se tabell S3 for detaljer) .
For prognostisk markør (s), studiet må gi tid-til-event data og meta-analyse fokuserer på hazard ratio (HR) og konfidensintervall (CI)
en original papir basert på en primær CRC, tykktarm eller endetarmskreft i engelsk måtte tilveiebringe et kvantitativt resultat eller gi tabulerte individuelle pasientdata (IPD) [15] for å vurdere evnen til en eller flere av prognostiske markører serum.
studiet skal gi tilstrekkelige data til (re) konstruere en 2 × 2 bord for å estimere markørens prognostisk nøyaktighet eller loggen av hazard ratio (HR) og dens presisjon (variansen eller standardfeil (SE)) eller HR og sin konfidensintervall (CI).
i tillegg til ovennevnte 2 eks, resten av elementene er de samme som elementer 3 og 4 for diagnostiske markører.
fra papirer klassifisert som «relevant,» informasjonen ble ekstrahert på tumor markør som brukes, den kliniske anvendelsesområde, aldersgruppe av pasienter, stadium av sykdommen, hvorvidt resultatet var total overlevelse (OS) eller sykdomsfri overlevelse (DFS) og cut-off nivå av markør (Se tabell S5 av vårt manuskript for detaljer).
To etapper var nødvendig å inkludere eller ekskludere søker artikler. Den første gruppen av lesere, som ble trent på forhånd, vurderte titler og abstracts, og deretter den andre uavhengig gruppe med lesere, som ble trent på forhånd, vurdert den fulle artikler for å sikre at ingen relevante artikler ble ekskludert. Inkludering eller ekskludering, samt data utvinning for alle papir, ble gjennomført av minst to uavhengige lesere, og hvis de utpakkede dataene ikke var de samme, konflikter ble løst ved å nå en enighet. 1) Hvis mer enn en markør ble brukt i en gitt studie, ble de relevante data for hver kvalifisert markør individuelt pakket ut. 2) Hvis en markør hadde flere funksjoner (dvs. en markør for en sykdom anvendt for screening, diagnose, prognose og /eller overvåking), ble datasett som svarer til de multiple funksjoner ekstrahert separat. 3) Hvis det var flere markører og sykdommer som behandles i en studie, kun relevante data fra merketråden (e) tilsvarer hver sykdom av interesse for forfatteren (e) ble hentet.
Data utvinning
fra papirer klassifisert som «relevant,» informasjon ble ekstrahert på studiet egenskaper, deltakeren egenskaper, typen av referanse test som brukes for å bekrefte tilstedeværelse eller fravær av kolorektal kreft, tumor markør som brukes, den kliniske anvendelsesområde aldersspredningen av pasienter stadium av sykdommen, om utfallet var total overlevelse (OS) eller sykdomsfri overlevelse (DFS), og cut-off nivå, samt hvordan disse nivåene ble bestemt. Noen av studiene hadde flere forskjellige cut-off nivå, og vi tok bare en nærmest cut-off tilsvarende med 95% spesifisitet (unngå falske positiver så mye som mulig) [16] 1) For diagnoserelaterte papirer, den data utvinning og metodisk kvalitetsvurdering av hver inkluderte studien ble vanligvis utføres samtidig. Whiting et al. (2003) foreslått et sett av kriterier for kvalitetsvurdering av diagnostisk nøyaktighet Studies (QUADAS) som gjelder vel å diagnostisk markør studier [17]. Ytterligere informasjon som skal trekkes inkludert antall pasienter og kontroller og antall sanne positive (TP) /falske positiver (FP) /sanne negativer (TN) /falske negative (FN), som er obligatorisk. I tillegg har sensitivitet og spesifisitet, 95% konfidensintervall (CIS), den samlede nøyaktigheten, positiv prediktiv verdi (PPV = TP /(TP + FP)), negativ prediktiv verdi (NPV = TN /(TN + FN )), den positive sannsynligheten forholdet (LR +), den negative sannsynligheten forholdet (LR-), og den diagnostiske odds-ratio (DOR) av tumormarkører var valgfri ekstrahert informasjon. Hvis en studie manglet den obligatoriske informasjonen vi beregnet TP /FP /TN /FN og fylte ut feltene i tabellen. 2) For prognoserelaterte papirer, Altman et al. (2012) foreslått rapporterings anbefalinger for svulst markør prognostiske studier (REMARK) [18] som gjelder vel å prognostiske markører studier. Dataene utvinning og konverteringer for prognostiske markører var mye mer kompleks enn for diagnostiske markører fordi prognostiske markører gi tid-til-event data. Meta-analyser av denne typen markør krever ofte en av to typer data, dvs. loggen av hazard ratio (HR) og dens presisjon (variansen eller standardfeil (SE)) eller HR og dens konfidensintervall (CI ). For større prognostisk markør studier, kan de to typer data ikke hentes ut direkte. Paramar og medarbeidere [19] presenteres en serie av enkle metoder for å trekke ut de relevante data fra publikasjonene med sikte på å utføre en meta-analyse av overlevelses-type data. Metodene fokuserer på metoder for å trekke ut disse dataene fra publikasjoner og er illustrert i denne publikasjon med reelle eksempler. Riley og medarbeidere (2003) [20] oppsummert 11 metoder (vedlegg 3) som er tilgjengelig for direkte eller indirekte å estimere disse dataene og omtrentlig normal loge (HR) distribusjon for store prøver. I tillegg, Tierney, et al. [21] gitt trinn-for-trinn veiledning for hvordan du beregner en HR og tilhørende statistikk for de enkelte studier, i henhold til den informasjonen som presenteres i rettssaken rapporten. I vår studie ble en R pakke utviklet basert på metoder for Paramar og kolleger [19] og ble brukt til indirekte eller direkte beregne HR og dens CI.
Statistisk analyse og data syntese
den systematiske gjennomgangen fulgt retningslinjene utgitt av NHS Centre for anmeldelser og Formidling og hadde et overordnet mål om å opprettholde bredden, syntetisere bevisene kvalitativt og da, bare eventuelt ved hjelp av kvantitative metoder [22], [23].
diagnostiske serummarkører
Meta-analysen av diagnostisk test nøyaktighet presenterer mange utfordringer. Selv i det enkleste tilfellet, når dataene er oppsummert av en 2 × 2 bord fra hver undersøkelse, krever en statistisk grundig analyse hierarkiske (multilevel) modeller som respekterer binomial datastruktur. I denne studien ble skog tomter av sensitivitet og spesifisitet estimater og deres 95% CI’er konstruert fra hver studie med MetaDiSc programvare (versjon 1.4) [24], med heterogenitet av nøyaktighet anslagene vurderes med jeg
2 statistikk [25]. Oppsummerings estimater av sensitivitet og spesifisitet ble beregnet ved hjelp av pakken Metandi for Stata 11 statistisk programvare (Stata Corp, College Station, TX) [26] (Metandi krever enten Stata 10 eller nyere). Vi har tatt i bruk også en kommando, metandiplot, for å forenkle den grafiske plotting av sammendrag av den tilpassede modellen, nemlig Sammendrag mottaker som opererer karakteristikk (SROC) kurve, og prediksjon regionen og også for å plotte Sammendrag punkt og dens tillit region.
Det har blitt hevdet at diagnostisk nøyaktighet test kan være spesielt utsatt for publikasjonsskjevhet [27]. Simulerings studier har imidlertid antydet at effekten av publikasjonsskjevhet på meta-analytiske beregninger av diagnostiske Odds Ratio (DOR) er ikke sannsynlig å være store, og sin vurdering i vurderinger av testnøyaktighet er kompleks [28]. En alternativ tilnærming bruker trakt plott av (naturlig logaritme (ln) DOR) vs () og tester for asymmetri ved hjelp relaterte regresjon eller rang korrelasjon tester [28]. Det bør bemerkes at kraften av alle statistiske tester for trakt tomten asymmetri avtar med økende heterogenitet av DOR.
Prognostiske serummarkører
Hazard ratio (HR) ble brukt til å måle effekten av ekspresjonen av individuelle biomarkører for prognose. Fra papirer klassifisert som «relevant», ble informasjon hentet på svulst markør som brukes, den kliniske anvendelsesområde, aldersspredningen av pasientene, stadium av sykdommen, om utfallet var total overlevelse (OS) eller sykdomsfri overlevelse ( DFS), og cut-off nivå av markøren. OS, DFS, eller uklar ble registrert å klassifisere utfallet av en markør, der dette er tilgjengelig, og skilt i henhold til om de hadde blitt analysert ved univariate eller multivariat analyse. Sykdomsspesifikk overlevelse (DSS) ble inkludert under OS, og fjern sykdomsfri overlevelse (DDFS) og metastasering overlevelse (MFS) ble inkludert i DFS. For både OS og DFS, ble følgende registrert (der det er tilgjengelig): om markør for analysen hadde en signifikant sammenheng med overlevelse, hazard ratio (HR), de 95% konfidensintervall (KI), den p-verdi for faktoren, hvorvidt p-verdi var nøyaktig, og hvorvidt den overlevelse var blitt analysert ved univariate og /eller multivariabel analyse. Hvis hadde blitt utført multivariat analyse ble andre faktorer som inngår i modellen også registrert. Fordi estimat mål på HR variert, konverterte vi de ulike statistikker i HR, 95% CI, og dens varians, som var mer nøyaktig og forent. Etter å ha fått de grunnleggende statistikk, en sekvensiell prosess basert på den aktuelle kommandoen i Stata versjon 10 (Stata Corporation, College Station, TX, USA) ble iverksatt for å telle samlet HR verdi. Prosessen fulgte forskning av RD Riley [20].
Samlede anslag for HRS ble oppnådd ved bruk av både fast-effekt og tilfeldig-effekt meta-analyser ved hjelp av den inverse-varians vekting metoden. Statistiske heterogenitet mellom studiene ble vurdert ved hjelp av blant studie varians (s2) og statistikk I
2 [25]. Vi har utført heterogenitet χ2-tester, og hvis antagelsen om homogeniteten av individuelle HRS måtte bli avvist, vi brukte en tilfeldig-effekt modell i stedet for et fast effekt modell. Ved konvensjonen, en observert HR en underforstått en dårligere prognose for gruppen med positiv markør uttrykk. Vi utførte en meta-analyse av prognostisk test nøyaktighet ved hjelp av metan kommandoen i Stata. Publikasjonsskjevhet refererer til fenomenet studier med uinteressante eller dårlige resultater er mindre sannsynlighet for å bli publisert enn de med mer gunstige resultater [29]. Hvis det finnes en publikasjonsskjevhet, deretter publisert litteratur er et skjevt utvalg av alle studier på et emne, og noen meta-analyse basert på den vil være like partisk. Trakt tomter blir ofte brukt til å undersøke publisering og relaterte skjevheter i meta-analyser [30]. Den metabias funksjon i STATA utfører Begg og Mazumdar [31] justerte rang korrelasjon test for publikasjonsskjevhet samt Egger et al. [32] regresjon asymmetri test for publikasjonsskjevhet. Som alternativer, gir det en trakt graf av data eller regresjon asymmetri tomten. Den Begg justert rang korrelasjon test er mer populært i vanlige programmer for publikasjonsskjevhet analyse, og det brukes til å beregne publikasjonsskjevhet i vår studie. Den «trim og fylle» metoden [33] ble iverksatt for å utforske mulige natur studier «savnet» i gjennomgangen og for å forsøke å estimere den «sanne» relativ risiko anslag regnskap for publikasjonsskjevhet. Kommandoen metatrim i Stata brukes til å implementere Duval og Tweedie nonparametric «trim og fylle» metoden.
Resultater
Søker resultater
I alt 2243 artikler ble innhentet fra de to databasene, hvorav 153 artikler som omhandlet 114 CRC serum diagnostiske og /eller prognostiske markører (tabell S1) ble ansett som relevante i henhold til de to første anmeldelser. Totalt 105 papers (vedlegg 4) var knyttet til diagnose, mens 49 (vedlegg 5) var prognose papirer. Videre er 23 av de relevante papirer inkluderer både diagnose og prognose. I disse studiene, ble det oppnådd totalt 257 enkelttumormarkører. Papirer som viser relaterte studier i det bestemte området ble undersøkt videre for å søke mer relevante resultater. Prosessen med å hente og reservere papirer og resultatene er vist i figur 1.
tumor markører Identifiserte Overall og innenfor hver Clinical området
Vurdering av studiekvalitet og undersøkt diagnostiske blodprøver.
kvaliteten på diagnose papirer ble vurdert ved hjelp av QUADAS systemet [11]. Den metodiske kvaliteten på studiene med fokus på målet med denne gjennomgangen var generelt dårlig, og er vist i figur 2, med konkrete detaljer i tabell S2 (referanser til disse studiene er innledet av en «D» og er oppført i vedlegg 4 i materialer S1). Av studiene ble 12 papers utformet ved hjelp av en prospektiv kohortstudie. Resten av studiene case-kontrollmetoder. Derfor verifisering skjevhet uunngåelig dukket opp i disse studiene. Verifisering forspenningen er et resultat av å identifisere eksperimentelle grupper av gullstandarden Referansetest av en sykdom eller tilstand, slik som kreft, mens kontrollgruppen antas å være fri for denne tilstand, men dette er ikke bekreftet av gullstandarden referansetest, som blåses sensitivitet og spesifisitet minker [34] – [36]. Dessuten var de fleste studier ikke har en tilstrekkelig beskrivelse av pasientutvelgelsesprosedyren, karakteristikk av deltagerne, referansestandarden, og den brukes cut-off verdien av markør. Tiden mellom indeksen test (markør) og referanse test samt tilgjengeligheten av andre kliniske data (som er vanlig forekommende i praksis) ble også dårlig rapportert.
Tabell S3 gir en fullstendig oversikt av ytelsen til alle merkene på tvers av de inkluderte studiene. I alt ble 92 serummarkører identifisert, og bare noen få markører er ofte rapportert. Av disse markørene er 73 markører kun rapportert en gang. Den hyppigst evaluert serum markør var CEA (42 repetisjoner) etterfulgt av CA19-9 (24), CRP (9), CA-50 (7), CA72-4 (7), og VEGF (7) (tabell 1). Noen vurderinger kan ikke føre til nyttige sammendrag estimater av sensitivitet og spesifisitet, for eksempel på grunn av betydelig variasjon i de enkelte studie estimater eller fordi antall relevante studier som tilsvarer en markør er mindre enn tre. Flere metoder for meta-analyse av diagnostiske nøyaktighet data har blitt foreslått, hvorav to er statistisk streng: den hierarkiske sammendraget mottaker drift karakteristikk (HSROC) modell [37] og den bivariate modellen [38]. I dagens systematisk, sammendrag av den diagnostiske nøyaktigheten av disse markørene, henholdsvis vurderes av den hierarkiske sammendraget mottaker drift karakteristikk (HSROC) kurve [39] (studie nummer tre) og skogen tomten av meta-analyse (studie nummer 2), er vist i tabell 1. CEA er den hyppigst studerte biomarkør på grunnlag av det ekstraherte biomarkør informasjonen. I alt er det 42 artikler som inneholdt de diagnostiske resultater for CEA. CEA Studiene inkluderte 8861 personer, hvorav 5361 var pasienter, og de resterende 3500 personer var kontroller. Cut-off verdi varierte fra 2,40 ng /ml til 10,0 ng /ml. Sensitiviteten og spesifisiteten varierte sterkt fra 25,55% til 97,22% og 54,40% til 100,00%, respektivt.
Figur 3 A viser hierarkiske sammendrag estimater av sensitivitet og spesifisitet for CEA etter tilbake-transformasjon til ROC akser . Videre viser den 95% konfidensintervall ellipse rundt middelverdiene av sensitivitet og spesifisitet for CEA og en 95% prediksjon ellipse for de enkelte verdier av sensitivitet og spesifisitet. Ellipse rundt sammendraget eller bety estimat av sensitivitet og spesifisitet angir regionen inneholdende sannsynlige kombinasjoner for hvilken middelverdien av sensitivitet og spesifisitet er liten. Den 95% prediksjon ellipse er bredere og indikerer større usikkerhet om hvor sannsynlige verdier for sensitivitet og spesifisitet kan oppstå for enkeltstudier. Figurene 3 B og C separat presentere skog tomter av spesifisitet og sensitivitet av diagnostisk markør CEA for tykktarmskreft med individuelle studie estimater av sensitivitet og spesifisitet og 95% CI’er som en tilfeldig effekt-modell. De enkle sammendrag estimater av sensitivitet og spesifisitet for CEA for tykktarmskreft var 46,1% (95% KI: 44,8 til 47,4%) og 89,2% (95% KI: 88,2 til 90,2%), henholdsvis. Den HSROC modell produsert de samme sammendrag estimater av sensitivitet og spesifisitet med nesten nøyaktig like CI’er (48,5% (95% KI: 44.8-52.3-46.7%) og 91,1% (95% KI: 88 til 93,0%), henholdsvis) som tar hensyn til heterogenitet utover sjansen mellom studier (tilfeldig effekt-modell). For de resterende serummarkører for CRC, de samlede sensitivitet og spesifisitet med deres IT-systemet er henholdsvis oppført i 6
th og 7
th kolonner i tabell 1, men HSROC tomter og skog tomter gis i vedlegg 6 i material S1 grunn av artikkelen lengdebegrensninger. Publikasjonsskjevhet analyser ble gjennomført for prognostiske markører med mer enn tre repetisjoner i studiene. Resultatene er vist i det 12.-15 kolonne i tabell 1, og hva som kjennetegner disse produsentene er oppført i tabell S3. De tilsvarende skog tomter og trakt tomter er vist vedlegg 7 i material S1. Resultatene indikerer at publikasjonsskjevhet eksisterer i nesten alle diagnostiske markører.
A er ROC plott av hierarkiske sammendrags estimater av sensitivitet og spesifisitet for CEA med 95% sikkerhets-og prediksjon ellipser. B og C er skog tomter av sensitivitet og spesifisitet av diagnostisk markør CEA for kolorektal kreft plottet med en HSROC modell. Størrelsen av rutene i B og C er proporsjonal med studien størrelse og vekt for hver undersøkelse. Den rombe representerer de samlede estimater, som er 0,461 (KI: 0,448 til 0,474) og 0,892 (KI: 0,882 til 0,902) for spesifisitet og sensitivitet, henholdsvis
Vurdering av studiekvalitet og lupen prognostisk serum. markører.
score av alle prognostiske studier av REMARK [18] er vist i tabell S4. Resultatet av disse studiene varierte mellom 16 og 19. Tabell S5 gir en fullstendig oversikt over ytelsen til alle prognostiske markører for CRC, på tvers av de inkluderte studiene. I alt ble 41 serum prognostiske markører identifisert, og bare noen få markører ble ofte rapportert. Av disse markørene ble 22 markører kun rapportert en gang, 13 markører ble rapportert to ganger, og bare 10 markører ble rapportert mer enn tre ganger. Den hyppigst evaluert serum prognostisk markør var CEA (34 repetisjoner) etterfulgt av CA19-9 (10), VEGF (9), MASP-2 (6), CRP (5), TIMP-1 (4), YKL-40 ( 3), MMP-7 (3), PAI-1 (3), og Supar (3). De prognostiske markører med mer enn tre repetisjoner ble valgt for meta-analyse og publikasjonsskjevhet analyse ved hjelp av Stata (10 versjon) programvare, og oppsummeringene er gitt for hver markør i tabell 2.
Den mest hyppigst rapporterte prognostisk markør for CRC er CEA. CEA studier inkluderte 5792 pasienter, hvorav 3856 pasienter hadde positive resultater for CEA markør, mens 1936 pasienter var negative. De cut-off verdiene varierte fra 2,7 ng /ml til 10,0 ng /ml. Median pasientens alder på tvers av alle studiene var mellom 47.74 og 73 år, med en aldersspredningen av 31-90 år. Alle pasientene hadde histologisk eller cytologisk bekreftet CRC, tykktarm eller endetarmskreft, som den primære diagnosen. Det er 28 artikler relatert til CEA og prognosen utfallet av pasientene, hvorav 6 artikler studert både total overlevelse (OS) og sykdomsfri overlevelse (DFS). Det er 9 artikler som ikke oppgir om de studerte OS eller DFS; vi definert disse som «uklar» (tabell 2). En oppsummering av de enkelte forsøk og de samlede samlede resultater fra den primære analysen av total overlevelse er vist i figur 4. Ifølge resultatene (OS, DFS og uklare), ble CEA klassifisert i tre undergrupper, og de tre undergruppeidentifiserere datasett var separat sendes til meta-analyse og publikasjonsskjevhet analyse. Som et resultat av de samlede HRS med 95% CI’er av OS, DFS, og uklare undergrupper var 1,624 (1,290 til 2,043), 1,453 (1,267 til 1,666), og 2,208 (1,479 til 3,297), henholdsvis, og den generelle HR (CI ) fra de tre sammenslåtte undergruppene var 1,513 (1,391 til 1,645) (figur 4 A). Etter analyse av publikasjonsskjevhet av «trim og fylle» metoden, ble det OS, DFS, og uklare undergrupper lagt med tre, syv og en «manglende» studier (figur 4 B C og D og tabell 2), henholdsvis. De justerte HRS med 95% CI’er for de tre undergruppene var 1,346 (1,083 til 1,671), 1,166 (1,018 til 1,336) og 2,073 (1,410 til 3,047), henholdsvis. I motsetning til alle justert HRS var relativt mindre enn de ujusterte timer (tabell 2, panel CEA). Likeledes ble de samme metodene for meta-analyse og publikasjonsskjevhet analyse gjennomført for de resterende prognostiske markører med mer enn tre repetisjoner i studier på CRC. Resultatene er vist i tabell 2, og egenskapene til disse maskin er oppført Tabell S5. De tilsvarende Forest tomter og trakt tomter er vist vedlegg 8 i Materialer S1.
En er skogen tomten og B, C og D er den «fylt» trakt plott av OS, DFS, og den uklare gruppe, henholdsvis. Meta-analysen viste en signifikant effekt i favør av et høyt volum. De samlede og fylte resultatene er presentert i tabell 2.
Diskusjoner
Appraisal av Systematisk gjennomgang
I vår undersøkelse vi utførte en systematisk gjennomgang og meta analyse for alle de publiserte CRC serum biomarkører. Gjennom etterforskningen, vi søkte 114 serum biomarkører (for diagnose 92, for prognosen 41), hvorav 20 biomarkører kan både fungere som diagnose og prognose markører. De fleste av markørene er publisert bare en gang, og var de hyppigst rapporterte topp tre markører for diagnose er CEA (42 studier), CA19-9 (25 studier), og CA242 (10 studier), og for prognose, de CEA ( 34 studier), CA19-9 (10 studier), og VEGF (9 studier). For diagnose markører som ble studert mer enn to ganger, vi brukte HSROC modellen og meta-analyse tilnærming for sensitivitet og spesifisitet korrelasjonsanalyse. Resultatene antydet at nesten alt av de sammenslåtte sensitiviteter til diagnose markørene var mindre enn 50% og følges av en betydelig heterogenitet. Publikasjonsskjevhet finnes for store diagnose serum CRC markører ved en alternativ tilnærming ved hjelp av trakt plott av (naturlig logaritme (ln) DOR) vs () [28]. Likeledes ble meta-analyser og publikasjonsskjevhet analyse gjennomført for prognostiske markører med mer enn tre repetisjoner i studiene. Utvalget av alle de sammenslåtte HRS er fra 1 til 2, noe som indikerer at det ikke vil være noen overlevelsesrate forskjeller mellom de positive og negative pasienter. Ifølge vår analyse, kan vi forklare hvorfor de rapporterte diagnostiske og prognostiske markører for CRC er ikke egnet for kliniske applikasjoner. Fordi de fleste av de sammenslåtte sensitiviteter til diagnose markører var mindre enn 50%, og heterogenitet var betydelig, og de samlede timer om prognose markører var større enn 1 og mindre enn 2.
Det ideelle studieprøven for en test nøyaktighet studien er en sammenhengende eller tilfeldig valgt rekke pasienter der målet tilstanden er mistenkt, eller for screening studier, målgruppen. Det finnes to hovedtyper av testnøyaktighet studier: kohortstudier og kasus-kontrollstudier. Begge diagnostiske og prognostiske studier som inngår i dagens systema hovedsakelig hører til case-kontroll design type, som er ansvarlig for å skjevhet [40]. Diagnostiske eller prognostiske tester utføre forskjellig i ulike populasjoner [41], [42], er det viktig å klart definere populasjonen av interesse. I vår systematisk, er studiepopulasjonen er begrenset til primær CRC.
Analyse av mulige årsaker for publisering og heterogenitet observert
En potensiell kilde til skjevhet (dvs. publikasjonsskjevhet) er om all relevant studier har blitt identifisert, og et lite antall dele-publiserte studier kan ha blitt utelatt. Fra tabell 1 og tabell 2, både diagnostiske og prognostiske studier har publikasjonsskjevhet.