PLoS ONE: Unlocking biomarkører: Large Scale Bruk av Aptamer proteomikk teknologi for tidlig deteksjon av Lung Cancer

Abstract

Bakgrunn

Lungekreft er den ledende årsak til kreft dødsfall på verdensbasis. Nye diagnostikk for å oppdage tidlig stadium lungekreft fordi det kan bli kurert med kirurgi. Imidlertid er de fleste tilfeller diagnostisert for sent for kurativ kirurgi. Her presenterer vi en omfattende klinisk biomarkør studie av lungekreft og den første storskala klinisk anvendelse av en ny aptamer-basert proteomikk teknologi for å oppdage blod protein biomarkører i sykdom.

Metodikk /hovedfunnene

Vi gjennomførte en multisenter case-control studie i arkivserumprøver fra 1326 individer fra fire uavhengige studier av ikke-småcellet lungekreft (NSCLC) i langsiktige tobakkseksponerte populasjoner. Sera ble samlet inn og behandlet under ensartede protokoller. Sak sera ble samlet inn fra 291 pasienter innen 8 uker etter første biopsi-påvist lungekreft og før fjerning av svulster ved kirurgi. Kontrollsera ble samlet inn fra 1,035 asymptomatiske studiedeltakere med ≥10 pack-års røyking. Vi målte 813 proteiner i hver prøve med en ny aptamer basert proteomikk teknologi, identifisert 44 kandidat biomarkører, og utviklet en 12-protein panel (cadherin-en, CD30 ligand, endostatin, HSP90α, LRIG3, MIP-4, pleiotrofinprotein, PRKCI, RGM-C, SCF-sR, SL-selectin, og JA) som diskriminerer NSCLC fra kontroller med 91% sensitivitet og 84% spesifisitet i tverr validert trening og 89% sensitivitet og 83% spesifisitet i en egen bekreftelse sett, med tilsvarende ytelse for tidlig og sent stadium NSCLC.

Konklusjon /betydning

Denne studien er et betydelig fremskritt i kliniske proteomikk i et område med høy udekket klinisk behov. Vår analyse stiger bredden og dynamisk område på proteomet avhørt av tidligere publiserte kliniske studier av bred serum proteom profilering plattformer, inkludert massespektrometri, antistoff arrays, og autoantistoff arrays. Sensitivitet og spesifisitet av vår 12-biomarkør panel bedrer på publiserte protein og genekspresjon paneler. Separat verifikasjon av klassifikator ytelse gir bevis mot over-montering og er oppmuntrende for den neste utviklingsfasen, uavhengig validering. Denne nøye studie gir et solid grunnlag for å utvikle tester sårt tiltrengt for å identifisere tidlig stadium lungekreft

Citation. Ostroff RM, Bigbee WL, Franklin W, Gold L, Mehan M, Miller YE, et al. (2010) Opplåsing biomarkører: Large Scale Bruk av Aptamer proteomikk teknologi for tidlig deteksjon av lungekreft. PLoS ONE 5 (12): e15003. doi: 10,1371 /journal.pone.0015003

Redaktør: Irina Agoulnik, Florida International University, USA

mottatt: 6 august 2010; Godkjent: 07.10.2010; Publisert: 07.12.2010

Copyright: © 2010 Ostroff et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Lungekreft pasient og Pluss kontroll emne opptjening og merknader sammen med blodprøven innsamling, bearbeiding og lagring ved University of Pittsburgh Cancer Institute ble støttet av en spesialisert programmer for fremragende forskning (SPORE) stipend fra National Cancer Institute (NCI) av det amerikanske National Institutes of Health (NIH) i USA i Lung Cancer (P50 CA090440) til JMS. Lungekreft studier ved NYU ble støttet med tilskudd fra Early Detection Research Network (EDRN) av NCI av NIH i USA og fra Stephen E. Banner Fund for lungekreft til HIP, og en biomarkør stipend fra NCI av NIH i USA (5U01CA086137) til WR. Lungekreft studier ved Roswell Park Cancer Institute ble støttet delvis av en Cancer Center Support Grant (5P30CA016056) fra NCI av NIH i USA. University of Colorado bidrag til denne studien ble støttet av en SPORE stipend fra NCI av NIH i USA (P50-CA58187) og et stipend fra EDRN av NCI av NIH i United States of America (U01 -CA85070). SomaLogic finansiert proteomikk biomarkør forskning. SomaLogic hadde en rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet. andre enn SomaLogic organer hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:. Forfatterne har lest journalen politikk og følgende konflikter. R Ostroff, L Gold, M Mehan, A Stewart, J Walker, S Williams, D Zichi, E Brody er heltidsansatte i SomaLogic. Dette endrer ikke forfatternes tilslutning til PLoS ONE politikk på deling av data og materialer.

Innledning

Lungekreft er den ledende årsak til kreft dødsfall, fordi ~84% av tilfellene er diagnostisert på et avansert stadium [1] – [3]. Worldwide i 2008 ble ~1.5 millioner mennesker diagnostisert og ~1.3 millioner døde [4] – en overlevelsesrate uendret siden 1960. Men pasienter diagnostisert på et tidlig stadium og har kirurgi erfaring en 86% totalt fem-års overlevelse [2], [3]. Nye diagnostikk derfor nødvendig for å identifisere tidlig stadium lungekreft

I løpet av det siste tiåret den kliniske nytten av lavdose CT er evaluert [5] -. [8] med håp om at høy oppløsning bildebehandling kan hjelpe oppdage lungekreft tidligere og forbedre pasientens utfall, mye som screening har gjort for brystkreft og tykktarmskreft [9]. Definitive konklusjoner om CT screening og kreftdødelighet lunge avvente resultater fra randomiserte studier i USA [8] og Europa [10] – [13]. CT kan oppdage små, tidlig stadium lungesvulster, men skille sjeldne kreftformer fra vanlige godartede tilstander er vanskelig og har ført til unødvendige prosedyrer, stråling, angst, og kostnadene [6], [14] – [16]. Vi (JMS, JLW og kolleger) nylig rapportert slike konklusjoner for Pittsburgh Lung Screening Study (PLUSS), den største enkelt-institusjon CT screening studie rapportert hittil [5].

Andre typer biomarkører har også vært søkt [17]. Proteiner er attraktive fordi de er en umiddelbar måling av fenotype, i motsetning til DNA som gir genotype, i stor grad er et mål på risiko sykdom [18]. Enkelt protein biomarkører er grunnlaget for molekylær diagnostikk i klinikken i dag. Det er allment antatt at flere biomarkører kunne forbedre sensitiviteten og spesifisiteten til diagnostiske tester, og at komplekse sykdommer som kreft endre konsentrasjonen av multiple proteiner [19]. Men oppdager flere protein biomarkører ved å måle mange proteiner samtidig (proteomikk) i komplekse prøver som blod har vist seg vanskelig på grunn av dekning, presisjon, gjennomstrømming, preanalytiske variasjon, og kostnadene [20].

For å aktivere biomarkører utviklet vi en ny proteomikk teknologi som er basert på en ny generasjon av aptamer proteinbinding reagenser og har potensielt bred anvendelse [18]. Den nåværende analysen måler 813 forskjellige humane proteiner på bare 15 ul av blod med lave påvisningsgrenser (13:00 gjennomsnitt og så lavt som 100 fM), 7 logger av samlede dynamiske området, og høy reproduserbarhet (5% median variasjonskoeffisient) [ ,,,0],18]. Her presenterer vi den første storskala klinisk anvendelse av vår proteomikk teknologi for å oppdage blod protein biomarkører i en stor multisenter case-control studie utført i arkiverte prøver fra 1326 individer fra fire uavhengige studier av ikke-småcellet lungekreft (NSCLC) i langsiktige tobakkseksponerte populasjoner.

Materialer og metoder

Etikk erklæringen

Alle prøvene ble samlet inn fra deltagerne etter å ha innhentet skriftlig informert samtykke i henhold til klinisk forskning protokoller godkjent av følgende institusjonelle gjennomgang boards: The University of Pittsburgh Institutional Review Board (Pitt); The New York University School of Medicine Institutional Review Board (NYU); The Roswell Park Cancer Institute Institutional Review Board (RP); og The Cape Cod Health Institutional Review Board (BS).

Studiedesign

Formålet med denne studien var å finne biomarkører som diskriminerer NSCLC fra røykere med ≥10 år med røyking historie, trene og kryss-validere en multi-biomarkør sorter av NSCLC å møte pre-spesifiserte prestasjonskriterier, og for å verifisere resultatene av denne klassifikator med et eget sett med blindet prøver. Den generelle utformingen av studien er vist i figur 1. Vi designet og utført denne studien til dagens strenge standarder for biomarkør kliniske studier [21] – [23] med målene for maksimere biomarkør robusthet, gyldighet og pålitelighet på discovery fasen, og minimere mulige effekter av preanalytiske variabilitet. Studien var et funn-fase, case-control design. Kritiske studie design funksjoner inkluderer følgende. Kliniske spørsmål og studiedesign var spesifisert på forhånd før identifisere og anskaffe prøver. Prøver ble kjøpt fra fire uavhengige studiesteder for å kontrollere for potensielle preanalytiske variasjon. Strenge standard operasjonsprosedyrer ble fulgt for å sikre prøven og data anonymitet og blendende til enhver tid (se nedenfor). En bekreftelse prøvesett bestående av 25% av alle prøvene i studien ble tilfeldig valgt og identifisering av dette settet ble blindet. Den statistiske analysen Planen ble forhåndsspesifisert og inkludert minimalt akseptable ytelseskriterier for sensitivitet og spesifisitet

Prøve Cohort

Utvalget kohorten besto 1326 serumprøver hentet fra fire uavhengige biorepositories. Ny York University (NYU) [24]; Roswell Park Cancer Institute (RPCI) [25]; The University of Pittsburgh (PITT) [5]; og en kommersiell biorepository (BioServe (BS)) (tabell 1). Alle prøvene ble samlet inn fra deltagerne etter å ha innhentet informert samtykke i henhold institusjonelt godkjente kliniske forskningsprotokoller som beskrevet [5], [24], [25]. Begge case og kontrollserumprøver ble samlet inn fra fire studiesteder. De kliniske kjennetegn studiekohorten for trening og verifikasjon sett er vist i tabell 2. iscenesettelse og histologi av NSCLC tilfeller er vist i tabell 3. Prøven kohorten inkluderte pasienter diagnostisert med patologisk eller klinisk stadium I-III NSCLC og en høy -risk kontroll befolkning med en historie av langvarig bruk av tobakk, inkludert aktive og eks-røykere med ≥10 pack-års røyking. Kontroll populasjoner ble valgt tilfeldig innenfor hvert studie for å representere pasientpopulasjonen i fare for lungekreft som ville være kandidater for CT screening, med et forhold på sak: kontroll av 1:3.5. Blodprøver for saker ble samlet inn fra pasienter innen åtte uker etter første biopsi-påvist lungekreft diagnose og før fjerning av svulsten ved et kirurgisk inngrep. Alle saker brukt i denne studien ble bekreftet som primær lungekreft med patologi gjennomgang. NSCLC iscenesettelse ble tildelt av patologisk staging for 240 fag og klinisk staging for 51 fag. Godartede nodule kontrollene har minst ett års oppfølgingsdata og ikke-ondartet diagnose. Røyker kontroller var asymptomatiske studiedeltakere med ≥10 pack-års røyking. Røyker kontroller fra NYU og Pitt var nodule gratis ved CT; nodule status er ukjent for de røyker kontroller fra RP og BS. Demografiske data ble samlet inn ved selvrapportering spørreskjemaer. Ytterligere data for tilfeller ble ervervet gjennom klinisk diagram gjennomgang. Lungefunksjon testing ble vurdert ved spirometri for en undergruppe av deltagerne.

Serum innsamling, bearbeiding, lagring og forsendelse

Alle serumprøver ble innsamlet følgende ensartede protokoller som er anbefalt av National Cancer Institute Early Detection Research Network [22]. Tre av sentrene (NYU, Pitt og RPMC) samlet serum i rød topp Vacutainer-rør (Becton Dickinson, Raritan, NJ) og en center (BS) samlet serum i tiger topp SST Vacutainer-rør (Becton Dickinson). Alle prøver ble tillatt å levre seg, og serumet ble utvunnet ved sentrifugering i løpet av 2-8 timer etter innsamling og lagret ved -80 ° C. HIPAA kompatibel, avidentifiserte prøver ble levert frosset på tørris til SomaLogic fra studiesentrene og lagret ved -80 ° C. Prøvene ble tint en gang for alikvoteringsprosessen før proteomikk analyse.

Prøve Blinding

For å hindre potensiell bias, denne studien fulgt en streng standard prosedyre for prøve de-identifikasjon og blendende, slik at alle fysiske prøver og data poster ble identifisert utelukkende av en unik, uidentifiserbare strekkodenummer og nøkkelen ble lagret i en sikker database tilgjengelig bare for utpekte ansvarlige administratorer. Alle prøve porsjoner kjører i denne studien ble lagret i identiske rør identifisert bare av tildelte strekkode. Prøven blindende koden ble brutt kun i henhold til pre-spesifiserte analyseplan i forbindelse med klassifiserings trening med treningssettet og klassifiserings verifikasjon med verifiseringen settet. For verifisering prøvesett, ble en unik blendende nøkkel generert og gitt utelukkende til en tredjepart leser (KC), utilknyttede med studiesentre eller SomaLogic, for å score og rapportere de endelige bekreftelse resultater.

proteomikk analyse

Serumprøver prøver~~POS=HEADCOMP ble analysert på vår proteomikk oppdagelse plattform som beskrevet i Gold et al [5]. I korthet benytter denne teknologien nye DNA aptamerer som inneholder kjemisk modifiserte nukleotider som meget spesifikke proteinbindende reagenser i et unikt multiplekset assay som endrer mengden av hver målrettet protein inn i en tilsvarende mengde av aptamer, som er kvantifisert med en tilpasset hybridisering matrise. Protein mengder registreres som relative fluorescerende enheter (RFU), som kan konverteres til konsentrasjoner med standardkurver. Plattformen er svært automatisert [26] og skalerbar for å imøtekomme et bredt spekter av prøvekapasitet. I denne studien ble 813 protein mål målt i 15 ul serum for hvert fag, og alt 1326 sera ble analysert i en kontinuerlig prosess over en periode på åtte dager. Totalt sett er resultatene analog til litt mer enn en million høykvalitets ELISA-målinger. Prøvene ble behandlet i flere 96-brønners mikrotiterplater, og alle 1326 prøver ble fordelt tilfeldig og deres identitet ble helt blendet hele proteomikk analyseprosessen.

Biomarker utvalg

Biomarkører ble valgt med en strategi utformet for å identifisere analytter med høyest ytelse i klassifisere NSCLC saker fra kontroller på tvers av alle studiesteder og som ble minst berørt av preanalytiske variabler. I det første trinnet i denne analysen, fjernet vi analytter som viste uventet variasjon i forhold til intern kontroll, på grunn av, for eksempel, ustabilitet prøven. I denne prosessen, valgte vi et sett av analytter som gjorde det godt i til sammen seks naive Bayes (NB) klassifiserer trening analyser. Først delte vi treningssettet inn i to atskilte populasjoner å kontrollere for mulige biologiske variasjoner mellom dem: (1) alle saker og kontroller med godartede knuter identifisert ved CT; og (2) alle saker og alle andre røyker kontroller (nodule status ukjent). For hver populasjon, vi sammenlignet tilfeller til kontroller i tre NB trening analyser utformet for å kontrollere for potensielle preanalytiske variasjon mellom studiesteder. De tre NB analyser startet med et unikt sett av potensielle biomarkører basert på følgende kriterier: (1) tilfellene versus kontroller KS≥0.3 for alle sammenligninger innenfor hvert av de fire studiesteder; (2) tilfellene versus kontroller KS≥0.3 for å sammenligne alle områder kombinert; (3) begge kriteriene ett og to ble møtt. For hver analyse, brukte vi en grådig frem søkealgoritme for å velge undergrupper av potensielle biomarkører, bygge NB classifiers (se nedenfor), og scoret sine resultater for klassifisering lungekreft og kontroller ved hjelp av treningssettet. I denne prosessen, denne meta-heuristisk tilnærming søker effektivt klassifikator plass for å identifisere potensielle biomarkører som gir best klassifisering. Vi brukte et enkelt mål for diagnostisk for klassifikasjoner, den numeriske summen av sensitivitet + spesifisitet, og målt hvor ofte potensielle biomarkører ble valgt av grådig algoritme for inkludering i Klassifiserings paneler med følsomhet + spesifisitet ≥1.7. Dette trinn produserte et sett av potensielle biomarkører for hver av de seks parallelle analyser. Vi valgte det siste settet av biomarkører som foreningen av disse seks sett.

Statistiske metoder

KS statistikken er en ikke-parametrisk mål på forskjellen mellom to distribusjoner. De to-sample KS Statistikken er: hvor og er empiriske kumulative distribusjoner for to populasjoner av verdier

Den naive Bayes klassifikator forutsetter uavhengighet mellom prøvene, og modeller fordelingene av trening klasser å spå [27. ]. Vi brukte normalfordelinger å modellere våre data. Men funksjonene i vår data inneholder ofte distribusjoner med tunge haler så maximum likelihood estimering av fordelingsparametere virker dårlig. Derfor modellert vi våre distribusjoner som log-normal distribusjoner og brukt Gauss-Newton algoritme for å passe dataene.

Vi konstruerte Bayesianske classifiers bruker sett av potensielle biomarkører identifisert som beskrevet ovenfor. Vi brukte en parametrisk modell for å fange opp den underliggende protein distribusjon for en gitt tilstand. Den enkleste parametrisk modell for sannsynlighetstetthet funksjonen (pdf) for et enkelt protein er en normalfordeling, fullstendig beskrevet av en gjennomsnittlig u og varians σ

2 (Eq. 1). (1)

Mange protein fordelinger ble observert som normal i forhold til logaritmen av konsentrasjonen. De numeriske cdfs kan passe til en normalfordeling i logg konsentrasjoner x (Eq. 2). (2)

Modellene passe dataene godt. Mer komplekse modeller av sannsynlighetsfordelingen funksjoner kan brukes når berettiget, men den enkle modellen ga en god beskrivelse av våre data.

For å kombinere flere markører, brukte vi en multivariat normalfordeling å modellere sannsynlighetstetthetsfunksjonen på (pdf ) for hver klasse. For N markører, er den multivariable pdf gitt ved den følgende ligning (Eq. 3). (3)

hvor x er et n-komponentvektoren av proteinnivåer, μ er en n-komponentvektoren av midlere protein nivåer, er Σ den nxn kovariansmatrisen og | Σ | og Σ

-1 er dens determinant og inverse. I sin enkleste form, kan vi anta en diagonal representasjon for Σ. En slik tilnærming fører til en naiv Bayes modell, som forutsetter uavhengighet mellom markørene. I dette arbeidet har vi utelukkende bruke naive Bayes modell for å konstruere classifiers. Parameterverdiene for μ og Σ anvendes i naive Bayes klassifiseringen ble oppnådd fra ikke-lineær regresjonsanalyse som beskrevet ovenfor.

Tilsetningen av påfølgende markører med gode KS avstander vil generelt forbedre ytelsen klassifiseringen dersom det senere lagt markører er uavhengig av den første markør. Vi søkte etter optimale markør paneler med en «grådig» algoritme, som er noen algoritme som følger problemløsning meta-heuristiske av å gjøre lokalt optimale valg på hvert trinn med håp om å finne den globale optimale. Vi brukte følsomhet (brøkdel av sanne positive) pluss spesifisitet (brøkdel av sanne negative) som klassifiserings poengsum. Algoritmen fremgangsmåte som kan benyttes her er beskrevet som følger. Alle enkelt analytt classifiers ble samlet inn en tabell av potensielle biomarkører og lagt til en liste. Deretter ble alle mulige tilsetninger av en andre analytt til hver av de lagrede enkelt analytt-klassifiserere utført, å lagre et forutbestemt antall (10 000 i dette tilfellet) av de beste scoring parvis på en ny liste. Alle mulige tre markør classifiers er utforsket ved hjelp av denne nye liste over de beste to-markør classifiers, igjen sparer beste tusen av disse. Denne prosessen fortsetter til poengsummen enten platåer eller begynner å svekkes som ekstra markører legges

Resultater

Vi analyserte 1326 serumprøver fra fire uavhengige biorepositories:. New York University (NYU) [24] ; Roswell Park Cancer Institute (RPCI) [25]; The University of Pittsburgh (PITT) [5]; og en kommersiell biorepository (BioServe (BS)) (tabell 1). Studien inkluderte pasienter med diagnosen patologisk eller klinisk stadium I-III NSCLC og en høy-risiko kontroll befolkning med en historie av langvarig bruk av tobakk, inkludert aktive og eks-røykere med ≥10 pack-års røyking (tabell 2 og 3). Kontroll populasjoner ble valgt tilfeldig innenfor hvert studie for å representere pasientpopulasjonen i fare for lungekreft som ville være kandidater for CT screening, med et forhold mellom sak til styring av 1 til 3.5.

Prøver ble tilfeldig fordelt i segregerte sett for klassifikator trening og verifikasjon (figur 1) med ingen signifikante forskjeller i demografi mellom disse settene (tabell 2). Mer enn 45% av NSCLC-tilfellene ble patologisk bekreftet stadium IA eller IB eller klinisk fase I med adenokarsinom som representerer de store histologisk diagnose (tabell 3). Alle lungekreftpasienter hadde en biopsi-påvist kreftdiagnose.

Vi målte mengden av 813 proteiner i hver av de 1326 prøvene med vår proteomikk oppdagelse plattform [18]. Vi fulgte en pre-spesifisert to-fase analyse plan for å identifisere biomarkører og utvikle en klassifikator å skille lunge kreft fag fra kontroller i treningssettet (treningsfase) og for å verifisere klassifikator ytelse med blindet uavhengig bekreftelse sett (bekreftelse fase). Treningen fasen innebar to trinn -. Biomarkør utvalg og algoritme trening med kryssvalidering

Slik velger biomarkører vi gjennomført en systematisk analyse som snevret potensialet biomarkør feltet for algoritmen trening for å øke sannsynligheten for ekte oppdagelse, men likevel kastet en relativt bred nett. Vi brukte en naiv Bayes (NB) metode for å systematisk vurdere potensiell biomarkør ytelse med forhåndsdefinerte kriterier. Vi søkte NB metode for å undergrupper av treningsdata til å utvide vår cast for potensielle biomarkører (se Methods). Resultatene identifisert et sett med 44 potensielle biomarkører (tabell 4) som skiller lungekreft fra kontroller på tvers av en rekke sammenligninger i treningssettet mens potensialet preanalytiske variabilitet minimerer – gjenstander introdusert av variasjoner i prøvetaking og lagring (se nedenfor) [28] [29].

for å utvikle en diagnostisk å skille NSCLC fra kontrollene, trente vi NB classifiers starter med de 44 potensielle biomarkører vi identifisert ved hjelp av en «grådig» fremover søkealgoritme og ti ganger stratifisert kryssvalidering, og starter med tre biomarkører og legge en mer på hvert trinn. Vi vurderte klassifikator ytelse med pre-spesifiserte prestasjonskriterier (tabell 5). Vi bygget 45 7-12-biomarkør classifiers fra dette settet med 44 potensielle biomarkører som møtte våre ytelseskriterier, noe som tyder på at det er betydelig redundans i informasjonen i mengden av potensielle biomarkører. Cross-validert klassifikator ytelse nådde en forestilling platå med tolv biomarkører. Etter vår analyse plan, valgte vi fra de 45 som følge classifiers med den høyeste ytelsen av forhåndsdefinerte kriterier (tabell 5), inkludert diskriminering av NSCLC fra kontroller, påvisning av Stage I sykdom, og påvisning av kreft i kronisk obstruktiv lungesykdom (KOLS). I treningssettet, oppnådd klassifikator 91% sensitivitet, 84% spesifisitet, og et område under kurven (AUC) på 0,91 (Figur 2). Resultatene (tabell 6) viser at sensitiviteten opprettholdes for Stage I NSCLC (90% for treningssett). Klassifikator gode resultater på prøver fra alle fire studiesteder (figur 3).

De tolv biomarkører er vist i tabell 7. De estimerte serumkonsentrasjoner for disse markørene span 4 logger (22:00-100 nm). Omtrent halvparten av kontrollgruppen hadde benigne lungeknuter som detekteres av CT (tabell 2), og den utførelse av sortereren i den undergruppen var lik den til hele (tabell 6). Vi testet også effekten av andre attributter som kan påvirke klassifikator ytelse som alder, røyking historie, og KOLS, men fant lite effekt (tabell 8 og 9). Alder har en moderat virkning på formen av ROC-kurven fordi sannsynligheten for kreft øker med alderen, men denne effekten kan reguleres ved å justere den forutgående sannsynligheten for kreft i Bayes klassifikator modell. Klassifiseringen resultatene av den faste algoritmen ble testet på blindet uavhengig bekreftelse sett og bekreftet av en tredjepart leseren å oppnå 89% sensitivitet og 83% spesifisitet, nesten matchende treningssettet ytelse.

for å finne ut om våre klasse resultatene ble påvirket enten av alder, røykestatus eller røyking historie, som er demografien med signifikante forskjeller mellom case og kontroll populasjoner (tabell 2), sammenlignet vi klassifikator ytelse på undergrupper av den trening satt befolkningen delt inn i grupper basert på medianverdien av disse attributtene. Resultatene viser lignende klassifikator ytelse for alle undergrupper (Tabell 8). For ytterligere å vurdere om våre klasse resultatene ble påvirket enten av alder, røykestatus eller røyking historie, vi testet for mulig korrelasjon av de tolv biomarkører med disse variablene. Resultatene viste ingen korrelasjon med unntak av endostatin, som viste en moderat korrelasjon, økende med alderen. Denne virkning kan kompenseres ved å justere den tidligere sannsynligheten for kreft i Bayes klassifikator modell. Vi har også vurdert spesifisiteten av sorteringsapparatet for diskriminering av kontroller som er kjent for å ha luftveisobstruksjon (målt ved GOLD score). Resultatene er vist i tabell 9. spirometridata var ufullstendig for NSCLC tilfeller, så vi kunne ikke beregne følsomhet.

preanalytiske variasjonen ligger under vanlige feil å oversette kandidat biomarkører i klinisk anvendelige tester [20], [29]. Vi vurderte preanalytiske variasjon i denne studien ved å måle forskjeller i proteinnivåer innen samme sykdom klasse (NSCLC eller kontroll) mellom ulike nettsteder og sammenligne dem til forskjeller observert mellom NSCLC og kontrollgrupper. Resultatene (figur 4) viser betydelig preanalytiske variasjon mellom områder. Men proteiner som er mest berørt er forskjellig fra potensielle NSCLC biomarkører. Mange proteiner som utviser preanalytiske variasjon (tabell 10) er kjent for å være utsatt for variasjoner i prøvetaking og håndtering [28], [29]. Dette resultatet bekrefter at pre-analytisk variasjon eksisterer i vår studie og gir bevis for at, som utformet, overvinner vår studie i stor grad denne variasjonen for å maksimere sjansene for å oppdage ekte, robuste biomarkører av NSCLC

Top rad. KS avstander for NSCLC versus kontroll utdelinger. Nederste rad: gjennomsnittlig KS avstander for alle 12 parvise sammenligninger mellom de fire områdene, case og kontrollprøver analyseres separat. Proteiner ble bestilt ved å trekke NSCLC KS avstand fra gjennomsnittet nettstedet KS avstand. Dette avslørte grupper av NSCLC biomarkører (øverst til høyre) i kontrast med preanalytiske markører (nederst til venstre).

Bilder

Diskusjon

Den primære funnene i denne studien er 44 potensielle lungekreft biomarkører som diskriminerer etapper i-III NSCLC tilfeller fra utsatte storrøyker kontroller som kan kombineres til Klassifiserings paneler som oppfyller og overgår forhåndsdefinerte ytelseskriterier. Resultatene av denne studien er nye i det følgende: (1) de fleste av proteinene identifisert i denne studien ikke tidligere er blitt identifisert som serum lungekreft biomarkører; (2) vi har identifisert nye protein biomarkør paneler som skiller lunge krefttilfeller fra hensiktsmessige kontroller med høy sensitivitet og spesifisitet på en uavhengig og blindet verifisering sett; og (3) denne studien oppnår et nytt nivå av bevismessige standard i kliniske proteomikk biomarkør studier som et resultat av en stor utvalgsstørrelse, et studiedesign for å kontrollere preanalytiske variabilitet, og den unike evnen til denne proteomikk teknologi for å avhøre den sirkulerende proteome kvantitativt med en bredde, følsomhet og dynamisk område enestående av andre fleksible serum profilering plattformer [18], inkludert massespektrometri [18], antistoff-arrays [18], og autoantistoff matriser [18], [30] – [32]. Denne studien er den første storskala anvendelse av denne teknologien, og den største kliniske proteomikk biomarkør studien til. Som sådan, tar sikte på å overvinne denne studien kritiske confounders og begrensninger av kliniske proteomic biomarkør studier som bidrar i stor grad til den manglende oversettelse til klinikken på grunn av falsk oppdagelse [20]. Disse confounders og begrensninger omfatter klinisk prøve integritet, preanalytiske variasjon, og utilstrekkelig studiedesign og makt.

Den beste samlede resultater klassifikator brukt 12 av de 44 biomarkører og oppnådde 91% sensitivitet og 84% spesifisitet i cross-validert trening og tilsvarende ytelse på 89% sensitivitet og 83% spesifisitet i blindet validering. Disse resultatene gir bevis for at disse biomarkører er gyldige og at klassifikator var ikke over-fit til treningsdata. Denne ytelsen og biologisk plausibilitet (etter) av de 12 biomarkører er oppmuntrende for neste fase av utviklingen – validering på en selvstendig klinisk studie

De 12 biomarkører identifisert i denne studien (tabell 4) omfatter funksjoner av cellen. bevegelse, inflammasjon og immunovervåkning som kan bidra til utvikling av kreft. De fleste av de 12 proteiner har blitt forbundet generelt med kreft biologi, noen har blitt identifisert som kandidat lungekreft biomarkører, har ingen blitt validert som lungekreft biomarkører, og ingen er i klinisk bruk [33], [34]. Fire av 12 proteiner er blitt identifisert i serum og lungekreft vev eller cellekultur som kandidat lungekreft biomarkører – cadherin-1 [35], endostatin [36], HSP90 [37], og pleiotrofinprotein [38]. Åtte av de 12 proteiner, CD30 ligand, LRIG3, MIP-4, PRKCI, RGM-C, SCF-sR, SL-selektinuttrykk, og JA, har ikke tidligere blitt identifisert i serum som lungekreft biomarkører og representerer nye funn.

Seks av de 12 proteinene, CD30 ligand, endostatin, HSP90, MIP-4, pleiotrofinprotein, PRKCI, og YES ble observert oppregulert i lungekreft i denne studien, i samsvar med de foreslåtte biologiske rolle i spredning, invasjon, eller vert inflammatoriske og immunrespons mot tumoren. CD30 liganden er et medlem av TNF-superfamilien ligand, som stimulerer T-cellevekst.

Legg att eit svar