Abstract
Late diagnostisering av lungekreft er fortsatt den viktigste årsaken til høy dødelighet i lungekreft. Lunge cancer er en heterogen sykdom som induserer en immunrespons mot forskjellige tumorantigener. Flere metoder for søking autoantistoffer har blitt beskrevet som er basert på kjente renset antigen paneler. Målet med studien er å finne bevis for at deler av det antigen-bindende domener av antistoffer er delt mellom lungekreftpasienter. Dette ble undersøkt ved en ny tilnærming basert på sekvenserings antigen-bindende-fragmenter (Fab) av immunoglobuliner valgt proteomic teknikker uten bruk av tidligere kjente antigen paneler. Fra serum av 93 deltakere i NELSON rettssaken IgG ble isolert og deretter fordøyd i Fab og Fc. Fab ble renset fra den digerblandingen ved hjelp av SDS-PAGE. Fab inneholder gel-band ble skåret ut, tryptiske fordøyd og målt på en nano-LC-Orbitrap-massespektrometri system. Multivariat analyse av massespektrometri dataene etter lineær kanonisk diskriminant analyse kombinert med trinnvis logistisk regresjon resulterte i en 12-antistoff-peptid modell som var i stand til å skille lungekreftpasienter fra kontrollene i en høy risikopopulasjonen med en sensitivitet på 84% og spesifisitet 90%. Med vår Fab-rensing kombinert Orbitrap-massespektrometri tilnærming, fant vi peptider fra de variable-deler av antistoffer som er delt blant lungekreftpasienter
Citation. De Costa D, Broodman jeg, Calame W, Stingl C, Dekker LJM, Vernhout RM, et al. (2014) Peptider fra Variable Region av spesifikke antistoffer er delt mellom lungekreftpasienter. PLoS ONE 9 (5): e96029. doi: 10,1371 /journal.pone.0096029
Redaktør: Sophia N. Karagianniss, Kings College London, Storbritannia
mottatt: 22 juli 2013; Godkjent: 03.04.2014; Publisert: 01.05.2014
Copyright: © 2014 de Costa et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Forfatterne takker Roche Diagnostics for deres ubegrenset forskningsstipend og NWO (Den nederlandske organisasjonen for Scientific Research) for sin økonomiske støtte (Zenith tilskudd 93511034). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser. Denne forskningen ble støttet delvis av Roche Diagnostics av en ubegrenset forskningsstipend. Roche Diagnostics ikke har noen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet. Støtte fra Roche Diagnostics endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.
Innledning
Lungekreft er i dag den vanligste kreftformen med høyest dødelighet ( 28%) i verden på grunn av diagnosen på et avansert stadium. [1], [2] Men med demonstrasjon av en 20% lungekreft dødelighet reduksjon av NLST studien (National Cancer screening trial) lavdose CT screening for lungekreft kreft får stadig større interesse. [3] NELSON rettssaken (nederlandsk-belgiske lungekreft screening rettssaken) viste at etter tre screening runder 3,6% av alle deltakerne i denne studien hadde en falsk-positiv skjermen resultat. [4] Selv om fortsatt ca. 27% av deltakerne ble utsatt for invasive prosedyrer som avslørte godartede lungesykdommer ved baseline screening (første runde NELSON prøveversjon). [5] En god biomarkør (panel) vil redusere dette antallet unødvendige invasive prosedyrer. I øyeblikket utvalg av høyrisikopersoner for screening er gjort av alder og røyking historie. En biomarkør eller biomarkør panel ville være nyttig å velge høyrisikopersoner for CT screening, da dette kan oppdage lungekreft på et tidligere stadium enn CT.
Antistoffer kan være interessant som markører for å skille lungekreftpasienter fra lunge kreft frie individer. Disse antistoffene blir produsert av immunresponsen som er rettet mot spesifikke tumor-assosierte antigener (TAA) i løpet av kreftutvikling, sannsynligvis på et tidlig stadium [6] -.. [12] Nylig Liu et
al
viste at konsentrasjonen av sirkulerende IgG-autoantistoffer mot ABCC3 transporter var signifikant høyere hos kvinnelige pasienter adenokarsinom enn hos kvinnelige kontroller [13].
Humane antistoffer består av fire kjeder, to identiske tunge kjeder og to identiske lette kjeder. Hver lett kjede har en variabel (V
L) og konstant (C
L) domene. De tunge kjedene har tre forskjellige konstante domener (C
H1, C
H2 og C
H3) og en variabel domene (V
H). De første konstante og variable deler danne antigenbindende fragment (Fab). De gjenværende to konstante deler av den tunge kjeden dannelse av Fc-regionen. Innenfor de Fab seks komplementaritetsbestemmende regioner (CDR1, CDR2 og CDR3) er plassert mellom rammene. Disse CDR bestemme antigenspesifisiteten og danner en overflate som er komplementær til en form som er en del av antigenet. CDR er hypervariable regioner av antistoffet. [14] Antistoffer, eller immunglobuliner, er svært komplekse molekyler med stor variasjon i deres aminosyresekvens. Den mulige mangfold i immunglobuliner er anslått mellom 10
13 og 10
50 og derfor funn av lignende eller identiske sekvenser i forskjellige individer ved en tilfeldighet er i teorien, svært lite sannsynlig. [14], [15] Men studier av ulike forskergrupper har nylig vist at til tross for denne teoretiske liten sjanse for å ha identiske antistoffer mellom individer, er det mulig å identifisere lignende eller identiske sekvenser [16] -. [19] En studie utført av oss viste at i PNS (paraneoplastic nevrologisk syndrom) pasienter identiske muterte primære aminosyresekvenser for komplementaritetsbestemmende regioner (CDR) eksisterer. Disse CDR er spesifikke for kjente onconeural antigener, slik som HUD og Yo i PNS pasienter, og mest interessant var delt mellom ulike PNS pasienter [20].
Formålet med denne studien er å finne bevis for at spesifikke antistoff peptider er delt mellom lungekreftpasienter i motsetning til lungekreft frie individer. Som lungekreft er en heterogen sykdom og med variasjon av et antistoff kan det være en utfordring å detektere identiske tumor-relaterte antistoffer i serum. Vi har eksperimentelt teste hypotesen om at bestemte sterkt variable regioner av et antistoff, inkludert komplementaritetsbestemmende regioner (CDR) kan deles mellom lungekreftpasienter. Vår eksperimentelle tilnærming for å verifisere denne hypotesen er basert på sekvenseantistoff peptider ved massespektrometri. Måling av serum ved hjelp av et massespektrometer kan være for komplisert på grunn av den høye variabilitet som nevnt ovenfor. Rensing IgG Fab fra serum vil redusere kompleksiteten av prøven fra en lungekreft pasienten, og vil gi mulighet til å fokusere på rene antistoff fraksjoner.
Materialer og metoder
Etikk og juridisk godkjenning
NELSON rettssaken ble godkjent av den nederlandske Helserådet, helseministeren og av det medisinske etiske komiteer av alle deltakende sentre (klinisk studie nummer ISRCTN63545820). Alle deltakerne for denne studien gitt skriftlig informert samtykke til bruk av deres serumprøver. Giveren av referanseprøve brukt i denne studien gitt skriftlig samtykke til bruk av hans /hennes serum for vitenskapelige formål i henhold til retningslinjene i Blodbanken Sanquin, Rotterdam, Nederland.
NELSON Trial
NELSON (nederlandsk-belgiske Lung Cancer Screening prøve) rettssaken har startet rekruttering i 2003 ved å sende spørreskjemaer til 548,489 menn og kvinner mellom 50-75 år. Deltakerne måtte være nåværende eller tidligere røykere i minst 25 år, røyker minst 15 sigaretter per dag eller røyke i minst 30 år, røyking minst 10 sigaretter per dag. Fra 548,489 hanner og hunner 15,822 deltakere ble inkludert i studien. Disse deltakerne ble randomisert til en skjerm eller kontroll arm. Screeningen armen fikk CT screening i år 1,2 og 4. kontrollgruppen fikk ingen screening (vanlig omsorg). Deltakere med et positivt testresultat ble henvist til en pulmonologist. Hvis diagnosen lungekreft ble etablert pasienten ble behandlet, og gikk av screening. Deltakere med ubestemt testresultat gikk en oppfølging skanning tre måneder senere. Hvis en negativ test resultat ble oppnådd den nest runde CT scan var planlagt for 12 måneder senere [5], [21].
Studiepopulasjon
For denne studien, valgte vi 44 lungekreft tilfeller og 49 kontroller (Supplerende Figur S1) fra kreft screening rettssaken NELSON lunge. [5], [21] for tilfeller av oppdagelsen sett, NELSON 1, bare tidlig stadium (i og II) plateepitelkreft (n = 4) eller adenokarsinomer (n = 21) ble valgt. De ble nøye avstemt til kontrollene etter alder, kjønn, røykestatus, varighet og antall sigaretter per dag, kronisk obstruktiv lungesykdom (KOLS) status, asbest eksponering og stedet for blodprøvetaking (Supplementary Tabell S1). Utvalgskriteriene for tilfeller av NELSON 2 (validering) satt (n = 19) var lik, bortsett fra at alle ikke-småcellet histologi og sykdomsstadier ble tillatt (Tilleggs Tabell S1) for å utfordre resultatene av discovery fasen . På formål de kliniske kjennetegn ved kontrollpasienter er ulik med NELSON 1 sett i forhold til røyking og kols. Derfor er denne NELSON to sett ikke sammenliknes med den NELSON 1 sett. Ved å bruke en valideringsprøvesett (NELSON 2) valgt på denne måten, kan robustheten metoden bestemmes.
Serumprøver ble samlet for både NELSON en og NELSON 2 innhentet fra baseline CT screening (første runde) .
IgG Fab Rensing og NanoLC Orbitrap MS Analyser
Før alle prøveopparbeidelse prosedyrer, ble alle prøvene blindet og nøkkelen for avblinding ble satt på databasen koordinator for NELSON rettssaken. IgG Fab rensing og nano-LC Orbitrap MS-analyser ble utført i henhold til fremgangsmåten beskrevet tidligere. [22] For en mer utvidet beskrivelse det henvises til Tilsetnings Methods S1. I korte trekk, ble IgG isolert fra serum og fordøyd i Fab- og Fc (Figur 1). Fab-delen ble isolert fra det fordøyde blandingen ved SDS-PAGE. De Fab inneholder gelbåndene ble skåret ut og tryptisk fordøyd. Et blankt gel som ikke var lastet med protein ble tatt ut og behandlet som de skåret Fab band for bakgrunnen vurdering.
I denne flytskjema de ulike stegene i Fab rensing, Fab måling og dataanalyse er illustrert. I gul Fab rensing er vist i blått den massespektrometri måling, i grønt dataanalyse og i rosa den statistiske analysen.
LCMS målinger ble utført på en Ultimate 3000 nano LC-systemet (Thermo Fisher vitenskapelig /Dionex, Amsterdam, Nederland) online koblet til en hybrid lineær ionefelle /Orbitrap MS (LTQ Orbitrap XL, Thermo Fisher Scientific, Bremen, Tyskland). 4 pl av den diger Fab ble lastet inn i systemet. For flere innstillinger og løsninger vi refererer til supplerende metoder S1 og tidligere publiserte arbeider. [22] Alle prøvene ble randomisert før måling og ble målt i grupper på 11 prøver, inkludert en referanseprøve. En referanseprøve ble anvendt som en kvalitetskontroll for hver måling og analysetrinnet. En blindprøve ble kjørt i starten og slutten av målingen for å bestemme bakgrunnen og eksistensen av carry-over i løpet av kromatografi.
Data Analyser
rådata filer ble lastet inn i programvaren Progenesis ( Figur 1) (Version 3.1;. Nonlineair Dynamics Ltd, New Castle, UK) og prosesser som er beskrevet tidligere [22] i tillegg, utførte vi en Progenesis analyse der i stedet for å detektere egenskaper (peptid masser (m /z)) i hele prøver på samme tid ved hjelp av programmet ble egenskapsdeteksjon utføres individuelt per prøve. Funksjoner plukket dermed ble matchet til Progenesis resultattabell som inneholder alle prøvene med en masse toleranse på 5 ppm. Dette var en fordel, ettersom funksjoner oppstår ofte med lav intensitet i en prøve, og deretter matchet av Progenesis i alle andre prøver. Dette resulterer i feil relatert til bakgrunnen hvis man tar de respektive massespektra i betraktning. Med denne relativt liten justering sikrer det at en funksjon oppdages mer nøyaktig gjennom prøvene. Dataene ervervet av denne tilnærmingen ble filtrert ved hjelp av de samme standardinnstillingene. [22] Et eget datamatrise for hvert tilfelle og kontroll ble generert bestående av alle funksjoner med tilsvarende rå overflod og oppholdstid. For å generere en stor datamatrise som inkluderer alle tilfeller og kontroller fra disse separate data matriser, vi søkte masser fra egne data matriser per sak eller kontroll i hele datamatrisen generert fra standard Progenesis analyser. Hver masse måtte oppfylle tre kriterier: 1) m /z (± 5 ppm), 2) retensjonstid (± 1 min) og 3) identisk charge. Hvis en masse med disse tre kriterier den rå overflod fra en fullstendig matrise (generert av en generell prosedyre [22] som anbefales av produsenten) ble anvendt. Hvis en masse ikke oppfyller disse kriteriene en null ble generert for den rå overflod.
MS /MS spektra ble hentet fra rådatafiler og omdannes til Mascot kompatible filer ved hjelp av ekstrakt-msn (del av Xcalibur versjon 2.0. 7, Thermo Fisher Scientific Inc.). Mascot (versjon 2.3.01; Matrix Science Inc., London, UK) ble brukt til å utføre søk i databaser mot den menneskelige undergruppe NCBInr database (versjon mars
th 11, 2009, Homo sapiens arter begrensning; 222,066 sekvenser) av den ekstraherte MS /MS-data (figur 1). Database (NCBInr) avhengig peptid identifikasjon og
de novo
sekvense resultater (programvare PEAKS, versjon 5.2, bioinformatikk Solutions Inc., Waterloo, Canada) ble også inkludert i Progenesis gitt matrise. For innstillingene som brukes for databasesøk og
de novo
sekvense vi refererer til tidligere publiserte arbeider og metoder S1. [22] For
de novo
sekvenser så langt ikke kjent fra en database, toppene programvaren identifiserer en leucine til isobar aminosyrene leucin og isoleucin. Database avhengig peptid identifikasjon resultater eller
de novo
sekvense resultater ble inkludert i matrisen basert på den høyeste peptid identitet poengsum (Data S1, data S2 og Data S3). Alle peptidsekvenser fra sakene og kontroller identifisert av Mascot eller toppene ble senere justert til databaser som inneholder V, D, J eller C-regionen germline sekvenser avledet fra IMGT database (IMGT, den internasjonale Immunogenetics informasjonssystem http: //www.imgt. org) ved anvendelse av BLAST-algoritmen (figur 1). [23] peptider med tilstrekkelig kamp (bitscore ≥12.5 og innretting ballen ≥70%) til V-regionen database ble tilordnet til en posisjon på immunoglobulin molekyl med CDR varierende lengder (data S1, data S2 og data S3).
rådata filer av referanseprøver av hvert datasett ble separat lastet inn i programvaren Progenesis og fulgte standard prosedyrer som nevnt ovenfor. For å bestemme andelen av variasjonen mellom de henvisning prøve målinger utført på forskjellige tidspunkter, ble median r kvadraters beregnet for hver prøve. Hver prøve ble sammenlignet med alle de andre referanseprøvene, målt ved at datasettet og en median r-kvadrat ble beregnet for hver prøve. Sammenligningen var basert på rå overflod av hver funksjon. Dette ble utført separat for begge uavhengige datasett, Nelson 1 og NELSON 2 (tabell S2A og S2B).
For å finne ut hvor stor andel av variasjonen (figur 1) mellom prøvene (tilfeller og kontroller) av de to separate datasett de samme beregninger ble utført som beskrevet ovenfor i hvert enkelt tilfelle og kontrollprøve. Denne analysen ble utført separat for de to datasett (Tabell S2C og S2D). Basert på fordelingen av median R-ruter av hver prøve, bestemte vi oss for å sette en cut-off på r-torget 0,70. Sakene og kontroller som oppnådde en median r-plassen under 0,70 ble ekskludert fra datasettet og videre analyser. Beregningene ble utført ved bruk av Microsoft Excel 2007.
Statistical Analysis
To uavhengige datasett har blitt brukt, NELSON en og NELSON 2. Det første trinnet i den statistiske analysen besto av testing for normalitet ved hjelp av skjevhet og kurtosis distribusjons egenskaper på intensiteten av rå overflod av funksjonene [24].
Deretter ble univariat analyse utført, bruk enten en uparet t-test (parametrisk) eller en Mann-Whitney U-test ( ikke-parametrisk) for å påvise signifikante forskjeller i rå overflod mellom saker og kontroller i NELSON 1 sett. [25] betydningen grensen ble satt til 0,05 (tosidig). Alle identifiserte funksjoner som ble funnet signifikant forskjellig ble brukt for valg av funksjoner for å skille lungekreftpasienter fra kontroller.
For det andre, vi brukte for multivariat analyse bare betydelig identifiserte funksjoner som hadde ≥2 utløste MS spektra. Vi søkte en multivariat analyse på funksjoner som oppfyller disse kriteriene med en (logistisk) trinnvis regresjonsmodell (y = a
1 × 1 + a
2 × 2 + en
3 × 3 … .en
nx
n + c) i kombinasjon med kanoniske lineær diskriminant analyse (tabell S3a). [26], [27] Dette resulterte i en kombinasjon av funksjoner med høy sensitivitet og spesifisitet i NELSON en datasettet. Denne kombinasjonen av egenskaper ble så testet i den NELSON to datasettet ved å bruke samme metode som beskrevet ovenfor. [26], [27] Legg merke til at for det NELSON to datasettet det var nødvendig for å optimalisere koeffisientene i modelligningen i rekkefølge (tabell S3b ) for å optimalisere sensitivitet og spesifisitet i NELSON to datasett.
for å unngå en tilfeldig feil effekt i modellering, bekreftet vi statistisk bakgrunn av kombinasjonen av funksjoner i en permutert datasett. Bakgrunnen Evalueringen besto av den samme arbeidsflyten som brukes til modellbygging, bortsett fra at i begynnelsen tildeling av saker og kontroller av NELSON 1 ble permutert (figur S2). Denne permutasjon ble utført tolv ganger, og de oppnådde resultater ble testet for signifikans mot modell resultat av z-test (ensidig; p 0,05). Siden modellbygging var basert på data som er angitt i NELSON en etter som validering av denne modellen ble gjort ved hjelp av data i NELSON 2, ble den samme tilnærmingen tatt etter hver enkelt permutasjon. Også her, merk at for NELSON to datasett koeffisientene i modellen ligningen ble optimalisert.
Alle analyser på modellbygging, validering og bakgrunn evalueringen ble gjort ved hjelp av Stata, versjon 12 (StataCorp, Texas, USA). Gjennom hele undersøkelsen ved hjelp av tosidig testing (unntatt for ensidig testing for Z-verdier), ble p-verdier på 0,05 eller lavere anses for å være statistisk signifikant. Statistiske analyser av data vist i tabell S1 ble generert av SPSS (IBM SPSS statistikk 20). Tiden til kreft ble generert ved å beregne intervallet mellom blodprøvetaking og diagnose for hvert tilfelle.
Resultater
Kliniske Kjennetegn av studiepopulasjonen
Det var ingen signifikant forskjell i de kliniske kjennetegn mellom sakene og kontrollene i NELSON 1 sett (tabell S1). I NELSON to sett, nåværende eller tidligere røyker og KOLS status signifikant forskjellig mellom saker og kontroller (tabell S1). I 72% og 84% av tilfellene av NELSON 1 sett, og NELSON to sett henholdsvis tidsintervallet mellom blodprøvetaking og lungekreft diagnose var mellom 0-1,5 år. Median oppfølging varighet etter blodprøvetaking var for kontroll befolkningen 1925 dager (range 1075-2086 dager) og 1861 dager (range 347-2135) i NELSON 1 sett og NELSON to sett, henholdsvis. Ingen av kontrollene utviklet lungekreft i løpet av oppfølgingsperioden.
Teknisk Variasjon
I løpet av massespektrometri målinger av biologiske prøver vi målt en referanseprøve ved ulike tidspunkt. R-kvadrat verdiene ble beregnet fra Forekomsten av identifiserte proteiner i hvert referansemåling for å vise teknisk reproduserbarhet. Det laveste r-kvadrat-verdi observert i de forskjellige målingene lå mellom 0,84 og 0,93 (Figur 2).
Referanse prøven måles ved forskjellige tidspunkter i løpet av målingen av NELSON en prøvesettet. En gjengivelse av referanseprøven (x-aksen) ble sammenlignet med hverandre replikere prøve basert på det rå overflod av hver funksjon. En r-kvadrat-verdi ble beregnet. Hver prikk representerer en r-square (y-aksen) verdi for sammenligning av den spesifikke replikere med en annen replikere. For hver replikere den gjennomsnittlige r-torget og standardavvik (SD) er vist.
Vi gjorde samme r-torget beregning for 5 tilfeldige biologiske prøver tatt fra NELSON 1 sett som ble målt på to forskjellige LC-kolonner (samme batch) på ulike tidspunkter. Den tekniske reproduserbarhet innenfor hver kolonne resulterte i den laveste R-kvadrat-verdier i området 0,75 til 0,93, men den tekniske reproduserbarheten av de fem biologiske prøver målt på to uavhengige lignende kolonner var lavere. For de to uavhengige lignende kolonner ble observert en median r-kvadrat på 0,52. I figur 3 korrelasjonen mellom hver prøve og mellom kolonnene er vist.
Dette dendrogrammet viser korrelasjonen mellom fem forskjellige biologiske prøver målt på to forskjellige kolonner fra samme batch, kolonne 1 og kolonne 2 (y-aksen). På y-aksen de fem forskjellige prøvene er vist. Prøve 1-5 er målt på en kolonne og 6-10 er målt på kolonne 2. Eksempel 1 og 6 er fra samme individ. Dette gjelder også for prøve 2 og 7, 3 og 8, 4 og 9 og 5 og 10. På x-aksen den euklidske avstand mellom hver prøve er vist. En sterk korrelasjon per kolonne er funnet
I figur 4A oppholdstidene er vist for peptider identifisert med høy selvtillit (Mascot poengsum 60). I Referanseprøver målt samtidig med både NELSON en og NELSON 2. Denne figuren viser at kolonnen ytelsen var sammenlignbar mellom de to ulike LC kolonner for disse rike peptider (r-torget 0,996). I tillegg er abundances observert for disse peptidet også korrelerte godt (figur 4B; r-kvadrat 0,995). Dette tyder på at både kromatografi og massespektrometri utført nominelt, i hvert fall for peptider identifisert med høy tillit ved relativt høy overflod. Dermed blir teknisk variasjon vi ser i hovedsak stammer fra peptider på lavere hopetall, nærmere deteksjonsgrensene (figur S3).
For Referanseprøver som ble målt under både NELSON en og NELSON to, vi sammenlignet peptider som var identifisert med høy selvtillit av en Mascot søk med en score på mer enn 60 i begge settene. For denne undergruppe av peptider, vi sammenlignet retensjonstidene observert i Nelson 1 og Nelson 2 (A) og også deres overflod (B). For disse parametrene observerte vi r-kvadrat verdier for 0,996 og 0,995, henholdsvis.
En estimering av biologisk variasjon ble utført, og resulterte i en median r-kvadrat på 0,43. Dette resultatet var mye lavere enn den laveste r-kvadrat (0,84) observert for teknisk variant. Derfor er den biologiske variasjonen høyere sammenlignet med det tekniske variasjoner.
Disse resultater viser at teknisk variant bør tas i betraktning og justering er nødvendig for sammenligning av uavhengig målte prøvesettene siden NELSON 1 og NELSON to datasett var målt på to forskjellige kolonner ved forskjellige tidspunkt. For å overvinne denne tekniske varianten, søkte vi en rekke filtre på data før vi kan starte en dataanalyse som beskrevet i Material § metoder.
Med disse dataene vi utført separat univariat analyse på alle peptider som finnes i saker og kontroller fra den separate NELSON en og NELSON to datasett. Vi var i stand til å observere 49 peptider som var signifikant forskjellig mellom saker og kontroller i NELSON 1 datasett. Men disse peptidene, med ett unntak, ikke vis denne forskjellen i NELSON to datasett. Det var ingen trend observert (r-torget 0,004) i p-verdier for de to datasettene. Derfor tester univariately på denne måten var heller ikke riktig analyse strategi eller prosess genereres tilfeldig utvalgte funksjoner (sjanse). Derfor ble de betydelige peptider fra NELSON en analysert som et neste skritt i en multivariat måte.
Antistoff Peptide Modell
En optimal kombinasjon av 12 peptider ble identifisert av multivariat statistikk brukes på NELSON 1 sett (oppdagelsen sett). Denne kombinasjonen av peptider kunne skjelne lungekreftpasienter fra kontrollene med sensitivitet og spesifisitet på 96% og 100%, henholdsvis. Dette antistoffet peptid modellen var i stand til å oppdage lungekreft 373 dager i gjennomsnitt (fra 39-1193 dager) før diagnosen ble bestemt. I figur 5 viser vi at kombinasjonen av de 12 peptidene var i stand til å skille mellom tilfeller fra kontroller. De 12 peptidene tilsvarte en sekvens overlappende med CDR2 region, en sekvens overlapp CDR3 region, 7 sekvenser overlappende ramme en region og 3 sekvenser overlappende med Ramme tre regionen i henhold til IMGT databasen (tabell 1).
de rå Forekomsten er utfylt i modellen ligning (y = a
1 × 1 + a
2 × 2 + en
3 × 3 … .en
nx
n + c ) av den aktuelle prøvesettet. På y-aksen (i vilkårlige enheter) tallene som genereres ved ligningen vises.
Vi gjennomført en ekstern validering i NELSON 2 (validering) sett. Når vi anvendt de samme 12 peptid modell til dette settet, kan saker og kontroller ikke lenger skilles. Imidlertid, med de samme peptidene, men etter re-optimalisering av modellkoeffisientene, observerte vi en sensitivitet og spesifisitet på 84% og 90%, respektivt. Som koeffisientene i ligningen er justert vi måtte sjekke for sjansen for overtilpassing av dataene. Derfor ble en bakgrunn evaluering utført som vil bli beskrevet senere. Innenfor NELSON to valideringssettet kombinasjonen av peptider var i stand til å oppdage lungekreft 281 dager i gjennomsnitt (range 54-777 dager) før diagnosen lungekreft.
Vi har sammenlignet den rå overflod av de 12 peptidene mellom de to NELSON datasett. Vi observerte at den gjennomsnittlige rå overflod av fem peptider var høyere i de tilfeller i forhold til gjennomsnittet overflod av kontrollene fra NELSON 1 datasett. Disse data var i samsvar med funnene fra NELSON to datasett (tabell S4). De andre syv peptider hadde en høyere gjennomsnittlig rå overflod i kontrollene av NELSON en datasettet i forhold til overflod i tilfeller av dette datasettet. For bare én av disse syv peptider, kan denne forskjellen bli bekreftet i NELSON to datasett (tabell S4).
Bakgrunn Evaluering av antistoff Peptide Model
I tillegg til funn av den optimale kombinasjonen av peptider som i betydelig grad preget saker fra kontrollene, ble en bakgrunn analyse utført. Som koeffisientene i ligningen for modellen ble justert for hvert datasett vi bekreftet resultatene for et bidrag av tilfeldig utvalg av data og derved mulighet til å finne en tilsvarende modell ved en tilfeldighet. Det samme arbeidsflyten ble brukt for modellbygging, bortsett fra at i begynnelsen av arbeidsflyten sakene og kontrollene NELSON 1 ble permutert tilfeldig (figur S2). Discovery ble utført i 12 ganger permutert NELSON 1 datasett, hver gang med 12 forskjellige peptider som viser den laveste p-verdi (p 0,05) i NELSON 1 sett for den aktuelle permutasjon. Validering av disse modellene ble utført i NELSON 2. Utførelsen av den multivariable modell av permutert funnsett (NELSON 1) er vist i Figur 6A (blå prikker) hvor følsomheten er plottet mot den spesifisitet. Den tilsvarende strøm i valideringssett (NELSON 2) er vist i figur 6B (blå prikker). Dermed hvert punkt i figur 6A (blå prikk) tilsvarer et punkt (blå prikk) i figur 6B. Også funnet ytelsen for de faktiske datasett der antistoff peptid modellen ble funnet er plottet (rød prikk). Det kan observeres at den multivariate passende fra permutert datasettene gir rimelige modeller selv for permutert data i oppdagelses settet.
tolv ganger et permutasjon (bakgrunn) ble utført på en NELSON og NELSON to datasett. Sensitiviteten og spesifisiteten av antistoffet peptid-modellen er vist i rødt. Bakgrunn vurdering: A) Tolv permutasjon kjører er vist med tilsvarende sensitivitet og spesifisitet av NELSON en datasettet (blå). De samme 12 peptidene som finnes i bakgrunnen evaluering av NELSON 1 ble testet i NELSON 2. B) De 12 nedfarter er vist med tilsvarende sensitivitet og spesifisitet NELSON to datasett (blå). Legg merke til, som noen resultater av bakgrunnen analyse funnet sted mer enn en gang, et tilfeldig tall mellom -1 og 1, ble tilsatt til hver sensitivitet og spesifisitet nummer for å sikre at hver analyse (blått punkt) kan ses i figuren.
Men spesielt i validerings datasett, de reelle data (antistoff peptid modell) utviklet seg vesentlig bedre (p 0,05) enn permutert datasett, noe som tyder på at immunglobulin peptider havnen informasjon relatert til sykdomstilstanden til pasienten. Dermed trenger de resultatene vi oppnådde ikke stammer fra en gjenstand i databehandling.
CT Screening Resultat i NELSON en og NELSON 2 Datasett
I figur 7A og 7B screening resultatene fra baseline CT er vist for NELSON en og NELSON to sett, henholdsvis. Ifølge screening protokollen fra NELSON rettssaken, ble en reprise CT scan utført etter en ubestemt screening resultat, ca 3 måneder senere.
CT scan resultatene av A) NELSON 1 og B) NELSON 2 prøvesettene er er vist på tidspunktet for blodprøvetaking (grunnlinje). Dessuten er CT-resultater vist av oppfølgingen CT scan etter ca tre måneder (Oppfølging). For en sak fra NELSON 1 sett ingen Oppfølging CT scan resultat var tilgjengelig. Den siste raden representerer antall positive, ubestemte og negative CT scan resultatene fra baseline inkludert oppfølgingsresultater.
Vi observerte at 68% av tilfellene hadde en positiv filtrering resultat i både NELSON 1 og NELSON to sett i løpet av de første 3 månedene av screeningprogrammet, de andre lungekreft ble diagnostisert etter en annen gjenta CT scan etter 3 måneder eller under andre screeningrunde. Etter i gjennomsnitt 367 dager (range 39-1193 dager) for NELSON 1 og 269 dager (range 54-777 dager) for NELSON 2, screening resultatet var positivt, det vil si mistenker for lungekreft og resulterer i opparbeidelse av pulmonologist klinisk