Abstract
En ny beregningsmåte for prediksjon av proteiner som utskilles i urinen er presentert. Metoden er basert på identifisering av en liste med kjennetegn mellom proteiner som finnes i urinen til friske mennesker og proteiner anses ikke å være urin excretory. Disse funksjonene blir brukt til å trene en sorteringsapparat for å skille de to klasser av proteiner. Når den brukes sammen med informasjon om hvilke proteiner er differensielt uttrykt i syke vev av en bestemt type
versus
kontroll vev, kan denne metoden anvendes for å forutsi potensielle urin markører for sykdommen. Her rapporterer vi detaljert algoritme av denne metoden, og en søknad til identifisering av urin markører for magekreft. Utførelsen av trente klassifikator på 163 proteiner ble eksperimentelt validert ved hjelp av antistoff arrays, oppnå 80% sann positiv rate. Ved å anvende klassifikator på differensielt uttrykte gener i magekreft
vs
normal gastrisk vev, ble det funnet at endotel-lipase (EL) ble i det vesentlige undertrykket i urinprøver av 21 kreftpasienter gastriske
versus
21 friske individer. Total, vi har vist at vår prediktor for urin excretory proteiner er svært effektiv og kan potensielt tjene som et kraftig verktøy i søk etter sykdoms biomarkører i urin generelt
Citation. Hong CS, Cui J, Ni Z, su Y, Puett D, Li F, et al. (2011) En beregningsmetode for Prediksjon av Utløps Proteiner og Søknad til Identifikasjon av magekreft markører i urin. PLoS ONE 6 (2): e16875. doi: 10,1371 /journal.pone.0016875
Redaktør: Vladimir Brusic, Dana-Farber Cancer Institute, USA
mottatt: 22 september 2010; Godkjent: 31 desember 2010; Publisert: 18 februar 2011
Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Public Domain erklæring som fastslår at en gang plassert i det offentlige rom, dette arbeidet kan fritt kopieres, distribueres, overføres, endres, bygd på, eller brukes av alle for ethvert lovlig formål
Finansiering:. Denne studien ble støttet delvis av National Science Foundation (CCF-0621700, DBI0542119004, 1R01GM075331), Jilin University, university of Georgia, Georgia Cancer Coalition, Georgia Alliansen og National Institutes of Health (1R01GM075331, DK69711). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
den raske utviklingen av
Omic
teknikker i de siste årene har gjort det mulig å søke etter biomarkører for spesifikke sykdommer hos mennesker i en systematisk og helhetlig måte, som er vesentlig forbedre vår evne til å oppdage sykdommer på tidlige stadier. De fleste av de tidligere biomarkør studier har vært fokusert på serummarkører [1], hovedsakelig på grunn av den kjente rikdom av serum i inneholder signaler for forskjellige fysiologiske og patofysiologiske forhold.
I forhold til serummarkører, eksisterende urin markører er for det meste relatert til urin-veiene eller nært knyttet sykdommer. Bare i løpet av de siste årene har forbedret proteomikk analyser av urinprøver viste at, som sera, er urin også en rik kilde til informasjon for å oppdage menneskelige sykdommer som graft-
versus
-host sykdom og koronarsykdom [2], [3], [4]. Legg merke til at urin er dannet ved filtrering av blodet gjennom nyrene; derfor noen proteiner i blodet kan passere gjennom filtrene og skilles ut i urinen. Som et resultat av urinproteinene ikke bare gjenspeiler betingelsene i nyrene og urinveier, men også de av andre organer som kan være fjerntliggende fra nyre, som minst 30% av urinproteinene ikke er opprinnelig fra urogenitaltraktus [5], [6]. Den mengde informasjon i urin gjør den til en attraktiv kilde for biomarkør screening siden, sammenlignet med serum, er sammensetningen av urin forholdsvis enkel, og urin er enklere og ikke-invasiv [7], [8].
Marker identifikasjon i urinen kan potensielt gjøres gjennom komparative proteomikk analyser av urinprøver av pasienter med en spesifikk sykdom og kontrollgrupper. Utfordringen i slike søk for urin markører i en blind mote er todelt. (A) Urin kan ha et stort antall proteiner /peptider (i motsetning til den foregående forståelse [8]) med forholdsvis lav overflod. (B) Det dynamiske området i overflod av disse proteinene kan strekke seg over noen størrelsesordener, bredere enn rekkevidden vanligvis dekket av et massespektrometer [9]. Av disse grunner, kan komparative analyser, spesielt (semi) kvantitative analyser, av proteomikk data av urinprøver være svært utfordrende. Dette kan være en viktig grunn til at det ikke er noen pålitelig urin markører for kreftdiagnose.
Vår studie fokuserer på utvikling av en beregningsmåte for nøyaktig forutsi proteiner som er urin excretory (se figur 1 for omrisset av tilnærming ). Disse proteinene må ha bestemte egenskaper som tillater dem å bli utskilt fra cellene først og deretter å bli filtrert ut gjennom glomerulus membranen i nyrene. En fersk proteomikk studie identifisert mer enn 1500 proteiner /peptider som utskilles i urinen gjennom sunne glomerulære membraner [8]. Ved hjelp av dette settet med proteiner og proteiner anses ikke å være urin excretory, har vi identifisert en liste over særtrekk mellom disse to klasser av proteiner og trent en støtte vektor maskin (SVM) basert klassifikator å forutsi om et gitt protein kan bli utskilt i urinen . Prediksjon metoden ble eksperimentelt validert ved hjelp av antistoff arrays i forbindelse med Western blot, og resultatene er svært oppmuntrende.
Dette klassifikator har blitt brukt til å forutsi proteiner som kan skilles ut i urinen basert på de identifiserte forskjellig uttrykte gener i magekreft
versus
referanse mage vev; og et antall potensielle urin markører for magekreft er blitt identifisert. Et viktig bidrag i dette arbeidet er at det gir en ny og effektiv måte å lede proteomikk studier av urin ved å foreslå kandidat markørproteiner, derfor tillater målrettede markør søk ved hjelp av antistoff-mediert teknikker som Western blot og Elisa, som er vesentlig mer gjennomførbart enn store komparative proteomikk analyser av urinprøver uten noen mål som å arbeide. Mens denne spådommen programmet har blitt brukt til magekreft data i denne studien ble det ikke magekreft spesifikk informasjon som brukes i dette programmet; dermed kan den brukes til urin markør søk for andre sykdommer
Metoder
Denne studien består av tre hovedkomponenter:. (i) bygging av en klassifikator for å forutsi urin excretory proteiner; (Ii) evaluering av ytelsen av sorteringsapparatet ved å anvende det til et sett av proteiner som det ekskretoriske status av proteinene er kjent; og (iii) bruk av validert klassifikator til gen-uttrykk data av magekreft for å demonstrere sin effektivitet i å løse urinen markør identifikasjon problem.
Denne forskningen ble godkjent av Institutional Review Board ved University of Georgia, Athens, Georgia, USA (Office of Vice President for forskning DHHS Assurance ID NO. FWA00003901, prosjektnummer 2009-10705-1) og ved den kinesiske Institutional Review Board tilsyn mennesker ved Jilin University School of Medicine, Changchun, Kina. En samtykkeskjema, godkjent av IRB ved University of Georgia og kinesisk IRB, ble samlet inn fra hvert fag. Alle fag er klar over at noen data fra forskning kan brukes for dokumenter eller publikasjoner som nevnt i samtykkeskjemaet.
a. En algoritme for å forutsi det ekskretoriske proteiner
generell forståelse av proteinutskillelse fra vev til urin er at noen proteiner utskilles eller lekket fra cellene inn i blodsirkulasjonen, og da en del av disse proteinene, sammen med noen native proteiner i blod, kan skilles ut i urinen. Vårt mål er først å identifisere kjennetegn for slike urin excretory proteiner og deretter å bygge en klassifikator basert på disse funksjonene for å forutsi hvilke proteiner i celler kan skilles ut i urinen. Så langt vi kjenner til, har det ikke vært noen publiserte arbeider forsøkte å løse dette problemet. Betydningen i å ha en slik evne er at det gir en effektiv kobling i å koble
omic
analyser av vev til søk markør i urinen ved å gi kandidat markører i urin som kan studeres ved hjelp av antistoffbaserte tilnærminger.
Det første trinnet i å utvikle en slik prediktiv evne, dvs. en klassifikator, er å ha en trening datasett som inneholder proteiner som kan og som ikke kan skilles ut i urinen, basert på hvor et sett av særtrekk kunne bli identifisert. Heldigvis har vi funnet en stor proteomikk datasett av urinprøver fra friske mennesker i en nylig publisert studie [8], som inneholder mer enn 1500 unike proteiner hvorav 1313 har SwissProt tiltredelses IDer. Vi har brukt disse 1,313 proteiner som de positive treningsdata for å bli trent klassifikator. Den følgende fremgangsmåte ble deretter brukt til å generere en negativ treningssett: vilkårlig velge minst ett protein fra hvert Pfam familie som ikke inneholder noen positiv treningsdata, og antallet av utvalgte proteiner fra hver familie er proporsjonal med størrelsen av familien [ ,,,0],10], [11]. Som et resultat, ble 2.627 proteiner valgt og anvendt som den negative treningssettet.
Vi undersøkte 18 fysiokjemiske egenskaper beregnet fra proteinsekvenser, som er potensielt nyttige for klassifikasjon basert på den generelle forståelse av urinutskillelse av proteiner . Detaljene i de 18 funksjonene og dataprogrammer som brukes til å beregne dem er listet opp i tabell S1. Noen av disse funksjonene er representert ved flere funksjonsverdier, f.eks aminosyresammensetningen i en proteinsekvens er representert ved 20 funksjonsverdier; samlet de 18 funksjonene er representert ved hjelp av 243 har verdier. Vi identifiserte et delsett av funksjoner med verdier fra 243, som kan skille mellom de positive og de negative treningsdataene ved hjelp av en SVM-baserte klassifikator. RBF-kjernen ble brukt i vår SVM trening, vurderer sin evne til å håndtere ikke-lineære egenskaper [12], [13].
For å finne ut hvilke av de i utgangspunktet anses funksjonene er faktisk nyttig, funksjonsvalg verktøyet som følger med i LIBSVM [12] ble brukt til å velge de mest kresne funksjoner blant de 243. Andre trekk utvalg verktøy kunne brukes, men vi har lang erfaring i å bruke dette verktøyet, og fant det å være tilstrekkelig. Numre brukt i dette er offentlig tilgjengelig fra LIBSVM nettsted (https://www.csie.ntu.edu.tw/~cjlin/libsvm/); Vi har også gjort det aktuelle programmet tilgjengelig på https://seulgi.myweb.uga.edu/files. En F-stillingen [12], definert som følger, blir brukt til å måle den kresne kraften i hver funksjon verdi til vår klassifisering problem, etter
hvor refererer til trening har verdiene (k = 1, …, m) ;
n
+ og
n
– er antall proteiner i den positive (+) og negative (-) trening datasett, henholdsvis; ,, Er gjennomsnittet av
i
th funksjonen verdi over hele opplæringen datasettet, den positive datasettet og den negative datasett, henholdsvis; og og er
i
th funksjon av
k
th protein i de positive og negative treningsdata, henholdsvis. Vanligvis, jo større en F-score, jo mer diskriminerende den tilsvarende funksjonen er. I vårt utvalg ble alle funksjoner med F-score over et forhåndsvalgt terskel beholdes og brukes i opplæring av siste sorterer. For å finne en optimal F-poengsum terskel, vurderte vi en liste over mulige terskler og deretter valgt den beste basert på de treningsresultatene.
opplæring av våre SVM-baserte klassifiserer gjøres ved hjelp av en standard prosedyre gitt i LIBSVM [12] for å finne verdier av to parametre
C Hotell og γ som gir en optimal klassifisering på treningsdata, der
C
styrer avveining mellom trenings feil og klassifisering marginer, og γ bestemmer bredden av kjernen anvendt [12]. Vår opplæring prosedyren er som følger [12]:
Skaff F-score for hver funksjon verdi;
For hver av de forhåndsvalgte terskler, gjør du følgende
Fjern har verdier med F-skårer lavere enn terskelen,
Tilfeldig dele treningsdata til en sub-trening og en sub-valideringssett med lik størrelse;
Tren en SVM med en RBF kernel på sub-treningssett for å søke etter optimale verdier av
C
og γ, og deretter bruke den til sub-validering av data og beregne klassifiseringsfeil;
Gjenta trinn (i) – (iii) fem ganger og beregne gjennomsnittlig valideringsfeil;
Velg den terskelen som gir den laveste gjennomsnittlige valideringsfeil, og holde funksjonene med F-score over den valgte terskel, og Selge
Omskolere en SVM basert på de valgte funksjonene som den siste sorterer.
b. Datasett som brukes til å evaluere resultatene av klassifikator
En uavhengig datasett ble brukt for å vurdere resultatene av trenet klassifikator som excretory status for hvert protein er kjent. Den positive undergruppe av dette datasettet har 460 humane proteiner som finnes i urin hos friske individer med tre urin proteomics studier [14], [15], [16], og den negative delsett inneholder 2,148 proteiner er valgt ved hjelp av den samme fremgangsmåte som er beskrevet tidligere, men gjør ikke overlapper med den negative sett brukt til trening
følgende tiltak ble brukt for å vurdere klassifiserings nøyaktighet:. følsomhet, spesifisitet, nøyaktighet, Matthew korrelasjonskoeffisient, og AUC [17]. Tabell 1 oppsummerer klassifiserings nøyaktighet på den trent klassifikator på både trening og testdatasettene [17]. Fra klasse nøyaktighet på de to datasettene, tror vi at vår trente klassifiserer fanget nøkkel distinkte trekk ved de excretory proteiner i urinen.
I tillegg ble vår klassifiserer testet på et eget datasett, en undergruppe av de 274 proteinene festet på en pre-laget protein antistoff array (den RayBio Humant G-serien Array 4000 (RayBiotech, Inc., Norcross, Georgia)). Av de 274 proteiner, er 111 kjent for å være excretory og ble inkludert i vår opplæring eller uavhengig testdatasettet. Vi søkte klassifikator på de resterende 163 proteiner som excretory status var ukjent (se Resultater og tabell S2). Dette proteinet matrise gir den relative ekspresjonsnivået for hvert protein på matrisen når de ble testet på en (urin) prøven, som måles i forhold til signalintensiteten, kvantifisert ved densitometri. Bakgrunnen av tabellen ble anvendt som kontroll for å bestemme den faktiske tilstedeværelsen av et protein i (urin) prøven. Signalintensiteten for et protein som ble ansett som en ekte signal dersom det var minst fem ganger høyere enn den for kontrollprøven, som foreslått av produsentens anbefaling. Vi fokusert vår eksperimentell validering på bekrefter de positive forutsigelser bare siden det er praktisk talt umulig å påvise et protein som ikke er til stede i en urinprøve som følge av begrensninger i deteksjonssensitivitet av dagens teknologi når proteinet er av meget lav konsentrasjon i prøven.
c. Urinprøve samling /forberedelse
Urinprøver fra mage kreftpasienter og friske kontroller ble samlet ved Medical School of Jilin universitet, Changchun, Kina. Gastric kreftpasienter, fra hvem prøvene ble samlet inn fra, er alle sent stadium pasienter (se tabell S3 for pasientinformasjon). Disse prøvene ble umiddelbart lyofilisert og lagret ved -80 ° C inntil videre bruk etter at de er kirurgisk fjerning fra pasientene. De ble så rekonstituert og sentrifugert (3000
xg
i 25 min ved 4 ° C) for å fjerne cellulære komponenter. Supernatantene ble oppsamlet og dialysert ved 4 ° C mot Millipore ultrarent vann (tre buffer forandringer, etterfulgt av en dialyse over natten) ved hjelp av Slide-A-Lyzer Dialyse kassetter (Thermo Fisher Scientific, Rockford, IL). Proteinkonsentrasjoner ble målt ved bruk av Bio-Rad Protein Assay (Bio-Rad, Hercules, CA) med bovint serumalbumin som en standard.
d. Identifisering av gener som er forskjellig uttrykt i magekreft og kontroll vev
Totalt 80 mage kreft vev og deres tilstøtende noncancerous vev fra 80 pasienter ble samlet inn ved Medical School of Jilin University. Microarray eksperimenter ble utført på disse vev ved hjelp av Affymetrix Genechip Menneskelig Exon 1,0 ST Array, som dekker 17.800 menneskelige gener. Den PLIER algoritme [18] ble brukt til å oppsummere sondesignalene til gen-nivå uttrykk. For hvert gen, undersøkte vi fordelingen av uttrykket fold-endring mellom de sammenkoblede kreft og kontroll vev på tvers av alle 80 parene av vev. La
K
exp,
være antall par av vev som fold-endringen er minst 2. Et gen er ansett som
uttrykt forskjellig
hvis
p
-verdi av den observerte
K
exp
er mindre enn 0,05. Ved hjelp av dette kriteriet, ble totalt 715 gener funnet å være forskjellig uttrykt i magekreft på tvers av alle menneskelige gener, og navnene på de 715 genene, sammen med tilhørende
K
exp Hotell og
p
-verdiene, er gitt i tabell S4. En detaljert studie av microarray data er rapportert andre steder [19].
e. Funksjon og sti berikelse analyser
David Bioinformatikk ressurser og KOBAS webserveren [20], [21] ble brukt til å gjøre funksjonelle og sti berikelse analyse, henholdsvis for alle de antatt urin-excretory proteiner, ved hjelp av helt sett av humane proteiner som bakgrunn. Vi henviser leserne til [20], [21] for mer informasjon om metoder for funksjonell og sti berikelse analyser. Med David Bioinformatikk Resources ble berikelse score for en bestemt gruppe proteiner bestemmes av EASE poengsum [20], [22]. KOBAS er en utfyllende verktøy for å DAVID som det utvider genet merknaden hjelp KEGG Orthology (KO) vilkår. Den KOBAS web server, sammen med KO-baserte annotering system [21], [23], ble brukt til å finne statistisk beriket og underrepresenterte trasé blant de antatt urin-utskilles proteiner. KOBAS tar i et sett av proteinsekvenser og annotates dem ved hjelp av KO vilkår. De kommenterte KO vilkårene ble deretter sammenlignet mot alle menneskelige proteiner som bakgrunn sett for å vurdere om de er beriket eller underrepresentert.
f. Western blot
Urin proteiner fra hver prøve (totalt 2 mikrogram) ble kombinert med 3x prøve fargestoff. Hvert rør ble kokt i 5 minutter og applisert på SDS-PAGE-geler, sammen med 10 ul standarder og kjørt i en time ved 200 volt. Membranen ble aktivert med 100% metanol, etter en overføring fra gelen til membranen (100 volt i 1 time). Når overføringen var fullstendig, ble membranen tillatt å tørke, gjenfuktes i 100% metanol og vasket 2X i 5 minutter hver med Tris-buffret saltvann (TBS). Membranen ble deretter inkubert i 3% melk blokkeringsløsning i 2 timer ved romtemperatur. Deretter ble membranen ble inkubert i den første antistoffoppløsning (1:200 fortynning i 1,5% melk blokkering) i 1 time ved romtemperatur, og det ubundne antistoff ble fjernet ved vasking av membranen 3 x med TBS Tween-20 (TBST), oppløsning 10 min hver. Deretter ble membranen inkubert i en 1:10,000 fortynning av det sekundære antistoff i 1,5% melk blokkeringsløsning i 1 time ved romtemperatur. Membranen ble vasket 3X med TBST og 2X med TBS (10 min hver). Til slutt ble membranen fullstendig dekket med en lik mengde enhancer og peroksyd-løsning fra en Pierce Western blotting sett i 5 minutter og utsatt for film. Hvert eksperiment ble gjentatt flere ganger for å sikre reproduserbarhet [24]. Signal intensiteter ble bestemt ved hjelp av ImageJ programvare [25]. For hver membran ble tomt felt som brukes til å normalisere signalintensitetene over membranene. Forestillingen ble undersøkt ved hjelp av ROC og whisker-boksplott.
Resultater og diskusjon
a. Signal peptid og sekundære strukturer er viktige funksjoner i urin-utskilles proteiner
Den første listen over funksjoner ble nøye utvalgt for å inkludere hva vi antas å være protein egenskaper som er relevante for urinutskillelse basert på litteratursøk og vår nåværende forståelse av urin proteiner. For eksempel vil den negativt ladede glomerulær vegg i nyre tillate filtrering av bare positivt eller nøytralt ladede proteiner. Dermed ansvaret for et protein er en av de funksjonene vi valgte. Tar den tilgjengelige informasjonen i betraktning, det totale antallet har verdier som samles i utgangspunktet var 243, som representerer grunnleggende sekvens egenskaper, motiver, fysisk-kjemiske egenskaper og strukturelle egenskaper (Tabell S1). Identifisere egenskaper som er effektive i å skille urin excretory proteiner fra de ikke-excretory seg, til en enkel og effektiv metode eliminere funksjoner som viser liten eller ingen kresne makt for vår klassifisering problem var ansatt; 74 har verdier ble valgt ved hjelp av fremgangsmåten beskrevet i avsnitt A i Methods (tabell S5). Disse har verdier ble brukt til å trene den siste sorterer.
Blant de valgte funksjoner, den mest diskriminerende var tilstedeværelsen av signalpeptider. Det skal forstås at proteiner som skilles ut gjennom ER har signalpeptider og er trafikkert til sitt bestemmelsessted i henhold til de spesifikke signalpeptider; derfor ikke overraskende, de fleste utskilles proteiner har denne funksjonen. Et annet fremtredende trekk var den sekundære strukturen type; spesifikt, ble prosentdelen av alfa-helikser i en proteinsekvens rangert som nummer to trekk verdi blant de valgte 74 (tabell S5). Som forventet kostnad av et protein var blant de beste rangerte funksjoner for utskilles proteiner. Dette er i overensstemmelse med den generelle forståelse at ladning er en faktor i å bestemme hvilke proteiner kan filtreres gjennom glomerular membranen [26] som proteiner inne glomerulære membraner og podocyte slisser er negativt ladet, og dermed negativt ladede proteiner vil ha lav sjansene for å filtrere gjennom nyrene. Faktisk, har verdiene av positive aminosyrer og kostnad var blant de beste rangert funksjonsverdier.
Interessant, men molekylvekt, som er rangert på 232 ut av 243, var ikke inkludert i den endelige 74 har verdier. Dette kan forklares ved det følgende. Proteiner i serum kan allerede har gjennomgått en cleavage eller har blitt delvis degradert, og derfor kanskje ikke i sin intakt eller fullstendige form når de kommer inn i nyrene. Det har i virkeligheten blitt fastslått at de fleste proteiner som finnes i urinen er i utstrakt nedbrutt [27]. Mens et intakt protein ikke kan være i stand til å filtrere gjennom glomerulus på grunn av sin størrelse eller form, kan en protein-avledet peptid lett passere gjennom podocyte spaltene. Som et resultat av molekylvekten av det intakte protein er et ikke-faktor i å forutsi hvis proteinet er urinen ekskretorisk.
Det skal bemerkes at urin ekskresjonssystemer proteiner og utskilte proteiner deler noen felles egenskaper som noen av funksjoner som brukes til å identifisere blod utskilte proteiner i vårt tidligere studium [10] ble valgt i urinprotein prediksjon i denne studien. For eksempel ble funksjoner som løsemiddel tilgjengelighet, polaritet, og signalpeptider med i begge classifiers. Men det er en klar forskjell mellom de funksjonene som brukes i de to classifiers. Mens funksjoner som beta-strand-innhold, har forbundet med beta-fat trans protein og protein ratio, TatP motiv, trans domene, protein størrelse, og den lengste uordnede regionen var blant de beste funksjonene for prediksjon av blod-sekretorisk proteiner [10 ], ble de ikke tatt med i den endelige funksjoner for urinprotein prediksjon. Videre funksjoner knyttet til positiv ladning, slik som sammensetningen av positivt ladede aminosyrer, var fremtredende i urinprotein prognose, men ikke valgt i blodet sekresjon prediksjon. Tilsvarende var alfa-helix-innhold og spolen-innhold av proteiner blant de beste funksjonene for urin protein prediksjon, men de ble ikke valgt for blod-sekresjonsprotein prediksjon. Det er interessant å merke seg at i motsetning til det funn at beta-trådene er en vanlig sekundær strukturtype blant blod sekretoriske proteiner, urinproteiner har en tendens til å ha høyere alfa-heliks og spiral-innhold, noe som indikerer at urin proteinene har egenskaper ikke delte av blod sekretoriske proteiner generelt.
b. Utførelse av klassifikator
For å bestemme nøyaktigheten av siste sorterer, vi testet den på et uavhengig testsett, som består av 460 eksperimentelt validert urin excretory proteiner og 2,148 non-urin excretory proteiner. Vår klassifikator har sin prediksjon sensitivitet og spesifisitet på dette uavhengig testsett på 0,78 og 0,92, henholdsvis (tabell 1).
Vi kjørte klassifikator på 163 ut av 274 proteiner fast på pre-laget antistoff array (se metoder), som excretory status var ukjent. Av de 163 proteiner, ble 112 proteiner spådd til å bli urin excretory av vår klassifikator. For å vurdere resultatene av denne spådommen, ble antistoffarraybaserte eksperimenter utført på 14 urinprøver, sju fra friske individer og syv fra mage kreftpasienter. Av de 112 predikerte urin-ekskretoriske proteiner, 92 ble funnet i det minste en av urinprøver (tabell S6), noe som gir en positiv forutsigelse hastighet på 0,81, noe som er konsistent med det ytelsesnivået på den første testsettet.
det skal bemerkes at en begrensning av denne klassifisereren er at noen proteiner kan ha blitt delvis nedbrutt før den ble skilt ut i urinen eller i urin, noe som gjør det vanskelig for vår sorteringsapparat for å detektere slik dannede peptider som det ble trent på hele intakte proteiner. Dette problemet vil bli behandlet i fremtiden gjennom å utlede har verdier basert på den faktiske proteiner /peptider identifisert i tidligere urin proteomikk studier fremfor deres tilsvarende full-lengde proteiner som er gjort i denne studien. Mens det er helt klart rom for ytterligere forbedringer, som bør utprøves i den aktuelle klassifiserings er svært oppmuntrende.
c. Bruk av klassifiserings til magekreft data
Vår tidligere studie på 160 sett med microarray gen-uttrykk data av magekreft har identifisert 715 differensielt uttrykte gener med minst to-fold endringer i magekreft
mot
kontroll vevsprøver [19]. Mens det ville være å foretrekke å ha proteomikk data av vevsprøver, har vi bare gen-uttrykk data tilgjengelig i denne studien. Derfor er genuttrykk data blir brukt som en tilnærming til proteinet uttrykket i denne metodikken rettet studie. Vår klassifikator ble påført på disse proteinene 715, og det anslått at 201 av de 715 proteinene er urin ekskretorisk. Tabell S7 gir detaljert informasjon om de 201 proteiner. Siden det er urealistisk å sjekke alle de 201 proteinene i denne studien for å fastslå om de er urin excretory eller ikke, vi gjorde analyser for å begrense denne listen. Konkret har vi gjennomført følgende analyser: (i) funksjonell og sti berikelse analyser for å få en bedre forståelse av hvilke typer proteiner i urinen, (ii) litteratursøk på urin proteiner for å samle informasjon om publiserte markør urin proteiner, ( iii) å undersøke de genuttrykk dataene for å fjerne gener som ikke er vesentlig forskjellig uttrykt mellom kreft og kontroll vevsprøver; og (iv) Western blot på proteiner valgt fra en smalere ned liste over de 201 proteiner. Denne prosedyren viste en høy suksessrate og førte til en interessant oppdagelse av potensiell biomarkør for magekreft.
For (i), har vi gjennomført funksjonelle og sti berikelse analyser på alle de 201 proteinene ved hjelp av DAVID [20 ] og KOBAS [21] servere, henholdsvis. Vi fant ut at de beriket funksjonelle grupper inkludert den ekstracellulære matriks (ECM), celle adhesjon og utvikling, cellemotilitet, forsvar respons, angiogenese, som alle er kjent for å være involvert i utviklingen av eller i forsvaret av kreft (figur S1 A). De anrikede trasé ble ECM-reseptor-interaksjon og uorganiske ion transport- og stoffskifteveier (figur S1B)
Følgende kriterier ble benyttet for å redusere listen over 201 proteiner for trinnene (ii) – (iii):.
proteinene har ikke blitt rapportert å være relatert til noen kreft basert på vår omfattende litteratursøk
, som gir opphav til 71 proteiner. Listen ble ytterligere redusert basert på en forhåndsvalgt cutoff på differensial uttrykk og funksjonelle kommentarer (potensielt relevante for magekreft i stedet for immunresponser).
d. Endotelial lipase er vesentlig redusert i urinprøver av magekreft pasienter
Vi valgte seks proteiner (MUC13, COL10A1, AZGP1, LIPF, MMP3, og EL) for eksperimentell validering fra ovenstående snevret ned listen. For å gjøre dette, har vi samlet urinprøver av 21 mage kreftpasienter og 21 friske individer. Av de seks utvalgte proteiner, fem proteiner, MUC13, COL10A1, LIPG, AZGP1, og EL ble påvist ved Western blot i det minste i en urinprøve. Ut av de fem, ble MUC13, COL10A1, og EL oppdaget selv på en svært lav mengde av de totale urin proteiner (1-2 mikrogram). MMP3 ble ikke funnet i prøvene vi testet, som kan være på grunn av den lave konsentrasjonen av MMP3 i urin eller en falsk prediksjon av vår klassifikator.
Det er spesielt interessant å merke seg at vi var i stand til å oppdage konsistente forskjeller i EL overflod (kodet for av
LIPG
) mellom de to sett av 21 urinprøver. De Western blot for EL viste en vesentlig reduksjon i dens overflod i urinprøver av 21 kreftpasienter mage sammenlignet med kontrollprøvene. Som vist i figur 2A, flertallet av kontrollprøvene viste tilstedeværelse av EL, mens de fleste av de magekreft prøver hadde forholdsvis lave mengder av EL. Dette mønsteret ble observert gjentatte ganger
A:. Western blot for EL på kontroll og magekreft prøver. Kontrollprøver (merket med den røde foret boksen): Lanes 1-7, 11-17, 21-27. Kreftprøver: Lanes 8-14, 18-24, 28-34. B: Tilsvarende whisker-boksplott for signalintensitet. C. ROC-kurve av den EL Western blot. Rød linje: ingen diskriminering; . Blå linje: ROC av EL
Molekylvekten av dette proteinet er fast bestemt på å være 68 kDa [28]; dermed er en homo-dimer antas å være 134 kDa. https://csbl.bmb.uga.edu/~juancui/Publications/GC2009/Additional_material.pdf.
doi:10.1371/journal.pone.0016875.s005
(XLS)
Table