Abstract
En av de store utfordringene i utviklingen av prostatakreft prognostiske biomarkører er den cellulære heterogenitet i vevsprøver. Vi har utviklet en objektiv Cluster-Correlation (CC) analyse for å identifisere genekspresjon endringer i forskjellige celletyper som er forbundet med progresjon. I det Cluster trinn ble prøver gruppert (uten tilsyn) basert på ekspresjons-verdiene for hvert gen gjennom en blanding modell kombinert med en multippel lineær regresjon modell hvor celle-type prosent data ble anvendt for spaltning. I Korrelasjon trinn ble en Chi-kvadrat test brukes til å velge potensielle prognostiske gener. Med CC analyse, identifiserte vi 324 betydelig uttrykte gener (68 kreft og 256 stroma celle uttrykt gener) som var sterkt knyttet til den observerte biokjemiske tilbakefall status. Betydning Analyse av Microarray (SAM) ble deretter benyttet for å utvikle en syv-genet klassifikator. Den Klassifiserings har blitt validert ved hjelp av to uavhengige datasett. Den generelle prediksjon nøyaktighet og følsomhet er 71% og 76%, respektivt. Inkludering av Gleason sum til syv-genet klassifikator hevet prediksjon nøyaktighet og følsomhet for 83% og 76% henholdsvis basert på uavhengig testing. Disse resultatene indikerer at vår prognosemodell som inkluderer celle justeringer og bruker Gleason score og de syv-genet signatur har noen verktøy for å forutsi utfall for prostatakreft for den enkelte pasient på tidspunktet for prognosen. Strategien kan ha programmer for å forbedre markør ytelse i andre krefttyper og andre sykdommer
Citation. Chen X, Xu S, McClelland M, Rahmatpanah F, Sawyers A, Jia Z, et al. (2012) en nøyaktig prostatakreft prognosticator Ved hjelp av en Seven-Gene Signatur Plus Gleason Score og ta Celletype heterogenitet i betraktning. PLoS ONE 7 (9): e45178. doi: 10,1371 /journal.pone.0045178
Redaktør: Bart O. Williams, Van Andel Institute, USA
mottatt: May 17, 2012; Godkjent: 16 august 2012; Publisert: 28.09.2012
Copyright: © Chen et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet av National Institutes of Health strategiske partnere for bedømmelse av kreft Signatures (SPECS) Consortium stipend U01 CA1148102 og National Cancer Institute Early Detection Research Network (EDRN) Consortium tilskuddet U01 CA152738. Dette arbeidet ble også støttet av en University of California i Irvine Fakultet Career Development Award (ZJ) og gi P30CA62203 fra Chao Family Comprehensive Cancer Center ved University of California i Irvine (ZJ og DAM). Dessuten var dette arbeidet støttes delvis av Department of Defense congressionally Directed medisinsk forskning programmer gi W81XWH-08-1-0720, og av en University of California i Irvine Institute for Cancer Research Training Grant Fellowship (T32CA009054 fra National Cancer Institute) ( FR). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:. D. Mercola og M. McClelland er styremedlemmer i Proveri Inc., som har en lisens fra Regents ved University of California for utvikling av kliniske tester for prostatakreft. De andre forfatterne erklærer de har ingen interessekonflikt med denne publikasjonen. Dette endrer ikke forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.
Innledning
Prostatakreft er den hyppigste diagnosen mannlig kreft og den nest største årsaken til kreftdød hos menn i USA [1]. Radikal prostatektomi er et effektivt alternativ når kreften er lokalisert til prostata [2], [3]. Men ved diagnosetidspunktet er det vanskelig å avgjøre hvilke pasienter havn aggressiv sykdom som vil gjenta seg etter behandlinger utviklet for å kurere og som er lat og egnet for profylakse og andre strategier. Tilbakevendende sykdom ofte fører til metastaser, den viktigste årsaken til prostatakreft død [4], [5]. Derfor er en viktig dagens utgave i klinisk ledelse å bestemme pålitelige prognostiske indikatorer som skiller lat kreft fra de som vil gjenta seg. Klassifiseringssystemer som de Kattan nomogrammer [6], D’Amico klassifisering [7], og CAPRA (Kreft i prostata Risk Assessment) Resultat [8] som innlemme måling av flere preoperative og postoperative kliniske markører kan brukes til å forutsi sannsynlighet for tilbakefall etter radikal prostatektomi. Imidlertid kan prostatakreftpasienter med tilsvarende kliniske og patologiske funksjoner ikke differensieres etter disse klassifiseringssystemer som individuell risiko ikke er nøyaktig tatt hensyn til. Omfattende tidligere innsats har forsøkt å identifisere genuttrykk endringer mellom aggressive saker og lat tilfeller [9] – [11]. Standard analytiske tilnærminger, for eksempel t-test, betydning analyse av microarray (SAM) [12] og lineære modeller for microarray data (LIMMA) [13], har blitt brukt til disse studiene. Få reproduserbare og klinisk anvendelige prognostiske biomarkører har dukket opp. En grunn sto for en slik inkonsekvens på tvers av studier kan være heterogenitet i form av celle sammensetning,
dvs.
, vevsprøver som brukes for analyser var vanligvis blanding av ulike celletyper med varierende prosenter [14] – [16] som samt genetisk heterogenitet av polyklonale og multifokal natur prostatakreft. Derfor kan de observerte genekspresjon endringer blant prøvene, være delvis skyldes forskjellen i cellen sammensetningen av disse prøvene [16]. Likevel er en slik blanding heterogenitet sjelden tatt hensyn til i biomarkør studier fordi det ikke har vært noen enkel måte å håndtere en slik variasjon gjennom regelmessig genuttrykk analyser.
Her er vi undersøke om varierende celletype sammensetning spiller en viktig rolle i identifisering av differensielt uttrykte gener. Vi har utviklet en Cluster-Correlation Analysis modell [17], som innbefatter en multippel lineær regresjonsmodell for å vurdere celletype preparat for prøver med kjent sammensetning. Vi viser at denne metoden kan anvendes for å identifisere differensielt uttrykte gener mellom biokjemisk tilbakefall og ikke-tilbakefall pasientprøver etter prostatektomi. Bruk av denne tilnærmingen vi observerte mer enn tre hundre genuttrykk endringer og kategorisert disse i overveiende tumorcelle uttrykte gener eller stroma celle uttrykte gener. Vi identifiserte en undergruppe av syv tumorcelle uttrykte gener som viste de mest vesentlige endringer og brukte disse til å utlede en klassifikator. Klassifikator ble deretter testet på to uavhengige datasett med høy nøyaktighet og følsomhet. En klassifiseringsmodell gre denne syv-genet signatur med Gleason sum hadde enda bedre prediksjon ytelse. Våre resultater gir ny innsikt i utviklingen av prostatakreft prognose.
Materialer og metoder
Prostate Cancer pasientprøver og microarray analyse
Data Set 1 ble brukt til trening. Den inneholder 136 innlegg prostatektomi frosne vevsprøver hentet fra 82 fag ved skriftlig informert samtykke som er godkjent av UCI kontoret Forskningsadministrativ Institutional Review Board (IRB). IRB spesielt godkjent denne studien årlig (HS # 2005-4806). Alle vev ble samlet ved kirurgi og eskortert til patologi for rask gjennomgang, disseksjon og snap frysing i flytende nitrogen. «Topp» og «bunn» deler av manuelt microdissected (se Manuell mikrodisseksjon) frosset vev ble brukt for vevssammensetning besluttsomhet. Resten deler av manuelle microdissected frosne vev ble brukt for RNA forberedelse og microarray hybridisering. Vevet sammensetning (tumor epitelceller, stromaceller, epitelceller BPH og utvidede cystisk kjertler) ble bestemt av medlemmer av et team på fire patologer tre av disse er styret sertifisert mens den fjerde er ekvivalent sertifisert (UK, FRCP) ved hjelp av metoder som er beskrevet tidligere [15]. Den boxplot vev prosent data ble gitt er vist i Figur S3. De resulterende mikroarray data har blitt deponert i Gene Expression Omnibus (GEO) database med tiltredelse antall GSE8218 [16]. Ut av de 136 prøvene, 80 prøver var fra biokjemiske tilbakefall pasienter, 50 prøver fra biokjemiske ikke-residiverende pasienter med oppfølging fra 3 til 80 måneder, og 6 prøver fra friske personer. Konvensjonelle kliniske markører som prostata spesifikt antigen (PSA), post-prostatektomi Gleason sum, alder, patologisk stadium, ble også samlet inn og presentert i tabell S1 og S2.
datasett 2 og 3 er uavhengige testsett. Data Set 2 [GSE25136 [18]] inneholdt 79 prøver som består av 42 biokjemiske ikke-residiverende og 37 biokjemiske tilbakefall prøver. Data Set 3 [GSE3325 [19]] består av 13 prøver som er klassifisert som 4 godartet, fem primære, og 4 metastatisk prostatakreft prøver. I vår studie, behandlet vi fire godartet og de 5 viktigste prostatakreft prøvene som biokjemiske ikke-tilbakefall prøver og 4 metastatisk prostatakreft prøvene som tilbakefall prøver. Microarray plattformer for datasett 2 og 3 er Affymetrix U133A og U133 pluss 2,0, henholdsvis. Vevet komponenter informasjonen ble beregnet ved hjelp av CellPred programvare [16] på grunn av mangel på celletype prosent informasjon for de to uavhengige datasett. Post prostatektomi Gleason summer, Sykdomsfri overlevelse Times, alder, patologisk stadium ble samlet og presentert i tabell S1 og S2.
Statistical Analysis
Cluster-korrelasjonsanalyse modell.
Vi har utviklet en ny Cluster-Correlation (CC) analyseprosess [17] for bestemmelse av differensiell genekspresjon i forskjellige celletyper. CC Analysen gjennomføres i 2 trinn, dvs. en unsupervised klynge skritt og en korrelasjon trinn (Figur S1).
uten tilsyn klyngen trinnet er basert på to hovedforutsetninger. Forutsetning 1, de observerte genekspresjon verdier som ved et uttrykk rekke er summen av bidragene fra ulike typer celler som består prøven (eqn. 1). (1) Hvor
Z
i
er klyngen indikator for
i
th prøve,
p
iT
og
p
iS
er kjent tumor og stroma prosenter [16] for
i
th prøve,
β
kT Hotell og
β
KS
er tumor og stroma celle-type koeffisienter som bestemmes av multippel lineær regresjon resultat for
k
th klynge, og
ε
i
er rest feil. Hver celletype bidraget er i sin tur på grunn av produkt av prosentandelen av den foreliggende celletype og den individuelle celletype ekspresjon koeffisient for et gitt gen. Forutsetning 2, de enkelte celletype uttrykk koeffisienter
β
T Hotell og
β
S
for et gitt gen kan variere fra de biokjemiske resultatene av prøven,
f.eks ,
biokjemisk tilbakefall status. Basert på disse forutsetningene, pasientprøvene danne en blanding fordeling som kan analyseres med EM-algoritmen (forventning-maksimering) [20]. EM-algoritmen finner de optimale løsningene gjennom en iterativ beregning. Resultatene av EM-algoritmen er to folder. For det første prøver ble tildelt flere klynger (uten tilsyn) basert på ekspresjons-verdiene for hvert gen. For det andre er vi i stand til å fastslå omfanget av uttrykket av et gen av kreftceller og ved stromaceller.
I sammenhengen trinn, valgte vi gener som tilbakefall og ikke-tilbakefall saker ble vel preget av den uten tilsyn clustering prosedyren. For hvert gen, vi dannet en 2 × 2 beredskaps bord med en dimensjon som den observerte tilbakefall status og den andre dimensjonen som uten tilsyn clustering resultat (cluster identitet). En Chi-kvadrat-test ble anvendt for å beregne p-verdi for hvert gen (hver situasjon tabell). Genene med p-verdier 0.005 ble valgt som sterkt korrelert mellom uten tilsyn og observerte cluster medlemskap
For de betydelige gener identifisert i sammenheng trinn, bestemt vi om deres uttrykk er hovedsakelig uttrykt i tumorceller og stroma. celler. To modeller er begrenset med hensyn til tumorceller og stromaceller ble definert. I svulsten begrenset modellen, antar vi bare
β
T
varierer med cluster medlemskap. I stroma begrenset modellen, antar vi bare
β
S
varierer med cluster medlemskap. De to bundne modellene ble deretter sammenlignet ved hjelp av Bayesiansk informasjon kriteriet (BIC) [21]. Modellen med det mindre BIC stillingen er valgt. Forskjeller av to eller flere mellom to BIC score er ansett som en sterk indikasjon favorisere en modell over en annen [22]
CC analyse algoritmen og testdatasettet er tilgjengelig på http:. //www.pathology.uci . edu /fakultet /Mercola /UCISpecsHome.html og kan brukes til uttrykk datasett gitt kunnskap om celletype distribusjon.
statistiske verktøy i R.
En modifisert quantile normalisering funksjon «REFnormalizeQuantiles «[14] ble brukt til å utføre normalisering for datasett 2 og 3 ved å referere datasett 1. Fordi sondesett for U133A plattformen er den undergruppe av de fra U133 pluss 2,0 plattform, gjennomførte vi en normalisering for felles sonde sett av de to plattformer.
betydelig Analysis of Microarray (SAM) [12] i «siggenes» pakken, implementert i R, ble brukt til å velge de mest signifikante gener oppnådd fra to-trinns klyngeanalyse.
Prediksjon Analysis of Microarray (PAM) [23] i «pamr» pakken, implementert i R, ble anvendt for å utvikle en prognostiske klassifikator ved hjelp av en treningssettet og utførelsen av sorteringsapparatet ble testet ved hjelp av uavhengige sett. Data Set 1 ble behandlet som en treningssett, og datasett 2 og 3 ble behandlet som testsett.
En R-basert web-tjeneste, CellPred [16] tilgjengelig på https://www.webarray.org ble brukt til å forutsi den cellesammensetning i prosent av datasettene 2 og 3 for å identifisere tumorcelle anrikede prøver for testing av klassifikator. Prøver for testing ble valgt ut fra datasett 2 og 3 ved hjelp av kriteriet . 50% tumor epitelcelledifferensiering sammensetning ifølge CellPred
immunhistokjemi dataanalyse
For å validere celletype. spesifisitet av RNA uttrykk spådd her, vi sammenlignet celletype uttrykk intensitet,
β
T
, med tilsvarende protein uttrykk i tumor og stromaceller som observert i human protein Atlas (HPA; www.humanprotein .atlas.org). Hver HPA antistoff ble brukt til enkelt histologiske seksjoner fra hver av tre normale individer og to histologiske seksjoner fra hver av 12 pasienter med prostatakreft og dermed generere tre høyoppløselige bilder for de normale tilfeller og 24 høyoppløselige bilder fra de 12 kreftpasienter. Alle bildene ble lastet ned og dermed gi alle pikselverdier av tre fargekanaler. Nivået av protein uttrykk er oppsummert ved hjelp av skalaen: rød, sterk; appelsin, moderat; gul, svak; og hvitt, negativ som tilbys av HPA. To observatører, et bord sertifisert patolog (DAM) og en andre observatør (XC) videre kategorisert nivået av proteinekspresjon ved tilsetning av moderat til sterk, svak til moderat, og meget svak i henhold til IHC fargeintensiteten og oppsummert de syv nivåer ved hjelp av en numerisk kode: 5, sterk; 4, moderat til sterk; 3, moderat; 2, svak til moderat; 1, svak; 0.5, veldig svak; og 0, negativ. De protein uttrykk nivåer i kreft og stromaceller kan estimeres basert på tallkode for hvert bilde. Vi samlet inn data for 71 antistoffer knyttet til 49 tumorcelle uttrykte gener (ingen HPA antistoffer var tilgjengelige for de resterende 19 gener). Vi valgte 28 forskjellig uttrykt antistoffer mellom normale individer og pasienter med prostatakreft for korrelasjonen studien (antistoffer uten protein uttrykk endring mellom normale personer og prostatakreftpasienter anses som ikke-uttrykt forskjellig antistoffer). De 28 valgte antistoffer er relatert til 23 tumorcelle uttrykte gener. For hvert antistoff, blir proteinet ekspresjonsnivået i tumor og stroma i gjennomsnitt over 12 pasientprøver. Alle 672 IHC observasjoner er benyttet.
Resultater
Utvikling av en Prognostic Klassifiserings
For Cluster korrelasjonsanalyse, valgte vi 130 matriser av prostatakreft eksempler hentet fra datasett 1
dvs.
. utelate de resterende seks normale prøver. Vi antok at EM-algoritmen av CC analysemodell vil kategorisere de 130 prøvene i to uttrykk klynger og behandlet de to uttrykk klynger som antatt lav risiko og høy risikogruppene (Figur S1
jf.
). Da Chi-kvadrat test ble utført for å måle sammenhengen mellom de antatte risikogrupper og de observerte biokjemiske tilbakefall og ikke-tilbakefall grupper. 324 gener ble identifisert med p-verdier mindre enn 0,005. De 324 gener ble videre kategorisert i 68 overveiende tumorcelle uttrykte gener og 256 hovedsakelig stroma celle uttrykt i henhold til BIC score til tumor og stroma begrensede modeller.
I vår nåværende studien fokuserer vi på å undersøke tumorcelle uttrykt gener fordi de fleste av prøvene som er tilgjengelige for uavhengige tester betraktes nedenfor, er tumor-anrikede prøver. De 68 tumorcelle uttrykte gener ble betraktet som kandidat gener for å utvikle en prognostiske klassifikator basert på deres differensial genekspresjon mellom den observerte tilbakefall og nonrelapse grupper og anvendelse av SAM. Men det ville ikke være riktig å utføre differensial uttrykk analyse av svulsten komponenten direkte med alle de 130 prøver av datasett 1 fordi de estimerte vevskomponenter viste en stor variasjon av celletypen sammensetningen andel blant disse prøvene, inkludert prøver med nesten utelukkende stroma. Så vi valgte først 23 prøver med tumorcelle prosent større enn 50%. Blant 23 utvalgte svulst celle beriket prøver, 11 prøvene er ikke-tilbakefall prøver og 12 prøver er tilbakefalls prøver. Ved hjelp av de 68 gener som input til SAM, identifiserte vi de 7 mest betydningsfulle gener mellom tilbakefall og ikke-tilbakefall grupper hvor hver p-verdi var mindre enn 0,002 (tabell 1). Den generelle prosedyren for å utvikle den prognostiske klassifikator er presentert som et flytskjema i figur S1.
For å validere prediksjonsnøyaktigheten, en PAM-baserte Seven-genet Prognostic Klassifiserings ble generert for å utføre et kors -validation test ved hjelp av tumor beriket prøver i datasett 1. For kryssvalidering, vi tilfeldig valgt 9 tilbakefall og 8 ikke-tilbakefall tumorcelle beriket prøvene som et treningssett og de resterende tre tilbakefall og 3 ikke-tilbakefall prøvene som testsett. PAM-baserte klassifiserings ble deretter testet på alle mulige runder (36300 runder) av kryssvalidering med en gjennomsnittlig nøyaktighet på 74%, spesifisitet på 72%, og sensitivitet på 77%. Disse resultatene tyder på at Seven-genet Prognostic Klassifiserings har høy prediksjon nøyaktighet, spesifisitet og sensitivitet etter kryssvalidering testen og kan være effektiv for å forutsi utfall av prostatakreftpasienter fra uavhengige datasett.
Uavhengig Testing av Seven-genet Prognostic Klassifiserings
en stor hindring i å utvikle klinisk anvendelige prognostiske profiler for prostatakreft har vært en mangel på generalitet over datasett. Vi testet derfor Seven-genet Prognostic Klassifiserings på prøver hentet fra to uavhengige datasett (Materialer og metoder). Men vi har tidligere observert at flere av de store tilgjengelige ekspresjon analyse datasett er meget heterogen med hensyn til celletype blanding [16]. Testprøver ble selektert på grunnlag av at de var sammensatt av minst 50% tumorcelleinnhold som bedømt ved anvendelse av CellPred [16]. Førti to og sju svulst celle beriket prøver i datasett 2 og 3 henholdsvis møtte kriteriet. Hvert tilfelle ble deretter kategorisert av PAM hjelp av 7-genet prognostisk Klassifiserings. Tabell 2 viser resultatene av klassifiseringen. Den samlede nøyaktighet, spesifisitet og sensitivitet av de to testdatasettene ble 71%, 65% og 76%. For ytterligere å evaluere effekt av prognostisk klassifikator, utførte vi Kaplan-Meier overlevelsesanalyse (figur 1) (Kaplan-Meier overlevelsesanalyse ble brukt til datasett 2 bare fordi Sykdomsfri overlevelse Times er ikke tilgjengelig for datasettet 3. sammenligning viser at median tilbakefall overlevelse av pasientene i lav risikogruppe definert ved syv-genet prognostisk klassifikator var 35 måneder. 73% av pasientene i høyrisikogruppen hadde tilbakefall av sykdommen i løpet av 5 år, mens 63% av pasientene i lav risiko gruppe forble tilbakefall fritt i minst 5 år. estimert hazard ratio for lav risiko og høy risiko gruppen var 2,6 med betydelig p-verdi på 0,035 (logrank test).
Kaplan-Meier-estimatene for overlevelse tid av 42 uavhengige pasienter i datasett 2 (GSE25136) i henhold til syv-genet Klassifiserings.
Vi deretter undersøkt om noen av de ulike kliniske utfall verdier, Gleason score, PSA, alder , volum, T stadium, N scene, og M trinn, hadde prognostiske verdier som forbedret ytelsen av sorteringsapparatet. De sju gener sammen med hver klinisk resultat ble utviklet som nye classifiers. I PAM analyse, bidrag fra klinisk utfall og sju gener er jevnt vektet. Bare post prostatektomi Gleason sum betydelig forbedret resultatene med en betydelig reduksjon av p-verdi 0,035 til 0,009 av logrank test. Inkludering av Gleason sum med de syv-genet signatur i testprosedyren med uavhengige datasett 2 forbedret nøyaktighet og følsomhet for 74% og 84% for Data Set 2 (kun datasett 2 ble benyttet for denne analysen på grunn av utilgjengelighet av Gleason sum for data Set 3). To mer observerte tilbakefall pasienter ble kategorisert i høyrisikogruppen. Kaplan-Meier overlevelsesanalyse (figur 2) viser at median overlevelse av pasienter i høyrisikogruppen definert av sju-genet med post prostatektomi Gleason oppsummere prognostisk klassifikator var 34,6 måneder. 75% av pasientene i høyrisikogruppen hadde tilbakefall av sykdommen i løpet av 5 år, mens 71% av pasientene i den lave risikogruppe forble tilbakefall fritt i minst 5 år. Estimert hazard ratio for lav risiko og høy risiko gruppen var 3,8 med en betydelig p-verdi på 0,009.
Kaplan-Meier-estimatene for overlevelse av 42 uavhengige pasienter i testdatasettet 2 (GSE25136) i henhold til syv-genet Klassifiserings med kirurgisk patologi bestemt Gleason sum. Den Gleason sum variabel har samme vekting som hvert gen i fastsettelse av klassifiseringen.
Til slutt utførte vi en multivariat Cox regresjonsanalyse av prediksjon laget av vår klassifiserer i kombinasjon med kliniske variabler alder, pre-op PSA, patologisk stadium, og kirurgisk margin, men ikke med Gleason sum som er inkludert i vår klassifikator. Bare p-verdi på prediksjon av vår klassifikator nærmet betydelig nivå (p = 0,0686). P-verdier på andre «prediktorer» er større enn 0,1. Resultatene indikerte at vår klassifiserer hadde bedre ytelse i risikovurderingen. Vi har lagt dette resultatet til tekst på side 12-13. Resultatet viste at vår klassifiserer kan bedre stratify risiko.
Validering av 23 Protein ekspresjon av gener i 68 Tumor Gene Set
For å validere metodene som brukes her for identifisering av svulst celle- spesifikk ekspresjon, sammenlignet vi celletype spesifikk ekspresjon funnet for RNA, dvs.
β
T
og
β
S
, med den som observeres for det aktuelle protein ekspresjon i tumor og stromaceller leveres av human Protein Atlas (HPA) som en test av om cellen spesifikke oppdrag av ekspresjonsdata var nøyaktig. Alle 68 gener som er identifisert her som tumorcelle bestemt ble undersøkt. Vi forventet at de 68 genene identifisert her som tumorcelle bestemt ville vise protein uttrykk som er mer høyt korrelert med observerte protein uttrykk i tumorceller enn i stromaceller. The protein uttrykk profilering ble gjennomført ved hjelp av de observerte immunochistochemical (IHC) fargeverdier observert i HPA som beskrevet (Materialer og metoder). Vi samlet inn data fra 75 antistoffer knyttet til 49 av 68 kreftcelle uttrykte gener (ingen antistoffer for resten 19 gener) og deretter valgte 23 av de 49 gener som utstilt forskjellig uttrykt antistoff intensiteter mellom normale individer og pasienter med prostatakreft for korrelasjonen studien . For hvert antistoff, blir proteinet ekspresjonsnivået i tumor og stroma i gjennomsnitt over 12 pasientprøver. I alle 672 IHC observasjonene ble anvendt.
RNA-gen-ekspresjon bidraget fra tumor og stroma ble oppnådd fra CC analysemodell for de 23 tumorgener. I korrelasjonsstudie, målte vi de to korrelasjoner: gen-proteinekspresjon korrelasjon i tumor og gen-proteinekspresjon korrelasjon i stroma. Resultatene viste at tumoren korrelasjonen ga et Pearson korrelasjonskoeffisient på 0,41 med signifikant p-verdi på 0,03, mens den stroma korrelasjonen var ubetydelig med korrelasjon av -0,02 (p-verdi på 0,92). Til sammenligning, en nylig gjennomgang papir [24] beskriver korrelasjonen mellom protein og gen-ekspresjon av forskjellige organismer, inkludert menneske viste at korrelasjonen av 0,41 er sammenlignbar med den høyeste korrelasjon observert for
homo sapiens plakater (0,46, s 0,001). Figur S2 viser en spredningsplott av protein uttrykk
versus
genuttrykk av våre data. Korrelasjonen Studien viser at de 23 informative gener identifisert ved vår foreslåtte CC analysemodell er faktisk nøyaktig identifisert som tumorcelle uttrykte gener.
Diskusjoner
Vi antok at mer pålitelige kreft classifiers kan identifiseres dersom celle-type heterogenitet ble tatt hensyn til. Vi har utviklet en ny Cluster-korrelasjonsanalyse hvor den variasjon som skyldes celletype fordeling styres ved hjelp av multippel lineær regresjon (MLR). Den foreslåtte CC analysen er et nytt gen ekspresjon differensialanalyse. Det er to viktige funksjoner i analysen (Figur S1). Først innlemmet vi kjente celletype prosent inn i analysen, unngår falske identifikasjon bare er forårsaket av celletype variert sammensetning mellom vevsprøver. Second, utførte vi uten tilsyn clustering, unngå direkte bruk av biokjemisk tilbakefall informasjon som ofte ikke er definitive grunn av data sensur. De to eksklusive funksjoner gjør CC analyse bedre enn tradisjonelle genuttrykk analyser. I en tidligere studie [17] vi sammenlignet CC analysemodell med tradisjonell genet differensial uttrykk analyser som ved SAM og LIMMA. Simuleringen Resultatene viste at den nye modellen gjorde det bedre enn tradisjonelle genet differensial uttrykk analyser i form av sensitivitet og spesifisitet. I tillegg, når disse fremgangsmåtene ble anvendt for å prostatakreft data, kan den CC analyse identifisere gener som er vesentlig beriket eller forbundet med prostatakreft beslektede reaksjonsveier slik som wnt signalveien, ECM-reseptor-interaksjon, fokal adhesjon og TGF
β
signalveien [17].
Ved å bruke CC analysemodell, identifiserte vi 68 tumorcelle uttrykt gener behandles som kandidat kliniske biomarkører for videre undersøkelser. De syv mest signifikante tumorcelle uttrykte gener ble identifisert ved å analysere tumorcelle beriket prøver ved hjelp av SAM. Disse sju gener ble brukt i PAM å danne en klassifikator, som senere ble godkjent for to uavhengige datasett. For disse testene, benyttet vi testprøver med 50% tumorcelleinnhold som anslått av CellPhred. Det er umulig å få rene tumorprøver på grunn av celletype heterogenitet egenverdi for de fleste Gleason histologiske mønstre og på grunn av varierende grad av stroma og andre elementer med vevsprøver valgt for microarray analyse av «svulster». Ved å sammenligne prediksjonsnøyaktigheten av utvalgte prøver med ulike tumorcelle prosenter (prøver med 10% tumorcelle til 50% tumorcelle), fant vi ut at den beste spådommen ble oppnådd når svulst celle prosentandel av en gitt prøve var større enn 50%. Derfor er nøyaktigheten, følsomhet og spesifisitet av våre uavhengig testresultatet sannsynlig en
undervurder
av ytelsen som ville bli oppnådd ved å bruke for renere tumorprøver.
Den store begrensningen av de foregående biomarkør deteksjons studier er at en enkelt klinisk datasett ble brukt både signatur oppdagelse og validering. Nylig, til den første studien utføre signatur oppdagelse og validering på uavhengige data [25] brukte en gjentakelse algoritme som resulterte i en sensitivitet på 68%. Sensitiviteten ble forbedret ved å innlemme PSA men bare hvis segregering av tilbakefall og ikke-tilbakefall undergrupper ble definert i testdata, som er lik den strategien av tidligere studier – oppdagelse og validering på samme kliniske datasett. I kontrast, ble våre syv-genet signatur først oppdaget av treningsdata og godkjent for uavhengige datasett.
For å vurdere resultatene av våre syv-genet signatur ytterligere, gjennomførte vi en PAM-basert prediksjon sammenligning mellom vår gen signatur og andre gen signaturer identifisert i andre studier. Tabell 2 viser sammenligningen av fem forskjellige gene signaturer – vår syv-genet signatur, den Bismar genet signaturen [26], og den Glinsky genet skriftene 1-3 [25]. Resultatene viste at våre syv-genet signatur gitt den beste nøyaktighet og den beste balansen mellom sensitivitet og spesifisitet i uavhengige tester.
For å gi en sammenligning med en selvstendig og nøyaktig prediktor, vi også benyttet et klassifiseringssystem CAPRA scorer [8] for å bestemme risiko for tilbakefall for datasett 1. resultatet viste at nøyaktigheten av CAPRA poengsum er bare 54%, noe som ikke kan sammenlignes med nøyaktigheten av vår signatur. Dette avviket kan representere skillet funksjonene i vår befolkning i forhold til befolkningen som brukes i utviklingen av CAPRA Resultat [8].
I konklusjonen, de syv-genet prognostisk signatur er nært knyttet til biokjemisk tilbakefall hos pasienter etter radikal prostatektomi. Denne signaturen tyder praktiske applikasjoner som stratifisering av pasienter i henhold til risiko i studiene av adjuvant behandling og identifisering av mål for utviklingen av behandling for prostatakreft progresjon.
Hjelpemiddel Informasjon
Figur S1.
Flytskjema for utviklingen av sju-genet klassifikator.