PLoS ONE: Bygge en statistisk modell for å forutsi kreft Genes

Abstract

Mer enn 400 kreftgener har blitt identifisert i det menneskelige genom. Listen er ikke komplett. Statistiske modeller forutsi kreftgener kan hjelpe med identifisering av nye kreft genet kandidater. Vi brukte kjent prostatakreft (PCA) gener (identifisert gjennom KnowledgeNet) som en trening satt til å bygge en binær logistisk regresjonsmodell identifisere PCA gener. Intern og ekstern validering av modellen ble gjennomført ved hjelp av en valideringssett (også fra KnowledgeNet), permutasjoner og eksterne data på gener med tilbakevendende prostata svulst mutasjoner. Vi evaluerte et sett av 33 genet egenskaper som prediktorer. Seksten av de opprinnelige 33 prediktorene var signifikant i modellen. Vi har funnet at en typisk PCa gen er en prostataspesifikt transkripsjonsfaktor, kinase, eller fosfatase med høy inter variansen av ekspresjonsnivået i tilstøtende normalt prostatavev og differensialuttrykk mellom normal prostatavev og primær tumor. PCA gener vil sannsynligvis ha en antiapoptotic effekt og for å spille en rolle i celleproliferasjon, angiogenese, og celleadhesjon. Deres proteiner vil trolig bli ubiquitinmolekyler eller sumoylated men ikke acetylert. En rekke nye PCA-kandidater har blitt foreslått. Funksjonelle markeringer av nye kandidater identifisert antiapoptosis, regulering av celleproliferasjon, positiv regulering av kinaseaktivitet, positiv regulering av transferase aktivitet, angiogenese, positiv regulering av celledeling, og celleadhesjon som topp-funksjoner. Vi tilbyr en liste over de 200 spådd PCA gener, som kan brukes som kandidater for eksperimentell validering. Modellen kan modifiseres til å forutsi gener for andre kreftformer

Citation. Gorlov IP, Logothetis CJ, Fang S, Gorlova OY, Amos C (2012) Bygge en statistisk modell for å forutsi kreftgener. PLoS ONE 7 (11): e49175. doi: 10,1371 /journal.pone.0049175

Redaktør: Ludmila Prokunina-Olsson, National Cancer Institute, National Institutes of Health, USA

mottatt: 03.08.2012; Akseptert: 9. oktober 2012; Publisert: 15.11.2012

Copyright: © 2012 Gorlov et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien ble støttet delvis av David H. Koch Senter for anvendt forskning av urin Kreft, National Institutes of Health prostata SPORE tilskuddet CA140388-01 og National Institutes of Health Cancer Center Support Grant 5 P30 CA016672. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

En folketelling av menneskelige kreftgener utført av Futreal

et al. product: [1] og oppdatert av Santarious

et al

. [2] for å identifisere 400 kreft-relaterte gener. Det er åpenbart at denne listen over kreftrelaterte gener ikke er full: en PubMed litteratursøk gjennomført i juni 2011 å bruke begrepet «roman kreft genet» i tittelen identifisert mer enn 100 artikler publisert i 2011 (data ikke vist).

Utvikling av en prediktiv modell for kreftgener kunne akselerere sin identifikasjon. I denne studien har vi utviklet en statistisk modell for prediksjon av prostata kreft (PCA) gener. Vår studie var motivert av følgende: i) en rekke PCa-relaterte gener med sterke eksperimentelle bevis har blitt identifisert, ii) mange gener i det menneskelige genom er grundig kommentert, og iii) genome-wide profilering av gen-uttrykk data er tilgjengelige [3], [4]. I denne studien identifiserte vi trekk som er karakteristiske for kjente PCA gener og brukte dem til å forutsi nye PCA gener.

Materialer og metoder

Kjente PCA Gener

Vi brukte KnowledgeNet (KN, en litteratur-mining algoritme) tilnærming for å identifisere PCA gener [5]. De KN algoritmen søker etter en sammenheng mellom genet og både primære og sekundære (

dvs.; Eksporter relaterte) vilkår. Som et resultat av hvert gen får en tillit score (CS): jo høyere CS, jo sterkere assosiasjon av genet med en bestemt fenotype; i vårt tilfelle, PCa. Vi identifiserte totalt 707 gener med CSS spenner 2,663 til 0,001 (tabell S1) og brukt de 100 genene som «kjente PCA gener.» De andre 607 gener fra listen ble betraktet som «antatte PCA gener.» De resterende 14,641 gener med en CS. 0,001 ble betraktet som «. non-PCA gener» Vi ekskluderte de 607 antatte PCA gener for å skape et godt definert binært utfall for vår analyse

Fordi vår første søketerm for å identifisere PCA gener var » prostatakreft, «algoritmen søker gener assosiert med noen aspekter av prostata kreftutvikling, herunder initiering, progresjon, tilbakefall og overlevelse. Med andre ord, brukte vi en bred definisjon av PCA gener. Selvfølgelig kan et søk være mer spesifikk,

f.eks

. «Prostatakreft tilbakefall», og dette forventes å produsere et treningssett som vil være forskjellig fra listen vi brukte.

modell og variabler

En binær logistisk regresjon (BLR) modellen ble brukt til å diskriminere mellom «kjente PCa» og «non-PCA» gener. Hver genet ble beskrevet av 33 variablene (tabell 1). Variablene ble selektert på grunnlag av bevis publisert av oss og andre at de enkelte variablene er forbundet med PCa [6] – [11]. En detaljert beskrivelse av variablene kan bli funnet i informasjons S1. Vi underklassifiseres variablene inn i to kategorier: prostatavevet spesifikke og uspesifikke. Vevsspesifikke variabler inkludert genuttrykk data i normale og tumor prostata vev. Non-vev-spesifikke variabler var de som kan brukes på alle typer vev,

f.eks, etter «vekstfaktor», «fosforylerte» variabler.

Fordi vår regresjonsmodell var naturlig ubalansert, med for mange «ikke-PCA» gener og for få PCA gener, vi kunne ikke bruke en 0,5 terskel for å bestemme om genet var PCA eller «non-PCA» genet. Klassifiseringen terskel (0,05) ble valgt for å sikre at minst 95% av ikke-PCA-gener ble forutsagt på riktig måte, og fordi det reflekterer andelen av gener som har blitt identifisert som prostatakreft (707) som er relatert til det totale antall gener studert hos opplæringsfasen (14641). Denne forholdsvis høy grad av korrekt klassifisering av «ikke-PCA» gener ble valgt for å redusere risikoen for eksperimentelle oppfølging av falske positiver, som kan være kostbart.

Totalt brukte vi 15,348 gener. Genuttrykk data var en begrensende faktor for inkludering av hvert gen i analysen. Vi brukte offentlig tilgjengelige datasett GSE6919 [12], [13] og GSE21034 [13] fra Gene Expression Omnibus (GEO) [3], [4] og brukes Amigo

2 [14] for å identifisere gener assosiert med spesifikk biologisk funksjon, cellulær beliggenhet, og posttranslational modifikasjoner. Antall humane ortologer rapportert i HomoloGene database (https://www.ncbi.nlm.nih.gov/HomoloGene) ble anvendt som den evolusjonære bevaring indeksen [15], [16].

Validering av Model

For å validere modellen, må vi først tilfeldig underklassifiseres 200 gener med den høyeste CS inn funn og valideringssett. Neste vi bygget BLR modellen ved hjelp av bare oppdagelsen sett og brukte den til å forutsi PCA gener i valideringssettet. For ekstra intern validering, vi bygde BLR modell ved hjelp av de 100 genene, unntatt de antatte PCA gener, og deretter brukt modellen for å beregne sannsynligheten for de antatte PCA gener. Vi forventet at sannsynligheten for å bli klassifisert som en PCa gen ville være høyere for de antatte gener enn det ville være for de ikke-PCA-genene. Videre utførte vi permutasjon testing av tilfeldig tildele PCa genet status. Vi bygget en BLR modell for de «uekte» PCA gener ved å bruke samme sett av variabler vi brukte for den «ekte» PCA gener (

vil si

., De som er identifisert med KN). Vi utførte denne prosedyren 100 ganger og beregnet andelen av korrekt spådde PCA gener.

For ekstern validering, sjekket vi for å se om modellen-avledet sannsynligheten for et gen vesen PCa relaterte var høyere for gener som tilbakevendende somatiske mutasjoner i prostata tumorprøver er rapportert i Katalog av somatiske mutasjoner i Cancer (COSMIC) database [17], [18]. Vi har også brukt gener identifisert som å ha tilbakevendende somatiske mutasjoner i den nylig publiserte studien resultatene av hel-exome sekvensering av prostata tumorprøver [19]. Vær imidlertid oppmerksom på at vi ikke fikk bruke somatisk mutasjon data å bygge vår modell.

Er forutsi Model prostata spesifikt?

For å besvare dette spørsmålet, vi identifisert de 100 bryst og topp 100 lungekreft gener (tabell S2) ved hjelp av den samme algoritme KN vi anvendt for å identifisere PCA-genene. Da vi sammenlignet de prosenter av korrekt spådd brystkreft og lungekreft gener med andelen korrekt spådde PCA gener.

Vi har bygget BLR modeller på grunnlag av bare spesifikke ( «bestemt modell») og uspesifikk ( «uspesifikke modell «) prediktorer. Deretter beregnet vi prosentandelen av korrekt spådde ikke-PCA og PCA gener for hver modell. Statistisk analyse ble utført med SPSS versjon 15.0.

Resultater

Forut PCA Gener

Blant de 33 variablene, 22 var betydelig i univariable analysen (tabell S3), mens det i den multivariabel trinnvis fremover (likelihood ratio) BLR modell, 16 variabler var signifikant (tabell 2). Modellen forutsagte korrekt 96% av de ikke-PCA-genene og 55% av PCA-genene og var mer nøyaktig enn den modell er bygget på data som inkluderte de antatte PCA gener som ikke-PCA gener, hvor 96% av ikke-PCa gener og 46% av PCA genene ble spådd riktig.

Tabell S4 lister toppen 200 spådd PCA gener og indikerer om de ble kjent, antatt, eller nye spådd gener. Ranking genene i henhold til de modell avledet sannsynlig omformet den opprinnelige CS basert liste:

AR plakater (androgen reseptor) ble rangert syvende, ikke første, som på den opprinnelige listen, og

KLK3

(prostataspesifikt antigen [Ptil]) var fjerde, selv om det var andre på den opprinnelige listen. Samlet er korrelasjonen mellom CS og modellen-avledet sannsynlighet for å bli PCa relatert var 0,32, df = 200;

p

= 2 × 10

-6. Tabell S5 viser individuelle variabler som bidrar til sannsynligheten for at genet er assosiert med PCa.

Antatte PCA Gener har en høyere sannsynlighet for å bli klassifisert som PCa Relaterte

Antatte PCA gener er forventet å ha en høyere sannsynlighet for å bli PCa relaterte enn ikke-PCA-genene har. Vi brukte vår modell basert på de data uten de antatte gener for å anslå sannsynligheten for at en antatt gen PCa relatert, sammenligner mengdene av genene anslått til å være relatert PCa mellom de kjente, antatte, og ikke-PCA-genene. Andelene av gener spådd å bli PCa relatert var 0,052 ± 0,002 for de ikke-PCA gener, 0,224 ± 0,017 for de antatte PCA gener, og 0,547 ± 0,049 for de kjente PCA gener. Som tidligere nevnt, også bygde vi en modell som inkluderte de antatte PCA gener som ikke-PCA gener. Total, prediksjonsnøyaktigheten var lavere med denne modellen, sammen med de andeler av genene som anslås å være PCa assosiert å være 0,037 ± 0,002 for de ikke-PCA-gener, 0,217 ± 0,016 for de antatte PCA-genene, og 0,455 ± 0,049 etter det kjente PCa gener.

er Tippe PCa spesifikk?

For å finne ut om vår prognosemodell er PCa spesifikke, identifiserte vi de 100 bryst og lunge kreftgener ved hjelp av KN-tilnærming (Tabell S2 ). Totalt sett hvor stor andel av korrekt spådd kreftgener var høyere for prostata (0,55 ± 0,03) enn for bryst (0,37 ± 0,02) og lunge kreft (0,31 ± 0,02). For modellen bygget basert på uspesifikke prediktorer bare, nøyaktighet var bedre for PCA gener (0,55 ± 0,02) enn det var for brystet (0,24 ± 0,02) og lungekreft (0,21 ± 0,02) gener. Og for modellen basert på bestemte prediktorer, den forutser effektivitet også var høyere for prostata (0,30 ± 0,02) enn det var for bryst (0,08 ± 0,01) og lungekreft (0,08 ± 0,01) gener.

Discovery og validerings~~POS=TRUNC Sett

For intern validering, vi tilfeldig tildelt de 200 PCa-relaterte gener til oppdagelse og validering setter så det var 100 gener i hver gruppe. Vi bygde BLR modell på grunnlag av oppdagelsen sett og brukte den til å forutsi PCA gener fra valideringssettet. Oppdagelsen Modellen spådd riktig 95% av de ikke-PCA gener og 43 ± 5% av PCA gener; det spådd lignende proporsjoner i valideringssettet: 96% av de ikke-PCA gener og 38 ± 5% av PCA gener. Vi utførte denne prosedyren 100 ganger.

Permutasjoner

Vi randomisert PCa status til 100 gener fra 15,348 gener i den opprinnelige tabellen, og bygget en prediksjon modell for de «uekte» gener ved bruk av samme 33 variabler (tabell 1). Prosedyren ble utført 100 ganger. Det var i gjennomsnitt 0-2 signifikante variabler i mock-genet modell, og disse variablene varierte fra modell til modell. I gjennomsnitt ble 0,7 ± 0,2% mock PCA gener spådd riktig, noe som er vesentlig (

p

10

-6) lavere enn andelen av korrekt spådde «true» PCA gener ( 55 ± 5%).

ekstern validering

for ekstern validering, brukte vi resultatene av den nylig publiserte rapport om tilbakevendende somatiske mutasjoner i prostatakreft [19]. Studien identifiserte 20 genes-

BDH1, DKK1, DLK2, FSIP2, GLI1, IKZF4, KDM4B, MGAT4B, NMI, NRCAM, PCDH11X, PDZRN3, PLA2G16, RAB32, SDF4, SF3A1, TBX20, TFG, TP53, etter og

ZNF473- Hotell som har tilbakevendende somatiske mutasjoner. Sytten av disse genene (alle unntatt

BDH1, FSIP2

, og

PLAG16

) var på vår opprinnelige liste over 15,348 gener. Vi fant at modellen genererte sannsynlighet for å være PCA genet var mer enn ti ganger større for genene med tilbakevendende somatiske mutasjoner enn det var for alle andre gener: 0,082 ± 0,041

vs

0,007 ± 0,001;. df = 15 348,

t

= 5.4,

p

10

-6 (figur 1). De andre vesentlige prediktor var transkripsjonsfaktorer, CS brukes for å rangere PCA gener fra litteraturen gruvedrift, celleproliferasjon, fosfataser, vekstfaktorer, og angiogenese. Vi har fått lignende resultater for genene med de rapporterte PCA somatiske mutasjoner fra COSMIC databasen [18]. Modellen-avledet sannsynlighet for å være PCA genet var den viktigste prediktor for gener med tilbakevendende somatiske mutasjoner i prostatakreft. Andre viktige prediktorer inkludert CS, kinaser, antiapoptotic, celleproliferasjon, acetylert, plasma membran, og angiogenese.

Vertikal linje representerer en terskel for statistisk signifikans.

Spesifikk vs. Uspesifikke Prediktorer

Vi bygget en modell basert på bare spesifikke (åtte variabler) og bare uspesifikke (25 variabler) prediktorer. I den ikke-spesifikke modellen, 11 variabler var signifikant (i synkende statistisk signifikans): kinaser, fosfataser, ekstracellulære rom, transkripsjonsfaktorer, antiapoptotic, signaltransduksjon, vekstfaktorer, celle spredning, sumoylated, celle adhesjon, og angiogenese. Den ikke-spesifikke modellen forutsagte korrekt 95% av ikke-PCA og 40% av PCA-gener; at basert på bestemte variabler fullstendig predikerte 95,5% av ikke-PCA og 30,2% av PCA gener. Det var fire signifikante prediktorer i denne modellen (i synkende rekkefølge av statistisk signifikans). Prostataspesifikt uttrykk (berikelse score), varians i tilstøtende vev, meta-analyse av genuttrykk, og tre-nivå meta-analyse

diskusjon

Vi har identifisert en kombinasjon av egenskaper som er karakteristisk for PCA-gener: en typisk PCa gen er en prostataspesifikt transkripsjonsfaktor, kinase, eller fosfatase med høy inter varians i tilstøtende normalt vev og prostata uttrykkes annerledes (oppregulert eller nedregulert) i normal prostata vev og primærtumor. PCA gener vil sannsynligvis ha en antiapoptotic effekt og spiller en rolle i celleproliferasjon, angiogenese, og celleadhesjon. Deres produkter er sannsynlig å bli ubiquitinmolekyler eller sumoylated men ikke acetylert. De er sannsynlig å være involvert i signaltransduksjon og være en del av det ekstracellulære rom. Noen av de identifiserte egenskapene til PCA gener (

f.eks, etter celleproliferasjon eller angiogenese) er åpenbare, mens andre (

f.eks

., Vev spesifisitet, høyere varians av genuttrykk i tilstøtende normal prostata vev, eller ubiquitinering) er ikke så tydelig. Fordi flere ulike faktorer som er involvert i å nominere et gen som skal prostatakreft relatert, forskjellige gener viser effekter fra ulike prediktorer. De prediktorer er angitt i tabell S5.

Vår modell gir også rangeringen av de gener som er, i henhold til modellen generert bevis, PCA relatert og derfor forutsigbare for nye PCA gener. En kort beskrivelse av de ti beste roman spådd PCA gener følger

UPK3A-

uroplakin 3A.; et medlem av familien uroplakin, en gruppe av transmembranproteiner som danner komplekser på den apikale overflate av blæren epitel. Mutasjoner i

UPK3A

er forbundet med nedsatt adysplasia [20].

KITLG-

koder liganden av tyrosin-kinase reseptoren. Genet er antatt å spille en rolle i cellemigrasjon [21].

NPY-

allment uttrykt i sentralnervesystemet og påvirker mange fysiologiske prosesser, inkludert kortikal eksitabilitet, stressrespons, mat inntak, døgnrytme, og kardiovaskulær funksjon.

GHR-

et medlem av den typen jeg cytokinproduksjon reseptor familien.

SCGB1A-

medlem av den secretoglobin familie av små utskilte proteiner. Den kodede protein har vært innblandet i en rekke funksjoner, inkludert anti-betennelse, hemming av fosfolipase A2, og lagring av hydrofobe ligander.

NR3C1-

koder glukokortikoid reseptoren, som kan fungere som både en transkripsjonsfaktor og en regulator av andre transkripsjonsfaktorer.

JUP-

koder for et protein som er et strukturelement av submembranous plakk i desmosomer. Den danner komplekser med cadherins.

NPM1-

koder for et fosfoprotein som beveger seg mellom kjernen og cytoplasma. Genet Produktet er antatt å være involvert i flere prosesser, herunder regulering av ARF /p53 sti.

CD177-

NB1, en glykosyl-phosphatidylinositol bundet

N

-glycosylated celleoverflaten glykoprotein, ble første gang beskrevet i en sak av neonatal alloimmun nøytropeni [22].

FAM55D-

kromosom 11 åpne leserammen 33. lite er kjent om dette genet, men det er nedregulert i prostata svulst.

Vi har utført funksjonell annotering av nye PCA gener ved å bruke alle 15,348 gener som bakgrunn for å ta høyde for mulige utvalgsskjevhet. For den funksjonelle merknader, brukte vi Database for kommentering, visualisering, og integrert Discovery (DAVID) [23]. De beste biologiske funksjoner knyttet til de nye PCA-genene var antiapoptosis, regulering av celleproliferasjon, positiv regulering av kinaseaktivitet, positiv regulering av transferase aktivitet, angiogenese, positiv regulering av celledeling, celleadhesjon, MAPKKK kaskade, bein utvikling, og regulering av cellulær lokalisering. (Mer detaljert informasjon finnes i saksdokumenter.) Det er betydelig overlapping mellom beskrivelsen av kjente og nye spådd PCA gener «funksjoner: antiapoptosis, regulering av celleproliferasjon, positiv regulering av kinase aktivitet, positiv regulering av transferase aktivitet, og MAPKKK kaskade er tilstede på begge listene. Den eneste unik funksjon i forbindelse med den anslåtte nye PCA gener var bein utvikling i ti gener:

GHR, AMELX, TRAF6, FGF9, SMAD1, CTGF, IGF2, AMBN, FGF18, etter og

PTN

.

resultatene av den interne valideringen viste at PCa-relaterte gener er ikke en tilfeldig samling av gener, men heller dele en kombinasjon av flere egenskaper. De viser også at vi er lite sannsynlig å overfit modellen. Ekstern validerings viste at modellen-genererte sannsynlighet for å være en PCa gen er den mest betydningsfulle prediktor for PCA-kandidatene som er identifisert gjennom analyse av tilbakevendende somatiske mutasjoner. På den annen side kan nærvær av somatiske mutasjoner i tumorprøver være en av faktorene som hever CS og følgelig bidra til en høyere sjanse for å bli klassifisert som en kjent PCa genet. Faktisk, CS var det tredje mest signifikante prediktor for genene med tilbakevendende somatiske mutasjoner. Det var imidlertid lavere enn

t

statistikk for modellen generert sannsynlighet for å være PCA genet. 5.5

vs

3.4. Andelen av genene med COSMIC somatiske mutasjoner var høyere blant de antatte PCA gener: χ

2 = 22,8, df = 1,

p

0,0001. Andelen var border høyere for de antatte nye PCA gener: χ

2 = 3,8, df = 1,

p

= 0,05. Vi fant også at den gjennomsnittlige modellen-avledet sannsynligheten for de publiserte 112 gener med en signatur av positiv utvelgelse [24] var høyere enn den for en gjennomsnittlig genet i det humane genom: Student «s

t

test = 2,0, df = 30 495,

p

= 0,04. Overlappingen er beskjeden, men signifikant, særlig hvis vi tar hensyn til at den publiserte listen over kreftgener ble generert for alle typer kreft, mens i vår studie har vi fokusert på PCa bare.

Vi viste at både spesifikk og uspesifikke prediktorer er viktig: modeller basert på bare bestemt eller bare uspesifikke prediktorer er mindre effektiv enn den modellen bygger på kombinasjonen av egenskaper. Den spesifikke prediktor-baserte modellen er mer spesifikk enn prostata er modellen basert på ikke-spesifikke prediktorene.

Åpenbart strukturen av den forutsi modellen er svært avhengig av treningssettet. Vi brukte en bred definisjon av PCa med følgende sekundære vilkår: prostata kreft celler, prostata kreftrisiko, Gleason, androgen-uavhengig, prostata svulster, Gleason score, prostatektomi, metastatisk prostatakreft, human prostatakreft, radikal prostatektomi, androgen-uavhengig prostata, avansert prostata, prostataspesifikt antigen, primært prostatakreft, benign prostata, prostatakreft, prostata-spesifikt, prostata kreftutvikling, og benign prostatahyperplasi. Selv om det i sin nåværende form av modell er utviklet for å forutsi bredt definert PCA-genene, kan den justeres til å være mer spesifikk; for eksempel, for å forutsi PCa-progresjon gener. Den avgjørende element her er å definere et pålitelig treningssett for PCA gener assosiert med kreft progresjon.

BLR modellen er en av mange tilgjengelige klassifiserings algoritmer. For å se om andre klassifiseringsmetoder kunne produsere lignende resultater, vi også analysert våre data ved hjelp av lineær diskriminant analyse (LDA) og støtte vektor maskiner (SVM). Vi fant ut at LDA og BLR har ganske like klassifisering efficacies: 51% og 55% korrekt klassifisert PCA gener med 95% og 96% av de riktig klassifisert ikke-PCA gener, med i hovedsak de samme sett en signifikant prediktor i modellen. Validering var også litt bedre for BLR modellen, med 18% av antatte PCA gener spådd å være PCA gener, sammenlignet med 22% for LDA modell. Sammenlignet med BLR, sammendragsverdimetrikken var mer effektiv i oppdagelsen settet, på riktig måte å forutsi 84% av de kjente PCA-genene og 95% av de ikke-PCA-gener; men i validering, det riktig spådd bare 34% av PCA gener, mens BLR modellen korrekt spådde 46% av PCA gener i oppdagelse og 44% i valideringssettet. På grunn av at bedre validering effektivitet, fokuserte vi på BLR modell.

Det neste logiske skritt ville være eksperimentell validering av de nye PCA kandidatene identifisert av modellen. Vi tror at en av de beste måtene å gjøre det ville være med en high-throughput screening plattform. For eksempel kan man bruke RNAi high-throughput screening av PCA-cellelinjer. Etter at tie av en kandidat-gen av RNAi, kan en estimere effekten av genet på celleformering, migrering, og apoptose. Gener med en sterk effekt på disse kreft forbundet fenotyper kan bli ytterligere analysert i menneskelig vev for å bekrefte sin rolle i prostata tumorigenesis.

I konklusjonen, har vi utviklet en bioinformatikk-baserte BLR modell for prediksjon av gener assosiert med PCa. Modellen gjør det mulig vurdering menneskelige gener i henhold til deres sannsynlighet for å bli PCa tilknyttet. Vi identifiserte en rekke nye PCA kandidater med høy sannsynlighet for å bli PCa relatert, og de kandidater kan fortjene mer eksperimentell validering. For innretningen som anvendes kan også anvendes på andre typer av gener og andre typer kreft; Vi jobber for tiden med den modell for prediksjon av lungekreftgener.

Hjelpemiddel Informasjon

Tabell S1.

Den 707 gener med CS spenner 2,663 til 0,001; vi brukte den øverste 100 av disse genene som

doi «kjente PCA gener.»: 10,1371 /journal.pone.0049175.s001 plakater (XLSX)

Tabell S2. Bedrifter Den øverste 100 brystkreft og 100 lungekreftgener identifisert ved hjelp av KnowledgeNet tilnærming

doi:. 10,1371 /journal.pone.0049175.s002 plakater (docx)

tabell S3.

Univariable analyse identifisert 22 av de opprinnelige 33 originale variabler som signifikant prediktor for PCA gener

doi:. 10,1371 /journal.pone.0049175.s003 plakater (docx)

Tabell S4.

Rangering av de 200 genene etter modell generert sannsynlighet for å bli PCa relatert. P, antatte PCa genet; K, kjent PCa genet; NP, spådde roman PCa genet

doi:. 10,1371 /journal.pone.0049175.s004 plakater (docx)

Tabell S5.

Individuell bidrar variabler i romanen spådd PCA gener. variabler uthevede bidrar til en høy sannsynlighet for et gen som skal PCa forbundet. For binære variabler, positive bidragsytere har verdien av en; for kontinuerlige variabler, prediktorer har en høyere verdi enn m + σ, hvor m er et gjennomsnitt og σ er et standardavvik

doi:. 10,1371 /journal.pone.0049175.s005 plakater (XLS)

Informasjon S1.

Beskrivelse av variabler brukes til å bygge prognosemodell. Variabler er oppført i den rekkefølgen de er presentert i tabell 1.

doi: 10,1371 /journal.pone.0049175.s006 plakater (docx)

Legg att eit svar