Abstract
Gjennom Genome Wide Association Studies (GWAS) mange enkeltnukleotidpolymorfi (SNP) -kompleks sykdomsforhold kan undersøkes. Utgangen fra GWAS kan være høy i mengde og høy dimensjons, også forholdet mellom SNPs, fenotyper og sykdommer er mest sannsynlig å være ikke-lineær. For å håndtere store volum-høy dimensjonale data, og for å være i stand til å finne de ikke-lineære relasjoner vi har benyttet data mining tilnærminger og en hybrid funksjon utvalg modell av støtte vektor maskin og beslutnings treet har blitt utformet. Den utformet modellen er testet på prostatakreft data, og for første gang kombin genotype og fenotype informasjonen brukes for å øke den diagnostiske ytelsen. Vi var i stand til å velge fenotypiske egenskaper som etnisitet og body mass index, og SNPs de kartet til spesifikke gener som
CRR9
,
TERT
. Ytelses Resultatene av den foreslåtte hybrid modell, for prostatakreft datasettet, med 90,92% av sensitivitet og 0,91 av arealet under ROC-kurven viser den potensielle av tilnærming for prediksjon og tidlig påvisning av prostatakreft.
Citation : Yücebaş SC, Aydın Son Y (2014) en prostatakreft Model Bygg av en roman SVM-ID3 hybrid funksjonsvalg Metode Bruke Både Genotyping og Phenotype data fra dbGaP. PLoS ONE 9 (3): e91404. doi: 10,1371 /journal.pone.0091404
Redaktør: Georgios Gakis, Eberhard-Karls-universitetet, Tyskland
mottatt: 16 juli 2013; Godkjent: 12 februar 2014; Publisert: 20 mars 2014
Copyright: © 2014 Yücebaş, Aydın Son. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Disse forfatterne har ingen støtte eller finansiering for å rapportere
konkurrerende interesser:.. forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
i Genome Wide Association Studies (GWAS) single nucleotide polymorfismer (SNP) -kompleks sykdoms foreninger søkes eksempel, aldersrelatert makuladegenerasjon [1], hjertesykdommer [2], diabetes [3], revmatoid artritt [4], Crohns sykdom [5], hypertensjon [6], Multiple MS [7] og krefttyper [8] – [9] – [10] neurodegenerative sykdommer [11] og psykiatriske sykdommer, slik som bipolar lidelse [12]. Nåværende GWAS av SNP profiler med slike kroniske og sammensatte sykdommer som fører til oppdagelsen av forskjellige genetiske loci og individuelle SNPs relatert med forholdene, men sammenslutning av bare SNP genotyping profiler er ikke sterk nok for prediksjon av sykdomstilstand. Så, er denne studien designet for å teste hypotesen om og i hvilken grad integrere genotype profiler og fenotypiske egenskaper; inkludert demografisk informasjon, miljøfaktorer, vil livsstilsvaner sammen med kliniske funn av en pasient styrke predicative resultatene av sykdomsmodeller. Så langt er det ikke noen publikasjon som kombinerer flere genotypiske og flere fenotypiske egenskaper, noe som ville kreve implementering av nye data mining tilnærminger som kan håndtere data med slike ulike egenskaper og enda høyere dimensjonalitet.
Metoder som brukes i GWAS kan grupperes under to hovedkategorier som er parametrisk og ikke-parametrisk [13]. Ikke-parametriske metoder krever ikke en genetisk modell gitt på forhånd; stedet de bygge sine egne modeller basert på gitte data ved hjelp av data mining og maskinlæring [13]. Ikke-parametriske metoder er foretrukket på grunn av den høye dimensjonalitet av de genetiske data som tradisjonelle statistiske metoder er lite tilfredsstillende for analyse [14]. Nesten alle kjente maskinlæringsalgoritmer har blitt brukt i GWAS, noen av de fremste metodene er beslutningstrær [15] – [16], nevralt nettverk [16], Bayesiansk Belief Networks [17], Support Vector Machines [18] – [ ,,,0],19] – [20] og genetiske algoritmer [21]. For analyse av genotyping data, som observert fra ulike anvendelser av data mining, er det ingen klare bevis for at noen av metodene er bedre enn andre [13]. Alle metoder har sine egne fordeler og ulemper, og valg av riktig metode er hovedsakelig basert på den gitte problem, datatype, studiedesign og målet med arbeidet. Det finnes også noen eksempler for anvendelse av forskjellige hybrid data mining tilnærminger med GWAS data for å øke predikativ ytelse, hvor hovedmetoden er valgt og genetiske baserte algoritmer, blir brukt som det andre trinnet for optimalisering av den viktigste metoden [22 ].
Her, for første gang introduserer vi en hybrid funksjon utvalg modellen kombinerer to ikke-parametriske data mining metoder, SVM og ID3, for bestemmelse av mest forutsigbare fenotypiske og genotypiske egenskaper relatert med en kompleks sykdom. Til forskjell fra mange arbeider i litteraturen, i denne studien har vi brukt begge metoder enkeltvis i stedet for bare å optimalisere den viktigste metoden. prostatakreft data blir brukt som en case-studie, og vi har vist at å kombinere genotype informasjon med fenotyper har bedre prediktiv ytelse enn med bare genotyper eller bare fenotyper i sykdom diagnose, samtidig som overgår ytelsen til prostataspesifikt antigen (PSA) screening test [23 ].
Materialer og Metoder
Prostate Cancer datasett
data~~POS=TRUNC settet~~POS=HEADCOMP, «Multi Etnisk Genome Wide Scan av Prostate Cancer», som brukes i dette arbeidet er lastet ned fra NCBI er dbGaP database og har et tilgangsnummer phs000306 versjon 2. Denne informasjonen består av 4650 saker og 4795 kontroller med tre ulike etnisiteter, afrikanske amerikanere, Latinos og japanske. Hver enkelt i studien har 600.000 SNPs og 20 fenotyper og antall fag som inneholder både fenotypiske og genotypiske attributter er 9130.
Data Forbehandling
Data forbehandling besto av tre trinn. I det første trinn ble utført Plink analyse for å finne den statistiske kraften av forholdet mellom genotypen og den gitte sykdom. Terskelen for foreningen av SNPs med prostatakreft ble bestemt som p 0,005 etter GWAS og 22,848 SNPs oppfyller dette vilkåret dannet den første representanten undergruppe. På andre trinn METU-SNP er AHP (Analytical hierarkisk Process) funksjonen ble brukt til å prioritere SNPs basert på biologiske og statistisk signifikans, som filtreres den tilknyttede SNPs ned til 2710 SNPs.
Data matching, rengjøring og transformasjon var gjort i det siste trinnet av data preprosessering. Den genotypiske og fenotypiske egenskaper av fagene kombineres i datautjevdatautveksling skritt basert på temaet ID-er og de lagt ID-konverteringer som er gitt i manifestet data. I rengjøringsfasen manglende verdier på grunn av fenotypiske egenskaper ble erstattet med klasse middelverdiberegning og attributt ble slettet hvor klasse midlere ikke kan beregnes. Datatransformasjon var nødvendig å kode lene fordi SVMer bruke tallverdier i stedet for kategoriske seg. I litteraturen allel kombinasjoner er kodet med tre numeriske verdier basert på heterozygote og homozygote store alleler [18]. Ulempen med disse ordningene er at «
lene ikke behandles symmetrisk product: [
18
]». Som forelder til opprinnelsen ikke var angitt i våre data vi brukte en alternativ kodeskjema, hvor symmetriske alleler blir behandlet på samme måte. Dette kode ordningen er presentert i tabell 1.
Analyse
Ifølge litteraturen de mest brukte algoritmer for å avdekke forholdet mellom genotype informasjon og sykdommen er ANN, SVM og Decision trær. Det finnes også eksempler på anvendelser av forskjellig data mining tilnærminger i en hybrid måte for å øke den predikativ ytelsen hvor hovedmetoden er valgt og genetiske baserte algoritmer brukes som det andre trinnet for optimalisering av den viktigste metoden [15] – [22].
i vår modell har vi kombinert to forskjellige metoder, SVM og ID3, og for hver av disse metodene en passende optimalisering ble brukt i stedet for å kombinere en hovedmetode med en avansert optimalisering som nevnt ovenfor. Ved denne måten i stedet for fordeler fra en sterk metode, har vi kombinert styrken av ulike metoder; ID3 robusthet til støy og utliggere [24] så vel som dens kraft til å håndtere ikke-lineære problemer og SVM forutsigelse ytelse over ikke-lineære binære klassifisering problemer. Også begge metoder er mer tolkbare sammenlignet med andre metoder.
Vår SVM-ID3 Hybrid Model ble bygget i RapidMiner 5.0 som er et gratis åpen kildekode verktøy for data mining applikasjoner og foretrekkes i ulike applikasjoner i litteraturen slik som [25]. For SVM fase RBF kjernen er valgt. Denne kjernen er mye brukt i GWAS [19] og foretrukket i vår studie for sin raskere læring hastighet og dens nytte av å bli brukt som både lineære kjerne og sigmoid kjernen i noen spesielle betingelser [26]. I tillegg til kjernen funksjon SVM har to viktige parametre (C, y) hvis ikke justert godt, kan føre overfitting eller underfitting av tilstanden.
C
konstant brukes til å justere grensen til hyperplan som skiller klassene og gamma parameter gir sin form til beslutningsgrense. Optimalisering av disse parametre har blitt rapportert tidligere [27], og vi har valgt å anvende gitter søkmetoden for optimalisering, som er blitt beskrevet tidligere [28]. De verdiområder for C og gamma, brukt under søket nettet er besluttet basert på litteratur [27] sammen med vår egen erfaring med data. For gamma verdien området er valgt i mellom [0,0001, 100] med tierpotenser og verdiområdet for C er valgt i mellom [0-10] med fem lineære trinn. Rutenettet søk etter SVM optimalisering har vart rundt ti timer å fullføre i et system med en 16 GB minne og 3,4 GHz Intel Core i7-prosessor, avslører 42 kombinasjoner.
I litteraturen er det ulike studier som kombinerer SVMer og beslutnings trær. Selv om tidligere utgitt hybridmodeller av SVM og beslutningstrær (SVM-DT) er vanligvis brukt til multi-klassifisering og multi-clustering problemer, er det også eksempler på SVM-DT kombinasjoner som brukes for binære klassifisering problemer [29]. I alle tilfellene SVM-DT modeller, blir SVM påføres først for å optimalisere parameterne og de datasett som skal brukes neste i beslutningstreet. I vår studie har vi også brukt SVM i første trinn, men i stedet for rangering attributtene og velge de beste oppført seg i henhold til SVM vekter, noe som utgjør en risiko for tap av informasjon, har vi brukt hele SVM vekter som vekten funksjonen i ID3. Disse vektene for ID3-attributtene er beregnet i henhold til formelen gitt below.The ID3 treet er implementert på RapidMiner med vekting strategi forklart ovenfor. Et andre gitter søk ble utført for å finne den optimale verdi for veid informasjon gain ratio. Rekkevidden for denne verdien ble satt i området [10
-3, 10] og søkte etter 50 logaritmisk trinn som resulterte i 51 kombinasjoner og fullførte på 11 timer.
Den totale arbeidsflyten for data pre prosesserings, som også inkluderer GWAS og integrering av fenotype og genotype data, og hybrid SVM-treet modellen beskrevet her er oppsummert i figur 1.
Totalt arbeidsflyten starter med data preprosessering hvor representative SNP undergruppe er dannet av Plink og METU-SNP analyser, fenotype og genotype data integreres og manglende verdier er enten fjernet eller manuelt fylt av klasse bety beregning. Etter at dataene forbehandling, er integrert datasettet matet inn hybridmodell hvor SVM modellen gir attributt vekter som brukes i ID3.
Resultater
I den første fasen bare SVM modellen ble kjørt å presentere klassifisering ytelsen til frittstående metoden på tre forskjellige datasett. Første og det andre settet ble enten bare genotyping eller fenotype data og den tredje datasettet inneholdt både genotype og fenotype data. Resultatene av den frittstående SVM modellen er gitt i tabell 2.
Resultatene i tabell 2 viser tydelig at å kombinere fenotypiske informasjon med genotype data noe økt avgjørelsen ytelse i alle aspekter av nøyaktighet, presisjon, husker og AUC. Hybrid SVM-ID3-modellen blir da brukt på de samme tre datasett og ytelse sammenligning er presentert i tabell 3.
Ifølge SVM ID3 hybrid modell struktur, gitt i treet S1, er den viktigste attributt er etnisitet. Vår modell har et strengt skille på etnisitet egenskap, noe som fører ulike beslutningsveier for African American, latino og japanske individer. For alle etnisiteter kroppsmasseindeks (BMI) egenskap er den andre beskrivende trekk ved avgjørelsen banen. For afroamerikanske befolkningen beskrivende fenotyper på ulike nivåer av treets egenskaper som indikerer røyking og alkoholforbruksvaner. Overraskende bare fenotypisk egenskap funnet for japanske befolkningen er BMI. Attributter indikerer familiens historie, fysisk aktivitet, lykopen inntak og røykevaner er observert for Latin befolkningen. Den samlede trestruktur av hybrid modell er presentert i Figur 2.
Hoved treet er gitt i treet S1 materialet fordi strukturen er for stor. Dette tallet er en liten representasjon av hoved treet. Decision starter med etnisitet og afroamerikanere er representert ved AA, japansk av JAP og latinos av LAT. For alle etnisiteter den mest beskrivende fenotypiske attributt er body mass index (BMI). Andre fenotypiske egenskaper som er i øvre nivåene av treet er røykeatferd, familiehistorie, lykopen inntak og fysisk aktivitet. Antallet SNPs i nodene indikerer det totale antall SNPs som finnes i ulike nivåer på en bestemt bane av treet.
Noen av de fremtredende beslutningsveier hentet fra treet er i hovedsak basert på etnisitet. For eksempel hvis motivet etnisitet er afrikansk-amerikanske og sin BMI er i første kategori, som er BMI 22,5, ved å se på rsid 11729739 vår hybridsystem kan avgjøre om objektet er en sak eller kontroll. Hvis allel profil for SNP er TT da faget kalles som en sak, men hvis motivet er heterozygot bære CT, enn faget kalles som en kontroll. Når resultatet av hybridsystemet for japanske befolkningen er undersøkt, BMI var også i det første nivået av beslutnings banen. Hvis fagene er i fjerde gren av BMI, som er = 30, da disse fagene er direkte klassifisert som tilfellet. Hvis fagene er i første gren av BMI da vedtaket er gjort basert på SNP rs2442602; fagene homozygote for den store allelet (med AA genotype) er kalt som saker, men beslutninger for fagene som frakter andre alleler krever gransking av flere SNPs.
trestruktur viser at avgjørelsen banen for Latin befolkningen er mer kompleks enn de japanske eller afroamerikanske befolkning. Hvis fagene er i første kategori av BMI deretter fagene heterozygot for SNP rs17799219, bærer AG, kalles sunt. Hvis fagene er i tredje kategorien av BMI, som er 29,9, deretter en andre fenotypisk egenskap, familiehistorie må undersøkes. Hvis disse fagene har første grad slektninger med prostatakreft, så SNP rs6475584 er undersøkt, for å ringe hvis motivet er en sak eller ikke. Mange regler, som er gitt ovenfor, kan utvinnes fra trestruktur gitt i treet S1.
Totalt vår hybrid modell identifisert 28 SNPs for African American, 22 SNPs for japansk og 65 SNPs for Latino populasjoner. Vi har undersøkt den SNP’er kartlegging for å gener innenfor SNPNexus databasen [30] og det ikke-kodende SNP’er gjennom RegulomeDB [31] for å se om de har vært forbundet med prostatakreft eller en hvilken som helst annen tilstand før.
når SNPs funnet av hybridmodell søkes gjennom SNPnexus, 107 unike rsIDs matchet med 62 unike Entrez GeneID og 42 av dem ble tidligere funnet å være assosiert med en tilstand som er oppført i Genetisk Association of Komplekse sykdommer og lidelser (GAD) database. En representant sett genes- fenotyper og sykdoms klasser er gitt i Tabell 4 og hele listen kan finnes i tabell S1 materiale.
De ikke-kodende SNPs i vår endelige sykdomsmodell blir undersøkt gjennom RegulomeDB, som viste at de SNPs funnet av vår hybridmodell har regulative effekter. Tabell 5 nedenfor viser SNPs med resultatet lavere enn 4 fra RegulomeDB. Hele listen er gitt i tabell S2 materialet.
Diskusjoner
Her har vi presentert en diagnostisk sykdomsmodell utnytte data mining metoder, basert på fenotype og genotyping data for prostata kreft. Samlet våre resultater viste at hybrid modell utviklet ved å integrere SVM og ID3 metoder er i stand til å bruke både genotype og fenotype informasjon som input, og har den beste ytelsen for å forutsi saken vs. kontroller.
SVM er valgt som det første trinnet i vår hybridmodell som det er kjent for sin høye ytelse i GWAS [26], og evne til å klassifisere ikke-separable problemer. Beslutningslogikken bak ANN, som også kan benyttes for GWAS, er ikke helt klart på grunn av den sorte boksen struktur. Også ANN har mange parametere for å justere slik som antall lag, antall noder i lag, antall epoker og læring hastighet, og viktigst ANN har den ulempen av å bli sittende fast på lokalt minima. På den annen side har de sammendragsverdimetrikker klar beslutningslogikk [20], har mindre antall parametre, og på grunn av den kvadratiske problemet strukturen den gir bare en løsning, som er til stede på det globale minimum. Som det andre steget i vår hybridmodell, er ID3 beslutningstre valgt for sin sterke resultater på å klassifisere de diskrete verdsatt datasett som i GWAS. ID3 er lett å konstruere og arbeider med god ytelse på støyende data med manglende verdier, og lett å tolke med sine visuelle funksjoner [24]. ID3 er også fordelaktig i forhold C4.5 og CART trær fordi disse metodene konstruere trær ved beskjæring som ville skjule noen beslutningsveier for sykdommen, og ID3 er også mer egnet for kategoriske data.
Så langt vi kjenner til det er ingen tilsvarende hybrid eller frittstående data mining metode etablert som en gullstandard for tidlig diagnostisering av prostatakreft. Så, resultatene av hybrid modell måtte være i forhold til frittstående SVM og ID3-modeller. Den foreslåtte hybrid modell hadde bedre klassifisering makt over den frittstående SVM og ID3-modellen med alle tre datasett, hvor enten bare genotyping eller fenotype data brukes og for den integrerte genotype-fenotype datasett. I det integrerte genotyping-fenotype datasett hybrid SVM-ID3-modell med 90,92% sensitivitet og 0.910 AUC gjorde det bedre enn frittstående SVM, og frittstående beslutning treet som har henholdsvis 71,34% sensitivitet og 0,829 AUC og 81,33% sensitivitet og 0,732 AUC. I tillegg en tre lags fôr frem tilbake forplantning ANN strukturen ble bygget i Rapid Miner og kjørte på samme kombinerte genotype-fenotype datasett for sammenligning av forestillinger. Henrettelsen drevet i 3 dager å fullføre, og resultatene i form av nøyaktighet, presisjon og tilbakekalling var alle under 55%. Utførelse av ANN kan økes ved å optimalisere parametrene brukes, men dette ville føre til at kjøretiden til å øke enda høyere. Selv om ANN kunne nå samme ytelse som hybrid modell, ville den lange kjøretiden stå som en annen stor ulempe foruten det å være en svart boks algoritme.
Totalt vår hybridmodell var i stand til effektivt å bruke høy -VOLUME, høy-dimensjonale integrert genotyping og fenotype data som input. For tiden er det mange publiserte studiene fokusert på analyse av data genotyping, men ikke i noe eksempel på å kombinere fenotype med genotyping profilen har blitt presentert ennå. Fylling dette gapet, for første gang genotyping og fenotype data er integrert sammen for å bygge en diagnostisk sykdomsmodell for prostatakreft. Som vi har presentert i tabell 3, integrere fenotype og genotype data økt avgjørelsen ytelse ved det gjelder følsomhet og AUC. Følsomhet av den foreslåtte hybrid modell på et datasett med bare genotyper er 68,69%, med bare fenotyper er 83,78% hvor følsomheten øker til 90,92% når genotyping er integrert med fenotype data. Parallelt med den følsomhet AUC-verdien øker også; AUC for bare genotyping data og bare fenotype data er 0,674 og 0,857, respektivt, men når både informasjonen blir brukt AUC øker til 0,910
I tillegg til den bedre klassifisering ytelse, våre resultater viser at den foreslåtte SVM -. ID3 hybrid-modellen var også i stand til å identifisere de funksjonelle og regulatoriske SNPs relatert med prostatakreft. De valgte SNPs og deres gen-sykdom relasjoner blir sjekket ved hjelp av databaser som SNPnexus og RegulomeDB, som integrerer tredjeparts informasjon fra ulike databaser og studier i SNP-sentriske format. Dette betyr at SNP’er valgt for å bygge opp den diagnostiske sykdomsmodell med den foreslåtte hybridfremgangsmåten er også kandidater for videre biologisk undersøkelse av molekyl etiologi av prostata kreft.
Den foreslåtte hybrid metode har identifisert 107 unike SNP’er for diagnostisk modell av 2710 svært tilhørende SNPs valgte etter GWAS. Når disse 107 SNPs søkes i SNPnexus og RegulomeDB noen av dem er funnet å være relatert til spesifikke gener og andre påvirker regulering og forpliktende. For eksempel er rs2853668 kjent for å være assosiert med
CRR9, TERT
som spiller en viktig rolle i reguleringen av telomerase-aktivitet. Den rs11790106 påvirker reguleringen av
ATP2B2
gen som er viktig for energiproduksjon og kalsium transport av cellene. rs12644498 påvirker regulering av
ARL9
genet og rs6887293 påvirker reguleringen av
AGBL4
som også er viktig for ATP /GTP syklusen i cellene. Disse genene er nært knyttet til
IGF1
gen som spiller en viktig rolle i insulinmetabolisme. Mange av genene, de 107 SNP i kartet sykdomsmodell til, har sammenheng med vekst og energiprosesser. Disse molekylære funksjoner er faktisk relatert til BMI, der de viktigste fenotypiske egenskap for alle etnisiteter funnet av vår hybridmodell.
Resulterer funksjon sett vår hybrid modell ble undersøkt og fenotypisk egenskap etnisitet ble funnet å være mest knyttet attributt med prostatakreft. Dette resultat var ikke overraskende fordi flere arbeider i litteraturen allerede viste at det er en forbindelse med etniske egenskaper og prostatakreft sykdom. Kleinmann arbeid viser at etnisk bakgrunn av pasientene spiller en viktig rolle i prostatacancer livskvalitet [32]. Ifølge Hoffman, er etiologien av prostatakreft svært avhengig av etnisitet og African American har den høyeste risikoen for å ha prostatakreft [33]. Som en støtte resultat, vår hybridmodell strengt deler prostata datasett i henhold til etnisitet og for hver etnisitet ble observert forskjellige baner.
Selv om beslutningsveier for etnisiteter er alle forskjellige, på andre nivå alle beslutningsveier indikere BMI Egenskap. BMI er allerede kjent for sine forbindelser med ulike typer kreft som brystkreft [34] og spiserør [35], og er også en sterk fenotypisk egenskap for prostatakreft [36]. I litteraturen sammen med BMI, alder og familiens historie, som også er blant de valgte attributtene av vår hybridmodell, har blitt vist å være like viktige funksjoner for diagnostisering av prostata kreft [36]. Den forebyggende effekten av høye BMI-verdier utover 30 kg /m
2 blitt nevnt tidligere [36], og interessant for japanske befolkningen vi har også observert det samme forebyggende effekten av BMI for sykelig overvektige tilfeller på de lavere nivåene av vedtaket banen . I tillegg kan andre vanligste fenotypiske egenskaper i beslutningsveier som familiehistorie, røyking vane, fysisk aktivitet og lykopen inntak var også forbundet med prostata kreft tidligere [37]. Samlet våre resultater viser at den foreslåtte hybrid modell inkludert tidligere etablert fenotypiske egenskaper for prostatakreft.
Foreløpig blod prostataspesifikt antigen (PSA) nivåer er gullstandarden for tidlig deteksjon av prostatakreft tilstand før biopsi, med maksimal følsomhet rapportert som 86%, og en spesifisitet på 33% med AUC 0,67 [23] – [42]. PSA nivåer under 4 ng /ml anses normalt, nivåer mellom 4 ng /ml-10 ng /ml er kjent som mistenkelig og nivåer høyere enn 10 ng /ml er kjent for å være forbundet med høy risiko [38]. Problemet med PSA-test er bestemmelse av tersklene. Området mellom 4 ng /ml-10 ng /ml er et grått område for avgjørelse, og mens enkelte fag under 4 ng /ml kan ha prostatakreft, men noe over 10 ng /ml kan likevel være sunt [39]. I tillegg er de avskårne verdiene også endres med hensyn til dens alder [40]. Dette introduserer et alvorlig problem, og som de forskjellige litteraturen tilstand PSA bør ikke brukes som en tidlig diagnose verktøy i prostatakreft [41] til sin ytelse økes når det gjelder sensitivitet og spesifisitet [42]. Når diagnose resultatene av den foreslåtte hybrid modell med 90,92% sensitivitet og 0,91 AUC er vurdert, presenterer det et potensielt godt verktøy for tidlig deteksjon av prostatakreft. Etter validering med pilotstudier, vil den foreslåtte modellen som bare krever en kinn swap stå som et godt alternativ til blod PSA-test.
Her, for første gang vi har foreslått en predikativ sykdomsmodell integrere genotyping og fenotype data gjennom en hybrid funksjonsvalg, som kombinerer to ikke-parametriske data mining metoder, SVM og ID3. Til forskjell fra mange arbeider i litteraturen, i denne studien har vi brukt begge metoder enkeltvis i stedet for bare å optimalisere den viktigste metoden. prostatakreft data blir brukt som en case-studie, og vi har vist at modellen kombinerer genotype informasjon med fenotyper gir en bedre ytelse enn med kun genotype eller fenotype data i sykdom diagnose og samtidig overstiger resultatene av prostataspesifikt antigen (PSA) screening test [23].
Konklusjoner
i denne studien for første gang genotyping og fenotype data er integrert og en hybrid modell av SVM-ID3 for prostatakreft er å bygge. Et viktig bidrag til dette arbeidet var å integrere genotyping med fenotype data. Effekten av denne integrasjonen er testet i både frittstående SVM og SVM-ID3 hybrid modell. I forhold til resultatmål som følsomhet og AUC det integrerte datasettet bedre enn de datasett med kun genotype og med bare fenotype i begge modellene. Følsomhet og AUC av integrerte datasettet for frittstående SVM var henholdsvis 71,34% og 0,829. Når den samme integrerte datasettet blir anvendt i hybrid modell følsomheten økes til 90,92% og AUC øket til 0,91, også gi bedre resultat enn blod PSA-test. Modellen var i stand til å identifisere prostata kreft forbundet SNPs som enten tilordnes til en kreft spesifikke gener som
CRR9, TERT
,
ATP2B2
,
ARL9, og AGBL4
og /eller med regulatoriske effekter. Eksperimentell og klinisk validering av de beskrevne foreninger for prostatakreft kan lede oss til bedre å forstå utviklingen av sykdommen på molekylært nivå. I tillegg er beskrivende fenotyper valgt av hybridmodellen ble også tidligere identifisert funksjoner for sine forbindelser med prostatakreft i tidligere studier. Etnisitet ble observert å være på roten av beslutningen trestrukturen, mens BMI, familiehistorie og røyking var de andre fenotyper som er på de øverste nivåene i beslutningsmodell. Samlet vår studie viste at den prediktive sykdomsmodell bygger med hybrid SVM-ID3 tilnærming basert på genotyping og fenotype data gir et lovende verktøy for tidlig deteksjon av prostatakreft. Etter validering av den foreslåtte modellen med pilotstudier, kan det være implementert som en klinisk avgjørelse støttemodul for å evaluere pasienter risiko for å utvikle prostatakreft, og de fenotyper relatert til livsstilen (BMI, mosjon, røyking, etc ..) som har høy innvirkning på pasienter risiko kan identifiseres for hver enkelt å bli overvåket i den kommende besøk.
videre studier på den foreslåtte hybrid SVM-ID3-metoden og andre data mining tilnærminger for integrerende analyse av GWAS resultater og fenotypisk informasjon vil hjelpe til med utviklingen av andre vellykkede sykdomsmodeller, noe som ville utmerke oversettelse av variant-sykdom foreningen funn i klinisk setting for utvikling av nye beslutningsstøtteverktøy og personlig medisin tilnærminger.
Hjelpemiddel Informasjon
Table S1.
hel liste over SNPnexus resultater
doi:. 10,1371 /journal.pone.0091404.s001 plakater (docx)
Tabell S2.
hel liste over RegulomeDB resultater
doi:. 10,1371 /journal.pone.0091404.s002 plakater (docx) Slektstre S1.
Tekst representasjon av trestruktur. Trestrukturen av SVM-ID3 hybrid modell
doi:. 10,1371 /journal.pone.0091404.s003 plakater (docx)
Takk
Vi uttrykker oppriktige takknemlighet til Prof . Dr. Nazife Baykal, Prof. Dr. Hayri Sever, Assoc. Prof. Dr. Hasan Ogul, Assist. Prof. Dr. Aybar C. Acar for deres veiledning og innsikt gjennom hele studien. Verdifulle bidrag av Remzi Çelebi er takknemlig erkjent.