Abstract
Den personlige genomikk æra har tiltrukket seg mye oppmerksomhet for anti-kreft terapi av pasientspesifikk analyse. Pasientspesifikke analyser muliggjør oppdagelse av individuelle genomiske egenskaper for hver pasient, og dermed kan vi effektivt forutsi individuelle genetiske risiko for sykdom og utføre personlig anti-kreft terapi. Selv om eksisterende metoder for pasientspesifikk analyse har lykkes avdekket viktige biomarkører, tar resultatene deres plutselig tur til det verste i nærvær av uteliggere, ettersom metodene er basert på ikke-robuste oppførsel. I praksis kliniske og genomiske forandringer datasett inneholder vanligvis uteliggere fra ulike kilder (f.eks eksperiment feil, kodefeil, etc.) og uteliggere kan påvirke resultatet av pasientspesifikk analyse. Vi foreslår en robust metode for pasientspesifikk analyse i tråd med NetwrokProfiler. I den foreslåtte metoden, blir uteliggere i høye dimensjonale genuttrykk nivåer og narkotika respons datasett samtidig kontrollert av robust Mahalanobis avstand i robust hovedkomponent plass. Dermed kan vi effektivt utføre for å forutsi anti-kreft narkotika følsomhet og identifisere følsomhet spesifikke biomarkører for den enkelte pasient. Vi observere gjennom Monte Carlo-simuleringer som den foreslåtte robust metode produserer fremragende innsats for å forutsi responsen variabel i nærvær av uteliggere. Vi bruker også den foreslåtte metodikken til Sanger datasettet for å avdekke kreft biomarkører og forutsi anti-kreft narkotika følsomhet, og viser effekten av vår metode
Citation. Park H, Shimamura T, Miyano S, Imoto S (2014) Robust Prediction of Anti-Cancer Drug sensitivitet og følsomhet Spesifikke Biomarker. PLoS ONE 9 (10): e108990. doi: 10,1371 /journal.pone.0108990
Redaktør: María Mar Abad-Grau, Universitetet i Granada – Q1818002F, Spania
mottatt: 03.04.2014; Godkjent: 27 august 2014; Publisert: 17 oktober 2014
Copyright: © 2014 Park et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet:. Den forfatterne bekrefter at alle data som underbygger funnene er fullt tilgjengelig uten restriksjoner. Sanger Genomics av Drug Sensitivity in Cancer datasettet fra Kreft Genome Project (https://www.cancerrxgene.org/)
Finansiering:. Forfatterne fikk ingen spesifikke midler til dette arbeidet
konkurrerende interesser:. forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Nylig har en rekke studier forsøkt å personlig terapi og medisin basert på avansert biomedisinsk teknologi [2], [9] . Et viktig spørsmål for personlig genomforskning er å avdekke de genomiske trekk ved den enkelte pasient som er relevante for behandling. Den elastiske nett-type ordnet regresjon (som møne [11], Lasso [29], elastiske nettet [34], etc.) har blitt mye brukt for å avdekke biomarkører, og vellykket utført for å identifisere genomiske trekk og forutsi responsen variabel basert på høy-dimensjonale genekspresjon datasett. Metodene kan imidlertid bare gi resultater basert på gjennomsnittlig genomiske trekk ved alle pasienter. I hovedsak er det ennå ikke mulig å bruke disse metodene for å identifisere genomiske funksjoner for den enkelte pasient, og dermed er det vanskelig å effektivt personlig behandling og medisin.
Wang et al. [30] anses pasientspesifikke pathway aktiviteter basert på en blandet modell, hvor de faste effektene modellert gjennomsnittet vei av genekspresjon profiler for pasientgrupper og tilfeldige effekter beskrevet pasient variasjoner fra gruppen mener. Shimamura et al. [28] foreslått en metode, kalt en NetworkProfiler, for å identifisere pasientspesifikke gennettverk basert på en varierende koeffisient modell og kernel-baserte elastisk nett-type regularisert regresjon. Ved å bruke en gaussisk kjerne funksjon, kan NetworkProfiler effektivt utføre pasientspesifikk analyse basert på nabolaget prøver rundt en pasient. Selv om de eksisterende elastisk nett-type regularisering metoder utføre effektivt for pasientspesifikk analyse, sine forestillinger tar en brå sving på det verste i nærvær av uteliggere, fordi metodene er konstruert av ikke-robuste oppførsel (f.eks minst firkantet tap funksjon). I praksis de kliniske og genomiske forandringer datasett inneholder vanligvis uteliggere fra ulike kilder (f.eks eksperiment feil, kodefeil, etc.), og dermed de eksisterende metoder ikke effektivt kan avdekke pasientspesifikke biomarkører og forutsi anti-kreft narkotika følsomhet.
Selv om problemet er kritisk viktig, relativt lite oppmerksomhet har blitt betalt for å robustheten pasientspesifikk analyse. Vi anser en robust metode for å avdekke pasientspesifikke genomiske funksjoner og forutsi anti-kreft narkotika respons på linje med NetworkProfiler. Den genomiske forandringer datasettet er vanligvis konstruert med et stort antall funksjoner for et lite antall prøver (dvs. høy dimensjonsdatasettet), og å detektere og kontrollere utliggere i en høy dimensjons datasett er vanskelige oppgaver. Vi henviser til metoden for å kontrollere uteliggere ved hjelp av robust Mahalanobis avstand basert på prinsipal komponent analyse (PCA) [25]. Ved å bruke de viktigste komponentene, kan vi oppdage uteliggere i en høy dimensjons genomisk endring datasett basert på robust Mahalanobis avstand ved å overvinne beregning av inverse kovariansmatrise. Videre, fordi hovedkomponenten rom avgrenses av maksimalisere variansen langs hver komponent, og utliggere øke variansen av dataene, vi effektivt kan utføre avvikende oppdagelse [5], 25.
Vi foreslår en robust modellering strategi for pasientspesifikk analyse, som utleder pasientspesifikke biomarkører knyttet til anti-kreft narkotika respons. Den foreslåtte strategi er basert på kernel-baserte elastisk nett-type regularisering, og dermed kan utføre pasientspesifikk analyse gjennom nabolaget prøver rundt et mål pasient. Videre kan vår metode utføre en effektiv måte for å forutsi anti-kreft legemiddel følsomhet og identifisering av legemiddelrespons-spesifikke biomarkører for hver enkelt pasient, selv i nærvær av utliggere, siden metoden er basert på en robust ordnet regresjon ved anvendelse av en vekt gjennom Mahalanobis avstand i hovedkomponent plass [25].
Vi driver Monte Carlo-simuleringer for å undersøke effekten av den foreslåtte metoden, og viser fremragende ytelse av vår metode i utsiktspunkt av prediksjon nøyaktighet. Vi bruker også den foreslåtte modelleringsstrategi til offentlig tilgjengelig Sanger Genomisk av Drug Sensitivity in Cancer datasettet fra Kreft Genome Project (https://www.cancerrxgene.org/). Vår metodikk avdekker biomarkører for enkeltpasienter og spår anti-kreft narkotika respons gitt som IC50 verdier basert på genuttrykk nivåer. Selv om Monte Carlo-simuleringer og søknad til Sanger datasettet, kan vi se at vår metode fungerer effektivt for pasient-spesifikke funksjonsvalg og prediksjon av interessant responsvariabel, selv i nærvær av uteliggere.
Metoder
Anta at vi har uavhengige observasjoner, hvor er tilfeldige responsvariabler (for eksempel anti-kreft narkotika respons) og er
p
dimensjonale vektorer av Predictor variabler (f.eks genomiske forandringer). Betrakt lineær regresjonsmodell, (1) der er en fange, er en ukjent
p
dimensjonal vektor av regresjonskoeffisienter og er de tilfeldige feil som antas å være uavhengig og identisk fordelt med gjennomsnittlig 0 og varians.
for å avdekke en biomarkør, de elastiske netto-type regularisering metoder (for eksempel ryggen, lasso, elastisk netto, etc.) har blitt mye brukt, og brukt med hell til å identifisere viktige gener basert på følgende optimeringsproblem, (2) der (3), og der er en regularisering parameter kontrollerende modell kompleksitet. Straffen løpetid elastisk nett er en konveks kombinasjon av ryggen og lasso straffer. Når blir elastisk netto ryggen regresjon en straffe, mens når det blir lasso en straffe. Den elastiske netto utfører variabel utvalg og estimering sammen med egenskapene til både lasso og ridge regresjon for.
Den elastiske nett-type straffer gjør oss i stand til samtidig å identifisere viktige biomarkører og forutsi medikamentrespons. Videre kan vi effektivt utføre regresjonsmodellering i høy dimensjons genomiske forandringer datasett og i nærvær av Multikolineæritet ved å pålegge den straff på minste kvadraters tapsfunksjonen. Selv om de eksisterende metoder lykkes å identifisere viktige biomarkører og viser fremragende ytelse for å forutsi legemiddelrespons, har de vært benyttet for å identifisere gjennomsnitts biomarkører for alle pasienter. Med andre ord, kan den eksisterende fremgangsmåten ikke identifisere pasientspesifikke egenskaper i en sykdom.
NetworkProfiler
Shimamura et al. [28] foreslått en ny statistisk metode for å utlede pasientspesifikke gennettverk basert på en varierende-koeffisient strukturelle ligningen modell. La være mulige regulatorer, og være målet genet kontrollert av regulatorer på [28]. Den varierende koeffisient strukturell modell for ligning er gitt ved (4) der er en regresjon koeffisient på for modulatoren. Den pasient-spesifikke regresjonskoeffisientane er beregnet til ved kjernebaserte regulariseringen metode ved å minimalisere, (5) hvor, og (6) der er en vekt for en rekursiv elastisk nett straff for effektiv funksjon utvalg [28], og er en gaussisk kjerne funksjon med båndbredde, (7)
Gaussian kernel-funksjonen brukes til å passe modellen, basert på prøver i nabolaget rundt pasienten. Ved hjelp av den gaussiske funksjonen kjernen i regularized regresjon, utfører NetworkProfiler effektivt for å antyde pasientspesifikk gennettverk, og resultatene gjør oss i stand til effektivt tilpasset anti-cancerterapi.
Det er imidlertid vel kjent at de genomiske forandringer datasett inneholder vanligvis uteliggere fra ulike kilder (f.eks eksperiment feil, kodefeil, etc.). Det innebærer at den eksisterende fremgangsmåten ikke ville gi godt resultat for å avdekke biomarkører og forutsi anti-kreft legemiddel reaksjon, fordi den eksisterende fremgangsmåten i (5) er basert på en minste kvadraters straffet tapsfunksjon. Det ble tidligere vist at de elastiske netto-type regularisering metoder som er basert på minste kvadraters tapsfunksjonen fungerer dårlig i nærvær av uteliggere, og flere robuste metoder har blitt foreslått for å overvinne ulempene med et minst firkantet tapsfunksjon i regularized regresjon modellering [ ,,,0],1], [14], [25].
Vi foreslår en robust metode for pasientspesifikk analyse i tråd med NetworkProfiler.
robust regularisering for avvikende motstandsdyktig pasientspesifikk analyse
Vi først vise hvordan uteliggere kan påvirke estimeringsprosessen når du bruker straffet minste kvadraters metode. Figur 1 viser køyring for koeffisientene under optimalisering av regularisert regresjon modellering med en lasso straff [25] under de opprinnelige og forurensede diabetes datasett [3] i (A) og (B), henholdsvis. Den forurensede datasettet inneholder 10% utliggere for i og blant de 10 Predictor variablene. Koeffisientene konvergerte etter 26 iterasjoner i den opprinnelige datasettet, som vist i figur 1 (A). I nærvær av utliggere imidlertid optimaliseringsprosedyre med lassoen estimatoren er forstyrret, og iterasjonen antall som kreves for konvergens er betydelig økt som vist i figur 1 (B). Dette innebærer at uteliggere betydelig forstyrre regularisert regresjon modellering, og dermed kan føre til dårlige resultater i å avdekke biomarkører og forutsi narkotika respons der pasientspesifikk analyse.
Vi foreslår en robust metode for effektivt å avdekke pasient- spesifikke kreft biomarkører og forutsi anti-kreft narkotika følsomhet i tråd med NetworkProfiler. Den genomiske trekk datasettet er konstruert med et stort antall funksjoner og et forholdsvis lite antall prøver (dvs. høy dimensjonal datasettet), og detektering og styring av utliggere på en høy dimensjons datasett er generelt vanskelige oppgaver. For å løse problemet, vi vurdere vekt for å kontrollere uteliggere basert på robust Mahalanobis avstand regnes i robust hovedkomponent plass, som tidligere demonstrert av Park og Konishi [25], (8) der er det 95% kvantil av fordelingen [14] og er et robust Mahalanobis avstand basert på den robuste estimerte middelverdi og kovariansmatrise ved minimumsvolumet ellipsoid (MVE) beregnet på den robuste hovedkomponenter plass som følger, (9) der er en matrise av robuste hovedkomponent basert på sterke belastninger ved hjelp projeksjons-jakten teknikk [12]. Ved hjelp av robuste hovedkomponent plass, kan vi effektivt detektere utliggere basert på den robuste Mahalanobis avstand, for derved å overvinne beregning av den inverse kovariansmatrisen i en høy dimensjons datasett. Videre er hovedkomponentene rommet definert ved å maksimalisere variansen langs hver komponent, og siden utliggere øke variansen av datasettet, er vi i stand til å detektere flere trofast utliggere [5]. Det innebærer at vekten basert på robust Mahalanobis avstand regnes i robust hovedkomponent plass er et nyttig verktøy for å kontrollere uteliggere i høye dimensjonale genomiske data.
Vi viser til vekt (8) for avvikende motstandsdyktig pasient -spesifikk analyse, og foreslå en robust metode for å avdekke biomarkører og forutsi medikamentsensitivitet for en individuell pasient som følger, (10) (11) der er en vekt av den adaptive elastisk nett straff [35].
slått modellering strategien er effektivt utført ved hjelp av koordinatsystemet nedstigningen algoritme basert på vektet oppdatering [6]. Vår fremgangsmåte effektivt kan utføre pasientspesifikk analyse basert på gaussisk funksjon kjernen, og dens effektive ytelse kan konsekvent gitt selv i nærvær av utliggere ved å kontrollere utliggere gjennom vekten.
Resultatene
Vi undersøker effekten av den foreslåtte modellering strategien som en robust metode for pasientspesifikk analyse gjennom Monte Carlo-simuleringer og søknad til kreftgenomdata. For å evaluere den foreslåtte metoden, sammenligner vi prediksjonsnøyaktigheten og variable utvalg resultater fra vår metode, den NetworkProfiler og elastisk nett. I vår studie er NetworkProfiler brukes til å avdekke individuelle biomarkører i stedet for genet nettverk. For de numeriske studier, bruker vi den adaptive elastisk nett straff [35] i den foreslåtte metoden, NetworkProfiler og elastisk nett. Vi velger de justeringsparametere og båndbredde i Gaussian kernel funksjon basert på k-fold kryssvalidering [18], (12) der er valideringsprøver for, og dataene brukes for å beregne for hver. I numeriske simuleringer, bruker vi det tre-fold kryssvalidering, som har vært brukt i høy dimensjonale dataanalyse som genomisk dataanalyse [13], [20], [22], [26], [32]. Den robuste Mahalanobis avstand beregnes på grunnlag av de robuste viktigste komponentene som bidro 95% av den totale variasjonen.
Monte Carlo simuleringer
Vi simulerte 100 datasett bestående av observasjoner fra modellen (13) der antas å være fordelt som og er generert fra en uniform fordeling for. Korrelasjonen mellom og er med i dimensjonal multivariat normalfordeling med middel null. Vi betrakter en 1000 dimensjonal vektor av koeffisienter med tilfeldig valgte 100 ikke er null og 900 null-koeffisienter.
To typer av koeffisienten funksjoner i det ovennevnte varierende koeffisienten modell anses, som vist i figur 2. Vi anser av prøver som uteliggere i prøvene. Hvis prøven er en uteliggere, og oppfølging. Her har vi satt, og 20, og og i simuleringer 1 og 2, henholdsvis.
Vi betrakter en trening datasett med 75 prøver og en test datasett med 25 prøver i hver 100 simuleringer. De hyperparameters er valgt av tre-fold kryssvalidering i opplæringen datasettet, og prediksjonsfeil regnes i test datasett basert på utvalgte parametre. Vi deretter sammenligne prediksjonsnøyaktigheten gitt som gjennomsnitt av median squared error, og den variable utvalg nøyaktighet gitt som sanne positive (dvs. gjennomsnittlig andel av ikke-null koeffisienter, som ble anslått som ikke-null) og sant negative (dvs. gjennomsnittlig prosent av sann null-koeffisienter, som ble korrekt satt til null) for hvert av de 100 genererte datasettene.
et stort antall variabler prediktor fører til tidkrevende analyse, og dermed øker den totale kostnaden for beregnings en metode . Videre har det vært utsatt at et stort antall variabler prediktor med støyende gener kan forstyrre modelleringsprosedyren, og dermed fører til dårlige resultater prediksjon [19]. Tabell 1 viser forutsigelsen nøyaktigheten av NetworkProfiler basert på alle funksjonene og basert på en forhåndsvalgt lite antall funksjoner som har høyest varians. Det kan ses gjennom tabell 1 at hensynet til alle funksjoner ikke produserer høy prediksjon ytelse sammenlignet med resultatene av en regresjonsmodell bygget på en forhåndsvalgt lite antall funksjoner. Det innebærer at det ikke er behov for å vurdere alle funksjoner for pasientspesifikk analyse, fordi det fører til ineffektiv modellering uten å forbedre modellen ytelsen.
Dermed sammenligner vi den foreslåtte robust metode til NetworkProfiler og elastisk net basert på modellen med Predictor variablene som har høyest varians i alle prøvene. Tabell 2 og 3 viser resultater simuleringen (dvs. sanne positive (TP), sant negative (TN) og prediksjonsfeil (PE)) i simuleringer 1 og 2, henholdsvis, hvor dristige verdier indikerer den beste ytelsen blant de tre metodene ( dvs. elastisk nett: ELA, NetworkProfiler: NP, robust metode: R). Den varierende koeffisient modellen produserer diskriminerende variable valgresultater i hver prøve, og dermed har vi bare sammenligne funksjonen utvalgs resultatene av NetworkProfiler og foreslåtte robust en, fordi elastiske nettet ikke kan utføre sample-spesifikke funksjonsvalg.
Tabell 2 og 3 viser at den foreslåtte robust metode for pasientspesifikk analyse utkonkurrerer for å forutsi respons variabel i alle simulerings situasjoner og koeffisient funksjonstyper. Vi ser også at den foreslåtte robust metode og NetworkProfiler gjør ingen forskjell resultater i varierende utvalg. Fra resultatene, kan vi se at kontrollerende uteliggere i modellering prosedyren produserer uteliggerfast estimering resultater, og resultatene føre til fremragende prediksjon av interessant responsvariabelen
Virkelige verden eksempel:. Sanger datasett
Vi bruker den foreslåtte modelleringsstrategi til offentlig tilgjengelig Sanger Genomics av Drug Sensitivity in Cancer datasettet fra Kreft Genome Project (https://www.cancerrxgene.org/). Hovedmålet med prosjektet er å identifisere de molekylære funksjonene til ulike kreftformer og å forutsi følsomheten av anti-kreft narkotika. Datasettet består av genuttrykk nivåer, kopiantall og mutasjonsstatus for 654 cellelinjer. IC50-verdiene (dvs. halvparten av maksimal hemmende stoff konsentrasjoner) av 138 legemidler er gitt som den naturlige logaritmen for medikamentsensitivitet verdi. IC50-verdiene fra Sanger datasettet inneholder ikke noen av manglende verdier, og dermed har vi utfører biomarkører oppdagelse og anti-kreft narkotika respons prediksjon basert på 200 tilfeldig utvalgte prøver, hvorav 150 cellelinjer ble brukt som et treningsdata og 50 cellelinjer ble brukt som testdata for hver av de 138 stoffene.
for å vurdere den foreslåtte robust metode, må vi først ta stilling til om datasettet konstruert med IC50 verdier for hvert medikament og uttrykk nivåer av 13,321 gener er forurenset eller ikke. For hver av de 138 datasett (dvs. genuttrykk nivåer og IC50 verdier) som tilsvarer 138 narkotika, finner vi en første hovedkomponent av datasettet, og deretter bestemme basert på følgende kriterium, (14) hvor er robust Mahalanobis avstanden beregnet ut fra den første hovedkomponent. Kriteriet har en nullverdi i et ikke-forurenset datasettet, mens en stor verdi av angir at datasettet inneholder uteliggere. Figur 3 viser de sorterte verdier for 138 datasett.
Vi anser datasett med beliggenhet i øverste høyre side av figur 3 som forurenset datasett, som har relativt store verdier som er sterkt avvikende fra middelverdien av verdier. Den foreslåtte robust metode brukes deretter til de forurensede datasett for å evaluere resultatene av metodene når identifisere biomarkører og forutsi anti-kreft narkotika følsomhet. Vi sammenligner prediksjonsnøyaktigheten basert på 10 datasett som tilsvarer de 10 stoffene er vist som røde prikker i Figur 3: narkotika FTI.277, DMOG, NSC.87877, AKT.inhibitor.VIII, midostaurin, BMS.754807, Thapsigargin, bleomycin, doksorubicin , Epothilone.B.
Som nevnt tidligere, et stort antall funksjoner som ikke bare fører til ineffektiv modellering, men kan også gi dårlige resultater sammenlignet med modellering basert på en forhåndsvalgt lite antall funksjoner. Vi først sammenligne prediksjonsnøyaktigheten (dvs. midlere kvadrerte feil på 50 testprøver) av anti-kreft legemiddel respons basert på ekspresjonsnivåer av 133 (1% av totale 13,321 gener) gener og de 500 gener som har høyest varians basert på NetworkProfiler i tabell 4. Tabell 4 viser at modelleringen på grunnlag av uttrykket nivåer av 133 gener som gir fremragende prediksjonsnøyaktigheten sammenlignet med modellering basert på 500 gener. Fra resultatet, kan vi også konkludere at det ikke er noe behov for å vurdere et stort antall gener med støy, og at et stort antall av trekk fører bare til ineffektiv modellering og dårlig prediksjon resultater. Derfor vurderer vi den foreslåtte robust metode sammenlignet med NetworkProfiler og elastisk nett basert på uttrykket nivåer av 133 gener. Tabell 5 viser de midlere kvadrerte feil på 50 testprøver som en prediksjonsfeil av anti-cancer medikament respons. Den foreslåtte robust metode utkonkurrerer de eksisterende metoder for å forutsi anti-kreft narkotika respons i de forurensede datasett.
Figur 4 viser avdekket kreft biomarkører som er valgt i mer enn 80% av modeller for de hver 150 vev (dvs. valgt i mer enn 120 prøver basert på varierende koeffisient modell) med vår metode for hvert medikament respons. For å vise et påliteligheten av vår metode, viser vi også de 10 mest oppdaget gener når forutsi følsomheten av 10 stoffer og deres referanser i tabell 6. Det er forskjeller mellom biomarkører oppdaget basert på vår metode og de oppdaget ved hjelp av elastiske net [8], siden vår metode identifiserer kreft biomarkører for hver pasient i stedet for gjennomsnitts biomarkører for alle prøvene. Men stoffet følsomhet spesifikke biomarkører oppdaget av vår metode ble sterkt støttet som sanne kreft biomarkører i litteratur (kolonne av «Reference» i tabell 6). Resultatet innebærer at den foreslåtte metoden for pasientspesifikk analyse gir et pålitelig resultat for å avdekke kreft biomarkører.
Kort sagt, er vår metode et nyttig verktøy for å forutsi anti-kreft narkotika følsomhet og avdekke pasientspesifikke kreft biomarkører.
Diskusjoner
Vi har foreslått en ny avvikfast metode for å avdekke pasientspesifikke biomarkører og forutsi anti-kreft narkotika respons. Ved hjelp av robuste Mahalanobis avstand regnes i robust hovedkomponent plass, oppdager den foreslåtte metoden effektivt og styrer uteliggere i høye dimensjonale genomiske forandringer datasett. Således kan den foreslåtte robust metode effektivt å utføre for å avdekke kreft biomarkører og forutsi medikamentsensitivitet, selv i nærvær av uteliggere. Fra Monte Carlo-simuleringer, har vi funnet ut at vår metode viser fremragende prediksjonsnøyaktigheten i forhold til eksisterende NetworkProfiler og elastisk nett. Vi har også søkt den foreslåtte metoden til Sanger datasettet fra Kreft Genome Project. Ved å bruke vår metode, har vi avdekket kreft biomarkører og spådd anti-kreft narkotika respons. Det kan sees fra resultatene at den foreslåtte metoden er et nyttig verktøy for å forutsi anti-cancer medikament respons. Videre biomarkører avdekket ved vår metode hadde vært tidligere identifisert som kreft biomarkører. Resultatene innebærer at vår metode gir ikke bare pålitelig funksjon utvalg, men også nøyaktig anslag resultater.
Det er for tiden mye diskusjon om pasientspesifikk analyse og personlig medisin basert på høye dimensjonale genomiske datasett. Vi forventer at vår metodikk vil være nyttig for feltene, siden genomiske data vanligvis inneholder uteliggere.
Selv om pasientspesifikk metode basert på en varierende koeffisient modell er et effektivt verktøy, styrer det effekten av observasjoner i orden å gi eksempler på spesifikke resultater. Med andre ord, det reduserer virkningen av observasjoner langt fra et mål pasient, og dermed fører til en høy dimensjonsdataramme. Bygge modeller basert på et stort antall funksjoner med et lite antall prøver kan føre til overfitting i funksjonsvalg, og kan produsere ineffektiv prediksjon resultater. For å bedre modellering ytelse, kan det videre arbeidet innebærer å utvide pasientspesifikk analyse basert på bootstrap teknikk.
Sanger datasettet fra Kreft Genome Project gir omfattende informasjon om de molekylære egenskapene til en kreft (for eksempel mutasjon, ekspresjonsnivåer og kopiantall variasjon) og responsen av forskjellige anti-kreft medikamenter. Dermed kan analyse av datasettet gi informative resultater om systembiologi for kreft og verdifull informasjon for personlig behandling og anti-kreft terapi. IC50-verdiene av 138 legemidlene gitt som medikamentsensitivitet, inneholder imidlertid mange mangler verdiene (fra 44 til 364 manglende verdier i totalt 654 cellelinjer). For effektivt å bruke Sanger-datasettet for å avsløre mekanismen av kreft, heller enn å ignorere de ufullstendige feltene, er en passende behandling av de manglende verdier som kreves.
Videre har vi også identifiseres ved hjelp av numeriske simuleringer at en stor antall støyende funksjoner kan forstyrre modellering ytelse, og dermed strategier for pre-velge en kandidat settet vil være nødvendig for å forbedre modellering ytelse.
Takk
Denne forskningen brukt beregningsressurser i K datamaskin følger ved Riken Advanced Institute for Computational Science gjennom HPCI System Forskningsprosjekt (prosjekt ID: hp140230) og Super Computer System, human Genome Center, Institute of Medical Science, University of Tokyo. Forfatterne ønsker å takke medredaktør og anonyme lesere for konstruktive og verdifulle kommentarer som forbedret kvaliteten på papiret.