Abstract
Utvikling pålitelige biomarkører av tumorcelle narkotika følsomhet og resistens kan veilede hypotese -driven grunnleggende vitenskap forskning og innflytelse pre-terapi kliniske avgjørelser. En populær strategi for å utvikle biomarkører bruker karakterisering av humane tumorprøver mot en rekke kreft narkotika reaksjoner som korrelerer med genomisk endring; utviklet i stor grad fra innsatsen til Kreftcellelinje Encyclopedia (CCLE) og Sanger Cancer Genome Project (CGP). Hensikten med denne studien er å gi en uavhengig analyse av disse dataene har som mål å veterinæren eksisterende og legge til nye perspektiver for å biomarkør funn og applikasjoner. Eksisterende og alternative data mining og statistiske metoder vil bli brukt til å a) vurdere narkotika reaksjoner av forbindelser med lignende virkningsmekanisme (MOA), b) undersøke tiltak av genekspresjon (GE), kopi nummer (CN) og mutasjonsstatus (MUT) biomarkører, kombinert med genet sett anrikning analyse (GSEA), for hypoteser biologiske prosesser viktig for legemiddelrespons, c) utføre globale sammenligninger av GE, CN og MUT som biomarkører på tvers av alle medikamenter kartlagt i CGP datasettet, og d) vurdere positive prediktive kraften av CGP-avledet GE biomarkører som predikator for narkotika respons i CCLE tumorceller. Perspektivene fra individuelle og globale undersøkelser av GES, muts og CNS bekrefte eksisterende og avdekke unike og delte roller for disse biomarkører i tumorcelle narkotika følsomhet og resistens. Anvendelser av CGP-avledet genomiske biomarkører å forutsi medikamentrespons av CCLE tumorceller finner en stor betydning ROC, med en positiv prediktiv kraft på 0,78. Resultatene av denne studien utvide de tilgjengelige data mining og analysemetoder for genomisk biomarkør utvikling og gi ekstra støtte for bruk av biomarkører for å veilede hypotese-drevet grunnforskning forskning og pre-terapi kliniske avgjørelser
Citation. Covell DG ( 2015) data Mining tilnærminger for Genomisk Biomarker Development: applikasjoner med narkotikaundersøkelser data fra Kreft Genome Project og Kreftcellelinje Encyclopedia. PLoS ONE 10 (7): e0127433. doi: 10,1371 /journal.pone.0127433
Redaktør: Anguraj Sadanandam, Institute of Cancer Research (ICR), STORBRITANNIA
mottatt: 22 oktober 2014; Godkjent: 15 april 2015; Publisert: 01.07.2015
Dette er en åpen tilgang artikkel, fri for all opphavsrett, og kan bli fritt reproduseres, distribueres, overføres, endres, bygd på, eller brukes av alle for ethvert lovlig formål. Arbeidet er gjort tilgjengelig under Creative Commons CC0 public domain engasjement
Data Tilgjengelighet: Alle data hentet fra Kreft Genome Project (CGP) (https://cancer.sanger.ac.uk/cosmic) og Cancer Cell linje Encyclopedia (CCLE) (https://www.broadinstitute.org/ccle/home)
finansiering:. Denne forfatteren har ingen støtte eller finansiering for å rapportere
Konkurrerende interesser.: forfatteren har erklært at ingen konkurrerende interesser eksisterer.
Innledning
Store sekvense innsats, ledet det meste av International Cancer Genome Consortium (https://icgc.org/) og Kreft Genome Atlas (https://cancergenome.nih.gov/), har bidratt til utviklingen av medikamentelle behandlinger som selektivt rettet mot genomisk endringer; som for eksempel; BCR-ABL1 trans (imatinib) [1,2], EML4-ALK trans (EGFR og ALK-hemmere) [3] og BRAF: V600E mutasjon (BRAF-hemmere) [4]. Flere nylig, arbeidet med å systematisk identifisere genomiske endringer som kan tjene som biomarkører for terapeutisk resistens har ført til samarbeid mellom Wellcome Trust Sanger Institute og Massachusetts General Hospital (data for mer enn 700 udødeliggjort tumorceller og 138 kreft narkotika) og Broad Institute og Novartis samarbeid (profilering 24 kreftlegemidler over 479 udødeliggjort kreftceller); hvert forsøk styrt delvis av den banebrytende NCI60 medikament skjermen [5]. Selv om kritikere av disse tiltakene ofte oppmerksom på begrensningene i immortaliserte humane tumorceller til å gjøre rede hensiktsmessig for tumor-stroma interaksjoner, immunovervåkning, invasjon og metastasering, angiogenese og rollen stamcellepopulasjoner [6], er talsmenn teste om genomisk biomarkører avledet fra disse skjermene kan brukes på en pålitelig måte å hjelpe hypotesedrevet grunnforskning innsats, og kliniske arbeidet med å tildele terapi, overvåke respons og forutsi utfall (f.eks Precision Medisin, MATCH Trial, IMPACT, i-SPY). Som rørledningen av nye legemiddel funn utvides, kan fremgang mot å oppnå mer effektive behandlinger bli hjulpet av forskningsinnsatsen som veterinæren eksisterende, samt utvikle nye metoder for å identifisere genomiske biomarkører som er forbundet med sammensatte effekt.
Bakgrunn
CGP [7] og CCLE [8] rapporter tilby overbevisende sammenheng mellom stoffet følsomhet (vanligvis målt ved logg av legemiddelkonsentrasjonen for 50% veksthemming, referert til i teksten som GI50) og spesifikke genomiske endringer , inkluderende av genekspresjon (GE), genmutasjon (MUT), kopiantall (CN), og trans. Deres resultater finner fordelene med multi-genet, versus single-genet biomarkører, som indikatorer på tumorcelle GI50; stemming, på en ekstrem, etter feil for å finne pålitelige sammenhenger mellom et enkelt gen endringer og GI50; og, på den andre ytterligheten, fra tilfeller hvor GI50 ser ut til å være mediert av diverse, noe usammenhengende, multi-genet, biologiske mekanismer. Videre representerer deres ekspert anvendelse av state-of-the-art data mining og statistiske metoder en systematisk tilnærming som ga resultater i samsvar med narkotika sensibiliserende trans og muts kjent for å være prediktiv for kliniske resultater. Kollektivt disse tiltakene representerer et viktig skritt i å få en forståelse av kreft, basert på den genomiske karakterisering av humane tumorprøver mot en rekke kreft narkotika reaksjoner som korrelerer med genomisk endring. Som disse og andre systematiske arbeidet fortsetter, er det viktig å erkjenne at allmennhetens tilgang til CGP og CCLE data gir en rik og unik mulighet for selvstendige vurderinger av disse dataene [9] som kan bidra til videre utvikling av multi-funksjoner genomiske biomarkører som guider til grunnleggende og pre-klinisk forskning og tidlige kliniske studier. Motivert av disse målene, og bygningen fra disse tidligere innsats, vil denne analysen fokusere på i) vetting eksisterende resultater, ii) ved hjelp av alternative data mining og statistiske metoder for biomarkører, iii) å gi nye tolkninger av CGP og CCLE databaser og iv) vurdere bruk av biomarkører som prediktiv av tumorceller legemiddelrespons.
Metoder
data mining og statistiske strategier brukt til analyse av store databaser er ofte består av standard og brukerdefinert (ad hoc ) komponenter som kan spille sentrale roller i data tolkning. Den data mining og statistiske strategier anvendt her har mange likhetstrekk med de som brukes i Garnett et al [7] og Barretina et al [8]:.. Inklusive hierarkisk clustering, Elastic Net (EN) regresjon og sti analyse av utvalgte gener. Bemerkelsesverdig avganger inkluderer; i) modifikasjoner av deres metode for hierarkisk clustering av GI50 verdier, ii) anvendelser av EN regresjoner basert utelukkende på GES, iii) etterfulgt av vurderinger av rollene til CN og MUT i GI50 svar, iv) utvidelser av EN gen setter inkludere Gene Set Enrichment Analysis (GSEA) til hypoteser biologiske mekanismer som bidrar til GI50 svar, v) å bruke en global analyse av GE, CN og MUT data ved hjelp av en falsk funnrate (FDR) -adjusted utvalg av betydelige sammenslutninger av disse biomarkører med narkotika respons og vi) anvendelser av ROC-analyse for CGP-avledet genomiske biomarkører som predikator for GI50 i CCLE data. Korte beskrivelser av disse alternative fremgangsmåter, og vil bli diskutert nedenfor. Mer detaljert informasjon vises i S1 File.
hierarkisk Clustering av GI50
Fravær av lignende GI50 verdier for legemidler som har samme virkningsmekanisme (MOA) presenterer et stort hinder for forsøk på å knytte genomiske signaturer med narkotika respons; og utvide disse assosiasjonene til hypoteser biologiske prosesser som har roller i legemidlets effekt. Som nevnt i CGP rapporten [7], legemidler med overlappende spesifisitet (heretter kalt en MOA klasse) ikke alltid dele korrelerte GI50 verdier, de hadde heller ikke alltid genomiske signaturer. Den hierarkiske klyngeanalyse av Garnett et al. [7] klassifisert narkotika i
klynger
basert på GI50 likhet med intra-cluster narkotika sammenhenger, noe som ga 22
samfunnet klynger
, ved hjelp av målinger av narkotika følsomhet for ~ 700 tumorceller i CGP data Supplerende Tabell 1 [7]). Mens hensikten med arbeidet her ikke søker å uttømmende smake tilgjengelige hierarkiske clustering metoder og ordninger for å identifisere
samfunnet klynger
, en rimelig god sammenheng mellom GI50 verdier for narkotika av en lignende MOA klasse kan bli funnet med små modifikasjoner i clustering metodikk Garnett et al. [7]. Snarere enn hierarkisk clustering basert på GI50 likhet, alle parvise GI50 korrelasjoner ble brukt for hvert medikament og randomisert resampling [10] ble benyttet for å bestemme
samfunnet klynger
. Denne gruppering fremgangsmåte, fåes som det CRAN installerte pakken, pvclust [10], i R programmeringsspråk, vurderer viktigheten av sampling error bidrag til usikkerhet i klynge resultater ved å bruke en randomisert resampling metode for å identifisere tilfeller som har en høy frekvens av forekommende som klase medlemmer. Ytterligere detaljer om denne klyngeanalyse vises i S1 Fil: A. Hierarkisk Clustering av GI50, figur A, Fig B og C. samsvar mellom MOA klasse og EN GE
Elastisk Net Regresjon av Gene Expression
elastisk nett (eN) regresjon er en statistisk prosess som passer til en generalisert lineær modell av observasjoner (genomisk data) for å GI50-verdier på tvers av et sett av tumorcelle. Som et alternativ til å gruppere alle de genomiske data (GE, CN og MUT) inn i analyse NO [7], resultatene her vil fokusere på EN-analyse avledet bare fra ges målt i CGP tumorceller; etterfulgt av vurderinger av CN og MUT status for disse EN-avledede gener. NO analysen gjennomført ved hjelp av glmnet pakken [11] i R-programmeringsspråk. Glmnet gir en justerbar parameter, α, som gjør det mulig EN regresjon til å variere fra et Lasso (α = 1) til en forhøyning (α = 0) regresjon. Sistnevnte søknad genererer vanligvis en eksakt passform (GI50
spådd) av GI50 data (GI50
observert) ved hjelp av alle GES for alle kreftceller med en GI50 måling, mens lasso eksempel modeller GI50 bruke en redusert sett av GES å gi en mindre enn perfekt tilpasning mellom GI50
spådd og GI50
observert. Åpenbart en modell som passer GI50 perfekt, mens du bruker alle GES, gir ingen reduksjon i antall gener for å vurdere potensielle rolle som biomarkører for en forbindelses GI50. Velge en passende balanse mellom godhet av EN modellens tilpasning til dataene og antall gener som er valgt i EN regresjon kan bestemmes ut fra resultater oppnådd ved forskjellige verdier av α. For eksempel, det øverste panelet i figur 1 plotter korrelasjonskoeffisienten (GI50
observert og GI50
predikerte) versus NO genet telling for α = 0,7. Fremgår av dette resultatet er tendensen til å få en bedre EN modell passform med større antall EN gener. Motsatt EN resultater som bruker bare noen få gener synes å ha en redusert evne til å forutsi nøyaktig GI50. Den nedre panel i figur 1 plotter gjennomsnittlig korrelasjonskoeffisient versus gjennomsnittlig antall EN gener (med EN regresjon konvergerende for 129 av de 138 rusmidler) for α varierer fra 0,2 til 1,0. Som forventet, passer utviklingen av bedre EN modell ved hjelp av et større antall gener (lavere verdier av α) er tydelig. Dette resultatet finner en generell gruppering i nedre venstre hjørne forα i området 0,6 til 1.0. Ved hjelp av dette resultatet ble en heuristisk utvalg av α = 0,7 valgt som en rimelig balanse mellom godhet EN passform og redusert antall EN gener. Velge α = 0,7, ga en samlet montering nøyaktighet på ~ 0,5 (R «> 2), ved bruk av et gjennomsnitt av 75 EN gener. Analyser basert på noe lavere eller høyere valg for α synes ikke å sterkt påvirke resultatene til følge.
Plot av korrelasjonskoeffisient (GI50
spådd mot GI50
observert) versus antall gener i konvergerte EN regresjonsmodell for α = 0,7. Disse resultatene gir en gjennomsnittlig korrelasjon på 0,69 (± 0,12) mellom GI50
observert og GI50
spådd med en gjennomsnittlig antall 75 (± 44) EN genekspresjon for 129 narkotika der EN regresjon konvergerte. Nedre panel. Plot av gjennomsnittlig korrelasjon mellom EN modell passer versus deres gjennomsnittlige antall EN gener. Resultatene representα som strekker seg fra 0,2 til 1,0. Feilstolpene representerer standardfeil av gjennomsnittet. Eske regionen i nedre høyre viser resultater for α = 0,5).
En typisk utgang fra beregningen glmnet, ved hjelp av eksempel på PD-0325901 (en MEK1 /2 målretting sammensatte), vises i figur C 3. Denne figuren viser EN genet teller versus modellen Mean-Squared Error (MSE). For dette eksempel modellen nådde et minimum ved hjelp av MSE 103 gener, noe som representerer en reduksjon på 99,2% fra 13,325 genekspresjon innenfor settet av 514 tumorceller som har en GI50 respons til PD-0325901. EN regresjon gir en korrelasjon på 0,84 mellom GI50
observert og GI50
spådd. Figur 2 viser heatmap (ved hjelp heatmap.2 i R programmeringsspråk) for de 103 genekspresjon over 514 kreftceller for PD-0325901. Lengst til høyre på dette bildet viser en barplot for GI50
observert for disse 514 tumorceller. Patchwork blokker av rødt og blått i heatmap representerer relativt over og under uttrykte gener, henholdsvis, viser en kvalitativ sammenslutning av disse GE mønstre med barplot av GI50 for hver svulst celle vises på venstre kant. Heatmaps i EN GES vil bli brukt, kvalitativt, for visuelle sammenligninger på over og under uttrykte gener assosiert med narkotika følsomhet og ufølsomhet.
Figur plotter 103 genekspresjon (x-aksen) for de 514 tumorceller i EN modell (y-aksen). Resultater viser bare kreftceller som har en GI50 måling mot PD-0325901.Heatmap er bestilt langs hver akse i henhold til de dendrogrammer vises på toppen og venstre kant. Over og under uttrykte gener er angitt med røde og blå farger, respektivt. GI50
observert for disse 514 tumorceller vises som et søylediagram på høyre kant av bildet. Linjene til venstre og høyre tilsvarer sensitive og ufølsomme GI50 svar, henholdsvis.
samsvar mellom MOA klasse og EN GE
EN regresjon gener kan bli utsatt for en hierarkisk klyngeanalyse til vurdere samsvar mellom narkotika av lignende MOA klasser og deres EN genekspresjon (brukes til å modellere GI50). Concordance vil bli målt ved å bestemme hvorvidt en) NO gener vises som klase naboer for medikamenter (dvs. MOA klasser) og b) om disse EN gener er relativt unik for hver MOA klasse. Svare del a) vil fastslå om MOA samstemmighet basert på likhet i GI50
observert også finnes ved bruk av uttrykk for EN gener brukes til å modellere GI50
observert. Svare del b) er avgjørende for utvikling av genekspresjon som biomarkører for GI50 svar på konkrete MOA klasser av narkotika og utvide disse resultatene til hypoteser biologiske mekanismer som er involvert i narkotika effekt. En mer detaljert beskrivelse av denne analysen vises i S1 File; C. samsvar mellom MOA klasse og EN GE 🙂
GSEA analyse av EN avledet GES
Etter Garnett et al. [7], undersøkelse av EN gener for de fleste og minst sensitive kreftceller kan brukes til å prioritere GI50-EN genet foreninger. Mot dette formål, ble EN gener for hvert stoff filtrert ved å gjennomføre en t-test for å identifisere statistisk signifikant (p 0,05) EN GES mellom den øverste og nederste minst 10
th persentil av tumorceller narkotika svar (dette modellen vil bli referert til heretter som den «minimale NO modell» for hvert medikament). Fig 3 viser varmekart for den minimale NO modell av PD-0325901 eksempel som er vist i figur 2. I stedet for skjermen GI50 som et stavdiagram på kanten (som i figur 2), blir GI50 data innebygd i heatmap (se kolonne merket GI50 «ligger nær sentrum av bildet), hvor de mest sensitive celler, som er identifisert i mørk blå, vises i de øvre og nedre deler av heatmap og de mest resistente celler, med sine GI50 verdier identifisert i rødt, vises i den midtre delen av heatmap. I dette eksemplet, en total reduksjon på 82% (1-94 /514) i tumorceller og en 11% reduksjon (103 ned til 94 gener) i PD-0325901 største NO gen sett forbli i sin minimale EN modell.
Relativ over og under ekspresjon er betegnet med rød og blå, henholdsvis. GI50 verdier for PD-0325901 er integrert i heatmap, som ligger som kolonnen nær midten, merket som GI50. GI50-verdier for sensitive og resistente tumorceller er angitt med blå og røde farger, respektivt.
NO regresjon representerer et middel for å identifisere et redusert sett av gener hvis uttrykkene er tilstrekkelig til å gi en rimelig modell av hvert stoffets GI50 respons (se fig 1), og kan brukes til hypoteser biologiske mekanismer som kan spille en rolle i en narkotika respons. Mange dataverktøy i dag eksisterer for pathway analyse (GSEA, DAVID, oppfinnsomhet, etc.). Inkludert i advarende advarsler for disse metodene er at resultatene kan føre til over tolkninger, når genene er delt mellom mange stier, eller gir ingen informasjon, for tilfeller enten mangler statistisk signifikante veier eller hvor stort antall veier er funnet som ikke avslører en konsekvent biologiske tema. GSEA [12] tilbyr en heuristisk sikring mot disse advarslene ved å begrense resultatene til bare veier med minst 2 felles gener og bruke en falsk Discovery Rate (FDR) mot en sjanse finne på typisk terskelen til 0,05. Den tidligere kravet unngår tilfeller av et stort antall veier med bare en EN genet, mens sistnevnte kravet begrenser muligheten forekomsten av trasé med mange felles, og som forekommer ofte, gener. Basert på disse vurderingene, GSEA, bruker minimalt med EN-avledet Ges, ble brukt til hypoteser biologiske prosesser som kan være relatert til narkotika respons. GSEA rapportering vil være begrenset til kun det øverste signifikant (FDR score) veier, begrenset til ikke mer enn 10 tilfeller.
Rapportering av GSEA resultatene vil understreke tilbakevendende biologiske temaer for betydelige trasé i stedet for individuelle veier. Som en illustrasjon, GSEA [12] trasé, avledet fra KEGG, BIOCARTA og GO genet undergrupper, med minimal EN GES for MEK inhibitor, PD-0325901, oppført i tabell C. Resultatene finner DNA_REPAIR som GSEA vei med best statistisk signifikans, med RESPONSE_TO_DNA_DAMAGE_STIMULUS og DNA_METABOLIC_PROCESS som den nest mest betydningsfulle veier. Lenger ned på listen er tre veier knyttet til signale. De generelle temaer av disse GSEA Resultatene tyder på at tumorcellerespons mot PD-0325901 ville være antatt å involvere DNA og SIGNAL. Bevis på en sammenheng mellom MEK-ERK signalering og DNA_REPAIR er blitt beskrevet av Sato et al. [13] og Marampon et al. [14], som fører til forslaget om å bruke MEK-inhibitorer for å øke tumorcelle Radiosensitivity ved nedregulere DNA-reparasjonssignaler . Mer nylig Pei et al. [15] har foreslått en kombinasjonsterapi for multippelt myelom ved hjelp av en CHK1 inhibitor for å forhindre celler fra å arrestere i faser av cellesyklusen som letter reparasjon av DNA-skade, og en MEK-inhibitor for å forhindre celler fra å aktivere en rekke proteiner som regulerer DNA-reparasjon prosesser samtidig fremme opphopning av pro-døden proteiner. De GSEA funn her, av hovedbane temaer knyttet til DNA-reparasjon eller skade og cellesignalisering, er i samsvar med hypoteser en rolle PD-0352901 i signaler knyttet til DNA vedlikehold.
betydelig forsiktighet må brukes når man tolker disse resultatene . For eksempel, selv om de andre tre MEK1 /2-hemmere, CI-1040, AZD6244 og RDEA199, vises i det samme område, basert på GI50 (tabell A) og EN GES (tabell B og figur D), bare AZD6244 deler noen av dens GSEA trasé med PD-0325901, mens CI-1040 og RDEA119 ikke. Sammen er disse resultatene, samtidig som den støtter en generell konsistens i disse MEK1 /2 inhibitors GI50 profiler (tabell A), med en tilstrekkelig unikt sett med EN gener for at de skal vises innenfor vanlige klynger (tabell B og figur D), utbytte EN gener tilstrekkelig forskjellig fra hverandre for å generere ikke-overlappende GSEA veier. En plausibel faktor som bidrar til disse EN-genet GSEA forskjellene kan være cellular potens, der PD-0325901 er i gjennomsnitt mer enn en størrelsesorden mer potent enn de andre tre MEK1 /2-hemmere for CGP tumorceller. Angivelig EN gener for PD-0325901 er tilstrekkelig unikt å avsløre sin rolle i DNA vedlikehold og signale ikke funnet for de andre MEK1 /2-hemmere. Disse resultatene understreker sannsynligheten for at selv om forbindelsene kan dele en antatt MOA mål og generere tilsvar GI50 svar, GSEA av minimal EN gener representerer bare en hypotetisk sammenheng mellom unike sett med EN gener og spesifikke biologiske prosesser knyttet til hver stoffets GI50. Mens eksisterende litteratur støtte vil bli gitt for GSEA valgt trasé, vil biologisk bekreftelse klart være nødvendig.
Globalt analyse av CN og MUT for minimal EN GES
Resultatene for de enkelte stoffene kan bli utvidet til omfatte en global analyse av de data som beskriver CGP muts og CN endringer som potensielt kan spille en rolle i legemiddelrespons. Analogt med den tidligere analyse, hvor minimal NO gener ble identifisert basert på å ha en statistisk signifikant forskjell i ge mellom de mest og minst sensitive tumorceller, kan betydelige genet muts og CN endringer bestemmes på en identisk måte. Valg av hver stoffets minimal NO tumorceller, ble en to-halet t-test benyttet for å beregne alle p-verdiene basert på MUT eller CN forskjeller mellom de mest følsomme og resistente tumorceller. Disse resultatene ble filtrert ved hjelp av en Benjamini-Hochberg (B-H) [16] falske funnrate på 0,1 til å identifisere vesentlig forskjellige biomarkører. Den t-statistikken for disse sammenligningene gir et praktisk tiltak for hierarkisk clustering av betydelige resultater. Heatmap visualiseringer kan være fargekodet fra blått til rødt for å indikere styrken på statistisk signifikans, hvor den røde delen av spekteret reflekterer tilfeller der de resistente kreftceller utviser høyere biomarkørresponser sammenlignet med de sensitive kreftceller og den blå delen av spektrum representerer ved høyere biomarkør verdier i de sensitive tumorceller i forhold til de resistente tumorceller. Tallene for betydelige muts er tilstrekkelig liten til å knytte undergrupper av gener til bestemte GSEA veier. I kontrast, antall gener med betydelige CN endringene er store nok til å kreve ytterligere hierarkisk clustering av GSEA trasé for enkel tolkning.
GSEA analyse av betydelige muts og CNS
Heatmap visualiseringer av statistisk signifikante muts og CNS som passerer BH-justerte terskel for statistisk signifikans kan brukes til en globalt basert GSEA. Klyngen dendrogrammer av vesentlig CN og muts kan kuttes for å gi små grupper av gener for GSEA. Disse resultatene generere et globalt avledet FDR justert betydning score for biologiske pathways forbundet med sub-klynger av minimal EN Ges. Clustering av disse globalt avledet score kan brukes til å knytte GI50 svar med biomarkører ha statistisk signifikans mellom resistente og sensitive svulst celle responser.
ROC analyse av CGP GES som prediktive for CCLE legemiddelrespons
«signatur» gener blir ofte brukt til å vurdere om en undergruppe av genekspresjon er tilstrekkelig sammenlign å indikere en sannsynlighet for en lignende biologisk tilstand eller terapeutisk respons [17,18]. Minimal EN GES kan også bli foreslått som signatur gener for å forutsi medikamentrespons. For å teste denne forutsetningen, ble de minimale EN GES utviklet for CGP sett av legemidler som brukes til å velge for ikke-CGP tumorceller med matchende GES som predikator for legemidlets effekt for test narkotika. Hvis det ikke oppnås noen suksess med denne metoden kan påvirke fremtidige anvendelser av denne tilnærmingen. Imidlertid kan moderat suksess tilby motivasjon for å utforme mer optimale fremgangsmåten for å oppnå gode resultater med denne tilnærmingen. Den CCLE datasettet (24 narkotika testet mot 479 tumorceller) deler 16 medikamenter med CGP datasett. Ved hjelp av CGP-avledede minimalt NO modell for hver av de 16 som samsvarer med narkotika, vil GES mellom disse to datasettene bli sammenlignet (ved hjelp av deres midlere kvadratiske feil, MSE) og benyttet til å rangere den komplette sett av CCLE s tumorceller. For at «test» biomarkør for å ha prediktiv verktøyet, må MSE score riktig rangere en CCLE svulst celle narkotika respons innenfor topp (sensitive) eller nederst (resistente) av alle CCLE tumorceller. Bare de øverste 5
th persentil av MSE score for CCLE kreftceller vil bli valgt. Det er bemerkelsesverdig på nytt understreke at minimal EN modellen benytter GES å forutsi GI50. Dermed følsomhet og resistens er integrerte deler av denne modellen. Standard vurdering av falske /ekte-positive /negativer med rocs vil bli brukt til å evaluere resultatene.
Resultater
hierarkisk clustering av GI50
Den samsvar mellom legemidler av samme MOA klasse og GI50 finner rimelig god avtale. Ved hjelp av en modifisert hierarkisk clustering (pvclust) og en modifisert metriske (alle-til-alle sammenhenger av GI50), over halvparten (16/30 = 0,53) av legemidler som deler en MOA klasse også vises i det samme samfunnet klynge; med 4 av de 5 SRC agenter som er felles for en klynge. Denne analysen ble utvidet til å bestemme samsvar mellom Moa og co-gruppering av EN-avledet GES (se S1 File -. C. samsvar mellom MOA klasse og EN GE for mer informasjon). Filtrere 129 stoffets EN regresjoner som konvergerte og fått større enn 10 EN gener ga færre enn ~ 2k av de opprinnelige 13,325 GES for de 87 stoffene som deler minst 2 EN gener. Hierarkisk clustering av genuttrykk for disse filtrerte gener (figur D) finner at mer enn to tredjedeler (59/87 = 0,68) av NO genekspresjon for legemidler med en delt MOA vises i samme klynge. Disse resultatene indikerer at hierarkisk clustering, basert på GES stammer fra EN-regresjonsmodeller av GI50, gir en høyere konkordans innen MOA legemiddelklasser i forhold til gruppering basert på GI50 likhet alene. Den gjennomsnittlige overlapping av bare 1,67 mellom EN-gener for hvert medikament antyder at NO-genene er relativt unikt for hvert medikament. Kollektivt, den relativt høye samstemmighet, ved hjelp av enten GI50 eller EN-avledet GES som modell GI50, og eksistensen av relativt få felles gener i hvert medikament er EN modell, støtter den potensielle anvendelsen av genet baserte tiltak som unike biomarkører for GI50.
minimal eN regresjon
Hver stoffet er minimal eN modellen gir et redusert sett av gener som kan spille en rolle i sin GI50. Etter rapporten fra Garnett et al. [7], det minimale EN GES, CNS og muts med størst statistisk signifikans mellom følsom og ufølsomt tumorcellerespons bli kontrollert for konsistens med litteraturrapporter, samt hypoteser nye biologiske roller i hvert narkotika respons. Resultater for utvalgte forbindelser vil bli rapportert.
Cisplatin.
Det første eksemplet, ved hjelp av DNA kryssbinder, cisplatin, bekrefter resultatene av Garnett et al. [7] sytti EN gener og 108 kreftceller definere sin minimal EN modell. Statistisk analyse av betydelige forskjeller i CN og MUT status av bare minimale NO genene for cisplatin sensitive og resistente tumorceller (angitt i tabell 1) finner at følsomheten overfor cisplatin er forbundet med muts i EWS_FLI1, PTEN, ErbB2 og APC (http: //cancer.CGP.ac.uk/CGP/gene/overview?ln=APC og Niedner et al. [19]). Ikke inkludert i CGP rapporten [7] er utseendet på KRAS_MUT som en potensiell biomarkør av cisplatin følsomhet. Støtte for dette perspektiv vises nylig i Lin et al. [20], hvor KRAS_MUT ble funnet å være en prediktor for sensitivitet overfor cisplatin analoge oxaliplatin. KRAS overekspresjon av mutant vektorer forårsaket excision reparasjon kryss-komplemente gruppe 1 (ERCC1) nedregulering i protein og mRNA nivåer, og forbedret oksaliplatin følsomhet. Betydningen av XRCC1 i cisplatin følsomhet er videre støttet av Xu et al. [21] hvor proteinet ekspresjon av XRCC1 var signifikant økt i cisplatin-resistente celler og uavhengig bidratt til cisplatin motstand. Resultatene i tabell 1 også forlenge den cisplatin-analyse til hypoteser roller i cisplatin følsomhet for CN forandringer av to histon lysin demethylases (KMD6A_CN og KMD5C.JARDIC_CN). Epigenetiske roller histone lysin demethylases begynner å fremstå som viktig i bryst- og eggstokk-kreft [22].
bortezomib.
Den minimale EN regresjonsmodell for bortezomib består av 44 gener og 64 tumorceller (fig E), som modellert GI50
observert med en korrelasjonskoeffisient på 0,69. Statistiske resultatene for de beste viktigste forskjellig uttrykt minimal EN gener mellom sensitive og ufølsomme tumorceller er oppført i tabell 2. Utseendet NQO2 på toppen av denne listen kan tilby utnyttes informasjon om bortezomib terapi. NQO2 er en flavoprotein, fungerer som en kinonoksidoreduktase, kjent for å beskytte cellene mot stråling og kjemisk indusert oksidativt stress. Den 20S proteasome og NQO2 både samhandle med myeloid differensiering faktor C /EBPalpha [23]. En annen kinonoksidoreduktase, NQO1, ble funnet av CCLE [8] for å være toppen prediktor for følsomhet for HSP90 inhibitor 17-AAG. HSP90 spiller en rolle i montering og vedlikehold av proteasomet [24]. Samtidig hemming av HSP90 og proteasome forbedrer antitumor aktivitet av både narkotika [25]. Selv om den eksakte mekanismen for denne observasjonen ennå ikke er løst, resultatet presenteres her antyder en dobbel rolle for kinonoksidoreduktase biomarkører (NQO2, NQO1) i bruk av HSP90 /proteasome målretting midler som single og kombinerte terapier [25].
temsirolimus.
det neste eksempel for mTOR målsøkende middel temsirolimus, ga en minimal eN modell som består av 67 gener og 108 tumorceller.