PLoS ONE: Potensielle Forbindelser for Oral Cancer Treatment: Resveratrol, Nimbolide, Lovastatin, bortezomib, Vorinostat, Berberine, pterostilbene, Deguelin, Andrographis, og Colchicine

Abstract

Oral kreft er en av de viktigste årsakene til kreft -relaterte dødsfall i Sør-asiatiske land. Det er svært begrenset behandlingstilbud tilgjengelig for kreft i munnhulen. Forskning bestrebelser fokusert på oppdagelsen og utviklingen av nye behandlingsformer for kreft i munnhulen, er nødvendig for å kontrollere den stadig stigende oral cancer relatert dødelighet. Vi minelagt det store bassenget av forbindelser fra de offentlig tilgjengelige sammensatte databaser, for å identifisere potensielle terapeutiske forbindelser for kreft i munnhulen. Over 84 millioner forbindelser ble screenet for den mulige anti-cancer-aktivitet ved tilpassede bygge SVM klassifikator. De molekylære mål av de antatte anti-kreft forbindelser ble utvunnet fra pålitelige kilder som eksperimentelle bioassay studier knyttet til sammensatte, og fra proteinforbindelse interaksjonsdatabaser. Terapeutiske forbindelser fra DrugBank, og en liste av naturlige anti-kreft forbindelser avledet fra litteratur utvinning av publiserte studier, ble brukt for å bygge delvis minste kvadraters regresjon modell. Regresjonsmodellen således bygget, ble anvendt for estimering av oral cancer spesifikke vekter basert på molekylære mål. Disse vekter ble anvendt for å beregne verdiene for screening av de forutsagte anti-cancerforbindelsene for deres potensial for å behandle kreft i munnhulen. Listen over potensielle forbindelser ble merket med tilsvarende fysiske og kjemiske egenskaper, kreft spesifikke bioaktivitet bevis, og litteratur bevis. I alt ble 288 forbindelser med potensial til å behandle kreft i munnhulen identifisert i denne studien. De fleste av forbindelsene i denne listen er naturlige produkter, som er godt tolerert, og har minimale bivirkninger sammenlignet med de syntetiske motstykker. Noen av de potensielle terapeutiske forbindelser identifisert i denne studien er resveratrol, nimbolide, lovastatin, bortezomib, vorinostat, berberine, pterostilbene, deguelin, andrografolid, og kolkisin

Citation. Bundela S, Sharma A, Bisen PS ( 2015) Potensielle Forbindelser for Oral Cancer Treatment: Resveratrol, Nimbolide, Lovastatin, bortezomib, Vorinostat, Berberine, pterostilbene, Deguelin, Andrographis, og Colchicine. PLoS ONE 10 (11): e0141719. doi: 10,1371 /journal.pone.0141719

Redaktør: Arianna L. Kim, Columbia University Medical Center, UNITED STATES

mottatt: 23 juli 2015; Godkjent: 12 oktober 2015; Publisert: 04.11.2015

Copyright: © 2015 Bundela et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Data Tilgjengelighet: All relevant data er i avisen og dens saksdokumenter filer

finansiering:.. Disse forfatterne har ingen støtte eller finansiering for å rapportere

konkurrerende interesser:. forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

til tross for store fremskritt gjort innen medisinsk vitenskap, er det fortsatt, over 32,6 millioner mennesker lever med kreft på verdensbasis. Det var 8,2 millioner kreftdødsfall i 2012 på verdensbasis, hvorav, 0,68 millioner mennesker døde av kreft i India [1]. Kreft, som en gang var tenkt å være en sykdom utbredt i utviklede land, har nå spredt over hele verden, faktisk viser siste kreft statistikk at 65% (5,3 millioner) av alle kreftrelaterte dødsfall ble rapportert fra mindre utviklede land [1 ]. Dette er definitivt en forferdelig kamp utvikling i land som er dårlig rustet til å kjempe kompleks sykdom som kreft. Utbredelsen og /eller forekomst av kreft-typer varierer betydelig mellom ulike land, for eksempel kreft i munnhulen, som er mindre vanlig i utviklede land, rangert blant de tre beste årsakene til kreftrelaterte dødsfall blant menn i Sør-asiatiske land som India, Bangladesh og Sri Lanka. Heterogenitet i fordelingen av forekomsten av kreft-typer mellom utviklede og mindre utviklede land innebærer at framdriften i området kreftbehandling, utviklede land ikke kan effektivt brukes i mindre utviklede land. Det er et bredt spekter av behandlingstilbud tilgjengelig for lunge-, prostata- og brystkreft, som er mer utbredt i utviklede land, derimot, er behandlingstilbud svært begrenset, for kreft som kreft i munnhulen, som er relativt sjeldne i utviklede land. Faktorer som høy bruk av tobakk i ulike former, manglende evne til å diagnostisere kreft i tidlig stadium, og begrenset behandlingstilbud, er ansvarlig for den høye dødeligheten i forbindelse med kreft i munnhulen. Oral kreft er for tiden styres gjennom kirurgi, strålebehandling og kjemoterapi [2].

Den aktuelle studien, forsøk på å identifisere potensielle anti-kreft forbindelser for behandling av kreft i munnhulen. Tilgjengeligheten av millioner av bioaktive forbindelser i offentlig tilgjengelige databaser som NCBI-pubchem og ChEMBL, gir god mulighet til å utvinne pool av forbindelser, basert på attributter ønsket i det terapeutiske område av interesse. Vi har avhørt mer enn 84 millioner forbindelser fra databaser som NCBI-pubchem, ChEMBL for potensiell aktivitet mot kreft i munnhulen. En tilpasset støtte vektor maskin (SVM) klassifiserer ble bygget for prediksjon av anti-kreft aktivitet blant en pool av forbindelser. Funksjoner som brukes til trening og testing av SVM klassifikator, ble avledet fra funksjonelle grupper til stede i forbindelsene, som ble brukt i modellbygging og forutsigelse prosess, respektivt. De protein bioassay poster for en forbindelse ble brukt til å knytte mål for kreft sammensatte spådd av SVM klassifikator. Målet profilen til de terapeutiske forbindelser fra DrugBank databasen, og manuelt utvalgt liste av naturlige anti-cancerforbindelsene, ble brukt for å bygge regresjonsmodell, som deretter ble anvendt for beregning av poengsummer som er spesifikke for oral cancer. Listen over potensielle forbindelser ble merket med tilsvarende fysiske og kjemiske egenskaper, kreft spesifikke bioaktivitet bevis, og litteratur bevis. Ulike analysemetoder har blitt integrert for å aktivere logisk utvalg av de potensielle terapeutiske forbindelser for kreft i munnhulen (fig 1).

Den aktuelle studien presenterer en logisk rammeverk for å finne potensielle forbindelser for behandling av kreft i munnhulen, basert på storstilt gruvedrift pålitelige compound- og bioactivity- databaser. De strukturelle og målet nivå mønstre, deles av forbindelser rettet mot felles patologi, ble brukt i denne studien for valg av mulige forbindelser for kreft i munnhulen.

Materialer og Metoder

Datakilder

narkotika~~POS=TRUNC target data.

DrugBank (versjon 4.0) [3] ble brukt som en referansedatabase for å samle inn omfattende informasjon om legemiddel target informasjon. The «drugbank.xml» filen ble lastet ned fra nedlasting delen av DrugBank (https://www.drugbank.ca/downloads); det ble analysert ved tilpassede Perl-skript for å trekke stoffet, sammen med tilhørende informasjon som indikasjon området, mål, smiler string [4]. Indikasjonen området (er) forbundet med et stoff er representert som fritekst i DrugBank, som utgjør algoritmisk utfordring for prosessen med automatisert sammenslutning av stoffet med sin indikasjon område (r). I denne studien har vi kartlagt sykdommer eller indikasjon område forbundet med narkotika til den tilsvarende ICD10 sykdom kode [5], [6] (https://apps.who.int/classifications/icd10/browse/2010/en kan være henvises til detaljert kartlegging mellom ICD10 sykdom koden til relaterte sykdommer).

filen «narkotika disease_TTD2013.txt «, tilgjengelig fra nedlastingsdelen Terapeutisk Target Database (TTD) [7], hadde blitt brukt for narkotika -disease kartlegging. Denne filen kan brukes til entydig sammenslutning av stoffet med sin indikasjon område (r). Filene, «drug_links.csv» og «TTD_crossmatching.txt» (TTD), ble brukt til å hente mapping mellom DrugBank ID til TTD Drug ID. All data for de godkjente legemidler sammen med tilhørende informasjon, som narkotika mål, ICD10 sykdom klassifisering og smiler streng, ble hentet fra «drugbank.xml «fil. Dataene av narkotika ble segregert i to gruppe, kreft narkotika og andre rusmidler, som er tilgjengelig som elektronisk supplerende materiale-«DB_cancer.txt «(se S1 tekst) og «DB_others.txt» (se S2 tekst), henholdsvis. DrugBank representerer target informasjon som Uniprot ID, som ble kartlagt i sin tilsvar Entrez Gene ID og Gene Symbol (basert på kartlegging gitt i «HUMAN_9606_idmapping_selected.tab» og «gene_info» filer som kan lastes ned fra FTP-områder ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/idmapping/by_organism/HUMAN_9606_idmapping_selected.tab.gz, og ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz, henholdsvis).

I denne studien ble ICD10 sykdoms koder «C00 til C06» anses å representere oral kreft. Mens gjennomgå informasjonen av kreftmedisiner, la vi merke til at det er mange stoffer som er kartlagt mot ICD10 sykdom koden «C00-C96», som er en ikke-spesifikk sykdom kode for ondartede svulster. Vi kunne ikke finne noe narkotika i DrugBank database, som ble indikert for behandling av kreft i munnhulen; derfor vi utvidet vårt søk til litteraturen database (NCBI PubMed), og fant bevis for å kontrollere veksten av muntlige kreftceller ved par av stoffer som erlotinib [8], [9], vandetanib [10] og gefitinib [8], [11]. Den ICD10 sykdom koden kartlagt for disse stoffene ble oppdatert manuelt, for å inkludere «C00-C06 «som narkotika indikasjon på» DB_cancer.txt» (se S1 tekst). Vi innså at en så lav representasjon av legemidler for oral cancer behandling i offentlige databaser, vil fungere som en flaskehals i nedstrøms prediktive data mining prosesser; dette bedt oss om å utvide vårt søk utover sammensatte databaser som DrugBank.

Naturen er en gullgruve for behandling av ulike sykdommer, inkludert kreft, som er tydelig fra det faktum at flertallet av eksisterende legemidler mot kreft er enten naturlig produkter eller deres kjemiske derivater [12] – [14]. Vi satt sammen en liste over plantebaserte anti-kreft naturlige forbindelser ved manuelt gruvedrift litteraturdatabaser som PubMed, og også brukt Google Scholar for å søke artikler, ikke indeksert med PubMed. Totalt 269 artikler ble henvist til å samle inn data om plantebaserte naturlige forbindelser, aktive mot over 25 ulike krefttyper. Vi samlet inn data for 377 forbindelser fra disse artiklene. Listen over plantebaserte forbindelser med anti-kreft aktivitet ble ytterligere annotert med tilhørende attributter som pubchem forbindelse ID (cid), smiler streng, molekylære mål. Målrette informasjonen var ikke til stede for alle forbindelsene i basen sett med artikler (269 artikler), derfor har vi henvist videre 315 flere artikler for å samle target informasjon om un-kommenterte forbindelser. Listen av plantebaserte naturlige anti-kreft forbindelser holdt i denne studien består av 30 forbindelser med veksthemmende aktiviteter mot orale kreftceller. Listen av plantebaserte naturlige forbindelser aktive mot ulike kreftformer oppnådd i denne studien, kan bli funnet som online supplerende materiale-«Natural_Anticancer_list.txt «(se S3 tekst), som inneholder lenker til forskning artikler som ble brukt til å utlede anti-kreft aktivitetene til forbindelsene mot spesielt kreft-type, og det inneholder også henvisning til artiklene som ble brukt til å slutte forbindelsen til målet krets. Dette er et manuelt kuratert liste, noe som kan være til stor nytte for forskere som arbeider innen plantebaserte naturlige anti-kreft forbindelser. Dataene i «Natural_Anticancer_list.txt» (se S3 Text) ble videre bearbeidet i et format som ligner på filer som oppnås etter gruvedrift DrugBank (se S1 og S2 Texts) for å gjøre det mottagelig for nedstrøms data mining prosesser; denne filen kan bli funnet som online supplerende materiale-«Nat_Anticancer.txt «(se S4 tekst).

Compound-Target datakilder.

ChEMBL-forbindelse Database

. ChEMBL er en fritt tilgjengelig database over narkotika-lignende bioaktive forbindelser [15]. Forbindelsen informasjonen til stede i denne databasen er forbundet med bioaktivitet målinger, som blir manuelt trukket ut fra primær publisert litteratur. I denne studien, har vi benyttet forbindelsen oppbevaringssted for ChEMBL (versjon 19.0) som skal anvendes for prediksjon av anti-kreft-aktivitet. Vi har lastet ned MySQL dump av ChEMBL og opprettet en lokal database (ftp://ftp.ebi.ac.uk/pub/databases/chembl/ChEMBLdb/latest/chembl_19_mysql.tar.gz).

I dagens studien brukte vi perl biblioteker DBI og DBH for grensesnitt med ChEMBL database, opprettet i lokalt installerte MySQL. Perl-skript ble skrevet for å hente ut data fra ChEMBL database. Vi hentet smiler snor sammen med ChEMBL id fra databasen ved hjelp av følgende SQL-spørring – «

velg c

canonical_smiles

,

m

chembl_id fra.. compound_structures c

,

molecule_dictionary m hvor c

.

molregno = m

.

molregno

«. Totalt 1404752 forbindelser (dvs. ~ 1,4 millioner forbindelser) sammen med deres smiler strenger ble hentet fra databasen.

sy Kjemisk-Protein Interaction Database

. Stitch er en kjemisk-protein interaksjon database, som inneholder informasjon om interaksjoner fra metabolske veier, krystallstrukturer, bindende eksperimenter og narkotika-målet relasjoner [16]. I denne studien har vi lastet ned nyeste datasettet fra STITCH database (versjon 4.0). Følgende filer ble lastet ned fra nedlasting delen av STITCH:

https://stitch.embl.de/download/protein_chemical.links.v4.0/9606.protein_chemical.links.v4.0.tsv.gz → Kjemisk-Protein Interaction data som inneholder over 4,5 millioner plater. Kjemikalier er utledet fra pubchem sammensatte database, og proteiner er representert ved Ensembl protein identifikatorer.

https://stitch.embl.de/download/chemicals.v4.0.tsv.gz → Inneholder STITCH forbindelsens kjemiske strukturere informasjon i form av smil streng. Den inneholder 82841024 (dvs. ~ 82.84 million)

sammensatte poster. Ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2ensembl.gz → Inneholder mapping mellom Ensembl protein identifikator til NCBI-Entrez Gene ID.

anti~~POS=TRUNC cancer~~POS=HEADCOMP aktivitet Tippe

Compound datasett samlet inn fra ChEMBL (1,4 millioner forbindelser) og STITCH (82,8 millioner forbindelser) ble sjekket for mulige anti-kreft aktivitet. Det skal bemerkes at hver forbindelse post i databasen SØM ikke korresponderer med en unik molekyl, dvs. at det kan være mer enn en post som representerer forskjellige stereo-isomerer av en enkelt forbindelse [16]. I denne studien har vi vurdert hver post som en separat forbindelse for prediksjon av anti-kreft aktivitet, og like forbindelser ble fjernet fra listen over forbindelser spådd til å bli aktive anti-kreft forbindelser. Dette ble gjort for å optimalisere minnekravet for oppgaven med å identifisere duplikater i en stor pool av forbindelser. I denne studien har vi benyttet to metoder for prediksjon av anti-kreft aktivitet på nesten 84 millioner forbindelser, (i) CDRUG [17] og (ii) en egendefinert bygge støtte vektor maskin (SVM) Klassifiserings.

Benchmark datasett.

Benchmark datasett forberedt for prediksjon av anti-kreft aktivitet ved Li et al. [17] ble anvendt i denne studien. Dette datasettet er fra NCI-60 Developmental Therapeutics Program (DTP) prosjektet [18]. Detaljene i protokollen som brukes til å opprette referansedatasettet, kan finnes i primær publisert artikkel [17]. Datasettet består av mer enn 18.000 forbindelser, delt inn i aktive og inaktive anticancer-forbindelser. Referanse datasett kan lastes ned fra https://bsb.kiz.ac.cn/site_media/download/CDRUG/Benchmark.rar.

CDRUG.

CDRUG er en analytisk metode for prediksjon av antikreft-aktiviteten til kjemisk forbindelse [17]. I denne studien har vi lastet ned og brukt den nyeste frittstående versjonen av CDRUG for kreft aktivitet prediksjon. Dette verktøyet tar en liste av smil rekke spørre forbindelser som en inngang og genererer rangert liste bestående av ulike score og p-verdi. I denne studien har vi vurdert cutoff p-verdi på ≤ 0,05, som kriterier for å velge forbindelser med anticancer aktivitet. Algoritmiske detaljer om CDRUG kan finnes i primær publikasjon [17].

Support Vector Machine (SVM) Klassifiserings.

I denne studien har vi bygget SVM basert modell for prediksjon av anticancer aktivitet av kjemisk forbindelse. Support Vector Machines er et nyttig verktøy for dataklassifisering, som har funnet sin søknad i bredt spekter av domener inkludert bioinformatikk. Vi har brukt programvare LIBSVM (versjon 3.18) [19] i vår nåværende studie for SVM basert klassifisering. Den SVM basert klassifikasjon oppgave starter med prosessen med «modellbygging», der data er delt inn i trening og testing sett. Hver forekomst i treningssettet inneholder en «target value» eller «class label» (i vårt tilfelle er det enten 1 eller 0; hvor «1» representerer forbindelsen har anti-kreft aktivitet og «0», annet), og flere » attributter «eller» egenskaper «. Målet med SVM [20], [21] er å strengt bygge en modell (basert på forekomster fra treningsdata) som predikerer inn ønskede verdier /klasse etikettene til forekomstene fra testdata, gis bare attributter i testdata. I denne studien, valgte vi «C-SVM» (Multi-klasse klassifisering) som SVM type, og radial basis funksjon (RBF) som en kjerne type for å bygge anti-kreft aktivitet prediksjon modell. RBF kjernen ble valgt på grunnlag av sin popularitet, robusthet, og det faktum at andre kjerner tilgjengelig med LIBSVM er spesialtilfeller av RBF under visse parameter [22], [23].

Prosessen med klassifisering med SVM innebærer følgende trinn:

modell~~POS=TRUNC: i denne studien har vi brukt referansedatasettet [17] (se avsnittet benchmark settet) for å bygge SVM prediksjon modell. Begrunnelsen bak valget av datasettet som er felles for det, brukes av CDRUG [17], var å sammenligne prediksjon utfallet av to metoder (CDRUG og SVM Klassifiserings) bygge fra samme underliggende datasettet. Prosessen med å bygge modellen innebærer følgende sub-trinn:..

Feature utvinning av opplærings forbindelser og transformasjon av funksjonen vektoren inn SVM input format

Cross validering basert parameterestimering og bygningsmodell med beste parametre

Prediksjon av spørre forbindelser:

data~~POS=TRUNC behandling av forespørselen forbindelsen (e)

Prediksjon av anti-kreft aktivitet av spørringen forbindelsen (e)

Feature Extraction

. I denne studien ble funksjoner hentet fra enhetene i det sammensatte, som er ansvarlig for å definere sin reaksjonsmekanisme, og er medvirkende faktor mot sin aktivitet. Disse enhetene kan være av organisk (det vil si «funksjonelle grupper») eller uorganiske (dvs. «metallioner») i naturen. Funksjonelle grupper som er tilstede i organiske molekyler som hadde blitt brukt tidligere for å forutsi medikament-interaksjon target-nettverk [24], karakterisert ved at forfatterne hadde brukt 28 funksjonelle grupper for å karakterisere legemidler. I tillegg til den funksjonelle gruppe, metaller også spille en meget viktig rolle i å bestemme aktiviteten av legemidler, spesielt innen kreft-medikament, slik som cisplatin, som kan betraktes som en foregangs i feltet av metallbaserte anti-cancer medikament [25]. De funksjonelle grupper og metaller som er tilstede i en forbindelse som kan visualiseres som byggesten eller understellet av en forbindelse. SMARTS er en svært kraftig språk for å beskrive slike molekylære understell [26]. Smarts strenger brukes vanligvis for understellet søking, for å identifisere molekyler basert på mønstergjenkjenning, enten en entall streng eller som en gruppe av Smarts strenger. I denne studien har vi strengt forberedt Smarts strenger av over 300 funksjonelle grupper (inkludert vanlige metallformer som finnes i ulike legemidler). Vi har fulgt de retningslinjer som er gitt av Daylight [26], mens du forbereder disse Smarts strenger.

Funksjoner ble hentet fra trening forbindelser, fra Benchmark datasett [17]. Datasettet består av over 18.000 forbindelser (positivt og negativt sett) i smiler format (se: https://bsb.kiz.ac.cn/site_media/download/CDRUG/Benchmark.rar). I denne studien har vi brukt åpen kildekode python bibliotek Pybel [27] for å finne understell kodet som en SMARTS streng i en spørring sammensatte. Python-skript ble skrevet for å automatisere oppgaven med matchende listen av Smarts stikk mot referansedatasettet (fig 2).

På gjennomgå de utpakkede funksjoner i alle forbindelser (positive og negative settet), vi observerte at mange av de understell fra vår opprinnelige liste av Smarts strengen ikke var til stede på en av datasettet (dvs. positiv-eller negativ-sett), og derfor ble de ekskludert fra videre nedstrøms analyseprosessen. Den endelige listen av Smarts strenger sammen med tilsvarende representant understell (funksjonelle grupper eller metall ion) besto av 228 Smarts strenger, som kan finnes som online supplerende materiale-«SMARTS_pattern.txt «(se S5 tekst). Ved slutten av denne øvelsen, erholdt vi trekk matrise av dimensjon M Γ N matrise; hvor «M «tilsvarer antallet av forbindelser i referansesettet og» N «svarer til antallet av funksjoner /understell (dvs. 228) som brukes for å fremstille trekk vektor av en forbindelse. Denne funksjonen vektor ble forvandlet til en SVM format som angitt nedenfor:

label Indeks1 : value1 Indeks2 : verdi2 …

Hvor, inneholder hver linje en forekomst og avsluttes med en «… \\ n «karakter. label er et helt tall som indikerer klassen etikett (1 → forbindelse med anti-kreft-aktivitet og 0 → forbindelse uten anti-kreft-aktivitet). Paret index : verdi gir en funksjon (egenskap) verdi: index er et heltall fra 1 og verdi er et reelt tall (I denne studien, verdi kan være [0,1], der 0 → indikerer funksjonen er fraværende i den forbindelse, og en → indikerer funksjonen er til stede i forbindelsen). Indekser må være i stigende rekkefølge [19].

Parameterestimering og Model Building

. RBF kjernen har to parametre

C Hotell og γ; for et gitt forutsigelse problem, blir verdien av disse parameterne er ikke kjent på forhånd, og derfor har en slags parameter søk gjøres for å estimere verdier av disse parametrene. Hovedmålet med parameter søk er å finne gode (

C

, γ), slik at prediksjon modellen vil forutsi aktivitet av ukjente forbindelser. Vanligvis dårlig optimalisert modeller har en tendens til å lide med en overtilpassing problem, som refererer til tilstanden når prediksjon modell /sorter viser høy nøyaktighet med treningsdata, men nøyaktigheten synker drastisk når den brukes til å forutsi ukjente testdata. Kryssvalidering er en teknikk som anvendes for å overvinne den overtilpassing problem. I

n

gangers kryssvalidering, trening datasettet er delt inn i

n

undergrupper av lik størrelse. Sekvensielt en undergruppe er testet ved hjelp av modellen, trent på de resterende

n

-1 undergrupper. På denne måte blir hver forekomst av hele treningssettet spådd en gang, slik at det er kryssvalidering nøyaktighet prosentandelen av data som er riktig klassifisert.

i denne studien, utførte vi en uttømmende grid- søk på

C Hotell og γ ved hjelp av 5-fold kryssvalidering. Etter funksjonen utvinning og data transformasjon av referansedatasettet (se avsnitt Feature Extraction), må vi først gjorde en grov rist søk for å finne beste

C Hotell og γ ved hjelp av 5-fold kryssvalidering. Vi startet med grovt søk rutenett med en eksponentielt voksende sekvens av

C Hotell og γ (

C

= 2

-5, 2

-4, 2

– 3 …, 2

14, 2

15 og y = 2

-15, 2

-14 … 0,2

4, 2

3), som ga oss de beste parametere (

C

= 2

2 og γ = 2

-2) med kryssvalidering nøyaktighet på 80,99% (figur 3). Parametrene med kryssvalidering nøyaktighet på over 80,5% er tydelig markert med grønn farge i rutenett løpet av figur 3, vi neste fokusert på fine grid søk i denne regionen.

Den fine grid søk ble gjennomført med en økende sekvens av

C Hotell og γ (

C

= 2

1, 2

-0,75, 2

-50 … 2

5,50, 2

5,75, 2

6 og γ = 2

0, 2

-0,75 … 0,2

-4,50, 2

-4,75, 2

-5), som ga oss de beste parametere (

C

= 2

1,5 og γ = 2

-1,5) med kryssvalidering nøyaktighet på 81,18% (figur 4). Hele treningssettet (dvs. den transformerte referansedatasettet med funksjonssvektorer) ble brukt for å bygge en siste sorterer med de beste parametre (

C

= 2

1,5 og γ = 2

-1,5). De mellomliggende filer generert under søk rutenett, sammen med siste sorterer «

kreft

.

modell

«kan bli funnet som online supplerende materiale» Model_Build.zip» (S6 tekst). I denne studien, klassifikator «

kreft

.

modell

« ble brukt i den påfølgende SVM basert prediksjon av anticancer aktivitet. Den uttømmende rutenett basert parameter søk ble gjort ved hjelp av Python-skript «grid.py «tilgjengelig med LIBSVM pakke [19]. Beregnings grid søk er minne og CPU intensive oppgaver, i en parallell modus, det tok nesten 10 dager å fullføre denne oppgaven i 4 GB Intel

® Core

™ i5 desktop installert med Linux operativsystem.

Tippe Process

. Prediksjon av anticancer aktivitet med SVM klassifikator «.

kreft

modell

« for spørre forbindelser omfatter følgende:

Les liste over «n» antall spørre forbindelser

Angi opprinnelig indeksering i = 1.

Utarbeidelse av funksjon vektor for i

th spør forbindelse (som forklart i avsnitt feature Extraction). Egenskapsvektoren D

i [x1, x2 … .x228] for ai

th spørre forbindelse, vil være en binær vektor som representerer nærvær eller fravær av funksjonell gruppe /understell i en spørring forbindelsen.

Sjekk om «i» er mindre enn «n», Hvis ja så i = i + 1 og gå til trinn 3, ellers går du til trinn 5.

Transform funksjonen matrise til SVM input format og lagre som fil «svm_input.dat»

Tippe med følgende kommando:

./SVM-forutsi svm_input.dat cancer.model output_name

Validering av prediksjonsmodeller

Validering datasett

. Nøyaktigheten av de fremgangsmåter for forutsigelse av anticanceraktivitet (dvs. CDRUG og nevnte SVM klassifiserings) ble testet med hjelp av forbindelsen datasettet, forbundet med deres angivelse område uten tvetydighet. Valideringsdatasettet som brukes i den aktuelle studien ble tilfeldig valgt fra samlingen av DrugBank og naturlige plantebaserte anti-kreft forbindelser (se avsnitt

Narkotika Target data

for detaljer om den primære datasettet). Vi har opprettet en balansert datasett, som besto av 526 forbindelser med anticanceraktivitet (positiv datasettet), og 526 forbindelser uten anticanceraktivitet (negativ datasettet). Valideringen datasettet, kan bli funnet som online supplerende materiale-«cancer_nat_db_smi.txt «(forbindelser med anti-kreft aktivitet) (se S7 tekst), og «others_smi.txt» (forbindelser uten anti-kreft aktivitet) (se S8 tekst) .

den frittstående versjonen av CDRUG [17] ble brukt til å forutsi aktiviteten til validering datasett, kan prediksjon resultatene av CDRUG finnes i filen-«validation_set_tab.txt «(se S9 Text), som er tilgjengelig som online supplerende materiale. Den svm klassifikator «cancer.model «bygge i den aktuelle studien, ble også brukt til å forutsi aktiviteten til validering datasett. Den SVM basert klassifikasjon av valideringsdatasettet ble oppnådd i følgende brede trinn:

SMARTS streng basert beregning av funksjon vektor (se avsnitt Feature Extraction for detaljert prosedyre). Resultatet av funksjonen utpakkingen på validering datasett er tilgjengelig i filen «Validation_dataset_features.txt» (se S10 tekst) som online supplerende materiale.

Transformasjon av funksjonen vektoren inn svm input format. Den transformerte funksjonen matrise er tilgjengelig i filen «Validation_dataset_dat.txt» (se S11 tekst) som online supplerende materiale

SVM basert prediksjon. Anticancer aktivitet av valideringsdatasettet ble spådd med følgende kommando av libsvm [19]. /SVM-forutsi Validation_dataset_dat.txt cancer.model Validation_dataset_out.txt.

svm prediksjon resultatet kan bli funnet i «Validation_dataset_out.txt «(se S12 tekst) som online supplerende materiale.

Forslaget oppnådde resultatene fra CDRUG og SVM klassifiserer ble sammenlignet, basert på følgende statistikk:. (i) (ii) (iii) der, etter

«TP» er sanne positive

« TN «er sant negativ.

« FP «er falsk positiv.

« FN «er falsk negativ.

følsomhet, spesifisitet og nøyaktighet statistikk ble beregnet for resultatene oppnådd fra begge metoder (tabell 1). Det kan ses at den totale nøyaktighet CDRUG-metoden er noe bedre enn tilpassede bygge SVM klassifiserer, som kan hovedsakelig tilskrives den eksepsjonelt høye spesifisitet (~ 91%). Resultatstatistikken for tilpassede bygge SVM klassifikator kan betraktes som balansert i forhold til følsomhet (~ 61%) og spesifisitet (~ 62%), mens sensitiviteten av CDRUG observert som ganske lav (~ 40%) (tab 1).

for en studie av en utforskende natur som dette, kan prediksjon metoder med lav følsomhet virke mot sin hensikt, siden det ville avgjørende bety muligheten for å miste ut massevis av potensielle forbindelser under innledende screening etapper uten noen omfanget av å være ansett for sin terapeutiske anvendelse for oral cancer i løpet av den nedstrøms analyseprosessen. Vi har derfor valgt SVM klassifikator for prediksjon av anti-kreft aktivitet på over 84 millioner forbindelser hentet fra ChEMBL og STITCH database (se avsnitt Compound-Target Datakilder). Vi bestemte oss for å utnytte høy spesifisitet CDRUG å identifisere mulige falske positiver blant listen over potensielle forbindelser oppnådd ved slutten av denne studien.

Prediksjon av Anticancer aktivitet.

Forbindelsene samlet inn fra ChEMBL og STITCH database (se avsnitt

Compound-Target datakilder

) ble gitt som innspill til SVM klassifikator for prediksjon av anticancer aktivitet. Det var over 82.84 million forbindelser fra tråden, og over 1,4 millioner forbindelser fra ChEMBL databaser. Ulike analytiske trinn som inngår i forhåndsbehandling (som funksjon fjerning) og SVM prediksjon, har visse fysisk minne og CPU krav som bestemmes av størrelsen på et datasett og kompleksiteten av underliggende algoritme, på grunn av disse begrensninger, var det ikke mulig å analysere hele datasett på over 84 millioner forbindelser samtidig. Etter et par innledende prøvekjøringer av prediksjon arbeidsflyt med varierte størrelser undergrupper av den sammensatte datasettet, var vi i stand til å finne øvre terskel på 2,6 millioner forbindelser som kan analyseres i skrivebordet med 4 GB minne (med 4 kjerner).

The https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/ ListOfCIDs /assaysummary/CSV

BioAssay

Legg att eit svar