Abstract
Å forutsi respons av en bestemt kreft til en terapi er et hovedmål i moderne onkologi som skulle til slutt føre til en personlig behandling. Høy throughput visninger av potensielt aktive forbindelser mot et panel av genomisk heterogene kreftcellelinjer har avduket flere relasjoner mellom genomiske forandringer og narkotika reaksjoner. Ulike beregnings tilnærminger har vært foreslått for å forutsi følsomheten basert på genomiske funksjoner, mens andre har brukt de kjemiske egenskapene til medisinene for å fastslå deres virkning. I et forsøk på å integrere disse komplementære tilnærminger, utviklet vi maskinlæringsmodeller for å forutsi respons på kreftcellelinjer til medikamentell behandling, kvantifiseres gjennom IC
50 verdier, basert på både genomiske funksjonene i cellelinjer og de kjemiske egenskapene de vurderte narkotika. Modeller spådd IC
50 verdier i en 8-fold kryssvalidering og en uavhengig
blind
test med koeffisienten R
2 på 0,72 og 0,64 kroner. Videre modellene var i stand til å forutsi med nøyaktighet tilsvarende (R «sup> 2 på 0,61) IC50s av cellelinjer fra et vev som ikke brukes i treningstrinnet. Vår
i silikoaluminofosfater
modeller kan brukes til å optimalisere den eksperimentelle design av narkotika-celle screenings ved å estimere en stor andel av mangler IC
50-verdier i stedet for eksperimentelt å måle dem. Implikasjonene av våre resultater gå utover
virtuell
narkotika screening utforming: potensielt tusenvis av narkotika kan være undersøkt
i silico
å systematisk teste sitt potensial effekt som antitumormidler basert på deres struktur, og dermed gi en beregningsorientert rammeverk for å identifisere nye narkotika reposisjonering muligheter, samt til slutt være nyttig for personlig medisin ved å knytte de genomiske trekk av pasienter til narkotika følsomhet
Citation. Menden MP, Iorio F, Garnett M, McDermott U, Benes CH, Ballester PJ, et al. (2013) Machine Learning Prediction of Cancer Cell Følsomhet for narkotika Basert på Genomisk og kjemiske egenskaper. PLoS ONE 8 (4): e61318. doi: 10,1371 /journal.pone.0061318
Redaktør: Gajendra P. S. Raghava, csir-Institutt for mikrobiologi Technology, India
mottatt: 26 oktober 2012; Godkjent: 07.03.2013; Publisert: 30 april 2013
Copyright: © 2013 Menden et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble finansiert av European Molecular Biology Laboratory PhD-programmet til MPM, Sanger /europeiske Bioinformatikk Institute ESPOD program til FI, en Medical Research Council Methodology Stipendiat til PJB, et Wellcome Trust stipend til MG og CHB, og Cancer Research UK til UM. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
High-throughput screening av et stort antall molekyler er en mye brukt metode for å identifisere blyforbindelser som utøver en gunstig virkning på en gitt fenotype. I sammenheng med kreft, har biblioteker av kjemiske forbindelser er testet på denne måten mot paneler av cellelinjer dyrket i forskjellige forhold og med heterogene genomiske bakgrunn [1]. Etter den banebrytende arbeidet til «NCI-60», en samling av 59 humane kreftcellelinjer utviklet av National Cancer Institute for
in vitro
narkotika screening [2], siste kjennetegn studier har vist at screening veldig stort cellelinje samlinger kan rekapitulere kjent og identifisere nye molekylære genomiske determinanter av narkotika følsomhet [1], [3] – [5]
I disse studiene, ved hjelp av systematisk statistisk inferens og regresjon metoder, determinant som onkogene lesjoner. , høyt eller lavt nivå av basal genekspresjon og andre genotypiske egenskaper har blitt assosiert til profiler med øket følsomhet /resistens mot spesifikke forbindelser. For eksempel ved å bruke en multivariat analyse av varians [6] og «Elastic Net «regresjon rammeverk [7] etablerte narkotika genotype foreninger har blitt bekreftet og supplert med markører for vev-spesifisitet og nye tilkoblinger, f.eks
EWS-FLI1
trans i Ewing sarkom og følsomhet for
PARP
hemmere, har blitt identifisert og videre eksperimentelt validert. Resultatene fra disse studiene er gjort offentlig tilgjengelig, noe som gir unike ressurser som støtter oppdagelsen av nye prediktive biomarkører for personlig kreftbehandling.
Øke ytterligere størrelsen på anses celle-linje /sammensatte paneler ville være svært gunstig, som det gir grunnlag for å forbedre nøyaktigheten og prediktiv kraft av inferred foreninger. Dette krever imidlertid større infrastrukturer og kostnadene vokser med screening størrelse. I tillegg, på grunn av ulike tekniske og logistiske grunner i en high-throughput skjerm [7], den resulterende forbindelse-med-cellelinje matrise av legemidlets effekt (vanligvis oppsummert i sin IC
50, den halv maksimal (50%) hemmende konsentrasjon av en substans med hensyn til cellenes levedyktighet) er ofte ikke fullstendig. Selv om mange trinn er automatisert, kan fylle eksperimentelt hvert tomrom være kostbart og arbeidskrevende [6]. Derfor ville en nøyaktig verktøy for å tilregner mangler IC
50s og estimere dem for nye cellelinjer være av stor verdi for narkotika screening design.
Videre, en robust prediksjon verktøy for
i silico
identifikasjon av potensielt effektive medikamenter for behandling av en bestemt cancer kunne brukes for narkotika reposisjonering [8], [9]. En metode av denne type er representert ved den SAMMENLIGN algoritmen [10], [11] som bruker medikament responsprofilene til NCI-60 screening, gjennom en «skyld-for-krets» paradigme. Etter dette prinsipp, er medikamenter med å utløse en lignende medikament-responsprofil på tvers av cellelinjer i NCI-60 panel antatt å dele en felles virknings (MOA), og dermed muliggjør MoA oppdagelse av nye medikamenter (hvis deres tumor-undertrykkelse profil er lignes med en kjent og godt karakterisert medikament), så vel som oppdagelse av nye eller sekundære effekter for etablerte medikamenter.
i siste instans
in silico
metoder for å forutsi effekten av legemidler basert på den molekylære inngåelse av tumorer (dvs. genom, transkriptom) vil være en viktig milepæl mot personlig behandling for kreftpasienter basert på molekylære biomarkører [12].
Resultater
Vi har derfor undersøkt om det er mulig å bygge maskinlæringsmodeller (for mer informasjon se «Materialer og metoder» delen, «Machine læring» ledd) som kan forutsi narkotika følsomheten med cellelinje screening eksperimentelle data, hvor cellelinjer behandles med variabel konsentrasjon av et gitt legemiddel og den resulterende dose-responskurven oppsummert av en IC
50. Vi fokuserte på den mest omfattende kreft narkotika screening datasett tilgjengelig til dags dato, fra «Genomics av Drug Sensitivity in Cancer» (GDSC) prosjektet [3]. For hvert legemiddel, ble en neural nettverksmodell trenet til å forutsi dets IC
50 profil på tvers av panelet av cellelinjer basert på den genomiske bakgrunn av hver celle, som kjennetegnes av mikro ustabilitet status (1 = ustabil eller 0 = stabil), somatiske kode varianter i den kodende sekvens av 77 kreftgener (1 = noen endring i proteinsekvensen og 0 = vill type) og kopiantall forandringer betegner genamplifisering og sletting av disse kreftgener (1 = amplifikasjons /mer enn 7 kopiantall, 0 = villtype /mellom 1 eller 7 kopiantall, og -1 = sletting /nei kopiantall). Men den prediktive kraften i disse første modellene var begrenset, spesielt for de legemidler uten en kjent onkogen til legemiddelrespons avhengighet.
Vi tenkte at kreft celle følsomhet for legemiddelmolekyler er drevet av funksjoner fra både celler og narkotika. Mens cellefunksjoner blir til slutt forbundet med den interne driften av cellen, medikament funksjoner inkluderer fysikalsk-kjemiske egenskaper som er korrelert med evnen av molekylet for å krysse cellemembranen (f.eks lipofilisitet) eller dets selektivitet til intracellulære mål (for eksempel fingeravtrykk som koder for den kjemiske struktur )
har faktisk omfattende arbeid er gjort på Kvantitativ struktur-aktivitetsforhold (QSAR) tilnærminger til å forutsi hel-celle aktivitet av molekyler basert på deres kjemiske egenskaper [13] -. [16], inkludert programmer til å forutsi anti-cancer-aktivitet i legemidler [17], [18]. Imidlertid kan slike QSAR tilnærminger utelukkende basert på kjemiske egenskaper ikke skille mellom resistente og sensitive cellelinjer. For eksempel, å bygge en modell uten noen informasjon av cellelinjene, vil modellen ikke være i stand til å forutsi cellelinje A for å være mer motstandsdyktige enn cellelinje B til medikament C, som er den viktigste sikte på å integrere kjemisk og genomiske trekk i vår modeller.
Vi har derfor utvidet vår maskinlæringsmodeller for å inkludere så innspill kjemiske egenskaper fra narkotika, i tillegg til molekylær karakterisering av cellelinjene (se figur 1). Denne integrerende tilnærming integrerer ikke bare to komplementære strømmer av informasjon, men også lar modellen til å bli trent med mye større mengder data, som ofte er en nøkkelfaktor for å forbedre prediktiv ytelse (se figur 2). Følgelig data ble pre-behandlet for å inkludere 689 kjemiske beskrivelsene av narkotika og 138 genomiske funksjoner for å differensiere cellelinjene, noe som resulterer i en inngang plass av 827 funksjoner
Vår metode er basert på to forskjellige inngangsstrømmer.: (1) cellelinje funksjoner i 77 onkogener og deres mutasjon tilstand, (2) narkotika funksjoner som er generert med Padel programvare [19] fra den forenklede molekylær innspill linje entry system (smiler), se metode for detaljer. Den kontinuerlige IC
50 verdi er spådd med state-of-the-art maskin læring algoritmer (nevrale nettverk og tilfeldige skog).
Ytelsen til multi-drug-modell (rød stjerne) og familien av 111 enkelt narkotika modeller (blå histogram) er representert ved hjelp av tre ulike beregninger: (A) Pearson korrelasjon R
p, (B) determinantkoeffisient R
2, og (C) kvadratisk middel error RMSE.
Kjemiske beskrivelsene ble generert med Padel programvare [19] fra forenklet molekylær-innspill linje entry system (SMILES) strukturer. Beskrivelsene omfatter fysisk-kjemiske egenskaper som vekt, lipofilisitet, regel fem, og i tillegg fingeravtrykk av narkotika (for mer informasjon se «Materialer og metoder» delen, «Egenskaper» ledd, og https://padel.nus.edu.sg/software /padeldescriptor /).
for å bygge vår modell, brukte vi GDSC screening data fra 608 genomisk preget cellelinjer og 111 legemidler som kjemisk informasjon var tilgjengelig (se figur 2 og metoder for detaljer). Den publiserte versjonen av denne matrisen holder 38,930 IC
50 verdier (~58% av den totale, på grunn av tekniske og logistiske grunner).
Vi utførte en 8-fold kryssvalidering, hvor testsettet av hver fold ble ikke benyttes til opplæring, slik som å måle den prediktive kraften av de resulterende modeller på tvers av alle stoffer i stedet for hvert medikament separat. Nevrale nettverk var i stand til å finne en estimert mangler log (IC
50) verdier på testsett med et gjennomsnitt Pearson korrelasjonskoeffisient (R
p), koeffisienten (
R
2
) og kvadratisk middelfeil (RMSE) (Tekst S1) på 0,85, 0,72 og 0,83 på tvers av alle 111 narkotika, henholdsvis (figur 3A). Alternativt tilfeldige skoger oppnådd sammenlign forestillinger (R
p 0,85,
R
2
på 0,72 og RMSE på 0,84, alle detaljer i supplerende materialer). Videre gjennomførte vi en blind test med 13,565 nye eksperimentelle IC
50 verdiene bare mottatt etter opplæring våre modeller for å verifisere resultatene kryssvalidering (narkotika-til-cellelinje matrise oppdatert av ~18%, med disse nylig genererte IC
50-tallet utelukkende brukes som blindtest sett). Resultatene på blindtest var nesten like god som i kryssvalidering, skaffe en R
p på 0,79,
R
2
på 0,64 og en RMSE på 0,97 (Fig S1, Tekst S2). Nøyaktigheten av spådommer oppmuntret oss til å trene nettverk med færre IC
50 verdier. Bemerkelsesverdig, har den prediktive kraften av modellene ikke falle vesentlig av i kvalitet, selv om mengden av treningsdataene ble redusert til 20% av totalen (figur 3B).
Prediksjoner oppnås med 8 ganger kryss -validations. Kapasitetsverdier er utelukkende beregnet på testsett. (A) Sammenheng mellom spådd å eksperimentelt observerte log (IC
50) verdier (Pearson korrelasjon R
p = 0,85; determinantkoeffisient R
2 = 0,72, root mean square error RMSE = 0,83). Selv om det er en berikelse av resistente cellelinjer, som har en tendens til å ha høyere tømmer (IC
50) verdier enn sensitive cellelinjer, jo lavere log (IC
50) verdier er fortsatt skikkelig spådd. (B) Forventet forbedring av IC
50 forutsigelse ved å fylle eksperimentelt hull i celle-til-medikament matrise. Den vertikale grå linje tilsvarer den publiserte datasett (fylt til ~58%, på grunn av logistiske grunner), som tilsvarer resultatene i panelet (A). Men tilsvarende nøyaktighet (R
p på 0,84 i stedet for 0,85, R «sup> 2 på 0,70 i stedet for 0,72) kan oppnås ved bruk av kun 20% av hele grunnmassen.
Ved hjelp av en analysen av varians (ANOVA) for å angi legemiddel-til-onkogen assosiasjoner, undersøkte vi hvor godt IC
50-verdier forutsagt for testsettet ved å bruke vår modell rekapitulere assosiasjoner manifestert i de eksperimentelle data, for eksempel hvorvidt en gitt mutasjon forårsaker sensitivitet eller resistens mot et medikament [3]. Ved hjelp av bare spådd IC
50 verdier, vi fanget korrekt 79% (168/213) av de viktige observasjoner med samme t-test tendens (positiv eller negativ effekt på narkotika følsomhet) identifisert med den eksperimentelle IC
50s. Når bare vurderer signifikante assosiasjoner fra vår modell (p-verdi justeres med Benjamini-Hochberg, FDR = 0,2), vi spådde riktig 28% (59/213) av alle eksperimentelt identifisert foreninger. Hvor vi ikke klarte å påvise en sammenheng effektstørrelse ANOVA er ofte små, eller den eksperimentelle korrelasjonen er forbundet med en mutasjon enten ikke eller sjelden er representert i den undergruppe av cellelinjer med forutsagte IC
50 verdier. Spesielt, som eksempel på nytten av denne tilnærmingen, kun ved hjelp spådd IC
50 verdiene vi identifiserte kjent medikament-til-onkogen foreninger som følsomhet for
BRAF
-mutated cellelinjer til
MEK1 /2
-inhibitors (fig 4B) [20]. Utvalget av spådde IC
50 verdier for et stoff er vanligvis smalere enn for de observerte verdiene og er sannsynligvis fordi tiden tilgjengelig genomisk datasettet er i nok til å forklare den observerte spekter av narkotika reaksjoner på tvers av cellelinjer.
(A) variansanalyse (ANOVA) av eksperimentelle data og spådde utgang for narkotika-til-onkogen foreninger (20% FDR). Størrelsen på hver krets (prikk) er proporsjonal med mengden av behandlede cellelinjer inneholdende den spesielle muterte onkogen. Blå prikker som indikerer den samme t-test tendens i våre spådommer, og røde motsatt. (B) Forut og målte IC
50-årene av
BRAF
-mutated vs vill type cellelinjer utsatt for
MEK1 /2
-hemmer PD-0325901 (p- verdi prediksjon = 1,91 × 10
-05, t-test flere hypotese korrigert med Benjamini . Hochberg)
i tillegg vurderte vi prediktiv kraft av vår modell for ukjente cellelinjer. Derfor, søkte vi en mer stringent 8-fold kryssvalidering, hvor en cellelinje som er enten inkludert i toget eller testsett. Disse modellene oppnådde en R
p 0,82,
R
2
på 0,68 og en RMSE på 0,89 (Fig S2) viser nøyaktigheten av vår modell for å forutsi IC
50 verdier for helt nye cellelinjer. I en tilleggs simulering, vi dro ut alle kreftcellelinjer fra en bestemt vev, f.eks vi fjernet alle lungekreft cellelinjer (106 av 608 cellelinjer) og likevel fått en R
p på 0,79,
R
2
på 0,61 og RMSE på 0,99 (figur S3).
Diskusjoner
Våre resultater viser at ved å bruke genomiske funksjoner fra cellelinjer og kjemisk informasjon fra narkotika, er det mulig å bygge
i silico
multi-medikamentelle modeller å finne en estimert mangler IC
50 verdier med ikke-paramaskinlæringsalgoritmer som nevrale nettverk og tilfeldige skoger. Som utgang for vår metode, valgte vi å utforske IC50-verdier som genereres av Garnett et al. [3], som gjør oss i stand til å sammenligne våre resultater med dem, men andre beregninger (for eksempel en avkortet IC50 eller arealet under kurven), kan gi større innsikt og potensielt føre til mer robuste modeller.
Pearson korrelasjon (fig. 2A) og koeffisienten (fig. 2B) av multimedikamentmodell er vesentlig bedre enn den enkelt-medikament modeller, mens den RMSE feilen er lik (figur 2C). Dette innebærer at feilen (i gjennomsnitt) for å forutsi en gitt IC50-verdien er den samme i de multi-medikament og enkelt-medikament modeller (RMSE) og, ettersom noen stoffer er aktive ved forskjellige konsentrasjonsområder, modellen er i stand til å dekke en mye større dynamisk område med en tilsvarende nøyaktighet. Koeffisienten balanserer disse to begrepene, og dermed et bredere spekter med samme RMSE øker R
2. Takket være bruken av kjemiske beskrivelser, er multi-medikament-modeller opplært med et volum av data som er to størrelsesordener større enn dataene for å trene hver enkeltmedikamentmodell. Dette større datasett vekter vanskeligheten i å trene heterogene responsverdier over narkotika.
I flere tilfeller, bruk av multi-narkotika-modeller tillot
i silico
identifisering av genomisk hendelser assosiert med endret narkotika følsomhet , som er bare mulig når genomiske eiendommene er vurdert.
Selv om våre modeller ikke fange opp alle kjente genet til narkotikaorganisasjoner, forventer vi at så større narkotika følsomhet og genomiske datasett blir tilgjengelige i årene som kommer prediktiv kraft av disse modeller vil øke. Vi tror at den prediktive kraft av våre modeller er på grunn av det store antallet cellelinjer og bredt spekter av narkotika i GDSC panel som prøver intensivt kjemisk løpet av vanlige kreftlegemidler (kjemoterapeutiske og kinase hemmere). Det gjenstår å fastslå hvordan disse modellene vil spå helt ukjente familier på terapeutiske midler.
prediksjonsevne av våre metoder for enkeltverdier er fortsatt begrenset, og kan forbedres ytterligere ved å utvide settet med innspill har med flere lag av molekylær karakterisering av cellelinjer, slik som basaltranskripsjon profiler og phosphoproteomic data. Disse datatyper har vært brukt til å forutsi stoff responser i ulike sammenhenger [21] – [24]. En annen verdifull forlengelse kan være inkludering av genuttrykk data efter behandling, en kraftig
in silico
ressurs for å forutsi behandlingsresultatene og klargjøre forbindelsen virknings [25], [26], så vel som et lovende gateway til identifisering av nye medikamenter reposisjonering muligheter [27]. I tillegg kan epigenetikk data forbedre prediksjon evnene til fremtidige metoder [28].
Vår metode bruker rent eksperimentelle data, men ytterligere prediktiv kraft kan forventes fra blant annet kunnskap om det underliggende nettverket [29]. Det har vist seg at prediksjonen av medikamentrespons og virkningsmåte av transkripsjonen profilering blir betydelig forbedret da sammen med kjente a priori gen- og protein nettverk [30], [31] og medikament likheter er utledet på grunnlag av den tilsvarende
i silico spådd
impinged vei [32]. Forhåndskunnskap kan også øke interpretability av resultatene. Kjente regulatoriske forhold mellom gener og transkripsjons data [33] og protein nettverk [34] kan brukes til å identifisere deregulerte veier, og skal videre knyttet til de genomiske forandringer som driver dem [35], fremhever subnett av betydning for legemiddelrespons.
innlemmelse av disse ekstra funksjonene vil kreve en ordning for å prioritere innspill funksjoner basert på deres innvirkning på det endelige trent modell. Assosiasjoner mellom funksjoner og utfall kan være eksplisitt avduket ved å integrere i våre modeller har valg kriterier og dimensjonalitet reduksjon teknikker.
I form av prediktive modeller, har vi brukt standard maskinlæringsmetoder (nevrale nettverk og tilfeldige skoger), gitt sin fleksibilitet og robusthet som prediktive modeller. En grobunn for videre forskning er å undersøke anvendelsen av andre modelleringsteknikker, inkludert lineære regresjon metoder (f.eks lasso, ElasticNets).
Våre resultater viser også at man kan anslå nøyaktigheten av prediksjon for ulike grader av sparseness i data, som kan ha nytte ved utformingen eksperimenter der dekningen har å være balansert med nøyaktighet. Videre, fordi modellene er i stand til å forutsi IC
50 på cellelinjer ikke screenet ennå, spådommer fra disse modellene kan brukes til å avgjøre om det er verdt å utvide panel av cellelinjer, eller heller fokusere på noen få utvalgte.
implikasjonene av våre resultater gå utover sine verktøy for å optimalisere den eksperimentelle design av narkotika screenings. Når en modell er bygget, kan det brukes til systematisk teste den potensielle effekten av nye medikamenter
i silico
, basert på deres kjemiske egenskaper og likhet. Disse forutsigelser kan hjelpe til å vurdere den potensielle aktivitet av nye legemidler, f.eks fra store kjemiske biblioteker, skal skjermes. Videre spådommer på klinisk godkjente legemidler er ventet å avsløre kandidater for narkotika gjenbruk og potensielt identifisere spesifikke sykdoms sub-typer som vil være mest responsive [8]. Selv om cellelinjer ikke er en eksakt kopi av ekte svulster, omfattende prognosemodeller som vårt sammen med utvidede genomisk og epigenomic datasett kan være en god proxy for å legge til rette for utvikling av nye terapeutiske strategier skreddersydd til den enkelte pasient [12].
Materialer og metoder
Trening datasett
Vi brukte data fra genom av Drug Sensitivity in Cancer prosjektet [3], som inneholder 639 kreftcellelinjer, hver av dem preget av et sett av genomiske funksjoner (detaljer i neste avsnitt). Karakteriseringen er ikke fullført for hver cellelinje, og derfor har vi filtrert ut cellelinjer med mer enn 15 savnede genomiske funksjoner, som reduserte settet av utvalgte cellelinjer fra 639 til 608. Datasettet inneholder 131 narkotika. Som vår metode utnytter den kjemiske strukturen av hvert medikament, blir denne informasjonen i forenklet molekylær-innspill linje entry system (smiler) formatet som kreves. Derfor kan vi ikke vurdere de 20 stoffene som smiler var ikke tilgjengelig, og bygget vår modell for de resterende 111 narkotika.
Den resulterende matrisen av 608 cellelinjer ved 111 legemidler vil ha 67,488 mulige narkotika responskurver, hver oppsummert av sin IC
50 verdi (medikamentkonsentrasjon i uM-enheter som kreves for å utrydde 50% av kreftceller). Foreløpig inneholder datasettet 38,930 IC
50 verdiene av disse 67 488 (58%), med manglende verdier for det meste på grunn av logistiske årsaker som for eksempel å samordne målinger fra ulike screeningsentre. Den logge IC
50 varierer fra -7,40 (IC
50~4 • 10
-8 M, den mest sensitive narkotika-celle kombinasjon) til 6,91 (IC
50~8 • 10
6 M, den mest motstandsdyktige). Merk at ekstremt store og små verdier er fremskrivninger i IC
50 som ikke har noen klinisk relevans. Vi bruker disse områdene i denne studien som de er de som brukes i papir Garnett et al. [3] at vi sammenligner våre resultater mot.
Blind test datasett
Vi ga testsett under kryssvalidering for å estimere den forventede feilen (detaljer i kryssvalidering seksjon). Men selv kryssvalidering overvurdere den potensielle ytelsen til maskinlæringsmetoder. Derfor gjennomførte vi en virkelig blindtest for å demonstrere potensielle mulighetene våre kryss-validerte modeller å finne en estimert mangler IC50 verdier i 608 cellelinjer ved 111 narkotika matrise (figur S1). Vår blindtest inneholder 13,565 nylig genererte IC
50 verdier, som ble hentet etter trening fant sted, eller sagt på en annen, en bunke med nye eksperimentelle data ble generert på uavhengig validere modellene våre. For å oppsummere, 58% av IC
50 verdiene er i det originale datasettet (brukt for kryss-validering), ytterligere 18% er brukt for blindtest (uavhengig test).
Egenskaper
det er to forskjellige inngangsdatastrømmer i vår metode: genomisk bakgrunnen for hver kreftcellelinje, og de kjemiske egenskapene til et stoff. For det første inngangsdatastrøm, blir cancercellelinjer, karakterisert ved mutasjonsstatus av 77 onkogener, hvor hver av dem er ytterligere beskrevet av kopitallet variasjon (noen høy grad av forsterkning eller homozygot delesjon av en kreft-genet) og sekvensvariasjon (endringer den proteinsekvens, for eksempel ikke-synonyme enkeltnukleotidpolymorfi). I tillegg er det en binær funksjon for mikro stabilitet status for hver cellelinje. Cellelinjen funksjoner ble kodet som følger:
mikro ustabilitet status
Sekvens variasjon
Kopier nummer variasjon
Alle mutasjoner i betraktning, har vi 77 mulige kopi antall varianter pluss 77 mulige sekvensvariasjoner og en mikro stabilitet verdi, som summerer opp til 155 mulige cellelinje funksjoner. Imidlertid er noen mutasjons funksjoner mangler for noen cellelinjer, og vi konservativt fjernet en funksjon i tilfelle det var mangler for noen cellelinje. Dette førte til et endelig sett av 138 genomiske funksjoner som karakteriserer hver kreftcellelinje.
Den andre inngangsdatastrøm omfatter 1D og 2D kjemiske egenskaper av hvert medikament. Vi ga disse kjemiske funksjoner ved hjelp av Padel programvare (v2.11, lastes ned fra prosjektets hjemmeside, https://padel.nus.edu.sg/software/padeldescriptor/) [19] fra smilene med standardinnstillingene. 722 funksjoner er fysiokjemiske deskriptorer og 881 er hentet fra fingeravtrykk, som fører til en total på 1603 kjemiske egenskaper. Vi bare inkludert kjemiske egenskaper som kan beregnes for alle rusmidler. Videre har vi fjernet noen funksjon med samme verdi på tvers av alle rusmidler, få et endelig sett av 689 kjemiske egenskaper for hvert medikament (f.eks atom teller, bond teller, molekylvekt, xlogP eller pubchem fingeravtrykk, for å nevne noen). Listen over legemidler er tilgjengelige i tilleggsmaterialet (tabell S1).
Ta sammen kreftcellelinje og narkotika strøm, brukte vi 827 funksjoner for å bygge våre prediktive modeller av loggen IC
50 Verdien av en gitt cellelinje i nærvær av et gitt legemiddel.
kryssvalidering
Vi brukte en 8-ganger kryssvalidering for bygging av modellene. Derfor skilles vi det opprinnelige datasettet inn i åtte like store sett med IC
50-verdier, fremstilt ved tilfeldig distribuere alle IC
50-årene av matrisen i 8 skuffer. En av dem ble utelukkende brukt til testing (aldri involvert i noen opplæring), seks andre ble bestemt for trening av modellen og den resterende del ble brukt for kryss-trening. Cross-validering er en prosess som brukes for å unngå under- og overtilpassing [36] f.eks identifisere det optimale antallet skjulte enheter og trening gjentakelser for et nettverk (detaljer i «maskinlæring» -delen). Vi har rotert iterativt settene, slik at hvert datapunkt ble anvendt minst én gang for trening, tverr opplæring eller prøving. Til slutt fikk vi 8 modeller, som var like forutsigbar.
I tillegg brukte vi en strengere versjon av den ovenfor beskrevne 8-fold kryssvalidering. Vi har sørget for at testen, tog og kryss-togsettet ikke deler en hvilken som helst cellelinje, som kan forekomme i de ikke-stringent versjon (beskrevet ovenfor). For eksempel, anta at cellelinjen C1 behandles med medikamentene D1, D2 og D3; For de ikke-strenge kryssvalidering, kan kombinasjonen C1-D1, C1-D2 og C1-D3 bli distribuert via test, tog og kryss-togsett; for den strenge kryssvalidering, utmerket kombinasjon med C1 utelukkende forekommer i en av de tre settene.
Maskinlæring
For de nevrale nettverk, vi brukte Java gjennomføring fra Encog 3.0.1 (https://www.heatonresearch.com/encog) [37], [38] fra en mate-forward flerlags perceptron, hvor vi definert tre forskjellige lag: inndata, skjult (eller midten) og utgangslag. Hver perceptron av en lag er helt tilkoblet til hver perceptron av det øvre lag. Antallet funksjoner bestemt antall inngangsenheter, eller sagt på en annen, kreves perceptrons i det første laget. Antallet skjulte-enheter, ble undersøkt i løpet av treningen for å bestemme den korrekte modell kompleksitet, som var mellom 1 og 30 skjulte enheter. Videre har hver inngang og skjult enhet hadde også en forspenning, som er en fast aktiveringsinngang for disse perceptrons. Vi brukte én utgang enhet for å forutsi kontinuerlig logg (IC
50) verdi.
Som perceptron aktiveringsfunksjonen for å aktivere nettverks å forutsi ikke-lineær oppførsel, brukte vi sigmoid funksjon, som returnerer verdier i et intervall fra 0 til 1. Derfor måtte vi normalisere IC
50-verdier (rå IC
50 verdier, ikke i loggplass) også i et område fra 0 til 1, som ble gjort med følgende logistikk-lignende funksjon:
. Observert /forventet IC50 verdi, som må være et positivt tall større enn null
Vi trente nettverket med spenstig feil backpropagation gjennomføring fra Encog med standardparametere [39]. For å utforske den endelige modellen kompleksitet, som er beskrevet av antall skjulte enheter og mengde trening gjentakelser, undersøkte vi forskjellige nevrale nettverk arkitekturer fra 1 til 30 skjulte enheter og trent dem for maksimal 400 iterasjoner. Vi søkte den globale minimum i linje-trening landskapet (minimere root mean square error for kryss trening sett) for å unngå en under- eller overfitting (vanligvis mellom 21 og 27 skjulte enheter ble valgt som beste modellen etter ca. 300 iterasjoner).
Vi har også foretatt tilfeldig skog [40] regresjonsmodeller for å undersøke om det var noen betydelig ytelsesgevinst ved å bruke en alternativ ikke-parametrisk maskinlæring metodikk (Tekst S3). En tilfeldig skogen er et ensemble av mange forskjellige regresjon trær tilfeldig generert fra samme treningsdata (anbefalt verdi av n = 500 trær ble brukt).
datatilgang
Datasettet er fullt tilgjengelig for