Abstract
Driver mutasjoner er somatiske mutasjoner som gir vekstfordel til kreftceller, mens passasjer mutasjoner er de som ikke er funksjonelt relatert til onkogenese. Skille drivere fra passasjerer er utfordrende fordi driverne skje mye sjeldnere enn passasjerer, har de en tendens til å ha lav prevalens, deres funksjoner er multifaktoriell og ikke intuitivt opplagt. Missense mutasjoner er gode kandidater som sjåfører, som de forekommer oftere og er potensielt lettere å identifisere enn andre typer mutasjoner. Selv om flere metoder har blitt utviklet for å forutsi den funksjonelle virkningen av missense mutasjoner, bare noen få har blitt spesielt utviklet for å identifisere sjåføren mutasjoner. Ettersom flere mutasjoner blir oppdaget, kan mer nøyaktig prediktive modeller bygges ut med maskin læring tilnærminger som systematisk preger alminnelighet og eiendommelighet missense mutasjoner under bakgrunn av spesifikke krefttyper. Her presenterer vi en kreft driver merknad (Candra) verktøy som spår missense driver mutasjoner basert på et sett av 95 strukturelle og evolusjonære trekk beregnet av over 10 funksjonelle prediksjon algoritmer som Chasm, sile, og MutationAssessor. Gjennom funksjonen optimalisering og veiledet trening, utkonkurrerer Candra eksisterende verktøy i å analysere glioblastoma multiforme og eggstokkkreft datasett i Kreft Genome Atlas og Kreftcellelinje Encyclopedia prosjekt
Citation. Mao Y, Chen H, Liang H , Meric-Bernstam F, Mills GB, Chen K (2013) Candra: Kreft-Specific Driver missense mutasjon Stempler med optimaliserte funksjoner. PLoS ONE 8 (10): e77945. doi: 10,1371 /journal.pone.0077945
Redaktør: Tatjana Adamovič, Karolinska Institutet, Sverige
mottatt: 13. juni 2013, Godkjent: 05.09.2013; Publisert: 30 oktober 2013
Copyright: © 2013 Mao et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet delvis av National Institutes of Health (https://www.nih.gov/) [stipend nummer 1R01CA172652, CA168394, CA083639, CA143883, UL1TR000371 og 1U01CA180964]; MD Anderson Cancer Center Sheikh Khalifa Ben Zayed Al Nahyan Institute of tilpasset kreftbehandling (https://www.mdanderson.org/education-and-research/research-at-md-anderson/personalized-advanced-therapy/institute-for-personalized-cancer-therapy/index.html) og National Cancer Institute Cancer Center Support Grant (https://cancercenters.cancer.gov/) [P30 CA016672]. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Kreft er en kompleks genetisk sykdom. Forekomst og progresjon av kreft kan tilskrives akkumulerte mutasjoner i kreftgenomet [1]. På forskjellige stadier av onkogenese, en gruppe av viktige mutasjoner, kalt drivere, i betydelig grad endre den normale celledelte systemet [2], [3] og gi vekst og overlevelse fordeler til tumorceller [4]. Imidlertid, på grunn av den iboende genomiske ustabilitet er tilstede i tumorer, oppstår driver mutasjoner på bakgrunn av et stort antall mutasjoner, kalt passasjerer, som ikke er direkte forbundet med onkogenese. Identifiseringen av driver mutasjoner er et kritisk oppdrag av kreftgenomforskning. Noen sjåfører har blitt identifisert og er mye brukt som diagnostisk og /eller prognostiske biomarkører, eller som narkotika mål for kreftbehandling [5], [6]. Forskning som avhøre bestemt driver mutasjoner og deres kliniske implikasjoner blir mye gjennomført for flere typer kreft [7], [8], men mer arbeid blir krevd for systematisk genome-wide karakterisering av driver mutasjoner og deres funksjonelle implikasjoner.
De fleste mutasjoner påvist i kreft er punktmutasjoner. Når forekommer i kodende regioner av gener, kan de endre protein-kodende sekvenser, påvirker proteinstruktur og uttrykk, eller forstyrre protein-protein interaksjoner [9]. Mutasjoner som endrer aminosyresekvenser kalles ikke-synonyme mutasjoner, hvorav de fleste er missense mutasjoner som erstatning aminosyrerester. I motsetning til ramme-skift eller nonsense-mutasjoner, som vanligvis fører til trunkerte proteiner, er funksjonen av missense mutasjoner er mindre åpenbare. Likevel, et stort antall missense mutasjoner er påvist som drivere, for eksempel
BRAF
V600E mutasjon i melanom [10], og
KRAS
G12D og G12V mutasjoner i tykk- og endetarmskreft [11] .
sjeldenhet og lav forekomst av driver mutasjoner gjør dem ekstremt vanskelig å forutsi med konvensjonelle statistiske metoder som krever moderat utvalgsstørrelser [1], [12] – [14]. Mye av data sparseness kan tilskrives en høy grad av genetisk heterogenitet underliggende klinisk definerte krefttyper. Videre kan funksjonen til en missense mutasjon være avhengig av mange andre faktorer som er variabel under forskjellige forhold, slik som genetisk disposisjon, nærværet av andre somatiske mutasjoner, celle avstamning, og fasen av malignitet.
I de senere år , flere beregningsfremgangsmåter har blitt foreslått for å evaluere den funksjonelle virkningen av missense mutasjoner. Til sammen har disse metoder beregnet mer enn 90 relevante mengder eller funksjoner som beskriver egenskapene til en mutasjon og dens tilhørende området fra aspekter av (a) evolusjonær konservering, (b) fysisk-kjemiske egenskaper av proteiner, (c) proteindomener, og (d) sekvens sammenheng. Forskjellige fremgangsmåter kan utnytte disse fire typer trekk enkeltvis eller i kombinasjon. Spesielt MutationAssessor [9] og sile [15] bruker type (A) funksjoner, bruker SNPs3D typer (a) og (b), CanPredict [16] bruker typer (a) og (c), MutationTaster [17] og SNAP [18] bruke typene (a), (b), og (c), og kløften [19] og PolyPhen 2 [20] bruke alle fire typer funksjoner.
de fleste av disse fremgangsmåter ble utviklet for å løse en generell genetisk problem, dvs. diskriminerende skadelige mutasjoner fra ikke-skadelige seg. Men de fleste av de algoritmer ikke hensyn til spesifikke genetiske eller sykdom sammenheng hvor en mutasjon inntreffer. Selv om de kan brukes til å vurdere somatiske missense mutasjoner, resultatene tydelig mangel spesifisitet [13], [14], [19]. Siden driver mutasjoner er definert i henhold til en spesifikk sykdom sammenheng, ville en sjåfør mutasjon prediksjonsmetode ikke være nøyaktig uten å ta hensyn til sykdomsspesifikke faktorer som type kreft, stadium av sykdommen, mutasjon utbredelse, mutasjon spektrum, og andre kliniske egenskaper.
Blant de publiserte metoder, er kløften den eneste som eksplisitt betrakter kreft-type-spesifikke faktorer [19]. I Chasm, er 86 forskjellige funksjoner fra alle fire spilletyper som brukes for å karakterisere hver missense mutasjon, og klassifiseringssystemer er opplært i en kreft-type-spesifikk måte ved hjelp av en tilfeldig skog algoritme. Treningsdataene for en krefttype omfatter et sett av kuraterte driver mutasjoner som positive eksempler og en nesten like mange syntetiske passasjer mutasjoner (SPMs) som negative eksempler.
Selv om Chasm representerer et betydelig fremskritt i å forutsi driver mutasjoner, noen advarsler eksisterer. For det første er det ikke klart hvorvidt de SPMs er tilstrekkelig til å modellere det brede spekteret av passasjer mutasjoner som forekommer. Videre har siste bevis indikerer at forekomsten av person mutasjoner påvirkes av definerbare faktorer, eksempelvis sekvens kontekst, replikering timing, og genuttrykk, som sannsynligvis ikke er tilstrekkelig representert ved sett med tilfeldige SPMs [21], [22]. For det andre, har nyere fremgangsmåter som genereres nye prediktive trekk [9], [23] – [26] som ikke ble vurdert i utviklingen av kløften algoritmen. For det tredje er det uklart om den tilfeldige skog algoritmen er optimal gitt den relativt lille størrelsen på treningssettet og high-dimensjonalitet datasettene som skal analyseres. Fjerde, den store mengden av mutasjons data akkumulert fra de siste store kreftgenomsekvense prosjekter og samfunnet baserte prosjekter, inkludert klinisk sekvensering er ikke tilstrekkelig integrert i kløft å forbedre prediktiv kraft.
På grunn av disse hensynene, vi Formålet var å vurdere hvorvidt mer nøyaktige forutsigelser driver mutasjon kan oppnås ved systematisk å integrere den store mengden av nylig tilgjengelige data og eksisterende algoritmer. Vi startet ved å utføre en omfattende analyse av mutasjon data i COSMIC databasen [27], The Cancer Genome Atlas (TCGA), og Kreftcellelinje Encyclopedia (CCLE) prosjekt [28] og avledet sett av trening og testdata for tilsyn modell trening og evaluering. Vi utførte en grundig analyse av eksisterende verktøy for å sammenligne og velge de mest effektive funksjoner. Vår innsats resulterte i en ny kreft driver merknad verktøyet, Candra, som integrerer våre kuraterte data og funksjoner for å beregne en driver poengsum for hvert mulig missense mutasjon i et bestemt menneske krefttypen. Vi viste at Candra oppnådd bedre sensitivitet og spesifisitet enn andre verktøy for å forutsi driver mutasjoner i glioblastoma multiforme (GBM) og ovarialcancer (OVC). Candra og tilhørende datasett for store krefttyper (for eksempel brystkreft, tykktarms, malignt melanom, og plateepitelkreft hudkreft) er tilgjengelig på https://bioinformatics.mdanderson.org/main/CanDrA.
Materialer og metoder
data~~POS=TRUNC Curation
The strengere sett (S).
To missense mutasjon datasett, GBM og OVC, ble kuratert fra de som er rapportert i COSMIC (V58), TCGA, og CCLE prosjektet. TCGA data inneholdt totalt 727 mutasjoner fra 142 GBM prøver og 11,005 mutasjoner fra 316 OVC prøver [13], [14]. Den kosmiske data inneholdt 640 mutasjoner fra 351 GBM primærtumorprøver og 237 fra 212 OVC primærtumorprøver. Vi har definert en sjåfør mutasjon som den som ble observert i det minste to forskjellige prøver, enten fra TCGA eller kosmiske. For å være strenge, ekskluderte vi tilbakevendende mutasjoner som falt sammen med andre mulige funksjonelle mutasjoner som indels, nonsense mutasjoner, nonstop mutasjoner, spleise sete-mutasjoner, og oversettelses start språk mutasjoner i samme gen av den samme prøven. De overlappende med dbSNP områdene ble også ekskludert. Denne prosessen resulterte i 67 driver mutasjoner for GBM og 61 for OVC, de fleste (92,5% og 80,3%, henholdsvis) som hadde vært ansett som sjåfører i tidligere studier [19].
Vi valgte passasjer mutasjoner fra hyper -mutated prøver, som har mangel på DNA-skade reparasjon og har mye høyere fraksjoner av passasjer mutasjoner enn ikke-hyper-mutert prøver [14]. Tre GBM prøver ble identifisert fra TCGA, hver med over 55 missense mutasjoner, og to OVC prøver ble identifisert, hver med over 130 mutasjoner. En kandidat ble ekskludert hvis det lå i noen kreft genet (som definert av COSMIC kreft folketelling eller ved kløften studien), eller overlappet med dbSNP. Til slutt, 95 og 246 mutasjoner ble henholdsvis valgt for GBM og OVC. Vi har også utvalgt et andre sett av passasjer mutasjoner fra CCLE prosjektet, som inneholder mutasjoner fra 27 GBM-cellelinjer og 19 OVC cellelinjer. Etter bruk de samme kriteriene, ble 490 mutasjoner for GBM og 462 mutasjoner for OVC valgt
I sammendraget, ble fire strenge sett dannet. GBM.S1, GBM.S2, OVC.S1 og OVC.S2 (tabell 1 og tabell S1-S4 i File S1). Disse settene ble brukt som uavhengig testsett for å måle Candra ytelse mot de av andre verktøy.
Den utvidede settet (E).
Mange mutasjoner oppstå recurrently i umiddelbar nærhet (hotspots) i forskjellige typer kreft. For eksempel
BRAF
V600 mutasjon oppstår i papillær thyroideakarsinom, tykktarmskreft, melanom og non-småcellet lungekreft, som gjør
BRAF
N580S, E585K, D593V, F594L, G595R , L596V, T598I, V599D, V599E, V599K, V599R, K600E, og A727V mutasjoner. De fleste av disse mutasjonene er gruppert i to hotspot regioner: glysin rike P løkken på N lapp og aktiverings segmentet og flankerer regioner [29]. Mange lignende hotspot mutasjoner er observert i
TP53, PIK3CA, KRAS, etter blant annet [30], [31]. Disse mutasjonene har lignende egenskaper, og sannsynligvis har lignende funksjoner i ulike krefttyper. Å representere en slik felles på tvers av krefttyper, vi konstruert en kreft-type-spesifikke, men utvidet sett av sjåfører og passasjerer ved hjelp av følgende empiriske regler.
For en gitt krefttype, vi kaller en missense mutasjon en driver mutasjon hvis det skjer i et gen mutert i denne krefttypen og 1) det er observert i minst 3 primærtumorprøver (uavhengig av krefttype), eller 2) sitt nettsted skjærer minst 4 mutasjoner (inkludert indels, dinucleotide eller trinucleotide mutasjoner), eller 3) det er sentrert i en 25 bp region som krysser minst 5 mutasjoner i COSMIC database. Vi trekkes driver mutasjoner i settet S fra dette settet for å sikre deres gjensidige uavhengighet. Denne prosessen resulterte i 1529 og 1768 mulige drivere for GBM og OVC hhv.
Person mutasjoner av en krefttype ble valgt som de som oppstår bare én gang i primærtumorprøver av denne krefttypen, ikke på noen COSMIC kreft folketelling genet, og ikke sammenfaller med andre mutasjoner innen en 31-bp vindu i hele COSMIC database. Vi har også trukket passasjer mutasjoner i settet S fra dette settet. Denne prosessen resulterte i 1259 og 8075 passasjerer for GBM og OVC henholdsvis (tabell 1)
Ved å kombinere disse antatte sjåfører og passasjerer for hver krefttype, ble to utvidede datasett dannet. GBM.Ex og OVC.Ex . De ble brukt som våre treningssett for funksjonsvalg og veiledet trening
Beskrivende funksjoner
For hver missense mutasjon, 95 funksjoner (Tabell S5 i File S1) ble kjøpt fra fire data portaler. Chasm er SNVBOX [19], ENSEMBL Variant Effect Predictor [32], Mutation Assessor [9] og ANNOVAR [33]. Blant dem er UniProtKB merknader, evolusjonære bevaring score, protein fysisk-kjemiske egenskaper, sekvens kontekst indekser og funksjonelle slag score beregnet av algoritmer som SIFT [15], PolyPhen-2 [20], Condel [25], Mutation Assessor [9], PhyloP [26], GERP ++ [24] og LRT [23].
funksjonsvalg og evaluering
En liten brøkdel rundt 6,0% av data var ikke tilgjengelig fra disse data portaler. SNVBOX savnet ca 13,3% av data i 29 trekk fordi det ikke er relatert Uniprot protein domene for noen mutasjon nettsteder. ANNOVAR savnet rundt 15% data i funksjoner som Phylop, Gerp ++ og LRT score på grunn av ukjente grunner. For å lette vår etterforskning, byttet vi de manglende funksjonene med de av den nærmeste mutasjoner i det samme genet ved hjelp av en k-nærmeste nabo algoritme. Vår evaluering ble minimalt påvirket av denne operasjonen fordi våre utvalgte testsett var nesten fri for mangler funksjoner.
Vi har evaluert prediktiv ytelsen til hver funksjon basert på Mann-Whitney U-test og arealet under kurven (AUC ) til mottakeren opererer karakteristikken. Funksjoner med ikke-signifikant
p
verdier etter Bonferronikorreksjon og AUC under en angitt terskel ble ekskludert fra videre analyse; som var et par funksjoner som kan introdusere datasettet (befolkning)-spesifikke skjevheter (f.eks AACOSMIC). Vi så vurdert har kombinasjoner med en hybrid funksjon utvalg algoritme. Først ble alle mulige kombinasjoner med færre enn 4 valgte funksjoner nummerert og evaluert basert på gjennomsnittlig AUC fra 10-fold kryssvalidering (gjentatt 5 ganger) på trening datasett. For det andre, de beste egenskap kombinasjonen ble ytterligere utvidet ved hjelp av en bakke-klatring søkestrategi [34], som iterativt inkludert resten av funksjonene i den gjeldende kombinasjonen. Funksjonssettet som oppnås maksimal AUC i kryssvalidering ble valgt som den optimale sett.
Klassifisering Resultater og Scores
Vi bruker en vektet støtte vektor maskin (SVM) [35] som vår klassifikator for å møte de ubalanserte antall sjåfører og passasjerer i treningssettet. Candra klassifiserer en mutasjon i 3 kategorier: driver, no-call, og passasjer, basert på score beregnet av SVM (Figur S1 i File S1) [36]. Ifølge poengfordelinger, er en mutasjon klassifisert som sjåfør hvis resultatet er større enn 90
th persentil av de av passasjer mutasjoner i treningssettet, som passasjer om sin score er mindre enn 10
persentilen av de av driver mutasjoner, eller som en no-call ellers. I tillegg Candra beregner en tillit poengsum for hver prediksjon, definert som brøkdel av mutasjoner som har mer ekstreme score i samme klasse i treningsdata (Figur S1 i File S1). For eksempel, hvis en mutasjon er klassifisert som en driver og dens resultatet er større enn for 95% av driverne i treningssettet, er dens konfidensverdi lik 0,05. Disse tillit score er dermed
de facto
betydning
P
verdier estimert fra den empiriske klasse-messig poengsum distribusjon i treningsdatasettet.
Resultater
Feature Utvalg og sammenlagt resultater
For GBM identifiserte vi 28 funksjoner som individuelt bestått AUC (| AUC-0.5 | 0,08) og Mann-Whitney U-test (
P
0,05 med Bonferroni korreksjon) i treningsdatasettet. Disse avskjær ble valgt for å begrense beregningskapasitet i følgende funksjonsvalg. Vi videre identifisert 3 kjernefunksjoner (Condel, UniprotDOM_PostModEnz, ExonSnpDensity) og en optimal sett med 21 funksjoner gjennom vårt kombi funksjonen utvelgelsesprosedyre (materialer og metoder, figur 1, tabell S6 i File S1). Blant de 3 kjernefunksjoner, Condel [25], en metode som kombinerer fem funksjoner fra SIFT, PolyPhen-2, MutationAssessor og andre kilder basert på et sett av 20.000 ikke-synonyme germline single nucleotide varianter (SNVs) viste seg å være den eneste beste prediktor på GBM.Ex datasettet, med en AUC lik 0,703. UniprotDOM_PostModEnz (beregnet ved SNVBOX) indikerer hvorvidt en mutasjon er lokalisert i en hvilken som helst enzymatisk domenet er ansvarlig for protein post-translasjonell modifikasjon. ExonSnpDensity indikerer hvorvidt en mutasjon forekommer i en variant utsatt exon. Inkludering av disse to funksjonene ytterligere forbedret AUC til 0,832 på GBM.Ex settet. Dette resultat viste at selv om generell skadelige SNV prediksjon verktøy er anvendbare for føreren forutsigelse, deres nøyaktighet kan forbedres ytterligere ved å inkludere funksjoner som er beskrivende for den mutasjons bakgrunnen.
Tre sett med AUC blir beregnet fra den 10 -doble kryssvalidering (CV) av treningssett GBM.Ex (prikket linje) og uavhengig validering (IV) av 2 prøvesett, GBM.S1 og GBM.S2 (heltrukken og stiplet linje). På x-aksen er funksjoner som er trinnvis valgt. Den stiplede boksen markerer toppene i kryssvalidering AUC, som tilsvarer optimal funksjon sett brukes til Candra.
Vi trente Candra med optimal sett av 21 funksjoner, og evaluert resultatene på to uavhengige validerings datasett (GBM.S1 og GBM.S2). Candra oppnådd AUC for 0,911 og 0,941, henholdsvis, som sammenlignet gunstig med de som oppnås fra enten Chasm (0,890 og 0,923, henholdsvis) eller MutationTastor (0.892 og 0.909, henholdsvis; Tabell 2).
For OVC identifiserte vi 30 funksjoner som individuelt bestått AUC (| AUC-0.5 | 0,05) og Mann-Whitney U-test (
P
0,05 med Bonferroni korreksjon) i treningssettet. Vi videre identifisert 3 kjernefunksjoner (MGAEntropy, UniprotREGIONS, UniprotDOM_PostModEnz) og en optimal sett 22 funksjoner gjennom vårt kombi funksjonen utvelgelsesprosedyre (Materialer og metoder, figur 2, Tabell S7 i File S1). Blant de 3 kjernefunksjoner, MGAEntropy var den sterkeste prediktor på OVC.Ex satt med en AUC lik 0,745. Det indikerer hvorvidt en mutasjon er plassert i en evolusjonært konservert genomisk region og beregner Shannon entropi fra innrettingen av homologe proteiner i 46 forskjellige arter [37], [38]. UniprotREGIONS beskriver funksjonelle regioner knyttet til protein-protein interaksjon, biologisk prosess regulering, etc. UniprotDOM_PostModEnz for OVC ble også valgt i GBM saken. Disse 3 funksjoner i kombinasjon økte AUC av 0,06 på treningsdatasettet og . 0.2 på validerings datasett
Tre sett med AUC beregnes fra den 10-fold kryssvalidering (CV) av treningen satt OVC.Ex (prikket linje) og uavhengig validering (IV) av 2 prøvesett, OVC.S1 og OVC.S2 (heltrukken og stiplet linje). På x-aksen er funksjoner som er trinnvis valgt. Den stiplede boksen markerer toppene i kryssvalidering AUC, som tilsvarer optimal funksjon sett brukes til Candra.
Vi trente Candra bruker de 22 funksjonene og evaluert ytelsen på de to uavhengige validerings datasett (OVC.S1 og OVC.S2). På begge settene, oppnådde Candra AUC av 0,953, som igjen sammenlignet gunstig til de av enten Chasm (0,936 og 0,940) eller MutationTastor (0,910 på begge testsettene, tabell 2).
Sammenheng mellom Candra Poeng og Mutation Utbredelse
mutasjon utbredelse, dvs. frekvensen av en mutasjon i en spesifikk krefttypen, er en sterk indikasjon på driver funksjonaliteter [5], [13], [14], [39] – [42]. Hvis Candra er mer nøyaktig enn andre metoder, bør sin score demonstrere sterkere samvariasjon med mutasjon utbredelsen. For å teste denne hypotesen, skapte vi 4 datasett fra flere hyppigst muterte kreftgener:
TP53 Hotell og
PTEN
i GBM, og
TP53 Hotell og
KRAS
i OVC ved hjelp av data fra TCGA og COSMIC (Tabeller S8-S9 i File S1). Vi sammenlignet Pearson korrelasjonskoeffisientene mellom den observerte mutasjon utbredelsen og mutasjons score til 12 algoritmer, i hver av de 4 datasett. Candra gjorde det bedre i 47/48 av sammenligninger, utføre verre bare for den med Chasm med
KRAS
mutasjoner i OVC (figur 3). Dette resultatet indikerer tydelig forbedring som Candra kan oppnå i løpet av de eksisterende metoder
Tolv algoritmer (x-aksen) ble sammenlignet med 4 datasett:. (A) GBM mutasjoner i
TP53
, ( b) GBM mutasjoner i
PTEN
, (c) OVC mutasjoner i
TP53
, og (d) OVC mutasjoner i
KRAS
.
Varsling av Rare Driver Mutasjoner
Av stor interesse er Candra evne til å forutsi drivere som har svært lav prevalens (f.eks forekommer bare en gang i en ikke-hotspot-regionen). Oppdagelsen av såkalte sjeldne (eller hale) driver mutasjoner er en stor utfordring i dagens kreft genomikk studier, men vil være til stor nytte både teoretisk og i pasientbehandling. Utføre en presis vurdering av dette spørsmålet krever funksjonelle validering data som er for tiden utilgjengelig for de fleste gener. Som en midlertidig løsning, brukte vi forholdet mellom sjåføren mutasjoner i kjente kreftgener som vår beregning av interesse, jordet ved den forståelse at kreftgener er mer sannsynlig enn ikke-kreftgener å bære driver mutasjoner [13], [14]. Spesielt testet vi om sjeldne driver mutasjoner spådd av Candra er anriket i den kosmiske folketelling kreftgener. Vi identifiserte sjeldne driver mutasjoner fra den kosmiske GBM og OVC mutasjoner som rapporteres bare én gang, og som ikke har andre mutasjoner i en nærhet av 3 basepar og ble ikke brukt som drivere i vår opplæring og testsett (Tabell S10 i File S1) . I 8 kjente GBM relaterte gener (
ATM, EGFR, MDM2, MDM4, NF1, PDGFRA, PIK3CA Hotell og
ROS1
), var det 36 GBM mutasjoner, 14 (38%) av som ble spådd som drivere av Candra. Denne andelen var betydelig høyere enn gjennomsnittet (13,9%) av hele settet med 1384 muterte gener (p = 3,39 x 10
-5, hyper-geometrisk test). Det var også høyere enn de som er forutsagt av andre algoritmer, med unntak av den variant spesifisitet score på MutationAssessor, som forutsagt 15/36 (41,7%) driverne (Tabell S11 i File S1). Blant 15 kjente OVC relaterte gener (
akt1, akt2, ARID1A, BRCA1, BRCA2, CCNE1, CDK12, erbB2, MLH1, MSH2, MSH6, PIK3R1, PMS2, PPP2R1A Hotell og
STK11
) var det 39 OVC mutasjoner, 22 (56,4%) som ble spådd som drivere av Candra. Dette forholdet var betydelig høyere enn gjennomsnittet (20,8%) av hele settet med 5889 muterte gener (p = 2,27 × 10
-7, hyper-geometrisk test). Det var også høyere enn de spådd av andre algoritmer, inkludert 19/39 (48%) spådd av Chasm (tabell S11 i File S1).
Kresne Drivere for ulike krefttyper
En mutasjon kan spille ulike roller i forskjellige krefttyper (for eksempel
BRAF
V600 i tykktarmskreft og føflekkreft). Vi undersøkte om Candra kan riktig indikere en slik krefttype spesifisitet. Ved å kombinere de 67 og 61 driver mutasjoner fra de respektive GBM.S1 og OVC.S1 datasett, fikk vi totalt 115 mutasjoner, hvorav 41 var unike i GBM og 40 i OVC (tabell S12 i File S1). For hver av de 115 mutasjoner, beregnet vi to score ved hjelp Candra er GBM og OVC modeller, henholdsvis. Vi observerte at mutasjoner funnet i en bestemt krefttype skåret signifikant høyere ved hjelp av kreft-type matchet modeller enn ikke-matchet modeller (
p
= 0,0013 for GBM og
p
= 0,0021 for OVC, ved Mann-Whitney U-test). I tillegg mutasjoner som er unike for en krefttype oppnådd betydelig høyere score ved hjelp av matchet modeller (
p
= 0,0029 for mutasjoner som er unike for GBM og
p
= 0,0138 for mutasjoner som er unike for OVC, av Mann-Whitney U-test). I alle tilfeller oppnådd Candra mer betydelig diskriminering enn Chasm (tabell 3). Mange mutasjoner ble assosiert med forskjellige funksjoner i disse to krefttypene (Tabell S12 i File S1). For eksempel
KRAS
G12V mutasjon ble spådd som en driver i OVC, men som en no-call in GBM. Og
NCOA1
R562G mutasjon ble spådd som en driver i OVC, men som passasjer i GBM.
Comparison Bruke Real data versus syntetisk data
Vi har mistanke at Candra er bedre ytelse over at av kløften kan delvis tilskrives bruken av reelle passasjer mutasjoner (RPM) i stedet for SPMs i trening modellene. Vi har antatt at selv om SPMs kan reflektere visse mutagene egenskaper ved en krefttype (f.eks eksponering for miljømessige mutagener), er de sannsynligvis utilstrekkelig i å representere andre faktorer som evolusjonær konservering, sekvenssammenheng, og proteindomener. For å få en dypere innsikt, utførte vi to eksperimenter. Først sammenlignet vi turtall med SPMs i forhold til deres variant spesifisitet score (VSC), funksjonelle impact score (FIS) og variant bevaring score (VCS) beregnet av MutationAssessor. Disse score, spesielt VSC, var blant de mest prediktive funksjonene i vår strenge validering (Tall S2-S3 i File S1). Fordelinger av disse score indikerte at turtallet var betydelig mer skadelig enn SPMs for både GBM og OVC, og derfor er sannsynlig bedre eksempler for å skille virkelige driverne fra passasjerer. Ved hjelp av VSC, ble forskjellene mellom fordelingene av turtall, SPMs og drivere er vist i figur 4. Tilsvar signifikante resultater ble observert ved bruk av VCS og FIS. For det andre, trente vi kløft å klassifisere identisk antall RPM og SPMs fra samme sett av drivere. Chasm utført betydelig verre med turtall (AUC = 0,907 for GBM og 0,938 for OVC i gjennomsnitt) enn med SPMs (AUC = 0,943 for GBM og 0.949 for OVC).
plottet er Mutation Evaluators variant spesifisitet score av sett med syntetiske PMS (generert av kløft), CCLE PMS, TCGA PMS og driver mutasjoner fra de 4 testsett i tabell 1, for GBM (a) og OVC (b), henholdsvis. Signifikante forskjeller (Mann-Whitney U test) mellom to rille distribusjoner er markert med
P
verdier rapportert.
Diskusjoner
Undersøkelsen resulterte i en ny programvare verktøy , Candra, som var beviselig mer nøyaktig enn andre verktøy i å forutsi kreft-typespesifikke driver mutasjoner. Vi har forhåndsberegnes Candra score for nesten alle mulige (rundt 77 millioner) missense mutasjoner over hele genomet i flere store krefttyper og aktivert brukere å utføre svært effektive spådommer som bruker stasjonære datamaskiner eller servere. På grunn av den enorme mengden av missense mutasjoner og lav gjennomstrømning av eksisterende funksjonelle eksperimenter, selv små forbedringer i prediksjon nøyaktighet kan føre til dramatisk bedre effektivitet og kostnadsbesparelser i å validere driver mutasjoner.
En viktig forskjell mellom Candra og andre metoder er inkluderingen av et meget stort sett (95) av funksjoner, samlet inn fra nesten alle tilgjengelige metoder. Selv om dette sikrer helheten av Candra, det øker også vanskelighetene med å utlede en optimal modell på grunn av «forbannelse dimensionality» (COD), det vil si, det krever eksponentielt flere prøver å trene en robust modell med økt antall funksjoner [43] . Den SVM metoden som brukes av Candra er mer robust mot COD enn andre classifiers, inkludert tilfeldige skog algoritmen som brukes av kløften [44]. Videre er to-trinns funksjonsvalg tilnærming som vi brukt effektivt lindres COD samtidig opprettholde interpretability av resultatene, noe som gjør det mer fordelaktig enn andre uttømmende, filter-baserte, eller transformativ metoder [45].
funksjonen valgresultater belyse likheten og ulikhet mellom GBM og OVC som kan være drevet av forskjellige mutagene mekanismer. For eksempel, har en høy grad av serøs eggstokkreft nesten universell mutasjon av
TP53
og omtrent 50% har avvik forutsagt til å endre DNA-reparasjon gjennom homolog rekombinasjon, sammenlignet med GBM som har mye høyere frekvens av avvik i veier relatert til cellesignalisering. For begge krefttyper, har vi funnet at en mutasjon er mer sannsynlig å være en driver hvis det skjer på rester som er evolusjonært konservert, har stive rygger, eller har mindre løsemiddel tilgjengelighet; selv om flere sjåfører opptrer i evolusjonært konserverte rester i OVC enn i GBM (Tall S2-S3 i File S1). På den annen side, funksjoner som representerer protein domenekunnskap, så som UniprotDOM_PostModEnz og UniprotREGIONS, ser ut til å formidle mer spesifikk informasjon om krefttype. I våre strenge sett, er en betydelig del (50%) av GBM drivere ligger i protein enzymatiske domener ansvarlig for post-translasjonell modifikasjon (angitt med UniprotDOM_PostModEnz), kontrastert med rundt 7% av GBM passasjerer, 5% av OVC drivere, og 6 % av OVC passasjerer. Rundt 70% av OVC driverne er plassert i proteindomener som kan megle protein-protein interaksjoner eller andre biologiske prosesser (indikert av UniprotREGIONS), kontrastert med rundt 5% av OVC passasjerer, 24% av GBM drivere, og 6,3% av GBM passasjerer.