Abstract
Syntetiske Lethal (SL) genetiske interaksjoner spiller en nøkkelrolle i ulike typer biologisk forskning, alt fra å forstå genotype-fenotype relasjoner til identifisering av narkotika-mål mot kreft. Til tross for nylige fremskritt i empiriske måle SL interaksjoner i humane celler, menneske genetisk interaksjon kartet er langt fra komplett. Her presenterer vi en ny metode for å forutse dette kartet ved å utnytte mønstre i kreft genom evolusjon. Først vi vise at empirisk bestemte SL interaksjoner gjenspeiles i ulike genet nærvær, fravær, og duplisering mønstre i hundrevis av kreft genomer. Den mest åpenbare mønsteret som vi oppdaget er at når ett medlem av et SL interaksjon gen par er tapt, det andre genet har en tendens til ikke å gå tapt, dvs. fravær av ko-tap. Denne observasjonen er i linje med forventning, fordi tapet av en SL samspill paret vil være dødelig for kreftcellen. SL interaksjoner er også reflektert i genekspresjonsprofiler, som for eksempel en underrepresentasjon av tilfeller hvor genene i en SL par er begge under uttrykt, og en overrepresentasjon av tilfeller hvor ett gen av en SL paret er i henhold til uttrykk, mens den andre er over uttrykt. Vi integrert de ulike tidligere ukjente kreftgenom mønstre og genuttrykksmønster inn i en datamodell for å identifisere SL par. Denne enkle, genom-vid modell oppnår en høy prognose effekt (AUC = 0,75) for kjente genetiske interaksjoner. Det tillater oss å presentere for første gang et omfattende genom-wide liste over SL interaksjoner med høy anslått prediksjon presisjon, dekker opp til 591,000 genet parene. Denne unike listen kan potensielt brukes i ulike applikasjonsområder som spenner fra bioteknologi til medisinsk genetikk
Citation. Lu X, Megchelenbrink W, Notebaart RA, Huynen MA (2015) forutsi menneskelige genetiske interaksjoner fra Cancer Genome Evolution. PLoS ONE 10 (5): e0125795. doi: 10,1371 /journal.pone.0125795
Academic Redaktør: Joel S. Bader, Johns Hopkins University, USA
mottatt: 10 desember 2014; Godkjent: 25 mars 2015; Publisert: 01.05.2015
Copyright: © 2015 Lu et al. Det er en åpen adgang artikkelen distribueres under vilkårene av Creative Commons Attribution License, som tillater ubegrenset bruk, fordeling og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
data Tilgjengelighet: All relevant data er i avisen og dens saksdokumenter filer
Finansiering: Dette arbeidet ble støttet Nederland Organisation for Scientific Research (NWO), No av:. CSBR09 /013V, (WM); og EUs 7RP storskala integrerte nettverks Gencodys, https://www.gencodys.eu, HELSE-241995, (XL). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
A syntetisk dødelig (SL) genetisk interaksjon defineres som et funksjonsforhold mellom to gener hvor tapet av enten genet er levedyktig, men tapet av både er dødelig [1]. Et omfattende kart over SL interaksjoner belyser forholdet mellom genotype og fenotype [2-5], potensielt fremme forståelse av mekanismene for kompleks sykdom hos mennesker [6, 7], og til og med gi terapeutiske behandlingsstrategier for menneskelige sykdommer som kreft [8]. For eksempel har flere studier vist at inhibering av ett gen i en SL par kan være dødelig for kreftceller, hvor den andre genet av det paret er mutert [9-11]. Det underliggende konseptet er at, i en kreftcelle, et mutasjon i ett (A) av de to gener i et par SL (AB), som ikke er mutert i den vanlige celle, gjør det mulig for selektivt å drepe tumorceller ved å hemme B. Til tross nylige gjennombrudd i teknologi for å identifisere SL interaksjoner på et genom-wide skala [12-15], disse interaksjonene er fortsatt i stor grad ukjent i menneskelig, noe som understreker behovet for prediktiv beregnings tilnærminger.
Tidligere beregnings tilnærminger har stort sett blitt utviklet for å forutsi SL interaksjoner i modellmikroorganismer, for eksempel
Saccharomyces cerevisiae Hotell og
Caenorhabditis elegans product: [16-18]. Men genetiske interaksjoner ikke er sterkt konservert mellom arter, for eksempel bare 29% av genetiske interaksjoner ble funnet å være konservert mellom sopp
S
.
cerevisiae Hotell og
Schizosaccharomyces pombe
[19.] og bevaring av SL interaksjoner mellom mikroorganismer og menneske har fortsatt å bli etablert. Nylig ble en undersøkelse foreslått å anvende kreft genomiske data [20] for å identifisere SL interaksjoner ved hjelp av en «kompensasjon «mønster: en gen (A) ikke er aktiv, mens den andre (B) er meget aktiv, for derved å velge mot den situasjon at både gener blir tapt, og som sådan, forårsaker en dødelig fenotype. Vi har nylig viste en annen genomisk mønster av SL samspill genpar: SL interaksjoner er reflektert i dagens arter genomer og deres forfedres genomer i en slik måte at den samlede tapet av to gener i en SL paret ikke ofte forekommer på tvers av evolusjonære historien [21] . Dette reiser spørsmålet om vi kan bruke denne «co-tap underrepresentasjon «mønster å forutsi SL parene fra humane kreft genomer (fig 1A). Her har vi brukt kopinummervariasjoner, dvs. genet tap eller gen vinning, på tvers av hundrevis av kreft genomer å spørre i) er empiriske SL interaksjoner reflektert i kreft genom evolusjon, og hvis så, ii) som gevinst og tap mønstre korrelerer mest med SL interaksjoner og iii) de kan fanges inn i en enkel datamodell for å forutsi SL interaksjoner genom allment?
(a) en SL interaksjonen mellom SL1 gen A og B kan vise en «kompensasjon «mønster på tvers av kreft genomer i hvilken det er mer sannsynlig at når A er inaktiv (betegnet med -1), er B aktiv (angitt med 1) for å kompensere den inaktive A (1-10 genomer), sammenlignet med når A er aktive (genomer 11-30). SL samhandling SL2 kan vise en «co-tap underrepresentasjon» hvor en kombinert tap av A og B (merket med -1 og -1, genom 10) over kreft genomer er underrepresentert i forhold til tap av det ene av de to ( genomer 2-9 og genom 14-18). Merk at SL1 kan også bli identifisert via co-tap underrepresentasjon mønster, men SL2 kan bare identifiseres via co-tap underrepresentasjon mønster. (B) Modellen krever to typer data som input, i) CNVs målt ved SNP arrays og ii) genuttrykk variasjoner målt ved RNAseq. I CNVs, kan statusen til et gen være en homozygot delesjon (to stiplede linjer), en heterozygot delesjon (en strek og en heltrukket linje) eller normale (to heltrukne linjer). For CNVs, genererte vi tre fraksjoner for å kvantifisere sannsynligheten for at et gen par har en homozygot co-tap (f1), en heterozygot co-tap (f2) eller et blandet ko-tap (f3) event. I genekspresjon variasjoner, kan et gen være under-uttrykt (en stiplet linje), normal (en heltrukket linje) eller over-uttrykk (en fet linje). For uttrykk status, genererte vi to brøker, f4 og f5. f4 er sannsynligheten for at begge gener i en genet par er under-uttrykt. f5 er sannsynligheten for at et gen par har et uttrykk opp-ned arrangement der en er over-uttrykt, mens den andre er under-uttrykt. Alle disse fem fraksjonene viste en fordeling forskjell mellom SL og ikke-SL-par. Ved å integrere disse fem fraksjoner i en forutsigelse modell, kan vi identifisere SL interaksjoner som kan presenteres som et nettverk.
Ved å utnytte tilgjengeligheten av genuttrykk data for et stort antall kreftprøver [22] og nyere empirisk målt SL interaksjoner i menneskelig [23, 24], fant vi at gener med SL samhandling er mer sannsynlig å ha et uttrykk mønster hvor ett gen er over-uttrykt, mens den andre er under-uttrykk, og befester tidligere observasjoner [ ,,,0],20]. Slående vi observert at SL parene er mindre sannsynlig å være co-fortapt og co-under uttrykte enn ikke-SL genet parene. På bakgrunn av disse funnene presenterer vi en enkel ensemble basert beregningsmodell som fanger opp de genomiske mønstre for å forutsi genom SL par med høy nøyaktighet. Vi gir en unik og omfattende kart av det humane SL interaksjon nettverk med en høy beregnet forutsigelse presisjon på 67%, dvs. 14-ganger høyere enn forventet fra en tilfeldighet, som dekker 591,000 parene. Dette kartet er forventet å være svært verdifullt i lys av å forstå menneskelig sykdom og utforme terapeutiske strategier.
Materialer og Metoder
Datakilder
hentet de eksperimentelt målte SL par og ikke-SL par fra to studier [23, 24]. Vi samlet inn 297 SL parene og 6358 ikke-SL par i totalt. Etter eksklusjon av parene som begge genene er plassert på samme kromosom, fikk vi 270 SL parene og 5660 ikke-SL par (S1 Table).
CNV data er direkte hentet fra cBioPortal for Cancer Genomics [ ,,,0],25]. De CNV signaler i databasen genereres som homozygot delesjon, heterozygot sletting, normal kopi, kopiering og forsterkning. Bruke «cgdsr» R-pakken, fikk vi de CNV data for 14136 kreftpasienter fra 31 krefttyper.
RNAseq data er hentet fra Broad Institute Genome data Analysis Center (GDAC) Firehose [26]. Linken for nedlasting av RNAseq data er https://gdac.broadinstitute.org/runs/stddata__2014_03_16/data. For hver kreft studien, vi først lastet ned filer med navn som «_RSEM_genes_normalized_data.Level_3», som inneholder estimerte uttrykk nivåer for hvert gen i menneskets genom fra RNAseq data ved hjelp av RSEM pakken [27]. I alt vi samlet et uttrykk profil for 7362 kreftpasienter med dekning av 26 krefttyper. Deretter for hvert gen i en tumor, beregnet vi at Z-score og P-verdi for å antyde sin over- eller under uttrykk i forhold til uttrykk nivåer i normalt vev. Hvis minst 25 normale prøver fra samme vevstype som for kreft er tilgjengelige, vi brukte dette som sammenlignings settet. Ellers alle normale vevsprøver, uavhengig av vev-spesifisitet, ble anvendt. Tallene for normale prøver for hver type av tumor er oppført i Tabell S2. Slik justerer for multippel hypotesetesting, vi brukte False Very Rate (Benjamini-Hochberg) metode for å endre p-verdier [28, 29] i R. En cutoff av justert P-verdi, 0.05, ble brukt til å generere over eller under-uttrykk signal.
Pakk mønsteret for SL parene fra genomisk variasjoner
kopiantallet variasjoner kan være, -2 = homozygot delesjon, -1 = heterozygot sletting, 0 = normal kopi , 1 = dobbeltarbeid, og 2 = forsterkning. For et gen par (A, B), co-tap hendelse kan være i) homCL: homozygot co-tap (-2, -2), ii) hetCL: heterozygot co-tap (-1, -1) eller iii ) mixCL: mixed co-tap (-2, -1 eller -1, -2). For hver co-tapshendelse, vi definert en fraksjon som kvantifiserer sannsynligheten for co-tapshendelse. For eksempel, for homozygot ko-tapshendelse, har vi definert fraksjonen for et gen par AB som f
1 = n
homCL /n
t, hvor n
homCL er antallet pasienter med den homozygot samtidig tap av AB og n
t er det totale antall av pasienter hvor AB har en status som (-2, -2), (-2, 0) eller (0, -2). Vi beregnet f
1 av et gen par uten å ta prøver som har homozygote sletting av mer enn 2000 gener (hale av fordelingen i figur A i S1-fil). Vi la merke til at flere kreftprøver har et meget høyt antall homozygote slettinger (figur A i S1 File). Slike prøver kan lede til en oppblåsing av co-tap sannsynlighet uavhengig av om de har en SL interaksjon eller ikke. Tilsvarende har vi definert to fraksjoner, f
2 og f
3, for heterozygot co-tapshendelse og blandede co-tapshendelser Tilsvar (Tabell 1 og figur 1). Det bør bemerkes at vi ikke bruke en tilnærming der vi, for å kvantifisere i henhold til representasjon av co-tapshendelser, sammenlignet empirisk observerte co-tap rate av gen par AB med produktet av de enkelte tapsprisene gener A og B. Denne tilnærmingen forutsetter uavhengighet mellom tap av tilfeldig utvalgte gener, som ikke er hva vi observerer (figur B i S1 File)
de variasjoner i genekspresjon kan være:. -1 = i henhold uttrykking, 0 = normal, og 1 = over-uttrykk. Her har vi definert to fraksjoner, f
4 og f
5 (tabell 1 og figur 1). f
4 kvantifiserer sannsynligheten for begge gener i et par (A, B) er under-uttrykk. f
5 brukes for å kvantifisere hvor sannsynlig gen par AB har de uttrykket up-down hendelser, dvs. A er over uttrykt og B er i henhold til uttrykk eller vice versa.
Her er hver definert brøkdel en signalisere hvor SL parene viser forskjell fra ikke-SL par. For f
1, f
2, f
3 og f
4, forventet vi at SL parene har mindre verdier for disse fraksjonene enn ikke-SL parene. Men for f
5 vi forventet at SL parene har større verdier enn ikke-SL parene. For å teste disse hypotesene, sammenlignet vi fraksjonene i SL par med fraksjonene i ikke-SL parene via ensidig Wilcoxon rank tester i R. Vi gjennomførte fire sammenligninger av homozygot delesjon, heterozygot sletting, blandet sletting og co-underexpression å anslå forskjellen på co-tap tendens mellom SL og ikke-SL par. I analysen av opp-ned kompensasjon, vi gjennomført to sammenligninger uttrykks opp-ned eller genomisk opp-ned. Bonferronikorreksjon ble brukt til å korrigere for 4 multiple sammenligninger i analysen av co-tap tendens og 2 flere sammenligninger i analysen av opp-ned kompensasjon (p-verdier, er angitt med P
adj.).
for å validere robusthet av signalene, sammenlignet vi fraksjonene i SL parene til fraksjonene i tilfeldige par. I hver randomisering, vi først genererte tilfeldige 300 parene fra alle humane gener for hvilke genekspresjon og CNV var tilgjengelige, og deretter sammenlignet middelverdien av fraksjonene i den tilfeldige par med middelverdien i SL parvis. Vi forventet at tilfeldige parene har en mindre gjennomsnittet av f
1, f
2, f
3 eller f
4, men et større gjennomsnittet av f
5 enn SL par. For å teste hypotesene, telte vi randomizations (n
1) hvor forskjellen i gjennomsnittlig mellom tilfeldige par og SL parene er motstridende til forventningen. For hver sammenligning gjennomførte vi 1000 randomizations og beregnes P-verdi for hver hypotesetest som P = (n
1 + 1) /1001.
Under-sampling
trening sett er vesentlig forskjøvet med bare 4,6% av parene som hører til de positive klasse (SL par) og resten som hører til de negative klasse (ikke-SL-par). En slik skjev trening sett kan påvirke ytelsen til de fleste vanlige klasse algoritmer [30]. Således genererte vi en mer balansert trening angitt ved tilfeldig sampling under-den negative klasse, slik at antallet av genet parene i den er lik den til den positive klasse. Under prøvetaking er utført med ROSE pakken i R [31] og gjentatt 100 ganger. Alle classifiers i studien er trent på balansert sett.
Konstruer ensemble-basert prediksjon modell
Vi har vedtatt et ensemble-basert modell for å integrere de nevnte 5-signaler for å forutsi om et gen par har en SL interaksjon eller ikke. Den balanserte treningssett (beskrevet ovenfor) ble brukt til å trene ensemble-basert prediksjon modell som kombinerer flere classifiers, nemlig AdaBoost, J48, LogitBoost, RandomForest, logit, JRip og DEL. Kombinasjonen regelen er bare basert på den gjennomsnittlige funksjon, hvor x er et gitt gen par og
p
i
(x)
er sannsynligheten for at x er spådd å bli SL ved klassifiserer jeg. Sannsynlighetene
p
i
(x)
fra alle classifiers, med unntak av RandomForest, er hentet fra «RWeka» pakken [32]. Den RandomForest klassifikator gjennomføres med «randomForest» pakken i R [33].
For å kvantifisere resultatene av ensemblet basert modell, brukte vi en 10-fold kryssvalidering rammeverk på alle empirisk målt 270 SL parene og 5660 ikke-SL par. I hvert kryss-validering, er ensemblet-basert modell trent på ni av tilfeldig konstruert 10 fraksjoner og spådommer er gjort for stikkprøvene i den resterende del. Ytelsen av modellen i hvert kryssvalidering blir evaluert av en ROC kurve, det tilsvarende AUC stillingen og en presisjons-tilbakekalling kurve. Gjenta denne prosedyren 10 ganger, er en gjennomsnittlig ROC kurve, et gjennomsnittlig AUC poengsum og en gjennomsnittlig presisjons tilbakekalling kurve beregnet som evalueringen for utførelsen av ensemblet-basert prediksjon modell.
Bygging av genom-wide menneskelig SL samhandling kartet
å spå SL interaksjoner i menneskelig ved et genom-wide skala, må vi først valgte 15620 gener som er målt for både CNV og mRNA variasjoner i kreftceller. Som nevnt i resultatdelen, på grunn av tilstedeværelsen av arm-nivå kopitall variasjoner gen parene på samme kromosom er mer sannsynlig å være co-tapt uavhengig av statusen til SL interaksjon. Derfor søkte vi vår modell til ~ 115 millioner gener parene som er plassert på forskjellige kromosomer. Å konstruere en svært nøyaktig SL samhandling kartet, spådde vi en liste med mer enn 591,000 SL interaksjoner basert på en sannsynlighets score (
p product: (
x
)) terskelen til 0,81, som oppnådde en presisjon 67% ved en tilbakekalling på 10%.
Resultater
Syntetiske dødelige interaksjoner er reflektert i kreft genom evolusjon
Vi først spurt om empirisk observerte SL interaksjoner er reflektert i genet nærvær /fravær og genuttrykk i kreftceller. For å svare på det, brukte vi to typer genome variasjon fra Kreft Genome Atlas (TCGA) [22], dvs. i) kopi nummer variasjoner (CNVs) og ii) genuttrykk variasjoner. Den TCGA konsortium målt 14136 tumorprøver for CNVs og 7362 tumorprøver for genuttrykk variasjoner. For å avgjøre om gener i kreftprøver er vesentlig over- eller under uttrykt, fant vi ut sine uttrykk nivåer i forhold til normale prøver av samme vevstype (Methods). Vi fått de empiriske SL interaksjoner fra to nyere studier [23, 24] som målte SL samhandling i kolon kreftcellelinjer og har høyest genomet dekning blant alle studier tilgjengelig. Totalt samlet vi 270 SL parene og 5660 ikke-SL par (S1 Table).
Vi testet først om SL parene er mindre sannsynlig å være co-tapt i et genom enn ikke-SL par. Et gen kan enten være homozygously eller heterozygously slettet. Vi først fokusert på homozygote tap i hvilket begge kopier av en gen går tapt. Vi uttrykker sannsynligheten for homozygot samtidig tap av begge gener i et gen par av fraksjonen f = n
1 /n
2, hvor n
1 er antallet tumorprøver med et co-tap og både n gener
2 er antallet tumorprøver i hvilken minst ett gen går tapt (se Metoder og figur 1). Faktisk fant vi at SL parene er mindre sannsynlig å være homozygously co-lost enn de ikke-SL par (0.00728 vs 0,0104, ensidig Wilcoxon rank test, P
adj. = 0,008, figur 2A).
SL parene er mindre sannsynlighet for å ha (a) homozygot co-tapshendelser, (b) heterozygot co-tapshendelser og (c) blandet co-tap hendelser enn ikke-SL par eller tilfeldige par. Fraksjonene for disse tre typer co-tapshendelser beskrives som f
1, f
2, f
3 i Metoder og figur 1. Hver prikk er andelen for et gitt par og den horisontale linjen representerer gjennomsnittet av de fraksjoner. P-verdier for sammenligning mellom SL og non-SL parene ble beregnet ved hjelp av ensidig Wilcoxon rank test. P-verdier for sammenligningen mellom SL og tilfeldig parene ble beregnet fra 1000 randomizations. P-verdiene ble justert for multiple sammenligninger ved hjelp av Bonferroni korreksjon (se detaljer i Methods).
Vi utførte flere andre analyser som viser at dette resultatet er gyldig og robust. Først viste vi at forskjellen i co-tapshendelser ikke er forårsaket av forskjellen i enkelt gen tap priser. Faktisk homozygot genet sletting rate av genene i SL parene er ikke forskjellig fra sletting frekvensen av genene i ikke-SL parene (0,00402 vs 0,00406, tosidig Wilcoxon rank test, P = 0,38). For det andre, gitt begrenset genomet dekning av de kjente SL og ikke-SL parene tilgjengelig for vår analyse, vi også sammenlignet sannsynligheten for co-tap hendelsene i SL par med tilfeldige par fra det menneskelige genom. Vi fant en signifikant forskjell i co-tap mellom SL par og tilfeldige par (0.00728 vs 0,0128, 1000 randomizations, P
adj. = 0,012, figur 2A). Dette viser at forskjellen i sannsynligheten for ko-tapshendelser mellom SL parene og de tilfeldige genet parene er en konsistent signal over det humane genom. Forskjellen mellom SL par og tilfeldige parene er større enn forskjellen mellom SL parene og ikke-SL-par (Fig 2A). Dette skyldes sannsynligvis det faktum at genene er inkludert i forsøkene tendens til å være forutinntatt mot de som ofte går tapt, dvs. den homozygote delesjon frekvensen av gener i SL /ikke-SL parene er høyere enn det som i tilfeldige parvis (0,0049 vs 0,0042 , ensidig Wilcoxon rank test, P = 0,04). Det bør videre legges merke til at vi krever genet parene inkludert i analysen for å være sammensatt av genene på forskjellige kromosomer. Grunnen til dette er at nærværet av arm-nivå kopitall variasjoner vil alltid føre til en høy sannsynlighet for å ko-tap for genet parene på samme kromosom, uavhengig av om de har en SL interaksjon eller ikke.
Foruten homozygot co-tap, hvor begge genene er homozygously slettet, det finnes muligheter for en heterozygot co-tap der begge genene er heterozygously slettet og en blandet co-tap der ett gen er homozygously slettet og den andre er heterozygously slettet. For heterozygot co-tap og for blandet co-tapshendelse vi gjennomført samme analyse som gjøres ovenfor for homozygot co-tap. For begge typer co-tapshendelser, fant vi en betydelig og robust signal, dvs. at SL parene er mindre sannsynlighet for å være co-tapt enn de ikke-SL par (for heterozygot co-tap 0,1935 vs 0,216, ensidig Wilcoxon rank test, P
adj = 1.08e-08, figur 2B;. for blandet co-tap 0,189 vs 0,2008, ensidig Wilcoxon rank test, P
adj = 0,02, figur 2C).. Som tilfellet var for de homozygote co-tap, begge signalene er konsistente når SL parene sammenlignes med tilfeldige genpar (for heterozygot co-tap 0,1925 vs 0,218, P
adj. 0,004, figur 2B, for blandet co -Tap 0,189 vs 0.210, P
adj. = 0,032, figur 2C).
Vi neste undersøkt genuttrykk nivåer, der vi forventet å finne et tilsvarende signal til den vi fant på nivået av genet fravær /nærvær, ettersom det under-ekspresjon av et gen kan også resultere i tap av sin aktivitet. Faktisk fant vi at SL parene er mindre sannsynlig å være både under uttrykt enn ikke-SL par (0,0443 vs 0,0586, ensidig Wilcoxon rank test, P
adj. = 2.39e-10, fig 3A). Bare parene består av gener på forskjellige kromosomer er inkludert i analysen. Igjen signalet er konsekvente når SL parene sammenlignes med tilfeldige genpar (0.0443 vs 0,0570, P
adj. 0,004, figur 3A).
(a) SL parene er mindre sannsynlighet for å være co -underexpressed i forhold til kontrollgruppen dvs. ikke-SL eller vilkårlige par. Fraksjonen for ko-underexpression arrangementer er beskrevet som f
4 i fremgangsmåter og figur 1. (b) SL par er mer sannsynlig å ha ekspresjon opp-ned arrangement hvor ett gen er over-uttrykt, mens den andre i under-uttrykte . Fraksjonen for slikt mønster er beskrevet som f
5 i Fremgangsmåter og figur 1. Hvert punkt er den fraksjon for et gitt par og den horisontale linjen representerer middelverdien av fraksjonene. P-verdier for sammenligningen mellom SL og ikke-SL parene ble beregnet med en ensidig Wilcoxon rank test. P-verdier for sammenligningen mellom SL og tilfeldig parene ble beregnet fra 1000 randomizations. P-verdier ble justert for multiple sammenligninger ved hjelp av Bonferroni korreksjon (for mer informasjon se Methods).
Tidligere studier [34, 35] har vist et annet mønster i genene i SL par på transkripsjonsnivå. I dette mønster ett gen av et SL kommunisere par er over-uttrykt, mens sin partner er under-uttrykt. Derfor forventet vi at sammenlignet med ikke-SL-par, ville SL parene ha høyere sannsynlighet for å ha et uttrykk mønster hvor ett gen er over-uttrykt, mens den andre er under-uttrykt. Vi henviser til dette som uttrykk opp ned. Sannsynligheten for dette uttrykket mønsteret kvantifiseres ved brøkdel f = n
1 /n
2, hvor n
1 vil antall kreftprøver som har mønster og n
2 er antall tumorprøver som har et under-ekspresjon av minst ett av genene (se Metoder og figur 1 for detaljer). Som forventet fant vi at SL par er mer sannsynlig å ha dette uttrykket mønster enn ikke-SL par (0,250 vs 0,211, ensidig Wilcoxon rank test, P
adj. = 2.10e-04, Fig 3B). Igjen bekreftet vi konsistensen av signalet ved å sammenligne sannsynligheten for at dette uttrykket mønster i SL parvis mot dens sannsynlighet i tilfeldige parvis (0.250 vs 0,146, 1000 randomizations, P
adj . 0,002, figur 3B). Vi merker oss at forskjellen mellom SL par og tilfeldige parene er høyere enn mellom SL par og ikke-SL par. Dette er muligens på grunn av det faktum at genene er inkludert i forsøkene var forspent mot de som er mer sannsynlig å være over-uttrykt når man er mutert, dvs. over-ekspresjon av gener i ikke-SL parene er høyere enn for tilfeldige gener (0.0957 vs 0,0789, ensidig Wilcoxon rank test, P = 1.08e-06). Vi har også analysert en genomisk mønster på genet nærvær /fravær-nivå ved å beregne sannsynligheten for hvert gen par for å ha en CNV mønster hvor ett gen er duplisert eller forsterkes, mens den andre er homozygously eller heterozygously slettet, referert til som genomisk opp-ned i resten av teksten. Vi fant at SL par faktisk har en høyere sannsynlighet for å ha det genomiske opp-ned kombinasjon på DNA-nivå enn ikke-SL-par (vs 0,300 0,274, ensidig Wilcoxon rank test, p
adj. = 1.65e-07 ), men dette er ikke signifikant når vi sammenlignet SL parene til tilfeldige genpar.
til sammen fant vi fem mønstre i CNVs og genuttrykk variasjoner i kreftceller, som alle viste at syntetiske dødelige interaksjoner er reflektert i kreft-genomet evolusjon. Disse fem mønstre faller i to kategorier: i) gener i SL parene er mer sannsynlig å være over-uttrykk når deres interaksjon partner er under-uttrykk og ii) gener i SL parene er mindre sannsynlig å være co-tapt enten på DNA-nivå eller på genuttrykk nivå.
et ensemble-basert modell for å forutsi syntetiske dødelige interaksjoner
neste spurt om disse fem genomiske mønstre er sterk nok til å sikkert forutsi SL parene i menneske på et genom -Stort skala. For å gjøre det vi utviklet et ensemble-basert modell som integrerer de fem mønstre. Det bør legges merke til at vi ikke inkluderer genomiske opp-ned-mønster som finnes i CNVs siden SL parene er ikke signifikant forskjellig fra tilfeldige par. Et ensemble-baserte modellen er en klassifikator som kombinerer prediksjonsresultater fra flere classifiers, for eksempel beslutningstrær og logistikk regresjon. Det er kjent at et slikt ensemble basert modell kan forbedre ytelsen i forhold til en enkelt klassifisering prosedyre [36], spesielt på komplekse problemer som for eksempel SL prediksjon involverer støyende innganger [37].
Vi brukte empirisk målt 270 SL parene og 5660 ikke-SL parene som beskrevet i forrige analyse. Å konstruere prediksjon modellen, må vi først trengte å håndtere ubalansen av utvalgsstørrelse mellom negative klasse, det vil si ikke-SL par, og den positive klasse, dvs. SL par. Den skjevfordeling av klassene kan påvirke ytelsen til prediksjonsmodeller [30.]. For å løse dette problemet, vi tilfeldig under-samplet negative klasse (ikke-SL-par, 95,4% av treningssettet) for å produsere et sett av negative prøver av samme størrelse som den positive klasse (SL parene, 4,6% av treningen sett). Denne balanserte kombinasjoner av to sett brukes for å trene et ensemble-basert modell for prediksjon SL. Merk at under-sampling brukes bare på treningssettet. I alt valgte vi syv forskjellige enkelt classifiers som base for ensemblet modell: AdaBoost [38], J48 [39], LogitBoost [40], RandomForest [41], logit [42], JRip [43] og en del [44] som er enten robust mot støydata eller over-montering. Etter å ha blitt trent med balanserte settet, genererer hver enkelt klassifiserer en sannsynlighet for at et gen par har en SL interaksjon. Da integrert vi alle syv sannsynligheter fra disse enkle classifiers ved å beregne gjennomsnittet av de syv sannsynligheter og brukte det som den endelige spådd sannsynlighet.
For å vurdere resultatene av ensemblet-basert prediksjon modell, brukte vi en 10- fold kryssvalidering på alle de empirisk målte 270 SL parene og 5660 ikke-SL parene. Handlingen i følsomhet (dvs. sann positiv rate) versus falsk positiv rate av ensemblet-basert modell viser at vår modell oppnår et areal under ROC-kurven (AUC) på 0,75 (standard error = 0,016, figur 4B). Det bør bemerkes at denne høye AUC er bare oppnås ved kombinasjon av alle mønstre (figur 4A). Vi fant også at ensemblet-basert modell oppnådd den høyeste AUC sammenlignet med alle sju enkelt classifiers (fig 4B). For å forutsi et genom-wide SL interaksjon kartet, beregnet vi gjennomsnittlig presisjon og tilbakekalle verdier fra 10-fold kryssvalidering (fig 4C). Deretter påføres modellen til alle gen par på genomet. Blant ~ 115 millioner parene hvor genekspresjon og CNV data var tilgjengelig, forutsagte vi mer enn 591,000 SL interaksjoner basert på en sannsynlighet poengsum terskel på 0,81 (figur 4C), som tilsvarer en beregnet nøyaktighet på 67% basert på vår treningssett, dvs. 14 ganger høyere enn forventet fra sjanse (S1 datasett). Merk at modellen oppnår en tilsvarende presisjon (60% ved p = 0,81) ved bruk av et uavhengig sett med eksperimentelt målte SLer (Figur C i S1 File).
(a) Ensemblet-basert prediksjon modell basert på alle fem kombinmønstre har et areal under kurve (AUC) i 0,75 (blå linje), som beregnes ved hjelp av 10-fold kryssvalidering. Ensemble-baserte prediksjonsmodeller basert på de ikke-kombinerte individuelle mønstre, dvs. co-tap i CNVs, co-underexpression og uttrykks opp-ned, vises i rødt, grønn og lilla henholdsvis, og har lavere AUC. Standard feilfelt blir tilsatt til hver ROC. (B) Et ensemble basert prediksjon modell (blå ROC-kurven) har en bedre ytelse enn alle de syv enkelt. (C) Presisjonen og tilbakekalling kurve beregnes ut fra 10-ganger kryssvalidering. Standard feilfelt er lagt til. Kurven er farget i henhold til cutoff av sannsynlighet. Fargen panel av sannsynligheten er plottet på høyre side. De cutoffs av sannsynlighets score (
p product: (
x
)), 0,81, er trykt på den aktuelle kurven stillinger.