Abstract
Motivasjon
Gene sentral betydning analyse basert på Flux Balance Analysis (FBA-baserte GEA) er et lovende verktøy for identifisering av nye metabolske terapeutiske mål i kreft. Gjenoppbyggingen av cancer-spesifikk stoffskifte nettverk, typisk basert på genekspresjon data, utgjør en fornuftig trinn i denne fremgangsmåten. Men til vår kunnskap, ingen omfattende vurdering på påvirkning av gjenoppbyggingen på oppnådde resultater har blitt gjennomført hittil.
Resultater
I denne artikkelen tar vi sikte på å studere kontekst spesifikke nettverk og FBA-baserte GEA resultater for identifisering av kreft-spesifikke metabolske essensielle gener. For å nå dette målet, har vi brukt genekspresjon datasett fra Kreftcellelinje Encyclopedia (CCLE), evaluere resultatene oppnådd i 174 kreftcellelinjer. For klarere å observere effekten av kreftspesifikke ekspresjonsdata, gjorde vi den samme analyse ved hjelp av tilfeldig genererte uttrykk mønstre. Vår beregnings analyse viste noen viktige gener som er ganske vanlig i rekonstruksjonene avledet fra både genekspresjon og tilfeldig genererte data. Men selv av begrenset størrelse, også fant vi en undergruppe av essensielle gener som er svært sjelden i tilfeldig genererte nettverk, samtidig som tilbakevendende i prøven avledet nettverk, og dermed ville antagelig utgjøre relevante narkotika mål for videre analyse. I tillegg sammenligner vi
i-silikoaluminofosfater
resultatene til high-throughput genet Slå eksperimenter fra Prosjekt Achilles med motstridende resultater, noe som fører oss til å heve flere spørsmål, særlig sterk innflytelse av den valgte biomasse reaksjon på den oppnådde resultater. Tross, ved hjelp av tidligere litteratur i kreftforskning, vurderte vi det mest relevante målene våre i tre ulike kreftcellelinjer, to avledet fra Gliobastoma multi og en fra ikke-småcellet lungekreft, finne at noen av spådommene er på rett spor .
Citation: Tobalina L, Pey J, Rezola A, Planes FJ (2016) Vurdering av FBA basert Gene sentral betydning Analysis in Cancer med en Fast kontekstspesifikke Network Reconstruction Method. PLoS ONE 11 (5): e0154583. doi: 10,1371 /journal.pone.0154583
Redaktør: Julio Vera, Universitetet i Erlangen-Nürnberg, Tyskland
mottatt: 15 august 2015; Godkjent: 15 april 2016; Publisert: 04.05.2016
Copyright: © 2016 Tobalina et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet:. All relevant data er i avisen og dens saksdokumenter filer
Finansiering:. Dette arbeidet ble støttet av den baskiske regjeringen [til LT], Asociación de amigos de la Universidad de Navarra [AR] og ministeren for økonomi og konkurranseevne i Spania [BIO2013-48933]. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Nye funn viser at kreftceller tilpasse sine metabolske prosesser for å forbedre spredning [1,2]. For å nå dette målet, kreftcellene forbruker flere næringsstoffer og avlede disse næringsstoffene inn i makromolekylære synteseveier. Bortsett fra endringer i glukosemetabolisme, den såkalte Warburg-effekten, mer har blitt rapportert i syntese av nukleotider, aminosyrer og lipider [3,4]. I tillegg relevante mutasjoner i metabolske gener og ansamlinger av viktige metabolitter er påvist i kreftceller [5]. I lys av disse bevisene, har studiet av cellenes stoffskifte innen kreftforskning vært aktivt vekket. Holistisk systembiologi tilnærminger, basert på genom-skala metabolske nettverk og high-throughput «omics» data, åpne nye veier for å utnytte metabolske forstyrrelser av kreftceller, spesielt for å håndtere ulike udekkede medisinske behov i kreft.
Ulike metoder eksisterer for å analysere genomet stilt metabolske nettverk av humane kreftceller. Restriksjonsbasert modellering (CBM) er en emergent område i Systems Biology som inkluderer et økende sett av metoder [6,7]. Den mest fremtredende metoden i CBM er Flux Balance Analysis (FBA), som forutsetter at fluksene i nettverket følger en biologisk objektivfunksjon som skal optimaliseres, typisk cellevekst [8]. Veksten er modellert her som en ekstra kunstig reaksjon som involverer metabolske krav, i form av byggeklosser og energi, for å produsere et gram tørrvekt (GDW) av biomasse. FBA tillater oss å gjennomføre gen vesentlighetsanalyse (GEA) ved metabolsk nivå, nemlig ved å identifisere de gener som individuell sletting hindre vekst reaksjon fra å være aktiv [9]. Syntetisk dødelighet, som refererer til to (eller flere) ikke-essensielle gener hvis samtidig sletting blir dødelig for en gitt fenotype, kan utføres på lignende måte. Viktigere var det første programmet av FBA-baserte GEA til menneskets metabolisme og kreftforskning oppnådd i [10]. De viste at hemdelen oxygenase er syntetisk dødelig med tumor suppressor fumarat hydratase. Dette resultatet ble senere eksperimentelt validert, og viser dens relevans for å behandle leiomyomatosis og nyrecellekreft, som germline mutasjoner av fumarat hydratase ligger til grunn for denne kreft [11]. Denne vellykkede resultatet viste at FBA-baserte GEA er en egnet metode for å belyse nye narkotika mål i kreft.
FBA-basert GEA starter fra en referanse genom-skala metabolske nettverk av menneskets metabolisme, slik som Recon2 [12] . For å fange opp kreftspesifikke metabolske funksjoner, må denne referansen nettverk være kontekst med tilgjengelige forsøksdata [13]. Den manuelle prosessen med å bygge en pålitelig kontekstavhengig metabolsk nettverk er komplisert og tidkrevende [14]. Av denne grunn har automatisk nettverksrekonstruksjonsalgoritmer blitt foreslått, typisk basert på gene /protein expression data. Gitt vell av transcriptomic data, er mRNA uttrykk data den hyppigste typen av data som brukes i de ulike rekonstruksjonsmetoder. En ikke-uttømmende liste over slike metoder inkluderer: GIMME [13], iMAT [15], E-Flux [16], MBA [17], PROM [18], MADE [19], INIT [20], eller MIRAGE [21].
som oppnås fra FBA-baserte GEA resultater er avhengig av de forskjellige elementer som inngår i dette nettverket oppbyggingen, dvs. henvisning nettverk, definert vekstmedium, genuttrykk data og gjenoppbygging algoritme. Men til vår kunnskap, ingen omfattende vurdering evaluere påvirkning av de metabolske gjenoppbygging prosess- og uttrykk data på resultatene av genet vesentlighetsanalyse er gjennomført hittil i kreft. For å nå dette målet, i denne artikkelen, har vi gjennomført en omfattende studie for ulike typer kreft fra Kreftcellelinje Encyclopedia (CCLE) [22], slik som å skille effekten av noen av disse faktorene i den resulterende liste over essensielle gener. For klarere å observere effekten av kreftspesifikke ekspresjonsdata, gjorde vi den samme analyse ved hjelp av tilfeldig genererte uttrykk mønstre. I tillegg brukte vi high-throughput genet Slå data [23] til omfattende teste spådommer om den FBA-baserte GEA tilnærming. Til slutt, kontras vi litteratur data om spådd viktige gener i tre kreftcellelinjer:. To avledet fra Gliobastome multi (GBM) og en fra ikke-småcellet lungekreft (NSCLC)
For å kunne gjennomføre dette omfattende studien, innfører vi et raskt nettverk rekonstruksjon algoritme basert på genuttrykk data, som er behandlet ved hjelp av Gene Expression Barcode [24], en robust statistisk metode utviklet for å forutsi uttrykt og ikke-uttrykte gener i mikromatriser.
Metoder
Nettverk rekonstruksjon modell
Nettverk rekonstruksjonsalgoritmer løse problemet starter med en gruppe reaksjoner som bør være til stede basert på tidligere eksperimentelle bevis, typisk gen /protein expression nivåer. Disse reaksjonene vanligvis ikke danne et sammenhengende nettverk [25]. Faktisk, er de ikke nødvendigvis er forbundet med hverandre, kan danne atskilte klynger eller til og med være isolert fra resten. Dermed rekonstruksjonsalgoritmer fylle ut hullene til et sammenhengende nettverk er oppnådd. Hypotese reaksjoner kommer fra en database over kjente biokjemiske reaksjoner, vanligvis er forbundet med organismen som undersøkes. Vær også oppmerksom på at det også er vanlig å unngå noen reaksjoner i gjenoppbyggingen grunn av eksperimentelle bevis på deres fravær [15].
Nåværende rekonstruksjonsalgoritmer vanligvis stole på Mixed Integer Linear Programming (MILP). Vi, i stedet, gjøre bruk av en iterativ strategi som er basert på lineære programmer (LP), som MILP formuleringer er ikke tilstrekkelig raskt for den planlagte studien. Det er også slik at hver rekonstruksjon algoritmen er vanligvis rettet mot integrering av en annen type av en eller flere inngangs eksperimentell informasjon. På grunn av dette, i de fleste tilfeller, er resultatene oppnådd fra hver og en av dem er ikke lett sammenlignbare. I vårt tilfelle har vi fokus på bruk av mRNA-transkript nivå data, da dette er den lettest tilgjengelige datakilde i kreft. Som beskrevet nedenfor har vi brukt Gene Expression Barcode [24], en elegant teknikk for å velge uttrykt og ikke-uttrykte gener, som til slutt utgjør kilden til bevis for å kontekstualisere metabolske prosesser.
En annen funksjon i vår rekonstruksjon algoritme er at det leverer nettverk direkte mottagelig for FBA, som vi vil gjennomføre Gene sentral betydning analyse basert på FBA i vår studie. Dette betyr at den rekonstruerte nettverks bør være i stand til å produsere biomasse mens den oppfyller stabil tilstand. De fleste andre rekonstruksjonsalgoritmer er utformet for å garantere senere, men ikke den første.
algoritme skiller seg fra andre på flere måter, bortsett fra det faktum at de fleste av dem er avhengige av MILP formuleringer. GIMME [13] og iMAT [15] også bruke mRNA-transkript nivå, men behandlingen er mindre utdypet enn den som ble gjennomført med Barcode. MADE gjør bruk av differensial uttrykk [19], med fokus på metabolsk tilpasning mellom minst to scenarier. INIT er rettet mot bruk av mer enn én type data [20]. MBA krever definisjon av en kjerne sett av reaksjoner tvunget til å inngå i gjenoppbyggingen [17]; Men mens definere denne aktiv kjerne er mulig for kjente vev, dette er tvilsom når den tilgjengelige dokumentasjonen er begrenset til genuttrykk data, typisk involverer konflikter mellom uttrykt og ikke-uttrykte gener og reaksjoner på grunn av post-transkripsjonsregulerende hendelser [15 , 26]. MIRAGE strekker på MBA regnskap, blant annet for biomasseproduksjon [21]. PROM [18] og E-Flux [16] tilhører en annen familie av metoder, hvor maksimalt tillatte flukser justeres med genuttrykk data. Spesielt integreres PROM stoffskifte med regulatoriske nettverk, som krever en stor genekspresjon datasett med genetiske og miljømessige forstyrrelser.
Konseptuelt, tar vår algoritme en tilnærming som er mer lik iMAT enn til andre algoritmer. Både klassifisere reaksjoner i høy (
H
), moderat (
M
) og lav (
L
) aktivitet basert på genuttrykk data og prøve å balansere inkludering av
H Hotell og
L
reaksjoner ved bruk av objektivfunksjonen. I motsetning til iMAT, vi også minimere
M
reaksjoner til en viss grad, slik at det oppnås en minimal nettverk som tilfredsstiller sett av begrensninger. I tillegg tilføyer vår algoritme kravet til biomasseproduksjon, da den er beregnet for oppnåelse av nettverk direkte mottagelig for FBA. Imidlertid, som nevnt ovenfor, hovedbidraget i vår tilnærming med hensyn til iMAT er en betydelig reduksjon av beregningstiden, samtidig som respekterer kvaliteten av løsningen.
For å redusere beregningstiden, går algoritmen i samme retning som den algoritmen nylig presentert i [27], betegnet FastCore. Denne algoritmen benytter et flertrinns tilnærming basert på lineær programmering, men det er konseptuelt lik MBA, som det også tvinger inkluderingen av en kjerne sett av reaksjoner. Bortsett fra den måte den håndterer inkludering av reaksjoner, som er basert på en tre-nivå klassifisering fra genuttrykk data, skiller vår algoritme også fra FastCore ved at den bruker konseptet med reduserte kostnader fra lineær programmering teori for å lede den iterative løsning prosessen. I tillegg tar vi hensyn til effekten av ulike støkiometriske representasjoner [28] ved å formulere problemet i forhold til den maksimale tillatte fluks gjennom hver reaksjon som gis av en Flux Variasjon Analysis (FVA) [29].
Samlet sett har vår tilnærming er utformet med de spesielle behovene til denne studien i tankene. En forenklet versjon av vår algoritme er presentert nedenfor. Fullstendige tekniske detaljer om vår tilnærming kan bli funnet i S1 tekst.
Oversikt over våre lineær programmering-basert algoritme
Vurdere en generell metabolsk nettverk med
C
forbindelser og
R
reaksjoner representert ved sin støkiometrisk matrise
S product: [30]. Vi betegner
Irr
settet av irreversible reaksjoner. For enkelhets skyld, bidrar hver reversibel reaksjon to forskjellige irreversible reaksjoner på det totale antallet
R
. Disse to irreversible reaksjoner betegnes
f Hotell og
b
, forover og bakover, henholdsvis representerer hver av dem den opprinnelige reversibel reaksjon i en annen retning [31]. Settet med forover og bakover trinn som oppstår fra reversible reaksjoner er merket
Rev
.
fluks gjennom hver reaksjon
i
(
i
= 1 , …,
R
) er representert ved en kontinuerlig variabel
v
i
. Etter delingen av reversible reaksjoner, kan flukser bare ta ikke-negative verdier, avgrenset av en maksimal fluks verdi, (Eq 1). Å anvende senere FBA-baserte GEA, vi også håndheve stabil tilstand (Ligning 2) og et minimum fluks gjennom biomassen reaksjonen (ligning 3). For de forbindelser hentet fra eller utskilles til mediet, ble utvekslingsreaksjoner lagt på riktig måte. Product: (1) (2) (3)
Slik skal definere for hver reaksjon, utfører vi en Flux Variasjon Analysis (FVA) [29 ] under begrensninger (1) – (3). Opptaksreaksjonen grensene fra den vekstmedium under vurdering inngår i ligning 1.
Vi definerer også en kontinuerlig variabel
z
i
for hver reaksjon, avgrenset mellom 0 og 1 (Eq 4), som kan tvinge et minimum fluks gjennom sin relatert reaksjon,
v
i
(Eq 5). δ er en strengt positiv konstant med en maksimumsverdi på 1 som fikser den nedre grensen på
v
i
i forhold til verdien av
z
i
med hensyn til. Inkludering av i ligning 5 som beregnes ved FVA tillater oss å sette en aktiveringsterskel uavhengig av støkiometriske representasjon. Vi bemerker at dette sett av variabler er kontinuerlig, som i [27], og ikke binære, som i et antall av tidligere arbeider [15,17]. Product: (4) (5)
Vårt mål er å minimalisere antall reaksjoner i
L
samtidig maksimere de i
H
. For det, minimerer vår målfunksjonen summen av fluksene gjennom reaksjoner som tilhører
L
med en vekt
W
L
, samt flux gjennom reaksjoner i
M
med en vekt
W
M
, samtidig maksimere antall reaksjoner i
H
bruker
z
variabler med en vekt
W
H plakater (Eq 6). Begrepet δ⋅ i ligning 6 tillater oss å unngå flux skjevhet introdusert av den spesifikke støkiometriske representasjon av reaksjoner. Ulike kriterier for å etablere disse vektene er omtalt under resultatene. Product: (6)
Som nevnt ovenfor, er det vanlig å sette
z
i
som en binær variabel, men avslappende at begrensningen, som gjøres her, oppnår den samme «flux diversifisering» effekt ønsket [27]. Minimere summen av flukser for
L Hotell og
M
er ikke det samme som å minimere antall reaksjoner i
L Hotell og
M
, men det gir oss en lineær formulering av problemet uten negativt påvirke den endelige løsningen når det gjelder kvalitet. Samlet med disse funksjonene, unngår vi en blandet binært formulering, vanskeligere å løse på grunn av integrality begrensninger på noen av variablene [32].
Siden vi har delt de reversible reaksjoner i to irreversible skritt, men har lagt noen begrensning garanterer at bare én av dem er aktiv om gangen, løse dette problemet (Eq 6 lagt ligningene 1-5) vil gi oss en løsning der alle forover og bakover skritt fra reversible reaksjoner i
H
er aktiv, selv om deres netto fluks (
v
f Anmeldelser –
v
b
) er null. Merk at dette ikke skjer med reversible reaksjoner i
L
eller
M
, fordi minimere summen av flukser allerede håndhever bruken av reversible reaksjoner, om nødvendig, bare i én retning.
Dette problemet er illustrert i figur 1. figur 1A viser et eksempel henvisning metabolske nettverk, herunder klassifisering av reaksjoner som
H
,
M
eller
L
. Fig 1B viser den resulterende løsning når det lineære program som er definert ved ligning 6 i henhold til ligningene 1-5 er løst. Det kan observeres at løsningen absolutt produserer biomasse via reaksjoner 2 (
M
), 3 (
H
), 5 (
H
) og 17 (
H
). I tillegg aktiverer det to sykluser med netto fluks lik null, nemlig den første involverer en reaksjon 4 (
H
) og 14 (
H
) og den andre involverer reaksjoner 9 (
H
) og 15 (
H
). Tilstedeværelsen av disse falske syklusene er en konsekvens av den ikke-binære formulering foreslått ovenfor, noe som krever en iterativ prosedyre som disentangles enten (eller ikke) slike reversible reaksjoner i
H
kan inngå i gjenoppbyggingen i kombinasjon med andre reaksjoner.
A) Eksempel referanse metabolsk nettverk med en tre-nivå klassifisering av reaksjoner. Det involverer ti reaksjoner pluss biomassen reaksjon. Vend flukser er delt inn i to ikke-negative trinn. Bakover reaksjoner er vist i stiplet linje. Reactions 3, 4, 5, 7 og 9 er klassifisert som
H
; reaksjoner 2, 8 og 10 som
M
; og reaksjoner 1 og 6 som
L
. B) Løsning oppnådd ved å løse det lineære program som er definert ved ligning 6 i henhold til ligningene 1-5. Tykkere buer representerer aktive reaksjoner, sykluser involverer forover og bakover trinn i en reversibel reaksjon i
H
er representert med tynnere linjer og inaktive reaksjoner er farget i lys grå.
Den iterative Fremgangsmåten måten~~POS=HEADCOMP vi anvendt, er beskrevet i detalj i S1 tekst. Den er basert på lineær programmering og det gjør bruk av begrepet reduserte kostnader (hentet fra lineær programmering teorien) å lede og akselerere iterativ løsning prosessen.
Reaction klassifisering
inngangen på rekonstruksjon algoritme er reaksjonen klassifisering som sterkt (
H
), medium (
M
) eller ringe (
L
) uttrykt. Disse opplysningene er innhentet fra genuttrykk eksperimenter, i vårt tilfelle hentes fra GEO database [33].
Vi har fokusert på Affymetrix HGU133plus2 arrays, som kan behandles ved hjelp av Barcode [24]. Denne metoden er utformet for å være i stand til å arbeide med bare én prøve og gjøre det sammenlignes med andre, i stedet for å behøve flere prøver på samme tid. Vi preprocessed data ved hjelp av Barcode R script, ved hjelp av en prøve på en gang. Vi hentet Z-score verdier hentet fra denne algoritmen, noe som tilsvarer behandle hver prøve med fRMA [34].
Fordi Z-score hentet fra Barcode ble gitt ved sonden innstilt nivå, ved hjelp av gen -probe relasjoner kommenterte i hgu133plus2.db R pakken, fikk vi genet Z-score verdi som medianverdien av de tilsvarende Z-score av assosierte probe-sett. Hvert gen verdi ble forvandlet til stede (1) /fraværende (0) anrop ved hjelp av Barcode kriterier. Present gener er klassifisert som høy (1) og fraværende gener som lav (-1).
Til slutt reaksjoner er klassifisert som sterkt, medium eller ydmyk uttrykkes ved hjelp av gen-protein-reaksjons regler og genuttrykket klassifisering nevnt ovenfor [35] (se S1 tekst for en mer detaljert forklaring). De reaksjoner som det ikke genekspresjon er tilgjengelig eller som ikke er knyttet til noen gen (f.eks spontane reaksjoner) er klassifisert som middels til uttrykk.
Gene sentral betydning analyse
Viktige gener er her definert som de som gener hvis fjernelse gjengi cellen ute av stand til å produsere biomasse. Bruke boolske gen-protein-reaksjons regler inkorporert i genomet stilt metabolske nettverk som Recon2 [12], kan vi vurdere hvilke reaksjoner vil slutte å virke etter et bestemt gen er slettet. Det er således et gen knock-out simulert ved å sette øvre og nedre grensene for de tilsvarende reaksjoner til null i en FBA beregning, og sjekke om (eller ikke) den gjenværende nettverk er fortsatt i stand til å produsere biomasse.
for å redusere antallet FBA beregninger som kreves for å kontrollere ikke det vesentlige ved hver enkelt gen, vi først beregnes den maksimale biomassen mulig i vill-type-nettverk og søkte etter en fluks fordeling med et minimum av summen av fluksene ved reaksjoner hvor det gen-to -reaksjon kartlegging er definert. Hvis et bestemt gen knock-out ikke påvirker noen reaksjon i det optimale fluks distribusjon, kan vi være sikre på at en ny FBA beregning vil gi oss den samme løsning som i vill-type nettverk, og vi kan derfor hoppe over et slikt gen knockout.
Sammenligning med eksperimentelle data
for å vurdere nøyaktigheten av vår tilnærming til å forutsi viktige gener, brukte vi høy gjennomstrømming stanse forsøkene hentet fra prosjektet Achilles [23]. Vi avledet en poengsum for hvert gen i hver cellelinje ved å følge metoden innføres i [36]. Men multiplisert vi oppnådd score med -1 slik at jo lavere score, jo mer viktig genet skal være, slik det skjer med shRNA fold endringer i høy gjennomstrømming silencing eksperimenter. Vi deretter sammenlignet fordelingen av resultatet av de oppnådde viktige metabolske gener versus unødvendige metabolske gener ved hjelp av en ensidig to-utvalg Kolmogorov-Smirnov test, som foreslått i [10]. Denne testen hjelper oss å se om de oppnådde viktige gener er forutinntatt mot lavere, mer viktige poeng. Imidlertid kan forspenningen være av betydning, men ikke tilstrekkelig stor slik at, i tillegg målte vi den andel som oppnås essensielle gener med en negativ Aquilles basert stillingen i hvert scenario, et punkt hvor sannsynligheten for genet være vesentlig høyere enn å være ikke- -viktig. Faktisk har vi lagt merke til at bare en brøkdel av de metabolske gener hadde en negativ score i Achilles data, så vi vil være sikker på at de beregnede nødvendige genene er beriket med dem.
Resultater
tilnærmingen er presentert ovenfor er først brukt til å rekonstruere den metabolske nettverk av 174 kreftcellelinjer ved hjelp av genuttrykk data fra kreft~~POS=TRUNC Encyclopedia (CCLE) [22]. Valget av denne undergruppe av cellelinjene ble gjort å ta hensyn til de tilgjengelige high-throughput genet Slå data fra prosjektet Achilles [23] (S1 tabell). Den tekniske utførelsen av vår tilnærming er evaluert og sammenlignet med iMAT, den mest lik tilnærming til en introdusert her (S1 tekst). Deretter utfører vi FBA-basert GEA over disse rekonstruert nettverk og vurdere hvor ofte hver essensielle gen vil vises i et nettverk rekonstruert fra tilfeldige uttrykk data. I tillegg sammenligner vi de oppnådde resultatene til high-throughput genet Slå eksperimentelle resultater [23]. Til slutt, i motsetning vi litteraturdata om forutsagte essensielle gener i to GBM-avledet og ett NSCLC-avledede cellelinjer.
For å oppnå dette har vi benyttet det opprinnelige menneskelige metabolske nettverk Recon2 [12] som referanse nettverk (en tilsvar analyse for Recon1 kan finnes i S1 tekst). Dette nettverket gir en biomasse reaksjon, som blir direkte anvendt i denne studien. Vekstmediet var RPMI1640, som definert i [10]. I tillegg ble reaksjoner klassifisert som høyt, middels eller ydmyk uttrykkes ved hjelp av gen-protein-reaksjons regler og genuttrykket klassifisering beskrevet i metodedelen.
Algoritmen ble implementert i Matlab ved hjelp CPLEX optimalisering av programvare for å løse tilsvarende lineære programmer. Beregningen tiden som trengs for å løse et enkelt rekonstruksjon problem ved hjelp av strategien beskrevet ovenfor er i størrelsesorden sekunder, i linje med resultatene av Fastcore [27]. På forekomstene vår metode ble brukt, er beregningstiden generelt under 10 sekunder på en 64 bits Intel Xeon E5-1620 v2 på 3,70 GHz (4 kjerner) og 16 GB RAM. Dette setter vår algoritme som vesentlig raskere enn iMAT, hvor median tid for å få en løsning var rundt 57 sekunder (stopper med en optimalitet gap 0,5%).
Modell parametere og gjenoppbygging
I vår rekonstruksjon algoritme vi har flere parametere som krever å være løst. De mest relevante parametere er vektene
W
H
,
W
M Hotell og
W
L
, da det er en konflikt avveining mellom reaksjoner i
H Hotell og
L
. Spesielt er bruk av alle reaksjoner i
H
kan innebære et betydelig antall av reaksjoner i
L
; Tilsvarende er en minimal bruk av reaksjoner i
L
kan innebære en begrenset bruk av reaksjoner i
H
. For å studere denne avveiingen mellom reaksjon i
H Hotell og
L
, foreslår skjemaene i tabell 1, med α = 10
3. Skjema 1 gir mer vekt på minimalisering av reaksjoner i
L
over maksimering av reaksjoner i
H
; Skjema 2 gir lik vekt, mens Schema 3 er det motsatte av Schema 1. Detaljer og sensitivitetsanalyse av α og andre parametere faste i vår algoritme kan finnes i S1 tekst. Hovedkonklusjonene oppnådde var robust for endringer av disse parametrene.
Ved klassifiseringen av reaksjoner fra genuttrykk data, unngå inkludering av reaksjoner i
L
så mye som mulig kan være mer meningsfullt enn prøver å tvinge tilstedeværelsen av alle reaksjoner i
H
, som en høy genuttrykk signalet ikke nødvendigvis slå ut i en høy enzymatisk aktivitet. Imidlertid identifisering av ikke-uttrykte gener utgjør en vanskeligere oppgave [37]. Av denne grunn en tilnærming nærmere Schema 3 er vanligvis foretrukket.
Vi sammenlignet resultatene av vår rekonstruksjon tilnærming ved hjelp av ulike skjemaer med iMAT. Som det kan ses i figur 2, som viser prosentandelen av reaksjonene som er klassifisert som
H
og
L
som ble tatt ved hjelp av hver rekonstruksjon algoritme, å unngå
L
reaksjoner i skjema 1 har en innvirkning på antall reaksjoner i
H
inkludert i modellen, noe som gir en vesentlig annen løsning enn Schema 3.
boksplott som viser prosentandelen av H og L reaksjoner inkludert i de rekonstruerte kontekstspesifikke nettverk av utvalgte kreftcellelinjer ved hjelp av vår algoritme etter skjema 1, 2 og 3 og iMAT. Referanse nettverk som ble brukt var Recon2.
Som forventet er Schema to mest lik iMAT, som begge gir like stor vekt på reaksjoner i
H Hotell og
L
. Det kan observeres at antallet L reaksjoner inkludert er svært like og antallet
H
reaksjoner som omfattes av vår algoritmen er noe lavere. Overall, begge metodene få lignende rekonstruksjoner i form av antall
H Hotell og
L
reaksjoner de inneholder. Dermed anser vi vår algoritme en gyldig verktøy for oppgaven. Merk at størst mulig andel av
H
reaksjoner inkludert i gjenoppbyggingen ikke nødvendigvis nå 100% som det kan være reaksjoner som ikke kan operere i stabil tilstand under de pålagte mellom forhold.
Gene essentiality analyse
med en rask gjenoppbygging algoritmen i våre hender, kan vi ta opp spørsmålet om i hvilken grad det sett av essensielle gener blir påvirket av kontekstspesifikke uttrykk data. For ytterligere å undersøke dette problemet, permuteres vi den metabolske genekspresjon klassifisering av hver prøve 10 ganger og rekonstruert de tilsvarende nettverk etterfulgt av beregningen av de tilsvarende essensielle gener, som fører til en bakgrunn på nesten 2000 tilfeldige resultater.
Fig 3 viser resultatene av dette eksperimentet for Schema 3 (listen av gener og verdier kan finnes i S2 tabell). Som delvis forventet, er det noen gener som er ganske vanlig i en hvilken som helst rekonstruert nettverk. De mest ekstreme tilfellene er gener som vises like viktig uansett innspill uttrykket er. Dette er en direkte konsekvens av inngangsreferansenettet, de faste vekstmedium betingelser og den valgte biomasse reaksjonen. Denne analysen bekrefter hvilken grad disse faktorene kan påvirke resultatene.
Essential genfrekvens for rekonstruerte kontekstspesifikke nettverk av utvalgte kreftcellelinjer ved hjelp av vår algoritme med Schema 3 og Recon2 som base nettverket. Den horisontale aksen inneholder Entrez Symboler av de oppnådde essensielle gener. Høyden av linjer angir fraksjon av prøver hvor genet vises som avgjørende. Høyden på den svarte linjen indikerer brøkdel av tilfeldig rekonstruert nettverk der den tilsvarende genet ser ut som viktig.
Merk at det også finnes noen essensielle gener svært hyppige i enkelte prøver, men sjeldnere i tilfeldige nettverk. Disse ville være, a priori, de mest interessante, da de er mer beslektet enn de andre gener til den spesielle uttrykk av prøvene.
Det mest slående faktum er at listen over erholdt essensielle gener eksklusive hvert krefttype er ganske kort. Bare seks gener dukket opp bare i én type kreft ved bruk av vår algoritme med Schema 3, 22 og 21 hvis vi brukte Schema 1 og 2, henholdsvis. Vi forventet et mer variert sett av essensielle gener for hver krefttype.
Noen tidligere arbeid utforsket essentiality konseptet under svært ulike vekst mellom forhold [38] for noen bakterielle metabolske nettverk. De konkluderte med at det finnes en kjerne sett av reaksjoner som er nødvendig for biomasseproduksjon uavhengig av den valgte vekstmedium. Vår studie fører til svært like innsikt for tilfelle av nettverk kontekstualisering. Den samme konklusjonen ble oppnådd for ulike parameterinnstillinger og scenarier, herunder bruk av Recon1 og en generell vekstmedium (se tabell B i S1 tekst).
Sammenligning med høy gjennomstrømming genet stanse forsøkene
En systematisk arbeid med å identifisere viktige gener i ulike kreftcelletyper blir utført i det som kalles prosjekt Achilles [23]. Dekningen av dette prosjektet har vokst de siste årene [23,39,40].