Abstract
Høy gjennomstrømning Biological Data (HTBD) krever detaljerte analysemetoder og fra et liv vitenskapelig perspektiv, disse analyseresultatene gjør mest fornuftig når tolkes innenfor rammen av biologiske veier. Bayesianske nettverk (BNS) fange både lineære og ikke-lineære interaksjoner og håndtere stokastiske hendelser i en sannsynlighets rammeverk regnskap for støy som gjør dem aktuelle kandidater for HTBD analyse. Vi har nylig foreslått en tilnærming, kalt Bayesiansk Pathway Analysis (BPA), for å analysere HTBD hjelp BNS der kjente biologiske pathways er modellert som BNS og stier som best forklarer den gitte HTBD er funnet. BPA bruker foldendring informasjon for å få en inngang matrise å score hver vei modellert som en BN. Scoring er oppnådd ved hjelp av Bayesiansk-Dirichlet tilsvarende metode og betydning vurderes av randomisering via bootstrapping av søylene i inngangs matrise. I denne studien, forbedrer vi på BPA-systemet ved å optimalisere trinnene involvert i «Data Forbehandling og diskretisering», «scoring», «betydning Assessment», og «programmer og Web Application». Vi testet forbedret system av syntetiske datasett og oppnådd over 98% nøyaktighet i å identifisere de aktive veier. Den generelle tilnærmingen ble brukt på virkelige kreftmicroarray datasettene for å undersøke trasé som er ofte aktive i ulike krefttyper. Vi sammenlignet våre funn på den virkelige datasettene med en relevant tilnærming kalt signalveien Impact Analysis (SPIA)
Citation. Korucuoglu M, Søker S, Ozgur A, Otu HH (2014) Bayesian Pathway Analysis of Cancer microarray data. PLoS ONE 9 (7): e102803. doi: 10,1371 /journal.pone.0102803
Redaktør: Raya Khanin, Memorial Sloan Kettering Cancer Center, USA
mottatt: 14 februar 2014; Godkjent: 24 juni 2014; Publisert: 18.07.2014
Copyright: © 2014 Korucuoglu et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet av vitenskapelig og teknologisk forskning Council of Turkey (TUBITAK) stipend nummer 111E042 (HHO). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Bayesiansk nettverk (BN) modeller har vunnet popularitet for å lære biologiske trasé fra microarray genuttrykk data [1], [2]. BNS representerer avhengighet struktur for et sett av tilfeldige variabler ved hjelp rettet asykliske grafer og har blitt brukt med økende popularitet i matematikk og beregningsvitenskap i løpet av de siste 20 årene. Imidlertid er dagens BN programmer begrenset til å strukturere læring ved bruk av observerte data, og derfor fungerer bare på noen få hundre variabler som struktur læring algoritmer er beregningsmessig kompleks. Dette i sin tur fører til ineffektiv bruk av HTBD, som inneholder et mye større antall variabler.
Fra en biovitenskap perspektiv, dataanalyseresultatene gjør mest fornuftig når tolkes innenfor rammen av biologiske nettverk og veier. Tidligere etablert individuell genet analyse baserte metoder har blitt utvidet til å bygge nettverk og sti skala for det meste langs linjene av genet sett analyse (GSA) [3], [4] eller Gene ontologi (GO) baserte tilnærminger [5] – [7], som fokuserer på å bestemme forhåndsdefinerte gensettene eller klasser som er betydelig regulert. Men disse metodene vurdere inngangs gener og målet gensettene og klasser bare som
lister
og ikke innlemme i sine modeller topologien via hvilke gener i disse klassene samhandler med hverandre. Andre populære kommersielle tilnærminger, for eksempel oppfinnsomhet Pathway Knowledge Base (Oppfinnsomhet Inc., California) eller PathwayAssist (Ariadne Genomics, California) også identifisere kjente stier som aktiv basert på HTBD bare ved tanke på antall gener som deles av inngangslisten og målet veien. Alle aferomentioned metoder bruker annen variant av de viktigste ideen om at en funksjonsklasse er relevant for den observerte HTBD hvis klassen besitter en statistisk signifikant mengde av input genet listen.
Vi har nylig foreslått en tilnærming, kalt Bayesiansk Pathway Analysis (BPA), for å analysere HTBD hjelp BNS [8]. I BPA rammeverket kjente veier er modellert som BNS og behandlet HTBD brukes til å score hvert nettverk til å vurdere sin egnethet til den observerte data; oppnå en arbeidsflyt som inkorporerer i sin modell topologien av trasé. Det har siden vært tilnærminger som modellerer veien topologien til en viss grad i analysen av HTBD [9] – [14]. Når det gjelder generell anvendbarhet og direkte forhold til utgangen av BPA, har vi brukt signalveien Impact Analysis (SPIA) [15] i våre sammenligninger. SPIA kombinerer GSA basert pathway aktivering mål med en ny sti forstyrrelse score, noe som gjenspeiler i hvilken grad dereguleringen av genene i veien er i samsvar med signalanlegget hierarkiet.
I BPA tilnærming, banene er hentet ut fra databasen KEGG [16]. Hver oppføring (node) i veien er tilordnet til en intern unik ID og en konvertering modul utfører den nødvendige kartleggingen mellom inngangs genekspresjon IDer og veien node IDer. Gjentatte oppføringer i veien er slått sammen og representert som en enkelt node mens bevare kant relasjoner. BN teori benytter Directed asyklisk graf (DAG), men det kan eksistere sykluser i de biologiske veier. Dette er løst ved hjelp Spirtes «metode der graf representasjoner av strukturelle likningsmodeller [17] blir konvertert til kollapsede asykliske grafer slik at d-separasjoner i kollapset grafen medføre de samme uavhengighet relasjoner definert av modellen. For dette formål blir en biologisk vei modellert som en BN, som nå kan bli testet mot inngangsdata for å vurdere sin form.
BPA forutsetter en to-gruppe (for eksempel tilfellet vs. kontroll) normaliserte genuttrykk data innspill. Observasjonen matrise ved å score hver DAG oppnås ved å generere de gangers endring (FC) verdier for hvert par av prøver i de to gruppene. I denne matrisen, søyler representerer gener i DAG og radene representerer parvise sammenligninger. Hvis det er
N
1 Hotell og
N
2
prøver i de to gruppene, observasjon matrise består av
N
1 × N
2
rader. Hver kolonne representerer FC for den tilsvarende genet i hver av de
N
1 × N
2
parvise sammenligninger. Disse kontinuerlige FC verdiene er diskretisert bruker en cut-off av 2. Hvis FC verdien er større enn 2 eller mindre enn 0,5 (dvs. genet er deregulert), blir det omgjort til en, og ellers blir det omgjort til 2.
i hvilken grad en vei forklarer gitt HTBD måles ved hjelp av Bayesiansk Dirichlet tilsvarende (BDE) scorer med tilsvarende utvalgsstørrelsen metoden [18]. I denne fasen, er BN oppdatert med observasjonen matrise under poengsum beregningen. Statistisk signifikans av denne målingen blir vurdert ved å teste den mot datasett generert ved å bruke randomisering via bootstrapping hvor den observerte score er rangert mot skårer oppnådd fra randomiserte datasett. Bootstrapping blir tilført til kolonnene av observasjons matrise som gir en randomisering av radene, som brukes med avslutningen. Resultatene er vurdert i forhold til nominelle p-verdier og falske funnrate (FDR) verdier korrigere for flere hypoteser testing.
I denne artikkelen har vi to grunnleggende mål. Vårt første mål er å forbedre den BPA-systemet ved å bruke følgende strategier. For å optimalisere diskretisering fasen, vi prøvde lik bredde, lik frekvens, K-midler, Kolonne K-midler, Toveis K-midler, og Automatic Threshold diskretisering [19], [20] i tillegg til hard-kutt -off nivåer tilbys av BPA. I scoring fasen, søkte vi Akaike Information Criterion (AIC) [21], Bayesian Information Criterion (BIC) [22], og Factorized Normalisert Maximum Likelihood (fNML) [23] og sammenlignet resultatene med BDE scoring ordningen. Betydningen Vurderingen fasen ble endret slik at tilfeldige datasettene ble oppnådd ved genet signalnivå. I denne fremgangsmåten, blir prøvene i hver av de to klassene tilfeldig permuteres å tilveiebringe nye datasett [24]. Hvert nytt datasett (med nye klasse oppgaver for hver prøve) kjøres gjennom hele arbeidsflyten og en score verdien beregnes. På denne måten overvinne vi de tilfeller hvor den aktuelle BPA tilnærming unnlater å tilveiebringe randomiserte datasett. I å teste disse nye tilnærminger, genererte vi syntetisk microarray data som simulerer genuttrykk fra
N
veier hvor en undergruppe,
N
a
, av disse banene er aktiv. En forestilling kriterium er vurdert av nøyaktighet forutsi aktive og passive veier. I tillegg til å forbedre minne og CPU-bruk av algoritmen, vi også lagt til nye organismer som BPA-systemet kan brukes og vi gir en nettportal på https://bioinfo.unl.edu/bpa/som huser stand- stående versjonen av optimalisert programvare sammen med en veiledning og eksempel datasett.
Vårt andre mål i denne studien er å bruke den forbedrede pathway analyse tilnærming på ekte kreft datasett. For dette formålet, lastet vi ekte microarray datasettene fra NCBI er GEO database vedrørende blære, hjerne, bryst, tykktarm, lever, lunge, eggstokkreft og skjoldbrusk kreft. Vi undersøkte trasé som ofte identifisert som aktiv i disse ulike kreftmicroarray datasettene.
Metoder
Klasse Etikett Permutation
I den opprinnelige BPA system, observasjon data matrise for BN scoring er sammensatt av to-nivå diskretisert FC nivåer for genene i nettverket som skal scoret. I hvilken grad en vei forklarer gitt HTBD måles ved hjelp av «Bayesiansk Dirichlet tilsvarende» (BDE) scorer og den statistiske betydningen av denne målingen er vurdert av randomisering via bootstrapping hvor den observerte poengsum rangeres mot skårer oppnådd fra randomiserte datasett. Randomiserte datasett blir oppnådd ved å forandre strukturen av kolonnene i matrisen observasjon via prøvetaking med utskifting av hver kolonne for seg.
I tabell 1, viser vi to prøve forekomster av slike input-matriser. Her, søyler betegne genene og radene betegner den parvise sammenligning av prøvene i de to prøve grupper (for eksempel kreft sammenlignet med normal). Den aferomentioned randomiseringsmetode (opprinnelig anvendes av BPA) fungerer riktig når en observasjon matrise som i tabell 1 (a) er det tilfelle hvor et gitt kolonne ikke består bare av en type observasjon. Hvis imidlertid observasjonen matrisen viser seg å være som i tabell 1. (b), der kolonnene representerer bare én type observasjon, randomisering kolonnene i matrisen observasjons vil ikke resultere i noen endring. Derfor vil resultatet som oppnås ved randomiserte datasettene være den samme, noe som gjør den betydning vurderingen nesten umulig å oppnå. Det er mulig å oppnå matriser som i sistnevnte tilfelle, dvs. en matrise hvor en gitt kolonne bare består av det samme nivå, når et gen som viser den samme grad og retning av endring mellom de to klassene. Med andre ord, hvis et gen i en gitt bane er konsekvent to eller flere FC oppregulert i en klasse i forhold til den andre, ville vi ende opp med kolonnen for dette genet for å bestå kun av det samme diskretisering nivå.
for å overvinne dette problem anvendes vi permutasjon fremgangsmåten som tidligere er beskrevet for å randomisere genekspresjon datasett [24]. Dette randomisering gjøres ved å erstatte de prøver av hver klasse tilfeldig. Anta at vi har et datasett bestående av 10 normale og 10 kreftprøver. I ett tilfelle av permutasjon, for eksempel
rd 3,
th 5, og 6
th normale prøver er erstattet med en
st,
th 7 og 9
th kreftprøver. Observasjonen matrisen er generert av parvise sammenligningen av signalverdier over den nye rekkefølgen av to klasser etterfulgt av diskretisering. Denne prosedyren gjentas
B
tider og sti score er beregnet ved hjelp av diskretisert matriser. Som et resultat, kan den statistiske signifikansen av den observerte resultatet vurderes nøyaktig via klassifisering mot skårer oppnådd fra forskjellige observasjons matriser som genereres av disse
B
randomisert datasett. Hvis poengsummen for en gitt bane er Sn, er dens p-verdi vurdert ved hjelp der
I (a)
er en hvis
en
er «true» og 0 ellers. Betydningen av hver vei er rapportert som dette nominell p-verdi og den tilsvarende falske funnraten (FDR) beregnes ved hjelp av Benjamini-Hochberg prosedyre [25]
diskretisering
BPA utnyttet en diskretisering metode slik at den kontinuerlige FC verdien er representert som en om den er større enn 2, eller mindre enn? (dvs. et gen dysregulerte), og som to på annen måte. En annen bruk av den to-nivå diskretisering er å velge en cut-off-verdi på 3, dvs. at FC representert som en om dens verdi er større enn 3 eller mindre enn 1/3 og 2 som ellers. I tre-nivå diskretisering med den grenseverdi 2, blir ganger endring representeres som 1 hvis verdien er større enn 2, slik som 2 hvis mindre enn?, Og som 3 på annen måte. I tre-nivå diskretisering med cut-off-verdi på 3, blir ganger endring representeres som 1 hvis verdien er større enn 3, som 2 hvis mindre enn 1/3, og som 3 på annen måte.
i denne studien foreslår nye diskretisering metoder [19], [20] for å bli brukt i behandlingen av de observerte ganger endring verdier for bruk av Bayesianske poengberegninger. En
N
-by-
M
matrise
E
brukes til å betegne den observerte FC matrise, der
N
er antall parvise sammenligninger og
M
er antall gener.
E (n, m)
betegner FC verdi sammenligning
n
for genet
m
.
E (n, 🙂
betegner FC data sammenligning
n
for alle gener, og
E (:, m)
betegner FC data av genet
m
for alle sammenligninger.
lik bredde diskretisering (EWD).
EWD deler observasjon matrise rad
n
inn
k
intervaller av lik bredde mellom
E (n,:)
min Hotell og
E (n,:)
max
. Dermed intervallene sammenligning
n
ha bredde
w
=
(E (n,:)
max Anmeldelser –
E (n,:)
min) Twitter /
k
, med grensepunkter i
E (n,:)
min + w, E (n,:)
min + 2W, … , E (n,:)
min + (k – 1) w
der
k
er et positivt heltall
Equal Frequency diskretisering (EFD)
..
EFD skiller den sorterte
E (n, 🙂
inn i
k
mellomrom slik at hvert intervall inneholder det samme antall FC-verdier.
K-betyr diskretisering .
K-betyr skiller
E (n, 🙂
inn
k
mellomrom ved k-means slik at lignende FC verdier for sammenligning
n
er plassert i samme intervall
kolonne K-betyr diskretisering (Co-k-midler)
Co-k-betyr skiller
E.. (:, m)
til
k
mellomrom ved k-means slik at lignende FC verdier for genet
m
er plassert i samme intervall.
Toveis K-betyr diskretisering (Bi -k-midler).
i bi-k-betyr metoden både k-midler og co-k-midler er henholdsvis gjennomføres med parameteren
k + 1
, noe som gir hver FC verdi to diskretisert verdier. Hvis produktet av de to verdier er lik eller større enn
x
2
, og mindre enn
(x + 1)
2
, den endelige diskretiserte verdien av denne uttrykket verdien er
x
, der
x
er et positivt helt tall mellom
en
til
k
.
Automatisk Threshold diskretisering .
det er to alternativer for den automatiske terskel diskretisering, som iterativt bestemmer cut-off verdier ved å minimere variansen. Hele FC data
E
er delt inn i to intervaller i henhold til en viss cut-off verdi i den globale alternativet. Den lokale alternativet på denne metoden skiller
E (:, m)
i to intervaller i henhold til cutoff verdiene som er definert for hver kolonne (gen) separat
Scoring
I. tillegg til BDE scoring ordningen, foreslår vi følgende rille beregninger som skal brukes i BPA-systemet.
Akaike Information Criterion (AIC).
AIC er en av de mest brukte informasjonskriterier , som velger den modellen som minimerer de negative sannsynligheten straffet med antall parametere [21]: hvor er den maksimale sannsynlighet for modellen
M
,
D
observeres data, og p er antall parametere i modellen.
Bayesian Information Criterion (BIC).
BIC er en annen mye brukt informasjons kriteriene, og i motsetning til AIC, er BIC konsistent og forbedrer ytelsen med store utvalgsstørrelser [ ,,,0],22]. BIC er definert som:..
BIC forskjellig fra AIC bare i andre periode, som avhenger av utvalgsstørrelse
N
Factorized Normalisert Maximum Likelihood (fNML)
Silander et al. [23] utviklet fNML stillingen basert på det normaliserte maksimale sannsynlighet (NML) fordeling [26], [27]. Gitt et datasett
D
, den NML modellen valgkriterium velger modellen
M
som er størst. hvor normalisering er gjort over alle datasett
D «
av samme størrelse som
D
. Etter å ha tatt logaritmen, er stillingen i en form for straff log-sannsynlighet gitt
G
= {
G
1
, …,
G
m
} som forelder satt i DAG (dvs.
G
i
er morselskap sett noden
X
i
i DAG): hvor normalisering summen går over hele mulig
D
i
kolonne vektorer. Selv om den straffeledd har en eksponensiell antall ledd, kan det evalueres effektivt ved hjelp av en lineær-algoritme innført i [28]. Ved å beregne straffeledd for hver variabel i datasettet, blir NML factorized.
datasett
Vi ga syntetiske transkripsjonsregulerende nettverk og produsert simulerte genuttrykk data med støy ved hjelp SynTReN v1.12 [29]. Vi skapte 55 syntetiske nettverk som etterligner biologiske pathways med størrelser fra 7 til 200. Vi tilfeldig valgt 20 av 55 veier til å være aktiv og SynTReN generert tilsvarende uttrykk datasett for 20 test og 20 kontrollprøver med 2249 gener legge en 4% støy nivå.
For å teste optimalisert og forbedret BPA ytelse på virkelige datasett, brukte vi en blære, to hjerne, to bryst, en tykktarm, to lever, en lunge, en eggstokkreft, og 2 skjoldbrusk kreft datasett . I valg av datasettene, fikset vi plattformen for å være Affymetrix å forhindre skjevheter og brukte datasettene hvor svulsten og normale prøver er klart definert og kreftprøver er så homogent som mulig. De fleste av chip data kom fra Affymetrix HG-U133 Plus 2.0 Genechip, som består av mer enn 54.000 probe sett representerer over 47 000 utskrifter ved å gi et helhetlig bilde av den menneskelige transkriptom. Andre chip typer inkluderer HG-U133A og HG-U133A_2, som representerer ca 22 000 probesets. Før påføring av den foreslåtte tilnærmingen, har rå microarray data er normalisert ved hjelp av Affymetrix microarray analyse Suite (MAS) 5.0 algoritme [30].
For hvert datasett, vi brukt den foreslåtte analysemetoden med 1000 permutasjoner og vurderes betydelige trasé med en nominell p-verdi på 0,05 og en FDR på 0,25.
Resultater
i tabell S1, lister vi nøyaktighetsnivåer (hvis nettverket er riktig kalles aktiv /passiv) av de ulike diskretisering ordninger for 10 simulerte datasett (D
1-D
10). I henhold til simuleringsresultatene, er den beste metoden diskretisering det to-nivå k-middel diskretisering anvendes på rekker av observasjons matrisen. Denne tilnærmingen oppnår en nøyaktighet på 0,962 ± 0031. Derfor er to-nivå k-midler metode anvendt som diskretisering metode for eksperimenter for å bestemme den beste scoring kriteriet.
datasett, som brukes for utførelsen måling av diskretisering metoder, blir også benyttet for vurderingen av scoring metoder. De oppnådde prediksjon nøyaktig er oppført i tabell 2. I henhold til simuleringsresultatene, er den beste scoring metode den fNML metode, som gir et anslag hvorvidt en vei er aktiv eller ikke, med en nøyaktighet på ± 0,984 0016. Derfor er to-nivå k-betyr diskretisering og fNML scoring metoder brukes for dataanalyse virkelige microarray som denne kombinasjonen oppnådde den høyeste nøyaktighet.
I tabell 3, lister vi opp 12 virke kreft microarray datasett (GEO tall, krefttyper, og antall prøver) og antall veier identifisert som aktiv ved BPA og SPIA analyser. I tabellene S2 og S3, lister vi en komplett liste over veier anses aktiv ved BPA og SPIA metoder for hver ekte kreft microarray datasettet, henholdsvis. I alt BPA identifiseres 171 veier som har blitt funnet signifikant i det minste en av datasettene. 15 av disse banene har blitt funnet å være signifikant i minst halvparten av datasettene og derfor potensielt representere mekanismer som er felles for ulike krefttyper (se tabell S2).
Vi har også undersøkt alminnelighet av betydelig trasé i krefttyper representert med to datasett med unntak av skjoldbruskkjertelen, noe som har resultert i svært få betydelige veier. Disse resultater for den BPA analysen er oppsummert i figur 1. I tilfelle av hjerne- og leverkreft datasett, de samme virkningsmekanisme som består av 52% og 59% av datasettet med det mindre antall veier. I brystkreft datasett ser vi en mindre grad av enighet (~31%). Disse fellestrekk er 60%, 41% og 52% for de hjerne, bryst, lever og datasett, henholdsvis, ved hjelp av SPIA analyse. Men bruker SPIA en undergruppe av trasé forsket av BPA-systemet. Når vi ser bare de baner i SPIA database, den fellesnevn i BPA analyse er 73%, 45% og 71% for hjernen, bryst, og lever datasett, henholdsvis.
I figur 2 lister vi antall veier identifisert av to analysemetoder når veien databasen er begrenset til den som brukes av SPIA. I gjennomsnitt, antall veier funnet å være signifikant aktive ved begge metoder er ca 60% av de samme veiene som algoritmen med mindre antall aktive trasé.
Selv om forbedret BPA systemet bedre enn den gamle BPA system på syntetiske datasett (data ikke vist), sammenlignet vi utførelsen av begge metoder på den virkelige kreftmicroarray data. Listen over veier anses vesentlig ved det gamle system BPA er representert i tabell S4. Den gamle BPA analyse viste 127 trasé aktiv i minst ett av de kreft datasett, og 18 av banene ble funnet å være felles for minst halvparten av datasettene. I tabell S5, lister vi antallet trasé identifisert som aktiv både BPA systemer og angir antall veier vanligvis identifisert av de to metodene i hver kreft datasettet.
Resultatene på de virkelige kreft datasett ( tabeller S4 og S5) indikerer at den gamle BPA systemet ikke oppvise konsistens for noen av datasettene (for eksempel 57 sammenlignet med en reaksjonsveien identifisert ved den nye og eldre osv PBA i «blære» datasettet; 16 i forhold til 3 veier er identifisert ved den nye vs gamle PBA i «bryst» datasett, 58 vs. 0 vei identifisert av den nye vs gamle PBA i «lunge» datasett, og 10 vs. 0 vei identifisert av den nye vs gamle PBA i den «skjoldbruskkjertelen» datasett). Vi tror dette er hovedsakelig på grunn av permutasjon testmetode introdusert i det nye BPA system hvor det gamle systemet ikke klarer å generere randomiserte datasett i trasé som viser en konstant ganger endring retning for sine medlemmer (se tabell 1). Noen av de bedre ytelse kan tilskrives de optimaliserte diskretisering og telling innlemmet i det nye BPA-systemet. De gamle og nye BPA sytems viser i gjennomsnitt en 28% overlapping mellom trasé identifisert i hvert datasett. Dette nivået av avtalen er vesentlig lavere enn den som observeres mellom de nye BPA og SPIA metoder, som viste 60% overlapping i gjennomsnitt. Dessuten fikk vi en 25% overlapping i gjennomsnitt mellom de gamle BPA og SPIA metoder når de veier som er identifisert for hver ekte kreftmicroarray data satt av de to metodene ble vurdert.
Vi har også brukt den forbedrede BPA metoden på NCI-60 kreftcellelinje microarray datasett som brukes for å beskrive Gene Set Enrichment Analysis (GSEA) metoden [31]. Dette datasettet inneholder resultater microarray (kjører på Affymetrix HGU95Av2 plattform) for 50 av de NCI-60 cellelinjer (www.broadinstitute.org/gsea/datasets.jsp~~number=plural). Vi brukte dette datasettet for å identifisere trasé deregulerte etter en mutasjon i p53 tumor suppressor-gen. Ut av de 50 prøvene, 17 er villtype og 33 bære mutasjoner i p53-genet. Trasé identifisert som aktiv ved BPA på grunn av mutasjoner i p53 er oppført i Tabell 4.
Diskusjoner
Våre syntetiske datasimuleringer identifisert k-means som de beste resultater diskretisering metoden . Vi finner dette resultatet rimelig som k-middel anvender fordelingen i dataene for å minimalisere det totale midlere kvadrerte feil med hensyn til diskretisert verdier og de virkelige FC forekomster. Også basert på syntetiske data resultater, scoring metode som ga den høyeste nøyaktigheten var factorized normalisert maximum likelihood (fNML) score [23]. Dette resultatet ble også forventet som det har vist seg at BDE scoring ordningen er veldig sensitiv til valg av tidligere hyper-parametre og AIC og BIC krever noen manuell parametrisering og fungerer ikke bra med små datasett, som er tidvis saken med HTBD [32]. fNML på den annen side er en informasjonsteori basert optimalisert scoring metode som ikke har noen tunbare parametere.
I den virkelige microarray dataanalyse ved hjelp av BPA, veien som kom ut i de fleste av kreft datasett som vesentlig aktiv ( 8/12) er det Cell adhesjonsmolekyler (CAM) veien. CAM er lokalisert på celleoverflaten og delta i aktiviteten til et cellebindende med andre celler. En av de primære funksjonene til kreftceller er ukontrollert vekst, hvor cellene er immune overfor inhibering tetthetsavhengig. Kreftceller fortsette å vokse, som danner flere nivåer, til og med når celletettheten økes. Dette er hovedsakelig på grunn av feil i CAM, noe som har vist seg å spille en viktig rolle i progresjon av kreft [33] og forstyrrende viktige signaloverføringsreaksjonsveier [34]. Nærmere bestemt CAM er blitt vist å være involvert i hjernen [35], blære [36], bryst [37], lever [38], lunge [39] og thyroid [40] kreft; kreft datasett der det foreslåtte systemet fant CAM sti som betydelig aktivert.
Andre trasé som må vektlegges er «Citrate (TCA /trikaboksylsyre) syklus», «Komp og koagulasjonskaskaden» og «Adipocytokine aliserte «veier som er funnet å være signifikant aktiv i 7 kreft datasett av 12. citrat syklus, også kjent som den trikarboksylsyre syklusen (TCA-syklus) eller Krebs syklus, er en del av cellulær respirasjon. Det er en serie av kjemiske reaksjoner som brukes av alle aerobe organismer til å generere energi. Den sentrale betydning for mange biokjemiske mekanismer tyder på at det var en av de tidligste delene av cellenes stoffskifte til å utvikle seg [41]. En fersk studie identifisert denne syklusen som en kreft-spesifikke metabolske veien [42]. I et bredt spekter av tumorceller, inkludert de typer som inngår i våre datasett, er det funnet at en mutasjon som forårsaker denne syklusen for å løpe i revers. Utfylle og koagulasjonskaskaden vei kan forklares i to deler: komplementsystemet er et proteolytisk kaskade i blodplasma og en formidler av medfødt immunitet, en uspesifikk forsvarsmekanisme mot patogener, og blod koagulasjon er en annen serie av proenzymet-til-serin protease konverteringer . Denne veien er identifisert som betydelig for bryst og leverkrefttyper i en funksjonell kreft kart, som har blitt etablert etter analyse av funksjonelle ekspresjonsprofiler av vesentlig anriket KEGG trasé på tvers av forskjellige tumor-enheter som er tilordnet forskjellige tumor klasser [43]. Adipocytokine signalveien er positivt korrelert med leptin produksjon, noe som er en viktig regulator av energiinntak og forbrenning. Leptin og adiponectin er de mest tallrike adipocytokines og mest studerte molekyler i denne klassen så langt. Siste svulst biologiske funn på seg rollen som den mest fremtredende adipocytokines leptin og adiponectin, som er involvert i tumorvekst, invasjon og metastasering, viser effekten av adipocytokines til hjernen og brystkreft [44], hvilke typer kreft datasett der BPA system fant denne veien som betydelig aktivert. Det har vært andre ytterligere studier som har vist at forholdet mellom adipocytokine signalveien til lunge og lever-kreft [59], [60].
Vårt syntetiske dataresultater viser at den forbedrede BPA systemet identifiserer aktiviteten til et reaksjonsvei med over 98% nøyaktighet. Selv om det ikke er gull standart i vurderingen av aktive trasé om de virkelige microarray data av en viss fenotype, har BPA reproduserbarhet i de samme krefttyper vært over 50% i gjennomsnitt. Når reaksjonsveien databasen er begrenset til den som brukes av SPIA, overskrider denne reproduserbarhet 70%. Til slutt, når alle kreft datasett er vurdert, avtalen mellom de to metodene er rundt 60%. Gitt den tekniske og biologiske variasjon, for eksempel en høy grad av overlapping mellom ulike sti analyse ordningene er svært lovende.
I et forsøk på å identifisere patways spesifikke for bestemte krefttyper, undersøkte vi trasé som er konsekvent funnet å være aktiv for de samme krefttyper (og ikke-aktiv for de andre krefttyper) ved den aktuelle BPA system. For kreft i hjernen, «Parkinsons sykdom pathway (hsa05012)» ble funnet aktiv i både hjernekreft datasett, og bare i ett av de gjenværende 10 kreft datasett. Parkinsons sykdom (PD) er en av de mest vanlige neurodegeneretive forstyrrelser assosiert med celletap i substantia nigra regionen av midthjernen [45]. Nylig har det vært studier som kobler de molekylære mekanismer og genetiske disposisjoner av sykdommen til kreft. Mutasjoner i PARK2, en av de vanligste årsakene til tidlig debut PD, har vist seg å spille en sentral rolle i glioblastomas [46] stiller endringer i nesten identiske rester i både PD og kreft i hjernen prøver. Identifisering av denne reaksjonsvei som aktiv nesten entydig og konsekvent i kreft i hjernen datasett innebærer at BPA er i stand til å identifisere biologisk meningsfulle trasé på grunnlag av den underliggende HTBD. I leveren kreft datasettene, «Biotin metabolisme (hsa00641)» og «3-klorsyre degradering (hsa00780)» banene ble funnet å være aktive bare i de to leveren datasett.