PLoS ONE: A Novel HMM-basert metode for påvisning av Beriket transkripsjonsfaktor bindingsseter avslører RUNX3 som et potensielt mål i bukspyttkjertelen Biology

Abstract

Bakgrunn

bukspyttkjertelen adenokarsinom (PAC) er en av de mest fastlåste maligniteter. For å søke etter eventuelle nye terapeutiske mål, vi er avhengige beregningsmetoder som tar sikte på å identifisere transkripsjonsfaktor bindingsseter (TFBSs) over-representert i promotorområdene av gener differensielt uttrykt i PAC. Selv om mange beregningsmetoder er iverksatt for å oppnå dette, har ingen fått generell aksept eller produsert påvist nye mål i PAC. For å oppnå dette har vi utviklet demon, en ny metode for motiv deteksjon.

Metodikk

DEMON er avhengig av en skjult Markov modell å score utseendet på sekvensmotiver, tar hensyn til alle mulige steder i en formidler av potensielt varierende bindingsaffiniteter. Vi viser DEMON nøyaktighet på simulerte og reelle datasett. Søknad DEMON til PAC-relaterte datasett identifiserer RUNX familien som høyanriket i PAC-relaterte gener. Ved hjelp av en ny eksperimentell paradigme å skille mellom normale og PAC celler, finner vi at RUNX3 mRNA (men ikke RUNX1 eller RUNX2 mRNA) viser tidsavhengige økninger i normalt, men ikke i PAC celler. Disse økningene er ledsaget av endringer i mRNA nivåer av antatt RUNX gen mål.

Konklusjoner

Den integrerte anvendelsen av DEMON og en roman differensiering system førte til identifisering av en enkelt familiemedlem, RUNX3, som sammen med fire av sine antatte mål viste en robust svar på en differensiering stimulans i friske celler, mens dette reguleringsmekanisme var fraværende i PAC celler, med vekt RUNX3 som et lovende mål for videre studier

Citation. Levkovitz L , Yosef N, Gershengorn MC, Ruppin E, Sharan R, Oron Y (2010) A Novel HMM-basert metode for påvisning av Beriket transkripsjonsfaktorbindende nettsteder avslører RUNX3 som et potensielt mål i kreft i bukspyttkjertelen biologi. PLoS ONE 5 (12): e14423. doi: 10,1371 /journal.pone.0014423

Redaktør: Dov Joseph Stekel, University of Nottingham, Storbritannia

mottatt: 02.02.2010; Godkjent: 10 september 2010; Publisert: 22.12.2010

Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Public Domain erklæring som fastslår at en gang plassert i det offentlige rom, dette arbeidet kan fritt kopieres, distribueres, Dette arbeidet ble støttet av en Era-Net pathogenomics tilskudd til akuttmottaket og RS, og Israel Cancer Association stipend til eR, RS:

finansiering overføres, endres, bygd på, eller brukes av alle for ethvert lovlig formål. og du. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

bukspyttkjertelen adenokarsinom (PAC) er en av de mest aggressive kreftformer. Selv om 10. plass i forekomst, er det den fjerde ledende årsak til kreft dødsfall i den vestlige verden. PAC er preget av sen diagnose, rask progresjon og omfattende metastaser og er nesten helt motstandsdyktig for alle terapeutiske regimer. Selv om 10-15% av PAC svulster kan behandles ved delvis pancreatectomy, mellomtiden mellom diagnose og død er 3-6 måneder og fem års overlevelse er under 5%. I USA er ca 30 000 nye tilfeller diagnostisert hvert år, og nesten like mange PAC pasienter dør hvert år av sykdommen [1], [2]. Dette dystre bildet gjør denne kreftformen en verdig gjenstand for søk etter nye terapeutiske mål. Men publiserte genuttrykkstudier, så langt, har ikke klart å identifisere nyttige terapeutiske mål.

Identifikasjon av transkripsjonsfaktorer (TFS) er involvert i viktige biologiske prosesser og ulike patologiske tilstander, spesielt kreft og arvelige lidelser, har vunnet popularitet i de senere år. TFS er master kontrollere for endringer i uttrykket av flere gener og dermed kan tjene som foretrukne mål for behandling av menneskelige sykdommer. Et relativt stort antall metoder for å identifisere beriket TF bindingsseter (TFBSs) eksisterer [3] – [5], men ingen enkelt metode har fått universell fremfor de andre

Bruk av state-of-the-. art PRIMA algoritme [4] til datasett som reflekterer differensial uttrykket av gener i PAC pekte ZNF350 som en viktig TF i PAC biologi (upublisert). Imidlertid QRT-PCR-forsøk viste kun moderate endringer i ZNF350 uttrykk ved serumfjernelse av PAC-celler (se fig. S1). I lys av viktigheten av denne metodikken, søkte vi å utvikle en ny metode som tar sikte på å oppnå bedre prediktiv verdi i biologiske eksperimenter.

Et relativt stort antall PAC genekspresjon studier er utført ved hjelp av både friske og syke pankreas vev og PAC linjer in vitro. . Brandt

m.fl. product: [6] anmeldt data fra 10 uttrykk studier og identifisert nærmere 1000 gener uttrykk for hvilke endringer i PAC; 148 av disse gener ble identifisert i to eller flere undersøkelser. Listen er utarbeidet av Brandt

et al

. omfatter gener som uttrykkes i en høy andel av PAC-studier og hadde blitt forbundet med mange typer av kreftformer, som Ras, Ink4, P53, etc. Ingen synes imidlertid å forklare «katastrofal» [7] utviklingen av sykdommen . Selv om enkelte proteiner kan tjene som lovende mål for legemiddelutvikling, har jakten på terapeutiske mål i PAC mislyktes, så langt, for å produsere nye lovende narkotika fører. Konseptuelt, terapier rettet mot TFS som er mester regulatorer av uttrykk for et stort antall gener, er potensielt mer sannsynlig å påvirke kreftcellebiologi og er spesielt attraktive.

Her har vi brukt en ny metode, demon, for detektere beriket TFBSs og et nytt paradigme for å sammenligne normal bukspyttkjertelen og PAC celler. Påføring DEMON til en PAC eksperimentelle datasettet spådd at bindingssetene for RUNX familien av TFS er sterkt anriket i de relevante differensielt uttrykte gense sett. QRT-PCR bekreftet RUNX3 som en uttrykt forskjellig TF. I konklusjonen, DEMON viste seg å være et nyttig prediktiv verktøy i TFBSs analyse og sammen med eksperimentelle resultater, tyder på at RUNX3 kan vise seg å være et viktig mål TF i bukspyttkjertelkreft forskning.

Resultater

Oppdager Beriket motiver i co-regulert gener (demons)

Gitt et mål satt av arrangører av co-regulert gener og et sett med kjente TFBS motiver (representert som posisjon vekt matriser fra TRANSFAC database [8], se metoder), søker DEMON motivene som vises i disse arrangører oftere enn forventet ved en tilfeldighet (dvs. motiver som er beriket i målet settet). Algoritmen benytter en skjult Markov modell (HMM) for å beskrive sannsynlighets prosess som genererer promotersekvensene, og å anslå hvor sannsynlig det er at et gitt motiv er beriket i målet satt.

Hver HMM inneholder stater for en unik motiv, og bakgrunn angir at modellen inter-motiv segmenter (fig. 1). DEMON score hver promoter for utseendet på et gitt motiv. Dette resultatet reflekterer det mer sannsynlig at sekvensen ble generert basert på HMM beskriver motivet, sammenlignet med sannsynligheten for at det ble generert basert på en enkel bakgrunn modell. Gitt et mål satt av co-regulerte gener, er resultatet av arrangørene summert opp for hver HMM, og sammenlignet med summer av skårer oppnådd med tilfeldige mål sett. Denne sammenligningen blir brukt til å tildele en

p

-verdi for hvert motiv som gjenspeiler sin overflod i promotorområdene av målet settet (se fig. 2 og Metoder).

HMM består av motiv stater (i rosa), bakgrunnsland (i blått) og en start tilstand. En bakgrunn tilstand er definert for hvert nukleotid (fire tilstander), og et motiv tilstand er definert for hver posisjon langs PWM svarende til TFBS av interesse. Utslipps sannsynlighetene for motiv stater er definert i henhold til PWM, og de av bakgrunns stater er satt til 1 for tilsvarende nukleotid. Overgangssannsynlig mellom bakgrunnen tilstander reflektere fordelingen av dinukleotider på tvers av alle mulige promotorområdene i menneske. Overgangen sannsynlighet fra hvert motiv tilstand til den neste er satt til 1. Resterende overganger omfatter flytting til bakgrunns stater (stiplede piler) eller flytte til det første motivet tilstand (fast piler). Disse overgangene er lært å bruke Baum-Welch-algoritmen.

a. Henter en liste over co-uttrykte gener fra high-throughput eksperimenter. b. For hver HMM-promoteren paret en score beregnes som forholdet mellom sannsynligheten for å slippe ut den promotorsekvensen ved hjelp av TFBS HMM og sannsynligheten for å slippe ut den promotorsekvensen ved anvendelse av en bakgrunn HMM. Summen av poengsummene for hver TF er brukt for å beregne en enkelt poengsum reflekterer TF samlede overflod i inngangs arrangøren sett. c. Tilfeldig velge 100 arrangøren datasett med samme størrelse som det opprinnelige datasettet. Score er beregnet som før for de datasett. d. Hver TF er tildelt med en empirisk p-verdien er definert som prosentandelen av tilfeldige tilfeller der det scoret høyere.

Ytelse evaluering på simulerte og reelle data

For å teste vår tilnærming, vi først testet DEMON på simulerte data. For dette formål simulerte vi sett med 100 tilfeldige promotorer, hvis sekvenser ble valgt i henhold til bakgrunnen sannsynligheten for dinukleotider i virkelige promotorområdene (Metoder). Vi plantet et reelt motiv i x% (10≤x≤90) av arrangører i hvert sett (tre tilfeller av motivene ble plantet i hver promoter). Vi gjentok denne prosedyren for alle virveldyr posisjon vekt matriser (PWMs) i TRANSFAC database [8] (se Methods).

Figur 3 sammenligner resultatene for DEMON som for PRIMA algoritmen. Vi valgte PRIMA som en representant for en gruppe av metoder som bruker en vanskelig terskel for å identifisere antatte skinn av motivene i et gitt promoter. Slike metoder kan mislykkes i å identifisere «svake» forekomster av motivet og ofte ikke tar hensyn til den faktiske antall forekomster av den motiv (for eksempel i Prima, er promo kategorisert til slike som har 0, 1, 2, eller mer enn 2 forekomster av motivet).

En sammenligning mellom Demon og PRIMA resultater på datasett med ulike prosentandel av arrangører med plantet motiver.

Tydeligvis, i alle tilfeller DEMON oppnår bedre resultater både når det gjelder spesifisitet og sensitivitet. Vi gjennomførte flere simuleringer, varierende antall arrangører i hvert sett, eller antall plantet motivene i hver promoter. Resultatene forble kvalitativt lignende (figurene S2 og S3).

Prima har en marginal fordel over DEMON på små datasett (for 30 arrangører, Demon falsk positiv rate (FPR) er 0,0006 mot 0,0004 for PRIMA, se figur . S3). Men disse svært lave tall gjør FPR av begge metodene i hovedsak like.

Deretter sammenlignet vi to metoder på den nylig publiserte

Amadeus

metazoan benchmark, som er en samling av TF og mikroRNA målet gensettene avledet fra high-throughput eksperimenter (genekspresjon microarray og chip-on-chip eksperimenter) [9]. Vi har lastet ned alle menneskelige og muse oppføringer i denne samlingen, der hver oppføring inneholder et enkelt TF og en liste over mål gener (som strekker seg fra 25 til 2238 gener).

Tabell 1 viser resultatene av DEMON og PRIMA over alt de undersøkte dataoppføringer. DEMON identifisert den sanne TF i 70,3% av tilfellene (der i 51,8% av tilfellene den sanne TF er rangert i første eller andre plass) mens PRIMA identifisert den i 55,5% av tilfellene (i 48,1% av tilfellene, den sanne TF er rangert på første eller andre plass). Videre, i 37% av tilfellene DEMON rangert riktig TF høyere enn PRIMA mens PRIMA rangert høyre TF høyere enn demon i bare 18,5% av tilfellene.

Oppdager TFS involvert i transkripsjonsregulering i PAC

Vi opprinnelig brukt en liste over differensielt uttrykte gener i PAC utarbeidet av Brandt

et al.

[6] fra 10 studier. Vi har innhentet fra den listen en mindre liste over 45 gener som ble identifisert som forskjellig uttrykt i 3 eller flere studier, hvorav 38 (30 som viste økt og 8 som viste redusert uttrykk) matchet vår samling av menneskelige arrangører (se tabell S1). Vi analyserte denne listen ved hjelp DEMON og fant betydelig berikelse av 6 motiver, hvorav de mest høyanriket motivene var for RUNX sub-familie av TFS (også kalt AML sub-familien). Når vi begrenset konsensus datasett til 30 gener som viste økt transkripsjon, DEMON funnet betydelig berikelse av 8 motiver, hvorav de mest høyanriket motivene også var for RUNX.

TFS av RUNX sub-familien , er bindende partnere av heterodimere transkripsjons regulatorer betegnet som CBFs (kjerne-binding faktorer) hvorav CBFa (RUNX) medlemmer binde direkte til DNA og to alternativt-skjøtes CBFb (også kjent som PEBP) medlemmer binde til CBFa subenheten og forbedre dets DNA-bindings [10]. Det er bemerkelsesverdig at PEBP fremstår som en tredje og en nest mest beriket TF, henholdsvis (se tabell 2).

Vi brukte PRIMA å analysere de samme listene, og fant en betydelig berikelse av ett motiv, ZBRK1, også kalt ZNF350 (se tabell S2). Men QRT-PCR eksperimenter viste bare beskjedne endringer i ZNF350 uttrykk i Panc-1s ved serum tilbaketrekking (upubliserte resultater, se fig. S1).

De tre høyt homologe human RUNX TFS (RUNX1, 2 og 3 ) har vært implisert i utviklingsmessige prosesser og, spesielt, i cancer. RUNX1 (også kjent som AML1) har blitt grundig dokumentert som en viktig faktor i hematopoiesis og i etiologien av akutt myelogen leukemi (for oversikt se [11]). RUNX2 har vist seg å være involvert i utviklingen av bein (for oversikt se [12]), og RUNX3 ble dokumentert som en viktig TF i utvikling av T-lymfocytter [13] – [15], og har vært forbundet med patogenesen av mange ondartede sykdommer [ ,,,0],16], inkludert PAC [17], [18]. Derfor spår DEMON analysen at RUNX TF familiemedlemmer er toppkandidater ansvarlig for endret transkripsjon av gener i PAC konsensus datasettet.

RUNX eksperimentell validering

De fleste av de eksperimentelle data i kreft sammenligne genekspresjon av kreft vev med den av friskt vev av humane donorer. Denne sammenligningen filtrerer ut variasjonen av genuttrykk grunn av kjønn og alder av pasienten, stadium av sykdommen, involvering av urelaterte patologiske tilstander, forskjellige (kreft-målrettet og andre) medisinsk behandling, samt etniske genetikk og livsstil. Således blir bare de gener som er felles for PAC på bakgrunn av alle de ovennevnte kilder til variabilitet representert. Det er bemerkelsesverdig at Brandts et al. [6] liste over nær tusen differensielt uttrykte gener krymper til 148 og 45 når man legger et krav om at det må vises i minst to eller tre studiene.

For å unngå inter-pasient variasjon, vi valgte å studere differensial genutrykksmønster observert i to celletyper i kultur: hIPCs, bukspyttkjertelen forløper celler som vokse fra fra dyrkede humane Langerhanske øyer sunne avdød givere, og PANC-1 celler, en etablert linje av menneskelig PAC. Viktigere, begge typer celler som gjennomgår mesenchymale-til-epitelial overgang (MET) og delvis differensiere til en neuroendocrine fenotype når det tillates å aggregere i serumfritt medium [19], [20]. Mens hIPCs slutte å spre og noen av dem dør, PANC-1 celler fortsette å spre seg under disse forholdene.

Den primære forutsetning av vårt paradigme er at responsen på en differensiering stimulans vil avdekke endringer i genuttrykk som skiller normal fra PAC celler. Så langt vi kjenner til, er det ingen bevis i litteraturen som å sammenligne prosesser i normale celler og kreftceller med lignende opprinnelse under betingelser som induserer partiell differensiering vil gi innsikt i kreft-relaterte genuttrykk. Kontinuerlig proliferasjon av celler i serumfritt medium kunne tilskrives mutasjoner av nøkkelgener (f.eks, K-Ras). Men ikke alle cancercellekaraktertrekk (f.eks migrasjon, invasivitet, stimulering av angiogenese, motstand mot cytotoksiske midler) kan være direkte relatert til deres evne til å proliferere i fravær av vekstfaktorer. Det er mulig at dette paradigmet vil gi gener som manglet i den tradisjonelle friske vs. sykt vev metoder. Vi har derfor dyrkede både hIPCs og PANC-1-celler i serumfritt medium i 24 timer og sammenlignet med endringer i genekspresjon i begge celletyper. Denne sammenligningen ga en manuelt utvalgt sett av 30 gener hvis ekspresjon endret seg vesentlig i en celletype, og heller ikke endre eller utstilt endring i motsatt retning i den annen (se tabell S3). Vi analyserte dette settet med DEMON (se tabell S4). Selv PEBP (CBFb) ble bare marginalt beriket (p~0.1) i denne listen, dukket det blant topp ti TFBSs stiller de laveste p-verdiene både i listene avledet av DEMON fra konsensus datasett (rangert andre og tredje) og fra den hIPCs vs. PANC-1 celler eksperiment datasett (rangert sjette). Dette funnet støttes prediksjon at RUNX sub-familiemedlemmer kan være involvert i PAC. Analyse av de samme datasettet med PRIMA fant ingen beriket motiver (se tabell S5).

For å få eksperimentelle bevis for RUNX skille mellom normale og PAC celler, overvåket vi uttrykk for RUNX1, 2 og 3 mRNA ved QRT-PCR som en funksjon av tiden for serum deprivasjon av hIPCs og PANC-1-celler (fig. 4). Det var liten endring i uttrykket av RUNX1 og 2 transkripsjoner i begge celletype. Ekspresjonen av RUNX3 ble imidlertid markert øket på en tidsavhengig måte i hIPCs mens det var praktisk talt ingen endring i PANC-1-celler. Det synes derfor at uttrykket av RUNX3 er regulert i hIPCs under differensiering men klarte ikke å svare på differensiering stimulans i PANC-1 celler.

hIPCs og PANC-1 celler ble enten dyrket i serumholdig medium (t = 0), eller i de angitte tidsrom i serumfritt medium. RNA ble ekstrahert og QRT-PCR utført som beskrevet i Materialer og Metoder. Resultatene er presentert som% forandring i mRNA-nivåer av de tre RUNX genene som en funksjon av tid i serumfritt medium.

For videre å bekrefte dette resultatet, vi analysert i hIPCs ekspresjon av fem antatte RUNX mål, ECM2, DUSP2, ESAM, PECAM, og ITGB4, som ble valgt ut fra en liste over mulige mål RUNX generert basert på en prosedyre som lignet metoden beskrevet i [4]. Fire av disse mRNA viste markerte forandringer i uttrykket (se fig. 5A), mens den femte, ITGB4, oppviste bare en forbigående to-gangers økning. Til sammenligning ble det av ekspresjonen av disse genene ikke endres i PANC-1-celler (se fig. 5B). Når uttrykket av de samme genene ble undersøkt på microarray data, ingen (inkludert RUNX3) var høy nok for meningsfull analyse, bekrefter den overlegne følsomheten QRT-PCR.

A. hIPCs og B. PANC-1-celler ble enten dyrket i serumholdig medium (t = 0), eller i de angitte tidsrom i serumfritt medium. RNA ble ekstrahert og QRT-PCR utført som beskrevet i Materialer og Metoder. Resultatene er presentert som% forandring i mRNA-nivåer av de angitte genene som en funksjon av tid i serumfritt medium.

diskusjon

Vi har presentert en ny algoritme for å detektere anriket TFBSs i et gitt sett av promotorer. Algoritmen bruker en HMM-baserte score for å ta hensyn til alle mulige analyserer av en promoter sekvens i bindingsseter og bakgrunns nukleotider. Den veier i en prinsipiell måte alle de potensielle bindingssteder langs promoter, noe som gjør det mulig å vurdere flere svake bindingsseter som ikke ville ha gått en betydning terskel. Dette er den første anvendelse av en slik fremgangsmåte for anriking tester. Vi viser at det utkonkurrerer en tidligere tilnærming (PRIMA) til problemet, som bruker en terskel for å gjøre binære beslutninger på faktiske bindingssteder.

Tre aspekter av de eksperimentelle resultatene som presenteres i denne rapporten synes å være av stor betydning . Først, de eksperimentelt validere kraften i DEMON analyse for å forutsi TFS (og deres mål gener) fra et lite antall differensielt uttrykte gener i PAC. Selv om DEMON viste seg å være overlegen i Prima på simuleringsforsøk, kan dens verdi bli påvist bare ved sin eksperimentelle logisk evne. I vårt tilfelle ble makt DEMON ikke bare validert for RUNX3, men også av egen konsistent identifisering av CBFb, den heterodimere partner (e) av RUNX sub-familien.

For det andre, våre resultater at sterkt som RUNX3 og dens heterodimere partner CBFb bør undersøkes nærmere om deres potensielle rolle (r) i PAC etiologi. Aberrasjoner i ekspresjonen av RUNX1 ble identifisert i en signifikant andel av leukemier [11]. RUNX2 og 3 genene har blitt grundig studert som utviklings TFS. RUNX2 viste seg å være avgjørende for bein og skjelettutvikling [12]. RUNX3 ble vist å være direkte involvert i engasjement av CD4 + /CD8 + celler til CD8 + T-celler og i modningen av dendrittiske T-celler [15], [21]. Noen rapporter viser rollen til RUNX3 i utviklingen av den sensoriske nervesystemet [22], [23]. Hypermethylation av RUNX3 promoter-regionen har vært korrelert med ulike metastatisk ondartet kreft som brystkreft, ikke-småcellet lungekreft, mage, bukspyttkjertel, tykk- eller levercellekarsinom [24]. Viktigere, restaurering av RUNX3 ekspresjon i cancercellelinjer som fører til apoptose eller redusert proliferasjon av kreftceller og til deres differensiering [25] – [28]. Disse og lignende rapporter, fastslått at RUNX3 ser ut til å fungere som en tumor suppressor. De er videre bekreftet av våre funn at ikke-transformerte mesenchymale hIPCs svare på en differensiering stimulans av økt RUNX3 transkripsjon og spredning arrest, mens ondartede PANC-1 celler synes å ha mistet denne regulatoriske respons og fortsetter å spre. I human PAC, ble hypermethylation og tap av heterozygositet av RUNX3 finnes i en stor andel av PAC vev og korrelert med dårligere prognose [17], [18]. Disse funnene plassere RUNX3 som en annen PAC-forbundet genprodukt. DEMON analysen, men plasserer RUNX og sin partner, PEBP, som putatively svært viktige TFS kontrollerer uttrykket av mange PAC-relaterte gener.

Tredje, våre resultater bekrefter hypotesen om at forskjellene mellom normal bukspyttkjertelen og PAC celler er avslørt etter en differensiering stimulans. Denne antakelsen er ytterligere styrket ved en fersk analyse av transcriptomes involvert i kreft og utvikling [29]. I prolifererende hIPCs og Panc-1 celler, både utstilling mesenchymale fenotyper [19], noen RUNX3 transkripsjoner er til stede (terskler på 31,5 og 30 sykluser, henholdsvis). Ved 24 timer i differensiering medium, men nivåene av RUNX3 mRNA i hIPCs økt mer enn 1000 ganger mens det var nesten ingen respons i PANC-1 celler. Likeledes antatte RUNX3 målgener utstilt endret transkripsjon i hIPCs men ingen endringer i PANC-1 celler. Viktigere, Li

et al

. [30] har funnet at RUNX3 uttrykkes bare på holmer og en andel av PAC vev. Våre eksperimentelle data viser at mens RUNX3 mRNA uttrykk ikke kan være annerledes i prolifererende normale og PAC celler, er dens rolle avslørt bare følgende differensiering stimulus, noe som forklarer den tilsynelatende uenigheten mellom funnene i Wada

et al.

Og Nomoto

et al.

[17], [18] og de av Li

et al

. [30].

Viktigere, kan differensieringen-indusert respons av RUNX3 og sine fem mulige mål i hIPCs ikke leses ut fra microarray analyse på grunn av fravær av signal eller deres meget lave nivåer. Selv PECAM1 og CBFA2T1 signaler økt mer enn to ganger, signalene var for lav til å være betydelig. Dette rettferdiggjør bruk av beregnings metoder, slik som demon eller Prima, for å identifisere genet mål og deres validering av den mer følsomme QRT-PCR-teknikken. Riktignok QRT-PCR kan ikke avsløre epigenetiske-kontrollerte reguleringer av celle-fenotype.

Våre resultater tyder på tap av responsen til den RUNX3 genet i PAC og foreslår videre studier, for eksempel undersøkelse av metylering av sin promoter, og en mer omfattende uttrykk studie av mulige RUNX målgener.

Materialer og metoder

The demon algoritmen

The demon algoritmen bruker HMM for å representere TFBSs. Hver HMM består av to typer stater: motiv stater og bakgrunnsland (fig 1).. En bakgrunn tilstand er definert for hvert nukleotid (fire tilstander), og et motiv tilstand er definert for hver posisjon langs PWM svarende til TFBS av interesse. Utslipps sannsynlighetene for motiv stater er definert i henhold til PWM, og de av bakgrunns stater er satt til 1 for tilsvarende nukleotid. Overgangssannsynlig mellom bakgrunnen tilstander reflektere fordelingen av dinukleotider på tvers av alle mulige promotorområdene i menneske. Overgangen sannsynlighet fra hvert motiv tilstand til den neste er satt til 1. Resterende overganger omfatter flytting til bakgrunns statene (Fig. 1, stiplede piler) eller flytte til det første motivet tilstand (fig. 1, solide piler). Disse overgangene er lært å bruke Baum-Welch-algoritmen [31] (Hjelpemiddel Informasjon S1).

Inngangene til DEMON er listen over gener av interesse (Fig. 2a) og et sett TFBS motivene representert ved PWMs . Utgangen er en liste over TFS hvis bindingssteder er statistisk overrepresentert i promotorområdene av den gitte listen av gener.

Som et første steg, bygger vi en HMM fra hvert gitt PWM, og hver Hmm promoter paret er tilordnet med en poengsum som gjenspeiler sannsynligheten for at den respektive TFBS vises i den aktuelle promoter-regionen. Dette resultatet er beregnet som forholdet mellom to verdier (Fig 2b.): (I) sannsynligheten for å slippe ut den promotorsekvensen ved hjelp av TFBS HMM i figur 1, og (ii) sannsynligheten for å slippe ut den promotorsekvens ved hjelp av en HMM består utelukkende av bakgrunns stater. Sannsynlighetsverdiene er beregnet ved hjelp av Forward algoritme [32]. De parvise score blir så brukt for å beregne en enkelt score for hver TF, som gjenspeiler dens samlede overflod i inngangs arrangøren sett. Denne stillingen er definert som sum over alle poeng tildelt individuelt med hver promoter.

I det andre trinnet, bruker vi en empirisk tilnærming for å vurdere den statistiske signifikansen av de samlede sannsynligheten score beregnet for TFS. Vi velger tilfeldig en tilsvarende antall arrangører som i de opprinnelige datasettet fra pool av alle menneskelige promoter regioner og beregne en ny poengsum for hver TF som før (Fig. 2c). Vi gjentar denne prosedyren 100 ganger, og endte opp med et empirisk fordeling av tilfeldige sannsynlighet score. Hver TF blir deretter tildelt en empirisk

p

-verdi definerer som sannsynligheten for å se målet satt summen av poengsummer, gitt de tilfeldige summer som antas å være normalfordelt (Fig. 2d). dvs. beregner vi gjennomsnittet og standardavvik for de tilfeldige score, og bruke den kumulative normalfordelingsfunksjon for å beregne sannsynligheten for at en observasjon fra en standard normalfordeling vil være høyere enn målet satt summen av poengsummer. P-verdiene er korrigert for flere hypoteser testing med falske funnraten prosedyre [33]. Vi rapporterer alle funn med falske funnraten under 5%.

Data Acquisition og PRIMA implementering

Vi har fått et sett av nukleotid distribusjons matriser som modell virveldyr TFBSs fra TRANSFAC database (slipp 11,1) [ ,,,0],8]. Totalt 588 virveldyr matriser ble lastet ned fra databasen. Matrisene ble forvandlet til sannsynlighets matriser som avgrense sannsynligheten for hvert nukleotid skal vises i hver posisjon i TFBS. Siden databasen er overflødig, og noen av matrisene beskriver lignende TFBS, gruppert vi matrisene i et forbehandlingstrinn i en prosedyre lik den som brukes i [4]. For å oppnå dette, bygde vi en PWM

w

fra hver sannsynlighetsmatrise

m

, og brukte en lav pre-beregnet terskel

t

å skanne det menneskelige genom arrangører. Terskelen er beregnet ved å bruke to sett med bakgrunns arrangører: (i) tilfeldige arrangører som er bygd basert på nucleotide distribusjon i alle arrangører, (ii) tilfeldig utvalgte segmenter av virkelige arrangører. De to settene er skannet av hver PWM

w Hotell og terskelen

t

er definert som det maksimale mellom 100

th høyest poengsum fra hver av de to bakgrunns datasett (som innebærer en FPR på 0,01). Hver subsequence som hadde en likhet poengsum til PWM

w

over terskelen

t

ble merket som en antatt forekomst av

w

. Da hvert par av matriser som

x

% av deres skinn på promoteren angitt ble overlapp ble samlet og matrisen med den nedre informasjonsinnhold (dvs. den matriks som er mindre forskjellig fra en uniform fordeling) ble fjernet . Som verdien av

x

vokser, blir clustering kriteriet strengere og resulterte matriser satt vokser, og vice versa. Vi brukte

x

= 0,2 for å få et sett av 219 matriser til å bruke i vår analyse.

Vi har lastet ned den komplette sett med menneskelige arrangører fra UCSC Genome Browser database [34], [35 ]. Basert på foreløpige tester og nyere studier som hevder at det meste av TFBSs i menneskelige arrangører ligger i nærheten av transkripsjon start stedet [36] definerer vi promotorområdene av genene som 500 bp sekvens oppstrøms til transkripsjonsstartsetet.

Vi har implementert PRIMA som beskrevet i [4].

cellekulturer

menneske~~POS=TRUNC holmen-avledet bukspyttkjertelen forløper celler (hIPCs) ble isolert og formert i modifisert CMRL medium som tidligere beskrevet [ ,,,0],20]. Menneskelig bukspyttkjertelen adenokarsinom cellelinje PANC-en ble kjøpt fra American Tissue Type Collection og vedlikeholdes i Dulbecco modifisert minimal Eagle Medium (DMEM) som tidligere beskrevet [20]. Partiell differensiering av hver celletype ble oppnådd ved å dyrke cellene i serumfritt medium, i det vesentlige som tidligere beskrevet [20]. Cellene ble dyrket og vedlikeholdes i 95:5% luft. CO

2 atmosfære ved 37 °

DNA-mikromatriser

Affymetrix Genechip Human Genome U133 Plus 2.0 fra microarray (katalog # 900466) ble anvendt, hvilket ga 12,760 sekvenser. hIPCs ble analysert i tre eksemplarer, og hver av et separat biologisk prøve. PANC-1-celler ble analysert i pentaplicate matriser, to fra forskjellige biologiske replikater og en annen biologisk replikere i triplikat matriser. Hvert sett besto av prøver isolert fra prolifererende celler (t = 0, i 10% føtalt, okseserumholdig medium) og celler etter 24 timer i serumfritt (differensiering) medium.

Legg att eit svar