Abstract
Den omfattende identifisering av funksjonell transkripsjonsfaktorbindingsseter (TFBSs) er et viktig skritt i å forstå komplekse transkripsjonsregulerende nettverk. Denne studien presenterer et motiv basert komparativ tilnærming, STAT-Finder, for å identifisere funksjonelle DNA-bindende områder av STAT3 transkripsjonsfaktor. STAT-Finder kombinerer STAT-skanner, som er designet for å forutsi funksjonell STAT TFBSs med forbedret sensitivitet, og et motiv basert justering for å minimere falske positive prediksjon priser. Ved hjelp av to referansesett som inneholder promotersekvenser kjente STAT3 målgener, STAT-Finder identifisert funksjonell STAT3 TFBSs med forbedret prognose effektivitet og følsomhet i forhold til andre konvensjonelle TFBS prediksjon verktøy. I tillegg STAT-Finder identifisert nye STAT3 målgener blant en gruppe gener som er over-uttrykt i humane kreftceller. Bindingen av STAT3 til den forutsagte TFBSs ble også eksperimentelt bekreftet gjennom kromatin immunpresipitering. Vår foreslåtte metoden gir en systematisk tilnærming til prediksjon av funksjonelle TFBSs som kan brukes på andre TFS
Citation. Oh YM, Kim JK, Choi Y, Choi S, Yoo JY (2009) Prediction and Experimental Validation av Novel STAT3 målgener i humane kreftceller. PLoS ONE 4 (9): e6911. doi: 10,1371 /journal.pone.0006911
Redaktør: Sridhar Hannenhalli, University of Pennsylvania School of Medicine, USA
mottatt: 02.04.2009; Godkjent: 03.08.2009; Publisert: 04.09.2009
Copyright: © 2009 Oh et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet med tilskudd fra Korea Science and Engineering Foundation (KOSEF) finansiert av MEST (R01-2008-000-20721-0) og til National Kjerne Research Center for systemer Bio-Dynamics (R15-2004-033). J. K. Kim er støttet av en Microsoft Research Asia fellesskap. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
evnen til enhver biologisk system du skal svare på stimuli tungt avhengig av biokjemiske kaskader av signalveier som kulminerer i aktivering av transkripsjonsfaktorer (TFS) og den påfølgende endring av genuttrykksmønster [1]. Informasjon om hvilke gener som skal uttrykkes i et bestemt celletype som til enhver tid er antatt å være kodet i genomet. Den molekylære maskineri som brukes til å tolke slik genetisk informasjon har utviklet seg til å sikre nøyaktighet og spesifisitet av genregulering. Transkripsjon er en flertrinnsprosess som krever felles handling av mange proteiner. Transkripsjonelle aktivatorer og repressorer binder i en sekvens-spesifikk måte for å promotere eller forsterkere av målgener. De styrer rekruttering av trans-aktivatorer, kromatin modifikatorer, og generelle transkripsjonsfaktorer, inkludert RNA polymerase II, for å regulere genuttrykket [2], [3].
Hele genomet tilnærminger for å måle genom-wide uttrykk mønstre har røpet grupper av gener som er co-regulerte å utøve romlig og tidsmessig kontrollert cellulære responser [4]. Identifisere de ansvarlige myndighets moduler som styrer koordinerte handlinger kombinatoriske transkripsjonsfaktorer er avgjørende for å forstå de regulatoriske kretser av biologiske prosesser [5]. For dette formålet, har dataverktøy er utviklet for å hjelpe til med identifisering av transkripsjon faktor bindingssteder (TFBSs) i arrangører av co-regulert gener [6], [7], [8]. Disse beregningsfremgangsmåter kan deles i to klasser: (1)-mønsteret og (2) mønstergjenkjenning. Mønster deteksjon, også kjent som de novo motiv oppdagelse, finner antatte bindingssteder for ukjente TFS som er overrepresentert i arrangører av co-regulert gener. Dersom den bindende spesifisitet av et TF er allerede kjent, blir mønstergjenkjenning metoder foretrekkes [9]. I mønstergjenkjenning tilnærmelse blir DNA-sekvensinformasjon fra TFBSs uttrykt som en posisjon vekt matrise (PWM), som kan brukes til å plassere ballen mulige reguleringsseter innenfor et statistisk rammeverk [10]. Imidlertid, fordi DNA-bindingsseter for TFS er generelt kort og degenerert, er denne metoden er utsatt for høye falske positive prediksjon prisene [11].
Basert på den observasjon at konservert ikke-kodende DNA-sekvenser er ofte viktig for regulering av biologiske funksjoner, har cross-arter sekvenssammenligninger vært aktivt integrert for å skille funksjonelle og ikke-funksjonelle TFBSs [12], [13], [14]. Det å innlemme evolusjonært konserverte sekvensinformasjon i de regulatoriske regioner filtrerer ut de ikke-konservert TFBSs, og dermed i stor grad redusere falsk positiv prediksjon hastighet [15], [16], [17], [18], [19]. Selv om denne tilnærmingen har blitt brukt til å øke den prediktive kraft motiv funn, er det svært følsom for algoritmen som brukes for sekvenssammenstilling og nøyaktigheten av annotert transkripsjonen start hotellet (TSS) informasjon. Derfor har det blitt rapportert at sekvensbaserte promotor-linjer ofte mislykkes i å detektere korte eller degenererte regulatoriske elementer, når evolusjonære divergerende promotersekvenser er innrettet [12], [17]. For å overvinne disse begrensningene, har en justeringsfritt algoritme basert på nettverksnivå bevaring også blitt foreslått [20].
Signal svinger og aktivator av transkripsjon 3 (STAT3) tilhører STAT familien av transkripsjonsfaktorer, som aktiveres av interleukin-6 (IL-6) og beslektede cytokiner, slik som IL-10, Oncostatin M (OSM), og leukemi-inhiberende faktor (LIF) [21]. Hittil syv pattedyr statistikk (1, 2, 3, 4, 5a, 5b og 6) har blitt identifisert. De alle har et DNA-bindende domene, et SH2 domene for dimerisering, og en C-terminal trans-aktiveringsdomenet [22]. Ved stimulering med ekstracellulært ligand danner aktivert STAT3 homodimerer eller heterodimerer med en annen STAT familiemedlem, STAT1, så translocates inn i kjernen og binder seg til beslektede regulatoriske elementer i arrangører av STAT-responsive gener. Samler bevis tyder på at STAT3 knytter også med andre transkripsjonsfaktorer for å danne enhanceosome komplekser i promotorområdene av målgener og styrer samarbeids genet induksjon [23], [24], [25]. STAT3 er involvert i ulike cellulære responser, inkludert celledifferensiering, overlevelse, stamcelle fornyelse, sårheling og systemisk inflammasjon; Dette har blitt bevist av fenotyper av genmodifiserte Stat3 mutante mus [22], [26], [27], [28], [29]. Det er blitt funnet at STAT3 deltar i karsinogenese, og at ektopisk ekspresjon av en konstitutivt aktiv form av STAT3 (STAT3-C) induserer tumordannelse i nakne mus [30]. Videre er ekspresjon av konstitutivt aktive STAT3 blitt observert i en rekke typer av kreft hos mennesker, inkludert multippel myelom, kolon, ovarier, lever, lunge, hode og hals-kreft [31]. Mens de regulatoriske og generelle transaktiveringsmekanismer STAT3 har blitt grundig studert, har ikke altfor store anstrengelser blitt gjort mot identifisering av direkte målgener av STAT3. Identifiseringen av de målgener er avgjørende for formidling av ulike biologiske effekter av STAT3 signalering.
For å karakter Stat3-mediert transkripsjons programmer, har vi utviklet en beregnings rammeverk utformet for å forutsi STAT3 TFBSs med forbedret sensitivitet og lav falsk positiv sats. Gjennom integrering av microarray data innhentet fra STAT3 aktivering tilstand og TFBS prediksjon verktøy, forsøkte vi å identifisere nye STAT3 målgener. Ved hjelp av vår STAT-Finder program, identifiserte vi åtte nye STAT3 målgener blant en gruppe gener som er høyt uttrykt i kreftceller. Disse ble deretter bekreftet gjennom kromatin immunoprecipitation.
Resultater
Oversikt over STAT-Finder
For å identifisere direkte STAT3 målgener, har vi utviklet en beregnings rammeverk som spår funksjonell TFBSs av STAT3 med økt følsomhet og lav falsk positiv rate. Vårt rammeverk, STAT-Finder, ble konstruert basert på to beregnings komponenter, en TFBS skanneprogram (STAT-Scanner) og et motiv basert justering program (figur 1). STAT-Scanner er designet for å øke følsomheten for påvisning av funksjonell STAT3 TFBSs. En for tiden tilgjengelig STAT3 spesifikk PWM av TRANSFAC database [32], V $ STAT3_01, svikter ofte for å påvise eksperimentelt påvist STAT3 bindingsseter (data ikke vist). For forbedret prediktiv kraft, ble STAT-Scanner derfor designet for å bruke kombinerte PWMs forpliktende spesifisitet lik STAT3. Selv STAT familiemedlemmer har ulike fysiologiske funksjoner og regulere forskjellige sett med mål gener, målene for individuelle STAT proteiner noen ganger overlapper hverandre, og DNA-sekvenser som gjenkjennes av STAT familiemedlemmer er like [21], [22], [23].
STAT-Finder har to komponenter: Den første modulen, STAT-skanner, tar et sett med seks ortologe pattedyr promotersekvenser som input. Hver søker sekvens er søkt å markere mulige TFBSs bruker modifiserte 8 STAT-relaterte PWMs. Bindende affinitet scorene til predikerte TFBSs er beregnet basert på
P
-verdier, og en sekvens av tilhørighet score genereres for hver promoter. Den andre modulen gradvis justerer rillesekvenser og beregner posterior sannsynlighet for å vurdere graden av motivet bevaring.
For objektiv identifikasjon av PWMs som deler sekvenslikhet med STAT3 spesifikke PWM, V $ STAT3_01, totalt 565 PWMs avledet fra vertebrat TRANSFAC database [32] ble samlet basert på deres motiv likheten (figur S1). Motivet likheten ble definert som
P
-verdi av gapped justering mellom de to PWMs basert på Kullback-Leibler divergens [33] (se Methods). Totalt antall PWM klynger økt med strenge
P
-verdi cut-off, nå maksimale klase tall på rundt 10
-16
P
-verdi (figur S1 A). Med
P
-verdi cut-off på 10
-7, PWMs tilordnet de STAT familiemedlemmene ble funnet i samme klynge. Det er bemerkelsesverdig at PWM clustering ikke avsløre noen ikke-STAT PWMs som var like nok til å inkludere eller var det noen STAT PWMs som var tydelig annerledes (Figur S1B). Vi valgte blant dem åtte PWMs fra STAT familiemedlemmer med høy PWM kvalitetspoeng ( 0,6), hvor hver kvalitet Poengsummen ble beregnet ved hjelp av metoden foreslått av Rahmann et al. [34]. Relevansen av de utvalgte PWMs for å påvise kjent STAT3 TFBS har blitt evaluert i de tidligere identifiserte STAT3 målgener [35] (figur S2).
For å minimere falske positive spådommer, resultater fra STAT-skanner ble deretter analysert ved hjelp sammenlignings motivet baserte innrettingsverktøy (figur 1). Denne metoden funn konservert bindingssteder innenfor ortologe arrangører av seks pattedyrarter ved å sammenligne flere sekvenser. Innenfor en sannsynlighets rammeverk, STAT-Finder Deretter evaluerer bakre sannsynlighetene for TFBSs som spådd av STAT-skanner ved å tildele høyere tidligere sannsynlig på konserverte nettsteder over ikke-konserverte seg.
Validering av STAT-Scanner
Vi først sammenlignet ytelsen til STAT-skanner med de mest praktiske TFBS prediksjon verktøy, MATCH 2.7 [36] og MotifLocator [37]. For dette formålet, samlet vi positive gener med eksperimentelt påvist Stat3 bindingsseter i sine promotorområdene gjennom litteratur gruvedrift og TRED søk (https://rulai.cshl.edu/TRED) [38]. Resulterer informasjon om de 22 referansesekvenser er oppført i tabell S1. Genomiske DNA-sekvenser som strekker seg fra 2000 bp oppstrøms til 500 bp nedstrøms fra den kommenterte TSS av hvert gen ble anvendt som input promotersekvenser. Prediksjon av den sanne positive TFBSs ble deretter plottet som en funksjon av den totale forutsagte TFBS teller for forskjellige cut-off-verdier. Som vist i figur 2A, STAT-skanner, som bruker kombin Stat3 relaterte PWMs, utkonkurrerer MATCH og MotifLocator, som begge bruker representanten STAT3 PWM (V $ STAT3_01). Vi tror at økt prediktiv kraft STAT-Scanner var delvis på grunn av bruken av kombinerte Stat3 relatert PWMs, spesielt siden den prediktive kraft MotifLocator også økt når kombinert PWMs ble brukt (figur S3).
Kurver for endringer av antall sanne positive TFBSs oppdages ved hjelp MotifLocator (V $ STAT3_01), MATCH (V $ STAT3_01), eller STAT-skanner, som en funksjon av antall spådd TFBSs (A) i referanse sett 22 STAT3 mål gener (Tabell S1) og (B) i genom-wide STAT3 ChIP-Seq datasett [39].
Vi evaluerte også resultatene av STAT-skanner ved hjelp av genom-wide Stat3 bindende data innhentet ved hjelp embryonale stamceller [39]. Blant de 461 gener med STAT3 binding topper i 2,5 kb promotorområdene, er 412 blitt nøyaktig forutsagt av STAT-skanner for å ha minst en STAT3 TFBS (figur 2B). Den samlede ytelsen til STAT-Scanner var bedre enn de av både MATCH og MotifLocator, som påvisning av samme antall sanne bindingssteder ble oppnådd ved både med betydelig lavere totale antall predikerte nettsteder. Selv MATCH og MotifLocator utført på samme måte som STAT-skanner i å avdekke om lag 50% av sann STAT3 TFBSs, utkonkurrerer den sistnevnte både nøyaktig forutsi de gjenværende sanne nettsteder. Vi tror dette er delvis på grunn av bruken av kombinerte STAT-relaterte PWMs som har evnen til å forbedre ytelsen til MotifLocator, om enn mindre enn forsterkningen for STAT-skanner, med kombinerte data fra flere PWMs (figur S4). Den relative utviklingen av begge metodene er lav sammenlignet med STAT-Scanner; Dette kan forklares med det faktum at deres score på de antatt nettstedene er ikke direkte sammenlignbare mellom ulike PWMs, og dermed viser viktigheten av vår scoring ordningen med å integrere kampene til forskjellige PWMs. Disse resultatene indikerer også at overlapp PWMs med lignende binding spesifisitet er avgjørende for utviklingen av bedre strategier for å avdekke funksjonelle TFBSs av STAT3 med høy prediktiv nøyaktighet.
Valg av funksjonell STAT3 TFBS
Den ultimate målet med beregnings prediksjon er å oppdage funksjonell TFBSs med en høy grad av tillit. For å filtrere ut falske positive TFBSs med høy affinitet score, undersøkte vi ulike funksjonelle begrensninger som evolusjonære bevaring og genomstrukturen spådd STAT3 TFBS regioner. Sequence bevaring mellom flere arter har vist seg å begrense funksjonell TFBS [16], [17], [40]. Derfor først evaluert vi fordelingen av flerbestands bevaring score (PhastCons skårer) [41] og regulatoriske potensialer (RegPotential score) [42] for stillinger i funksjonelle og ikke-funksjonelle STAT3 TFBSs oppdaget av STAT-skanner ved hjelp av referansen sett 22 gener (Tabell S1). For enkelhets skyld, vi vurderte en TFBS funksjonell hvis det ble støttet av eksperimentell STAT3 binding data; ellers ble TFBS ansett som ikke-funksjonell. Fordelingen av PhastCons score for ikke-fungerende STAT3 TFBSs ble skjevt mot null, mens PhastCons score for ca 50% av den funksjonelle STAT3 TFBS skredet 0,1 (figur 3A). I motsetning til dette fordeling av RegPotential poengsummer, som måler likheten av mønstrene som de i de kjente regulatoriske elementer, var lik for posisjoner av de funksjonelle og ikke-funksjonelle STAT3 TFBSs (figur 3B). Deretter undersøkte vi de metylering bestandig CpG island funksjoner av STAT3 TFBS holdige regioner. Overrepresentasjon av bindingssekvensene for spesifikke transkripsjonsfaktorer, slik som sink-finger-proteiner, i CpG-øyer er tidligere blitt rapportert [43]. Mesteparten av den forutsagte STAT3 TFBSs er plassert inne CpG øyer [44], men det genomiske fordelingen ikke er signifikant endret blant de funksjonelle og ikke-funksjonelle STAT3 TFBSs (figur 3C). Gjenta elementer [45] i genomisk sekvens kan kompromittere funksjonene til transkripsjonsfaktorer, som ingen av funksjonelle STAT3 TFBSs har blitt identifisert i de gjentatte regioner (Figur 3D). Oppsummert har motiv bevaring, en stor begrensning som skiller mellom funksjonelle og ikke-funksjonelle STAT3 TFBSs derfor tatt inn i STAT-Finder.
(A) PhastCons keeper, (B) Regulatory Potential score, (C ) Andel i CpG island, og (D) Prosent i Gjenta regionen.
Validering av STAT-Finder
Vi har evaluert resultatene av STAT-Finder i forhold til andre sammenlign neste metoder, nemlig EEL [46] og CONREAL [12]. Gitt at EEL utfører parvis justering basert på kampene til en enkelt PWM, sammenlignet vi resultatene av EEL bruker hver PWM (V $ STAT3_01 og V $ STAT1_01) separat. I mellomtiden ble resultatene av CONREAL undersøkt ved å kombinere begge PWMs. Vi testet prediksjonsnøyaktigheten av STAT-Finder i de to positive datasett med Stat3 bindinger. STAT-Finder utstilt bedre ytelse i forhold til EEL bruker V $ STAT3_01, ål ved hjelp av V $ STAT1_01, eller i forhold til CONREAL forutsi sant STAT3 TFBSs i de 22 tidligere identifiserte positive gener (Figur 4A). Merk at både ål og CONREAL ikke klarte å oppdage om 40-60% av sanne positive Stat3 nettsider selv på minimum cut-off verdi, mens STAT-Finder funnet alle disse. Disse dataene indikerer at STAT-Finder viste bedre ytelse i forhold til å finne ekte positive STAT3 TFBSs at de andre komparative programmer savnet. Det ble gjort mer tydelig når vi søkte STAT3 TFBSs hjelp EEL eller CONREAL i datasettene med genome-wide STAT3 bindende. Selv om den generelle ytelsen til STAT-Finder var lik EEL i å oppdage 56% av sann STAT3 TFBSs, bare STAT-Finder var i stand til å oppdage de resterende 30% av de virkelige områder (figur 4B). Våre data antyder at forbedret følsomhet av STAT-Finder kunne tilskrives bruken av kombinerte STAT-relaterte PWMs, som tydeligvis vant begrensningene av V $ STAT3_01 ytelse.
kurver for endring av antall virkelige bindingssteder oppdaget ved hjelp av ål (V $ STAT3_01 eller V $ STAT1_01), CONREAL (Alle, kombinert PWMs av V $ STAT3_01 og V $ STAT1_01), eller STAT-Finder, som en funksjon av antall spådd TFBSs (A) i henvisning sett av 22 gener (Tabell S1) og (b) i genom-wide STAT3 ChIP-Seq datasett [39].
neste forsøk genome-wide prediksjon av STAT3 bindende i den menneskelige promoter regioner. For dette formål vi først estimert cut-off-verdien av motivet bevaring score (MCS) for å identifisere konservert funksjonell STAT3 TFBSs. Graden av bevaring av den anslåtte TFBS, som ble bestemt ved å beregne MCS, ble integrert med affinitet score ved STAT-skanner (Se Methods). Tilliten poengsum på hvert MCS ble evaluert med 2,5 kb promoter sekvenser av alle kommenterte menneskelige gener og ortologe muse gener. Tilliten poengsum avgjør sannsynligheten for at en gitt TFBS ikke er konservert ved en tilfeldighet. Som cut-off verdier av MCS økt, det totale antall spådd STAT3 TFBSs redusert i et saktere tempo enn det gjennomsnittlige antallet justert tilfeller av kontroll motiver, noe som resulterer i eskalerte tillit score på MCS-verdier høyere enn 0,9 (figur S5). Bruk av STAT-Finder, utførte vi et genom-wide søk etter STAT3 TFBSs i den menneskelige promotorområdene. Blant de 15461 humane gener med identifiserte ortologer i mus, var ca 7600 gener spådd å ha antatt STAT3 bindingsseter innenfor den 2,5 kb-promoter-regionen, ved sannsynligheten terskel på 0,9. Betydelig anrikning av STAT3 TFBSs kan forutsies på proksimale oppstrøms områder av TSS ved hjelp av STAT-skanner og STAT-Finder [35], [39] (figur S6).
Identifisering av nye STAT3 målgener i kreft celler
konstitutiv aktivering av STAT3 og over-uttrykk for sitt mål genet har blitt foreslått å spille viktige roller i menneskelige kreftutvikling [12], [31], [47], [48], [49], [ ,,,0],50]. For å avgjøre hvorvidt STAT-Finder er nyttig for å identifisere nye STAT3 målgener, søkte vi dette programmet til en gruppe av gener som er over-uttrykt i humane kreftceller. Vi integrerte microarray data innhentet fra modul kartet uttrykket av gener oppregulert i kreft [51] og data avledet fra A549 celler over-uttrykker en konstitutivt aktiv form for STAT3 [52].
Blant de 33 genene som er vanlig opp-regulert, elleve har allerede blitt rapportert å være regulert av STAT3 (tabell 1). Ved hjelp av denne gruppen av gener, undersøkte vi hvorvidt STAT-Finder kunne oppdage eksperimentelt bevist STAT3 TFBSs. Det er bemerkelsesverdig at vi var i stand til å analysere bare en brøkdel av de promotersekvenser, hovedsakelig på grunn av alternativ arrangøren bruk og dårlig merket TSS informasjon tilgjengelig. STAT-Finder oppdaget tre mulige Stat3 bindingsseter i
JUNB
promoter-regionen, inkludert ett område som tidligere har blitt rapportert å være en STAT3 bindingssete [53] (figur 5A). Ved hjelp av tre ulike cellelinjer avledet fra humane kreftpasienter, bekrefter vi STAT3 binding til
JUNB
arrangøren av kromatin immunoprecipitation (figur 5B). STAT-Finder også med hell oppdaget en STAT3 TFBS i nikotinamid N-metyltransferase (
NNMT
) promoter-regionen, en nylig identifisert STAT3 målet genet [54] (figur 5C, D). Interessant, STAT-Finder var ikke i stand til å oppdage kjente STAT3 TFBS i
MYC
promoter-regionen (figur 5E), selv om
MYC
har blitt rapportert å være en STAT3 mål [55]. Det har også blitt rapportert at STAT3 binding til promoter-regionen til
MYC
gen krever et område som er forskjellig fra konsensus STAT3 bindingssekvenser, men er i likhet med E2F TFBS, noe som indikerer at, i dette tilfellet, STAT3 binding er avhengig av tilstedeværelsen av andre transkripsjonsfaktorer [55]. Bruke primersett som gjenkjenner kjente Stat3 bindingssteder i
MYC
promoter, var vi i stand til å bekrefte sin bindende IL-6 stimulering i HepG2 celler (Figur 5F). Disse resultatene tyder på at STAT-Finder kan effektivt oppdage bindingssteder for STAT3 bare hvis bindende er ikke avhengig av tilstedeværelsen av andre
cis
eller
trans
faktorer.
( A, C, E) affinitet score fra STAT-skanner (øverst) og bakre sannsynlighet fra STAT-Finder (midten) av forventet STAT3 er plottet i skyvevinduer for en 2,5-kb promoter-regionen på tvers av
JUNB
(A),
NNMT product: (C), og
MYC product: (E) genomisk loci. Den åpne plassen nederst viser de forut TFBS med bakre sannsynlighet høyere enn 0,95; mens asterisk (*) i promoterregionen viser den kjente STAT3 TFBS. (B, D, F) Chromatin immunpresipitasjonsanalyse med et anti-STAT3 antistoff: Rapportert STAT3 TFBSs av
JUNB plakater (B),
NNMT product: (D), og
MYC
(F) ble PCR amplifisert ved å bruke primerne spesifikke bindingsseter (*) fra inngangs og immunoutfelt cellelysater, avledet fra den ikke-stimulerte eller IL-6 (10 ng /ml) + IL-6SR (10 ng /ml) stimulert HepG2, A549, og MDA-MB-231 celler.
Vi neste undersøkt hvorvidt vi kan identifisere nye målgener av STAT3 hjelp STAT-Finder. For dette formål har vi valgt gener med konservert TSS (tabell 1) og bestemt nærvær av antatte STAT3 TFBSs ved hjelp av STAT-Finder i deres promotorområdene. STAT-Finder vellykket detektert antatte STAT3 TFBSs med stor sannsynlighet i promotorområdene av
AKAP12 plakater (A-kinase forankrings protein 12),
HIC2 plakater (hyper-metylert i kreft 2), og
THBS1 plakater (Thrombospondin 1). STAT3 binder seg til disse forutsagte-setene ble eksperimentelt bekreftet av Chip-analyse (figur 6A-F). For å verifisere spesifisitet av STAT-Finder, vi også analysert binding av STAT3 til områder som ikke ble bevart, men var tilstede i arrangører av menneske ortologe gener. I motsetning til den konservert STAT3 TFBSs, kunne vi ikke påvise STAT3 binding til den ikke-konservert STAT3 TFBSs i humane kreftcellelinjer (figur 6G). STAT3 binding til andre spådde STAT3 TFBSs stede i promotorområdene av
ATF3 plakater (aktiverende transkripsjonsfaktor 3),
DUSP5 plakater (dual spesifisitet fosfatase 5),
SERPINE1 plakater (Serpin peptidase hemmer, klasse E),
NP plakater (nukleosid fosforylase), og
SLC2A3 plakater (oppløst stoff carrier familie 2, tilrettelagt glukosetransportør, medlem 3) ble også eksperimentelt validert (figur S7). Til slutt studerte vi om ikke annet beregningsverktøy som EEL eller CONREAL kan også nøyaktig oppdage Stat3 målse som har blitt identifisert og validert i denne studien. Av 10 promotersekvenser inneholder eksperimentelt påvist 10 Stat3 bindingssteder (figur 5, 6 og S7), STAT-Finder spådd totalt 29 Stat3 bindingssteder, inkludert alle de 10 eksperimentelt validerte Stat3 bindingssteder. I mellomtiden, ål og CONREAL oppdaget bare fem (50%) og 2 (20%) validert STAT3 bindingsseter mellom 23 og 6 totalt spådommer, henholdsvis, og dermed indikerer at STAT-Finder har bedre ytelse i forhold til å identifisere nye målgener av STAT3 ( Figur S8).
(A, C, E) Den affinitet poengsum (topp, STAT-skanner) og posterior sannsynlighet (i midten, STAT-Finder) av forventet STAT3 TFBSs er plottet i skyvevinduer for en 2,5 -kb promoter-regionen på tvers av
AKAP12 product: (A),
HIC2 product: (C), og
THBS1 product: (E) genomisk locus. Den lukkede firkant nederst viser den anslåtte TFBS med posterior sannsynlighet 0,5; mens den gule firkanten viser den anslåtte TFBS uten bevaring. (B, D, F) chips analyse med et anti-STAT3 antistoff. Antatte STAT3 TFBSs av
AKAP12 plakater (B),
HIC2 product: (D), og
THBS1
ble PCR forsterket ved hjelp av primer sett indikert med inverse piler. (G) chips analyse med et anti-STAT3 antistoff. Forut TFBSs uten bevaring i menneske
AKAP12
,
HIC2
, og
THBS1
gener var PCR forsterket ved hjelp av primer sett indikert med inverse piler.
Diskusjoner
Vi presenterte en beregnings rammeverk for å identifisere funksjonelle STAT3 TFBSs i pattedyr arrangører. Det første rommet, STAT-skanner, er designet for å forutsi funksjonell STAT3 TFBSs med forbedret sensitivitet. Ved å bruke sammenlignende motiv baserte justeringer, ble STAT-Scanner knyttet til STAT-Finder for å minimere falske positive spådommer. Vår foreslåtte metoden ble testet ved hjelp av tidligere identifiserte Stat3 målgener og ble vellykket anvendt til identifisering av nye målgener.
Vår strategi med å utvikle STAT-Finder stolt på flere forutsetninger. Først blir DNA-bindende spesifisitet av STAT3 deles av andre STAT-familiemedlemmer. STAT transkripsjonsfaktorer bindes til tilsvarende DNA-sekvenser, og det tilsvarende DNA-bindende spesifisitet av forskjellige STAT transkripsjonsfaktorer, slik som STAT1, STAT5A /5B, eller STAT6, er blitt eksperimentelt påvist [56]. Det er også blitt bemerket at integrasjon av de overlappende fyrstikker detektert av matriser fra de samme familiemedlemmene i stor grad reduserer antallet totale forutsagt TFBSs, og følgelig reduserer hastigheten av falsk positiv påvisning [57]. Videre har det nylig blitt rapportert at omtrent halvparten av TFS gjenkjenne flere sekvensmotiver [58]. Derfor er en konvensjonell motiv skanning tilnærming ved hjelp av et enkelt PWM for hver TF har en iboende begrensning i påvisning av alle funksjonelle TFBSs. Som et resultat ble prediktiv kraft STAT-Scanner betydelig forbedret ved å integrere STAT-relaterte PWMs. Den andre antagelsen, som brukes i den motivbaserte justeringer, er at de relative plasseringer av funksjonell TFBSs er konservert blant nær beslektede pattedyrarter. I gjær, høyt konservert TFBSs for et sett med TFS utstillingen relativt lave romlige avvik (~150-200 bp) [20]. Likeledes, fant vi at for seks pattedyrarter, er kjent STAT3 TFBSs ligger innenfor en tilsvarende romlige fordeling på hver promoter.
Bruk av STAT-Finder, vi har identifisert en liste over Stat3 målgener som er over-uttrykt i humane kreftceller. Likeledes STAT3 binding til den forutsagte TFBSs har blitt eksperimentelt verifisert i IL-6 stimulerte humane kreftcellelinjer. Interessant, STAT3 ble rekruttert til den anslåtte TFBS i en celletype-spesifikk måte. For eksempel STAT3 binding til den anslåtte TFBSs i promotorområdene i
AKAP12 Hotell og
HIC2
gener ble observert i un-stimulert, men ikke i IL-6 stimulert A549 og MDA-MB- 231 celler. Men i HepG2 celler, ble STAT3 rekruttert til det samme TFBS bare etter IL-6 stimuleringen (figur 6). I kontrast STAT3 binding til promotorområdene av
MYC
,
SERPINE1
,
NP
, og
SLC2A3
var bare påvises i IL-6 stimulert HepG2-celler, men ikke i A549 eller MDA-MB-231-celler (figur 6, figur S7). Videre er det åpenbart at STAT3 binding til det forutsagte TFBSs i promotorene til kandidat målgener garanterer ikke ekspresjonen av dette gen. Selv om ekspresjonen av de fleste av målgener hadde blitt endret ved STAT3 binding til promotoren, har vi funnet at STAT3 bindings målnettsteder ikke alltid korrelerer med genekspresjon i cellelinjene som ble testet (Oh, YM, upubliserte data). Dette tyder på at STAT3 binding til målet områder ikke er tilstrekkelig til å indusere genekspresjon, og vevs-spesifikke transkripsjonsfaktorer, eller trans-aktivatorer som spesifiserer modifikasjon i kromatin område kan også være nødvendig for [59], [60], [61], [62].
en
cis
regulatoriske modul består av en klynge av flere TFBSs som kooperativt-samhandler med TFS å kontrollere genuttrykk. Identifiseringen av
cis
regulatoriske moduler for spesifikke genregulering er en utfordrende skritt mot forståelse genome-wide transkripsjons regulatoriske nettverk i pattedyr genomer. Derfor er det nødvendig å effektivt forutsi funksjonell TFBSs for individuelle TFS. Vi forventer at våre komparativ tilnærming kan brukes på andre TFS med noen begrensninger. Først effektiviteten av vårt program avhenger av graden av evolusjonær konservering blant de seks pattedyrart. Derfor kan DNA-bindingsseter for TFS engasjert i artsspesifikk genregulering ikke forutsies. Det er bemerkelsesverdig at den hyppige gevinst eller tap av TFBSs i intergeniske regioner fører til utviklingen av transkripsjons kretser [63]. For det andre kan vårt program ikke brukes til Tenerife som er avhengige av andre DNA-bindende proteiner for rekruttering inn i DNA. Tredje, fordi vi bare sammenlignet 2 kb oppstrøms promotorsekvens i forhold til den kommenterte TSS, DNA-bindende områder av TFS som er beriket i regioner distale til TSS kan bli oversett av vårt program.