PLoS ONE: En integrerende tilnærming for kartlegging forskjellig uttrykt Gener og nettverkskomponenter Bruke Novel Parametere for å belyse viktige regulatoriske gener i tykktarmskreft

Abstract

For å undersøke den intrikate biologiske prosesser som er opptatt av tykk- og endetarmskreft (CRC), er en systembiologi tilnærming som integrerer flere biologiske komponenter og andre påvirkende faktorer avgjørende for å forstå. Vi utførte en omfattende systemnivå analyse for CRC som assisterte i rakne viktige nettverkskomponenter og mange regulatoriske elementer gjennom en koordinert syn. Ved hjelp av denne integrerende løsning blir observant av kompleksiteten skjult i et biologisk fenomen i stor utstrekning forenklet. Den microarray analyser tilrettelagt differensial uttrykk av 631 betydelige gener som benyttes i utviklingen av sykdommen og levert interessante forbundet opp og ned regulerte gener som

juni

,

fos Hotell og

mapk1

. Transkripsjons reguleringen av disse genene ble behandlet mye ved å undersøke transkripsjonsfaktorer som

hnf4

,

nr2f1

,

znf219 Hotell og

DR1

som direkte påvirker uttrykk. Videre ble interaksjoner av disse genene /proteinene evaluert og avgjørende nettverks motiver ble påvist å assosiere med patofysiologien av CRC. De tilgjengelige standard statistiske parametre som

z

-score,

p

-verdi og betydning profil ble undersøkt for identifisering av viktige signaturer fra CRC veien mens noen nye parametere som representerer over-representert strukturer det ble også konstruert i studien. Den anvendt tilnærming avslørte 5 viktige gener dvs.

kras

,

araf

,

pik3r5

,

ralgds Hotell og

akt3

via vår roman utformet parametere som illustrerer høy statistisk signifikans. Disse nye parametre kan bistå i å granske kandidat markører for sykdommer som har kjente biologiske veier. Videre undersøker og målretting disse foreslåtte gener for eksperimentelle valideringer, i stedet blir trollbundet av den kompliserte veien vil sikkert gi gave til verdifull innsikt i en godt timet systematisk forståelse av CRC

Citation. Sehgal M, Gupta R, Moussa A Singh TR (2015) en integrerende tilnærming for kartlegging forskjellig uttrykt Gener og nettverkskomponenter Bruke Novel Parametere for å belyse viktige regulatoriske gener i tykktarmskreft. PLoS ONE 10 (7): e0133901. doi: 10,1371 /journal.pone.0133901

Redaktør: Ying Xu, University of Georgia, USA

mottatt: 17 april 2015; Godkjent: 02.07.2015; Publisert: 29.07.2015

Copyright: © 2015 Sehgal et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Datatilgjengelighet: Data er tilgjengelig fra Dryad. DOI:. 10,5061 /dryad.5b1j0

Finansiering: Dette arbeidet ble støttet av vitenskap og Engineering Research Board, Ministry of Science and Technology (DST), India, gi nummer SR /FT /LS-026/2009 .

konkurrerende interesser:. forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

tykktarms~~POS=TRUNC kreft~~POS=HEADCOMP (CRC) påvirker millioner av mennesker over hele verden og finnes som oftest diagnostisert kreft etter lungekreft og brystkreft [1]. CRC bidrar til nest største dødsårsaken hos menn og tredje høyeste i kvinner, er også utbredelsen av sykdommen observert hovedsakelig i de økonomisk utviklede regioner [2, 3] sannsynligvis på grunn av livsstil og kosttilskudd problemer. Forekomsten og dødelighet for CRC er omtrent 35-40 prosent høyere hos menn i forhold til kvinner [4]. Per kreft status i USA for 2013, ca 102480 peoplesuffered og 50 830 døde av CRC som styrer alvorlighetsgraden av sykdommen [5]. CRC manifesterer hovedsakelig som unormal vekst av celler som oppstår ved slimhinnen i colon eller rektum og sykdomsutviklingen finner sted ved å erstatte en ikke-kreft polypp til kreftsvulst. Tidligere rapporter [6-8] foreslår en rekke faktorer knyttet til sykdommen mønster slik som inflammatorisk tarmsykdom, polypper, overvekt, røking og genetiske historie av kreft. Sykdommen er også kjennetegnet ved rektal blødning, obstruksjon, magesmerter, manglende appetitt og påfølgende vekttap [7, 9]. Ingen av symptomene uavhengig sikrer forekomst av CRC og ofte er det ingen observerbare symptomer i tidlig barnekonvensjonen. Derfor er hensiktsmessig screening for sykdommen nødvendig [10] for å legge til rette for tidlig oppdagelse og rettidig fjerning av polypper [11].

For å kunne identifisere biomarkører for tidlig deteksjon, har kreft sti og sykdomsutviklingen å være kritisk undersøkte. Selv i de siste tiårene, har mange studier sluppet på screening, diagnostisering og behandling for CRC [12, 13], men fortsatt de genetiske og innvielses faktorer ansvarlige for sykdommen er ukjent [14]. Det er en stor mangel på forståelse av mekanismene bak utviklingen av CRC fra ikke-kreft polypp til en svulst og deres ansvarlige trasé [15]. Studier viser at CRC er i hovedsak knyttet kromosom ustabilitet (CIN) [16] og mikro ustabilitet (MSI) trasé [17, 18] .Genetic avvik i gener involvert i CIN vei fører til aktivering av onkogener som

kras

og inaktivere visse tumorsuppressorgener som

smad4

,

p53

,

smad2

,

Bax Hotell og

apc product: [19 ]. Videre, tidligere rapporter [20] og en database på DNA-reparasjons genetiske assosiasjonsstudier [21] antyder at mutasjoner i DNA reparasjonsgener, dvs.

MLH1

,

MSH2

,

msh3

og

msh6

av MSI vei bidrar til arvelig non-polypose tykktarmskreft (HNPCC) og CRC. Derfor kan undersøke viktige opp og ned regulerte gener utlede markører for CRC som observert i andre studier for ulike sykdommer [22]. Videre en omfattende observant på gener og tilhørende veier er nødvendig for å utforme konkrete og effektive behandlinger for CRC [23].

Det finnes allerede en massiv opphopning av genuttrykk data for CRC i offentlige domener og flere beregningsorientert teknikker har blitt brukt for sin analyse. Men, ligger den ultimate utfordringen i å trekke viktig biologisk informasjon eller markører fra denne sammenslåingen av data [24]. DNA microarray teknikken ikke bare gir et verdifullt tiltak for å estimere uttrykk tusen gener samtidig, men tilbyr også viktige molekylære tråd om mekanismene bak patofysiologien av sykdommen [22, 25]. Deretter strategien vi fulgt omfatter identifikasjon av biologisk viktige gener og klarlegging av viktige mønstre eller motiver dannet av disse kandidat gener som styrer den funksjonelle effekten av ulike biologiske prosesser i CRC. Hver identifisert genet ble deretter merket med fokus på kategorisering av gener ved hjelp av biologiske prosesser, molekylære funksjoner og cellulære komponenter for deres tilknytning og engasjement i CRC [26].

I tillegg ble det gjort et forsøk på å identifisere viktige nettverk komponenter (nettverks motiver) som forekommer i høye frekvenser enn tilfeldig forventet i en sti. Disse nettverks motivene gi statistisk overrepresentert understrukturer (sub-grafer) i et nettverk, og er anerkjent som enkle byggesteinene i et komplisert nettverk. Disse nettverks motiver spiller en sentral rolle i anerkjennelse og analyse av bestemte mønstre i biologiske nettverk og gi betydelige innsikt i bedre forståelse av komplekse biologiske prosesser involvert i intrikate menneskelige sykdommer [27]. Vi søkte beregnings og statistisk kriterium for effektiv påvisning av biologiske nettverk motiver i CRC og deres funksjonelle evalueringstiltak ble benyttet til å redusere kompleksiteten for å gjenkjenne beste egnede kandidater i den foreslåtte studien.

Hoved perspektiv av vår studie var system-komponent analyser for CRC med flere biologiske komponenter som inngår i uttrykket av gener som er involvert, deres kommentarer og analyser i form av komplekse nettverks motiver som styrer vitale funksjoner. Den fremste mål var å kuratere manuelt og kommentere alle gener, nettverkskomponenter, prosesser, molekylære funksjoner og stier som er involvert i barnekonvensjonen og deretter legge til rette for identifikasjon av noen viktige gener som kan tjene som viktige markører for CRC. I det hele tatt, ble en integrerende tilnærming praktisert som inkluderer ulike aspekter av molekylære data, biomarkører, nettverk og veier for å avdekke kompleksiteten i CRC sti og deretter avgrensa til bare noen få gener eller nettverkskomponenter som kan svare på ulike biologiske spørsmål om CRC søke . Også slik

i silico

tilnærmingen kan brukes til andre sykdommer i søken for å identifisere biomarkører og studien vil ikke bare hjelpe eksperimentelle biologer, genetikere og andre forskningsmiljøer for å identifisere nye biomarkører for sykdommer, men også har implikasjoner for farmasøytiske industrien til å målrette viktige molekyler og design hensiktsmessige mål-baserte narkotika for medisiner.

Materialer og metoder

En

i silico

tilnærming med ulike former for rådata, dataverktøy , programvare og databaser ble søkt om omfattende forståelse av mekanismene som er involvert i barnekonvensjonen. En myriade av in-house Perl-skript og statistiske teknikker ble benyttet for karakterisering av biomarkører for sykdommen. Hele arbeidsflyten som representerer ulike parametere og biologiske aspekter vurderes for studien er presentert i figur 1.

Studier innledet med karakterisering av forskjellig uttrykte gener i tykktarmskreft datasett og deres transkripsjonsregulering. Viktig samhandling og nettverks mønstre ble identifisert fra CRC sti og til slutt funksjonell berikelse ble henrettet for sentrale aktører i sykdomsutviklingen.

Biologisk data

DNA microarray analyse ble utført på rå data hentet fra Gene Expression Omnibus (GEO) [28] for tidlig debut av CRC [29]. Den viktigste prioritet for studier av genekspresjon på et tidlig stadium var å identifisere biomarkører for tidlig påvisning av sykdommen som dermed kunne deretter bli treffende styrt. Det endelige målet med studien var å påvise ytterligere differensielt uttrykte gener i tidlig debut CRC siden ens involvert i familiær adenomatøs polypose (FAP) [30] og HNPCC [31, 32] er allerede godt illustrert. Den ekstraherte datasettet ble deretter analysert ved hjelp av Genechip U133-Plus 2.0 Array. Videre ble nettverks motivene for CRC oppdaget ved å hente biologiske trasé fra KEGG [33], Reactome [34], BioGRID [35] og andre spredningsveier databaser [36].

Pre-prosessering av data

Først og fremst skritt for DNA mikromatriseanalyse er pre-prosessering og normalisering av rå data som deretter blir underkastet videre analyse. Denne prosessen reduserer støyen som følge av tekniske variasjoner og deretter tillater data å bli sammenlignet for å bestemme den faktiske biologiske endringer. Gjennomføringen av data normalisering bistår i å stabilisere ulike mengder starter RNA, forskjeller i merking eller deteksjonseffektivitet mellom de benyttede fluorescerende fargestoffer og systematiske skjevheter i uttrykk nivåer. Derfor har data samlet seg fra alle tilgjengelige CRC sykdom chip blitt normalisert med robust multi gjennomsnittlig analyse (RMA) algoritme [37] fra Microarray Data Analysis System (MIDAS) i TM4 microarray programpakken.

Identifikasjon av forskjellig uttrykte gener

Etter microarray eksperimenter, erkjenner gener med endrede uttrykk profiler i sykelig tilstand er en viktig og langtekkelig oppgave å utføre. Den multiple hypoteser testing problem blir vanligvis observert på grunn av tilstedeværelsen av noen forhold, mange observasjoner og tusenvis av hypotesene ikke eksplisitt testes. For å overvinne dette problemet, har en passende statistikken blitt valgt for å teste hvert gen i datasettet og deretter beregne den tilsvarende

p

-verdi. En justering prosessen er brukt på rå

p

-verdier for å unngå feil fra hypoteser mangfold [38] og til slutt en QQ plott genereres. Denne tomten representerer verdiene av observerte testobservatorene mot de forventede teststatistikken under en kombinasjon av nullhypotese. Til syvende og sist ble de uttrykte gener for kontroll og syke tilstander betraktet for signifikans analyse av mikromatriser (SAM) og vulkan plottet analyser for å måle stor avstand fører til identifikasjon av viktige regulatoriske gener [39, 40].

Cluster analyse for co-uttrykte gener

clustering av forskjellig uttrykt gener ble karakterisert ved hjelp av hierarkisk clustering algoritmen. Gener som deler lignende uttrykk profiler og andre biologiske funksjoner ble gruppert sammen og vice-versa. I tidligere studier er denne typen klassifikasjon oppnådd for ulike former for kreft, men for CRC, har en dårlig klassifisering blitt observert [41]. Videre ble hierarkisk clustering utført for å utlede betydningen av dette uttrykket utvalg skritt i å klassifisere co-regulert gener. Videre, for identifikasjon av viktige mønstre og komponenter i flerdimensjonal microarray data, ble hovedkomponentanalyse (PCA) oppnådd [42]. Denne teknikken til rette for deteksjon av større hovedkomponent og hjulpet ved analyse og visualisering av gener med tilsvar ekspresjonsprofiler.

transkripsjonsregulering av CRC gener

Siden, spiller genregule avgjørende rolle på nivået av transkripsjon ved å anvende en rekke av transkripsjonsfaktorer (TFS) og deres målgener; en bred kunnskap om transkripsjonsregulerende elementer (RES) er nødvendig for grundig forståelse av genregulering og underliggende komplekse regulatoriske prosesser. Tilgjengelig,

i silikoaluminofosfater

verktøy som dire (Distant regulatoriske elementer) [43] og Opossum [44] ble kartlagt for identifisering av Res blant disse forskjellig uttrykt gener. Både toolsassist i identifisering av TFS hvor alvor har en unik funksjon for å anerkjenne Res utenfor proksimale promoter regioner ved å vurdere hele genet locus. Res inkludert proksimale arrangører og fjerne Res som Forsterker, repressors og lyddempere ble oppdaget for et bredere perspektiv på det aktuelle regulatoriske prosessen med CRC.

Funksjonell berikelse for differensielt uttrykte gener

berikelse analyse fokusert på manuell utvelgelse og merknader via WEB-basert Gene sett analyse Toolkit (WebGestalt) [45] og Gorilla verktøy. Den tidligere Verktøyet består av genomikk, proteomikk og store genetiske studier genererte data for funksjonell annotering av forskjellig uttrykt og co-uttrykt datasett. Dette verktøysettet integrerer informasjon fra flere offentlige ressurser og gir ofte nøyaktige og følsomme resultater, hjelpe til identifisering av biologiske prosesser, deres cellulære og molekylære funksjoner knyttet til de tilsvarende gener. Mens, gorilla verktøy [46] gjør beregningen på grunnlag av nøyaktige

p

-verdier uten simulering analyser for påvisning av de funksjonelle egenskapene til de gensettene. Begge verktøyene benytter seg av samme statistisk tilnærming dvs. hyper-geometrisk fordeling (HGD) for signifikans testing og funksjonelle berikelse av gener mens WebGestalt videre utnytter Fishers eksakte test for merknaden analyser. Matematisk, for HGD hvis det er

«N»

antall gener i en gruppe der

«A»

gener er knyttet til en bestemt GO sikt og et utvalg av

«n»

gener fra

«N»

er tatt, så sannsynligheten for å anskaffe

«a»

gener assosiert med

«a»

eller flere GO vilkår i en prøve

«n»

er behandlet ved hjelp av HGD:

Gorilla viser statistisk signifikante og beriket gener øverst rangert genet liste og bruker en variant av vanlig HGD heter MHG (minimum hypergeometriske) for berikelse analyser av rangert genet lister [47]. I mange tilfeller, en fast terskel

(n)

fungerer ikke og rangering av alle elementene (gener) er nødvendig for å finne verdien av

«n»

som ytterligere reduserer HGD. For eksempel vurdere en rangert gen liste si

g

en

, …,

g

N

i stedet for en target set, og definert etiketten vektor:

λ = λ

en

, …,

λ

N

∈ {0

,

1}

N

som indikert av sammenslutningen av rangert gener til en gitt GO sikt,

λ

i

= 1

hvis

g

i

er forbundet med begrepet [47]. Deretter MHG poengsum gitt ved: Hvor

Her er cut-off mellom topp karakter gener og resten av genene kalibrert på en presis måte å maksimere genet berikelse analyserer

Detection. av viktige mønstre fra CRC pathway

Undersøkelse av vitale nettverk motiver, ble et viktig aspekt å gjenkjenne modularitet og for å løse storstilt oppbygging av kompliserte biologiske nettverk tilrettelagt fra komplekse CRC sykdom veien. En rekke motiv gjenkjenningsverktøy som MFinder [48], MAVisto [49] og FANMOD [50] ble benyttet for å identifisere motiver; hvor alle disse verktøyene implementere ulike algoritmer. MFinder benytter en semi-dynamisk programmeringsalgoritme for å redusere kjøretiden i å detektere nett motiver og utfører full telling av under grafene mens MAVisto verktøy benytter en fleksibel algoritme for identifikasjon av nettverket motiver og omfatter også en avansert kraft rettet layout algoritme [51] for sine analyser. Videre FANMOD går en mye avansert algoritme som heter RAND-ESU [52] som fungerer på både rettet samt urettet nettverk for spesifikasjon og prøvetaking av sub-grafer. Denne algoritmen utfører bedre enn sine benke algoritmer [48] for identifisering av nettverks motiver fra komplekse biologiske nettverk.

Den statistiske implikasjon av disse genererte motivene ble deretter evaluert ved hjelp av tilgjengelige standard begrensninger som

z

-scores,

p

-verdier og betydning profil (SP).

p

-verdi og

z

-score for hvert motiv ble anslått (via Fanmod output) og de som har

z

-score 2 og

p

-verdi 0,05 ble klassifisert som viktige motiver og er demonstrert i S1 tabell. Videre SP møblerer normalis

z

-score verdier for et bestemt nettverk motiv

(m

i

)

som er gitt ved .: Hvor

Z (m

i

)

tilsvarer

z

-score verdi for hvert nettverk motiv

Alle de genererte 4-8 nodeunder grafer med unik nettverks motiv IDer ble så grundig analysert for å undersøke genene og deres komplekse interaksjoner i CRC ved hjelp av vår nye designet parametere som

«FN

i

«

,

« FTN

i

«Hotell og

« FT

i

«

som representert i tabell 1. Network Motif Bilde ID-kolonnen presenterer nettverk motiv IDer som nabomatrisen opprettet for hver interaksjon der 0 og 1 tilsvarer ingen tilkobling og tilkobling blant noder hhv.

Her

«FN

i

«

tilsvarer antall gener til stede i et gitt nettverk motiv ID;

«FTN

i

«

er summen av frekvensene for alle genene som forekommer i et gitt nettverk motiv ID og

«FT

i

«

er definert som forholdet mellom antall gener for et bestemt nettverk motiv ID og summen av frekvensene for alle genene i et gitt nettverk motiv. For et gitt nettverk motiv ID si

«n

i

«

, der i = 1,2,3, …, n.;

«FT

i

«

er gitt ved:

Hver

«FT

i

«

verdi for et bestemt nettverk motiv ID gir størrelsen av alle gener som er involvert i et bestemt nettverk motiv. Dermed omfatter den anvendte metodikk for både top-down og bottom-up tilnærminger for å avdekke de viktigste aktørene i CRC veien. Bruk av top-down tilnærming, første hele CRC veien ble delt inn i mindre sub-grafer med små funksjonelle moduler og deretter de involverte nodene ble identifisert og kommentert. På den annen side, var en bottom-up tilnærming søkt om å klassifisere samhandling og relasjoner mellom nodene. Til syvende og sist, utfall fra begge tilnærmingene ble tatt med for å identifisere viktige noder i CRC vei for å utlede viktige gener ansatt i sykdom.

Resultater

I denne studien, en omfattende analyse for forskjellig uttrykt gener, TFS, i samspill proteiner, antatt nettverk motiver og deres implikasjoner i ulike stier knyttet til Barnekonvensjonen har blitt grundig gjennomført. CRC valgt datasett for DNA mikroarray ble ansett for normaliseringsprosess for fjerning av feil og støy fra datasettet som vist i figur 2. Figuren viser esken plott for alle fire Affymetrix pommes frites før og etter normalisering ved hjelp quantile normalisering og viser klart virkningen av normalisering steg for å rette signalet av gener på tvers av alle sjetongene.

2a viser fordelingen av microarray filer før normalisering og 2b forklarer jevn fordeling oppnås etter implementering normalisering dvs. fjerning av støy fra data.

den microarray datasettet ble undersøkt for identifisering av bestemte mønstre eller markører som kan skille normal vs. sykelig tilstand for betegner mottakelighet og legge til rette for tidlig diagnostisering av CRC. Etter innledende pre-prosessering og manuell inspeksjon basert på den forholdsmessige analyse, siste sett kastet SAM sammensatt av bare de robuste kandidatene (se tabell S2). SAM avdekket totalt 631 gener (figur 3A) fra microarray datasettet som ble forskjellig uttrykt blant de testede forholdene siden datapunkter ligge til side diagonal linje i en betydelig måte. Vulkan plottet mellom kontroll og sykdomstilstanden for CRC tydelig klarlagt forskjellen mellom genene som ble differensielt uttrykt i de to gruppene som vist i figur 3B. Her flekkene representert i svart er genene som viser normal uttrykk, mens de røde med signal log ratio (SLR) 2 er over uttrykt og de med SLR -2 er under uttrykte gener i sykdomstilstanden. Videre er SOM betydelige klynger avbildet i S1 figur og PCA (godt beskrevet i S2 og S3 figurene) viste anslagene for 3 ulike forhold, dvs. over-uttrykte gener, under uttrykte gener og gener som viser normal uttrykk.

Betydningen analyse av mikromatriser (SAM) og vulkanen tomten ble generert for å detektere differensielt uttrykte gener i tidlig kolorektal kreft datasett. I SAM, ble 631 betydelige gener identifisert for sine over eller under uttrykk i sykdomstilstanden mens vulkanen tomten tydeligvis belyser de differensielt uttrykte gener med røde flekker som har signal log ratio (SLR) 2 eller SLR. 2

Etter å karakterisere differensial uttrykk mønster av viktige gener involvert i tidlig CRC progresjon, rollen som RE og transkripsjonsregulering var avgjørende å gjenkjenne. Vi identifiserte totalt 108 TFS i genuttrykket datasettet for CRC (S3 Table), representert i synkende rekkefølge av deres forekomst i frekvenskolonnen. I tillegg ble viktigheten av disse TFS estimert ved bruk av en optimalisering prosedyre som vurderer en vekt

«w

i

«

for hver

i

th

TF, som et mål på dens assosiasjon med inngangs genet satt og videre beregner betydning verdien som produktet av TF forekomst (frekvens) og TF vekt. Vi har også klassifisert TFS (se S4 tabell) som finnes i hver forskjellig uttrykt gen fra CRC datasettet, som gir totalt antall TFS for hvert gen, locus, deres navn, stilling og tilhørende typer. Videre familier for alle de viktige TFS har blitt anerkjent og illustrert i S5 tabell. Vi har også satt sammen en liste for topp 10 TFS innblandet i gener ansvarlig for differensial uttrykk i tidlig barnekonvensjonen med sine frekvenser av forekomst, betydning og andre viktige detaljer som vist i Tabell 2. Noen eksperimentelle valideringer utfyller til foreningen av disse transkripsjonsfaktorer i CRC er også omtalt i tabellen.

de fleste identifisert TFS tilhørte sink-koordinerende klasse og hormon-kjernefysisk reseptor familie av transkripsjonsregulerende system. Hepatocytter nukleær faktor 4 (

hnf4

), kjerne reseptorunderfamilien to gruppe F medlem 1 (

nr2f1

) og ned-regulator av transkripsjon 1 (

DR1

) er den mest tilbakevendende TFS regulere gener i tidlig CRC datasett og er medlemmer av samme klasse, samt familie av TFS. Alle disse TF’er enten bindes direkte eller i form av et kompleks for å styre hastigheten av transkripsjon. Slik informasjon er først og fremst nødvendig for å forstå den genregulering på en helhetlig måte. Det er forventet at for regulering av gener involvert i CRC, manipulering av regulatorisk område av gener spesielt for de identifiserte TFS som

hnf4

,

nr2f1

,

DR1 Hotell og sine klasser kan gi biologisk innsikt til eksperimentelle biologer og genetikere. Videre ble det gjort et forsøk på å kuratere og kommentere genene for sine biologiske roller, funksjoner, cellulære komponenter og deres innblanding i ulike komplekse biologiske pathways manuelt. Ut av 631 differensielt uttrykte gener, ble funksjonell berikelse for 509 gener forverret. Maksimalt genene hadde sine roller i biologiske regulering, proteinbinding og var til stede ved membraner av cellen (fig 4). Denne spesielle delen av manuskriptet gir et innblikk i ulike mekanismer og trasé belyst ved reguleringen av gener involvert i CRC vei.

631 differensielt uttrykte gener ble utsatt for manuell utvelgelse og annotering analyser for deres engasjement i ulike biologiske trasé, molekylære funksjoner og cellulære komponenter

etter å skaffe differensial uttrykk mønster, vi ment å identifisere viktigste sub-nettverk som er konfigurert av disse genene.; tilrettelegge annotering av intrikate biologiske nettverk innblandet i CRC. Basert på begrunnelsen, ble påvisning av viktige nettverk motiver og nettverksmønstre gjort; gi essensielle ledetråder om hierarkisk nedbryting av CRC nettverk. Her mønstrene som blir referert er små tilkoblede undernett som forekommer i vesentlig høyere frekvenser i et nett enn det som ville være forventet for en gitt tilfeldig nettverk. Disse mønstrene eller motivene er betydelig overrepresentert og karakterisere visse essensielle funksjonelle aspekter forbundet med CRC relatert trasé og dets progresjon. Flere motiver som spenner fra 4-8 sub-graf noder ble generert og kommentert for CRC sti som er tilgjengelig som tilleggsdata (tilgjengelig på: https://www.bioinfoindia.org/CRCData), og noen få har vært avbildet i figur 5. søkt bottom-up tilnærming er tydelig demonstrert i figur 6 fra 4-nodeunder grafer og deretter fortsetter én etter én til åtte-node under grafer ble generert; alle samvirkende gener ble annotert sammen med sine funksjonelle relasjoner.

Noen 4 og 5 node sub-grafer er symbolisert med genet navn og deres interaksjoner hvis noen. Hvis gitt samspillet i veien ble funnet å være mangler, er det avbildet som ukjent (svart farget pil).

Fra 4 til 8 nodeunder grafer, hver node har blitt anerkjent og kommentert for å utlede visse vitale interaksjoner.

nettverks~~POS=TRUNC motivene derfor hentet fra CRC sti inneholdt 4-kjeden motiver, enkelt inngangsmodul (SIM), multiple input modul (MIM), bifan motiver og annen viktig biologiske signaturer som ble støttet av betydelige

z

-scores og

p

-verdier for deres statistiske relevans. Disse nettverks motivene ble ytterligere utsatt for merknader og sykdomsspesifikke analyser siden, de har viktige funksjoner for å utføre; som i tilfelle av SIM-motiv, er flere gener kontrollert av en enkelt master-gen og master-genet er kjent for å være auto. Mens, i MIM motiv (en generalisering av SIM), et enkelt gen blir kontrollert av multiple gener [22]. Andre vanlige fire-node motiver bekreftet tilstedeværelsen av diamant, biparallel og bifan motiver (ofte bygget av to regulatoriske og to regulerte gener). Videre ble disse nodene merket for å identifisere gener som er involvert i disse mønstrene for deres biologiske betydningen hjelp i huset Perl-skript. Lignende type motiv grafer ble generert for sub-nettverk av andre nettverks størrelser og annotering av disse grafene var basert på statistisk kriterium via gjennomsnitts-frekvenser, standardavvik,

z

-scores og

p

-verdier.

den beregnede SP ble deretter superlatively plottet i en graf mot de forskjellige motiver som illustrert i figur 7. motiv SP grafen viser tydelig at etter hvert som antall noder i et motiv øker, øker kompleksiteten og ytterligere trenden avtar representerer mindre normalisert

z

-score verdier mot store motiv størrelser. Basert på denne SP profilanalysen foreslår vi at nettverks motiver med mindre node størrelse (3 eller 4) er mer funksjonelt alliert mot sin rolle i trasé mens motiver av større størrelse ( = 5 noder) er mindre funksjonell (Fig 7). Det antas at den observerte tendens kan være lik i mange slike biologiske nettverk hvis analysert.

Motivet betydning profil tydeligvis eksemplifiserer at når kompleksiteten i CRC pathway øker, vil vekselvirkningen mellom nodene og kompleksiteten i erkjennelse av gener forsterker umåtelig. Lesser noden størrelse, blir det lett å kommentere nodene (gener) og deres assosiasjoner med sterkere statistisk signifikans (større normalisert

z

-scores).

Romanen behandlet parametere avslørt at den nedre

«FT

i

«

verdien viser seg å være mer statistisk signifikant. Som det betyr større involvering av noen gener som forklarer komplekse interaksjoner mellom ulike noder i et gitt motiv. Videre motivet viser minst

«FT

i

«

verdi dvs. 0,171 for motiv ID «7n» ble valgt for å identifisere sentrale aktører i en gitt motiv . Denne informasjonen ble oppnådd ved å kartlegge alle gener fra komplekset CRC reaksjonsveien i nettverket motiver og deretter frekvensen for hvert gen for hvert nettverk-motivet ble beregnet (se tabell S6). Denne analysen ble utført for å forstå involvering av forskjellige gener på grunnlag av deres forekomst (frekvens) i hvert motiv. For eksempel vurdere 4a motiv i S6 Table (detalj for motivbilder på https://www.bioinfoindia.org/CRCData), involvering av

pik3r5

,

kras Hotell og

Araf

gener var found4, 5 og 4 ganger i samme mønster (motiv).

Legg att eit svar