PLoS ONE: Identifikasjon av menneskelig HK Gener og Gene Expression forordning Studier i Kreft fra transcriptomics data Analysis

Abstract

regulering av genekspresjon er viktig for eukaryoter, som det driver prosessene av cellulær differensiering og morphogenesis, som fører til dannelsen av forskjellige celletyper i flercellede organismer. RNA-sekvensering (RNA-Seq) gir forskere med en kraftig verktøykasse for karakterisering og kvantifisering av transkriptom. Mange forskjellige menneskelig vev /celle transkriptom datasett fra RNA-Seq teknologi er tilgjengelig på offentlige data ressurs. Det grunnleggende problemet her er hvordan man skal utvikle en effektiv analysemetode for å beregne uttrykk mønster likheter mellom ulike tumorvev og tilhørende normalt vev. Vi definerer genuttrykk mønster fra tre retninger: 1) uttrykk bredde, noe som gjenspeiler genekspresjon på /av-status, og hovedsakelig bekymringer overalt uttrykte gener; 2) Lav /Høy eller konstant /variabel uttrykk gener, basert på genuttrykk nivå og variasjon; og 3) reguleringen av genekspresjon ved genstruktur nivå. Klyngen Analysen indikerer at genuttrykk mønster er høyere relatert til fysiologiske tilstand snarere enn vev romlig avstand. To sett med menneskelige housekeeping (HK) gener er definert i henhold til celle /vevstyper, henholdsvis. For å karakterisere genuttrykk mønster i genuttrykk nivå og variasjon, vi først søke forbedret K-betyr algoritme og en genuttrykk varians modell. Vi finner at kreftrelatert HK gener (en HK gen er bestemt i kreft gruppe, mens den ikke er i normal gruppe) er uttrykt høyere og mer variabel i kreft tilstand enn i normal tilstand. Kreft-forbundet HK gener foretrekker å AT-rike gener, og de er beriket i cellesyklusregulering relaterte funksjoner og utgjør noen kreft signaturer. Ekspresjon av store gener er også unngås i kreft-gruppen. Disse studiene vil hjelpe oss til å forstå hvilke celletypespesifikke genekspresjonsmønster variere mellom ulike celletyper, og spesielt for kreft

Citation. Chen M, Xiao J, Zhang Z, Liu J, Wu J, Yu J (2013) Identifisering av menneskelige HK Gener og Gene Expression forordning Study in Cancer fra transcriptomics dataanalyse. PLoS ONE 8 (1): e54082. doi: 10,1371 /journal.pone.0054082

Redaktør: Rajeev Samant, University of Alabama i Birmingham, USA

mottatt: 19 juli 2012; Godkjent: 06.12.2012; Publisert: 31 januar 2013

Copyright: © 2013 Chen et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien ble støttet av en bevilgning (2012AA020409) fra nasjonale programmer for High Technology Research and Development (863 Program), Ministry of Science and Technology i Folkerepublikken Kina; og tilskudd fra Science Foundation of China National (nr 31101063, nr 31271386 og Nei, 31000584). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Genekspresjon regulering inneholder den prosess som celler og virus brukes til å regulere den måte at informasjonen i genene blir slått inn genprodukter, hvorav de fleste er protein-kodende gener [1] – [3]. Genekspresjon regulering er avgjørende for eukaryoter [4] fordi det driver prosesser av cellulær differensiering og morfogenese [5]. Dette fører til dannelsen av forskjellige celletyper i flercellede organismer, hvor ulike celletyper kan inneha forskjellige genekspresjonsprofiler, selv om de alle har den samme genomsekvens [6]. En stor utfordring i dagens forskning er hvordan man skal definere modus av genuttrykk regulering. Basert på genekspresjon bredde [7] – [9], gener kan deles inn overalt uttrykte gener [6] – [10], tilnærmet universelt HK gener, og vevs-spesifikke /celle-spesifikke gener. Basert på genekspresjon nivå, kan genet bli bestemt som et lav /høy ekspresjon genet [11], og som en konstant /variabel uttrykket genet [12] – [13]. Genstruktur er en viktig faktor for regulering av genekspresjon. Den består hovedsakelig av genstruktur sammensetning, genstruktur organisasjon, gen variasjon, protein klasser, cellestruktur, cellulære prosesser, og molekylære mekanismer [10], [14] – [25].

RNA-Seq er bli en mer og mer populær bioteknologi på grunn av dens transkripsjon måling ved dominerende presisjon og høy gjennomstrømming å detektere svakt uttrykte gener [10] – [11], [15], [26]. På grunn av den dramatiske fremskritt i RNA-Seq, transkriptom data øke raskt [25] – [27] i SRA database. I tidligere kreft progresjon og genuttrykk reguleringsmekanismer studier basert på microarray data [28] – [30], forskere hovedsakelig sammen genuttrykk i kreft tilstand kontra normal tilstand med de samme originalene. Denne metoden kan gå glipp av mange virkelig oppregulert annet uttrykk (DE) gener ved normaliseringsprosessen [31], uten hensyn til basert mekanisme i kreft. I denne studien, velger vi 12 normale prøver og 9 cancerprøver for å utforske den generelle mekanisme for kreft genekspresjon regulering av RNA-sekv transkriptom data. Vi definerer genuttrykk mønster fra tre retninger og karakterisere kreft HK gener å observere genekspresjon regulering i kreftceller. Denne forskningen vil hjelpe oss til å forstå de viktigste regulatoriske gener og patogenesen av kreft.

Materialer og metoder

RNA-Seq transkriptomet datasett

RNA-Seq prøver under normal og kreft tilstand er valgt for å identifisere HK gener. To hovedelementer er betraktet for utvelgelsen, mengden og metning av de utvalgte prøver. Selv om RNA-Seq prøvene er voluminøs i den offentlige data ressurs, de nyttige prøver for normal vs kreft komparativ analyse er begrenset. Hvis vi hadde tatt mer umettede prøver, ville det ha ført til en høyere falsk negativ rente hovedsakelig forårsaket av lav overflod gener. Vi får helt 37 ulike menneskelige vev /cellelinje transcriptomics data fra offentlig SRA database (tabell S1), 22 normale prøver og 15 kreftprøver. Deretter velger vi prøver med kriterier som følger: 1) fjerne alle blandede cellelinjer prøver, fordi pooling metoden vil dekke differensial genuttrykk overflod; 2) fjerne cellelinjer prøver med spesiell behandling, fordi reguleringsmekanismer er annerledes under forskjellige fysiologiske betingelser; 3) filtrering alvorlige umettede datasett; 4) velge den mest mettet prøven hvis gjentak eksistert, har vi ikke foretrekker integrering som ville forårsake høyere falsk negativ rate; 5) velge prøver fra Illumina Genome Analyzer, den mest populære sekvense instrument, her prøver vi å redusere den opprinnelige forskjellen mellom ulike sekvense plattformer. Til slutt, får vi 12 normale vev og 9 kreftcellelinjer for videre analyse. De normale vev i vår analyse inkluderer adipose, hjerne, hjernebarken, tykktarm, bryst, nyre, lever, lunge, lymfeknute, hjerte, testikler, og skjelettmuskulatur. Og kreft cellelinjer omfatter K562, DLD-en, HepG2, GM12878, lymfom, BT474, MCF7-, MB435, og T47D i dagens RNA-Seq datasett (Tabell S1). K562 er en immortalisert cellelinje fremstilt fra en kvinnelig pasient med kronisk myelogen leukemi (CML). DLD-en er et kolon adenokarsinom cellelinje dyrket under 21% oksygen med ikke-måls siRNA transfekterte. HepG2 er en cellelinje avledet fra en mannlig pasient med leverkreft. GM12878 er en lymfoblastoid cellelinje fremstilt fra blodet hos en kvinnelig donor av EBV-transformasjon. Lymfom er en Ramos B-celle. De andre cellelinjer er alle brystcancercellelinjer avledet fra invasive ductal karsinom (ATCC). MCF-7, BT474 og T47D er østrogen-reseptor-positive og progesteron-reseptor-positive; MD435 er negativt for begge. Høy kvalitet CEL filer på menneskemicroarray data på HG-U133A er valgt fra AffayExpress (E-mtab-27) [32] (tabell S2) for sammenligning.

Etter tilfeldige transkripsjoner filtrering, velger vi 28 778 menneske RefSeq proteinkodende transkripsjoner (RefGene av UCSC merknad database, 04.01.2010 oppdatering), og cluster dem inn 18 874 menneske loci som beskrevet tidligere [9]. 13,038 (69,08%) gener med multi-isoformer og 5836 (30,92%) gener med single-isoform brukes til videre analyse. For å kartlegge transkripsjons datasett på sine henvisning genomisk sekvens GRCH37 (hg19), bruker vi MAQ kartlegging programvare [33] ned fra UCSC. Da annotering av kartleggingsresultatene i forhold til RefGene.

transkriptom dataanalysemodell

Gene uttrykk overflod er normalisert som lest tetthet, dvs. leser per kilobase (KB) av kodesekvens (CDS ) per million leser (RPKM), i RNA-seq data som millioner kartleggbart leser i ett eksperiment [34]. Og ekspresjonen av et gen er definert som summen av uttrykk av alle isoformer som hører til det genet [11]. Å beregne et genekspresjon nivå nøyaktig, vi sitere en Poisson-fordeling modell for å beregne isoformer uttrykk [11]. Vurderer gang kostnader, vi strengt krever en lese faller inn i en exon med neglisjere ekson-krysset informasjon.

For å avgjøre om et gen er uttrykt eller ikke, er bakgrunnen terskelverdien av genekspresjon utført ved hjelp av en tidligere metode som koordinert falsk positiv rate (

FPR

) og falsk negativ rate (

FNR

) [10]. I denne artikkelen definerer vi positivt sett som gener med leser fall i sine eksoner, og negative sett som gener med leser faller i intergeniske regioner. Et observerte ekspresjon verdi, som er større enn bakgrunns terskel er merket som positivt, og det motsatte er merket som negativ. Deretter får vi disse to definisjoner,, (

FP_count

betyr sammendraget av intergeniske regionen teller uttrykk verdi større enn bakgrunnen, ordreantallene som

TN_count

.

FN_count

betyr oppsummering av genet teller som genet uttrykker, men uttrykket verdi mindre enn bakgrunn omvendt som

TP_count

).

Identifikasjon av lave og høye uttrykk gener kan skildre genuttrykk mønster i en prøve, og dynamisk endring av genekspresjon nivået blant vev /cellelinjer gjenspeiler den indre omsetning av genekspresjon regulering. Tidligere studier vanligvis delt genekspresjon nivå i flere intervaller, og merket to ekstreme gener som lav og høy, henholdsvis [11]. Denne definisjonen er noe vilkårlig, fordi det målt genuttrykk nivå uavhengig av genuttrykk mønster. I mellomtiden kan uttrykk nivå avvik på tilstøtende uttrykk nivå gener i to sekvensielle undergrupper være svakt. Drevet av denne motivasjonen, vi for det første gjelder det forbedrede K-betyr algoritme for å identifisere lav og høy ekspresjon terskler dynamisk, som deler uttrykte gener inn i tre kategorier: lav ekspresjon gener (LEG), moderat ekspresjon gener (MEG), og høy ekspresjon gener ( HEG). Som til en prøve blir lav terskel uttrykk definert som den gjennomsnittlige verdien av maksimal genekspresjon verdi i LEG og minimumsverdi genekspresjon i MEG. For å analyse genuttrykksmønstrene variasjon blant forskjellige prøver, definerer vi en enhetlig lav uttrykk terskel som median verdien av alle prøvene «lav uttrykk terskler. Høy ekspresjon terskel for en prøve er definert som den gjennomsnittlige verdien av maksimal genekspresjon verdi på MEG og minimums genekspresjon verdier i HEG. Og enhetlig høy uttrykket terskelen er median verdien av alle prøvene. Metoden er basert på individuell genekspresjon fordelingsmønsteret av en prøve for å identifisere lav og høy ekspresjon gener med dynamisk måling. Og det garanterer maksimal avstand på genuttrykk nivå av to sekvensielle undergrupper.

Den forbedrede K-betyr algoritme tildeler hvert uttrykte gener til klyngen som Tyngdepunktet er nærmest som K-betyr algoritme gjør. Men avstanden mellom to elementer som er definert som absolutte verdi av differansen av to genuttrykk verdier. Tyngdepunktet er definert som uttrykk verdien til midt genet i klyngen av sorterings gener ifølge genekspresjon verdi. Som er forskjellig fra K-midler algoritme definert som aritmetisk gjennomsnitt. Vi initial genuttrykk datasett til et punkt format (

x

,

y

), der

x

er genuttrykk verdi og y er den tilsvarende genet teller. Algoritmen er grovt beskrevet som følger:

Transform

x

verdi av formelen, der

n

er forvandle faktor og standardverdien er 1.

Sett antall klyngen

K product: (= 3).

velg Tilfeldig

K

elementer fra punktet satt som centroids av klynger.

Gi hver punkt til nærmeste klyngen Tyngdepunktet.

Re-compute

K

nye klase centroids

. Gå til 4) til oppdraget ikke har endret seg noe mer.

Som et resultat, uttrykte gener er delt inn i 3 kategorier: LEG, MEG, og HEG. Vi setter normale gruppe resultater som kontrollen standard. Medianverdiene av lave terskler og høye terskler i 12 normalt vev er satt som endelig lav terskel og høy terskel for alle vev /cellelinjer.

Vi bruker variansen av genuttrykk nivå for å skildre genekspresjon variant, som tidligere studier gjorde [35] – [37]. Høye uttrykk verdier, noe som kan forsterke variasjon, bidra til varians mer direkte, mens små verdier av genuttrykk påvirker variansen svakere, noe som kan skjule reelle variasjon. Således blir genekspresjon verdier rangert som 1, 2 eller 3, for å representere det genekspresjon nivå som lav, middels eller høy, henholdsvis. Vi bruker disse representasjoner i stedet for gen-ekspresjon rå verdi for å estimere genekspresjon variasjon mønster. For noen genet, beregner vi variasjonskoeffisienten verdi (

CV

) basert på genekspresjon rang, der

μ

er aritmetisk gjennomsnitt av genuttrykk rekkene av alle vev /cellelinje prøver i en genet;

σ

er standardavviket for genekspresjon rang i et gen, som er det aritmetiske gjennomsnitt av den kvadrerte avvik av genekspresjon rang fra den aritmetiske middel. Vi setter også normalgruppen som kontroll.

Vi foreslår en MDAD komplott for å karakterisere avvik på genuttrykk mønster i kreft tilstand kontra normal tilstand, basert på den mye brukt MA plot. M Avstand (MD) og en avstand (AD) av hvilket som helst gen i MDAD plott er definert som og, henholdsvis, hvor

maks

verdi i er den maksimale genekspresjon verdi innenfor alle normale vev /cellelinjesampler, og

min

verdi er minimum genuttrykk (men 0) innenfor alle normale vev /cellelinje prøver;

max

verdi er maksimal genuttrykk verdi innenfor alle kreftvev /cellelinje prøver, og

min

verdi er minimum genuttrykk verdi (men 0) innenfor alle kreft vev /cellelinje prøver.

MD

reflekterer forskjellen av genekspresjon fordeling mellom kreft tilstand og normal tilstand, og

AD

reflekterer forskjellen i forhold gjennomsnittlig nivå mellom kreft tilstand og normal tilstand. Vi bruker MDAD tomt, med et sammenkoblet Wilcoxon signed-rank test [38], for å sammenligne forskjellen delt eller kreft-assosiert HK genekspresjon nivå mellom normale og krefttilstand.

MD

0 betyr genuttrykket fordelingen i kreft tilstand er større enn i normal tilstand, og

AD

0 betyr genuttrykket relative gjennomsnittsnivået i kreft tilstand er høyere enn som i normal tilstand. Å sammenligne de opprinnelige maksimum og minimum uttrykk nivåer i henhold til kreft og normal tilstand, beregner vi også

maxR Hotell og

minR

som forholdet mellom maksimal og minimal uttrykk verdi i normal vs kreft codintion (,) . Hvis en forholdsverdi er 0, et gen slår bare på i kreft tilstand; hvis en forholdsverdi finner i [0, 1], ekstremt uttrykk verdi i normal tilstand er mindre enn i kreft tilstand, hvis en forholdsverdi finner på [1, ∞], ekstremt uttrykk verdi i normale vev er større enn det i kreft tilstand.

Spearman korrelasjon av genekspresjon profilen blir brukt til å definere den uttrykksmønster likheten i forskjellige vev /celler. Basert på deres grad av likhet, er en hierarkisk klynge med korrelasjonsinformasjon utført ved bruk av R-programvare. Normalisering av microarray data bruk MAS5.0 [39] algoritme med Console ™ programvare Expression (deteksjon p-verdi som 0,05). Funksjon berikelse analyse av ulike HK gener typer utføres med David (Database for kommentering, visualisering, og integrert Discovery) [40].

Resultater

Analyse modell for RNA-Seq transkriptom data

RNA-Seq har kraftige evne til å oppdage lav overflod transkripsjoner med enestående nøyaktighet og høy gjennomstrømming på en mye lavere kostnad består med andre metoder. Nå har det blitt den mest brukte transcriptomics sekvenseringsteknologi [11], [41]. En vanlig spørring i RNA-Seq dataanalyse er hvordan man skal definere antall uttrykte gener i en prøve. For å eliminere forurensning og feil forårsaket av eksperimenter og instrumenter, etc., oppdager vi uttrykket nivå mellom eksoner og intergeniske regioner for å koordinere

FPR Hotell og

FNR plakater (se Materialer og metoder avsnittet) ved hjelp av metode som genereres i en tidligere studie [10]. Bakgrunns terskler av genuttrykk for enkeltprøver faller i 0,13 til 0,41 RPKM. Vi setter en medianverdi på 0,25 RPKM (figur S1) som bakgrunnen terskelen av genekspresjon for videre analyse. Deretter bruker vi en Poisson modell å forholde seg til isoform uttrykk estimering og avgrense genuttrykk verdien ved å samle alle isoformer uttrykk verdier i ett gen [11].

Definisjon av HK gener

Våre prøvene er delt i to fysiologiske grupper: 12 normale vev og 9 cancercellelinjer, er detaljene vist i tabell 1. Den klyngeanalyse indikerer at genuttrykksmønster er sterkt knyttet til fysiologisk tilstand snarere enn vev romlig avstand (figur 1). Vi spår at det er noen felles regulering mønstre i kreftceller, for eksempel slå av /på regulering og lav /høy eller konstant /variabel justering, som opprettholder sin grenseløse spredning evne. Her definerer vi HK gener i to separate grupper, normale HK gener og kreft HK gener, for å reflektere genekspresjon på /av-status i ulike fysiologiske tilstand. Tidligere studie på hierarkisk gruppering av ni lunge SAGE-biblioteker viste også en klar atskillelse av tumor og normale prøver [42].

Spearman korrelasjon av genekspresjonsprofiler blir brukt til å definere den genekspresjonsprofiler likheten av 21 forskjellige vev /celler. En hierarkisk klyngeanalyse med korrelasjon informasjonen viser 2 klynger:. 12 normalt vev og 9 kreftcellelinjer

Vi definerer fem typer HK gener i henhold til deres genuttrykk mønster i normal og /eller kreft betingelse: 1) normal-unik HK gener, bestemt HK genet bare vist i normal gruppe, ikke HK-genet i kreft gruppe; 2) kreft-assosiert HK gener, bestemt HK genet bare vist i kreft gruppe, ikke HK-genet i normal gruppe; 3) Aksje HK gener, HK gener uttrykt i både normal og kreft gruppe; 4) normale HK gener, HK gener uttrykt i hele normalgruppen, har normal-unike HK gener og aksje HK gener; 5) kreft HK gener, HK gener uttrykt i hele kreft gruppen, omfatter kreft-assosiert HK gener og aksje HK gener.

Som å normalgruppen, 12 utvalgte normalt vev dekke bindevev, muskelvev, kropp region 6 menneskelige taksonomi systemer, inkludert urogenitale system, fordøyelsessystemet, luftveiene, hemic og immunsystemet, sentralnervesystemet, og kardiovaskulære systemet (endokrine systemet ble ikke dekket, Figur S2). Basert på disse 12 normalt vev, regner vi med at det er 8831 normale HK gener (proteinkodende HK gener) sikret HK genet fraksjonen er 47%, som er konsistent med to tidligere rapporter: 40% [9] og 42% [10 ]. Den sistnevnte undersøkelser ble også utført med RNA-Seq data, men Daniel Ramsköld og hans medarbeidere definert HK gener uten å skille normale eller kreft-gruppe. 8041 HK gener ble identifisert ved 24 menneskelige vev /cellelinjer (10 normalt vev og 4 kreft cellelinjer er også vurdert i vår studie), inkludert 7695 proteinkodende gener, 277 lncR, og 69 ukjente gener som ikke finnes i referanse genomisk sekvens GRCH37, hg19 [10]. HK gener lapper mellom Daniel Ramsköld

et al.

Arbeid og våre normale HK gener er 7004 (Figur S3). Og det unike HK genet i vår definisjon (1827) kommer hovedsakelig fra normal-unik HK genet (1253), som bare vises som HK gener i normal tilstand. Siden Daniel Ramsköld og hans kolleger brukte 4 kreft cellelinjer, denne forskjellen i HK genet identifikasjon oppstår i vår studie er ganske rimelig. De fleste av våre definerte 8831 HK normale gener er allestedsnærværende uttrykt i alle 19 tilgjengelige normale prøver, 12 av dem er valgt for normale genet definisjon HK, 7 av dem blir filtrert av kriteriene vist i Materialer og metoder (figur S4A, Tabell S1). Den «false oppklaringsprosenten» er hovedsakelig forårsaket av umettethet av de filtrerte prøvene. Det betyr at nøyaktigheten av HK gener definert fra 12 normale vev er høy nok for videre analyse

Dagens kreftprøver representerer kroppsregion og tre vidt undersøkt menneskelige taksonomiske systemer, inkludert:. Urogenitale system, fordøyelsessystemet, og hemic og immunsystemet (Figur S2, Tabell S1). Våre utvalgte 9 kreftcellelinjer dekke de fleste av dem, bortsett fra urogenitale system prøven, som filtreres av umettethet og plattform utvalgskriteriene. Fraksjonen av kreft HK-genet er 38% i genekspresjon bredde 9. Vi definert 7084 HK kreftgener, og de fleste av dem er til stede i normalgruppen (figur 2A), som danner den delte HK-gruppen. De delte 6237 HK genene kan være viktige gener for en celle, som opprettholder grunnleggende funksjoner i ulike fysiologiske tilstand. Kreft HK gener er mindre enn vanlige HK gener fordi kreft kreves mindre slått på gener (Tabell S1). Men kreft kreves en høyere fraksjon av mRNA basseng [10], [26] for å redusere cancercelle transkriptomet fordypning [26]. Dette tillater en vekt på gjennomføring av enkle celleproliferasjon. Om 88,65% av kreft HK gener er allestedsnærværende uttrykt i alle 13 kreftprøver, inkludert 4 filtrerte prøvene (tabell S1, figur S4B). Den «false oppklaringsprosenten» kreft HK gener er hovedsakelig forårsaket av umettethet av de filtrerte prøvene. Dette resultatet indikerer at selv om de nåværende 9 kreftprøvene ikke kan representere forskjellige krefttyper, kan identifisering av kreft HK gener bli brukt i genuttrykksmønstrene studium av kreftcellen.

HK gener er definert separat fra to fysiologisk grupper: 12 normale vev og 9 cancercellelinjer. (B) Ulike HK genet typer funksjonelle berikelse. «Kreft» betyr kreft HK gener, forkortet som suffiks «C» følger funksjon begrepet illustrasjon; «Kreft-assosiert» betyr spesifikke HK gener i kreft tilstand, forkortet som suffikset «CA» følger funksjon begrepet illustrasjon; «Felles» betyr overlappet HK gener i normale og kreft forhold, forkortet som suffiks «S» følger funksjon begrepet illustrasjon; «Normal-unik» betyr spesifikke HK gener i normal tilstand, forkortet som suffikset «NU» følger funksjon begrepet illustrasjon; «Normal» betyr normale HK gener, forkortet som suffiks «N» følger funksjon sikt illustrasjon.

En HK-genet er vanligvis et konstituerende gen som er nødvendig for å opprettholde grunnleggende cellular funksjon, og det er finnes i nesten alle humane celler [7], [43]. For å karakterisere normale og kreft HK genet funksjoner, sammenligner vi celle gen-funksjon berikelse og signalveier. Som figur 2B viser, er kreft HK gener beriket i molekylær funksjon og biologiske prosesser. Kreft HK gener delta i cellesyklus, DNA replikasjon, mismatch reparasjon og apoptose sti, etc., for å svare på svulst forekomst. Normale HK gener tendens til å bli med i grunnleggende trasé (tabell 2).

Karakterisering av felles HK gener uttrykk mønstre

For å karakter genuttrykk nivå og variasjon fører til genuttrykksmønster definisjon, vi først gjelde forbedret K-betyr algoritme og vedta bedre genuttrykk koeffisientene varians (

CV

, se Materialer og metoder for detaljer) modell. Tidligere studier vanligvis definert 100 RPKM gener som høyt uttrykk terskelverdier og en RPKM for lav uttrykk basert på åtte log-skala binger [11]. Den forbedrede K-midler algoritme identifiserer terskler fra en enkeltperson genuttrykk fordelingsmønster. Basert på beregningen av denne algoritmen, lav uttrykk Grenseverdiene er 0,66 til 1,22 RPKM, og høy uttrykk Grenseverdiene er 8,58 til 19,99 RPKM (tabell 3). Vi setter en medianverdi på 1,06 RPKM for lav terskel og en medianverdi på 12,72 RPKM for høye terskel i normal tilstand som en standard for videre analyse (figur S5). Å diskriminere en genekspresjon variasjon status, bruker vi en forbedret genuttrykk

CV

modell.

CV

verdier i normalgruppen varierer fra 0 til 0,54. Q1 (ett kvartal) og Q3 (tre fjerdedeler)

CV

verdier i normalgruppen er 0,14 og 0,26, som er merket som konstante og variable uttrykk terskelverdier, henholdsvis (figur S6). Dermed vi helt får tre statuser av genekspresjon variasjon, konstant (0

CV

≤0.14), moderat variabel (0,14

CV

≤0.26), og variable (

CV

. 0,26)

Det er vel kjent at noen gener uttrykker stadig blant vev mens andre uttrykker løst i normal tilstand. Dette fenomenet foreligger også i HK-gener [12] – [13], [35]. Basert på genekspresjon

CV

modellen, finner vi at flere HK gener i kreft tendens til å være moderat variable uttrykte gener (figur 3A). Vi forsøker å undersøke på hvilke måter genuttrykk variasjon status er regulert for å håndtere fremveksten av en svulst. Dermed vi sammenligner 6237 delte HK gener for å illustrere sin justering. Mer enn halvparten av felles HK gener «uttrykk variasjonsstatusendringer mellom normal og kreft tilstand. Som vist i figur 3B, til nesten to tredjedeler av konstant delte HK gener under normal tilstand endring moderat variabel status etter kreft tilstand. En tredjedel av moderat variabel delt HK gener i normale tilstand blir konstant delte HK gener i krefttilstand. Omtrent halvparten av variabel delte HK gener i normal tilstand endrer deres uttrykk variasjon status til moderat variabel i kreft tilstand (figur 3B). En celle er egnet til å modulere sin genuttrykksmønstrene å være hovedsakelig moderat variabel uttrykk i tumor fysiologisk tilstand.

Det er tre genekspresjon variasjon statuser, Constant, forkortet til suffikset «C» i (B), og Moderat variabel, forkortet til Moderat (A) og suffikset «M» i (B), og variabel, forkortet til suffikset «V» i (B).

For å måle genuttrykk regulering og genekspresjon variasjon status regulering i kreft tilstand, foreslår vi en MDAD (se Materialer og metoder avsnittet) tomt med en sammenkoblet Wilcoxon signed-rank test [38] i alt delt HK gener (figur 4A) og delte HK gener i tre variasjon statusundertyper (Figur 4B, C, D). Alt sammen Wilcoxon signed-rank test detalj verdier er vist i Tabell 4. Delt HK gener uttrykke høyere i kreft enn i normalt vev, basert på effektiv uttrykk bredde (

MD

, er p-verdien 4.34E-33 ) og den mellomliggende verdi (

AD

, er p-verdi 0). De tidligere mikroarray data indikerte at humane kreftgener kan være vidt oppregulert [31]. Parvise Wilcoxon signed-rank test p-verdier på

MD

i tre genuttrykk variasjon subtyper er henholdsvis 4.24E-67, 0,11 og 0,59,. P-verdier på

AD

er alt for lavere med verdiene av 3.15E-160, 2.62E-126, og 3.65E-183 (tabell 4). Som figur 4 vist, mest delte HK gener «

AD Hotell og

MD

verdiene er mindre enn 0 som betyr gener uttrykker høyere i kreft tilstand enn i normal tilstand. Derfor, i kreft tilstand, justerer en celle i hovedsak konstant delte HK gener for å uttrykke høyere for å handle fremveksten av kreft signal

MD

. 0 betyr genuttrykket spennvidde i kreft tilstand er større enn den i normal tilstand, og

AD

0 betyr genekspresjonen relative gjennomsnittsnivå i kreft tilstand er høyere enn det som i normal tilstand. Ifølge delt normale HK gener uttrykk variasjon statuser, felles HK gener er delt inn i tre undergrupper, konstant, moderat variabel, og variabel uttrykt delte HK gener. Parvise Wilcoxon signert rank test er brukt her for å måle genuttrykk regulering og genekspresjon variasjon status regulering. (A) Alle delte HK gener. (B) Delt konstant uttrykt HK gener. (C) Felles moderat variabel uttrykt HK gener. (D) delt variable uttrykt HK-genene.

kvantifisere andel av gener hvor kreftcellen modulere genekspresjon nivå til å være høyere enn i normale fysiologiske status. For å gjøre dette, regner vi genet teller som har maksimal ratio verdier (

maxR

) og minimumsforhold verdier (

minR

) ≤1 (se Materialer og metoder). Når

minR

≤1, det er 73,47% av felles HK gener akkumulert; når

maxR

≤1, det er 67,79% av felles HK gener akkumulert (figur 5A, tabell 5). Vi anser også cellene regulerer genuttrykk nivåer i kreft tilstand kombinere med genuttrykk variasjon informasjon. Når

minR

≤1, det er 78,24% av felles HK gener i konstant status, er 65,10% av felles HK gener i moderat variabel status, og 80,16% av felles HK gener i variabel status akkumulert. Og når

maxR

≤1, de nummer er 70,17%, 62,30% og 73,53% i disse tre uttrykk variasjonsundertyper (figur 5B, C, D, tabell 5). Dataene viser at de fleste delte HK genene opp regulert kombinere med genuttrykk variasjon status i kreft tilstand.

Up y-aksen betegner

maxR

med intervallet [0, 3], og ned y aksen betegner

minR

med intervallet [0, 3]. For å forsterke figuren, setter vi forholdet verdi som 3,00 om et forhold verdien er større enn 2,50. Når det gjelder det indre innsatsen grafen, viser den blå kurven akkumulert

maxR

; og den grønne kurven viser akkumulerte

minR

. Begge svarer til venstre y-aksen betegner akkumulert genet teller. Høyre y-aksen betegner enkelte genet count (vist som Gene Count Ratio), noe som tilsvarer en rød

maxR

fordelingskurve og en cyan

minR

fordelingskurve.

Legg att eit svar