Abstract
Bakgrunn
Hundrevis av gener med differensial DNA metylering av arrangører har blitt identifisert for ulike kreftformer. Men reproduserbarheten av differensial DNA metylering funn for kreft og forholdet mellom DNA metylering og avvikende genuttrykk er ikke systematisk analysert.
metodikk /hovedfunnene
Bruke tabelldata for sju typer kreft, må vi først evaluert effekten av eksperimentelle grupper på differensial DNA metylering gjenkjenning. Sekund, sammenlignet vi retninger av DNA metylering endringer funnet fra forskjellige datasett for den samme kreft. Tredje, vurderte vi det samsvar mellom metylering og genuttrykk endringer. Til slutt sammenlignet vi DNA-metylering endringer i ulike kreftformer. For en gitt kreft, retningene av metylering og uttrykk endringer funnet fra forskjellige datasett, med unntak av potensielle partieffekter, var svært konsekvent. I forskjellige kreftformer, ble DNA hypermethylation høyt inverst korrelert med nedregulering av genekspresjon, mens hypometylering var bare svakt korrelert med oppregulering av gener. Til slutt fant vi ut at genene vanligvis hypomethylated i forskjellige krefttyper i hovedsak utført funksjoner knyttet til kronisk betennelse, for eksempel «keratinization «,» chemotaxis» og «immunrespons».
Konklusjoner
Batch effekter kunne i stor grad påvirke oppdagelsen av DNA metylering biomarkører. For en bestemt kreft, kan både differensial DNA metylering og genekspresjon være reproduserbart oppdaget fra forskjellige studier uten batch effekter. Mens DNA hypermethylation er vesentlig knyttet til genet nedregulering, er hypometylering bare svakt korrelert med genet oppregulering og vil trolig være knyttet til kronisk betennelse
Citation. Yao C, Li H, Shen X, han Z, Han L, Guo Z (2012) Reproduserbarhet og Konkordans av differensial DNA Metylering og Gene Expression i kreft. PLoS ONE 7 (1): e29686. doi: 10,1371 /journal.pone.0029686
Redaktør: Abdelilah Aboussekhra, King Faisal Specialist Hospital Research Center, Saudi-Arabia
mottatt: 22 august 2011; Godkjent: 01.12.2011; Publisert: 03.01.2012
Copyright: © 2012 Yao et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dette arbeidet ble støttet av Natural Science Foundation of China National (gi No: 30370388, 81071646, 91029717, URL: https://www.nsfc.gov.cn/Portal0/default152.htm), Excellent Youth Foundation i Heilongjiang-provinsen (gi Ingen . JC200808, URL: https://jj.hljkj.cn/qn/) og Science Foundation i Heilongjiang-provinsen i Kina (tilskudd Natural: QC2010012, URL: https://jj.hljkj.cn/zr/). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
metylering matriser har blitt brukt for å identifisere hundrevis av gener med differensial DNA-metylering av deres promotere i ulike typer av kreft [1], [2], [3], [4], heretter referert til som DM gener , og gir innsikt i kreft biologi og nyttige biomarkører for å forutsi kreft utfall og narkotika mål [5]. Imidlertid kan ulike biologiske og tekniske faktorer påvirker oppdagelsen av biomarkører for kreft hos mennesker. Spesielt kan batch-effekter, som kan bli introdusert ved hjelp av prøver fra forskjellige eksperimentelle grupper (for eksempel prøvepreparering til forskjellige tider, med forskjellige protokoller, på forskjellig chip mye eller forskjellige microarray plattformer), fremstille systematisk ikke-biologiske forskjeller mellom ulike grupper av prøvene [6], [7], [8], [9]. Dermed en utfordrende oppgave av fundamental betydning for biomarkør validering er å vurdere reproduserbarheten av DM gen funn på tvers av ulike studier for en bestemt kreft [10], [11], [12]. Dette problemet har ikke vært fullt opp før nå. Når DM gener er reproduserbart identifisert for en bestemt kreft, er en viktig oppgave å definere sine roller i kreftutvikling. Det er allment akseptert at avvikende promoter metylering er en vesentlig årsak til endret genuttrykk i kreft [13]. Imidlertid har flere nyere studier utfordret invers korrelasjon mellom metylering og uttrykk endringer [14], [15]. Dermed trenger fortsatt forholdet mellom endringer i DNA metylering og genuttrykk i kreft for å bli systematisk evaluert.
The Cancer Genome Atlas (TCGA) database [16] gir hundrevis av metylering profiler for ulike krefttyper. For en bestemt kreft, ble prøver ofte hentet fra ulike laboratorier og behandlet i ulike eksperimentelle grupper på grunn av praktiske komplikasjoner som teknologi begrensning. I denne artikkelen, basert på metylering profiler for ni typer kreft samlet i TCGA databasen [16], viste vi at feil integrere data fra ulike eksperimentelle grupper for å trekke DM gener kan være misvisende. Etter eksklusiv datasett med potensielle batch-effekter, demonstrerte vi at endringen av metylering tilstander (hypermethylation eller hypometylering) i DM gener hos kreftprøvene, sammenlignet med normale prøver kan være sterkt reproduserbart detektert fra forskjellige datasett for en gitt kreft. En lignende tendens ble observert for de uttrykk endring av gener i kreft basert på datasett som er tilgjengelige fra Gene Expression omnibus database [17]. Deretter, basert på reproduserbare DM og DE gener for hver krefttype, fant vi ut at arrangøren hypermethylation er sterkt inverst korrelert med genet ned utfoldelse, mens hypometylering er bare svakt korrelert med up-uttrykket av gener med store uttrykk endringer. Endelig fant vi at hypomethylated gener hovedsakelig forstyrre funksjonene direkte knyttet til kronisk betennelse, for eksempel «Chemotaxis «og» immunrespons» funksjoner.
Materialer og Metoder
Datakilder
Uttrykket og metylering datasett som er beskrevet i tabell 1 og tabell 2 ble lastet ned fra GEO [17] og [16] TCGA databaser, respektivt. De rå genuttrykk profiler ble normalisert ved hjelp av robust multi-rekke analyse (RMA) algoritme [18]. Vi brukte nivå 2 data som er definert i TCGA databasen, som gir U (unmethylated) og M (denaturert) verdier for hver sonde. Beta Verdiene av prober ble beregnet ved M /(U + M + 100) [19]. Sonde IDer ble kartlagt til Gene IDer med merknaden tabell for hver plattform.
Analyse av batch effekter
batch effekter kan genereres for prøver fra ulike eksperimentelle grupper eller innsamlingssentre i TCGA databasen [16]. For metylering data fra TCGA, beregnet vi en F-statistikk for å teste sammenhengen mellom probes «metylering nivåer (Beta-verdier) og deres eksperimentelle grupper eller samling laboratorier.
P
verdier ble justert ved Bonferroni-Hochberg prosedyre med den falske funnraten (FDR) 0,05 [20] og vesentlige prober ble ansett utsatt for batch effekter [9]. For å evaluere effekten av eksperimentelle grupper på DM genetisk testing, vi også sammenlignet DM gener valgt fra datasett kompromitterende tumorprøver fra ulike partier og en gitt gruppe av normale prøver fra et parti for en bestemt krefttype.
Valg av DM gener og dE gener
for hvert datasett, valgte vi DM gener med t-test [19] og brukt Benjamini-Hochberg prosedyre for å kontrollere FDR på et gitt nivå [20]. DM gener med større hjelp av metylering nivåer i kreftprøver enn i de vanlige prøvene ble definert som hypermethylated gener; ellers ble DM gener definert som hypomethylated gener.
forskjellig uttrykt (DE) gener ble valgt ved hjelp av SAM (betydning analyse av microarray) algoritme [21]. Gener med justerte P-verdier mindre enn 0,05 ble definert som forskjellig uttrykt (DE) gener.
reproduserbarhet analyse av DM gener og DE gener
Deretter vurderte vi reproduserbarhet av DM genetisk testing ved å analysere overlappingen av listene i DM gener valgt fra to datasett for hver kreft. Hvis k gener er felles liste 1 med lengde L
1 og liste 2 med lengde L
2, så POG (prosentandel av overlappende gener) score fra liste 1 (eller liste 2) å liste 2 (eller liste 1) er POG 12 = k /L
1 (eller POG 21 = k /L
2). Deretter vurderte vi konsistensen av metylering retninger (hypermethylation eller hypometylering) av k gener som deles av lister 1 og 2 på tvers av de to datasettene. Det samme analyse ble utført på listene over DE gener valgt fra to uttrykk datasett for hver kreft.
samsvar mellom DNA metylering og genuttrykk endringer
Hvis uttrykket av en hypermethylated (eller hypomethylated) -genet ble signifikant nedregulert (eller oppregulert), vurderte vi metylering endre å være overensstemmende med endringen i genekspresjon. Vi definerte den samstemmighet mellom DNA hypermethylation og genet nedregulering som prosentandelen av nedregulert gener blant hypermethylated gener med differensial uttrykk.
P
verdi ble beregnet ved den hypergeometriske modellen [10], [11], [12]. Tilsvarende samstemmighet mellom DNA hypometylering og genet oppregulering ble definert som andelen av oppregulert gener blant hypomethylated gener med differensial uttrykk.
Funksjon berikelse av DM gener
Ved hjelp av Elim programvare, vi har oppdaget Gene ontologi (GO) termer beriket med DM gener [22].
P
verdier ble justert ved Bonferroni-Hochberg prosedyre med en FDR. 0,05 [20]
Resultater
Batch effekter på DM genetisk testing
Vi evaluerte første effektene av eksperimentelle grupper på metylering nivå for hver sonde i tumorprøver av to satser hver for seg i ni typer kreft innsamlet i TCGA databasen (se tabell 1) ved anvendelse av F-statistikk med en falsk oppdagelse hastighet ( FDR) 0,05 [20] (se
Metoder
). Som vist på fig. 1a, ca 30% av sonder i gjennomsnitt var betydelig utsatt for batch effekter for de ni krefttyper når prøvene kom fra forskjellige laboratorier og ulike grupper. Og omtrent 20% prober var fremdeles signifikant følsomme når begrenset prøver fra samme laboratorium, men behandles i forskjellige grupper (Fig. 1b). Det er imidlertid bare omtrent 7,7% prober var signifikant følsomme når prøvene kom fra de samme grupper (Fig. 1c). Spesielt, som vist på fig. 1d kunne tumorprøver fra to omganger (batch 9 og batch 12) for eggstokkreft serøs cystadenocarcinoma bli gruppert sammen perfekt i henhold til batch av den hierarkiske clustering algoritmen ved hjelp av euklidske avstander betaverdier mellom prøvene.
( a) ulike grupper og ulike laboratorier; (B) det samme laboratorium, men forskjellige partier; (C) det samme parti, men forskjellige laboratorier; (D) Hierarkisk clustering tumorprøver av eggstokkreft serøs cystadenocarcinoma i batch 9 og batch 12. For en krefttype angitt i x-aksen i diagrammet a, b eller c, et boksplott i y-aksen representerer prosentandelen av sonder betydelig utsatt for ulike batch forhold. Den prosentvise tar verdi i området fra 0 (ingen følsomme sonde) til 1 (100% følsomme prober). Hver boks strekker seg fra den nedre hengselen (definert som den 25. persentil) til øvre hengsel (75. persentil) og median er vist som en linje på tvers av boksen.
De ovennevnte resultatene indikerte at integrering tumorprøver fra forskjellige grupper for å oppdage DM gener kan være misvisende. Faktisk, som følge av de satsvise virkninger, kan endringen av metylering tilstander av DM-genene hos kreftprøvene, sammenlignet med normale prøver være meget inkonsekvent når man sammenligner tumorprøver fra forskjellige batcher med den samme gruppe av normale kontroller (se Fig. 2) . For eksempel, når man sammenligner tumorprøver fra parti 9 og batch 15 for ovarial serøs cystadenocarcinoma med den samme gruppen av normale prøver (batch 27), respektivt, konsistensen av den endring av metylering tilstander av de vanlige DM genene var bare 23,5%. Derfor er de fleste av de observerte differensial metyleringen var over partier i stedet for på tvers av biologiske grupper, noe som fører til svært reproduserbare resultater.
For hver krefttype angitt i x-aksen, en boks tomt i y-aksen representerer konsistens skår definert som andelen av DM gener med konsistente metylering tilstander blant alle overlapp DM gen vanligvis påvises i begge de to gruppene (se «Metoder» -delen). Konsistensen poengsum tar verdi mellom 0 (ingen konsistente stater) til 1 (100% konsekvent stater). Hver boks strekker seg fra den nedre hengselen (definert som den 25. persentil) til øvre hengsel (75. persentil) og median er vist som en linje på tvers av boksen.
reproduserbarhet av DM genetisk testing
for å unngå potensielle partieffekter og skjevheter som kan bli introdusert i ulike aldersgrupper av pasientene, vi bare analysert profilene til fem krefttyper for hver av disse par-matchet tumor og normale prøver fra de samme pasientene som samles inn av samme laboratorium og målt på samme eksperimentelle batch var tilgjengelige (se tabell 2). For hver kreft, brukte vi de to største partier som uavhengige datasett og oppdaget DM gener med t-test på FDR 0,05 [20]. Deretter vurderte vi konsistensen av de to listene over DM gener oppdaget separat fra de to datasett (partier) ved å beregne prosentandelen av overlappende gener (POG) mellom de to listene over DM gener [10] (se
Metoder
). For hver kreft, ble de fleste av DM gener på kortere liste inkludert i lengre liste, som reflekteres av POG
12 score vist i Tabell 3. Mer enn 99% av DM gener oppdaget i begge datasett var konsekvent i endringen av metylering heter på tvers av de to datasettene. For eksempel ble 3778 og 3966 DM gener identifiseres separat i de to datasett (K78 og K100, henholdsvis) for nyre nyre klar cellekreft (nyrekreft), med en overlapping på 3443 gener. Påfallende, alle de 3443 gener viste samme endring av metylering stater over de to datasettene, betydelig mer enn forventet ved en tilfeldighet (Bernoulli modell
P
2,2 × 10
-16)
.
En stor andel av DM gener oppdaget i en datasettet var ikke fast bestemt på å være av betydning i et annet datasett for hver kreft, som reflekteres av POG
21 score vist i Tabell 3. Men vår analyse viste at de fleste av DM gener som ble utelukkende oppdaget i en datasettet viste også den samme endringen av metylering tilstander i et annet datasett for den samme kreft, avsløre at de effektive biologiske signaler til disse DM genene også fantes i andre datasett. For eksempel, for nyrekreft, 514 (98,2%) av de 523 genene som oppdages å være betydelig utelukkende i større datasett (K100) viste samme endring av metylering stater i mindre datasettet (K78), som var svært lite sannsynlig å skje etter sjanse (Bernoulli
P
2,2 × 10
-16). Dermed kan de relativt lave POG
21 score gjenspeiler redusert statistisk styrke til å påvise DM gener i mindre datasett, kombinert med en streng FDR kontroll [10], [23].
Vi har også analysert en uavhengige datasett for tykktarmskreft tilgjengelig fra GEO databasen [17]. Med FDR 0,05, 2601 og 4001 DM gener ble identifisert i C22 datasettet (fra TCGA) og C44 datasettet (fra GEO), henholdsvis. Disse to lister over DM gener delt 2421 gener, hvorav 2419 (99,9%) viste samme endring av metylering stater i de to datasettene (Bernoulli modell
P
2,2 × 10
-16). Blant de andre 1582 gener som var betydelig i større C44 datasettet, men ikke i mindre C22 datasettet, 1502 (94,9%) viste samme endring av metylering stater i mindre datasettet, betydelig mer enn forventet ved en tilfeldighet (Bernoulli modell
P
2,2 × 10
-16). Den høye konsistens av endringen av metylering stater for DM gener på tvers av ulike datasett for den samme kreft indikerte at DM gener i kreft kunne reproduserbart påvises i høy gjennomstrømming metylering data.
reproduserbarhet av DE genetisk testing
TCGA data er også problematisk for ekspresjon av data, fordi bare en normal prøve ble målt i uttrykk for hver kreft, noe som gjør sammenligningen mellom tumor og normale prøver upålitelig. Derfor valgte vi ekspresjonsdata av matchet krefttype fra GEO database [17]. For ni kreft analysert ovenfor, var vi i stand til å finne to genekspresjon datasett for tre kreftformer (se tabell 2). For hver av disse tre cancere, ved hjelp av SAM [21] med FDR 0,01, valgte vi to lister av differensielt uttrykte (DE) gener fra de to datasett, og funnet at de fleste av DE genene i kortere liste ble inkludert i lengre liste , som reflekteres av POG
12 score vist i Tabell 4. i tillegg, over 94,5% av dE genene påvist i begge datasettene for hver kreft var konsistente i reguleringen retning (opp eller ned) over de to datasettene , som var svært lite sannsynlig å skje ved en tilfeldighet (tabell 4, Bernoulli modell
P
2,2 × 10
-16). I tillegg er de fleste av de DE genene utelukkende påvises i en datasettet viste de samme regulerings retninger i en annen datasettet for den samme kreft, avsløre at den effektive biologiske signaler til disse genene DE eksisterte i den senere datasettet. For eksempel, for tykktarmskreft, 6056 (94,5%) av de 6420 genene som detekteres å være signifikant bare i den større datasettet (C64) viser den samme regulering retning i det minste datasettet (C23H), som er svært lite sannsynlig å skje ved en tilfeldighet ( Bernoulli modell
P
2,2 × 10
-16)
de ovennevnte analysene var basert på data normalisert ved RMA algoritme, som forutsetter at flertallet av gener. ikke er forskjellig uttrykt i en sykdom [24]. Vi utførte de samme analysene ved hjelp av minste-varianten set (LVS) algoritme [25], som er avhengig mindre på denne forutsetningen, og resultatene var like.
samsvar mellom differensial metylering og forskjells uttrykk
de ovenfor angitte resultater indikerer at de metylering og uttrykk endringer kan bli detektert reproduserbart på tvers av ulike datasett for et spesielt kreft. Spesielt, selv om uttrykket microarray data fra forskjellige kilder, i stedet for TCGA data selv, meget konsistensen av ekspresjon endring på tvers av to datasett fra den samme kreft angitte genregule retninger var reproduserbar og pålitelig for den spesifikke type kreft. Derfor, basert på DM, og reproduserbare DE gener av den samme krefttype, undersøkte vi påvirkning av genpromoteren metylering på genekspresjon. I korthet, når en hypermethylated (eller hypomethylated) genet funnet ved metylering data var signifikant nedregulert (eller opp-regulert) i uttrykket data, vurderte vi at dens DNA-metylering var overensstemmende til sitt uttrykk endring. Den samstemmighet ble målt ved andelen hypermethylated (eller hypomethylated) gener konkordant til genet nedregulering (eller oppregulering).
Vi har evaluert samsvar mellom differensial metylering og uttrykk på to nivåer. Først vurderte vi samsvar mellom differensial metylering og differensial uttrykket av gener. Som vist i tabell 5, 91,6%, 86,6% og 88,2% av hypermethylated gener ble nedregulert i kolon, nyre og lunge cancer, henholdsvis, noe som indikerer at hypermethylation er signifikant assosiert med nedregulering av gener (hypergeometriske test
P
1,0 × 10
-5 for alle tre kreftformer). For eksempel, i tykktarmskreft, 98 av de 107 hypermethylated gener ble nedregulert i kreftprøver sammenlignet med normale kontroller (hypergeometriske test
P
= 7,8 × 10
-9). Deretter fokuserte vi på samsvar mellom metylering med stor metylering nivåendring og uttrykk med stor fold endring (FC) mellom tumor og normale prøver. Når vi fokusert på DM gener med minst 0,15 Δβ (forskjell på gjennomsnitts metylering nivåer mellom tumor og normale prøver), konkordansen prisene økt til 96,1%, 96,2% og 91,3% for kolon, nyre og lunge kreft, henholdsvis. Tilsvarende når vi fokusert på reproduserbare DE gener med minst to ganger endring (FC), konkordansen prisene for de tre kreft var alle over 90%. Imidlertid er forholdet mellom hypometylering av gener og opp-regulering av genekspresjon heller unnvikende. Konkordansen priser var 50,3%, 39,4% og 62,5% for kolon, nyre og lunge kreft, henholdsvis. For lungekreft bare, det hypometylering viste en signifikant invers korrelasjon med genet oppregulering (hypergeometriske test
P
= 4,2 × 10
-6). Når vi fokusert på DM-gener med minst 0,15 eller 0,3 Δβ ble hypometylering signifikant korrelert med den opp-regulering av genekspresjon bare i lungekreft. Når vi undersøkte DE gener med minst to ganger endring, konkordansen prisene økt til 58,5% og 61,7% for tykktarm og nyrekreft, henholdsvis, og ble signifikant (hypergeometriske test
P
= 2,7 × 10
-7 og 5,4 × 10
-4, henholdsvis). Spesielt konkordansen prisene var ca 60%, selv etter at FC cut-off for de tre kreftformer. Disse resultatene tyder på at hypometylering kan delvis påvirke oppregulering av genekspresjon med store fold endringer
Funksjoner av hypermethylated gener og hypomethylated gener
Ved hjelp av Elim programvare med FDR. 0,05 [22 ], vi har oppdaget GO vilkår betydelig beriket med hypermethylated gener reproduserbart identifisert i de to datasettene for hver kreft. For tykktarmskreft, har vi funnet 58 signifikante vilkår, som ble assosiert med grunnleggende biologiske prosesser som transkripsjon, celle adhesjon og signalering (Supplementary Tabell S1 for detaljerte vilkår). For nyrekreft, fant vi 14 vesentlige betingelser, hvorav 11 ble inkludert i de vesentlige betingelser for tykktarmskreft, noe som tyder på at hypermethylated gener i disse to typer kreft har en tendens til å være involvert i lignende funksjoner. Men ingen signifikant GO begrepet ble funnet for lungekreft med FDR 0,05. Ved å sammenligne de 10 beste vilkår med de minste
P
verdier for de tre krefttyper, har vi funnet at 4 terminer ble delt av tykktarm og nyrekreft, og verken kreft delte en sikt med lungekreft. Resultatene indikerte at hypermethylation mønster av lungekreft kan være forskjellig fra tykktarm og nyrekreft
Med FDR. 0,05, fant vi 14, 29 og 2 GO vilkår beriket med hypomethylated gener for kolon, nyre og lungekreft, henholdsvis (Supplemental tabell S2). De fleste av disse viktige begreper relatert til immunrespons. En sammenligning av lister over de 10 beste vilkår med de minste
P
verdier for de tre kreft viste at de delte tre vilkår: «keratinization», «forsvar reaksjon på bakterien», og «cellulære forsvar svar «. Vi i tillegg testet funksjonen til hypomethylated gener fra Lung plateepitelkarsinom og mage adenokarsinom data. Disse genene ble også beriket i «keratinization» og «forsvar reaksjon på bakterien» (tabell Supplemental S3). Spesielt in’keratinization «, fant vi at 12 KAP gener som koder for keratin forbundet proteiner (Tabell 6) ble hypomethylated i alle fem typer kreft. Spesielt, disse 12 KAP gener ble også inkludert i de 16 KAP gener funnet å vise uttalt differensial hypometylering i blærekreft [26]. Disse bevisene sammen antyder at KAP gener kan brukes som biomarkører for flere krefttyper. Til slutt, en sammenligning av to av de tre kreft viste at DM gener oppdaget utelukkende i en bestemt kreft var mer sannsynlig å bli hypermethylated enn DM gener påvist i to kreft (chi-squared test
P
0,001 for sammenligning av andelene av hypermethylated gener). For eksempel ble 635 (43,5%) av de 1411 DM gener oppdaget i tykktarmskreft, men ikke i lungekreft hypermethylated, mens bare 42 (16,5%) av de 254 DM gener påvist i både kreft ble hypermethylated. På den annen side, ble 168 av de 189 DM gener som deles av de tre kreft hypomethylated og beriket i «keratinization», «chemotaxis», og immunrespons «funksjoner (se
Diskusjon
).
Diskusjoner
påvisning av avvikende DNA metylering i kreft kan gi viktige biomarkører for å forutsi kreft utfall og narkotika mål. Imidlertid kan fallgruvene i forsøket design og feilslåtte dataanalyser, for eksempel feil integrere grupper av TCGA data, produserer upålitelige biomarkører [9]. Spesielt, de fleste studier ved hjelp av TCGA data, inkludert mange publisert i høyprofilerte tidsskrifter [16], [27], [28], [29], ikke anses som potensielle batch effekter, som må forventes å gi misvisende resultater forbundet med batchene i stedet for de biologiske resultater. For eksempel, Houtan et al. [27] integrerte glioblastom tumorprøver fra flere partier og identifisert en distinkt undergruppe av prøvene viser samlet hypermethylation, som kan ha vært korrelert med sine eksperimentelle grupper på samme måte som de dataene som vises i clustering kartet i fig. 1d. Derfor foreslo vi at konklusjonene basert på integrerte prøver bør revurderes ved å vurdere potensielle batch effekter. Våre resultater antyder sterkt at et eksperiment bør utformes for å unngå batch-effekten ved å fordele eventuelle eksperimentelle surrogater mellom biologiske grupper og bruker tilstrekkelige prøver for hver gruppe [9].
Våre resultater viste at DM gener oppdaget fra forskjellige datasett for den samme kreft, unntatt sats effekter, var konsistente i metylering på tvers av datasettene, i likhet med den observasjon at dE gener påvist fra forskjellige mikroarray studier viser en konsekvent opp eller ned uttrykksmønster [10], [30], [31] . Således kan signalene fra metylering tilstander av DM-gener i kreft påvises med sikkerhet i metylering matriser. Spesielt, 36 av de 47 hypermethylation gener av tykktarmskreft dokumentert i Methycancer databasen [32] ble funnet å være DM gener i våre tarmkreft data, hvorav 34 ble også hypermethylated (Tilsetnings Tabell S4). De reproduserbare metylering biomarkører i ulike kohorter av pasienter kan gi verdifull informasjon for å finne prognostiske biomarkører og narkotika mål for kreft.
På den annen side, fant vi at for en bestemt kreft, mange DM gener oppdaget i en datasettet kan ikke være signifikant i en annen datasettet på grunn av utilstrekkelig kraft til å detektere DM gener i små prøver kombinert med streng kontroll FDR [10], [30], [33]. Reduksjonen av makt kan føre til valg av de mest betydningsfulle gener som biomarkører for kreft å være svært ustabilt på tvers av ulike studier [34]. For å evaluere reproduserbarheten av de mest betydelige DM gener oppdaget fra forskjellige studier for en bestemt cancer, kan vi ta hensyn til det funksjonsmessige forhold i stedet for bare å telle de overlapp [11], [35].
For funksjonen av DM gener, våre resultater viste hypermethylation av genet promotorer var signifikant knyttet til nedregulering av genekspresjon i kreft og påvirker grunnleggende biologiske prosesser, slik som signalering og cellevekst, i likhet med det som er blitt observert for human aldring [36]. I motsetning hypometylering var bare svakt korrelerte med genet opp-regulering, noe som indikerer at andre faktorer som for eksempel genet legeme hypermethylation [37] og kopier amplifikasjon [38] kan bidra mer til opp-regulering av genekspresjon. Vi fant ut at hypomethylated gener for ulike kreftformer var like i funksjonene direkte knyttet til kronisk betennelse, for eksempel «chemotaxis» og «immunrespons». Kjemokiner spiller viktige roller i regulering av betennelse fremgang [39], og immunsvikt kan resultere i kronisk inflammasjon [39]. Dette kronisk betennelse kan forårsake global hypometylering, noe som kan føre til ustabilitet kromosom og øke mutasjoner av genomet og deretter øke risikoen for kreft [40].
I tillegg er resultatene viste at DM gener påvist i en bestemt type kreft var mer sannsynlig å bli hypermethylated enn DM gener påvist i flere kreftformer. Men å definere kreft typespesifikke biomarkører er vanskelig fordi ulike studier for en bestemt kreft ofte oppdage ulike DM gener. Ved hjelp av vevs-spesifikke gener som er samlet inn av Xiong et al. [41], fant vi at gener fortrinnsvis uttrykt i et bestemt vev ble beriket med gener differensielt denaturert i tilsvarende krefttype (hypergeometriske test
P
0,001 for alle tre kreftformer), men disse DM genene gjorde ikke viser noen preferanse mot hypermethylation eller hypometylering. Tatt i betraktning at nøyaktigheten av «vevsspesifikke» gener avhenger sterkt av ekspresjonsnivået av det respektive transkriptet [42], kan det være mer pålitelig å definere «vevsspesifikke» gener av sine metylering mønstre [43]. I det videre arbeidet, planlegger vi å studere krefttypespesifikke DM gener ved å ta hensyn til de motsatte metylering retninger av DM gener oppdaget for ulike krefttyper.
Hjelpemiddel Informasjon
Tabell S1.
GO vilkår betydelig beriket med Hypermethylation gener separat for Colon, Nyre og Lunge kreft
doi:. 10,1371 /journal.pone.0029686.s001 plakater (XLS)
Tabell S2.
GO vilkår betydelig beriket med hypometylering gener separat for Colon, Nyre og Lunge kreft
doi:. 10,1371 /journal.pone.0029686.s002 plakater (XLS)
tabell S3.
GO vilkår betydelig beriket med hypometylering gener separat for Lung plateepitelkarsinom og mage adenokarsinom
doi:. 10,1371 /journal.pone.0029686.s003 plakater (XLS)
Tabell S4.
metylering og uttrykk endringer av gener i MethyCancer database
doi:. 10,1371 /journal.pone.0029686.s004 plakater (XLS)
Takk
Vi takker Jinfeng Zou og Guini Hong for nyttige disscussions, og TCGA konsortium for å gi datasettene.