Abstract
Genetiske varianter ligger innenfor 12p13.33 /
RAD52
locus har blitt assosiert med lunge plateepitelkarsinom (LUSC). Her, innenfor 5,947 UADT kreft og 7,789 kontroller fra 9 forskjellige studier, fant vi rs10849605, en felles intronic variant i
RAD52
, skal også assosiert med øvre aerodigestive veier (UADT) plateepitelkarsinom tilfeller (OR = 1,09 , 95% CI: 1.04-1.15, p = 6×10
-4). Vi i tillegg identifisert rs10849605 som en
RAD52 cis
-eQTL inUADT (p = 1×10
-3) og LUSC (p = 9×10
-4) svulster, med UADT /LUSC risiko allel korrelert med økt
RAD52
uttrykk nivåer. Den 12p13.33 locus, som omfatter rs10849605 /
RAD52
, ble identifisert som en betydelig somatisk samlingskopiantall forsterkning i UADT (n = 374, q-verdi = 0,075) og LUSC (n = 464, q-verdi = 0,007) svulster og korrelert med høyere
RAD52
kreft uttrykk nivåer (p = 6×10
-48 og p = 3×10
-29 i UADT og LUSC, henholdsvis). I kombinasjon, implisere disse resultatene økt
RAD52
uttrykk i både genetisk disposisjon og tumorigenesis av UADT og LUSC svulster
Citation. Delahaye-Sourdeix M, Oliver J, Timofeeva MN, Gaborieau V, Johansson M, Chabrier A, et al. (2015) The 12p13.33 /
RAD52
Locus og genetisk disposisjon for plateepitelkreft Kreft i Øvre Aerodigestive Tract. PLoS ONE 10 (3): e0117639. doi: 10,1371 /journal.pone.0117639
Academic Redaktør: Amanda Ewart Toland, Ohio State University Medical Center, UNITED STATES
mottatt: 16 juli 2014; Godkjent: 29 desember 2014; Publisert: 20 mars 2015
Copyright: © 2015 Delahaye-Sourdeix et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: All relevant data er i avisen og dens saksdokumenter filer
Finansiering:. Midler til studie koordinering, genotyping av replikering studier og statistisk analyse ble gitt av det amerikanske National Institutes of Health (R01 CA092039 05 /05S1) og National Institute of Dental og kraniofaciale forskning (1R03DE020116). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Øvre aerodigestive kanalen (UADT) kreft, som består av munnhulen, strupehode og spiserør, er den fjerde vanligste årsaken til kreftdød på verdensbasis [1]. Mens forbruket av tobakk og alkohol er hoved UADT kreft risikofaktorer [2], har genetisk mottakelighet blitt antatt å spille en rolle i patogenesen av denne sykdommen [3,4].
Eksponering for tobakk og alkohol fører til celleskade og DNA-endringer som, i fravær av passende reparasjon, kan forårsake cellesyklus deregulering og kreftutvikling [5,6]. Homolog rekombinasjon (HR) er en viktig måte ved hvilke celler reparere DNA-skader [7,8].
RAD52
genet er involvert i homolog rekombinasjon DNA reparasjonsprosessen [9] av formidling RAD51, en sentral HR-genet som danner en spiral nucleoprotein filament involvert i letingen etter homologi og strand sammenkobling [10].
genome brede assosiasjonsstudier (GWAS) har impliserte rs10849605 genetisk variant på 12p13.33, locus som omfatter
RAD52
i det menneskelige genom, for å bli assosiert med en beskjeden, men statistisk signifikant, økt risikoen for lungekreft [11,12]. Det synes mest relevant for lunge plateepitelkarsinom (LUSC) og småcellet lungekreft, men med lite bevis innen lunge adenokarsinomer (LUAD) [11,12]. Selv om de molekylære mekanismene som bidrar til initiering og progresjon er fortsatt dårlig forstått, plateepitelkarsinom (SCC) av ulike anatomiske områder deler mange fenotypiske og molekylære egenskaper med hverandre [13]. Hensikten med denne studien var å undersøke
RAD52
i sammenheng med genetisk disposisjon for SCC av UADT, for å undersøke hvordan denne tilknytningen kan være mediert og undersøke de somatiske mutasjon hendelser på
RAD52
12p13.33 locus.
Materialer og Metoder
forsøkspersonene
totalt 9 kasus-kontrollstudier av UADT kreft deltok i vår nåværende studie på totalt 5,947 UADT krefttilfeller og 7,789 kontroller. Studiedesign og befolknings egenskaper har blitt beskrevet i flere detaljer tidligere [3,14,15] og er kort beskrevet i tabell 1. I de fleste studier, kontroll fag var frekvens tilpasset de tilfeller på alder, kjønn og andre faktorer (f.eks , studiested og sykehus). Skriftlig informert samtykke ble innhentet fra alle forsøkspersonene, og undersøkelsene ble godkjent av institusjonelle gjennomgang styrene på hvert studiested. Analysen ble begrenset til plateepitelkarsinom.
Genotyping
rs10849605 ble genotypet ved hjelp av Illumina perle matriser eller TaqMan genotyping (C__1244798_10, Applied Biosystems, Carlsbad, California) ved IARC som beskrevet andre steder [3]. Utførelsen av TaqMan analyser ble validert ved å re-genotyping prøver av kjent genotype (for eksempel HapMap). Genotypen fordelingen var i samsvar med det som forventes av Hardy-Weinberg likevekt i hvert land /studie. Alle påfølgende genotyping oppnådd en intern studie duplikat samstemmighet av . 99%
The Cancer Genome Atlas data
Vi får tilgang til Head and Neck plateepitelkreft (HNSC), Lung plateepitelkreft karsinom (LUSC) og Lung Adenocarcinoma (LUAD) komponenter av TCGA data (TCGA Prosjekt nummer # 3230 og # 2731). Denne informasjonen er tilgjengelig ved hjelp av dbGAP via TGCA (https://tcga-data.nci.nih.gov/tcga/). Data ble lastet ned enten fra https://cghub.ucsc.edu/for exome sekvensering eller direkte fra https://tcga-data.nci.nih.gov/tcga/for RNA sekvensering, metylering og genotype data.
Exome sekvensering.
Vi får tilgang TCGA exome sekvensering «nivå 1» (ubehandlet) data for 363 HNSC og 459 LUSC TCGA enkeltpersoner og avsluttet bioinformatikk analyse av deres sekvens data ved hjelp av Picard, GATK, MuTect og somatiske Indel detektor (Former i S1-fil). Deretter brukte vi i huset bioinformatikk rørledninger (Former i S1-fil) for å bestemme den høyeste kvalitet variant samtaler. Somatiske punktmutasjoner var exonic funksjonelle varianter definert som enten avkorting, påvirker spleising eller missense varianter spådd som skadelig ved SIFT /POLYPHEN2 [16,17].
Kopier nummer Variasjon.
Prøver ble hybridisert hjelp den Genome-Wide Menneskelig SNP Array 6,0 plattform på Genome Analyse Platform of Broad Institute. Vi hentet nivå 3 TCGA data av 374 HNSC, 464 LUSC og 476 LUAD individer som inneholder normalisert log
2 prosenter av fluorescensstyrkene mellom målet prøve og en referanseprøve. Vi bare inkludert i våre analyse personer for hvem både svulsten og tilsvarende vanlige samtaler var tilgjengelige. For et segment, vurderte vi log
2 (ratio) -0,5 Å være en indikasjon på et tap, og en logg
2 (ratio) 0,5 for å indikere en gevinst. Segmenter med log
2 (ratio) på mellom -0,5 og 0,5 ble ikke beholdt som somatisk kopitall endringer. Stempler var ferdig med å legge genene som finnes i hver av de øvrige segmentene bruker EnsEMBL databaser [18].
RNA sekvensering.
RNA sekvensering (RNA-seq) TCGA data ble hentet «nivå 3 «data for 263 HNSC, 223 LUSC og 125 LUAD individer. Normalisering av disse dataene er ytterligere detaljert innenfor den statistiske metodedelen.
Metylering.
TCGA metylering data ble analysert på Illumina infinium HumanMethylation 450K BeadChip analysen. Vi åpnet TCGA metylering «nivå 2» data for 263 HNSC, 223 LUSC og 125 LUAD individer. Vi anslo metylert nivået på hver CpG nettstedet ved beregning av M-verdi (log
2 (forholdet mellom denaturert og unmethylated prober)) ved hjelp TCGA nivå 2 data [19]. Metylering nivå 2 data er allerede bakgrunn korrigert.
rs10849605 TCGA genotyper.
rs10849605 ligger inne i 5 «regionen
RAD52 Hotell og ble ikke dekket av exome sekvensering. Derfor hentet vi genotypene for 263 HNSC, 223 LUSC og 125 LUAD individer ved hjelp av Affymetrix 6,0 SNP rekke TCGA data.
Statistiske metoder
Association analyse.
Sammenhengen mellom den varianter og UADT kreftrisiko ble estimert ved odds ratio (ORS) og 95% konfidensintervall (CIS) per allel under log-additiv modell og genotype avledet fra multivariate ubetinget logistisk regresjon, med sex og studere spesifikke landet inngår i modellen som kovariater (S1 tabell). Heterogenitet ORS ble vurdert ved hjelp av Cochran Q test. Statistiske analyser ble utført med SAS versjon 9.3 (SAS Institute, Cary, NC, USA).
For å kontrollere for potensielle etnisk heterogenitet mellom saker og kontroller, utførte vi en rektor komponenter analyse bruker EIGENSTRAT pakke av EIGENSOFT 5.0 programvare [20] med 12,898 markører i lav koblingsulikevekt [21]. Vi brukte de resulterende 12 statistisk signifikante eigen vektorer (som definert av Tracy-widom statistikk) i sensitivitetsanalyse (tabell A i S1 File).
eQTL analyser.
Sammenhengen mellom rs10849605 kimcellelinje genotype og
RAD52
svulst uttrykk nivåer (eQTL) ble testet på 263 HNSC, 223 LUSC og 125 LUAD ved hjelp av en lineær modell. Det har gjentatte ganger blitt observert at svulster skaffe somatiske endringer som også kan påvirke genuttrykk, spesielt kopiantall endringer og DNA metylering [22-24]. Derfor testet vi eQTL effekten av rs10849605 på
RAD52
svulst uttrykk ved hjelp av både justert og ikke-justerte lineære modeller som beskrevet i tabell B i S1 fil. Disse statistiske analysene ble utført ved hjelp av R statistisk programvare (R Foundation for Statistiske Computing, https://www.R-project.org).
For å kontrollere for effekten av befolkningen heterogenitet, utledes vi befolkning strukturen i 263 HNSC, 223 LUSC og 125 LUAD TCGA tilfeller med Structure [25] med Hapmap utgivelsen # 23 som referansegruppen [26] og begrenset eQTL analyser til 215 HNSC, 192 LUSC og 113 LUAD tilfeller spådd til være av europeisk herkomst (CEU 0,8). På disse, vi videre gjennomført en rektor komponenter analyse lik den GWAS en. De resulterende betydelige eigen vektorer (som definert av Tracy-widom statistikk) ble brukt i eQTL sensitivitetsanalyse (tabell C i S1 File).
Kopier nummer analyse-GISTIC.
Vi brukte en offentlig tilgjengelig metode, kalt Genomisk Identifisering av vesentlige mål i Cancer (GISTIC) [27,28], versjon 2.0 for å finne de betydelig forsterket eller slettet regioner som bruker TCGA kopiere talldata. Den GISTIC algoritme beregner p-verdier for hver markør ved å sammenligne resultatet på hvert locus til en bakgrunn poengsum fordeling generert av tilfeldig permutasjon av markørplasseringer i hver prøve. Deretter korrigere de p-verdiene for flerhypotesetesting ved hjelp av Benjamini-Hochberg falske funnrate (FDR) -metoden. Derfor GISTIC score representerer betydning nivåer og er uttrykt som q-verdier (signifikante under 0,25).
RNA sekvense normalisering.
Nivå 3 RNA sekvense svulst data som vi nås fra TCGA var allerede normalisert til kilobase per million leser (RPKM) standard som korrigerer for arter lengde og lese dybde [29], men ikke for mangfold av RNA befolkningen. For å kontrollere for dette har vi brukt TMM (trimmet gjennomsnitt av M-verdier) normalisering [30] til RPKM data. Dette muligens innebærer et tap av statistisk effektivitet i forhold til å bruke TMM til rådata, siden presisjonen vekting i TMM vil ikke lenger fungere. Men det bør ikke legge noen skjevhet og tap av effektivitet vil være liten hvis lese tetthet er nær ensartet. Vi brukte implementeringer i edger pakke med BioConductor [31] og voom funksjon Bioconductor limma pakken [32]. De vanlige uttrykk data er tilgjengelig bare for noen få tilfeller var det ikke mulig å utføre en differensial uttrykk analyse.
Resultater
kimcellelinje genetisk variasjon rs10849605 og mottakelighet for UADT kreft
Vi genotypede rs10849605 i 5,947 UADT krefttilfeller og 7,789 kontrollpersoner fra 9 studier. Frekvens av den mindreårige allel av rs10849605 varierte noe fra land til land, med risiko allel (C) blir mer utbredt i Europa og Latin-Amerika land i forhold til Asia (51% og 49% versus 40% henholdsvis).
Som observert i plateepitelkarsinom i lungene, ble C-allelet assosiert med en beskjeden økning i UADT kreftrisiko (fig. 1, p = 6×10
-4), med odds ratio (OR) for å ha en ekstra risiko allel å være 1,09 (95% CI: 01.04 til 01.15). Foreningen dukket opp relativt konsekvent på tvers av geografiske område (Fig. 1), og synes ikke følsomme for kryptisk populasjonsstruktur innenfor 1,791 saker og 2.531 kontroller hvor genome wide data var tilgjengelige for å antyde genetisk opphav (tabell A i S1-fil). Foreningen var også konsekvent innenfor UADT kreft sekundære og forbruk av tobakk. Men det var mer fremtredende i de som konsumert alkohol sammenlignet med ikke-drikkere (p_het 0,03) (fig. 1). Det var lite som tyder på denne varianten endret forbruksmønster av tobakk og alkohol (p = 0,53 og p = 0,40, henholdsvis pakke /år og etanol /dag tatt som en kontinuerlig variabel).
Squares representerer Ors, størrelsen på firkantene representerer inverse av variansen av tømmer ORS, horisontale linjer representerer 95% CIS. Den faste vertikale linjen viser OR = 1 og den stiplede vertikale linjen den generelle eller under log-additiv modell. p_het er p-verdien for heterogenitet mellom de ulike undergruppene. I2 er% av observert variasjon mellom undergrupper (negativ I2 ble satt til 0).
Integrert
in-silico
fin kartlegging av 12p13.33 locus
Vi neste foretok
in-silico
analyse av rs10849605 variant og
RAD52
/12p13.33 locus i hode og nakke og lunge kreft genomisk preget av Kreft Genome Atlas (TCGA) .
Expression kvantitativ egenskap locus (eQTL) av rs10849605 i HNSC og LUSC
rs10849605 ligger nær den antatte promoter 5 «til
RAD52
genet, derfor har vi en hypotese om at dette, eller en korrelert proxy variant, kan påvirke
RAD52
genuttrykk. Vi utførte et uttrykk kvantitativ egenskap locus (eQTL) analyse mellom rs10849605 og
RAD52
uttrykk nivåer i HNSC (n = 263), ved hjelp av data der både RNAseq av svulstene og genotyping hadde blitt utført av TCGA innenfor samme enkeltpersoner. rs10849605 var signifikant assosiert med
RAD52
genuttrykk nivåer i HNSC (fig. 2, n = 263, p = 9×10
-4), noe som tyder på at rs10849605 er en
cis
-eQTL locus for
RAD52
. Den C-allelet av rs10849605, forbundet med risiko for HNSC ble korrelert med økt
RAD52
uttrykket nivåer (fig. 2). Foreningen var ikke sensitiv enten til justering for somatiske hendelser (kopiantall eller metylering status som kan påvirke eQTL analyse i tumorer [22]), HNSC subtype (strupehode /hypopharynx, munnhule, orofarynx) eller befolkningsstruktur (Bord B og C i S1 File). En tilsvarende effekt ble observert i LUSC (fig. 2, n = 223, p = 8×10
-4), men ingen klar eQTL Foreningen ble observert i lunge adenokarsinom (LUAD, fig. 2, n = 125, p = 0,75) . Mens statistisk signifikant, det eQTL for rs10849605 utgjør kun en liten andel av variansen (ca. 4%) i
RAD52
ekspresjon i HNSC og LUSC tumorer, en observasjon i linje med den forholdsvis beskjedne genetisk risiko observert med denne variant.
boksplott som viser effekten av genotype for SNP
RAD52
rs10849605 på
RAD52
svulst uttrykk nivåer i HNSC, LUSC og LUAD. Risikoen allelet (C) øker betydelig
RAD52
uttrykk nivåer (p = 9×10
-4 og 8×10
-4 henholdsvis) i begge plateepitel kreft, men ikke i lunge adenokarsinom (p = 0,75). I kontrast, var det ingen bevis for sammenheng mellom rs10849605 og uttrykk nivåer av andre gener i 12p13.33 regionen (tabell D i S1 File).
Somatiske endringer på RAD52 /12p13.33 i hodet and Neck plateepitelkreft (HNSC) og LUSC
Innenfor somatiske mutasjoner kalte fra sammenkoblede normal-svulst exome sekvense prøver av 305 HNSC og 243 LUSC,
RAD52
ble sjelden muterte somatisk (punktmutasjoner og innsettslettinger), med bare to HNSC (0,60% av svulster) og en LUSC (0,40% av svulster) pasienter som hadde en somatisk missense variant, og ingen somatisk innsetting eller sletting observert.
i motsetning vi analyserte TCGA somatisk kopiantall variasjon (CNV) data fra 374 HNSC, 464 LUSC og 476 LUAD svulster og fant at 12p13.33 locus var en hyppig regionen i kopiantall gevinst i HNSC (7,2% av tilfellene) og LUSC (11,2% av tilfellene ). Kopiantall vinning av 12p13.33 ble observert i en lavere andel av LUAD tumorer (3,9% av tilfellene) (Fig. 3). Det var en signifikant forskjell i de somatiske kopierings antall gevinst frekvenser mellom SCC og LUAD (p = 3×10
-5). I tillegg brukte vi GISTIC2 statistikkprogram for å bestemme den relative betydningen av 12p13.33 gevinst i forhold til bakgrunnen frekvensen av kopinummerendringer over hele genomet [27,28] med TCGA somatisk kopitalldata. Den 12p13.33 regionen ble identifisert av GISTIC2 som en betydelig samlings forsterkning i (henholdsvis q-verdi = 0,075 og 0,007,) HNSC og LUSC men ikke i LUAD (figur A i S1 File).
Individer ble bestilt av unsupervised clustering basert på
RAD52
uttrykk nivåer. Heatmap representerer skalert RPKM normaliserte verdier med høyere uttrykk nivåer representert i røde og lavere uttrykk nivåer i blått. Individene bærer en kopi nummer gevinst (log
2 (ratio) 0,5) av
RAD52
er uthevet i grønt (lys gul ellers).
RAD52
gain bærere synes å ha den samme høye uttrykk mønster og cluster sammen. Spesielt i LUAD en av de 3 gain bærere har høyest
RAD52
uttrykk nivå.
Tilstedeværelse av somatisk kopiantall gevinst ble også korrelert med høyere
RAD52
uttrykk nivåer i både HNSC og LUSC svulster (p = 6×10
-48 og 3×10
-29, henholdsvis) (fig. 3), med kopi nummer på dette locus sto for en stor andel av variansen i
RAD52
tumor uttrykk nivåer (57% i HNSC og 45% i LUSC). Som forventet ble genuttrykk nivåer korrelert med kopi nummer for andre gener på 12p13.33 (11 av 26). Men rs10849605 syntes å påvirke bare
RAD52
uttrykk nivåer (tabell D i S1 File).
Diskusjoner
Vår studie har identifisert rs10849605 å bli assosiert med UADT kreft (p = 6×10
-4). Mens den beskjedne natur denne sammenheng begrenset vår evne til å oppdage inter-undergrunn heterogenitet, foreningen var relativt konsekvent på tvers av de ulike etiologiske innstillingene til Europa, Japan, Latin-Amerika og sub-kontinentale Asia (hvor tobakk tygging er en viktig UADT kreft risikofaktor ). Vi merker oss at ulike LD mønstre, eller kryptisk befolkningsstruktur der vi var i stand til å kontrollere for, vil kunne påvirke disse resultatene. Likevel, våre funn er i samsvar med den observasjon at rs10849605 (eller varianter korrelert med det) har også vært assosiert med lungekreft, og spesielt lunge plateepitelkarsinom. Som finnes i lungekreft [12], ble allelet C av mottakelighet variant rs10849605 assosiert med en beskjeden økt risiko for UADT.
rs10849605 ligger på kromosom 12p13.33, en locus som inneholder
RAD52
genet.
RAD52
cellular rolle er DNA dobbel tråd pause reparasjon via homolog rekombinasjon, i samspill med flere DNA-reparasjon relaterte gener i denne funksjonen og derfor en plausibel kandidat genet for å forklare denne foreningen [33]. Likevel kan vi ikke utelukke muligheten for en alternativ mottakelighet genet til
RAD52
grunn av koblingsulikevekt. Vi brukte derfor en
in-silico
integrerende analyse ved hjelp TCGA uttrykk, genotype og somatiske endring data til fine kartlegge dette mottakelighet locus. 12p13.33 ble en region av betydelig somatisk kopiantall gevinst i HNSC og LUSC, noe som tyder på at somatiske amplifikasjon av 12p13.33 er en viktig molekylær hendelse i en undergruppe av tumorer. Men 3MBp forsterket regionen inneholdt flere gener i tillegg til
RAD52
. Viktigere, rs10849605 var en eQTL i HNSC og LUSC for
RAD52
bare, noe som tyder på
RAD52
som den mest sannsynlige kandidaten driver genet for både genetisk disposisjon og tumorigenesis på dette locus. Som en eQTL, den rs10849605 UADT og LUSC risiko knyttet allel (allelet C) ble korrelert med økt
RAD52
uttrykk nivåer. At høyere
RAD52
uttrykk vises involvert i både genetisk disposisjon og somatiske hendelser i UADT og LUSC kan tyde på at RAD52 aktivitet slik at kreftceller til å ha tilstrekkelig genom integritet til å unngå apoptose, en egenskap som kan være spesielt viktig innenfor gentoksisk miljø skapt av tobakksrøyk og alkoholforbruk. Spesielt, var både eQTL og somatiske gevinster observert i HNSC og LUSC, men ikke LUAD, i samsvar med lungekreft genetisk disposisjon [11,12], forsterker betydningen av dette locus i SCC.
En nøkkelrolle av
RAD52
er å gi celler med en grad av redundans i DNA-reparasjon [34].
RAD52
er derfor spesielt viktig i celler mangelfulle i BRCA1-PALB2-BRCA2 veien, noe som gir en alternativ mekanisme for DNA-reparasjon [35,36]. Målrettet hemming av
RAD52
i
BRCA2
manglende celler resulterer i genomisk ustabilitet og celleveksthemming, som fører til forslag fra
RAD52
som et potensielt terapeutisk mål ved hjelp av syntetiske dødelighet tilnærminger [37]. Våre resultater linking
RAD52
høyere genuttrykk til UADT og LUSC, sammen med vår siste observasjon som en sjelden avkorting
BRCA2
genetisk variant, rs11571833 (K3326X) er assosiert med en 2,5 ganger risikoen for squamous karsinomer i lungene og UADT [38,39], tyder på at slike målrettede terapi tilnærminger kan være verdt å undersøke i UADT og LUSC svulster.
Hjelpemiddel Informasjon
S1 fil. Metoder A.
Figur A, forsterkning topper identifisert over genomet ved GISTIC2 i HNSC, LUSC og LUAD. De Gistic-skårer vises på toppen og q-verdier på bunnen. Betydningen linje trekkes ved q-verdi = 0,25 og betydelig forsterkede locus er merket på den høyre side av hvert plot. Den 12p13.33 forsterket regionen er innrammet og merket med en pil. Tabell A, Befolkning stratifisering sensitivitetsanalyse. Modell 1 er den opprinnelige foreningen analyse logistisk regresjon, justert for kjønn og studere bestemt opprinnelsesland. Modell 2 justerer videre for befolkningen stratifisering inkludert de 12 viktigste eigen vektorer (som definert av Tracy-widom statistikk) som kovariater i logistisk regresjon. Tabell B, eQTL analyser ved hjelp av justert og ikke-justert lineære modeller for å måle effekten av rs10849605 genotype på
RAD52
svulst uttrykk nivåer. Modellen måler effekten av den beskyttende allelet T for rs10849605. Antall personer tatt hensyn til i modellen, beta estimater og p-verdien er gitt for de tre ulike krefttyper og ved hjelp av følgende lineære modeller: 1) Ikke-justert, hvordan genotypen påvirker genekspresjon. 2) For HNSC kreft, er det undertype (munnhulen, strupehode /hypofarynx eller orofarynks) anvendt som kovariat. 3)
RAD52
somatisk kopitall anvendes som kovariat. 4) Siden vi er interessert her i påvirkning av somatiske faktorer som bestemmer om en økning av uttrykk og fordi metylering er omvendt korrelert med uttrykk (hypermethylated nettsteder har en tendens til å redusere uttrykk når hypomethylated nettsider indusere økning i uttrykket), valgte vi åtte av de 24 CpG sider for å bli hypomethylated (som definert av en negativ M-verdi på tvers av alle personer i alle våre 3 forskjellige kreftformer). Ut av disse åtte, ble bare cg15612927 signifikant assosiert med uttrykk av
RAD52
i alle 3 kreft (p-verdi 0,05). Derfor tumor metylering nivåer av cg15612927 ble anvendt som kovariat. 5) Den første modellen er justert for alle de tre somatiske endringer (subtype for HNSC, somatisk kopiantall og metylering nivåer). Tabell C, eQTL sensitivitetsanalyse. Den lineære modellen måler effekten av rs10849605 genotype på RAD52 tumor ekspresjonsnivåer. Den første linjen presenterer resultater på alle TCGA sakene vi tilgang til. Den andre linjen begrenser analysen på TCGA tilfeller spådd å være av europeisk opprinnelse. Den siste linjen viser resultatene av den samme lineære modellen, men justert for statistisk signifikante eigen vektorer, som definert av Tracy-Widom (5 for HNSC og LUSC, 8 for LUAD). Tabell D, 12p13.33 kopiantall versus uttrykk og eQTL analyse i HNSC og LUSC. Association analyse mellom kopi nummer og uttrykk nivåer for hver gitt gen i 12p13.33 regionen (venstre side av bordet, «NA» hvis ingen CNV eller uttrykk tilgjengelige data). For de signifikante sammenhenger bare utførte vi en eQTL analyse for å sjekke hvordan rs10849605 genotype påvirker hver gitt genuttrykk nivåer (høyre side av bordet). Betydelige resultater er uthevet i grønt (Bonferroni korreksjon for multippel testing)
doi:. 10,1371 /journal.pone.0117639.s001 plakater (docx)
S1 Table. Studer epidemiologiske eksponeringer og genetiske data
doi:. 10,1371 /journal.pone.0117639.s002 plakater (XLSX)
Takk
Forfatterne takke alle deltakerne som deltok i denne forskningen og finansiører og støtte og teknisk personale som har gjort denne studien mulig. Vi erkjenner og takke Kreft Genome Atlas initiativ hvis data har bidratt sterkt til denne studien.