Abstract
Bakgrunn
Vi har analysert sammenhengen mellom 53 gener knyttet til DNA-reparasjon og p53-mediert skade respons og serøs eggstokkreft risiko ved hjelp av case-kontrolldata fra North Carolina ovarian Cancer Study (NCOCS), en populasjonsbasert, case-kontrollstudie.
Metoder /hovedfunnene
analysen ble begrenset til 364 invasive serøs eggstokkreft tilfeller og 761 kontroller av hvitt, ikke-spanske rase. Statistisk analyse var to iscenesatt: en skjerm ved hjelp av marginale Bayes faktorer (BFS) for 484 SNPs og modellering stadium der vi beregnet multivariate justert posteriore sannsynlighetene for foreningen for 77 SNPs som gikk på skjermen. Disse sannsynlighetene var betinget av emnet alder ved diagnose /intervju, batch, en kvalitet DNA metrisk og genotyper av andre SNPs og lov for usikkerhet i de genetiske parametriseringer av SNPs og antall tilhørende SNPs. Seks SNPs hadde Bayes faktorer større enn 10 i favør av en forening med invasiv serøs eggstokkreft. Disse inkluderte rs5762746 (median OR (odds ratio)
per allel = 0,66; 95% troverdig intervall (KI) = 0,44 til 1,00) og rs6005835 (
median
OR
per allel
= 0,69; 95% CI = 0,53 til 0,91
) i
CHEK2
, rs2078486 (median OR
per allel = 1,65; 95% CI = 01.21 til 02.25) og rs12951053 (median OR
per allel = 1,65; 95% CI = 1.20 til 2.26) i
TP53
, rs411697 (median OR
sjelden homozygot = 0,53; 95% CI = 0,35 til 0,79) i
bach1
og rs10131 (
median OR
sjelden homozygot =
ikke estimable) i
LIG4
. De seks mest tilhørende SNPs er enten spådd til å bli funksjonelt signifikant eller er i LD med en slik variant. Variantene i TP53 ble bekreftet å være forbundet i en stor oppfølgingsstudie.
Konklusjon /Betydning
Basert på våre funn, videre oppfølging av de DNA-reparasjon og respons trasé i et større datasett er garantert å bekrefte disse resultatene
Citation. Schildkraut JM, Iversen ES, Wilson MA, Clyde MA, Moorman PG, Palmieri RT, et al. (2010) Sammenheng mellom DNA Damage Response og reparasjonsgener og risikoen for invasiv Serous eggstokkreft. PLoS ONE 5 (4): e10061. doi: 10,1371 /journal.pone.0010061
Redaktør: Marie-Pierre Dubé, Université de Montréal, Canada
mottatt: 2 desember 2009; Godkjent: 05.03.2010; Publisert: 08.04.2010
Copyright: © 2010 Schildkraut et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Manuskriptet ble støttet med tilskudd fra National Institutes of Health 1-R01-CA76016 og en-R01-HL090559. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuscipt
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Eggstokkreft er den ledende årsaken til dødelighet blant gynekologisk kreft [1]. Den svært dødelig serøs histologisk type omfatter om lag to tredeler av tilfellene, og forårsaker de fleste sykdomsrelaterte dødsfall. Reproduktive faktorer som høy paritet, oral contraceptive bruk, amming, hysterektomi, og tubeligatur beskytte mot kreft i eggstokkene [2], mens infertilitet og endometriose øker risikoen [3], [4]. De biologiske mekanismer som ligger til grunn for disse risikofaktorene er ikke godt forstått, men betennelsesrelaterte oksidativt stress har blitt foreslått som et forenende teori ved hvilken disse risikofaktorer kan forårsake genomisk skade som fører til utvikling av kreft [5], [6], [ ,,,0],7], [8], [9]. Hvis denne teori er riktig, er det sannsynlig at risikoen for ovarial cancer ville bli modifisert ved vanlige genetiske varianter som påvirker effektiviteten av DNA-reparasjonsgener [10], [11].
Flere bevislinjer tyder på at DNA reparasjons trasé spille en viktig rolle i eggstokkene kreftutvikling. Først alle de høye penetrans ovarian cancer susceptibility gener som har blitt identifisert hittil spille en rolle i DNA-reparasjon. I denne forbindelse, skadelige mutasjoner i
BRCA1 Hotell og
BRCA2
gener redusere reparasjon av dobbelttrådet DNA pauser. I tillegg kimlinje-mutasjoner i DNA mismatch-reparasjonsgener som forårsaker arvelig nonpolyposis Colon Cancer (HNPCC) syndrom også påfallende økt risiko for kreft i eggstokkene [12], [13]. For det andre somatiske mutasjoner i
TP53
genet er de mest ervervet molekylære endringer som beskrives så langt i høy klasse serøs eggstokkreft [14], [15], [16].
TP53
er involvert i vedlikehold av genomisk integritet via flere mekanismer, inkludert induksjon av cellesyklus arrest i respons til DNA-skader, DNA-reparasjon og regulering av apoptose.
De ovennevnte observasjonene førte oss til hypoteser som vanlige polymorfismer i gener assosiert med DNA respons og reparasjon eller p53-DNA skader sjekkpunkt kan øke eggstokkreft risiko. Vi fokuserte på 477 tagging enkeltnukleotidpolymorfi (SNPs) og syv ekstra aminosyre skiftende SNPs i 53 gener i DNA skade respons og reparasjon veier. Vi brukte en bayesiansk modell søk strategi kalt Multi-level Inferens for SNP Association (MISA) [17] for å analysere disse SNPs for bevis på samarbeid med eggstokkreft ved hjelp av data fra populasjonsbasert North Carolina Ovarian Cancer Study (NCOCS).
Bayesianske metoder er blitt en langt mer vanlig valg for analyse av genetisk assosiasjonsstudier ([18] og referanser deri). Dette kan skyldes flere faktorer, inkludert flere viktige fordeler den bayesianske paradigmet har over frequentist paradigmet og den økende tilgjengeligheten av programvare som er beregnet for Bayesiansk analyse av genetiske assosiasjons data som MISA pakken ansatt her. Nøkkelen brist til testing i frequentist paradigmet er i sin manglende evne til eksplisitt rede for sannsynligheten for foreningen som oppstår under alternativ hypotese, dvs. å gjøre rede for makt – data som genererer en liten p-verdi under null kan også være svært usannsynlig under alternativ hypotese [18]. I kontrast, Bayesianske metoder gir mål på foreningen – Bayes faktorer (BFS) og posteriore sannsynligheter – som eksplisitt står for sannsynligheten av dataene under konkurrerende hypoteser. Dette kommer på bekostning av flere forutsetninger modellering; nemlig spesifikasjon av tidligere sannsynligheter for hver hypotese og tidligere utdelinger enn modellparametere betinget av hypotesene.
MISA [17] bedrer på SNP-på-en-gang (marginal) metoder ved modellering fenotype som en funksjon av en multivariat genetiske profil og, som et resultat, gir målinger av krets justert for de resterende markører. MISA syssels Bayesiansk Modell av gjennomsnitt [19], [20] for å ta høyde for usikkerhet i spesifikasjonen av den sanne modellen av foreningen, noe som trinnvis logistisk regresjon og annen modell utvalg tilnærminger som lasso ikke gjør. Dette har viktige implikasjoner: metoder som identifiserer en enkelt modell kan gå glipp av viktige SNPs grunn LD struktur. I tillegg gir MISA sammendrag av i hvilken grad dataene støtter en sammenslutning på nivå med enkelte varianter, gener og stier, samtidig som for slutning om den genetiske parametriseringen (log-additiv, dominant eller recessiv) for hver SNP. Den tidligere fordelingen ansatt av MISA ble nøye utvalgt for mangfaldet korreksjon det fremkaller.
Materialer og metoder
forsøkspersonene
Saker og kontroller ble deltakerne i NCOCS, utført i en 48-fylke regionen i Nord-Carolina. En detaljert beskrivelse av studien er publisert tidligere [2], [21]. Kort fortalt saker ble identifisert gjennom North Carolina Central Kreftregisteret bruker rask tilfelle konstatering. Kvalifiserte tilfeller, i alderen 20-74, ble diagnostisert med ovarialcancer mellom 1999 og 2007. Histologiske lysbilder ble innhentet og alle tilfeller gikk standardisert histopathologic gjennomgang av studien patologen (RCB) for å bekrefte diagnosen. Svarprosenten blant kvalifiserte tilfeller var 70%. Vi fant liten forskjell i demografiske og kliniske kjennetegn blant sakene som deltok i denne studien sammenlignet med de som falt. Kontroll kvinner ble identifisert fra samme region ved hjelp av tilfeldig oppringing og ble frekvens tilpasses tilfeller av alder (femårige kategorier) og rase (svart eller ikke-svart). Sytti-tre prosent av potensielle kontroller som har bestått valgbarhet screening enige om å bli sendt ytterligere studier informasjon. Blant dem som sendte studie informasjon, svarprosenten var 64 prosent. Selv om kontrollen svarprosenten er noe lav, har ikke dette påvirket assosiasjoner med etablerte epidemiologiske risikofaktorer [2], [21]. I tillegg er det lite sannsynlig at deltakelse ville ha blitt påvirket av genotype. Protokollen ble godkjent av Duke University Medical Center Institutional Review Board og de menneskelige fag utvalg ved Central Kreftregisteret og hvert sykehus der saker ble identifisert.
Vi begrenset dagens analyser til hvitt, ikke-spanske invasiv serøs eggstokkreft tilfeller (n = 364) og hvite ikke-spanske kontroller (n = 761) med genotype data som treffer kvalitetskontroll krav. Deltakerne hadde blod trekkes under personlig intervju av studien sykepleier. Kimcellelinje DNA ble ekstrahert fra perifere blod lymfocytter ved hjelp PureGene DNA reagenser, i henhold til produsentens instruksjoner (Gentra Systems, Minneapolis, MN).
genotyping Metoder
Vi valgte en bred gruppe av kandidatgener i DNA reparasjon og respons baner (Tabell S1) som sannsynlig samhandler med
BRCA1
eller
BRCA2
eller er involvert i dobbel tråd pause, mismatch reparasjon, nucleotide excision reparasjon, eller base excision reparasjon. Vi merket disse 53 kandidat gener ved hjelp av utgivelsen 19 i Den internasjonale HapMap Projects (www.hapmap.org) [22] CEU grunnlegger befolkningen og ldSelect programmet [23]. Vi merket regionen som begynner 10000 basepar oppstrøms og slutter 10.000 basepar nedstrøms av hvert gen, slik som å inkludere koding, ikke-koding og regulatoriske regioner. ldSelect identifisert hyller av SNPs med mindre allel frekvens (MAF) ≥0.05 hjelp av et par-klok koblingsulikevekt (LD) terskelen til
r
2≥0.8. Vi valgte å genotype to koder i binger hvor alle SNPs hadde lave Illumina motiv score for å forbedre forventet dekning. I forbindelse med analyse, beholdt vi tag med mer nøyaktige genotypen samtaler målt ved å ringe frekvens og samstemmighet i CEPH trioer. Av de 671 tagging SNPs genotypet, 61 var nonsynonymous; ytterligere 14 ikke-tagging aminosyre skiftende SNPs ble også genotypede når koden som ble valgt var også nonsynonymous. Alle nonsynonymous SNPs som møtte kriteriene for Illumina Golden Gate-analyser ble inkludert. Prøvene ble genotypet ved hjelp av en Illumina Golden Gate-analyse ™ ved Duke Institute for Genome Sciences og personvern (IGSP), med saker og kontroller tilfeldig blandet på hver av 21 plater. Seks CEPH-Utah trioer (Coriell Institute, Camden, NJ) ble fordelt over seks plater. Platene ble behandlet i fire porsjoner ved genotyping innretningen. SNPs som ikke kan kalles hjelp av Illumina BeadStudio programvaren på mer enn 1% av prøvene innenfor en batch ble behandlet som mangler for at batch. Vi brukte logistisk regresjonsanalyse for å avgjøre om bakst og DNA-kvalitet beregninger var forbundet med case-control status.
Vi evaluerte nøyaktigheten av genetiske data ved hjelp SNP- og fagspesifikk kvalitetskontroll analyser. Først må vi fjernet fra alle krets analyserer SNP’er med én eller flere cef genotyper i uoverensstemmelse med de publiserte verdier, dvs. de som hadde en estimert feilrate som er større enn eller lik 1/18 forutsatt at de publiserte genotyper er riktige. For det andre, benyttet vi den X2 egnethetstest med kontinuitet korreksjon 0,25 for å teste for avganger fra Hardy-Weinberg-Equilibrium (HWE) blant kontrollene [24] og blant de 60 CEPH foreldre bruker sine publiserte genotyper på loci av interesse. Vi fjernet et delsett av prøvene på grunnlag av en analyse av den venstre halen av fordelingen av p-verdier for HWE. Dette undergruppe sto for Illumina GenCall 50. persentil score (GC50PCT) for hver prøve og brukt den tilsvarende fordelingen anslås utifra HapMap CEPH prøvene for sammenligning. Innrapporterte anslag over mindre allelet frekvens (MAF) er minimum av de observerte allelfrekvensene blant kontrollene.
Tjueto av 685 DNA-reparasjons SNPs på analysen hadde samtalepriser under 99% på alle fire partier og var fjernet fra videre vurdering. Trettisyv av de resterende 663 SNP’er hadde mindre enn 95% samstemmighet i cef sampler mellom våre genotypen samtaler og de publisert av HapMap og ble fjernet fra ytterligere betraktning. Av de gjenværende, 484 var ikke-redundante og inngår i alle senere analyser. En QQ plott av HWE p-verdi distribusjon over disse SNPs med alle 787 hvite ikke-spanske kontroller viste tegn på en overdoser av liten p-verdier i forhold til hva som er forventet under jevn fordeling. Den tilsvarende plott basert på HapMap genotyper av 60 CEPH foreldre ikke har denne egenskapen
Antall SNPs med en HWE p-verdi mindre enn 0,01 beregnes ved hjelp av alle 787 hvite ikke-spanske kontroller var 17.; bruker HapMap prøven, var det 5. Forutsatt at p-verdiene er uavhengige og jevnt fordelt forventet antall mindre enn 0,01 er 4,84, 2,5
th persentil av denne fordelingen er 1 og 97,5
th persentil er 10 .
dette tyder på at heller enn å ha en befolkning genetisk forklaring, er dette avgang sannsynlig på grunn av feil i genotype. For å bekrefte dette, vurderte vi å fjerne prøver med en Illumina GC50PCT mindre enn en terskel større enn vanlig 0,7. Vi økte systematisk terskelen opp til 0,8 og fant at fordelingen av Hwe p-verdier ble dramatisk forbedret ved en terskel på 0,789. Dette valget venstre 364 (av 390) tilfeller og 761 kontroller. Ved hjelp av denne grensen, var det 9 SNPs med HWE p-verdi mindre enn 0,01. Alle ytterligere analyser ble utført ved hjelp av disse prøvene og deres genotype data på de 484 ikke-redundante SNPs bestått vår kvalitetskontroll analyse.
statistiske metoder
MISA analyse.
Vi brukte MISA å identifisere sannsynlige foreninger og genetiske parametriseringer av tilknyttede SNPs. MISA implementerer en modell søk over logis regresjonsmodeller for case-control status gitt SNP variabler og et sett med design og potensielle konfunderende variabler. I dagens analyser, alder ved diagnose /intervju, batch, DNA kvalitet metriske GC50PCT, og interaksjons vilkår mellom batch og GC50PCT er «motiv» variabler som inngår i alle modeller. Vi viser til modellen med bare design variabler som modell av «noen genetisk tilknytning,» eller «null» modell for kort. Det iswhere D
i er indikator på om faget
i
er tilfelle, er M en modell identifikator, α
0 er skjærings, Z
i er vektoren av design variabler for faget
i
, og β
0 er vektoren av koeffisientene til variablene i Z
i under null modell. Legge viktigste effektene for en kombinasjon av SNPs til null modellen vil definere en modell av foreningen. MISA gjør at hver inkludert SNP å ha en log-additiv, dominant eller recessiv parametrisering. MISA bruker en evolusjonær Monte Carlo algoritme for å smake på modeller i denne klassen i henhold til deres bakre sannsynligheter. Dette stokastiske søk er utført i stedet for en opplisting av modellene på grunn av deres store antall.
På grunn av den astronomiske rekke statistiske modeller av ovennevnte form, inneholder MISA en givende enkelt SNP-på-en -time (marginal) Bayes Factor (BF) skjerm med hele settet av ikke-redundante SNPs å eliminere SNPs usannsynlig å bli assosiert i multivariate logistisk regresjonsmodell. Wilson et al. [17] viser at skjermen etterfulgt av den multivariate justerte analyser fra MISA gir økt makt til å oppdage foreninger over marginal analyse alene, med minimal økning i falske positiver. De viser at MISA har også mye bedre effekt enn standard fler sammenligning justering metoder og falske funnrate prosedyrer, trinnvis logistisk regresjon eller lassoen.
MISA benytter en tidligere fordeling over modellparametere kalibrert for små til moderate effektstørrelser og en beta-binomial før fordeling av antall SNP som inngår i en modell. Sistnevnte fordeling induserer et mangfold korreksjon ved å angi en global tidligere oddsen for foreningen som er uavhengig av antall SNPs eller gener i analysen. Dens parametere,
a = 1/8 og
b = S plakater (antall SNP i modellen søkefase), ble valgt på grunnlag av resultatene fra en simulering eksperiment for å oppnå ønsket balanse mellom falske positive og falske negative priser. Flere detaljer om de statistiske metoder som benyttes i denne analysen kan finnes i Wilson et al. [17] (Tekst S1).
Bayesiansk inferens.
Både marginal og multivariate analyser bruke Bayes faktorer (BFS) til å måle bevis i favør (eller mot) en forening. BF er ekvivalent en generalisert likelihood ratio og en odds ratio. I det førstnevnte karakteriseringen er det forholdet mellom sannsynligheten for dataene i henhold til en modell (for eksempel en modell av genetisk assosiasjon) til en annen (for eksempel en modell av noen genetisk krets). I stedet for å ta forholdet mellom prøvemodeller under hver hypotese evaluert ved den mest sannsynlige parameterverdien (MLE) for hver som i Frequentist paradigmet, er det BF forholdet mellom samplings modellene midlet over de respektive tidligere kjente fordelingene på de modellparametre. I det sistnevnte karakteristikk, blir grunnrammer definert som forholdet mellom de bakre sjanser for en hypotese (eller modellen) for tilknytning til de tidligere odds (π /(1- II)) for den hypotese og dermed måle graden til hvilken data
oppdatering
oddsen for at hypotesen om foreningen [25], [26], [27]; med en BF på 10, de bakre oddsen for en forening er 10 ganger større enn de tidligere odds. Under en vanlig brukt målestokk av bevis [28], BF mellom 1,0 og 3,2 er «svakt støttende «, de mellom 3,2 og 10 er» støttende «, de mellom 10 og 30 er» sterkt støttende», de mellom 30 og 100 er « veldig sterk «og de over 100 er» avgjørende «for støtte av foreningen (vi har endret navnene på flere av disse kategoriene, men ikke deres tolkning). En BF for ingen sammenheng er rett og slett den gjensidige av BF for en forening, og dermed i motsetning til p-verdier rammer kan gi et mål på støtte i favør av en nullhypotese. BF kan konverteres til posteriore odds (PO = BF x π /(1- π)), og til bakre sannsynlighetene for foreningen (PPA = PO /(1+ PO)) for å gi en «absolutt» mål på bevis for foreningen [ ,,,0],18]. De bakre sannsynligheter kan anvendes som en del av en avgjørelse analyse for å bestemme hvilke SNP’er å arbeide videre. En terskel på 0,5 for PPA, forutsetter at falske positiver har samme kostnad som falske negativer. For foreløpige undersøkelser, kan en lavere terskel være mer hensiktsmessig.
manglende data.
Det var ingen mangler design variabler. Vi brukte fastPHASE [26] for å generere 100 imputations av de manglende genotypen dataene gitt de observerte, unphased genotype data. Skjermens marginale BF ble beregnet som enkelt gjennomsnitt av grunnrammer for hver av de 100 Beregnet datasett. Vi har sammenlignet disse BFS til de som beregnes med et enkelt datasett der de manglende genotypene ble erstattet av sin modal verdi bestemmes ut fra de 100 imputations. De to settene med grunnrammer hadde korrelasjon 0,998. Av denne grunn, og fordi beregningene er sterkt effektivisert, vi brukte de enkelte datasett med «modale fill-ins» for MISA analyse.
Vår imputering forutsetter at manglende SNP genotyper er ignorable, dvs. enten mangler helt tilfeldig (MCAR) eller mangler ved tilfeldig (MAR). Vi brukte marginal BF programvare for å sjekke denne antakelsen ved å undersøke om en SNP mønster missingness var betinget uavhengig av case-control status gitt observerte data vi har for å forklare missingness. Design variabler i denne analysen var de samme som brukes i skjermen og i MISA. I forbindelse med denne beregningen, brukte vi 0-1 indikator for en SNPs missingness i stedet for genotypen data og beregnet rammer for tilknytning av denne indikatoren til case-control status under log-additiv modell for SNPs med fem eller flere manglende verdier (60 SNPs)
Design variabler
Logis regresjonsanalyse av case-control status på batch og GC50PCT indikerte en sterk batch effekt (p 10e
-7).., i stor grad drevet etter en ujevn fordeling av saker og kontroller i batch fire og en batch-GC50PCT interaksjon (p = 0,02). På grunnlag av denne analysen inkluderer vi batch, GC50PCT, samspillet mellom batch og GC50PCT i alle foreningens modeller sammen med alderen.
haplotype analyse.
Foreninger med en eller flere SNPs i en gen kan oppstå når disse variantene tagge en risiko haplotype. Vi brukte Haploview 4,1 gjennomføre haplotype foreningen tester for å fastslå om dette kan være tilfelle i genene inneholder den mest tilhørende SNPs.
Resultater
NCOCS Kandidat DNA Repair Gene Analysis
i den marginale SNP-at-a-time analyse av de 484 ikke-redundante SNPs passerer kvalitetskontroll, S = 77 SNPs passert marginal skjermen (maks marginal BF 1,0). (Resultatene av screening fasen av analysen, inkludert median oddsratioet (ORS), 95% troverdig intervaller (CIS) og MAFs for alle 484 SNPs er vist i tabell S2.) Vi kjørte MISA bruker de 77 SNPs som gikk på skjermen med parametere
a = 1/8 Hotell og
S = 77
, noe som fører til marginale tidligere oddsen for foreningen i denne undergruppe av 1 /AXS = 0,0016. Tabell 1 viser SNP-spesifikke BFS for de 41 SNPs i 25 gener som hadde en MISA BF 1.0. Tabellen også rapporterer mest sannsynlig genetisk modell for hver SNP, bakre sannsynligheten for at modellen og median ORS og 95% CI estimater.
Av disse 41 SNPs, seks SNPs i fire gener (
CHEK2
,
TP53
,
bach1 Hotell og
LIG4
) har MISA BF 10 gir bevis for en sammenheng mellom disse SNPs og eggstokkreft. Disse er rs5762746 (BF = 28,940) og rs6005835 (BF = 28,028) i
CHEK2
, rs2078486 (BF = 19,604) og rs12951053 (BF = 14,062) i
TP53
, rs411697 (BF = 15,909) i
bach1 Hotell og rs10131 (BF = 10,864) i
LIG4
. Fjorten SNPs i sju gener inkludert
GADD45B
,
MSH3
,
MSH6
,
NBS1
,
RAD52
,
TP53
,
og XRCC5
hadde BF spenner 3,39 til 9,09, med bakre odds som er 3,39 til 9,09 ganger større enn de tidligere odds. De SNP-spesifikke Bayes faktorer er sammensatte tiltak som gjennomsnitt over statistiske modeller av foreningen som inkluderer det SNP mens du justerer for andre potensielt assosiert SNPs og deres genetiske parametriseringer. Derfor de eksplisitt rede for usikkerheten i spesifikasjonen av den statistiske modellen av foreningen
Figur 1 oppsummerer sammenslutninger av de 20 SNPs med MISA BF . 3.2. Denne tomten oppsummerer de 100 modellene valgt på grunnlag av deres bakre modellsannsynligheter. Modeller er organisert på x-aksen i synkende sannsynlighet og bredden av kolonnen forbundet med en modell som er proporsjonal med den sannsynlighet. SNPs er representert på y-aksen. Tilstedeværelse av en SNP i en modell er angitt med en farget blokk i skjæringspunktet mellom modellens kolonnen og SNP raden. Fargen av blokken viser den genetiske parameterisering av SNP i en gitt modell: lilla for log-additiv, blå for recessive og rødt for dominerende. En rutemønster i motsetning til et mønster av sterke vertikale band indikerer betydelig modellusikkerhet. Sytti-åtte av de 100 modellene som er avbildet i figur 1, inkludert de beste 48 modellene, har bare en enkelt SNP i tillegg til design variabler. Bare 22 av de 100 modellene inkludert to SNPs og ingen av dem inkluderte mer enn to. Toppmodellen omfatter kun den log-additiv genetisk parametrisering av rs6005835 i
CHEK2
med en maksimal A Priori (MAP) estimat på OR på 0,70. Den andre rangeres samplet modell består av log-additiv genetisk parametrisering av rs5762746 i
CHEK2
med et kart eller på 0,73. SNPs rs6005835 og rs5762746 i
CHEK2
ha en beskjeden LD, målt som r
2 på 0,5.
Individuell SNPs er representert på y-aksen med etiketter gi genet og RS nummer for SNP og sorteres på grunnlag av Bayes faktor i favør av SNP krets, som er gitt på y-aksen på høyre side av tomten. Tilstedeværelsen av en SNP i en modell er angitt med en farget blokk i skjæringspunktet mellom modellens kolonnen og SNP raden, mens fargen på blokken indikerer parametriseringen av SNP: lilla for log-additiv, blå for recessive og rød for dominerende.
modeller som inkluderer flere SNPs representerer 22 av de 100 modellene etter antall, men bare 7,8% av deres totale posterior masse. Den lave relative vekting av denne klassen av modeller er i stor grad et resultat av den sterke MISA mangfold korreksjon som styrer falsk positiv rate forbundet med samtaler gjort på grunnlag av SNP-spesifikke BF. Den høyest rangerte fler SNP-modell (rank = 49) omfatter CHEK2 rs5762746 og TP53 rs2078486. Disse variantene er komplementære prediktorene, hver forklare så mye variasjon i tilfelle kontrollstatus når modellert alene som når modellert i nærvær av den andre. Dette tyder på at SNPs fra flere gener knyttet til DNA-skader reparere gi utfyllende informasjon om karakter eggstokkreft risiko.
haplotype analyse.
En Haploview [29] analyse av CHEK2, TP53, bach1 og LIG4 , som inneholder de seks øverste SNPs, viste ingen tegn for multi-SNP (haplotype-basert) risiko genotyper.
Analyse av manglende data.
av de 60 SNPs med mer enn 4 mangler SNP genotyper , bare seks hadde BF 1.0 for betinget avhengighet av case-control status på missingness gitt design variabler. Fire av disse grunnrammer var i området 1,01 til 1,49, og er ikke av interesse. De resterende to, rs11571789 i BRCA2 (BF = 3,80) og rs1805794 i NBS1 (BF = 4,60), var «støttende» av foreningen. Disse kan være enten skyldes tilfeldigheter eller til tilstedeværelsen av en umålt feilkilden og reflekterer et mønster av ikke-neglisjerbar missingness. Manglende data imputations som ignorerer muligheten for lavfrekvente polymorfismer som forstyrrer evnen til å analysere en sonde vil ikke gjøre rede for LD mellom den sjeldne assosiert variant og SNP med manglende verdier. Den ultimate effekten ved montering foreningen modeller for dette SNP vil være for SNPs åpenbar effekt å være partisk. BRCA2 rs11571789 maksimale marginale BF for tilknytning til eggstokkreft var 0,26 ( «støttende» ingen forening) og ble ikke inkludert i MISA analyse. NBS1 rs1805794 maksimale marginale BF var 1,76 og dens MISA BF var 3,82. Denne beskjeden bevis i favør av foreningen skal tolkes i lys av potensialet for denne effekten å ha blitt gjort til skamme.
Diskusjoner
Resultatene fra denne studien gir bevis for en sammenheng mellom flere gener i DNA reparasjon og respons stier og risikoen for invasiv serøs eggstokkreft. Det var sterk støtte for assosiasjoner mellom eggstokkreft og to SNPs i
CHEK2
, to SNPs i
TP53
,
og Selge en SNP hver i
bach1
og LIG4
. Våre analyser er også støttende av assosiasjoner mellom fire SNPs i
NBS1
, tre SNPs i
MSH3
, tre SNPs i
RAD52
, og en SNP hver i
GADD45B
,
MSH6
,
TP53
,
og XRCC5 Hotell og invasiv serøs eggstokkreft. Så vidt vi vet, er dette den første studien som tyder på sammenheng mellom eggstokkreft og SNPs i
CHEK2
,
bach1
,
XRCC5
,
NBS1
,
MSH6
,
RAD52
,
og GADD45B
. . Som omtalt nedenfor, det er dokumentert at flere av de svært knyttet SNPs kan ha funksjonell betydning
Vi brukte SNPInfo analyse [30] for å finne ut om noen av de seks SNPs med MISA BF 10 var i LD med en antatt funksjonell variant eller er spådd å ha funksjonell betydning. Vi undersøkte hver HapMap SNP med LD på 0,5 eller høyere til en av de seks SNP. Tabell S3 rapporterer om den varianten er spådd å påvirke en transkripsjonsfaktor-bindingssete, et spleise område, miRNA bindingssete eller endrer strukturen av et proteinprodukt. I tillegg betyr det om SNP er en ikke-synonyme eller tull variant og rapporterer regulatoriske potensielle og sekvens bevaring score. Basert på denne analysen, både rs10131 i
LIG4 Hotell og rs9587535 i ABHD13, en SNP i høy LD med rs10131 (LD = 0822) er spådd av Miranda [31] for å påvirke en miRNA bindingssete. I tillegg rs10131 har et høyt forutsagt sekvenskonservering score (for en ikke-kodende variant). To andre
LIG4
LD SNPs (rs1931336 og rs9587535 med LD 0,59 og 0,82 med rs10131, henholdsvis) har også denne egenskapen. Flere varianter i svak LD (0,5 LD 0,7) med
TP53
rs12951053 er spådd å påvirke en transkripsjonsfaktor bindingssete; en av disse (rs17882227) er i perfekt LD med
TP53
rs2078486, en av de mest tilhørende SNPs. I tillegg rs2287498 i
WDR79 product: (i perfekt LD med rs2078486 og LD (R
2 = 0,62) med rs12951053) er spådd å påvirke funksjonen på en spleisesete og en ikke-synonymt variant (rs2287499 ) i
WDR79
i svak LD med de to mest forbundet
TP53
SNPs er spådd av PolyPhen [32] for å være godartet. Flere av de ikke-kodende
TP53
variantene har høy regulatorisk potensial og /eller sekvens bevaring score; av disse rs17882227 er i høyeste LD (1,0) med en toppkandidat (rs2078486). SNP rs388707 i LD med
bach1
rs411697 er spådd å påvirke skjøting, mens en annen SNP (rs425989) i LD med rs411697 er spådd av Miranda for å påvirke en miRNA bindingssete. I tillegg er tre intronic SNPs i LD med våre
bach1
kandidaten ha sekvens bevaring skårer høyere enn 0,1, noe som tyder på at de kan være funksjonelt interessant. Flere varianter i og nær
CHEK2
demonstrere potensialet til å påvirke funksjonen.