Abstract
Bakgrunn
Ikke-arvelig tykktarmskreft (CRC) er en kompleks lidelse som følge av en kombinasjon av genetiske og ikke-genetiske faktorer. Genom-wide assosiasjonsstudier (GWAS) er nyttig for å identifisere slike genetisk mottakelighet faktorer. Imidlertid enkelt loci hittil forbundet med CRC representerer kun en brøkdel av den genetiske risikoen for CRC utvikling i den generelle befolkning. Derfor må mange andre genetiske risikovarianter alene og i kombinasjon fortsatt på å bli oppdaget. Målet med dette arbeidet var å søke etter genetiske risikofaktorer for CRC, ved å utføre enkelt-locus og to-locus GWAS i den spanske befolkningen.
Resultater
I alt 801 kontroller og 500 CRC tilfeller ble inkludert i oppdagelsen GWAS datasett. 77 enkeltnukleotidpolymorfi (SNP) s fra single-locus og 243 SNPs fra to-locus forening analyser ble valgt for replikering i 423 ekstra CRC tilfeller og 1382 kontroller. I meta-analyse, en SNP, rs3987 på 4q26, nådde GWAS betydelig p-verdi (p = 4,02 × 10
-8), og en SNP par, rs1100508 CG og rs8111948 AA, viste en trend for to-locus forening (p = 4,35 × 10
-11). I tillegg bekreftet vår GWAS den tidligere rapportert forbindelse med CRC fem SNPs ligger på 3q36.2 (rs10936599), 8q24 (rs10505477), 8q24.21 (rs6983267), 11q13.4 (rs3824999) og 14q22.2 (rs4444235).
Konklusjoner
Våre GWAS for CRC pasienter fra Spania bekreftet noen tidligere rapporterte foreninger for CRC og gitt en ny kandidat risiko SNP, som ligger på 4q26. Epistasis analyser også gitt flere nye kandidatresistens parene som må valideres i uavhengige analyser
Citation. Ekte LM, Ruiz A, Gayan J, González-Pérez A, Sáez ME, Ramírez-Lorca R, et al . (2014) En tykktarmskreft Følsomhet ny variant på 4q26 i den spanske befolkningen Identifisert av Genome-Wide Association Analysis. PLoS ONE 9 (6): e101178. doi: 10,1371 /journal.pone.0101178
Redaktør: Zongli Xu, National Institute of Environmental Health Sciences, USA
mottatt: 11 april 2014; Godkjent: 03.06.2014; Publisert: 30 juni 2014
Copyright: © 2014 Fast et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet:. Den forfatterne bekrefter at alle data som underbygger funnene er fullt tilgjengelig uten restriksjoner. Alle data er inkludert i papir
Finansiering:. Dette arbeidet ble delvis støttet av CENIT programmet fra Centro Tecnológico Industrial (CEN-20091016), tilskudd fra den spanske Institute of Health Carlos III (ADE10 /00026, PI09 /02444, PI12 /00511, Acción Transversal de kreft) tilskudd fra Fondo de Investigacion Sanitaria /FEDER (08/1276, 08/0024, PS09 /02368, 11/00219, 11/00681), og ved COST kontor gjennom kostnads handling BM1206. SCB støttes av kontrakter fra Fondo de INVESTIGACION Sanitaria (CP 03-0070). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:. LMR, AR, AGP, MES, RRL, FJM, JV, RMF, JMC , CMR, EV er tidligere ansatte i Neocodex. JG er grunnleggeren av Bioinfosol. Dette endrer ikke forfatternes tilslutning til PLoS ONE politikk på deling av data og materialer.
Innledning
Tykktarmskreft (CRC) representerer globalt, i form av frekvens, den tredje største årsaken til kreft -relaterte dødelighet, og den nest hyppigste ondartet sykdom i Europa [1]. Et mindretall av pasientene har en familiehistorie med CRC, noe som tyder på noen arvelige bidrag. Germ linjer mutasjoner har blitt identifisert som årsak til arvelig kreftrisiko i noen av disse CRC-utsatt familier. Samlet sett er høy penetrans mutasjoner estimert til å utgjøre mindre enn 5% av CRC tilfellene [2]. På den annen side, det store flertallet av pasienter med CRC har ingen klare bevis for å ha arvet sykdommen og er derfor klassifisert som «sporadisk» kreft.
Sporadisk CRC er ansett som en kompleks lidelse som følge av en kombinasjon av genetiske og ikke-genetiske risikofaktorer i konsert med somatiske genetiske og epigenetiske forandringer. De ikke-mendelsk genetiske risikofaktorer er vanlige lavrisiko varianter fordelt over hele genomet. Genomet-wide assosiasjonsstudier (GWAS) tilnærming er et nyttig verktøy for å identifisere slike varianter [3]. Ved hjelp av denne tilnærmingen omtrent 30 risiko genetiske varianter er relatert til CRC følsomhet er rapportert i løpet av de siste årene [4] – [15]. Til tross for dette, den kombinerte effekten av disse variantene utgjør tilsammen bare en liten andel av den genetiske risiko for utvikling CRC i den generelle befolkning [16]. Dette tyder på at mange andre risiko genetiske varianter er ennå å bli oppdaget.
Generelt har GWAS vært nok til å avdekke alle gener som er involvert i komplekse sykdommer og, viktigst av alt, de har ikke vært veldig nyttig i å isolere spesifikke molekylære trasé knyttet til forstyrrelser under studie [17]. En av årsakene kan være at enkelt-locus fremgangsmåte er vanligvis den eneste metoden anvendt på GWAS datasett, og dette tar ikke hensyn til den multigenic natur som ligger til etiologien av komplekse sykdommer. Dermed har nye analysemetoder som vil bidra til å oppdage flere kraftige genetiske foreninger basert på kombinasjon av markører blitt foreslått av oss og andre [18] – [20]. Nylig har de første to-locus forening studie i CRC blitt rapportert [21]. Ytterligere studier er strengt nødvendig for en mer helhetlig forståelse av den genetiske kompleksiteten i CRC følsomhet i de ulike befolkningsgrupper.
Formålet med dette arbeidet var å søke etter genetiske risikofaktorer for CRC i den spanske befolkningen, utføre en ny GWAS bruker single-locus og to-locus genetisk tilknytning analyser.
Resultater
fase I. CRC-GWAS analyse
For å identifisere CRC risiko forbundet SNPs, vi utformet en GWAS (NXC-GWAS) bestående av 801 kontroller og 500 saker fra knapt studert spanske befolkningen (NXC-GWAS prøve).
Alle de SNPs ble genotypet med Affymetrix NSP jeg 250K chip. Etter kvalitetskontroll, ble 20 tilfeller forkastet (4 uharmoniske sex, 8 forskjellige etnisitet og åtte lav sample takst). Til slutt ble 480 tilfeller og 801 kontroller er valgt til analyse. Prinsipal komponent analyse utført blant dette utvalget ikke avsløre befolkningen blanding (figur S1). Alder på rekruttering var 58,0 ± 9,1 år i tilfeller og 51,9 ± 8,8 år i kontroller (gjennomsnitt ± standardavvik). Det tilsvarende nummer (prosenten) av hunn prøvene var 278 (57,9%) og 368 (45,9%), henholdsvis. Blant de 262264 SNPs som kan genotypet med denne brikken, fikk 83334 ikke passere kvalitetskontrollene (52964 SNPs ble forkastet på grunn av lav mindre allel frekvens (MAF), 2307 SNPs mislyktes HWE, og 28 333 hadde en signifikant forskjellig hastighet på missingness mellom sak og kontrollgrupper). Totalt 178,930 markører ble til slutt valgt for påfølgende forening analyser. Det var ingen generell inflasjon av testobservatoren (genomisk inflasjon faktor = 1,10) (se Figur S2), som gir forsikring om at systema konfunderende faktorer var usannsynlig.
Ved hjelp av Plink vi gjennomført et enkelt locus genetisk tilknytning analyse [22 ]. En genetisk markør, rs10446758 i kromosom 4q31.23, nådde GWAS-signifikant p-verdi (p = 1,73 × 10
-8) og to andre markører, rs4887855 i kromosom 16q23.1 og rs7171889 i kromosom 15q26.2, viste en trend for forening (p = 8,27 × 10
-8 og p = 8,53 × 10
-8, henholdsvis) (figur 1) (Tabell S1).
Blå og røde horisontale linjer tilsvarer p-verdiene av 6,97 × 10
-4 og 5 × 10
-8 hhv.
Vi har også gjennomført en to-locus analyse ved hjelp av HFCC programvare (se Pasienter og metoder avsnitt), utelukkende på SNPs som passerte kvalitetskontroller. Totalt 1,60 × 10
10 to-locus kombinasjoner ble endelig oppnådd. Etter bruk kontroll retning og sporing filtre, denne programvaren ga 5×10
5 to locus strata. Selv om ingen av dem nådde avskåret p-verdi etablert på 3,12 × 10
-12 enkelte parene nådd verdier nær at terskelen (Tabell S2).
Fase II. Validering og meta-analyse
For å teste de beste genetiske foreninger observert i fase I, først, disse SNPs som var med i noen av de beste 157 to-locus signaler (tabell S2) ble valgt. Disse parene utgjorde 276 enkelt SNPs fordi 38 SNPs var til stede i mer enn ett par. For det andre ble 79 SNP’er fra de enkelt-locus analyser valgt i henhold til den krets p-verdien erholdt i fase I (p 6,9 x 10
-4) eller sannsynlighet for å være vellykket genotypede med Veracode teknologi. Dermed totalt 355 SNPs ble opprinnelig valgt for utarbeidelse av skreddersydde arrays. Men var det bare mulig å designe oligonukleotid bassenger for 340 SNPs (79 enkelt locus SNPs og 261 to-locus SNPs).
Disse genetiske markører ble genotypet i 423 forskjellige saker og 1448 ulike kontroller (NXC-VAL prøve ). Alder på rekruttering var 58,7 ± 7,3 år i tilfeller og 51,1 ± 12,9 kontroller (gjennomsnitt ± standardavvik). Det tilsvarende nummer (prosenten) av hunn prøvene var 262 (61,8%) og 920 (63,5%), henholdsvis. Twenty SNPs ikke passere kvalitetskontrollen (14 SNPs ikke var genotypet i mer enn 80% av prøvene, og 6 SNPs viste en HWE p-verdi 0,001 kontroller). Som for prøvene, ble 66 ekskludert kontroller (31 individer ikke oppnå en genotyping anropsfrekvens 80%, og 35 individer viste en viss grad av slektskap til hverandre i henhold til data som er oppnådd med GRR programvare). Endelig 423 CRC tilfeller og 1382 kontroller ble genotypet med 320 markører (77 single-locus og 243 to-locus valgt SNPs) (tabell S3). Tabell 1 viser de utvalgte SNPs som ble kopiert i NXC-VAL prøve (p 0,05 og samme effekt retning). Bare én SNP, rs3987 på 4q26, nådde en GWAS betydelig p-verdien i meta-analysen (tabell 2). Interessant, fire flere SNPs i samme genomisk region viste en trend for foreningen på GWAS-signifikant p-verdi (tabell 2).
Når det gjelder to locus analyse, bare fem parene ble validert i fase II (p 0,05 og samme effekt retning). Selv om ingen av dem nådde GWAS betydelig p-verdi (p 3,12 × 10
-12) i meta-analysen (tabell 3), en SNP par, rs1100508 CG og rs8111948 AA, var borderline for forening (4,35 x 10
-11).
resultat godkjenning ved flere datasett
For å teste om resultatene kan bli replikert i en annen spansk datasettet, vi brukte data fra Epicolon prosjektet [23] . Men ingen av de SNPs som ble vurdert signifikant eller kandidater i fase II av denne studien gjenskapt i denne Epicolon prøven.
Resultatene oppnådd i vår GWAS (fase I og II), og de hentet fra Epicolon kohorten , ble kombinert i et forsøk på å se en global virkning av alle disse SNP sjekket i fase II. Ingen av SNPs nådde GWAS betydelig p-verdien i den kombinerte studien (tabell S4). Tabell 4 viser de beste resultatene oppnådd i denne studien (valgt fra de SNP’er som viser en virkning i samme retning i alle tre analyserte serien. Se detaljer fra de utvalgte SNP’er i tabell S5).
to Angå -locus HFCC analyse, viste ingen SNP-pair en betydelig og konsekvent effekt (i samme retning) når de 3 prøver (NXC-GWAS, NXC-Val og Epicolon) ble analysert sammen.
analyse av SNP tidligere assosiert med CRC
Bare én av de tidligere forbundet SNPs med CRC risiko ble vellykket genotypet i vår GWAS. For å kunne dekke et større antall av disse SNPs tilregnede vi genotyper ved hjelp CEU HapMap data base og Plink programvare. Etter imputering, fikk vi totalt 1,371,009 SNPs for nærmere analyse. Totalt 16 tidligere rapportert som CRC tilhørende SNPs var tilgjengelig på tidspunktet av analysen (tabell 5). Av disse fem SNPs ligger på 3q36.2 (rs10936599), 8q24 (rs10505477), 8q24.21 (rs6983267), 11q13.4 (rs3824999) og 14q22.2 (rs4444235), viste nominell tilknytning til CRC i vår GWAS, og med effekter i samme retning enn de som tidligere er rapportert (tabell 5). To flere SNPs plassert på 8q23.3 (rs16892766) og 12q13.13 (rs7136702) viste en trend å nominell tilknytning til CRC i vår studie, igjen med effekten i samme retning enn tidligere rapportert (tabell 5).
Vi kunne ikke teste kandidatens SNPs rapportert av Fernandez-Rozadilla
et al
. [23] i deres CRC-GWAS utført i den spanske befolkningen (Epicolon prøve), fordi disse kandidatene ikke var dekket eller vellykket genotypede /tilregnet i vår studie.
Vi har også testet to-locus interaksjoner mellom rs1571218 (20p12 0,3) og rs10879357 (12q21.1) tidligere i forbindelse med CRC [21]. Bruk av generelle lineære modeller vi ikke observere noen bevis for samspillet mellom dem i vår datasettet (data ikke vist).
Diskusjoner
Vi presenterer en ny to-fase CRC-GWAS utført i spanske befolkningen for enkelt locus og også for to-locus forening ved hjelp av vår HFCC programvare [18]. En markør, rs3987 på 4q26, nådde tilknytning CRC følsomhet på GWAS signifikant p-verdi. Videre en SNP par, rs1100508 CG rs8111948 AA (plassert på 7q31.33 og 19q12, henholdsvis), viste også en trend for epistatisk forening
Til tross for begrensningene i vår GWAS -. Lav tetthet av genomisk dekning av DNA-chip, og en moderat prøvestørrelse – vi replikert 5 av de 16 tidligere SNP’er assosiert med CRC. I tillegg er de fleste av disse 16 SNPs i vårt GWAS studien var i samme retning enn i de publiserte rapportene (tabell 5). Videre regresjonsanalyse viste god overensstemmelse mellom de odds ratio (Figur S3). Disse dataene sammen tyder på at vår studie er i tråd med tidligere utgitt CRC GWAS analyser.
I våre to-fase CRC-GWAS, en markør, nemlig rs3987 på 4q26, utstilt sammen med CRC følsomhet på GWAS betydelig p- verdi. Denne SNP ligger i en intergeniske regionen 4q26 mellom
TRAM1L1 Hotell og
NDST3 gener
(rundt 500 kb og ~180 kb, henholdsvis). Flere studier har allerede antydet tilstedeværelsen av kreftgener i 4q region [24], [25], og det har også blitt rapportert at somatiske delesjoner ved 4q26 er hyppige i CRC [26], [27]. Interessant,
NDST4
genet, ligger også på 4q26, og tilhører samme familie enn
NDST3
, er blitt identifisert som en mulig svulst suppressor genet i CRC [27].
de to-locus analyse viste at en av SNPs parene, rs1100508 CG og rs8111948 AA (plassert på 7q31.33 og 19q12, henholdsvis), viste en trend for foreningen. Disse SNPs er i intergeniske regionene ligger på 7q31.33 og 19q12. Den nærmeste genet til rs1100508 er
GPR37
, et medlem av G-protein-koblet reseptor familie som er kjent for å samhandle med Parkin, om enn dens funksjon gjenstår å fullstendig karakterisert. På den annen side er rs8111948 ligger mellom
LINC00662
og
LINC00906 plakater (rundt 500 kb og ~600 kb, henholdsvis), to loci som tilhører en lang ikke-kodende RNA (lncRNA) familie . Hvis foreningen av denne SNP paret er bekreftet, vil arten av at samhandling må karakteriseres videre.
Vi har også studert markører assosiert med CRC fra våre to-fase GWAS i en uavhengig spansk GWAS datasett (Epicolon ), men ingen av disse assosiasjonene replikert. Men siden vår GWAS kunne validere flere av de godt stablished CRC assosiasjoner enn Epicolon GWAS [23], anser vi at kandidatene kommer fra vår studie fortjener å få den godkjent i ytterligere meta-analyse inkludert andre GWAS og valideringsstudier utført i spanske befolkningen, eller i en mer generell kaukasiske befolkningen
Ifølge GWAS katalogen fra NIH (https://www.genome.gov/26525384), og tidligere arbeider i dette emnet [5] -. [15 ], verken de varianter assosiert med CRC rapportert i tabell 1 eller 2, eller varianter er inkludert i SNP parvis rapportert i tabell 3 (eller i koblingsulikevekt med dem) er tidligere blitt forbundet med CRC. Siden de fleste av disse tidligere studier ikke ble særlig utført i Sør-kaukasiske befolkningen, kan resultatene være spesifikk for at befolkningen. En alternativ forklaring er at de er falske positive. Den clustering av flere SNPs på samme 4q26, og replikering av tidligere rapporterte foreninger argumenterer mot denne muligheten.
Selv om våre resultater ikke kan bli kopiert i den uavhengige Epicolon prøven, vi gjennomført en meta-analyse hensyn utgjør de tre analyserte prøvene her (NXC-GWAS, NXC-VAL, og Epicolon). Ingen av SNPs, eller kombinasjoner av dem, ble kopiert i de tre prøvene, men de beste signalene omfatter flere SNPs i koblingsulikevekt på 9q31.1, i eller nær
LINC00587
locus (tabell 4). Dette genet hører også til lncRNA familien involvert i cellulær differensiering og spredning som post-transcriptional regulatorer av spleising eller som molekylære lokkeduer for miRNA [28], [29]. Uttrykket av lncRNAs er deregulert i mange forskjellige krefttyper, inkludert tykktarmskreft [30], og noen studier antyder en rolle i kreft initiering, progresjon og metastasering [31]. Foreningen rapporterte i forrige GWAS mellom CRC mottakelighet og SNPs ligger på 8q24 kan være på grunn av
PRNCR1
locus, en lncRNA medlem [32].
Interessant, en høy andel av SNPs funnet være forbundet med CRC i vårt studium oppdagelse fase (tabellene 1, 2 og 4), ble valgt av to-locus analyse. Dette tyder på at i tillegg til å identifisere epistatisk interaksjoner, vår to-locus analysemetode (HFCC programvare) kan også forbedre fangst av enkeltsignalene i genomet relatert til CRC følsomhet spesielt og således i multigenic sykdommer generelt. Dette er en fristende hypotese som kan bli bekreftet om noen av disse SNPs er validert i fremtidige studier. På den annen side, resultatene av våre to-locus analyser tyder på at samspillet signalene har ikke kraftigere prediktiv verdi enn single loci for CRC følsomhet på grunn av manglende oppdage SNP par koblet til CRC på GWAS signifikant p-verdi. Denne observasjon, sammen med fraværet av statistisk signifikante resultater i vårt globale meta-analyse, så vel som mangelen på replikasjon av den eneste SNP paret interaksjon som tidligere er rapportert som i forbindelse med CRC [21] tyder på at rollen av genetiske faktorer i CRC følsomhet kan være mer intrikat som tidligere antatt.
i konklusjonen, har vi gjennomført en CRC-GWAS i den spanske befolkningen som er i tråd med noen tidligere rapportert foreninger og gitt en ny kandidat SNP for CRC mottakelighet på 4q26 som må validert i fremtidige studier. Våre to-locus Studien gir også bevis på det høye nivået av kompleksitet i genetisk kreftrisiko.
Materialer og metoder
Pasienter
Fag i fase I var 801 kontroller fra spansk generelle befolkningen (som tidligere ble beskrevet [33]) og 500 tilfeller diagnostisert av CRC med patologisk bekreftelse (NXC-GWAS prøve). I fase II 1448 kontroller og 423 tilfeller av CRC ble brukt (NXC-VAL prøve). CRC prøver ble samlet inn i to ulike spanske sykehus (Hospital Universitario Virgen del Rocío i Sevilla og Hospital Universitario 12 de Octubre i Madrid) fra november 2002 til april 2008. Kontrollen prøvene inngår i fase II ble samlet i samme tidsperiode i flere primær helsestasjon fra hele Spania. Disse prøvene har tidligere blitt brukt som kontroller i andre assosiasjonsstudier utført for ulike sykdommer i den spanske befolkningen [34]. Derfor ble totalt 923 CRC saker og 2249 kontroller fra den spanske befolkningen inkludert i denne studien. Alle individer som deltok var kaukasisk med registrerte spanske forfedre (to generasjoner) som er registrert ved kliniske forskere.
Etikk erklæringen
De etiske komiteer fra Hospital Universitario Virgen del Rocío, Sevilla, og Hospital Universitario 12 de Octubre, Madrid, samt Neocodex godkjent forskningsprotokollen, som var i samsvar med nasjonal lovgivning og utført i henhold til de etiske retningslinjene i Helsinkideklarasjonen [35]. Skriftlig informert samtykke ble innhentet fra alle personer som inngår i dette arbeidet.
Ekstern genotyping datasett
genotyping data for utvalgte SNPs fra andre GWAS utføres i den spanske befolkningen (Epicolon kohort) [23] ble brukt som en referanse for de oppnådde resultater heri. Spesielt denne kohorten besto i 882 tilfeller og 473 kontroller konstatert gjennom Epicolon II-prosjektet og 194 flere kontroller fra den spanske National DNA bank.
Genotyping
Tilleggs blod fra alle tilfeller og kontroller ble brukt å isolere germline DNA fra leukocytter. DNA-ekstraksjon ble utført automatisk i henhold til standard prosedyrer ved hjelp av Magnapure DNA isolert system (Roche Diagnostics, Mannheim, Tyskland).
For genome-wide genotyping vi brukte Afymetrix NspI chip som tidligere beskrevet [33]. For genotyping av utvalgte SNPs i NXC-VAL prøven vi ansatt tilpassede Golden Gate protokoller og Veracode genotyping analysen (Illumina, San Diego, California USA) i henhold til produsentens instruksjoner.
Data tilgjengelighet
Association resultater for genotypet og kalkulatoriske SNPs er gitt som komprimerte plink filer (Dataset S1 og Dataset S2). Enkelt tilfelle genotype data er tilgjengelig på forespørsel til etikk komité av IMPPC (Instituto de Medicina Predictiva y Personalizada del kreft) i henhold til vilkårene fastsatt i spansk lov for Biomedical Research (Ley 14/2007, de tre de julio).
kvalitetskontroll analyserer
For prøver genotypet med Affymetrix plattform, vi utførte en omfattende kvalitetskontroll ved hjelp av Affymetrix Genotyping Console programvare (https://www.affymetrix.com) og Plink [22] . Bare personer med en prøve takst over 93% ble senere gjen kalt med Bayesian Robust Linear Modell med Malalanobis (BRLMM) avstand algoritme, kjørte med standardparametere. BRLLM forbedret samtalepriser i de fleste prøvene. Selvrapportert sex ble sammenlignet med sex tildelt av kromosom X genotyper, og uoverensstemmelser ble løst eller prøver fjernet. Programmet grafisk representasjon av relasjoner (GRR) [36] ble brukt til å sjekke utvalget slektskap og til å korrigere potensielle prøve mislabelling, duplikasjoner, eller forurensing. SNP’er ble valgt til å ha en samtale på over 95% (i hvert tilfelle, kontroll, og kombinerte gruppe), og en mindre allel frekvens over 1% (på nytt i hvert tilfelle, kontroll, og kombinerte gruppen). SNPs som avvek grovt fra Hardy-Weinberg likevekt (HWE) (P-verdi 10
-4) i kontrollprøver ble også fjernet. Vi har også fjernet SNPs med en vesentlig forskjellig hastighet på missingness (P-verdi mindre enn 5 × 10
-4). Mellom case og kontrollprøver
På samme måte SNPs genotypet i fase II ble utsatt for kvalitet kontroll filtre. Dermed disse SNPs som ikke ble riktig genotypet i minst 80% av enkeltpersoner, og de med en p-verdi for Hardy-Weinberg likevekt (HWE) lavere enn 0.001 ble forkastet. I tillegg personer med mer enn 10% av manglende genotype data eller som viste slektskap til hverandre ble også ekskludert.
Hovedkomponentene analyse
Prinsipal komponent analyse ble utført med EIGENSOFT [37] [38] for å evaluere befolkningen innblanding i vår befolkning, og å identifisere enkeltpersoner som uteliggere. Vi kjørte SMARTPCA program med standard parametere, unntatt kromosom X markører og bruk av uavhengige SNPs (parvise r
2 0,1). For å minimere effekten av koblingsulikevekt i analysen, langtrekkende koblingsulikevekt regioner tidligere rapportert [39] eller oppdaget i vår befolkning ble også ekskludert. Personer som er identifisert som uteliggere (seks standardavvik eller mer langs en av de ti viktigste komponentene) ble fjernet fra alle påfølgende analyser. Prinsipal komponent analyse ble kjørt sammen med andre HapMap europeiske og globale befolkningen til å gjenkjenne individer av ulike etnisiteter.
Enkelt locus forening analyse
Ujustert single-locus allel (en grad av frihet, df) forening analysene ble utført ved bruk av Plink programvare [22], uavhengig av hverandre i hver gruppe av emner fra fase i eller fase II. Meta-analyse verktøy i Plink ble brukt til å analysere kombinerte data fra ulike datasett. I disse studiene ble faste effektmodeller benyttes når ingen bevis for heterogenitet ble funnet. Ellers tilfeldige effekter modeller ble ansatt. En GWAS betydelig p-verdien ble etablert på 5 × 10
-8 [40]. Plink ble også anvendt for å estimere det genomiske inflasjon faktor. Haploview programvare [41] ble ansatt for grafisk representasjon av GWAS enkelt locus analyseresultater (Manhattan tomten). Den overensstemmelse mellom den detekterte effekt og den rapporterte virkning for de SNP’er tidligere er funnet å være forbundet med CRC ble analysert ved lineær regresjon etter logaritmisk transformasjon av odds-ratio.
To-locus krets analyse
Sikte på å oppdage potensielle epistatisk
loci
, vi utforsket hele universet av to-locus interaksjoner (alle SNP x SNP interaksjoner) bruker Hypotese Gratis Clinical Cloning (HFCC) programvare som beskrevet tidligere [18]. Kort, i fase I tre ulike replikering grupper av 160 tilfeller og 267 kontroller ble opprettet. For å bli betraktet som en foreløpig positivt resultat ble chi-kvadrat (1 df) test cut-off-verdi innstilt på 6,64 (p 0,01) og retningen av effekten måtte være den samme for hver replikasjon gruppe (som tilnærmet til p 1 x 10
-6 enn alle tre replikering grupper)
for å utforske naturen og styrke samhandling i utvalgte to-locus mønstre, vi evaluert videre epistasis blant utvalgte markører bruker Alambique programvare [. ,,,0],18]. Spesielt Alambique var programmert til å måle avvik fra additive modeller ved å beregne Synergy indeksen, AP eller Reri statistikk, mens avgang fra mangfaldet ble målt ved å beregne strata spesifikke odds ratio og case-bare interaksjon test. Algoritmene som inngår i Alambique programvare har tidligere blitt beskrevet andre steder [42], [43].
I løpet av valideringsprosessen, disse SNPs valgt av HFCC som ble vellykket genotypet i NXC-VAL prøven ble analysert for replikering . I dette tilfellet to grupper av replikering ble opprettet: den NXC-GWAS prøven og NXC-VAL prøven. Når de valgte parene ble også studert i Epicolon kohorten ble tre grupper av replikering opprettet. NXC-GWAS, NXC-VAL og Epicolon prøven
Multiple-testing korreksjon ble brukt i disse studiene som tar hensyn til antall forskjellige SNP-par generert. Dermed ble p-verdien terskel etablert på (p = 3,12 × 10
-12 (0,05 /totalt antall SNP-parene som genereres i fase I datasettet).
For å teste de to-locus interaksjon som tidligere var forbundet med CRC følsomhet [21], dvs. rs1571218 (20p12.3) og rs10879357 (12q21.1), modellert vi samspillet ved hjelp av lineær regresjon med SPSS programvare 19,0 (IBM Corporation, Somers, NY, USA).
Imputation
Vi tilregnet genotyper hjelp HapMap fase 2 CEU erne (n = 60) som en referanse panel med Plink [22] Genotype samtaler med score høy kvalitet (info 0,8). ble brukt i påfølgende forening analyser.
Hjelpemiddel Informasjon
Figur S1.
scatterplot av de to hoved egenvektorer hentet fra prinsipal komponent analyse utført på 801 kontroller (grønne sirkler) og 480 tilfeller (blå sirkler) er valgt for fase-i tilknytning studie
doi:. 10,1371 /journal.pone.0101178.s001 product: (PDF)
Figur S2
quantile-quantile (QQ) tomt på de observerte og forventede χ2 verdier. hentet fra studier av sammenhengen mellom SNP genotype og tykktarmskreft
doi:. 10,1371 /journal.pone.0101178.s002 product: (PDF)
Figur S3.
Sammenheng mellom effekter (OR) som finnes i NXC-GWAS og de rapporterte effekter for de 16 SNPs tidligere funnet å assosiere med CRC risiko. Den blå linjen representerer perfekt korrelasjon. Den grønne linjen viser sammenhengen unntatt outlayer rs16969681 (rød sirkel). Denne SNP ble opprinnelig rapportert i UK2 GWAS med en OR på 1,247, som nådde GWAS signifikant etter metaanalyse med andre Nord-Europa GWAS men ble ikke kopiert i Epicolon GWAS av Sør-Europa. Koeffisienten (R2) og p-verdi (Pearsons P) av korrelasjonen er angitt. Uten unntatt rs16969681, koeffisienten og p-verdi var 0,28 og 0,035, henholdsvis
doi:. 10,1371 /journal.pone.0101178.s003 product: (PDF)
Tabell S1.
Best fase I-resultatene som oppnås ved Plink
doi:. 10,1371 /journal.pone.0101178.s004 plakater (DOC)
Tabell S2.
Best SNP × SNP interaksjoner innhentet av HFCC programvare
doi:. 10,1371 /journal.pone.0101178.s005 plakater (DOC)
tabell S3.
SNPs inkludert i fase II og meta-analyse resultater
doi:. 10,1371 /journal.pone.0101178.s006 plakater (DOC)
Tabell S4.
SNPs inkludert i stadium II og globale metaanalyseresultater
doi:. 10,1371 /journal.pone.0101178.s007 plakater (DOC)
Tabell S5.
Detaljer om resultatene oppnådd i hver prøve fra disse SNPs som viste de beste resultatene i den globale meta-analyse
doi:. 10,1371 /journal.pone.0101178.s008 plakater (DOC)
Datasett S1.
Plink forening fil av genotypet SNPs
doi:. 10,1371 /journal.pone.0101178.s009 product: (ZIP)
Datasett S2.
Plink forening fil av kalkulatoriske SNPs
doi:. 10,1371 /journal.pone.0101178.s010 product: (ZIP)
Takk
Professor Manuel Serrano Rios, rektor etterforsker av «Proyecto Segovia», er kjent for å rekruttere personer representant for den spanske befolkningen for kontrollgruppen.