Abstract
Vi undersøkte muligheten for flere hovedkomponentanalyse (PCA) -baserte strategier for å oppdage og kontroll for befolkningen stratifisering ved hjelp av data fra en multisenterstudie av ovarialcancer blant kvinner i europeisk-amerikansk etnisitet. Disse inkluderer en korreksjon basert på en avstamning informative markører (AIMS) panel designet for å fange europeiske doms variasjon og korreksjoner utnytte un-tynnet genom-wide SNP data; case-kontrollprøver ble trukket fra fire geografisk forskjellige nord-amerikanske nettsteder. Målene er bare og genom-wide første hovedkomponenter (PC1) begge samsvarer med tidligere beskrevet nord eller nordvest-Southeast aksen av europeisk variant. Vi fant ut at genom-wide PCA fanget denne primære dimensjon variasjon mer presist og identifisert flere akser av genom-wide variant av relevans for ovarialcancer. Foreninger tydelig mellom genom-wide PCer og studiested bygge nordamerikanske innvandringshistorie og foreslår at uoppdagede dimensjoner av variasjonen ligger innenfor Nord-Europa. Strukturen fanget av genom-wide PCA ble også funnet i kontrollpersoner og gjenspeiler ikke case-control variasjon tilstede i data. Genomet-wide PCA markert tre regioner av lokal LD, svarende til laktase (LCT) genet på kromosom 2, human leukocytt antigen-system (HLA) på kromosom 6 og til en felles inversjon polymorfisme på kromosom 8. Disse funksjonene ikke kompromiss effekten av PC-er fra denne analysen for herkomst kontroll. Denne studien konkluderer med at selv om målene paneler er en kostnadseffektiv måte å fange befolkningsstruktur, genomdata bør helst brukes når det er tilgjengelig
Citation. Raska P, Iversen E, Chen A, Chen Z, Fridley BL, Permuth-Wey J et al. (2012) Europeisk amerikanske Stratifisering i Eggstokkreft sak Control Data: Nytten av Genome-Wide Data for inferring Slekts. PLoS ONE 7 (5): e35235. doi: 10,1371 /journal.pone.0035235
Redaktør: Manfred Kayser, Erasmus University Medical Center, Nederland
mottatt: 28 juni 2011; Godkjent: 13 mars 2012; Publisert: 09.05.2012
Copyright: © 2012 Raska et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. The genotyping for trinn 1 ble støttet av R01-CA-114 343 og R01-CA114343-S1. Den MAY0 studien støttes av R01-CA-122 443 og P50-CA-136 393 og finansiering fra Mayo Foundation. Den NCO studien støttes av R01-CA-76016. TBO studien støttes av R01-CA-106 414, American Cancer Society (CRTG-00-196-01-CCE), og Advanced Cancer Detection Senter Grant, Department of Defense (DAMD-17-98-1-8659) . TOR Studien er støttet med tilskudd fra den kanadiske Cancer Society og National Institutes of Health (R01-CA-63682 og R01-CA-63678). The Mayo Clinic Genotyping delt ressurs er støttet av National Cancer Institute (P30-CA-15083). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Genome-wide assosiasjonsstudier (GWAS) har blitt et viktig verktøy for å oppdage genetisk predisposisjon for kompleks sykdom [1] – [4]. Gyldigheten av GWAS kan bli påvirket av utilbørlig kontroll for arvelig sykdomsassosierte genom-wide bakgrunn variasjon. Befolknings stratifisering (PS) refererer til genom-wide mønstre av koblingsulikevekt (LD) som, når knyttet til sykdommen, kan tilsløre signal (eller borte) av individuelle SNPs [5] -. [9]
Selv om konfunderende effekt av befolkningen lagdeling har blitt anerkjent, har det vært ansett å være av praktisk interesse først og fremst i blandet eller blandede bestander med opphav fra forskjellige kontinenter [10], [11]. Til tross for dette, har noen forfattere vist at selv innenfor relativt mer homogen befolkning europeiske amerikanere, kan genome-wide struktur fortsatt være et problem for assosiasjonsstudier [12] -. [15]
Paneler av SNPs har vært designet spesielt for å oppdage og kontroll for befolkningen lagdelingen i europeiske amerikanere [14] – [17]. Selv om disse studiene har involvert en rekke datasett de har alle beskrevet en felles hovedakse variasjon for europeisk opphav som består av en nord eller nordvest – Sørøst Cline. Men disse studiene varierer i antall betydelige dimensjoner av variasjon, i de valgte som opphav informative markører (AIMS) SNP’er, og i antall tar sikte på at de avleder. Derfor bestemmer seg for den optimale panel for et bestemt sett av data er ikke enkelt.
Disse europeiske AIM-panelene ble utformet med sikte på å tilby en kostnadseffektiv måte å kontrollere for stratifisering gjennom reduksjon av genotyping kostnader i kandidatens gen studier og valideringsstudier [12], [17]. Til tross for dette, kan de også brukes i genomassosiasjonsstudier (GWAS). Selv om det kan gjennomføres en prinsipal komponentanalyse (PCA) på hele GWAS datasettet for å kontrollere for herkomst [18], begrenser analysen til sikter kan gi en måte å unngå virkningene av lokale LD mønstre på PCA resultater og en måte å hindre fange og styre bort case-control variant av interesse.
Denne studien sammenligner resultatene av å kontrollere for PS gjennom PCA bruker Paschou et al. AIMS panel [17] data (Paschou PCA) og ved hjelp av genomdata (GWAS PCA) på en eggstokkreft case kontroll av data fra europeiske amerikanere fra fire forskjellige nordamerikanske nettsteder. Spesielt undersøker vi effekten av å fange case-control variasjon og regioner med høy lokal LD på GWAS PCA basert PS justering strategi.
Metoder
Detaljer om eggstokkreft GWAS er publisert [ ,,,0],19]. Kort fortalt, det GWAS Stage jeg data vi benytter her kommer fra fire kasus-kontrollstudier av ovarialcancer: Mayo Clinic Ovarian Cancer Study (Mayo, n = 877) (Rochester, MN), som omfatter innbyggerne i seks-state rundt region (MN, IA, WI, IL, ND, SD), Duke University i North Carolina Ovarian Cancer Study (NCO, n = 1147) (Durham, NC), som omfatter beboere i et området 48 fylke regionen, University of Toronto Familiær ovarian tumor Study (TOR, n = 1275) (Ontario, Canada), og H. Lee Moffitt Cancer Center og Forskningsinstituttets Tampa Bay ovarian Cancer Study (TBO, n = 396) (Tampa, Florida), som omfatter beboere fra de omkringliggende 2 fylke regionen. Alle deltakere selvrapportert å være av europeisk ikke-jødisk herkomst. For å øke etiologic homogenitet, vi ekskludert tilfeller med ikke-epiteliale eller borderline tumorer, kjent
BRCA1 Hotell og
BRCA2
mutasjonsbærere og kvinner med en tidligere historie med eggstokkreft, brystkreft, livmor, eller tidlig- utbruddet tykktarmskreft. Alle kontroller hadde minst én eggstokk intakt på referansedatoen og var frekvens tilpasset tilfeller på aldersgruppe. Studien protokollen ble godkjent av Institutional Review Board ved hvert senter (ved IRBs på Mayo Clinic, ved Duke University, ved University of Toronto, og på Lee Moffitt Cancer Center) og alle deltagerne gitt skriftlig informert samtykke.
blod tjente som kilde for genomisk DNA. Alle prøver ble genotypet ved hjelp av Illumina infinium 610K Array og Genome Studio ™ programvare Illumina gang ble brukt til å utføre automatisert genotype clustering og ringer. Etter kvalitetskontroll beskrevet i Permuth Wey et al [19], en utvalgsstørrelse på 3,715 fag (1,815 tilfeller og 1900 kontroller) med 559,179 markører var tilgjengelig for analyse.
Principal Component Analyses (PCA)
PCA ble utført på 4 sett med markører: (1) den Paschou europeiske mål panel (Paschou PCA), (2) alle tilgjengelige GWAS markører fra Illumina 610K utvalg genotypet i denne studien (GWAS PCA), (3) alle tilgjengelige markører ved å bruke kontrollene bare (GWAS kontroll PCA) og (4) alle tilgjengelige markører med fjerning av markører i høy LD regioner (GWAS LD PCA), ved hjelp av snpMatrix pakken i R programvare [20].
Gitt en datamatrisen X med N individer i rader og P SNP’er i kolonnene, beregnet vi egenverdiene og egenvektorene av N med N matrise, XX
T. Egenvektorene tilsvarer de PC-score (S), som deretter kan brukes til å beregne belastninger (B) av SNP’er for hvert PC via multiplikasjon med en diagonal matrise av egenverdiene (V):
For GWAS styre PCA, kontrollene bare ble brukt for å få B og deretter PC score oppnås gjennom å multiplisere hele datasettet til disse belastninger (X
TB). Bare de første 10 egenverdiene beholdes gjennom disse beregningene.
Fjerning av rammer
19 kontroller som var mer enn seks standardavvik fra gjennomsnittsskår for PC for noen av de 10 første PCer ble identifisert som uteliggere i GWAS kontroll PCA. En ekstra sak individ ble identifisert som en avvikende i GWAS PCA. Alle 20 personer ble fjernet fra alle PCAs basert på genomdata. 1881 kontroller og 1814 saker ble igjen fra det opprinnelige datasettet fra 1900 kontroller og 1815 tilfeller, for totalt 3695 personer.
Fjerning av LD Regions
LD regioner ble definert ved visuell inspeksjon de loadingene tomter for individuelle PCer og identifisere to SNPs som alternative toppen i sin helhet. Alle SNPs i denne regionen ble fjernet med unntak en sentral SNP med en ekstrem belastning, også identifisert gjennom handlingen. Ut av de 559,179 SNPs tilgjengelig i GWAS data, 553601 ble beholdt for GWAS LD PCA.
Association Tester
Testene av foreningen av hver enkelt SNP til eggstokkreft ble utført ved bruk av en generalisert lineær modell som inkluderte PCer som kovariater med SNP effekt modellert som et ordens (log-additiv) genotypisk effekt. Inflasjonsfaktorer ble beregnet ved forholdet mellom den observerte trimmet gjennomsnitt til dens forventede verdi under chi-squared antagelse. Association tester av PCer til nettstedet og sykdom ble gjennomført via multippel lineær regresjon implementert i R. Hver PC ble tilbakegang på sykdomsstatus og nettstedet.
MLE og pris et al. Målsetting Panel
i additon, ble maximum likelihood estimering brukes til å bestemme estimater for Nordvest Europa, Sørøst-Europa og Ashkenazi jødisk herkomst basert på en flere europeiske AIM panel av Price et al [16].
Resultater
Principal Components
Vi sammenlignet GWAS og Paschou PC-er på grunnlag av deres korrelasjoner til hverandre, deres foreninger med sykdom kontrollerende for området og deres innvirkning på inflasjon faktor, hvor vi er avhengige av deres tilknytning til området som fullmektig for relevans i forhold til opphav. Korrelasjonen mellom de første PC-er (dvs. PC1) av Paschou PCA og GWAS PCA var 0,79. Denne første PC samsvarer med Nordvest-Sørøst aksen variasjon at Paschou et al panelet ble utelukkende laget for å fange opp. En egen analyse ved hjelp Price et al panel bekreftet dette (se figur 1) [16]. Selv om begge PC1s er knyttet til området, GWAS PC1 hadde mer signifikante p-verdier (se tabell 1) og korrigert for inflasjon faktor bedre enn Paschou PC1 (se tabell 2). Likeledes, når språk forskjeller ble tatt hensyn til, bare GWAS PC1 gitt bevis for en sammenheng mellom den første aksen av europeisk amerikanske doms variasjon og eggstokkreft.
Blå, grønne og røde punkter representerer personer med de høyeste estimatene for nord-vest, sør-østlige og Ashkenazi jødisk herkomst henholdsvis hentet fra MLE analyse med Price et al. AIMS panel.
GWAS PCA også tatt ekstra doms struktur. GWAS PC2 i figur 1 viser struktur innenfor personer med North herkomst som ikke er tydelig i Paschou PC2. De screeplots både PCAs (se figur S1) viste at i motsetning til den Paschou PCA hvor bare PC1 tydelig ligger før albuen i plottet, et kriterium som ofte brukes for å antyde at variansen forklart av PC er større enn den som forventes ved en tilfeldighet de GWAS PCer bare begynte å flate ut på om 20
th PC. Denne Ytterligere strukturen ble bekreftet ved å utforske de 100 første PCer og deres tilknytning til området. Inkludert alle parvise språk sammenligninger, ble størst betydning begrenset til de 20 første PCer (se figur S2). Innsnevring analysen til de 10 første PC, bare PCer 1,3 og 4 var signifikant assosiert til både stedet og eggstokkreft (se figur 2), mens PC2 ikke var assosiert med nettstedet eller eggstokkreft. Dette tyder på at PC-en, tre og fire kan alle konto for dimensjonene av forfedrenes variasjon som har potensial for konfunderende eggstokkreft tilfelle kontroll forening testing. Effekten av å beholde de 4 første PC-ene på inflasjon faktor også støtter dette funnet ettersom inflasjonen faktor var betydelig lavere enn ved bruk av bare GWAS PC1 eller selv de første 10 PCer (se figur 3).
P-verdier for alle parvise sammenligninger mellom fire steder er gitt.
De 10 første PCene oppnås gjennom Paschou PCA, GWAS kontroll PCA, GWAS PCA og GWAS LD PCA brukes som kovariater i testing genome-wide forening til eggstokkreft. Merk at Paschou panelet er designet for å fange bare én vesentlig PC.
GWAS Kontroll
At GWAS PC1 er sterkere assosiert til eggstokkreft enn Paschou PC1 og at den produserer en mer effektiv reduksjon i inflasjonen faktor kan få en til å tro at GWAS PC1 kan fange tilfelle kontroll variasjon og redusere kraften i GWAS. Det samme kan hevdes for de ekstra PCer knyttet til eggstokkreft. For å teste dette, gjennomførte vi en PCA med kun de kontrollpersoner (GWAS kontroll PCA) hvor verdiene av sakens PCer ble oppnådd som beskrevet i Methods.
Selv om PC-1 og 2 i GWAS kontroll PCA var veldig sterkt korrelert til sine kolleger i GWAS PCA (ρ 0,9), ble PCer 3 og 4 også korrelert, om enn i mindre grad (ρ 0.6, se tabell 3). En lineær kombinasjon av GWAS kontroll PCer 3 og 4 forklarte 68,9% av variasjonen i GWAS PC 3 og 68,7% av variasjonen i GWAS PC 4, dermed var det en omfordeling av variansen av GWAS PCer 3 og 4 på tvers av flere av GWAS kontrollens PC-er.
Figur 3 viser at inflasjonen faktorer som oppnås ved justering for GWAS kontroll PCer viser samme mønster som de som oppnås ved justering for GWAS PCer, men er systematisk lavere, noe som indikerer at den tidligere gi en mindre effektiv korreksjon for PS. I begge tilfeller inflasjons faktor ble betydelig redusert av PC-1, 3 og 4. Hvis den sistnevnte oppnås dette ved å ta tilfellet kontroll variasjon, er disse akser variasjon ville ikke ha blitt identifisert i PCA ved bruk av bare kontrollene. De mindre reduksjoner i inflasjonsfaktoren observert for de GWAS kontrolljusteringer er sannsynligvis på grunn av GWAS kontroll PCA er mindre utvalgsstørrelse (n = 1814 vs. n = 3695). Reduksjonen i inflasjon faktor oppnås ved å legge GWAS kontroll PC5 kan forklares med dens korrelasjon (ρ = 0,3) for å GWAS PCA PC3.
Deretter sammenlignet vi effekten av justeringen for de 4 første stk i to genome-wide PCAs på p-verdiene for SNP assosiasjoner til eggstokkreft. Hvis GWAS PCA ble fange case-control variasjon, styrken av foreningen av de beste rangerte SNPs fra GWAS kontroll justert analyse vil bli redusert eller kontrolleres bort av GWAS PCA justert analyse. I stedet observerte vi at de mest betydelige SNPs i GWAS kontroll PC justert analyse forble de mest betydelige SNPs i PC justert analyse GWAS (se høyre panel av figur 4 den).
Negativ log p-verdier på topp treff for eggstokkreft forening etter kontroll for herkomst bruker første 4 stk av GWAS kontroll PCA i forhold til ikke å kontrollere for opphav (venstre panel) og kontrollerende for herkomst bruker første 4 stk av GWAS PCA (høyre panel).
Figur 4 viser også at GWAS korrigert for de beste treff i
samme måte
som GWAS kontroll. Den SNPs som p-verdi endret seg mest i forhold til en ukorrigert forening test er uthevet i rødt. De SNPs som krysser identitet linje fra venstre panel til høyre panel er de som styrken av foreningen er rettet i samme retning av de to sett av PC-er og hvis korreksjon er sterkere ved hjelp av GWAS PCer. SNPs som er mer fjernt fra identitetslinjen i panelet til høyre enn venstre som ikke krysser det er de som har styrke til å organisere seg endringer i noen forskjellige retninger når adusting for ett sett med PC versus den andre. Tre av de seks SNPs som endret seg mest når det justeres for GWAS kontroll PCer ble mer effektivt korrigert av de GWAS PCer. En SNP fikk omtrent den samme grad av korreksjon og to ble rettet i samme retning, men ikke med så mye i GWAS justert analyse som i GWAS kontroll justert analyse. Ingen av SNP ble rettet i forskjellige retninger mellom de to sett av analyser.
I tillegg til virkningen på p-verdier for den øverste skjøt SNP, en sammenligning av genom-wide korreksjon for de to PCAs mulig også bli gjort. Korrelasjonen mellom p-verdiene for alle SNPs mellom ukorrigerte foreningen tester og de korrigerte gjennom GWAS PCA var 0,922, mellom ukorrigert og GWAS kontroll var 0,958 og mellom GWAS og GWAS kontrollere PCAs var 0,983. Hvis GWAS PCA ble plukket opp på genome-wide tilfelle kontroll variasjon, og dermed korrigere i en kvalitativt annen måte å GWAS kontroll, dets resulterende p-verdier ville ha blitt mer korrelert til ukorrigert analyse snarere enn til de av GWAS kontroll.
Heis Desequilibrium
Tomter av de individuelle SNP belastninger for GWAS PCer 1 til 4 høydepunkt tre regioner med høy lokal LD. Disse vises som topper på kromosomer 2, 6 og 8 (se figur 5). De samme områdene var tydelig for de GWAS kontroll PCer. Disse plottene viser at aksene for variasjon definert av PCer 3 og 4 av de GWAS og GWAS kontroll PCAs byttes om, med GWAS kontroll PC3 viser markert topp på kromosom 8 som er tydelig i handlingen i GWAS PC4.
GWAS PCA (venstre panel) og GWAS kontroll PCA (høyre panel) belastninger er plottet viser topper på kromosom 2, 6 og 8.
GWAS PC1 belastninger toppen på begge kromosomene 2 og 6. topp på kromosom 2 tilsvarer en region som inneholder SNP rs4988235. Dette SNP er en kjent polymorfisme i genet LCT, assosiert med laktase utholdenhet. Denne SNP T-allelet er forbundet med Nord-Sør Cline i Europa med en frekvens på 5-10% i Sør-Europa og 70-80% i Nord-Europa [21]. Toppen på kromosom 6 tilsvarer den hovedhistokompatibilitetskompleks region (HLA), en velkjent region med høy LD [22]. GWAS PC2 belastninger har også en markant topp i HLA-regionen. PC3 og PC4 belastninger har topper på kromosom åtte i en region med en polymorfe inversjon tidligere dokumentert i europeiske amerikanere ,, [23-25]. Selv om HLA og inversjon regioner ser ut til å bli mer tett samplet i Illumina genome-wide SNP panel enn andre regioner i disse kromosomene, betyr dette alene ikke hensyn til omfanget av toppene (se tabell 4). Spesielt kromosom 8 inneholder 7 andre regioner av samme størrelse eller mindre enn den inversjon regionen som er like eller mer tett samplet av SNP i panelet, mens de første 1 k SNP som utgjør toppen i HLA-regionen har den samme gjennomsnittlige tetthet som resten av kromosom 6.
Selv om det var bevis for eggstokkreft relevant struktur i dataene i GWAS PCer 1 til 4, deres loadingene tomter viste at lokale LD kan ligge til grunn for denne strukturen. Vi har utført en ytterligere PCA (GWAS LD PCA) hvor bare den SNP med den høyeste lastingen ble beholdt for å representere hver av de LD regionene (se tabell 4) for å bestemme hvorvidt disse områder påvirke evnen til disse PC-er for å korrigere for sykdommer relevant PS .
GWAS PC1, PC3 og en brøkdel av GWAS PC4 aksene variasjon ble i stor grad beholdes av GWAS LD PCA, mens PC2 aksen variasjon er tapt (se tabell 3). GWAS LD PC2 fanger variasjon beskrevet av begge GWAS PC-3 og 4. Derav kromosom 2 LCT-genet og kromosom 8 inversjon områder synes å være korrelert til doms komponenter i den europeiske amerikanske befolkningen representert ved GWAS PC 1, 3 og 4. I motsetning gir GWAS LD PCA bevis for at HLA-regionen ikke er signifikant assosiert med genom-wide europeisk opphav PS. En stor del av variasjon beskrevet av GWAS PC2 kan derfor være lokal heller enn genom-bred, anen variasjon. Dette kan forklare mangelen på tilknytning til området.
Tynning GWAS PCA LD regioner resulterte i mindre effektiv kontroll av inflasjon faktor (se figur 3). Bare de 2 første PCer av GWAS LD, noe som omtrent tilsvarer GWAS PC 1, 3 og 4, senket inflasjon faktor. PC1 redusert inflasjon faktor i samme grad med og uten tynning av SNPs på LCT LD-regionen, mens du justerer for PCer 3 og 4 redusert inflasjon faktor mer når kromosom 8 LD region ikke ble tynnet.
Ancestral GWAS PCer og Foreningen til studiested
GWAS PCer 1, 3 og 4 er hver svært signifikant assosiert med studiested etter justering for case-control status (se tabell 5). Hver PC identifiserer en tydelig kontrast mellom stedene. The Mayo nettsted (MAYO) har de laveste PC1 verdier og Tampa (TBO) den høyeste i gjennomsnitt; Toronto (TOR) og North Carolina (NCO) er middels og ikke discernably annerledes. Nettstedene har forskjellige gjennomsnittsverdier av PC3 etter justering for case-control status, og er bestilt (fra minst til størst verdi) NCO, TOR, TBO deretter MAI. PC4 kontraster MAI og de gjenværende områder som ikke er discernably forskjellige fra hverandre.
En tomt på PC1 mot PC3 viser at variasjonen representert ved PC tre var innenfor individer av North europeisk opphav (se figur S3) . Det viser også at PC tre tydelig varierer på tvers av nettsteder. Ikke bare gjorde MAYO viser en trend mot mer positive PC 3 verdier i forhold til andre steder, men NCO viste et smalere spekter variant for PC i forhold til de andre nettstedene. PC 1 viste TBO å være stedet med mer av en representasjon av Sørøst europeere mens MAYO hadde minst.
Diskusjoner
Selv om informasjonen som gis av alle SNPs genotypet på et genom-wide panelet kan brukes til å kontrollere for populasjonsstruktur via PCA ved bruk av en mindre forhåndsutformet tar sikte panel kan tenkes å medføre visse fordeler. Først kontrollerer for lagdeling med de GWAS data kan uønsket redusere case-control variasjon studien søker å identifisere, mens sjansen for at en tar sikte på panelet vil omfatte sykdom forbundet SNPs er ekstern. For det andre, kan korreksjoner basert på un-tynnet GWAS data fremheve lokal struktur i stedet for genom-bred, anen variasjon og dermed forhindre effekten av kontroll for PS. AIMS paneler bevisst utelukke oppsigelser mellom SNPs og dermed unngå dette problemet. Disse potensielle ulemper ved GWAS-baserte korreksjoner kan bli forverret i populasjoner med mer subtil genome-wide struktur og sterkere mønstre av lokale LD som den europeiske amerikanske befolkningen.
Vi fant at disse ulempene ikke ble realisert i vår analyse av eggstokkreft GWAS data. Spesielt har vi funnet at en full GWAS PCA rekapitulert struktur tilstede i kontrollpersoner, og ble derfor ikke å fange en betydelig mengde case-control variasjon. Dette er ikke overraskende siden case-control variasjon, både genom-wide og lokale, vil sjelden være store nok til å kjøre forbi på genom kilder til befolkningen variasjon i en PCA. Dette og betydelig reduserte inflasjonen faktorer sammenlignet med de som ble oppnådd ved å bruke Paschou panel antyder at foreningen til eggstokkreft funnet for GWAS PCer 1, 3 og 4 representerer en reell korreksjon for PS selv etter regnskap for området, en som er sannsynlig på grunn av større presisjon som gis ved hjelp av hele GWAS datasettet. Merk at bare 460 av Paschou panelets 500 markører var tilgjengelig for oss i eggstokkreft GWAS datasett, og dermed redusere sin makt noe. Dette vil imidlertid ofte være tilfelle når du bruker en pre-designet som mål panel for befolkningsstrukturen kontroll i en GWAS analyse.
Potensielle fallgruver ved ikke å ta hensyn til virkningen av regioner med høy lokal LD på å kontrollere for PS ved hjelp av PCA kan klassifiseres i to scenarier: (1) den funksjonelle varianten ligger utenfor disse områdene; i dette tilfellet datamaskiner som kun representerer variasjonen i disse regionene vil ikke effektivt kontrollere for PS, dvs. inflasjon Faktoren er ikke tilstrekkelig nedsatt, og (2) den funksjonelle varianten ligger innenfor et slikt område; i dette tilfellet PCer som strengt representerer den lokale strukturen i regionen kan styre unna foreningen, er dvs. inflasjon faktor senket for mye. Selv om regionene høy lokal LD endret resultatene av GWAS PCA i denne studien, de praktiske konsekvensene av dette på testing av SNP assosiasjon til eggstokkreft var tvilsom.
Bare GWAS PC2 kvalifisert som et eksempel på denne første fenomen . Dens forsvinning i GWAS LD PCA og dens mangel på effekt på inflasjon faktor og assosiasjon til sykdom viser at det er først og fremst representerer lokal struktur i HLA-regionen og antyder at funksjonelle varianter er usannsynlig å ligge innenfor det området. Selv om HLA LD regionen inneholdt nok variasjon til å fullt står for en høy rangering PC, er effekten av å inkludere denne PC-en når man kontrollerer for stratifisering ikke veldig forskjellig fra det inkludert en rekke ikke-informative PCer når rutinemessig tar de 10 første PCer som kovariater (se figur 3). Hvilke av høy rangering PCer for å inkludere så kovariater i foreningen analyse og hvor mange av dem til å inkludere kan ha større innvirkning på inflasjonen faktor kontroll enn å fjerne effekten av LD regioner på PCA.
Vi gjorde ikke observere et eksempel på den andre fenomen som er nevnt ovenfor i dette datasettet. I stedet aksene for variasjon beskrevet av PC-ene som ble funnet å være assosiert med sykdoms (GWAS PC 1, 3 og 4) ble holdt tilbake i vesentlig grad når de regionene med høy lokal LD ble tynnet. Dette tyder på at selv om disse PCene viser høy korrelasjon til lokale LD regioner og disse regionene kan potensielt havn funksjonelle varianter, PCer representerer ekte, doms, genome-wide struktur og ikke bare variasjon innen LD regionen.
Ved hjelp av schizofreni GWAS dataene om europeiske amerikanere, Zou et al. fant de samme LD regioner som denne studien, og en ytterligere topp på kromosom 17. Ved å bruke en krymping metode for å kontrollere for LD effekter i PCA, fant de at alle toppene forsvinner med unntak av LCT-regionen topp. De konkluderer med at det er viktig å ta hensyn til LD ved bruk av PCA å kontrollere for PS [25]. De gir ikke korrelasjon mellom de to PC-er med og uten deres krymping metode. Det er sannsynlig at, som i denne studien, er de to sett av PC-er 3 og 4 sterkt korrelert og at det polymorfe inversjon regionen ikke har en praktisk effekt på herkomst kontroll.
Befolkning lagdeling vil variere fra studie for å studere, avhengig av egenskapene til studiepopulasjonen og sykdommen, og det kan derfor hevdes at resultatene som er presentert her, er spesifikke for denne studien. Men populasjoner av europeisk herkomst som en studert her er spesielt homogen og case-control eller lokal LD variasjon vil være
mindre
sannsynlig å overskygge doms befolkningen variasjon når du bruker un-tynnet GWAS data for PCA, i studier av mindre homogene populasjoner, slik som de som bringer sammen fag fra ulike kontinentale ancestries og /eller at fokus på blandet populasjoner. Som konklusjon, anbefaler vi at en grundig analyse ved hjelp av PCA av hele datasettet skal utføres før du bestemmer hvordan du kan kontrollere for PS. Bruk av PC fra en full GWAS PCA kan gi bedre kontroll for PS og resultere i en lavere inflasjon faktor. En annen fordel er at en slik analyse kan hjelpe oppdagelse og fjerning av utliggere og eller beslektede individer som kan være savnet gjennom andre kvalitetskontroll /kvalitet vurderingsprosedyrer. I denne studien uteliggere vi fjernet betydelig påvirket PCer fra den opprinnelige GWAS kontroll analyse og viste seg å inneholde relaterte personer savnet av tidligere QC filtre.
Det bør påpekes at Paschou panelet gjorde bemerkelsesverdig godt i å fange en stor andel av PS for et så lite antall av SNPs. Faktisk, i en nyere papir etterforskerne bak Paschou panelet viser at det er mulig å forutsi individuelle opphav i Europa ned til noen få hundre kilometer fra opprinnelsen, ved hjelp av paneler av 500 eller 1000 SNPs [26]. Disse panelene er et flott verktøy for kostnadseffektivt genotyping personer med det formål PS kontroll. Hva denne studien vil understreke er at til tross for denne effekten, i nærvær av full GWAS data vi bør ikke bli fristet til å utelukkende stole på en slik redusert antall SNPs når gjennomføre PCA.
Det er interessant å merke seg at sammenhengen mellom GWAS PCer 1,3 og 4 og sykdom vedvarer selv etter å ha tatt hensyn til språk forskjeller (se tabell 5). Hensyntatt disse områdeforskjeller fjerner den delen av falsk sammenheng mellom sykdom og opphav som skyldes forskjeller i de relative antall tilfeller og kontroller som ble rekruttert på tvers av nettsteder kombinert med selv små forskjeller i herkomst på tvers av nettsteder. Hva gjenstår må da være forårsaket av innen språk forskjeller i forfedrenes make-up mellom saker og kontroller på grunn av sampling variasjon. Hva er bemerkelsesverdig her er at dette på nettstedet forskjellen i herkomst mellom saker og kontroller resultatene i en vedvarende betydelig signal når alle nettsteder er gruppert sammen. Dette betyr at enten forskjellen i herkomst mellom saker og kontrollene skjedde i samme retning ved en tilfeldighet på hvert sted, eller at denne forskjellen i herkomst ble så uttalt i ett av områdene som det druknet hva som skjedde i de resterende områdene. En annen mulighet er at sammenhengen mellom sykdom og opphav er ikke falsk, men ekte, og dermed forklarer sin konsekvent retning i alle områder.