PLoS ONE: kimcellelinje Variasjon i Cancer-Mottakelighet gener i et sunt, slektsmessig Diverse Cohort: Konsekvenser for Individuell Genome Sequencing

Abstract

Teknologiske fremskritt kombinert med synkende kostnader er å bringe hele genomet og hele exome sekvense nærmere rutine klinisk bruk. En av hindringene til klinisk implementering er det høye antallet varianter av ukjent betydning. For kreft-resistensgener, er det problemer med å tolke den kliniske relevansen av de genomiske variantene forsterket av det faktum at det meste av det som er kjent om disse variantene kommer fra studiet av svært utvalgte bestander, for eksempel kreftpasienter eller personer med en familie historie av kreft. Den genetiske variasjonen i kjente kreft-resistensgener i den generelle befolkningen har ikke blitt godt karakterisert hittil. For å møte dette gapet, profilert vi nonsynonymous genomisk variasjon i 158 gener årsaks innblandet i kreftutvikling ved hjelp av høy kvalitet hele genomsekvenser fra en slektsmessig mangfoldig kohort av 681 friske personer. Vi fant ut at alle personer bære flere varianter som kan påvirke kreft mottakelighet, med et gjennomsnitt på 68 varianter per person. Av de 2,688 allele varianter identifisert innen kohorten, de fleste er svært sjeldne, med 75% funnet i bare 1 eller 2 personer i vår befolkning. Allelfrekvensene variere mellom doms-grupper, og det er 21 varianter hvor mindre allel i en populasjon er hoved allel i et annet. Detaljert analyse av en valgt undergruppe av 5 klinisk viktige kreftgener,

BRCA1

,

BRCA2

,

KRAS

,

TP53

, og

PTEN

, fremhever forskjellene mellom germline varianter og rapporterte somatiske mutasjoner. Datasettet kan tjene en ressurs av genetisk variasjon i kreft-resistensgener i 6 Tre grupper, et viktig grunnlag for tolkningen av kreftrisiko fra personlige genomsekvenser

Citation. Bodian DL, McCutcheon JN, Kothiyal P, Huddleston KC, Iyer RK, Vockley JG, et al. (2014) kimcellelinje Variasjon i Cancer-Mottakelighet gener i et sunt, slektsmessig Diverse Cohort: Konsekvenser for Individuell Genome Sequencing. PLoS ONE 9 (4): e94554. doi: 10,1371 /journal.pone.0094554

Redaktør: Paolo Peterlongo, IFOM, Fondazione Istituto FIRC di Oncologia Molecolare, Italia

mottatt: 25 september 2013; Godkjent: 17 februar 2014; Publisert: 11 april 2014

Copyright: © 2014 Bodian et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne forskningen ble finansiert i sin helhet av Inova Health System. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:. JN McCutcheon er for tiden ansatt ved Life Technologies og ikke holde noen patenter eller lager i firmaet. Dette endrer ikke forfatternes tilslutning til PLoS ONE politikk på deling av data og materialer.

Innledning

Advances in sekvense teknologi og reduserte kostnader gjør hele genomsekvensering (WGS) og hele exome sekvense (WES) stadig mer tilgjengelig og kan muliggjøre overgangen fra forskningssøknader og forbruker genomikk til rutinemessig klinisk omsorg. Imidlertid har bred aksept i klinikken vært hemmet i hovedsak av begrensninger i vår nåværende kunnskap om kliniske relevansen av de oppdagede sekvensvariasjoner.

I onkologi, er WGS /WES dag brukes primært for å identifisere somatiske mutasjoner i svulstene. Kimcellelinje variasjoner påvirker kreft predisposisjon eller sykdomsprogresjon er vanligvis identifisert av målrettet resequencing av gener av interesse som

BRCA1 Hotell og

BRCA2

. Som WGS /WES blir mer utbredt, vil analyse av kimcellelinje variasjon flytte fra single-genet tilnærminger til analyser basert på flere kreftassosierte gener, og testet befolkningen vil utvide fra utsatte enkeltpersoner til den generelle befolkningen.

den tolkningen av disse dataene krever en forståelse av variasjonen i kreftrisiko knyttet gener hos friske individer, som i stor grad uncharacterized. Mest kunnskap om kimcellelinje variasjon i kreft mottakelighet gener har kommet fra personer som har en medisinsk grunn til å bli sekvensert [1], og så er ikke representative for den generelle befolkningen. Annen informasjon kommer fra cellelinjer og dyremodeller fremfor primære pasientceller [2]. Individer studert er primært av europeisk herkomst [1], [3], men begge genomsekvenser og kreftrisiko varierer mellom opphav grupper [4]. Videre har studier fokusert på høy penetrans resistens alleler, men kreft er vanligvis et resultat av den kombinerte effekten av lav til moderat penetrans risiko alleler og miljøfaktorer [5].

Målet med denne studien er å karakterisere variasjonen i kreft-resistensgener i en generell befolkning. For å oppnå dette målet, profilert vi nonsynonymous variasjonen i 158 kreftgener ved hjelp av data fra kvalitets hele genomsekvenser fra en slektsmessig mangfoldig kohort av 681 individer. Vi kjennetegnes også i detalj variantene i fem gener av spesiell klinisk interesse,

BRCA1

,

BRCA2

,

KRAS

,

TP53

, og

PTEN

. Resultatene kan tjene som en referanse for variasjon i 158 kreft mottakelighet gener i den generelle befolkningen og har viktige implikasjoner for tolkningen av kliniske WGS /WES.

Metoder

Etikk uttalelse

personer ble rekruttert ved Inova Fairfax Hospital i løpet av 2011-2012 og innrullert i Inova translasjonell medisin Institute kliniske studie med tittelen «Molecular Study of Pre-term Født.» Alle deltakerne i studien gitt skriftlig informert samtykke for bruk av deres genomsekvenser for forskningsformål. Den «Molecular Study of Pre-term Født» ble godkjent av Institutional Review Board of Inova Health System og den vestlige Institutional Review Board (# 1124761). Analysene som presenteres her var en del av en undersøkelse av rollen til kreft-resistensgener i etiologien av for tidlig fødsel, et område av forskning motivert av likhetene mellom graviditet og malignitet [6], [7].

Deltakere

kohorten for denne analysen består av 681 voksne fra 352 familier, bestående av 337 menn i alderen 18-50 (median 34) og 344 kvinner i alderen 18-44 (median 32). Ingen av personene er første grad slektninger, noe som bekreftes av genomisk analyse. Fødeland av fagene og deres foreldre ble selvrapportert. Kohorten er representativt for befolkningen i Nord-Virginia og av befolkningen føder Inova Fairfax Hospital av rase, etnisitet og sosioøkonomisk status [8]. Omtrent en tredjedel av pasientene (34% av mennene og 35% av kvinnene) ble inkludert i studien som foreldre til en pre-term nyfødt, og to tredjedeler som full sikt kontroller. Ingen signifikant sammenheng mellom kreft genvarianter og begrepet status ble funnet.

Selvrapporteringsspørreskjemaer og sykehus poster ble gjennomgått for kreft status. Tre personer hadde en kreftdiagnose før innmelding: en mann med nedsatt kreft, en mann med kreft av ukjent type, og en kvinne med brystkreft. Ingen av deltakerne rapporterte en personlig og familiens historie indikasjon på en svært penetrant kreft-disponerende germline mutasjon, nemlig tidlig debutalder og /eller flere berørte familiemedlemmer.

Prøver og sekvense

Hele blodprøver ble samlet inn fra alle fag i BD Vacutainer K2-EDTA-rør. Genomisk DNA-ekstraksjon ble utført på automatisert DNA QiaSymphony ekstraktoren ved hjelp av DNA-Midi kit (Qiagen Inc., Valencia, California). Prøvene ble sendt til Komplett Genomics (Mountain View, California) for hele genomsekvensering, montering, og variant ringer [9], [10]. Sekvensering ble utført med DNA-nanoball array-teknologi. Genomsekvenser ble montert med Complete Genomics «Assembly Rørledning versjoner 2.0.0-2.0.3 bruker NCBI bygge 37 (hg19) menneskelige genom henvisning forsamlingen [11]. Dekning statistikk ble beregnet ved hjelp av vekt-sum sekvens dekning dybde. I gjennomsnitt 70% av hvert genom og 80% av hver exome hadde 40x dekning. Varianter fra masterVar filer fra alle genomer ble slått sammen til en enkelt VCF v4.1 fil med mkvcf (beta) fra CGA verktøy suite, versjon 1.6.0.

Gene merknader ble beregnet med en modifisert versjon av GLU programvarepakke, versjon 1.0b3-prerelease4 [12], ved hjelp av genomet koordinater av eksoner, karakterutskrifter, og kodende områder fra UCSC Genome Browser knownGene bord [13]. Forutsagte proteinsekvens endringer ble beregnet ved å oversette den kodende regionen til hvert transkript og referansen. Ytterligere kommentarer fra dbSNP 137 [14], COSMIC versjon 65 [15], HGMD Profesjonelle 2012,3 (BIOBASE), og PolyPhen-2 [16], [17] ble lagt med ANNOVAR verktøy [18]. PolyPhen-2 skårer 0,85, mellom 0,85 og 0,15, og. 0,15 ble kodet som «sannsynligvis skadelig», «muligens skadelig», og «godartet», henholdsvis [17]

Quality filtrering

genotype samtaler ble filtrert for pålitelighet ved hjelp av en prediktiv modell trent på 341 tilfeldig utvalgte kreft-genvarianter som ble validert av Ion Torrent sekvensering. Modellbygging ble utført med weka-3-6 [19] med standardparameterne unntatt som angitt. Attributter ble valgt av BestFirst algoritmen fra informasjonen genotype kvalitet levert av Complete Genomics. Filtrering parametere ble bestemt ved bruk av J48 beslutningstreet algoritme med 10-fold kryssvalidering. Den resulterende modellen har to typer filtre: en posisjon filter og en genotype filter. Stillingen filter ekskluderer alle varianter på genomiske steder med en samlet takst over kohort av 80% eller med en gjennomsnittlig fractional allel dybde ≤0.295. De genotype filtermasker samtaler med et minimum allel dybde ≤11. Basert på 10-fold kryssvalidering, ble feilrater for genotyper som passerer disse filtrene anslått til 1,3% for falske negative og 2,3% for falske positiver

Gener og varianter

Kreft Gene Census, en kuratert samling av 487 gener med mutasjoner årsaks innblandet i onkogenese fra primære pasientprøver [20], ble lastet ned fra nettsiden Sanger Senter (9/2012). Å fokusere på varianter som kan påvirke kreft mottakelighet grunn spådd protein-sekvensendringer, ekskluderte vi gener hvor årsakssammenheng til kreft var avvikende uttrykk i stedet for mutasjon, holder bare gener som er oppført i folketellingen på grunn av missense, rammeskifte, skjøting, eller nonsense mutasjoner. Vi inkluderte både genene med kjent kreft-predisponerende kimlinje-mutasjoner, så vel som gener som kun somatiske onkogene mutasjoner er kjente, ettersom kimlinje variasjon i gener med somatiske mutasjoner kan også påvirke cancer susceptibility [20]. Loci utelatt fra eller tvetydig kartlagt til referanse forsamlingen ble ekskludert, slik at 158 ​​gener av interesse.

Varianter er definert som sekvens forskjeller fra referanse, som beregnes av WGS rørledningen. En variant ble kategorisert som rammeskifte, nonsens, eller spleise-site forstyrre hvis det hadde den antatte effekten på en hvilken som helst av de kommenterte transkriptene er forbundet med en kreft genet. Allelfrekvenser ble beregnet fra de såkalte genotyper. Sjeldne varianter er definert som varianter med mindre allel frekvens (MAF) og mindre enn 1%, og felles varianter de med MAF . 5%

Den kodende lengden av et gen som er definert som det totale antall baser forutsagt som skal oversettes i en hvilken som helst av de tilknyttede transkripter. Utbredelsen av per-genet variasjon, representert som antall varianter per kilobase (kb), ble beregnet som stigningstallet til regresjonslinjen av antall varianter i hvert gen på koding lengde.

Resultatene fra per -Gene analyser presenteres for et sett av fem viktige gener som eksempler på resultatene fra alle 158 gener. Disse genene ble valgt ettersom de er kjente kreftgener som kan bære klinisk relevante mutasjoner. Den 5-genet settet inneholder både små proteiner med få varianter og store proteiner med mange varianter, og begge tumorsuppressorgener og onkogener.

Tildeling av patogenitet og tilbakeføring av resultater

Varianter ble klassifisert som sykdomsfremkallende hvis det var: (1) flere primære rapporter om patogenitet, (2) ingen rapporter med bevis mot patogenitet, og (3) molekylære data viser en skadelig effekt. Patogene varianter fra deltagerne som samtykket til retur av resultatene ble validert av Sanger-sekvensering og deretter rapportert til tverrfaglig tilfeldig funn komité for evaluering og kommunikasjon til den enkelte lege i posten.

Slekts merking og allel frekvensanalyser

Tilsetn koeffisienter ble estimert for hvert fag med blanding [21] med prosedyren beskrevet av Libiger og Schork [22]. Allelfrekvenser for 6 forfedrenes populasjoner – afrikanske, europeiske, Indiansk, østasiatiske, Sentral Asia og Stillehavs – ble beregnet med en referanse panel bestående av 16,443 single-nukleotid polymorfismer (SNPs) [22]. For å tildele enkeltpersoner i vår årsklasse til subpopulasjoner, ble fagene gruppert basert på deres beregnede tilsetningsstoff koeffisienter. Det aner representert med hver klynge ble definert som den geografiske regionen av selvrapportert fødeland for de fleste individer, med unntak av USA. De afrikanske og afrikansk-europeiske klynger er preget av graden av blanding, med den afrikanske gruppen nærmere den afrikanske forfedrenes befolkningen. Tre grupper ble definert bare for klynger med minst 20 personer for å beregne allelfrekvensene i trinn på 5% eller mindre for alle genomiske posisjoner, inkludert de på kjønnskromosomene. Mindre klynger ble samlet i en «Annet» gruppe, som ble ekskludert fra allel frekvensberegningene siden det ikke representerer en avstamning-baserte befolkningen. For de andre 6 delpopulasjoner, ble statistisk signifikante forskjeller i MAF beregnet ved enten chi-squared test eller Fishers eksakte test. Chi-squared test ble brukt for varianter som alle forventede verdier var 1, og Fishers eksakte test med simulerte p-verdier ble brukt for alle andre varianter [23]. Varianter hvor større allel i en populasjon er den mindre allel i en annen populasjon er de for hvilke den minste frekvens i en hvilken som helst gruppe er 0,5, er den maksimale frekvensen 0,5, og begge verdier er signifikant forskjellige fra hverandre og fra 0,5 ved ensidig Fishers eksakte tester. For alle statistiske tester, p-verdier 0,05 ble ansett som vesentlig

Ekstra programvare og databaser

Statistiske analyser ble utført med R-versjon 2.15.0 [24].. VCFtools 0.1.10 [25] og plink versjon 1.07 [26] ble brukt til å forhåndsbehandle variantdata for beregningen blanding. Proteinstrukturer ble vist med pmol [27]. Den ClinVar database versjon 2013-8 [28], et arkiv av relasjoner mellom variasjoner som finnes i pasientprøver og fenotyper, ble konsultert for rapporter om klinisk betydning. I tillegg Breast Cancer Information Kjerne (BIC) (versjon: 2/20/13) ble undersøkt for kliniske rapporter om

BRCA1 Hotell og

BRCA2

varianter

. datatilgjengelighet

Alle variantene er rapportert i denne publikasjonen er oppført i Tabell S1 i File S1 og har blitt deponert i ClinVar med deponeringsnummer SCV000083899 – SCV000086586. Forskere er interessert i å dele de genomiske data er invitert til å ta kontakt med den aktuelle forfatteren.

Resultater

Kreft-genvarianter er utbredt i en generell befolkning

For å studere den genetiske variasjonen i kreft-resistensgener i en kohort representant for en generell, slektsmessig mangfoldig befolkning, analyserte vi hele genomsekvenser fra deltakerne i en pre-term fødsel forskningsstudie. Kohorten består av 681 generelt friske voksne i reproduktiv alder, 49% menn og 51% kvinner, ingen av dem rapporterte en personlig og familiens historie indikasjon på høyt penetrant kreft-disponerende germline mutasjoner.

Vi brukte denne kohorten for å profilere kimlinje variant av et sett med 158 gener som protein-sekvensendringer er årsaksmessig innblandet i onkogenesen. De kodende regioner av disse 158 genene er godt dekket i de genomiske data, med et gjennomsnitt pr-genet dekning av 58X (område: 21x-84x), og med 99,99% av stillingene sekvensert i 10 individer (fig S1) . Dette nivået av dekningen er tilstrekkelig for høy kvalitet variant ringer, men ikke klinisk diagnose [29]. Vi fokuserte på små, nonsynonymous variasjoner – erstatninger, innskudd og slettinger -. Siden germline variasjoner i kreft mottakelighet gener er for det meste av denne typen [20]

Blant de 681 fagene vi observerte 2688 spådde protein-påvirker varianter i de 158 kreft-resistensgener (tabell S1 i File S1). De fleste av variantene er svært sjeldne – 65% er funnet i bare et enkelt individ og 75% er i to eller færre, med MAF 0,22%. Nyere studier om variasjon i hele exomes [30] og i genfamiliene [31] fant også et flertall av sjeldne varianter. Sjeldne varianter er tenkt å bidra vesentlig til etiologien av vanlig sykdom [32], og strategier for prioritering av sykdoms varianter fra WGS inkluderer ofte et frekvensfilter for å utelukke vanlige variantene. Førti-tre prosent (43%), eller 1166, av variantene er romanen (ikke i dbSNP), alle med MAFs mellom 0,07% og 1,4%. Disse dataene støtter påstanden om at nesten alle de vanlige variantene i populasjoner relatert til de i 1000 genomer prosjektet har blitt oppdaget, men at mange sjeldne varianter er ennå ikke identifisert [33].

Friske personer bære flere kreft -Gene varianter

Hvert individ i kohort bærer flere nonsynonymous varianter i kreft susceptiblity gener, med et gjennomsnitt på 68 varianter per person (område: 49-97) (figur 1A), og 99% av individene bære sjeldne varianter (median: 6 sjeldne varianter, range: 0-32). Ingen av deltakerne har varianter i alle 158 gener; i stedet er de variantene fordelt over et undersett av 30-59 gener (median = 40) (figur 1B) som varierer fra individ (se nedenfor). For en indikasjon på hvorvidt disse variantene kan være klinisk relevant, ble alle varianter tildelt tre ikke-eksklusiv klasser basert på kommentarer knyttet til mulige innvirkning på kreft mottakelighet: (1) varianter oppført i HGMD som muligens sykdomsassosierte, (2) varianter trolig ha en skadelig effekt på protein funksjon, nemlig rammeskifte, tull, og spleise-site varianter, og (3) alle andre nonsynonymous varianter. Vi bruker det sistnevnte klassen for å representere varianter av ukjent betydning (vus), med de begrensninger at den kliniske effekten av noen varianter kan være kjente, men ikke tatt i HGMD, og ​​at varianter er tilordnet HGMD og skadelige klasser kan også ha ukjente effekter på kreft mottakelighet. Overall, 80 varianter observert i kohorten ble klassifisert som skadelig (22 tøv, 42 rammeskifte, 16 spleise-site forstyrrende), 326 ble kommentert som muligens sykdomsassosierte i HGMD, og ​​2297 er vus (tabell S1 i File S1). Forsøkspersonene har et gjennomsnitt på 14 HGMD varianter (range: 4-25), 2 varianter i den skadelige klasse (område: 0-4), og 52 vus (område: 34-78) (figur 1A). Antallet varianter i de tre personer som rapporterer en tidligere kreftdiagnose var ikke uteligger verdier for noen av variant klasser. Selv om det er mulig at de skadelige variantene resultat av sekvensering eller kommentaren feil, å finne tilsynelatende skadelige varianter i friske individer er ikke uventet [34].

(A) Boxplot av det totale antall varianter, antall varianter oppført i HGMD, antall sannsynlige skadelige varianter, og antall varianter av ukjent betydning per individ for kreft-assosiert gener. (B) Fordeling av antall kreftgener med minst ett nonsynonymous variant per person.

allelfrekvenser kreft-genvarianter er opphav avhengige

allelfrekvenser kan variere mellom populasjoner og disse forskjellene kan ha viktige medisinske implikasjoner [35]. For å bestemme hvorvidt noen av de protein påvirker kreft-genet varianter i vår kohort varierer i frekvens mellom Tre grupper, tildelt vi hver enkelt til en subpopulasjon ved hjelp av de genomiske data. Et panel av 16,443 markører som representerer 6 forfedrenes grupper assosiert med europeiske, afrikanske, østasiatisk, Sentral-Asia, indiansk, og Oceanic populasjoner [22] ble brukt til å beregne tilsetningsstoff proporsjoner for hver enkelt. Omtrent halvparten (49%) av individene ble tildelt nonzero koeffisienter for flere bestander, noe som reflekterer varierende grad av blanding eller genetisk opphav ufullstendig fanges opp av modellen. Subpopulasjoner ble definert av clustering fagene på de beregnede tilsetningsstoff proporsjoner. Klynger med færre enn 20 personer ble samlet i en «Annet» -gruppen og inkluderer Middle Easterners, blandet Eurasians, og andre med ukjent bakgrunn.

De sju resulterende grupper er listet opp i tabell 1 og blandingen koeffisientene til medlem individer er plottet i figur 2. for enkelhets skyld bruker vi navnene på gruppene (europeiske, afrikanske, etc.) for å betegne doms genetisk bakgrunn heller enn geografisk region av fødsel eller etnisitet. De subpopulasjoner tilsvarer 78-100% afrikansk herkomst for den afrikanske undergruppe, 79-100% østasiatisk opphav for østasiatiske undergruppe, 79-100% sentralasiatiske herkomst for Sentral-Asia befolkningen, og 83-100% europeisk opphav til European undergruppe. Klyngen med individer av 13-75% afrikansk herkomst, og 21-87% europeisk herkomst ble kåret afrikansk-europeiske. Blandingen proporsjoner som skiller den afrikanske undergruppe (≥78% afrikansk) fra afrikansk-europeiske gruppen resultat fra en stoppunkt i data og er sammenlignbare med proporsjonene av den dominerende opphav i østasiatiske, Sentral-Asia, og europeiske grupper (≥79 %, ≥79%, ≥83%, henholdsvis). Den spanske undergruppe omfatter ulike blandinger av indiansk og europeisk herkomst med 0-50% afrikansk herkomst. Disse to- og tre-veis tilsetningsstoffer reflektere den demografiske historien til Latin-Amerika [36].

blandingen andeler av de 6 forfedrenes populasjoner (farger) vises for alle personer i hver av de 7 gruppene er definert i kohort (paneler). (A) European (B) Sentral-Asia (C) østasiatisk (D) Afrikansk (E) afrikansk-europeiske (F) Hispanic (G) Annet. Red: Europeisk, Blå: Sentral-Asia, Cyan: østasiatiske, Gul: African Green: Indiansk, Magenta. Oceania

Tre-baserte subpopulasjoner varierer i antall kreft -Gene varianter per person (figur 3) (p 2.2E-16 ved ANOVA). Europeerne har en tendens til å ha færre varianter (gjennomsnitt = 64,5) og afrikanere i de fleste (gjennomsnitt = 84, 30% høyere enn europeere), i samsvar med genom-wide estimater [37]. Antallet varianter i afrikansk-europeiske enkeltpersoner ligger mellom afrikanere og europeere. Den afrikanske, afrikansk-europeiske og østasiatiske subpopulasjoner har ca dobbelt så mange nye varianter per person som europeere, og Central asiater har tredoblet mer (tabell 2). Oppdagelsen av at Central asiater har flere nye varianter per person enn afrikanere, som har høyere totale antall kreft-genvarianter (figur 3), kan gjenspeile en skjevhet i befolkningen som har blitt sekvensert og støtter arbeidet for å øke mangfoldet av populasjonene samplet i sekvensdatabaser.

fordelingen av antall nonsynonymous gener per gjenstand for hver av de 6 avstamning baserte undergruppene.

antall skadelige varianter per person er også signifikant forskjellig mellom forfedrenes gruppene (p 4e-4 av ANOVA, tabell 2). Gjennomsnitt varierer fra 1,8 i europeere og Østasiater til 2,2 i Central asiater. For HGMD varianter, er det også en statistisk signifikant forskjell mellom gruppene (p 9e-4 ved ANOVA), med Østasiater å ha færrest varianter i snitt registrert i databasen (tabell 2). Men forskjellene i antall skadelige og HGMD varianter er små og en forening med opphav må undersøkes i en større kohort.

Forskjeller mellom opphav grupper er også reflektert i allelfrekvenser kreft-genvarianter . Tabell S1 i Fil- S1 lister allelfrekvenser i hver av de befolkningsgruppene for komplett sett av 2,688 varianter. Fjorten lene har frekvenser 50% i alle subpopulasjoner (Tabell S2 i File S1), noe som tyder på at referansesekvensen bærer en mindre allel på disse stillingene. Vi analyserte befolknings forskjeller i allelfrekvenser for vanlige variantene, siden de fleste sjeldne varianter er funnet i en enkeltperson. Blant de 223 varianter med frekvens 5% i noen av de 6 avstamning-baserte grupper, 216 har allelfrekvenser som skiller mellom subpopulasjoner (tabell S3 i File S1). Av disse er 43% finnes i alle seks subpopulasjoner og 58 er spesifikke for en av de fire avstamning grupper med lavere grad av blanding, 49 i afrikanere, to i Central asiater, seks i Østasiater, og en i europeere. Det er også 21 varianter der mindre allel i en befolkning er den viktigste allel i en annen (tabell 3), hvorav avstamning avhengig frekvenser har blitt anerkjent tidligere i minst tre,

ErbB2

c.3508C G (p.Pro1170Ala) [38],

TP53

c.215C G (p.Pro72Arg) [39], og

BRCA1

c.2612C T (p.Pro871Leu) [ ,,,0],40]. Lite er kjent om den kliniske betydningen av disse 21 varianter. Four,

TP53

c.215C G (p.Pro72Arg) [41],

BRCA1

c.2612C T (p.Pro871Leu) [42],

erbB2

c.3508C G (p.Pro1170Ala) [43], og

FLT3

c.680C T (p.Thr227Met) [44], [45] har vært knyttet til utvikling av kreft eller å behandlingsrespons. Men disse assosiasjonene er vanligvis av liten effekt, eller ble utledet fra små prøver; dermed er mer arbeid for å etablere en definitiv sammenheng. Hvis disse foreningene er validert, illustrerer de viktigheten av å vurdere herkomst ved valg av behandlingstilbud for pasientene.

Per-genet variasjon

Neste vi analyserte varianter på en per-genet basis å finne ut hvilke gener som er mer eller mindre sannsynlig å ha varianter rapportert fra WGS av friske individer. Varianten belastning for hver av de 158 genene er oppført i tabell S4 i File S1. Fire gener –

SRSF2

,

U2AF1

,

MAP2K4

, og

GNAQ Anmeldelser – har ingen nonsynonymous varianter i vår årsklasse, 36 gener har varianter i færre enn 10 personer, og 35 har varianter i over halvparten av individer (Figur 4A). Begrensning av analysen til bare sjelden varianter, 154 (97,5%) av gener utstillings variasjon i i det minste ett individ (figur 4B). I gjennomsnitt har en kreft genet sjeldne varianter i 4% av befolkningen vår, med en rekkevidde fra 0% til 18% (0-125 personer). Blant de genene med sjeldne varianter i de fleste individer er

BRCA1

,

BRCA2

,

APC

,

MLL2

, og

MLL3

, gener som vanligvis mutert i kreft.

BRCA1

,

BRCA2

, og

APC

er godt studert på grunn av tilstedeværelsen av hyppige, sykdomsfremkallende mutasjoner.

MLL2 Hotell og

MLL3

har nylig blitt oppdaget å bli mutert i et bredt spekter av tumortyper [46], og utbredelsen av den observerte variasjonen tyder på at de kan rettferdiggjøre mer inngående studie.

Fordeling av antall personer med en variant per genet for (A) alle varianter (B) sjeldne varianter.

utbredelsen av variasjonen i hvert gen korrelerer med antall av varianter. Seksti prosent (60%) av variasjonen kan forklares med koding lengde (figur 5), en trend som tidligere kjent for alle enkelt nucleotide varianter exome dekkende [30]. Den generelle hyppigheten av ~6 variant stillinger per kb av kodende sekvens er sammenlignbar med den anslåtte variant funnraten for en befolkning på størrelse med vår kohort [31]. Den mest variable genet er

TNFRSF14

, med 39 variant stillinger per kb (tabell S4 i File S1).

Antall nonsynonymous varianter kontra totale antallet kodebaser for hver av de 158 kreft-resistensgener.

den per-genet variasjon kan også avhenge av hvilken type kreft genet. Tre typer er blitt beskrevet: onkogener, tumorsuppressorgener, og predisposisjon gener [46]. Sistnevnte er gener som germline mutasjoner kan disponere for kreft, men som har få somatiske mutasjoner. Tumorsuppressorgener og onkogener har ~ 5 varianter per kb av kodende sekvens, mens predisposisjon gener har ~8 varianter /kb, lik satsen for alle gener. Forskjellen er statistisk signifikant, med p 0,012 av ANCOVA. Den lavere prisen av variasjon for onkogener og tumorsuppressorgener kan tyde på større evolusjonær begrensning.

Karakterisering av variasjon innenfor viktige gener

I tillegg til befolkningen allelfrekvenser og litteratur rapporter om sykdom forening, analyse av virkningen hver variant kan ha på struktur og funksjon av det kodede protein kan gi informasjon relevant til kreftrisiko forutsigelse. Vi illustrerer genet spesifikke funn med et sett med 5 kjente kreftgener klinisk relevans,

BRCA1

,

BRCA2

,

TP53

,

KRAS

og

PTEN

. Variantene og allelfrekvenser er oppført i Tabell S1 i File S1.

BRCA1 og BRCA2

BRCA1 Hotell og

BRCA2

er de to store brystkreft mottakelighet gener. Germline mutasjoner i ett av disse tumorsuppressorgener er assosiert med arvelig bryst- og eggstokkreft syndrom, som står for anslagsvis 2-8% av brystkrefttilfeller i verden [47]. I vår kohort, 92% av pasientene bære referanse-alleler i en eller begge av disse genene (unntatt homozygot variant genotyper på kromosom 13 stilling 32929387 i

BRCA2

som referansesekvensen har en sjelden mindre allel): 498 personer med varianter i

BRCA1

og 482 med

BRCA2

varianter. Sjeldne varianter er også utbredt, med 27% av befolkningen som bærer sjeldne varianter i det minste ett av disse to gener.

Mesteparten av variantene i disse to genene er sjeldne, med 83% av de 46 variantene i

BRCA1 Hotell og 91% av de 86 variantene i

BRCA2

ha MAF 1%. De 4 vanligste variantene i

BRCA1

-c.2612C T (p.Pro871Leu), c.3113A G (p.Glu1038Gly), c.3548A G (p.Lys1183Arg), og c.4837A & gt G (p.Ser1613Gly)-alt viser avstamning avhengige allelfrekvensene.

Legg att eit svar