Abstract
Følsomhet for vanlige kreftformer er multigenic som følge av lav til høy pene predisposisjon-faktorer og miljøeksponering. Genomiske studier tyder kimcellelinje homozygosity som en roman lav pene faktor som bidrar til vanlige kreftformer. Vi antok at lange homozygot regioner (traktater-of-homozygosity [TOH]) havn tobakk avhengig og uavhengig lungekreft predisposisjon (eller beskyttelse) gener. Vi utførte i
n silico
genome-wide SNP-matrise-basert analyse av lunge-kreftpasienter av europeisk herkomst fra PLCO screening-rettssaken kohort å identifisere TOH regioner blant 788 kreft-tilfeller og 830 herkomst-matchet kontroller. Association analyser ble deretter utført mellom tilstedeværelsen av lungekreft og vanlige (c) TOHs (operasjonelt definert som 10 eller flere fag som deler ≥100 identiske homozygot samtaler), aTOHs (allelically-matchet grupper innen en cTOH), demografi og tobakk-eksponering. Til slutt, integrering av betydelig c /aTOH med transkriptomet ble utført for å funksjonelt-kart lunge-kreft risiko-gener. Etter kontroll for demografi og røyking, identifiserte vi 7 cTOHs og 5 aTOHs assosiert med lungekreft (justert p 0,01). Tre cTOHs ble overrepresentert i tilfeller over kontroller (OR = 1,75 til 2,06, p = 0,007 til 0,001), mens fire ble underrepresentert (OR = 0,28 til 0,69, p = 0,006 til 0,001). Det ble ikke observert interaksjon mellom røykestatus og cTOH3 /aTOH2 (2p16.3-2p16.1) (justert p 0,03). De resterende betydelige aTOHs ha ORS 0,23 til 0,50 (p = 0,004 til 0,006) og 2,95 til 3,97 (p = 0,008 til 0,001). Etter å integrere betydelige cTOH /aTOHs med offentlig tilgjengelige lunge-kreft transkriptom datasett fulgt av filtrering basert på lungekreft og dets relevante trasé avslørt 9 mulige disponerende gener (p 0,0001). I konklusjonen, ulikt fordelt cTOH /aTOH genomiske varianter mellom saker og kontroller havn sett med plausible differensielt-uttrykte gener utgjør kompleksiteten av lungekreft predisposisjon
Citation. Orloff MS, Zhang L, Bebek G, Eng C (2012) Integrative Genomisk analyse avdekker Utvidet kimcellelinje homozygosity med Lung Cancer Risk i PLCO Cohort. PLoS ONE 7 (2): e31975. doi: 10,1371 /journal.pone.0031975
Redaktør: Amanda Ewart Toland, Ohio State University Medical Center, USA
mottatt: 10 oktober 2011; Godkjent: 16 januar 2012; Publisert: 27 februar 2012
Copyright: © 2012 Orloff et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. CE holder Sondra J. og Stephen R. Hardis Velsignet Chair of Cancer Genomisk medisin ved Cleveland Clinic og American Cancer Society Clinical Research professoratet. Disse Chair midler har støttet delvis noen av forfatternes FTE å utføre denne studien (inkludert MO og CE tid). Ingen ekstra ekstern finansiering mottatt for denne studien. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Det er to hoved histologiske grupperinger i lungekreft, småcellet lungekreft (SCLC) og ikke-småcellet lungekreft (NSCLC). Sistnevnte inkluderer adenokarsinom (AC) og plateepitelkarsinom (SCC), sammen med mindre vanlige undertyper. Det er allment akseptert at et gjennomsnitt på 5-10% av alle ondartede sykdommer er forårsaket av høy penetrans predisposisjon gener [1] – [3]. For eksempel er det 10 høye penetrans gener, inkludert
BRCA1 /2
og
PTEN
, sto for ~ 10% av alle brystkrefttilfeller [3]. Mens aerodigestive veis kreft antas å være en sjelden del av neoplastiske spekteret av
BRCA2
, ingen andre høy pene lunge-kreft-predisposisjon genet har blitt identifisert, og inntil nylig har lungekreft blitt tilskrevet nesten helt til miljøeksponering, hovedsakelig tobakk. I de siste årene har det imidlertid blitt klart at en større, men variabel, andel av alle maligniteter har en genomisk bestanddel, overdragelse svakere predisposisjon (lav penetrans). Eg, et genom-wide forening studie (GWAS) viste spesifikke single nucleotide polymorphims (SNPs) forbundet med risiko for AC i røykere og aldri-røykere [4]. Hittil har NSCLC, spesielt AC-forbundet genom-loci blitt identifisert i 15q25, 5p15, og 6p21 [5] – [10]. Analyse av effekten av røyking på lungekreft risiko viste at røyking ikke helt forklare risikoen for å utvikle lungekreft og at rest genomiske-faktorer i samspill med røyking er sannsynlig [4]. Genomiske varianter, slik som den tilhørende SNP’er, kan ikke fullt ut forklare den heterogeniteten i forbindelse med de histologiske subtypene enten [11], [12]. Bevisene hittil tyder på behovet for å finne andre typer genomisk variasjon som kan forklare den relativt store gjenværende risiko forbundet med lungekarsinom.
I husdyrhold og dyremodell eksperimentering, in-avl som resulterer i økende homozygot loci er vel anerkjent for å gi økt forekomst av forskjellige forstyrrelser, inkludert økt tumor forekomsten [13]. Hos mennesker kimcellelinje homozygosity som genomisk faktor assosiert med sykdomsrisiko er en relativt ny konsept. Eg, germline homozygositet, en type genomisk variasjon, har vist seg å være forbundet med en økt risiko for human cervical cancer. Identifisering av homozygot loci som risikofaktorer kan bidra til målet økt livmorhalsscreening for høy risiko kvinner [14] – [18]. Relatedly, en relativt fersk undersøkelse avdekket en betydelig høyere frekvens av germline homozygosity i en rekke urelaterte hvite personer med invasiv brystcarsinomer, prostata karsinom og hode nakke plateepitelkreft caricinomas av genom-wide mikro genotyping [19]. Denne foreningen ble validert i en studie av AC saker og matchet-kontroller som ble genotypet med tettere SNP-baserte arrays (Illumina HumanHap550v3_B array), og dermed bidrar til et høyt sannsynligheten for å identifisere homozygot genotyper som er forbundet med et bredt utvalg av vanlige solide svulster [ ,,,0],19]. Denne studien observert at homozygosity fra begge microsatallite- og SNP-baserte analyser viste spesifikke, felles loci av homozygosity for alle de tre krefttyper studert. I tillegg var det også meget homozygote loci som er spesifikke for hver av tumortyper. Uavhengig, Bacolod og kolleger [20] fant at lange områder med homozygosity (TOH), operasjonelt definert som spenner minst 4 Mb, var overrepresentert i pasienter med kolorektal kreft enn kontroller.
Her har vi en hypotese om at kimcellelinje regional-homozygosity involverer spesifikke kromosom loci er en roman genomisk faktor som bidrar til lav- til moderat pene predisposisjon for (eller beskyttelse fra) lungekreft. I stedet for å identifisere enkeltgener, tar vår hypotese hensyn undergrupper av gener innenfor disse områdene, som er forskjellig uttrykt å låne kompleks predisposisjon for lungekreft. Vi søkte å løse denne hypotesen ved systematisk å integrere data fra ulikt representert TOH regioner med genom-wide uttrykk data til å lokalisere regional lungekreft predisposisjon loci.
Metoder
Kjøp av Genotype data fra dbGAP
genotyper ble hentet fra prostata, lunge, Colorectal og eggstokkreft screening studie (PLCO) hvor lunge kohorten ble prospektivt undersøkt med røntgenundersøkelse [21]. Temaer var alle selv identifisert som hvit, og omfatter avstamning-matchet saker og kontroller [21] basert på prinsippet-komponent analyser med både SNPs opphevet til lungekreft og deres opphav informert SNP-tallet, som beskrevet av Patterson et al [22]. Konsekvent, den CEPH (Centre d’Etude du Polymorphisme Humain) fra Utah (CEU) HapMap styrer klynge med denne populasjonen, re-bekrefter nordlige og vestlige europeisk opprinnelse [23].
Vi fulgte standard kvalitetskontroll ( QC) prosedyre anvendt i den opprinnelige studien [4]. Prøvene ble undersøkt og bare velges hvis de hadde minst 95% vellykket genotype takst. SNPs med mindre allelfrekvensene (MAF) og mindre enn 5%, avganger fra Hardy-Weinberg likevekt (på p 0,01) og ≥5% missingness per SNP, ble ekskludert fra videre analyser. Etter QC filtrering, hadde vi 1618 personer (788 tilfeller og 830 opphav matchet kontroller) med midlere alderskategorier av 1,63 (5 kategorier definert i tabell S1), bestående av 967 menn og 651 kvinner, inkludert 156 røykere, 703 tidligere røykere og 759 nåværende røykere (Tabell S1); og en gjennomsnittlig 526 826 (514 355 autosomal) SNPs (93,8%) /emne. Tabell S1 viser foreningen analyse basert på en logistisk modell med alder, kjønn og røykestatus (aldri røkt, tidligere røykere og nåværende røyking) som kovariater etter eksklusive potensielle genetiske effekter. Det er viktig å merke seg at andelen som røyker var omtrent halvparten av hastigheten av aktive røykere i USA generelle befolkningen. Det ble bemerket at compliance var lavest i de nåværende røykere, mens de tidligere røykere var den mest kompatible.
kvantifisere Traktater av homozygosity og sammenligne Frekvenser i krefttilfeller og kontroller
Identifisere områder med homozygosity ( TOH) og felles TOH (cTOH) region.
Vi har utvidet modulen av kjøringer av homozygoti i GoldenHelix programvare [24] for å identifisere TOHs [en in-house programvare (Zhang et al, upublisert)]. Deretter ble data fra alle fag undersøkt for å finne ut om et minimum antall personer deler et TOH samtale på en gitt posisjon. Å identifisere statistiske forskjeller mellom TOHs innenfor en case-control design, vi bare beholdt de TOHs der 10 eller flere fag dele 100 identiske homozygot samtaler, som vi driftsmessig definerer som en vanlig TOH (cTOH). Det er 333,861 SNPs med 10 eller flere TOH samtaler over hele serien, som representerer 65% av den opprinnelige pool av SNPs.
Påvisning av cTOHs assosiert med lungekreft.
Vi deretter forfulgt testing for Sammenhengen mellom cTOH og lunge-kreft tilfeller. Ved å vurdere hver cTOH som et genomisk variant, ble en genom-wide case-control analyse utført for hver cTOH, hvor en cTOH ble sett på som en binærvariabel basert på tilstedeværelse eller fravær av en cTOH. Bruke hver TOH (som inneholder flere SNPs som er i koblingsulikevekt) som en variabel vil betraktelig redusere antall tester som skal utføres og øke kraften i foreningen analyse. De tradisjonelle enkelt SNP-assosiasjonsstudier krever minst 610 000 (opp til 3 millioner hvis flere SNPs brukes) tester om en tradisjonell GWAS ble gjort. En logistisk modell ble montert for hver cTOH ved å vurdere sykdomsstatus som utfall og cTOH som prediktor. Andre kovariater i modellen var alder, kjønn og røykestatus. P-verdier ble oppnådd ved Wald tester og OR (95% KI) ble beregnet gjennom koeffisientestimatet på den montert logistiske modellen. For å oppdage interaksjoner mellom cTOH og røykestatus, og cTOH og alder, ble en logistisk modell med to ekstra interaksjons vilkår utstyrt for hver cTOH. P-verdien av interaksjon ble oppnådd ved F-test. For å minimere sjansene for falske positive funn, er cTOHs vurdert som statistisk signifikant dersom p 0,01 [24]. Videre ble det q-verdi tilnærming [25], som er basert på konseptet av den falske funnrate, brukt som en utforskende guide for hvilke varianter som kalles kan undersøkes videre.
Gransker allelically-matchet grupperinger innenfor et cTOH (aTOH).
som nevnt ovenfor, et cTOH er operasjonelt definert ved et minimum antall loci som er homozygote og minimum antall fag som deler cTOH, men ikke kvalitativ matching av nukleotider. Innenfor cTOH, ble TOH segmenter deretter sammenlignet parvis og en allel kamp erklæres dersom minst 0,95 av felles ikke-mangler, fellesskap homozygot nettsteder er identiske. Disse allel matchende grupper på TOHs innenfor en cTOH kalles «allelic’TOH (aTOH). Karakterisering og skanning av disse aTOHs ble utført ved hjelp av vår tilpasset programvare
CAG-TOH plakater (upublisert programvare), lik den allel-matching prosedyre plink [26].
Påvisning av aTOHs forbundet med lunge krefttilfeller.
aTOH som genomisk varianten ble deretter brukt for foreningen analyse innenfor en case-control rammeverk. For å beholde kraften i statistisk analyse, vi bare fokusert på aTOHs som er til stede i minst 5 tilfeller og 5 kontroller. For hver aTOH søkte vi en logistisk modell med sykdomsstatus som utfallet og aTOH som en prediktor med alder, kjønn og røykestatus som kovariater. I likhet med cTOH ovenfor, aTOHs med p 0,01 ved Wald-test er erklært signifikant assosiert med lungekreft. Vi søkte også q-verdi tilnærming [25].
Integrering genetisk informasjon fra Betydelig c /aTOH Regioner med offentlig tilgjengelig Expression Array Datasett
Data ble hentet fra en offentlig tilgjengelig [27] genet ekspresjon datasett av 107 friske frosne vevsprøver av AC (58 svulst og 49 ikke-tumorvev fra 20 aldri-røykere og 26 tidligere røykere og 28 nåværende røykere) som lastes ned fra Gene Expression Omnibus (GSE10072), fra miljø og genetikk i lungekreft Etiologi (EAGLE) studie (https://dceg.cancer.gov/eagle). Kriteriene som brukes for å velge denne spesielle rekke datasettet gir ikke bare minimal skjevhet, men fysiologisk relevante data. Vi fulgte universell standard som bestemte utvalgskriterier og QC-er er på plass før du bruker offentlig tilgjengelige datasett (f.eks uttrykk array) for plattformintegreringsformål. Derfor er sikret vi at lungekreft i uttrykket array-datasett som hører til pasienter som er i likhet med de pasienter som ble genotypet og utsatt for TOH analyse. For eksempel pasienter som benyttes i både ekspresjon matrise og TOH analyse representerer to forskjellige undergrupper av en mye større studiekohorten. Dette i seg selv er en stor styrke av cross platform integrasjonsprosessen fordi pasientene i de to datasettene ble utsatt for de samme inkludering /utvelgelseskriterier; disse personene har vært utsatt for lignende miljø eller behandlingsforhold; viktigst, forfedrenes bakgrunn av de «uttrykk rekke datasett» pasienter var lik de som ble genotypet for TOH analyse; og pasientene er av de samme aldersgruppene, dvs. 55-60 år. Etter QC, normalisert vi uttrykket profiler av prøvene ved hjelp av Robust multichip Average (RMA) -metoden, ligner på hvordan de samme uttrykk array-data ble opprinnelig behandlet [28]. Den rå sonder er tilordnet til de tilsvarende gener, og flere prober som tilsvarer det samme gen ble beregnet. De betydelige cTOH regionene ble først forlenget 250 kb i hver retning, og gener innenfor disse områdene ble identifisert (259 gener). Antallet av gener som inngår i den region øker lineært som de flankerende regionene er utvidet, men er også avhengig av regionen som blir avlest (dvs. hvis et gen rik eller fattig gen region). Hvis det returneres 1000 gener (som vi ikke observerer i våre analyser her), ville vi ha bare brukt LD å fange blokk med cTOH eller aTOH. De microarray uttrykk profiler av 153 av de 259 cTOH-gener ble funnet på uttrykket array. Deretter vi evaluert på en
a priori
basis forskjeller i uttrykk profiler av disse 153 genene benytter enkelte univariat logistisk regresjon med Bonferroni korreksjon søkt om beregninger av statistisk signifikans (data ikke vist). Expression profiler av de viktigste genene fra univariat analyse (p 0,01) og innenfor +/- 250 kb regionen c /aTOH regionen ble utsatt for unsupervised hierarkisk clustering [29] med Matlab®
Prioritering av kandidat. gener
etter å integrere betydelige c /aTOH regioner med uttrykket rekke datasettet, vi fast bestemt på risikoen forbundet med differensial uttrykket av gener med c /aTOHs stratifisert etter røykestatus. Gener som viste differensial uttrykk profiler signifikant ved p 0,0001 i evig og aldri fritt lag ble deretter utsatt for en tekst mining tilnærming for å hjelpe filter fra relevant informasjon generert fra genomisk, transcriptomic, og proteomikk undersøkelser som er tilgjengelige i PubMed litteraturdatabase. Derfor ble denne informasjonen brukes til å identifisere forholdet nettverk mellom gener, deres karakterutskrifter, sine proteiner og andre lungekreft relevant biologiske prosesser eller veier [30] -. [32]
Resultater
identifisering av spesifikke Vanlige Traktater av homozygosity (cTOH) hos personer med lungekreft i PLCO Cohort
for å ta vår sentrale hypotese om at bestemte kimcellelinje TOH er enten over- eller underrepresentert i lunge-kreft tilfeller over ancestry- matchede kontroller, vi først screenet for TOH regioner i PLCO-datasettet (skjema i figur 1). Vi fant totalt 91,460 TOHs tvers av alle prøvene med 44,725 TOHs i saker og 46,735 TOHs i kontroller. Gjennomsnittlig lengde på TOHs var 886 kb (median = 677,4 KB, 1
st kvartil = 484.8 kb, 3
rd kvartil = 956,3 kb) og gjennomsnittlig antall SNPs innenfor hver TOH 141,4 (median 121, 1
st quartile108, 3
rd kvartil = 145). I alt 890 slike cTOHs ble identifisert over genomet, som varierer i størrelse 141,6 til 3421 kb (gjennomsnitt = 2144 kb, SD = 3115.6 kb, median = 1064 kb, en
st kvartil 623.9 kb, 3
rd kvartil 2144 kb) og SNP-telling på 100-413 (gjennomsnitt = 375, SD = 418, median = 215).
skjemaet representerer rammeverket brukes til å identifisere og deretter integrere betydelige cTOHs og aTOHs (fra PLCO kreft screening rettssaken lunge) med globale transkriptom datasett sammenligne lunge kreft normale lunger (fra kreft screening rettssaken EAGLE lunge). Flere differensielt uttrykte gener innenfor cTOHs og aTOHs hadde sitt kandidatur prioritert i utgangspunktet basert på statistisk signifikans fulgt av biologisk plausibilitet (f.eks relevante musemodeller, rapportert å være somatisk endret i sporadiske lungekrefttilfellene, relevante signalveier, etc) for å endelig få 9 » mest sannsynlige «kandidat gener og en kandidat genomisk region. Sistnevnte er utpekt fordi det ble utledet uavhengig (ved denne studien) og senere funnet å overlappe med regionen tidligere identifisert i 3 tidligere studier som i forbindelse med risikoen for lungekreft.
Ved å vurdere hver cTOH som en genomisk variant, utførte vi en case-control analyse justert for effekten av alder, kjønn og røykestatus. Syv cTOH regioner ble funnet å være signifikant forskjellig representert mellom LC saker og reguleringsmetode basert på p 0,01 (tabell 1, figur 2 A og tabell S2) [38 cTOH regioner ble funnet på p 0,05 (data ikke vist)]. Tre cTOH regioner, cTOH2, 4 og 7 (innen 1p12, 3p24.2-3p24.1 og 9p22.3, henholdsvis), har odds ratio (OR) = 1,75 til 2,06 (p = 0,007 til 0,001), som viser overrepresentasjon av disse 3 cTOHs i lunge-kreft-tilfeller enn kontrollene (Tabell 1 Tabell S2, og figurene 3C og 3D). De resterende fire cTOH regioner, cTOH1, 3, 5 og 6 (1p13.2, 2p16.3-2p16.1, 5p15.31 og 6p22.3-22.2) har OR = 0,28 til 0,69 (p = 0,006 til 0,001), viser at disse cTOH tallet var underrepresentert i saker sammenlignet med kontroller (Tabell 1, Tabell S2, og figurene 3A og 3B).
Enkelt SNP forening analyse ble utført uavhengig av TOH analyse og sammenlignet. De betydelige sammenslutninger av enkelt SNPs, og hver TOH med lungekreft tilfellene versus kontroller, og deres respektive 95% KI (fargede stiplede linjer), vises. Under hver av de nedre paneler er kandidat genet navn (flerfarget) som ble prioriterte etter testing for assosiasjon mellom lungekreft og differensial ekspresjon av hver av de gener innenfor og +/- 250 kb av TOH, stratifisert ved røykestatus (p 0,0001, se metodedelen). A. cTOH3 /aTOH1 region (2 p16.3-16.1; brun linje) betydelig underrepresentert i lunge krefttilfeller og GWAS-identifiserte SNPs (lilla prikker) i samme region (øverste panel) med sine respektive tilhørende risiko som odds ratio (nedre panel). B. aTOH4 (7q21.11, brun linje) betydelig underrepresentert i lunge krefttilfeller og GWAS-identifiserte SNPs (lilla prikker) i regionen (øverste panel) med deres tilsvarende lunge-kreft risiko som odds ratio (OR; nedre panel ).
De betydelige lungekreft forbundet enkelt SNPs, og TOH er nemlig cTOH1, cTOH2, cTOH5, og cTOH7, og deres respektive 95% KI vises. Den betydelige lungekreft sammenslutning av aTOHs og SNPs i regionen (topplaten) og tilhørende risiko som odds ratio (nedre panel) er vist i paneler A-D. Under de nedre panelene er kandidat gener som ble prioritert etter testing for sammenheng mellom lungekreft og differensial uttrykk for hver av genene i hvert betydelig TOH +/- 250 kb TOH, stratifisert etter røykestatus (på p 0,0001, se metodedelen) .
Det er interessant samspill mellom røykestatus og cTOH3 (rs733726 rs4672095 [2p16.3-2p16.1], Tabell 1) ble observert (p 0,03, tabell S3). Mens alders-, sex-og røyking-status justert OR for cTOH 3 er 0,69 (tabell 1, figur 2 A), er cTOH3 to ganger (OR = 1,8) overrepresentert på røykfrie tilfeller over røykfrie kontroller , mens cTOH3 er betydelig underrepresentert i stadig røyking tilfeller over stadig røyking kontroller [OR 0,78 (tidligere røykere) og 0,34 (nåværende røykere), henholdsvis p = 0,009 til 0,026] (tabell S3 B).
Identifisering av Allelically-Matchende grupper (aTOH) innen cTOHs i Lung-kreft-tilfeller og kontroller
de aTOHs kan gi genetisk bakgrunn eller herkomst relatert informasjon, derav en biologisk meningsfylt sammenheng med lungekreft fenotype. Antallet aTOHs i hvert cTOH varierer fra 1 til 111. Vi har utført en uavhengig (av cTOHs identifisert) case-control analyse etterfulgt av justering for effekten av alder, kjønn og røykestatus på lungekreft fenotype. På denne måten har vi identifisert 5 aTOHs (innen 2p16.3-2p16.1, 3p25.3, 5q11.2-12.1, 7q21.11 og 13q31.1-31.3) som er vesentlig forskjellig representert mellom saker og kontroller (basert på p 0,01; tabell 2). Spesielt, bare aTOH1 med OR på 0,5 (tabell 2), ble avledet fra foreldre cTOH3 (2p16.3-16.1) hvor både cTOH3 og aTOH1 er betydelig underrepresentert i lunge-kreft tilfeller sammenlignet med kontroller (OR = 0,69 og 0,5, p = 0,001 og 0,005, respektivt, figur 2, tabellene 1 og 2). De gjenværende aTOH regioner, aTOH2, 3, 4 og 5 (innen 3p25.3, 5q11.2-12.1, 7q21.11 og 13q31.1-31.3, henholdsvis) har OR = 3,97, 0,23, 2,95 og 0,39, henholdsvis (p = 0,001 til 0,008;. Tabell 2)
funksjonell genomikk Validering av Integrering av Betydelig cTOH og aTOH Regioner med globale transkriptomet datasett
neste vendt vår oppmerksomhet for å se etter biologisk plausible gener , dvs. en eller et delsett av alle gener, som ligger innenfor og i nærhet (+/- 250 kb) til betydelige c /aTOH og som kan være relevante for lungekreft. Å fine kartlegge TOHs inneholder lunge-kreft-relaterte gener og funksjonelt validere våre genomiske data, integrerte vi våre betydelige TOH regioner med genuttrykk data fra lungekreftpasienter i EAGLE studie [27] (figur 1). Dette datasettet ble avledet fra en populasjon av europeisk herkomst (seleksjonskriterier som er beskrevet i metodedelen) og fungerte også som vår funksjonell validering serien. Vi var i stand til å filtrere ut gener innenfor de betydelige c /aTOH regioner til 46 gener basert på dette uttrykket i univariat analyse alene (figur 1 og 4). Med ytterligere risikoanalyser og integrasjon med kjent organspesifikk funksjon og signalveien roller, vi endte opp med en endelig shortlist av 9 mest plausible lunge kreft-risiko gener og en kandidat genomisk region (p 0,0001, tabell 3 og figur 1; se diskusjon).
Bi-gruppering av relativ genekspresjon (horisontal) klassifisert etter «LC (tumor) + røykestatus» og «normaler + røykestatus» (vertikal). Oppkjøpet, re-standardisering og sammenslåing av uttrykk array-data med TOH regioner er beskrevet i metodedelen. Red farge på kartet varmen er relative over-uttrykk av genene, betegner blå slektning under-uttrykk og hvit ingen tydelig relativ expressional forskjell observert. Varmen kartet representerer de differensial uttrykk profiler av 47 gener som ble valgt etter univariat analyse (se Metoder seksjon for detaljer). Uttrykket profiler av gener som er bosatt i og i nærhet til c /aTOH regioner som er forbundet med bruk av tobakk skille lungekarsinom fra normal lungevevet.
Vi spesielt undersøkt sammenslutning av TOHs husing disse 9 gener og røykestatus. Relatedly, de 9 differensielt uttrykte gener innenfor 6 cTOH /aTOH er germane i noensinne-røykere sammenlignet med tre som er germane i både gang- og aldri-røykere [(p 0,0001), Tabell 3]. Et viktig unntak er
SBTBN1 Hotell og
RTN4
innen cTOH3 /aTOH1 (2p16.3-16.1), hvor over-uttrykk forekommer nesten utelukkende i kontroller i forhold til lunge-krefttilfeller, uavhengig av røyking status (OR = 0,000 og 0,08, s 0,0001; tabell 3, figurene 2A og 4).
ACYP2 plakater (OR = 0,08, p 0,0001), også innenfor denne TOH er under uttrykt i ever-røykere assosiert med redusert lungekreft-risiko, men dette uttrykket er ikke germane hos ikke-røykere (tabell 3, figur 2A og 4). Total, unike differensiell ekspresjon signaturer ble observert for genet grupper innen et /cTOHs som vist i tabell 3 og figur 4. Analyse av uttrykk profiler av gener i andre aTOHs, f.eks,
CD36
i aTOH4 (7q21.11) , viste under-ekspresjon i tilfeller blant ever-røykere (p 0,0001; tabell 3 og figur 2B).
Expression profiler av gener som befinner seg i andre betydelige cTOHs, cTOH1, 2, 5 og 7 (1 p13 0,2, 1p12, 5p15.31 og 9p22.3, henholdsvis tabell 1) ble analysert.
OLFML3 plakater (1p12, figur 3A), ble under uttrykt i stadig røyking tilfeller sammenlignet med aldri-røykere tilfeller i samsvar med en redusert risiko som spilles av eller er 1 (tabell 3 og figur 4). I motsetning
WDR3 plakater (på 1p12, figur 3B) viste signifikant relativ over uttrykk uavhengig av røykestatus, i samsvar med TOH relevante OR 1 (tabell 3 og figur 4).
FASTKD3 plakater (på 5p15.31 Figur 3C) viste signifikant relativ over-uttrykk i stadig røyking lunge-kreft tilfeller sammenlignet med aldri-røykere tilfeller, i samsvar med den TOH relevante OR 1 (tabell 3 og figur 4).
PSIP1 plakater (på 9p22.3 Figur 3D) var betydelig under uttrykt i begge noensinne-og aldri-røykere tilfeller, OR 1 (tabell 3 og figur 4). Generelt ble det observert unike og lignende uttrykks signaturer for spesifikke gen-sett (tabell 3, figur 4). For eksempel, observerte vi netto under-uttrykket av et gen ligger innenfor den cTOH3 i lunge krefttilfeller som er røykere (OR 1) [Tabell 3, Figur 4]
Diskusjoner
Identifisere. risikofaktorer, enten genetisk eller miljømessig, for maligniteter, inkludert lungekreft, er en start for tidlig diagnose, og skreddersy økt overvåking og forebygging. Den vanligste varianten-vanligste kreftformen hypotese utbredt i det siste tiåret har ført til GWAS givende vanlige SNPs innen 15q25, 5p15, og 6p21 assosiert med lungekreft [5] – [10], sto for ~3% av alle lungekrefttilfellene. Basert på den hypotese at andre genomiske faktorer som disponerer for eller redusere risikoen for kreft lunge må eksistere, utførte vi et genom-wide case-control-analyse for lange TOHs, som hver huser en til flere lunge-kreft-predisponerende eller beskyttende loci (mest sannsynlig med lav til moderat pene). Vi identifiserte 7 cTOHs og 5 aTOHs som er betydelig over- eller underrepresentert i lungekreft tilfellene versus kontroller, etter justering for alder, kjønn og røykestatus. Interessant, fant vi bestemte cTOH /aTOHs forbundet med tilfeller over kontroller uavhengig av disse kovariater, med andre avhengig av røykestatus.
Viktigere våre identifiserte vesentlige cTOH og aTOH regioner har blitt funksjonelt validert ved å integrere differensial uttrykk for spesifikke gener som bor i disse kritiske intervaller, tidligere vist seg å spille minst en somatisk rolle i sporadiske menneskelige lungekarsinom, i murine modeller og /eller delta i neoplasi-assosiert signalveier (tabell S4). Vi tror at agnostically søker etter cTOH og aTOH og deretter integrere med ekspresjons-data er effektive metoder for å finne, og samtidig funksjonelt genomisk validering, nye lungecancer-risiko regioner og gener. Tre foregående lungekreft GWAS studier har identifisert den 5p15 regionen for å være assosiert med lungekreft tilfellene [4] – [10]. cTOH5 ligger innenfor 5p15.31 (vår «kandidat genomisk region» etter integrerende analyse) og er 11-ganger overrepresentert i stadig røyking lunge krefttilfeller og 3 ganger i aldri-røykere lungekrefttilfeller. Dette fungerer som en sterk positiv kontroll. Vi har også identifisert en ny kandidat genet
FASTKD3
, utover de tidligere postulert, ved integrasjon av uttrykk med betydelig TOH i denne regionen (tabell S4).
Vi fant kun én TOH region hvor en betydelig aTOH ligger innenfor den overordnede cTOH: aTOH 1 (2p16.3-16.1) og moder cTOH3, hvis tilstedeværelse ser ut til å gi en beskyttende effekt mot lungekreft i stadig røyking tilfeller (OR 0,7, dvs. overrepresentert i kontroller versus tilfeller, tabellene 1 og 2). Differensial ekspresjon av en gruppe av gener i dette området ser ut til å være like beskyttende mot lungekreft uavhengig av røykestatus eller tidligere (tabell 3, figur 4). Eg,
SPTBN1
koder for en beta-spectrim som spiller en rolle i å redusere celleoverflaten rekruttering av CD45 og CD3, og oppheve T-cellefunksjon [33]. Følgelig økt
SPTBN1
uttrykk (og overrepresentasjon av aTOH1 /cTOH3 i kontroller over tilfeller) kunne plausibly beskytter mot lungekreft ved å øke immunovervåkning, gitt at vi vet at røyking undertrykker CD4 /CD8 T-celle-forhold [34]. Mens det er sannsynlig eksisterende bevis på at under-uttrykket av gener innenfor cTOH3 /aTOH1 (Tabell 3, tabell S4, figur 4) ville være beskyttende gjennom ulike mekanismer [35], vi vet ikke hva uoppdaget mekanismer føre til ytterligere reduksjon av røyking- assosiert lunge-kreftrisiko. I motsetning til de andre gener i aTOH1 /cTOH3,
MTIF2
overekspresjon er assosiert med sin TOH differensielt assosiert med saker og kontroller.