PLoS ONE: Målrettet Re-sekvense Identifiserte rs3106189 ved 5 «UTR av TAPBP og rs1052918 på 3» UTR av TCF3 å bli assosiert med Total overlevelse av pasienter med kolorektal kreft

Abstract

Nyere studier har vist effekt av dyp re-sekvensering av hele genomet eller exome forstå kreft genomer. Men målrettet fangst av utvalgte genomisk hele gene-kroppen regioner, snarere enn hele exome, har flere fordeler: 1) genene kan velges basert på biologi eller en hypotese; 2) mutasjoner i promoter og intronic regioner, som har viktige regulatoriske roller, kan bli undersøkt; og 3) mindre kostbart enn hele genomet eller hel exome sekvensering. Derfor har vi laget skredder høy tetthet oligonukleotid mikromatriser (NimbleGen Inc.) for å fange opp ca. 1,7 Mb satsingsområdene som omfatter de genomiske regioner i 28 gener relatert til tykktarmskreft inkludert gener som hører til WNT signalveien, samt viktige transkripsjonsfaktorer eller tykktarm -spesifikke gener som er over uttrykt i tykk- og endetarmskreft (CRC). De 1,7 Mb målrettede regioner ble sekvensert med en dekning varierte fra 32 × 45 × for de 28 genene. Vi identifiserte totalt 2342 sekvens variasjoner i CRC og tilsvarende tilstøtende normalt vev. Blant dem, 738 var nye sekvensvariasjoner basert på sammenligninger med SNP database (dbSNP135). Vi validert 56 av 66 SNPs i en egen kohort av 30 CRC vev ved hjelp Sequenom MassARRAY iPLEX Platform, noe som tyder på en validering hastighet på minst 85% (56/66). Vi fant 15 missense mutasjoner blant exonic varianter, til 21 synonymt SNPs som ble spådd endre exonic spleise motivene, 31 UTR SNPs som ble spådd til å skje på transkripsjonsfaktor bindingsseter, 20 intronic SNPs ligger nær de spleise nettsteder, 43 SNPs i konservert transkripsjonsfaktor bindingsseter og 32 i CpG øyer. Til slutt fant vi ut at rs3106189, lokalisert til 5 «UTR av antigenpresenterende tapasin bindende protein (TAPBP), og rs1052918, lokalisert til 3» UTR av transkripsjonsfaktor 3 (TCF3), var assosiert med total overlevelse av CRC pasienter.

Citation: Shao J, Lou X, Wang J, Zhang J, Chen C, Hua D, et al. (2013) Målrettet Re-sekvense Identifiserte rs3106189 ved 5 «UTR av TAPBP og rs1052918 på 3» UTR av TCF3 å bli assosiert med Total overlevelse av pasienter med kolorektal kreft. PLoS ONE åtte (8): e70307. doi: 10,1371 /journal.pone.0070307

Redaktør: Hiromu Suzuki, Sapporo Medical University, Japan

mottatt: 14 mars 2013; Godkjent: 19 juni 2013; Publisert: 05.08.2013

Copyright: © 2013 Shao et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien ble støttet med tilskudd fra departementet for vitenskap og teknologi, Kina (2006DFA32950, ​​2006AA02A303, 2012AA02A204,2011ZX09307-001-05) og et stipend fra National Science Foundation, Kina (81072060 /H1618). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

med 639.000 dødsfall per år på verdensbasis, er den tredje vanligste formen for kreft og andre ledende årsak til kreft dødsfall i den vestlige verden (WHO, februar 2009, http tykktarmskreft: //www.who .int /mediacentre /faktaark /fs297 /no /) og i Kina [1], [2]. Til dags dato har mottakelighet for tykktarmskreft vært preget av identifisering av sjeldne arvelige mutasjoner i et lite antall etablerte gener som mutasjoner av

APC

genet, et gen først identifisert som den familiær adenomatøs polypose (FAP) locus gene [3] som bidrar til kolorektal tumorgenese [1], [4]. SNPs (enkeltnukleotidpolymorfi) er den hyppigste typen variasjon i det menneskelige genom, som forekommer en gang hvert flere hundre basepar hele genomet [5].

Nyere studier har vist den potensielle kraften av dyp re-sekvensering av kandidat gener i menneskepopulasjoner for å oppdage sjeldne varianter og hjelp i forståelsen av komplekse menneskelige trekk [6]. Tradisjonelt har kreft genom re-sekvensering utført ved hjelp av ekson amplifisering og konvensjonell Sanger-sekvensering [7] – [9]. Mer nylig har hele genomet eller hele exome (ved exome fange) blitt brukt på grunn av teknologiske fremskritt og reduserte kostnader i neste generasjons sekvensering [10] – [12]. For eksempel, Bass

et al.

Brukt hele genomsekvense å sekvensere svulstene av 9 CRC pasienter og identifisert 11 i-frame genet fusjonsbegivenheter inkludert fusjon av VTI1A og TCF7L2, som ble funnet i tre av 97 kolorektal -kreft [13]. Kreft Genome Atlas nettverket nylig utført exome fangst DNA-sekvensering av kolorektal kreft og identifiserte ofte muterte gener inkludert APC, TP53, KRAS, PIK3CA, FBXW7, SMAD4, TCF7L2, NRAS, ARID1A, SOX9 og FAM123B (WTX) gener [14].

Videre, i stedet for å fange hele exome, målrettet fangst av utvalgte gener av interesse vil redusere kostnadene og potensielt flytte NGS i klinisk praksis. For eksempel, Pritchard

et al.

Utviklet Coloseq, der utvalgte regioner i 1,1 Mb av DNA inkludert 209 kb i

MLH1

,

MSH2

,

MSH6

,

PMS2

,

EpCAM

,

APC

, og

MUTYH

var målrettet, fanget og utsatt for NGS [15]. Forfatterne var i stand til å identifisere 28/28 (100%) sykdomsfremkallende mutasjoner i MLH1, MSH2, MSH6, PMS2, EpCAM, APC, og MUTYH [15].

Vi var interessert i målrettet fangst av genomiske regioner inkludert arrangører og intronic regioner av gener knyttet til en sti eller et nettverk av gener med visse egenskaper for å forstå kreft biologi. Det er flere fordeler med denne tilnærmingen: 1) genene kan velges basert på biologi eller en hypotese; 2) mutasjoner i promoter og intronic regioner, som nylig har blitt foreslått å ha viktige regulatoriske roller, kan bli undersøkt; og 3) den teknikk som er mindre kostbart enn hele genomet eller hel exome sekvensering. Derfor har vi laget skredder høy tetthet oligonukleotid mikromatriser (NimbleGen Inc.) for å fange opp totalt ca 1,7 Mb satsingsområdene som omfatter de genomiske regioner i 28 gener relatert til kolorektal kreft, inkludert exonic, intronic, 10 kb oppstrøms og 5 kb nedstrøms sekvenser etterfulgt av analyse ved hjelp av Illumina Genome Analyzer. De utvalgte gener inkluderer de som tilhører Wnt signalveien, samt viktige transkripsjonsfaktorer eller kolon-spesifikke gener som er over uttrykt i barnekonvensjonen.

Resultater

Målrettet Re-sekvensering av genomisk Regioner inkludert arrangører av nøkkelen wNT pathway og andre CRC-relaterte gener

Som wnt signalveien er en kritisk sti innblandet i CRC [16], valgte vi to wnt pathway gener (http: //www.genome. jp /kegg /sti /HSA /hsa04310.html) for å starte etterforskningen. I tillegg valgte vi 22 viktig transkripsjonsfaktorer (transkripsjonsregulator aktivitet GO: 0030528) og fire kolon spesifikk eller beriket gener [17] som er over uttrykt i kreft basert på data generert i laboratoriet samt data som er tilgjengelig i den offentlige sfæren (f.eks GSE8671, GSE15960, GSE24551, GSE41258 fra GEO database). Den endelige listen over de utvalgte 28 gener er vist i tabell 1 med merknader.

For å redusere kostnader, må vi først sekvensert en pool av 30 CRC vev (CRC basseng) og et basseng på 30 tilstøtende normalt vev (CRN basseng) og deretter validert SNPs identifisert ved hjelp av PCR eller Sequenom teknologier. Vi skapte en tilpasset oligo array ved hjelp NimbleGen teknologi for å fange målet sekvenser. Den totale lengden av puls genomiske regioner utformet var 1,7 MBP. Den fanget DNA ble utsatt for sekvensering ved hjelp av Illumina Genome Analyzer. Etter å ha fjernet PCR duplikater fra rå-sekvensene, den gjennomsnittlige dekningen varierte fra 32x 45x, og dekningen ved sekvenslengde for de målrettede regionene i hvert gen varierte 83,5 til 100%. Dekningen for de ulike regioner av målgener avvek, som kan være på grunn av eiendommen av NimbleGen sekvens fangstteknologi, sekvens kompleksitet eller andre uncharacterized faktorer. Rå sekvense data ble avsatt i NCBI sekvens lese arkivet (SRA) under tiltredelse antall SRX277359.

Vi ordnet de dekning av alle 28 gener ved å sammenligne til regioner som omfattes av tilpassede prober eller til de totale målrettede regioner inkludert promotere og 3 «distale regionene (tabell 1) for å beregne fange effektiviteten av NimbleGen tilnærming. Målt ved målrettede regioner, median dekning var 98,1 og 99,5% for henholdsvis CRC og CRN vev, og som strekker seg 83,5 til 100% (tabell 1). I NinbleGen sonden design, ble sondene ikke utformet som overlappende oligonukleotider for å dekke de fullstendige områder, men snarere som prober som i avstand mellom mål-regioner med spesifikke egenskaper som er optimalisert for å fange DNA. Dekningen beregnet ved regionene som omfattes av de utformede sondene alle overstige 100% (tabell 1), noe som tyder på at oppfangingsprober fanges tilstøtende sekvenser i tillegg til deres komplementære sekvenser, noe som resulterte i at de sekvenserte områdene faktisk utvidet utover de områder som var dekket av sondene.

GC innholdet ble beregnet for hver posisjon av referansesekvenser sentrert i en 81-bp vindu for å undersøke om dekning ble påvirket av GC innholdet av de fangede regioner. Dekningen for hver posisjon ble regnet etter fjerne dupliserte sekvenser. Tilstrekkelig dekning av 40X ble oppnådd for regioner med en GC innhold mellom ca 15-75% (figur 1A, 1B). Vi neste undersøkt hvorvidt forskjellen i deknings påvirket påvisning frekvensen av sekvensvariasjoner. Vi beregnet at Spearman korrelasjon for SNP telle og tilsvarende dekning ved hjelp R (www.r-project.org). Her ble dekning regnet etter fjerning sekvens duplikater. Korrelasjonskoeffisientene var -0,51 og -0,38 for CRC og CRN prøver, henholdsvis, noe som tyder på liten sammenheng mellom SNP deteksjon og lese dekning. Vi videre beregnede om SNP prosent utgjorde de totale SNPs med forskjellige dekning (figur 1C). Vi fant at påvisning frekvensen forble flat når sekvensen dekningen økte fra 40X til 60X for CRC vev. Men vi fant at påvisning frekvensen i normalt vev bassengene økt når sekvensen dekning nådde ca 55X til 65X (figur 1C). Disse forskjellene kan foreslå en høyere heterogenitet mellom normalt vev bassenget enn CRC vev bassenget, noe som kan forklares med en lignende svulst biologi eller mutasjon profiler blant CRC vev. Den detektere frekvens utelatt når sekvensen dekningen var større enn 65X, sannsynligvis på grunn av falske høye dekningen generert for de gjentatte sekvenser for disse regionene.

(A) GC-innhold og dekning i CRC (tykktarmskreft) vev. (B) Den GC innhold og dekning i CRN (kolorektal normalt vev) vev. (C) Forhold mellom sekvensen dekning og SNP deteksjon. Rød linje viser sekvensen dekning og andel av SNPs oppdages ved at dekning i CRC basseng og grønn linje i CRN basseng (D) Venn-diagram av SNPs for CRC og CRN prøver. (E) En oversikt over SNPs identifisert i kreft og tilstøtende normalt vev.

Etter dataanalyse identifiserte vi totalt 2342 sekvens variasjoner i CRC og tilsvarende tilstøtende normalt vev. Blant dem, 738 var nye sekvensvariasjoner basert på sammenligninger med dagens SNP database (dbSNP135; Tabell S1). 1226 variasjoner var felles for CRC og normal tykktarm vev, mens 374 og 742 variasjoner var unike for hver vevstype henholdsvis (figur 1 D).

For de to samleprøver, hyppigheten av mutasjonshastigheten varierte fra 0,354 til 4,942 per kilobase for ulike gener. De fleste variasjoner skjedde i intronic regioner, med bare 5% av variasjonene som forekommer i de exonic regionene.

Vi tilfeldig valgt åtte SNPs for validerings dekker variasjoner som finnes i intronic og i exonic regioner. For validering, brukte vi allel-spesifikk PCR (AS-PCR) for genotyping enkeltnukleotidpolymorfi [18], [19]. Hver SNP ble analysert individuelt med et gen som spesifikt primerpar i en separat kohort av 22 CRC-prøver og 24 CRC tilstøtende normale vev fra de tilsvarende pasienter og fire friske donorer (tabell S5). Vi fant ut at dataene for fire av SNPs var konsistente mellom sekvense data og PCR validering. For eksempel ble SNPs for MSX2 og KAT5 oppdaget 100% av sekvensebasert tilnærming og ved PCR validering. For rs80186078 i TFDP1 genet, vi bare oppdaget SNP i CRC vev ved sekvensering og validere den i både CRC og CRN vev, men ikke hos friske donorer ved AS-PCR validering. Men vi har også observert en inkonsekvens mellom sekvensering av samleprøver og PCR validering av enkeltprøver. For eksempel ble rs11186694 og rs17107140 påvist i både CRC og CRN prøver ved sekvensering, men kunne ikke bli oppdaget av AS-PCR i enkeltprøver. Dette resultat tyder på en falsk positiv identifikasjon av SNP eller en svikt i AS-PCR. Vi gjorde ikke forsøk på å utforme ytterligere PCR primere for AS-PCR, som vi fastslått at AS-PCR var tungvint og manglet følsomhet [20]. Videre ble noen av SNPs (f.eks chr11:65481267_TG) påvist i en samleprøve, men ble funnet i både barnekonvensjonen og normalt vev analysert ved PCR validering av enkeltprøver. Dette resultat tyder på en falsk negativ identifikasjon av SNP i en av de sammenslåtte prøvene. Imidlertid kan det ikke være overraskende, fordi hvis allelet frekvensen til SNP er lav i en av de sammenslåtte prøvene, kan det bli savnet av sekvensering av samleprøver.

På grunn av den lave effektivitet og følsomhet av SNP validering ved PCR, besluttet vi å bruke Sequenom MassARRAY iPLEX plattform for valideringsstudier. Vi valgte 66 SNP’er for validering i en separat kohort av 30 CRC vev fordi det DNA som brukes for sekvensering ble oppbrukt. Til slutt var vi i stand til å bekrefte eksistensen av 56 SNPS i 30 CRC vev (Tabell S6), noe som tyder på en validering hastighet på minst 85% (56/66), med tanke på at noen av deteksjons svikt kan skyldes forskjeller i utvalget befolkningen.

Funksjonell konsekvens av de identifiserte Sequence variasjoner

Vi fant 15 SNPs som ville endre proteinsekvenser blant exonic variasjoner i CRC og normale tykktarm vev, inkludert 14 missense mutasjoner og en nonsense mutasjon (figur 1E og tabell 2). Disse missense mutasjoner kan påvirke funksjonen til de muterte proteinprodukter. Romanen SNP chr13:114288328_CT kun identifisert i CRC vev vil resultere i et stoppkodon, noe som ville føre til tidlig avslutning av oversettelsen av TFDP1 (NP_009042, Q200 *) og tap av Transc_factor_DP_C domene i den avkortede TFDP1 protein. Effekten av denne avkortet TFDP1 på CRC kreftgjenstår å bli undersøkt.

Fire av mutasjonene ikke klarte å få den godkjent av Sequenom sin MassARRAY iPLEX (tabell S6) og ble derfor ekskludert fra videre analyse. Fire av de resterende 11 missense sekvensvariasjoner identifisert i CRC og normal kolon vev var nye mutasjoner. Den nettbaserte verktøy PolyPhen, sile og PROVEAN ble brukt til å forutsi de funksjonelle konsekvenser (tabell 2). Alle tre programmene spådd at de nye mutasjoner for MSX2 (A197T) vil påvirke de funksjonelle domener av protein og kan ha funksjonelle konsekvenser. Den NEXN (G245R) variasjon ble spådd å ha funksjonelle konsekvenser ved SIFT og PolyPhen programmer (tabell 2). PolyPhen spådd en annen mutasjon i genet som skal NR3C1 sannsynlig skade (tabell 2). Vi har også vurdert om disse 11 mutasjoner har tidligere blitt rapportert for CRC. Ti av dem har ikke tidligere blitt rapportert å være assosiert med CRC og derfor ble identifisert for første gang (tabell 2). En av dem har rs459552 i APC genet blitt rapportert å gi en beskyttende effekt for CRC med en odds ratio på 0,76 (CI = 0,60 til 0,97) blant CRC pasienter [21].

Det var 29 synonymt SNPs detektert i det kodende område i CRC og CRN prøver og 73 SNP’er i den 5 «eller 3» UTR regioner. FastSNP ble brukt til å forutsi de regulatoriske rollene til disse SNPs inkludert exonic spleising forsterker (ESE), exonic spleising lyddemper (ESS), motiv endringer for synonymt SNPs (tabell 3), og TF bindingssteder endringer for UTR SNPs (tabell 4). Den ESE finder kan identifisere eses anerkjent av private SR proteiner som er høyt konservert skjøting faktorer, og REDNINGS-ESE kan søke sekvenser med ESE aktivitet. I kontrast, kan FAS-ESS identifisere ESS. Forslaget resultatene fra de tre dataverktøy ble kombinert for å bekrefte om enkelt nucleotide variasjon ville endre skjøting motiv. Transkripsjonsfaktor bindingsseter i forbindelse med de aktuelle SNPs ble identifisert ved TFSEARCH hjelp FastSNP. Totalt 21 synonymt SNPs ble spådd å endre exonic skjøting motiver, og 31 UTR SNPs ble spådd til å skje på transkripsjonsfaktor bindingsseter og derfor kan påvirke gentranskripsjon. Romanen SNP chr2:219524460_CA (5’UTR av BCSIL) ble også funnet i et vernet transkripsjonsbindingsseter (Tabell S2).

For å forstå de funksjonelle konsekvensene av intronic SNPs, online verktøy SNPnexus ble brukt til å kommentere den SNPs. Avstandene til spleise steder ble beregnet ved SNPnexus. Det var 20 intronic SNPs ligger nær de spleise områder med en avstand mindre enn 30 bp, og bare én var romanen. Mutasjonene på disse områdene kan påvirke skjøting og transkripsjon. C6orf1, ETV4, KAT5 og VAV1 hver hadde to varianter som lokalisert i nærheten spleise områder, og TNKS2 hadde 3 varianter som lokalisert i nærheten spleise områder (tabell 5). SNP rs2271959 (chr17:41622740_GT, ETV4) var 5 bp unna spleising området og ble oppdaget bare i CRN vev med høy selvtillit. Det var 43 intronic, oppstrøms eller intergeniske SNPs i konservert transkripsjonsfaktorbindingsseter (Tabell S2) og 32 i CpG øyer (tabell S3).

De offentlige Chip-seq datasett, spesielt KODE prosjektet, gi enorme TF bindende eller DNAase overfølsomhets steder i ulike cellelinjer. Her brukte vi RegulomeDB å kommentere de SNPs med regulatoriske regioner. Hver SNP ble gitt en score som representerte forskjellige regulatoriske områder av RegulomeDB (tabell S1, tabell 6). Den nevnte, sannsynligvis skade, missense SNP rs1166698 (NEXN, validere av Sequenom) fikk en score på 1b, som var den høyeste i denne studien, noe som indikerer at SNP var involvert i mange viktige regulatoriske regioner. En annen 1b SNP var rs1860661, som ligger i intron av TCF3 og ikke testet av Sequenom. Blant de 2342 SNPs, 1062 lå i TF bindende regioner definert av Chip-seq teknologi.

Analyse av foreninger mellom SNPs og generell overlevelsestid

Vi valgte ni SNPs (tabell 7 ) som ble validert av Sequenom MassARRAY iPLEX teknologi og med allel heterozygositet på mer enn 0,4 for analyse av sammenhengen mellom SNPs og CRC pasient overlevelse. Vi samlet inn prøver fra et sett av 117 pasienter med detaljert klinisk informasjon for denne analysen bruker Sequenom MassARRAY iPLEX teknologi. Fordelingen av de 117 pasientenes demografiske og clinicopathologic egenskaper er oppsummert i tabell 8, og genotypen data er oppsummert i tabell S7.

Vi først analysert Hardy-Weinberg likevekt av hver SNP og funnet at bare SNP rs1053023 avvek fra Hardy-Weinberg likevekt (tabell 9, p 0,05); P-verdier for andre SNP’er varierte fra 0,3265 til 1. Virkningen av de ni SNP på total overlevelse tid ble undersøkt i 117 CRC pasienter ved hjelp av Kaplan-Meier-metoden og plottet ved hjelp av Stata 12 (www.stata.com) statistisk analyse program . Vi fant at to SNP’er (rs3106189 og rs1052918) ble forbundet med total overlevelse av CRC-pasienter (figur 2) ved hjelp av den dominerende modell med fareforhold på 0,25 (P = 0,009) og 0,28 (P = 0,024), respektivt. SNP rs3106189 ble også signifikant assosiert med CRC pasient overlevelse med additive modellen (hazard ratio = 0,33, P = 0,021; Tabell 7). De SNP rs3106189 lokalisert til 5′-UTR av TAPBP, og SNP rs1052918 lokalisert til 3′-UTR av TCF3. For de SNP rs3106189, antall pasienter med heterozygote og homozygote varianter var henholdsvis 42 og 7. For de SNP rs1052918, antall pasienter med heterozygote og homozygote varianter var henholdsvis 47 og 22. Pasienter som bærer en av de to variantene synes å ha større sjanser til å overleve lengre.

(A) Kaplan-Meier-plott for rs3106189 lokalisert til 5 «UTR av TAPBP. (B) Kaplan-Meier-plott for rs1052918 lokalisert til 3»-UTR av TCF3. Y-aksen, CRC overlevelse sannsynlighet; X-aksen, måneder fra kirurgi. Blå linjer er homozygot villtype (vill), grønn er homozygot variant (var), rødt er heterozygot variant (het).

Diskusjoner

I dette manuskriptet, beskriver vi vår analyse rørledning som består av (1) til å begynne å sekvensere sammenslåtte DNA-prøver, fulgt av validering og ytterligere analyse i større kullet prøver for kostnadsreduksjon og (2) en hypotese drevet målrettet fange og analyse av SNP og deres forbindelser med kreft fenotyper. Pooling genomisk DNA for sekvensering har fordelen av å redusere prøvepreparering og sekvensering kostnader. For eksempel vil fange 30 individuelle prøver kreve å bruke 30 digitaliserings matriser for å utføre hybridiserings- og prøvegjenvinninger, som er omstendelig og kan potensielt innføre sample-til-sample variasjoner i løpet av prøveprepareringstrinnet. Sekvensering 30 enkeltprøver vil også være vesentlig mer kostbart enn å sekvensere en pool. Selv om det er mulig å benytte strekkoding og multipleksing reaksjoner og sekvensering for å oppnå tilsvarende sekvens dekning på omtrent samme kostnad som pooling prøver, ville den prøvepreparering kompleksitet være betydelig høyere. I en fersk GWAS analyse av type 1 diabetes (T1D) publisert i Science, Nejentsev

et al.

Re-sekvensert eksoner og spleiseseter av 10 kandidatgener i DNA-bassengene fra 480 pasienter og 480 kontroller for å identifisere utløsende typen 1 diabetes (T1D) varianter og deretter testet sin sykdom foreningen i over 30.000 deltakere [22]. Forfatterne var i stand til å identifisere fire sjeldne varianter som uavhengig senket T1D risiko [odds ratio, 0,51 til 0,74; P = 1,3 × 10 (-3) til 2,1 × 10 (-16)] i interferon indusert med heli C domene 1 (IFIH1) [22].

En annen klar funksjon i vår analyse rørledning er at vi sekvensert de genomiske regioner som inngår exonic og intronic regioner, dvs. den 10-kb-promoteren og 5-kb nedstrøms genomiske regioner av utvalgte gener. Denne metoden var i kontrast med de fleste studier som bare analyserte exonic sekvensene (exome capture) [23], [24]. Det er viktig å inkludere promotorområdene i analysen, som SNP’er i promotorområdene har blitt assosiert med tumorgenese. For eksempel Bond

et al.

Viste at en enkeltnukleotidpolymorfi i MDM2 arrangøren kunne dempe p53 tumor suppressor sti og akselerere tumordannelse hos mennesker [25]. Passarelli

et al.

Viste at SNPs i østrogenreseptoren beta promoter er assosiert med overlevelse av postmenopausale kvinner med CRC [26]. Polymorfismer i UTR regioner av gener er også blitt funnet å være relatert til kreft. For eksempel, Zhang

et al.

Funnet at en polymorfisme i 3’UTR region av insulin-lignende vekstfaktor I (IGF1) genet forut overlevelse av ikke-småcellet lungekreft i en kinesisk befolkning [27] . . Hao

et al

fant at en SNP (rs3213245, -77T C) i XRCC1 genet 5 «UTR bidrar til redusert promoter aktivitet og økt risiko for ikke-småcellet lungekreft [28]. Vi har identifisert og bekreftet ved hjelp av Sequenom plattform flere SNP’er som lokalisert til den 5 «eller 3» UTR av genene (tabell S6). For eksempel, rs3106189 av TAPBP og rs8041394 av GTF2A2 lokalisert til 5 «UTR, og rs1051425 av ETS2 og rs1052918 av TCF3 lokalisert til 3’UTRs (Tabell S6). Den funksjonelle betydningen av disse SNPs gjenstår å fastslå.

Vi har valgt gener knyttet til WNT sti, som Kreft Genome Atlas Nettverk funnet mutasjoner i 16 forskjellige gener i Wnt trasé inkludert APC, CTNNB1, FAM123B og TCF7L2 [14]. Vi utvidet analyse av Wnt pathway genene til regioner utenfor exome analysert Cancer Genome Atlas Network, og vår tilnærming har potensial til å identifisere de mutasjoner som modulerer genekspresjon eller spleising i tillegg til identifisering av de strukturelt skadelige mutasjoner i eksoner .

Vi identifiserte totalt 2342 sekvensvariasjoner i CRC og tilsvarende tilstøtende normalt vev. Blant disse 738 var nye sekvensvarianter basert på sammenligning med den nåværende SNP database (dbSNP135; tabell S1). Vi valgte 66 SNPs for validering i en egen kohort av 30 CRC vev. Vi var i stand til å bekrefte eksistensen av 56 SNPS i 30 CRC vev (Tabell S6), noe som tyder på en validering hastighet på minst 85% (56/66), med tanke på at noen av deteksjons svikt kan skyldes forskjeller i utvalget befolkningen . Dette validering rate er i tråd med den publiserte validering sats på 85,4% for NGS bruker Illumina plattform [29]. I tillegg har det blitt rapportert at forskjellige validerings plattformer, inkludert Sanger-sekvensering, pyrosekvensering, Sequenom MassArray eller øyeblikksbilde SNP Detection mangler følsomhet for å bekrefte sekvens-varianter identifisert ved dyp sekvensering i tumorer, som kan være forurenset med DNA fra normale vev, eller som kan inneholde flere kloner [30].

Vi identifiserte 14 missense exonic mutasjoner i CRC og normal kolon vev (tabell 2). SNP (G245R) ved NEXN genet (Nexilin F aktinbindende protein) ble spådd å ha funksjonelle konsekvenser. Rollene til NEXN genet i kreft har ennå ikke undersøkt. To nye SNPs i atom reseptorunderfamilien 3, gruppe C, medlem 1 (NR3C1) og lysin acetyltransferase 5 (KAT5) gener ble funnet bare i CRC vev, men ikke i normale tykktarm vev. KAT5 (også kalt TIP60 eller HIV-1-Tat interaktiv protein) er en histon acetyl transferase (HAT), og den spiller en viktig rolle i regulering av kromatin remodellering og DNA-reparasjon og apoptose [31]. I kolorektal kreft, er KAT5 nedregulering assosiert med mer avanserte stadier av tykktarmskreft [32]. NR3C1 (alias, glukokortikoid reseptor) ble funnet å være epigenetiske deregulert i kolorektal tumorigenesis [33]. Videre hypermethylated NR3C1 er en CRC gen med mikro ustabilitet [34]. Disse nye SNPs i KAT5 og NR3C1 gener garanterer bekreftelse, og flere funksjonelle studier er nødvendig for å vurdere de funksjonelle konsekvenser av mutasjoner og deres forhold til kreft, for eksempel om den SNPs ville etterligne epigenetiske reguleringer av disse genene.

Vi har også identifisert SNPs som kan påvirke exon spleising fordi de lokalisere til ESE (exonic skjøting enhancer) og ESS (exonic skjøting lyddemperen), som er kritiske i exon spleising. For eksempel har vi identifisert SNPs i langt oppstrøms element (FUSE) bindende protein 1 (FUBP1), peroksisomproliferatoraktiverende aktivert reseptor alfa (PPARA) og transkripsjonsfaktor DP-1 (TFDP1) som kan påvirke exon spleising for disse genene, og disse SNPs ble funnet bare i CRC vev (Tabell 3). . Zhang

et al

viste at en SNP (-195 C T; dbSNP ID: rs1056932) som endrer en potensiell bindingssete for en exonic spleising enhancer kan påvirke risikoen for non-Hodgkin lymfom [35]. De funksjonelle konsekvenser av SNPs som lokaliserer til ESE- eller ES sekvenser i FUBP1, PPARA og TFDP1 gener garanterer videre etterforskning

Vi fastslått at rs3106189, lokalisert ved 5 «UTR av TAP bindende protein (tapasin;. TAPBP ), og rs1052918, lokalisert på 3»-UTR av TCF3, ble forbundet med total overlevelse av CRC-pasienter (tabell 7 og figur 2) med fareforhold rekk 0,28 (P = 0,024) og 0,33 (P = 0,021) respektivt. Disse dataene tyder på at disse to variantene gi beskyttende effekter for CRC-pasienter. Interessant, en annen variant som vi identifisert, den rs459552 i APC genet, ble tidligere rapportert å gi en beskyttende effekt for CRC med en odds ratio på 0,76 (CI = 0,60 til 0,97) blant CRC pasienter [21]. Men hadde vi ikke analysere dette SNP ved Sequenom teknologi og derfor ikke kunne vurdere om funnet er også sant i vårt datasett.

TAPBP koder for et trans glykoprotein som formidler samspillet mellom nylig montert store histocompatibility kompleks ( MHC) klasse i-molekyler, og medbringeren er tilknyttet antigen prosessering (TAP) [36]. Nedregulering av ekspresjon TAPBP er blitt observert for flere kreftformer, inkludert CRC, som et immun flukt mekanisme av humane tumorer [37]. Tap av TAPBP uttrykk har blitt observert i 80% av høyverdig intraepitelial neoplasi (HIN) sammenlignet med autolog tykktarmsslimhinnen, i 63% av primær adenokarsinomer i fase III og 79% av de matchede lymfeknutemetastaser [38]. Den ex vivo innføring av TAPBP ekspresjon i en murin lungekarsinommodell øket overflate MHC klasse I og gjenopprettet følsomhet av tumorceller til antigen-spesifikke cytotoksiske T-lymfocytter (CTL) å drepe [39]. SNP rs3106189 ligger innenfor en H3K27Ac histon mark, som ofte finnes i nærheten av aktive regulatoriske elementer, og innen H3K9Ac og H3K4me3 tegn (UCSC genom nettleser; Figur S1). Videre er rs3106189 lokalisert mellom bindingsseter for transkripsjons flere faktorer, inkludert interferon-regulerende transkripsjonsfaktor 1 (IRF-1), IRF-2 og IRF-7. Den nøyaktige funksjonell konsekvens av variant på rs3106189 locus krever videre studier

transkripsjon faktor 3 (TCF3; E2A immunoglobulin Enhancer bindende faktorer E12 /E47). Er medlem av TCF /LSF transkripsjonsfaktor familie som er sentral i å regulere epidermal og embryonale stamceller identitet og er involvert i Wnt signalveien [40]. Brystkreft, er TCF3 involvert i regulering av brystkreftcelledifferensiering tilstand og tumorigenisitet [40]. Videre er overekspresjon av TCF3 delvis ansvarlig for den smørsyre-resistent fenotype av CRC fordi TCF3 undertrykker hyper-induksjon av Wnt aktivitet av smørsyre [41].

Legg att eit svar