PLoS ONE: Genome Wide Identifikasjon av Recessiv kreftgener ved kombi Mutation analyse

Abstract

Vi utviklet en ny prosedyre for å identifisere humane kreftgener som opptrer i en recessiv måte. Vår strategi var å kombinere bidragene fra de ulike typer genetiske endringer til tap av funksjon: amino-syre erstatninger, ramme-skift, genet slettinger. Vi studerte over 20.000 gener i 3 Gigabases av sekvenser og 700 matrise komparative genomisk hybridisering. Recessive gener ble scoret etter nucleotide uoverensstemmelser under positivt seleksjonspress, ramme-skift og genomiske slettinger i kreft. Fire forskjellige tester ble kombinert sammen og ga en kreft recessiv p-verdier for hver undersøkt genet. Ett hundre og femtifire kandidat recessive kreftgener (p-verdi 1,5 × 10

-7, FDR = 0,39) ble identifisert. Påfallende, de prototypiske kreft recessive gener

TP53

,

PTEN Hotell og

CDKN2A

alle rangert på topp 0,5% gener. Funksjonene i betydelig grad påvirkes av kreft mutasjoner er nøyaktig overlapper de av kjente kreftgener, sammen med den kritiske unntak for fraværet av tyrosin-kinaser, som forventet for et recessivt gen-set

relasjon:. Volinia S, Mascellani N, Marchesini J, Veronese A, Ormondroyd E, Alder H, et al. (2008) Genome Wide Identifikasjon av Recessiv kreftgener ved kombi Mutation Analysis. PLoS ONE 3 (10): e3380. doi: 10,1371 /journal.pone.0003380

Redaktør: Mikhail V. Blagosklonny, Ordway Research Institute, USA

mottatt: 03.07.2008; Godkjent: 17 september 2008; Publisert: 10. oktober 2008

Copyright: © 2008 Volinia et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Dette arbeidet ble støttet av Program Prosjekt Grant No. P01CA76259 fra National Cancer Institute (CMC) og med tilskudd fra AIRC, PRRIITT Regione Emilia Romagna og MIUR (SV)

konkurrerende interesser:. forfatterne har erklært at ingen konkurrerende interesser eksistere.

Innledning

En rekke tilnærminger har blitt brukt til identifisering av kreftgener [1]. Fremgangsmåter har blitt utviklet som tillater identifikasjon av gener forårsakende av cellulær transformasjon [2], [3], og av komplekse prosesser som invasivitet og metastase [4]. In vitro- og in vivo-metoder, ved bruk av cellulære eller dyremodeller, vanligvis ført til oppdagelsen av dominerende kreftgener, eller onkogener. På den annen side har tumor-suppressorer blitt oppdaget i hovedsak av molekylærgenetikk tilnærminger. Slik er det behov for å identifisere ytterligere kreftdempere, eller recessive kreftgener, at nye tester for tap-av-funksjon videreutvikles [5].

Mange godt karakterisert kreftgener båtplass somatiske grunn erstatninger eller liten innsetting /slettinger. For eksempel, koding regionens ramme-skift og punktmutasjoner står for 75% av de somatiske mutasjoner i

CDKN2A Kjøpe og

TP53

, to store tumorsuppressorgener [6], [7], [ ,,,0],8]. Onkogen

B-raf

, først beskrevet over 20 år siden, ble også vist å være mutert i noen menneskelige kreft [9], sammen med

PI3K Hotell og noen tyrosin fosfataser [10]. I mellomtiden har andre kreftgener blitt oppdaget gjennom fenomenet arvet predisposisjon. Familiær kreft er sjelden sammenlignet med ikke-arvelig kreft, men et antall av recessive gener som er identifisert ved hjelp av bindingsanalysen [11], [12]. Storskala super-familien sekvense prosjekter, dvs. de kinome og phosphatome prosjekter, fulgt og viste at selv om missense mutasjoner er funnet i noen medlemmer av disse to familiene, de er ikke en felles plattform for somatiske kreft mutasjoner. Greenman og medarbeidere [13] foretok fullstendig sekvensering av 518-protein-kinase-kodende gener i 210 kreft. Kinaser har vært innblandet i mange aspekter av tumordannelse og flere har nå blitt godkjent som mål for medikamentell behandling [14]. I sin analyse av samlingen av cellulære kinaser, det kinome, Greenman et al. [13] identifisert 1000 mutasjoner. Mutasjoner var forholdsvis vanlig i kreft i lunge, mage, ovarie, kolon og nyre, og sjelden i kreft i testikler og bryst, og i karsinoide tumorer, som vanligvis finnes i mage-tarmkanalen. Svulster med defekter i DNA-mismatch reparasjon næret et stort antall mutasjoner, mens andre typer svulst viste ingen påvisbare mutasjoner. For å skille driveren fra passasjer mutasjoner, Greenman et al. brukes en statistisk modell som sammenligner den observerte-til-forventede forhold på synonymt (ingen aminosyre-endring) mutasjoner med den ikke-synonyme (endrede aminosyrer) mutasjoner. En øket andel av ikke-synonyme mutasjoner medfører seleksjonstrykk i løpet av tumorigenesis. Totalt identifiserte de 158 spådd driver mutasjoner i 120 kinase gener. I motsetning til de tilbakevendende mutasjoner i

BRAF

i maligne melanomer [15] mest kinase mutasjoner identifisert på tvers av ulike krefttyper var derfor enkelt treff. Flere nylig, Wood og medarbeidere [16] brukt en annen strategi, men kommet til lignende konklusjoner, med komplett sekvensering av 20,857 transkripsjoner fra 18,191 gener i et begrenset antall tumorer (11 bryst og 11 colon). Det høye antallet automatisk oppdaget DNA mutasjoner gitt umiddelbart følgende spørsmål: hvordan å identifisere fra et potensielt høyt antall sekvens ikke samsvarer med de som er utløsende for kreft patogenesen. En serie av etterfølgende filtre viste at de fleste av dem var stille (ikke resultere i aminosyreforandring) og en tilsvarende mengde ble enkeltnukleotidpolymorfi (SNPs). Endelig antall mutasjoner som ble definert som virkelig somatisk påvirket mer enn 1000 gener. Interessant nok var noen felles driver mutasjoner identifisert blant de kinase-genene i disse studiene. Dette er konsistent, for eksempel, med funn at bare 1 av 18 medlemmer av

PI3K

familie hadde somatiske mutasjoner i kreft [17].

Interessante observasjoner kan gjøres fra en nøyaktig global studie av mutasjonene rapportert i kreft. Futreal et al. [18] gjennomførte en slik forlenget folketelling fra bibliografi som viser at så mange som 299 gener bidrar til kreft hos mennesker. Men 70% av disse genene er assosiert med leukemi, lymfomer og mesenchymale svulster, som står for bare 10% av kreftforekomst. Videre er omtrent 75% av disse gener er forbundet med translokasjoner, og minst 90% av de oppførte kreftgener er dominerende på cellenivå (dvs. aktiverte onkogener, fusjons oncoproteiner). Ikke desto mindre er det generelt anerkjent at de aller fleste av kimlinje-mutasjoner som fører til kreft predisposisjon er recessive [18]. Dermed virker det sannsynlig at de fleste av kreftgener er recessive og forblir fortsatt uoppdaget.

Av disse grunner vi utviklet en ny metode for identifisering av kandidat recessive kreftgener fra genom-skala datasett. Vi søkte vår roman prosedyre til å hente data fra sekvenser og sammenlignings genomisk hybridisering. Vår metode tar hensyn til de forskjellige genet inaktiveringsmoduser, alt fra punktmutasjoner til hele genet slettinger. Forutsetningen underliggende undersøkelsen var at ved å studere kreftgener fra ulike mutasjons perspektiver og kombinere de respektive sannsynligheter, kan sekvense støy og polymorfismer bli filtrert ut og bona fide recessive kreftgener ville bli identifisert.

Resultater

Høsting kandidat mutasjoner fra ESTs

i dette papiret, en ny metode ble brukt til identifisering av gener mutert i ikke-arvelig kreft hos mennesker (figur 1). Prosedyren samlet sekvensinformasjon fra uttrykket sekvens tag (EST) database og en passende algoritme var skreddersydd for å trekke ut informasjon fra «lav kvalitet» sekvensdata. Prosedyren analysert mer enn 3 × 10

9 nukleotider menneskelig kodende sekvensen på over 5.600.000 ESTs avledet fra både friske og kreft vev og cellelinjer. ESTs er potensielt meget verdifulle for mutasjonsstudier, siden de representerer klonede enkelt alleler, men er også ubekreftede sekvenser, med en høy grad av sekvenseringsfeil [19], [20]. Derfor, for å utnytte det fulle potensialet i ESTs hadde vi å utvikle en metode for påvisning av bona fide «kreft» mutasjoner i en kontekst av hyppige sekvense feil eller i beste fall polymorfismer. Selv om tidligere arbeid [19] forsøkt å evaluere sekvensefeilrate i ESTs, fulgte vi en alternativ rute. Vår prosedyre var basert på en forutsetning om at frekvensen av sekvense feil var konstant for hver menneskelige genet, i hvert nukleotid posisjon. Som en konsekvens, vi antok at det «genet /posisjon-spesifikke sekvense error rate» var konstant på tvers av normale og kreft EST biblioteker. Siden basesammensetning, kontekst og sekvens er per definisjon konstant innenfor hver annen menneskelig gen, vi trodde disse forutsetningene var trygge. Bare unntak ville være på grunn av svulstene husing DNA reparasjon defekter.

Diagrammet viser trinnene i fremgangsmåten for vurdering av mutasjonssannsynligheter og dataflyt mot identifisering av kandidat recessive kreftgener. Molekylære data ble hentet fra offentlige databaser (dbEST og GEO på NCBI, og Stanford Microarray Database). Et meget stort antall av linjer (i løpet av 4,5 mill) ble oppnådd i mer enn 24 000 humane gener fra BLAST-analyse av 3 Gbases av EST-sekvenser. De justeringer ble analysert for å trekke uoverensstemmelser som ble avsatt i Kreft Mutome lokal SQL database. Uoverensstemmelsene ble deretter evaluert av bestemte prosedyrer for å knytte mutasjons p-verdier for hver menneskelige genet. Parallelt ble nesten 20 000 menneskelige gener analysert fra 744 rekke CGH å definere deres tilbøyelighet til sletting i kreft. De spesifikke mutasjons p-verdier ble kombinert for å frembringe en recessiv kreft p-verdi. Et genom undergruppe av 154 gener, hvorav

TP53

,

PTEN

,

CDKN2A Hotell og

CDKN2B

var til stede, ble valgt (kreft p-verdi . 1,5 x 10

-7)

Internett sekvensestøy ble forventet å være til stede i den heterogene EST-databasen og kreft er en kompleks multi-fasetterte genetisk sykdom, er derfor en enkel statistisk test ville ikke resulterer i pålitelig utvalg av kreftgener. Videre ønsket vi å fokusere på recessive gener, inaktivert av forekommende hendelser. Således, for å bestemme de forskjellige mutasjonsmåter recessivt gen kreft, vi følgelig utviklet en rekke mutasjonstester. De statistiske tester ble til slutt sammen for å identifisere gener som ofte inaktivert i kreft.

Starter fra RefSeq human mRNA depotet, ble 27,184 sekvenser (definert spørringer) justert til mer enn 5,6 millioner mennesker EST sekvenser, fra 7574 ulike EST biblioteker, til sammen nesten 3,0 Gbases av kodende sekvens. Eksplosjonene [21] ble kjørt for hver spørring versus ESTs og 3,839,543 vellykkede justeringer ble produsert (lagret i Alignments SQL tabellen ved Kreft Mutome database) for 24,932 menneskelige spørsmål (Stats database tabell). Et gjennomsnitt på 150 treff (høye scoring par, HSP. Eller sekvenser) ble fremstilt for hvert søk (humant gen eller skjøting variant). Kvalitetskontroll av eksplosjonen justeringer var av de fremste betydning for vår strategi. For å minimalisere utvinning av tekniske feil definert vi en streng terskel for innretting kvalitet (expect≤1E-21) og de lav kvalitet endene av sammenstillinger ble kastet. Alle (43,965,904) nucleotide uoverensstemmelser, og hull /innsett, ble registrert i databasen Mutasjoner tabellen. Aminosyre (AA) erstatninger og for tidlig stopp (33,614,754 mistilpasninger) ble deretter valgt fra justeringer (AA_Mutation tabell). For å redusere kompleksitet, og forventet antall falske positiver, bestemte vi oss for å vurdere bare de genene med et høyt antall uoverensstemmelser (uavhengig av kreft status prøver). En pre-prosessering basert på inter-kvartil range (IQR) ble derfor søkt og 8,972 gener (IQR høyere enn 0,5) ble beholdt for videre kreft mutasjonstest. Disse genene var tilstrekkelig rik på mulige mutasjoner (mistilpasninger) for å oppfylle rollen som potensielle kreft genet kandidater.

Den første del av vår strategi var å identifisere gener som bærer inaktivepunktmutasjoner. Vi evaluerte punktmutasjonene ifølge frekvens, plassering, evne til å forandre aminosyresekvensen, og konsekvenser på leserammen. Vår prosedyre ble dermed skreddersydd for å vurdere statistisk alle de ovennevnte funksjonene til et punkt mutasjon.

Data mining for aminosyre-erstatninger og premature avslutninger

Vi definerte PAA som sannsynligheten for at et gen viser en overskudd av aminosyrer substitusjoner i kreft sammenlignet med ikke-cancerprøver. pNSSR i stedet angir sannsynligheten for at de betydelige aminosyrer substitusjoner i kreftprøvene under positivt seleksjonstrykk. For å oppdage kort rekkevidde gruppering av kreft mutasjoner, vanlig i kreft recessive gener, og å balansere ut støy, dvs. sekvense feil, valgte vi en paret t-test koblet til en glidende vindu. Vi normalisert tellingene av uoverensstemmelser i to klasser, kreft og kontroll, ved hjelp av et gen som spesifikt og posisjon bestemt faktor. Null mismatch tellinger ble justert til enhet, før normalisering. Normaliserings verdier ble oppnådd for hvert gen og ved hver nukleotid posisjon, som de lokale forhold av de sekvenserte nukleotider i kreft og kontrollprøver. Den parede t-test (kreft vs. kontroll, sammenkoblet for kodoner) ble påført på et glidende vindu med en lengde på 25 kodoner. For å utføre en robust assay et kodon ble evaluert bare når justert minst 10 ganger i hver klasse (kreft og kontroll). Genspesifikke konfidensgrenser for t Stillingen hvor generert av bootstrap-analyse og en terskel p-verdi på 0,05 ble brukt for å velge de betydelige aminosyreposisjoner. For hver humane genet, ble en p-verdi (PAA) endelig er knyttet til summen av de topper som tilsvarer de signifikante T score. En sekvens mismatch ble registrert bare én gang for hver EST bibliotek.

En over-estimering av PAA kan skyldes passasjer mutasjoner, slik som de som produseres av endrede DNA reparasjonssystemer, utbredt i noen kreft. Siden passasjer mutasjoner bør bli tilfeldig fordelt over genomet, ble en ekstra test derfor iverksatt for å avgrense PAA. Forholdet mellom ikke-synonyme (NS) som synonyme (S) DNA mutasjoner er et mål på seleksjonstrykk i løpet av tumorprogresjon, som synonymt endringer er lite sannsynlig å utøve en vekstfordel, og vil bli selektivt tapt [17]. Videre mistilpasninger på grunn av sekvenseringsfeil, samt differensialrepresentasjon (kreft til normal differensial ekspresjon), alle forventes å være nøytral med hensyn til NS til S-forhold. Kodonene vesentlige for aminosyresubstitusjoner (p 0,05) ble derfor analysert for overtrykk. Som et proof-of-concept ble NS /S-forhold i

TP53

mutert region analysert av paret t-test (p 0,033, FDR = 0,092) og viste høyere verdier i kreft enn i kontroll. Dermed har vi anvendt NS til S-forholdet test til hvert gen, i kaskade etter at for den lokale mutasjonsfrekvens (PAA) som beskrevet ovenfor. Bootstrap ble igjen brukt til å definere p-verdiene. Sannsynligheten for en kreft protein som har hyppige aminosyre-endringer (PAA) koplet til selektivt positivt trykk i kreft (pNSSR), to hendelser som ikke er uavhengige, ble definert som gjennomsnittet av de to respektive p-verdier (PAA-NSSR).

data mining for frame-skift i kreft ESTs

etter å ha definert for hver menneskelige genet en p-verdi for årsaks aminosyresubstitusjoner i sporadiske kreft, trengte vi en tilsvarende indeks for genet inaktivering på grunn av åpen leseramme skifter i eksoner. Kreftgener kan bli forstyrret av mikro-innskudd eller -deletions i sitt kodende sekvens, noe som resulterer i en forandret primærstruktur. Et genom bred undersøkelse av vår mismatch database indikerte at single nucleotide endringer var langt de mest vanlige innsetting /slettinger i ESTs. Vi indikerte med pFrameshift sannsynligheten for at et gen hadde et overskudd av ramme-skift, på grunn av enkle nukleotid-delesjoner /innsettinger i kreft, sammenlignet for å styre vev. Vi testet hypotesen om at disse mutasjonene var hyppig i kreftgener, ved å studere igjen

TP53

. Vår analyse viser at single nucleotide ramme-skift knyttet til kreft var ikke-tilfeldig beriket i

TP53

. Når vi leter etter ramme-skift indusert av 1 nukleotid innsetting /slettinger, ble en tilsvarende test som for PAA utformet, som beskrevet i eksperimentelle prosedyrer, for å generere pFrameshift.

Identifikasjon av slettede gener i kreft med høy oppløsning matrise komparative genomisk hybridisering

kreft gener kan bli påvirket i sin genomisk struktur av store presiseringer og slettinger. Recessive kreftgener forventes å bli slettet eller på annen måte inaktivert og denne komponenten må inkluderes i vår mutasjons modell. Vi har derfor tildelt hver menneskelige genet p-verdier for sletting i kreft. For å oppnå slike p-verdier, vi samlet data fra høyoppløste komparative genomiske hybridizations av 744 svulster inn i Geosoft database. Vi brukte rekke CGH (aCGH), hentet fra GEO (NCBI) og SMD (Stanford Microarray Database), med tilstrekkelig høy oppløsning for å skille de menneskelige gener (informasjon for prøver og datasett i supplerende tabell S1). Hver tumorprøve ble sammenlignet med en frisk kontrollprøve på en to-kanals oligonukleotid-basert plattform. De humane gener ble evaluert i hver prøve ved hjelp av normaliserte log2 forholdet (tumor enn kontroll). Forskjellige prober knyttet til det samme gen ble beregnet. Gene symboler ble brukt som nøkler til utvetydig å identifisere et gen innenfor og på tvers av plattformer. Data ble normalisert i henhold til leverandørene. Som en pre-prosesseringstrinn vi redusert forsøket kompleksiteten ved å beholde bare de gener med høy variabilitet (standardavvik på log

2-forhold 0,2). Deretter for hvert gen vi beregnet prosentilene i loggen

2 forholdstall (kun for gener målt i minst 300 prøver). Et gen påvirkes av strykninger i tumorer ville ha en lav (negativ) log

2 ratio 5

thpercentile, mens en med presiseringer ville vise en høy (positiv) 95

th persentil.

Bootstrap analyse (tilfeldig bytte mellom tumor og styrekanalene) ble anvendt for å simulere gen spesifikk 5

th og 95

th persentiler. Deretter genspesifikke p-verdier for delesjoner (pDeletion) til slutt ble beregnet som prosentandelen av simulerte 5

th persentiler overstiger det virkelige 5

th persentiler. På dette stadiet, måtte vi ta i betraktning to fenomener, knyttet til aCGH men ikke knyttet til kreft: kjønnskromosomer og polymorfe strukturelle kopi nummer variasjoner (CNVs). Kontrollprøven i aCGHs var ofte fra hann (mer enn 50% av aCGHs), mens omtrent halvparten av tumorene var av kvinnelig opprinnelse og således manglet Y-kromosomet. Derfor Y-kromosomet gener var forventet å dukke opp som slettet, eller bedre «pseudo-slettet». Omvendt, forventet vi X-kromosomet gener, med unntak av de som hører til den pseudo-autosomal-regionen, for å fremstå som «pseudo-forsterket». Gener som ligger i de kjønnskromosomer faktisk opptrådt korrekt, som vist i detalj for den pseudo-autosomal region 1 (par1) i Xp22 (supplerende figur S1). Polymorfe CNVs, fra normalbefolkningen variabilitet og ikke knyttet til kreft, bør også føre til store fold-endringer, noe som resulterer i høy 95

th eller lav 5

th persentiler. Men forventet vi at polymorfe CNVs, ikke knyttet til kreft, ikke ville vise betydelige pDeletion verdier. Faktisk sine fem

th persentiler ikke ville kvalifisere som betydelig etter tilfeldig swap simulering.

CDKN2A Hotell og

CDKN2B

ble identifisert som de slettede gener i kreft hos mennesker;

PTEN

,

ATM

, og

TP53

ble også identifisert som slettet (p-verdier 0,001). Tre tusen og tre hundre sytti fire gener ble betydelig slettet (p 0,001)

Kombinasjon av mutasjon analyser. Kandidaten recessive kreftgener

kreft gener påvirkes av ulike typer punktmutasjoner og av kromosomale endringer. Vi definerte en kandidat kreft genet som recessive når berørt av mutasjoner som potensielt fører til tap av funksjon; dvs. når det ofte ble mutert i sin kodende region og ofte forandret i dets genomiske struktur, spesielt slettes. Kombinasjonen av de ulike genom brede tester produsert en p-verdi for recessive kreftgener. Den recessive kreft genet (pRecessiveCancer) p-verdien ble definert som produktet av de tre p-verdiene (PAA-NSSR, pFrameshift, pDeletion). Ett hundre og femtifire menneskets gener ble inkludert i den endelige kandidat genet liste etter kombimutasjonsanalyse ble utført (pRecessiveCancer 1,5 × 10

-7). Antallet kreft recessive gener i en simulering av tilfeldig sammenslutning av de fire mutasjonstester var på 60,5 (false oppklaringsprosenten på 0,39). Utvalget av kombinatorisk tilnærming syntes å være konkret, siden tre klassiske recessive kreftgener,

TP53 plakater (16

th stilling),

PTEN plakater (92

nd) og

CDKN2A plakater (135

th) ble oppdaget. Når vi sammenlignet kandidaten gen-set til hele genomet, ingen store skjevheter dukket opp mot genet størrelse og strukturelle polymorfismer, som forventet fra en veloppdragen statistisk prosedyre. De recessive kreft genet størrelser var ikke signifikant forskjellig fra det av hele menneskelige genom (supplerende Figur S2). Når vi betraktet kopitallvariasjoner kreft gen-set inneholdt 15 polymorfe CNVs (15/154 eller 10%), mens 13,6% av alle gener skåret for pDeletion inneholdt minst en CNV. Denne forskjellen i andelen var ikke signifikant (p 0,05), noe som tyder på at det ikke var falsk berikelse for CNVs av vår metode, som forventet av utformingen av algoritmen

Gene ontologi og funksjonell analyse

de mekanismer og funksjons trasé associated med kreft recessive gener ble statistisk evaluert. Den berikelse i Gene Ontologi (GO) termer ble vurdert ved hjelp av letthet, ved https://david.abcc.ncifcrf.gov. De biologiske prosessene betydelig påvirket i kreft genet sett er oppført i supplerende tabell S2. De betydelige GO vilkår gruppert etter ENKEL funksjonell gruppering var: ATP /nucleotide binding, celledød /apoptose, cellesyklus, mitokondrie RNA bindende, metylering, tumor suppressor, DNA metabolisme og DNA-reparasjon (ENKEL berikelse poengsum 2, enkel P- verdi 1 x 10

-4, Benjamini p-verdi 0,01). En svært overlappende funksjonsspekteret ble oppnådd for Cancer Census gener [18]. De mest bemerkelsesverdige unntak de overlapp ontologier i to kreft gen-sett var knyttet til «protein tyrosin kinaser», fraværende fra kandidaten recessive listen. Disse proteinene er en av de mest representerte klasser av onkogener eller dominante kreftgener. En funksjonell klassifisering lik som EASE ble oppnådd med bingo og Cytoscape (data ikke vist), der noen av de mest betydningsfulle cellulære prosesser identifisert var involvert i kreft patogenesen, for eksempel cellesyklus, celledød /apoptose (korrigert p-verdi 1 × 10

-3). Til slutt, genererte vi et referansesett av humane gener ved tilfeldig å assosiere p-verdiene fra de fire mutasjonstester. Når letthet og bingo ble brukt på denne kontrollen satt noen vesentlige GO vilkårene ble identifisert.

Diskusjoner

Vi utviklet og anvendt en multi-tier genom-wide data mining assay mot identifisering av gener utsatt til «recessiv-type» mutasjoner i kreft. P-verdiene som følge av hvert lag ble slått sammen for å frembringe en «recessivt gen kreft» p-verdi (tabell 1 og 2). Tre av de mest bemerkelsesverdige kreft recessive gener, dvs.

TP53

,

PTEN Hotell og

CDKN2A

, rangert

th 16, 92

nd og 135

th, henholdsvis blant alle testede humane gener. Den blokkdiagram av vår rasjonelle og dataflyten er vist i figur 1. Testene kan deles i to grupper: en for påvisning av punktmutasjoner (aminosyresubstitusjoner og ramme-skift) og en for strukturelle forandringer (store delesjoner). I prinsippet kunne vi har også brukt en test for delvis gendelesjoner, men i ESTs intra-genet rearrangements kan forveksles med alternativ exon spleising.

Bilder

sannsynligheten for et protein som har aminosyre mutasjoner og ramme-skift i kreft, arrangementer som er uavhengige, ble definert som produktet av de respektive p-verdiene. Bare ved hjelp av disse to tester, den prototypiske

TP53 Hotell og

PTEN

kreftgener rangert 205

th og 233

rd av 27,184 evaluert menneskelige karakterutskrifter (p-verdi mindre enn 1 × 10

-4). I tillegg to andre kjente recessive kreftgener,

CDKN2A Hotell og

CDKN2B

, hadde også store p-verdier, om enn lavere rangering (p 0,0025 og FDR = 0,019, henholdsvis). Dette problemet var forventet for gener med små kodende områder, som kan være mer vanlig slettet enn mutert [6]. Deres tilstedeværelse i betydelig punktmutasjoner kreft genet-sett, selv på dette mellomstadium, beroliget oss av valgmuligheter i vår algoritme. Likevel er dette tidlig klassifisering, basert utelukkende på punktmutasjoner, ble kompilert bare fra to mutasjonstester; dermed avhengig av EST-sekvensering av data, var det fortsatt ikke pålitelig i henhold til vår modell som innlemmet en ekstra mutasjon modus. Det bør bemerkes at vi ikke satt til å identifisere trans, endringer forventes å være dominerende på cellenivå, og derfor ikke egnet til vår søken etter recessive gener.

Den siste test, basert på aCGH analyse, bekreftet at en meget stor del av det humane genomet er ofte slettet i kreft. Som forventet for vår 2-kanaler aCGH prosedyre, vi riktig registrert kjønnskromosom gener som forskjellig representert i genomet skjermer. Spesielt, på grunn av oppløsningen av vår strukturelle analyse genene fra den pseudo-autosomal region 1 ble funnet å være normal diploid (supplerende figur S1). Viktigst, ville vi forvente at polymorfe CNVs ikke hadde filtrert gjennom aCGH analysen. Faktisk, bare en liten prosentdel av kreftgener falt sammen med polymorf CNVs og denne prosentdelen er enda mindre enn forventet ved en tilfeldighet (tabell 2).

Antallet av delesjoner påvist ved aCGH i kreft genomet er meget høy (mer enn 10% av menneskets gener ble slettet i kreft). Til tross for denne sletting overkant, når alle mutasjoner moduser er inkludert, antall kandidat gener er mindre enn 0,5% av den analyserte humane genom.

kreft genprodukter er involvert i biologiske prosesser som cellesyklus, DNA-reparasjon og apoptose, i samråd med litteratur. De samme funksjonelle termer er også knyttet til gener i den kosmiske Cancer Census [18]. Påfallende, tyrosin kinaser, dominante onkogener, til stede i Kreft Census, var fraværende fra vår kreft gen-set, i samråd med utvalget for recessive gener.

Noen sterke begrensninger er iboende i vår tilnærming. Det er usannsynlig at de innspilte ramme-skift er polymorfismer, ettersom de forandre primærstrukturen av genproduktene. Omvendt, kan de være svært ofte resulterer i sekvense feil. Av denne grunn valgte vi å filtrere ut så mye som mulig sekvenseringsfeil ved hjelp av en paret t-test over et glidende vindu. En annen kontrovers kan være relatert til den somatiske karakter av de detekterte mutasjoner. Siden det er nesten ingen bakterie linjer sekvenser som tilsvarer de kreft bibliotekene i EST databasen, kan det ikke være noen formell demonstrasjon at de utvalgte gener tilsvarer somatiske mutasjon mål. Vi kan ikke fastslå hvor mange av de oppdagede uoverensstemmelser er ekte mutasjoner, og heller ikke hvor mange av dem er virkelig av somatiske opprinnelse. Vi kan bare legge til hvert menneske gen en p-verdi for det overskytende av uoverensstemmelser med genet inaktivere potensial i kreftprøver. Tilstedeværelsen av

TP53

,

PTEN Hotell og

CDKN2A

i kandidat-gen-set og dens funksjonelle egenskaper, er bevis i favør av hypotesen om at vi målte et overskudd av somatiske kreft mutasjoner. Vi vil være i stand til å tilbakevise denne hypotesen ved hjelp av ulike eksperimentelle protokoller. På den annen side er det mulig at noen av kandidatgener kan bære bakterie linjer mutasjoner og dermed utgjøre predisposisjon trekk for kreft insurgence.

Når vi sammenlignet våre resultater til de av den nylig publiserte massive sekvense prosjektet, noen forskjeller dukket opp. Vi brukte en større mengde sekvense data, om enn med lavere kvalitet siden vi ikke bruke andre pass sekvense data. Vi oppnådd fra dbEST et antall av mistilpasninger omtrent 5 ganger høyere enn genom brede sekvenseringsskjermer. Dette overskudd kan være på grunn av lavere kvalitet sekvenseringsdata i ESTs eller den høyere sensitiviteten til vår tilnærming i forhold til PCR-basert direkte sekvensering. Påvisning av underrepresenterte mutasjoner i ofte heterogene kreft biopsier kan være en teknisk utfordring for direkte sekvensering, men ikke for klonede ESTs.

ESTs ble brukt i tidligere forsøk på å identifisere kreftrelaterte gener. Nesten uten unntak disse metodene var basert på uttrykk profilering, som i tumorprøver er sannsynligvis korrelerer og sene arrangementer, blant tiltak som fører til tumorutvikling og progresjon. I en helt annen data mining innsats EST sekvenser i kreft, Qiu og medarbeidere [20] målt SNP-tumor forening. Deres analyse ble sterkt fokusert på single nucleotide uoverensstemmelser, og begrenset til kjente mutasjoner er beskrevet i SNP database og til stede i minst 50 EST treff. De identifiserte 4865 SNP hyppig i svulster (p 0,05), hvorav 327 indusert aminosyresubstitusjon (cSNP). Mange store histocompatibility kompleks (MHC) klasse II molekyler var tilstede blant disse kode SNPs, mens ingen var til stede i vår recessiv kreft gen-set. Viktigst, ingen landemerke kreftgener, for eksempel

TP53

,

PTEN Hotell og

CDKN2A

var til stede innen cSNPs. Til slutt, ingen av SNP genene som detekteres av Qiu et al. [20] var til stede i vår kandidat recessiv kreft genet sett

Minuttet kreft recessive sub-genomet ( 0,5%). Identifiserte vi kan representere en milepæl mot identifisering av nye markører for tidlig diagnose og prognose. I tillegg kan vår gruvedrift strategi anvendes på dataene som vil være tilgjengelig ved sekvensering av kreft genomer [22]. Til slutt kan arbeidet føre til en annen likevekt i bassenget av kreftgener, for tiden ubalansert mot dominante onkogener.

Materialer og metoder

EST data mining

All menneskelig koding

Legg att eit svar