Abstract
Bakgrunn
Selv om gjennomstrømningen av neste generasjons sekvensering er økende, og samtidig kostnadene blir vesentlig redusert, for de fleste laboratorier hele genomsekvensering av store årskull av kreft prøvene er fortsatt ikke mulig. I tillegg er et lavt antall genomer som blir sekvensert ofte problematisk for nedstrøms tolkning av betydningen av variantene. Målrettet resequencing kan delvis omgå dette problemet; ved å fokusere på et begrenset antall kandidat kreftgener i sekvens, kan flere prøver tas med i screening, følgelig resulterer i vesentlig forbedring av den statistiske kraft. I denne studien er en vellykket strategi for prioritering av kandidatgener for målrettet resequencing av kreft genomer presenteres
Resultater
Fire prioriteringsstrategier ble evaluert på seks ulike krefttyper. Gener ble rangert ved hjelp av disse strategiene og positiv prediktiv verdi (PPV) eller mutasjonsraten i løpet av de topprangerte gener ble sammenlignet med baseline mutasjonsraten i hver svulst type. Vellykkede strategier generere genet lister der toppen er beriket for kjente muterte gener, noe som gjenspeiles av en økning i PPV. Et klart eksempel på en slik forbedring er sett i tykktarmskreft, hvor PPV er økt med 2,3 ganger i forhold til baseline nivå når 100 topp fitSNP gener sekvensert.
Konklusjoner
Et gen prioritering strategi basert på fitSNP score ser ut til å være mest vellykket i å identifisere muterte kreftgener på tvers av ulike kreft enheter, med variasjon av genuttrykk nivåer som en god nest beste
Citation. Fieuw A, de Wilde B, Speleman F , Vandesompele J, De Preter K (2012) Kreft Gene prioritering for målrettet resequencing Bruke FitSNP Scores. PLoS ONE 7 (3): e31333. doi: 10,1371 /journal.pone.0031333
Redaktør: Giuseppe Novelli, Tor Vergata-universitetet i Roma, Italia
mottatt: 14 juli 2011; Godkjent: 06.01.2012; Publisert: 01.03.2012
Copyright: © 2012 Fieuw et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Dr. Fieuw og Dr. de Wilde er predoctoral stipendiater støttet av et fellesskap av Research Foundation – Flandern (https://www.fwo.be/). Dr. De Preter er postdoktor i Forskningsstiftelsen – Flandern. Denne studien ble støttet av Fond for Scientific Research (tilskudd nummer G.0198.08), Federal Government Institution (tilskudd nummer NKP_29_014) og samordnet forskning handlinger (stipend nummer 01G01910). Dette arbeidet ble utført delvis ved hjelp av Stevin superdatamaskin Infrastructure ved Ghent universitet, finansiert av Ghent universitet, Hercules Foundation og den flamske regjeringen – Institutt for økonomi, vitenskap og innovasjon. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Foreløpig er kreft exome og genomsekvense teknisk mulig gjennom neste generasjon sekvense teknologier som gir høy gjennomstrømning og lav kostnad per basen i forhold til klassisk Sanger-sekvensering [1]. Men på grunn av den massive mengden av sekvensdataene generert på både kodende og ikke-kodende genomiske regioner, en utfordring for identifisering av sykdoms relevante mutasjoner eller variasjoner oppstår. Dessuten, på grunn av den høye totale kostnadene for disse nye teknologier, som for et genom bred skjerm blir typisk utført på et begrenset antall prøver, noe som reduserer den statistiske kraften av slike studier. Derfor er rettet resequencing fremdeles blir utført og forblir en relevant og gyldig metode som kan omgå disse problemene [2]. Ved å fokusere på spesifikke kandidat gener, kan en større kohort av prøvene bli undersøkt, noe som vil øke den statistiske kraften i dataanalyse og vil tillate en bedre diskriminering mellom fører og passasjer mutasjoner. Den etterfølgende reduksjon i mengden av dannet sekvensinformasjon, ofte ledsaget av en høyere deknings dybde, vil i betydelig grad lette håndteringen og tolkning av dataene.
Avgjørende, krever en slik målrettet tilnærming en fremgangsmåte for å prioritere og rasjonelt velge passende kandidatgener å inkludere i sekvense innsats. Denne studien tar sikte på evaluering av fire forskjellige strategier for å prioritere kandidatgener for målrettet resequencing av kreft genomer.
En første tilnærming er basert på fitSNP (funksjonelt interpole enkeltnukleotidpolymorfi) database, som inneholder differensial uttrykk ratio (DER ) verdier for mer enn 18.000 humane protein-kodende gener [3]. Disse DER-verdiene beregnes på grunnlag av mRNA genuttrykkstudier i GEO (genekspresjon samle) database [4] og representerer forholdet mellom antall studier hvor et gen som er funnet å være uttrykt forskjellig og det antall studier i hvilken genuttrykk er evaluert. Gener med DER-verdier høyere enn 0,55 synes å være forbundet med forekomst av sykdom assosiert varianter [3]. Her, hypoteser vi at DER verdien av et gen kan brukes for å forutsi nærværet av mutasjoner i kreft genomer.
Den andre strategi for prioritering er relatert til fitSNP tilnærming og er basert på den faktiske variansen av genet uttrykk nivåer innenfor en svulst enhet (beregnet som standardavviket i en bestemt datasett). Denne hypotesen er basert på ideen om at variansen i gen-ekspresjon er forårsaket av en eller flere perturbasjonsteknikker mekanismer, inkludert genmutasjoner.
Korrelasjonskoeffisienten mellom genekspresjon nivåer og genet kopiantall ble evaluert som en tredje strategi, som muliggjør identifikasjon av dosering sensitive gener. Vår hypotese sier at doserings sensitive gener er mer tilbøyelige til å erverve mutasjoner som kan liberal deres uttrykk og funksjon.
Den endelige strategien er knyttet til Knudson-to hit hypotese som sier at tumorsuppressorgener er biallelically inaktivert [5 ]. Vi har derfor undersøkt om gener med en høy frekvens av kopiantall tap (først treffer) over datasettet er mer sannsynlig å bære en mutasjon (andre treffer).
I denne studien har vi undersøkt spesielt om topp- rangert gener i de prioriterte genet listene er mer sannsynlig å bære somatisk ervervede mutasjoner. Bortsett fra kandidat-gen rangering basert på en enkelt prioritering strategi, vi også undersøkt om kombinasjoner kan forbedre de opprinnelige resultater. Offentlig tilgjengelige datasettene ble anvendt, bestående av kopiantall, genekspresjon og mutasjons data for seks ulike tumortyper: brystkreft, tykktarmskreft, bukspyttkjertel cancer, eggstokk-kreft, glioblastom og medulloblastom. Tabell 1 gir en oversikt over de ulike studiene og antall prøver tilgjengelig for de ulike informasjonslagene.
Resultater
Sammenligning av de enkelte prioriteringsstrategier
De fire enkeltprioriterings strategier blir sammenlignet med hverandre og med grunnlinjen PPV for de seks ulike tumortyper hver for seg. Kurvene som er plottet i figur 1 representerer antall gener som må bli sekvensert for å oppnå et visst antall av muterte gener. Kurver under baseline punktet berikelse av mutasjon gener i den øverste rangerte gener og indikerer en verdifull strategi for målrettet resequencing.
Mutasjons plott som viser hvor mye gener som må bli sekvensert (y-aksen) for å finne et visst antall av muterte gener (angitt på x-aksen), for de seks ulike tumortyper. A: tykktarmskreft; B: bukspyttkjertelen kreft; C: brystkreft; D: eggstokkreft: E: glioblastom; F:. Medulloblastoma
fitSNP kurve for tykktarmskreft viser tydelig at prioritering basert på fitSNP DER verdier fører til en stor forbedring i oppdagelsen av muterte gener i forhold til et tilfeldig utvalg av gener (figur 1A) . Når 100 topp fitSNP genene sekvensert, er PPV eller mutasjonsraten økte med 2,3 ganger i forhold til baseline PPV (11% sammenlignet med 4,7%) (tabell S1). Dette gjenspeiles også i antall gener som må sekvensert for å finne 10 muterte gener; mer enn dobbelt så mange tilfeldig utvalgte gener (213) bør bli sekvensert i sammenligning med 93 topp fitSNP gener. Selv fitSNP klart overgår de andre prioriteringsstrategier i tykktarmskreft, de tre andre også lykkes prioritere muterte gener, selv om for uttrykket varians denne forbedringen er bare sett innenfor topp 100 gener (Figur S1 A). Den maksimale PPV som kan oppnås for tykktarmskreft er 50% for de beste 4 fitSNP gener (Tabell S1).
Også for bukspyttkjertelen kreft, utkonkurrerer fitSNP strategi de andre strategier og tilfeldig utvalg (figur 1B). For både uttrykket varians og hyppigheten av kopiantallet tap ingen vesentlig forbedring ble lagt merke til. På grunn av manglende matching genekspresjon og kopi talldata for bukspyttkjertelen kreft, kunne ingen doseringsfølsomhetsverdier bestemmes. Økningen i PPV begynner med større genet lister i bukspyttkjertelen kreft sammenlignet med tykktarmskreft og er allerede klart for de beste 250 gener. Elleve muterte gener kan bli funnet når de topp-100 fitSNP genene sekvensert (PPV: 11%), sammenlignet med 6 gener med mutasjoner for et tilfeldig utvalg av 100 kandidat gener (PPV: 6,5%), som er en nesten to-fold øke (tabell S1). Innenfor topp syv av fitSNP rangert gener maksimalt PPV på 28,6% ble oppnådd (tabell S1, figur S1B).
For brystkreft den fitSNP strategien viser igjen en forbedring i forhold til utgangsverdien, men denne forbedringen er heller beskjeden. For eksempel for å finne 10 muterte gener, bør 164 tilfeldige gener bli sekvensert i forhold til 150 topp fitSNP gener (figur 1C, Tabell S1). Uttrykket varians strategi viser seg å være bedre enn en tilfeldig gen utvalg når de topp-50 gener er sekvensert. Genet som dosen følsomhet førte ikke til noen forbedring av resultatene i denne tumortype. For de topp-100 fitSNP gener og topp-50 uttrykk varians gener en bratt økning i PPV er til stede, med maksimal PPV på 25% (topp-4 gener) og 16% (topp-6 gener) (Tabell S1, figur S1C ).
Siden grunnlinjen PPV for eggstokkreft er svært lav (0,73%), bør mer enn 1300 tilfeldige gener må sekvensert for å finne 10 gener med en mutasjon (figur 1D). Men når du fokuserer på de beste fitSNP gener, trenger bare omtrent halvparten så mange som skal sekvensert (651), som bekrefter at fitSNP strategien er også en gyldig strategi for denne svulsttypen. I mindre grad genet dosering kan også øke antallet av muterte gener ble funnet for det samme antall sekvenserte gener.
For de to gjenværende tumortyper, glioblastom og medulloblastom, uttrykket variansen i stedet for fitSNP strategien virker for å vise de beste resultatene (figur 1E, 1F). I glioblastom uttrykket variansen er den beste strategien for å forbedre mutasjon genet utvalg i forhold til grunnlinjen, men når man ser på de øverste 100 rangert gener, kan en økning i PPV særlig ses for fitSNP strategien (figur S1E).
baseline PPV i medulloblastoma kan forbedres ved hjelp av alle tre strategier. For eksempel, for å finne 10 muterte gener i en skjerm, mer enn 1600 tilfeldige genene må bli sekvensert, noe som kan reduseres til 321, 416 og 445 topp gener for ekspresjon varians, hyppigheten av kopiantall tap og fitSNP DER verdier, henholdsvis. Ser på PPV tomten for medulloblastoma en rask reduksjon kan ses for de topprangerte gener av alle strategier, noe som indikerer at ingen av de muterte gener kan bli funnet i en av de topprangerte genet lister (Figur S1F).
Prioritering ved hjelp av kombinert strategier
Vi tidvis observert betydelige forbedringer i PPV ved kombinasjon av ulike strategier (tabell S1, Figur S2). Ett tydelig eksempel er brystkreft, hvor gjennomsnitts PPV verdien når 26,9% for de topp-25 gener når genet dosering følsomhetsverdier (0% PPV for topp-25 ved hjelp av enkle metoden) og hyppigheten av kopi antall tap (9,2% for topp -25 bruker enkelt metode) kombineres (tabell S1, figur S2C).
et annet eksempel er medulloblastoma hvor ingen av de tre evaluerte parametrene hadde en PPV verdi høyere enn 0% for topp-50. Kombinasjoner av fitSNP DER verdi og uttrykk varians eller uttrykk varians og hyppigheten av kopiantall tap viste en klar økning i PPV verdi i de topprangerte gener (Tabell S1, Figur S2F).
For glioblastom, fitSNP verdier i kombinasjon med uttrykket varians klart utføres best; for å finne 10 muterte gener 120 topp gener skal bli sekvensert ved den kombinerte strategi blir benyttet, i forhold til 259 eller 157 gener for den fitSNP eller uttrykket varians enkelt strategier, henholdsvis (tabell S1, fig S2E). Disse resultatene indikerer at forbedringer i PPV-verdien kan oppnås ved å anvende kombinasjoner av to forskjellige strategier. Imidlertid, for noen kombinasjoner, en svekkelse i stedet for forbedring av resultatene ble oppnådd, og viser at det å kombinere ulike strategier for prioritering ikke i seg resultat i bedre kandidat gen rangeringer.
Sammenligning av alle strategiene på tvers av de forskjellige tumortyper
for å sammenligne de ulike prioriteringsmetoder på tvers av de seks kreft enheter, en vektet rangeringen metoden ble brukt på gjennomsnittet for PPV verdien av de 100 topprangerte gener, for å produsere en rangert liste over prioriteringsmetoder (tabell S2, Figur S3). Den fitSNP DER verdistrategi i kombinasjon med uttrykket variansen, ble rangert som den beste samlede metode for prioritering av kreftgener for målrettet resequencing, etterfulgt av fitSNP DER verdier alene. Lignende resultater ble sett ved hjelp av et bredt spekter av ulike cut-offs med hensyn til antall topp-ranking gener tatt i betraktning (tabell S2).
Genet dosering følsomhet verdi ble rangert sist og var den eneste strategien som ble rangert under grunnlinjen verdi, noe som indikerer at denne strategien på seg selv er ikke nyttig å prioritere muterte gener i de testede kreft enheter. I kontrast, når kombinert med enten fitSNP eller hyppigheten av kopiantall tap strategi, ble genet dosering følsomhetsverdien rangert tredje og fjerde, henholdsvis.
Forskjeller i mutasjons byrde på tvers av de forskjellige krefttyper
Når du ser på mutasjon frekvenskurver for de seks ulike krefttyper (Figur 1A-F), ser vi at både eggstokkreft og medulloblastoma grunnlinjen PPV eller mutasjonsraten er svært lav sammenlignet med de fire andre svulst enheter (tabell S1 ). Grunnlinjen PPV av bukspyttkjertel cancer (6,5%) er mer enn 10 ganger høyere enn den for medulloblastom (0,6%). Dette betyr at for å finne 10 gener med mutasjoner ca 150 tilfeldige gener ville måtte bli sekvensert i bukspyttkjertel cancer, men over 1500 i medulloblastom (figur 1C, 1F). Grunnlinjen PPV for brystkreft, tykktarmskreft og glioblastom er mer sammenlignbare med bukspyttkjertelen kreft og ligge mellom 4,1 og 6,1%, mens eggstokkreft har en baseline PPV på 0,7%.
Diskusjoner
Gitt dagens høye kostnadene ved exome og hele genomsekvensering, vurdert vi om målrettet resequencing av prioriterte gener er et kostnadseffektivt alternativ til å studere et begrenset, men relevant undergruppe av mulige kreftgener. Fire hovedtilnærminger å prioritere gener ble undersøkt: et gens fitSNP DER verdi, variansen av genuttrykk nivåer i en tumor type, genet dosering følsomhet og hyppigheten av genkopitallet tap
Hvis en prioritering strategi. gyldig, bør de topprangerte gener i organisert genet liste bli beriket for muterte gener. Vi evaluerte denne anrikning ved å beregne den positive prediktiv verdi (PPV), som representerer sekvenser utbytte som brøkdel av muterte gener i forhold til det totale antall gener analysert. Hvis muterte gener er anriket i de topprangerte gener, vil PPV øke for et mindre antall topprangerte gener. PPV-verdier ble beregnet for synkende antall topprangerte gener, og bety PPV-verdiene ble beregnet for et antall definerte størrelser av topprangerte genet lister. I tillegg til en økning i PPV i forhold til mindre gen lister, bør en gyldig strategi krever også en høy PPV i forhold til grunnlinjen, da dette indikerer at et høyt antall av muterte gener som kan forventes når det utføres en målrettet resequencing eksperiment.
Våre resultater viser tydelig forbedring i mutasjonsraten av utvalgte gener når prioriteringsstrategier brukes i forhold til baseline nivå. Disse forbedringene er sett i flere krefttyper og ved hjelp av ulike prioritering strategier, med noen variasjoner mellom de ulike krefttyper. Denne variasjonen indikerer at det er ingen universell metode for å prioritere genene i alle tumortyper, selv om de beste forbedringer og de største totale PPV-verdier ble oppnådd for fitSNP strategien.
Disse mellom tumor enheter forskjeller er mest sannsynlig reflekterer rapportert mangfold i mutasjons landskap i de forskjellige tumortyper, så vel som den spesifikke mutasjons bakgrunn av de individuelle tumor genomene [6], [7]. For eksempel, la vi merke til en svært liten mutasjonsfrekvens for barn kreft medulloblastoma, som er i samsvar med rapporten fra Parsons
et al.
Beskriver at denne svulsten viser en helt annen mutasjons landskapet sammenlignet med voksne svulster [7 ]. Lave mutasjon frekvenser er ikke begrenset til pediatriske kreft bare, som i denne konkrete studien har vi funnet en mutasjon rente på bare 0,7% i eggstokkene klare cellekreft prøver, som var bemerkelsesverdig lavere enn i de andre undersøkte voksne tumortyper (4.1 til 6.5%) .
for å kunne vurdere ulike metoder på tvers av alle svulst datasett, ble veid ranking metode som brukes, og peker på at den beste samlede resultater strategi var basert på fitSNP forskjellig uttrykt ratio (DER) verdier. Mens det tidligere var en hypotese av Chen og kolleger at kreftgener har høyere fitSNP DER verdier, gjorde forfatterne ikke validere dette ved å sammenligne fitSNP verdier til mutasjonsstatus av genene [3]. Fra resultatene konkluderer vi med at cut-off for fitSNP DER-verdier som bestemt i den opprinnelige studien (dvs. 0,55 [3]), er ikke optimalt å prioritere muterte kreftgener, siden for ingen av tumorene en betydelig økning i PPV kunne bli funnet ved bruk av denne terskel. Vi foreslår at du bruker en høyere terskel på 0,65 for prediksjon av varianter i kreftgener (som kan utledes fra figur 2, som representerer den samlede PPV kombinere alle krefttyper).
En PPV tomt for fitSNP strategi, utført på mutasjon data av alle kombinert tumor enheter, i funksjon av ulike prioritering verdi cut-offs.
genet dosering følsomhet ikke synes å ha noen prioritering verdi, mens uttrykket varians og hyppigheten av kopi antall tap var noe bedre enn genet dosering sensitivitet, men mindre bra enn fitSNP. Av notatet, hyppigheten av kopi antall tap viste seg å ikke være svært nyttig i praksis, siden det lave antall av cut-off verdier hindrer å lage forskjellige gen valg, noe som gjør uttrykket variansen en foretrukket andre beste strategien.
Ved å kombinere to forskjellige strategier, var det noen ganger mulig å forbedre resultatene fra de enkelte strategier. Selv om forbedringer kan av og til være stor, det igjen syntes å være svært avhengig av datasettet som reflekterer de forskjellige mutasjons mekanismer i forskjellige tumorer. For eksempel, ingen av de tre metodene prioriterings evaluert var nyttige for medulloblastom, mens kombinasjoner av to forskjellige parametre har med hell prioritere gener.
Mens forskjellige kreft genet prioriterings metoder ble vist å være i stand til å øke utbyttet av muterte cancer gener i de forskjellige testede cancer enheter, er ingen av metodene er spesielt anriket for gener som ble mutert i mer enn en prøve (data ikke vist). Dette er sannsynligvis på grunn av det begrensede antall kreft genomer studert i hver enhet, og det faktum at de fleste av genene er funnet å være mutert i bare én prøve (90 til 91%) (Tabell S3).
det er noen begrensninger i denne studien som må vurderes, for eksempel størrelsen på utvalget av noen av datasettene var ganske begrenset, spesielt for de store genomsekvense studier (7-24 prøver per enhet). Men det er på dette punktet er vanskelig å finne store kreftgenomsekvense studier utført på et tilstrekkelig antall prøver, bekrefter starter forutsetningen for vårt arbeid som sekvensering er for tiden koste prohibitive.
På grunn av den begrensede informasjonen som er i dag tilgjengelig på fører- og passasjer gener, kan vi ikke riktig undersøke om fitSNP strategi er i stand til å skille mellom fører og passasjer mutasjoner. Men de topp-10 fitSNP gener inneholder 30% av kreft Gene Census gener [8], dvs. RUNX1, TRA @ og NF1, mens to andre gener ut av topp-10, CTNNA1 og SMAD3, har en etablert rolle i kreftutvikling samt [9], [10], viser at denne strategien bidrar til å identifisere gener med dokumentert rolle i kreftutvikling (tabell S4, figur S4).
i tillegg til gyldigheten av den foreslåtte strategi for målrettet resequencing, gen prioritering kan også være en merverdi til exome eller hele genomsekvensering. Etter slike sekvense innsats på et begrenset kohort, vil variantene som finnes mest sannsynlig må validert i en større kohort. Den fitSNP strategi kan være nyttig for prioritering og filtrering av kreftgener i en slik valideringsstudie.
Materialer og metoder
Lister over muterte gener i kreft
Seks storskala sekvense studier ble anvendt for ekstraksjon av mutasjons data på seks forskjellige tumor enheter (brystkreft, tykktarmskreft, bukspyttkjertel cancer, eggstokk-kreft, glioblastom, medulloblastom) [7], [11] – [15] (tabell 1). Disse datasettene består av å sekvensere informasjon på tilnærmet 18 000 til 21 000 gener, med en prøvestørrelse fra 7 til 24, og ble anvendt for å validere de forskjellige prioriterings strategier. Hypermutated prøver, på grunn av kjemoterapeutisk behandling, slik det er beskrevet i de respektive avisene [11], [13], ble ekskludert fra analysen.
Kopier nummer og genuttrykk datasett
For seks kreft enheter kopiere nummer og genuttrykk data ble lastet ned fra GEO [4]. Vi valgte spesifikt prøver med en tumorhistologi svarende til den for prøvene i de store skala sekvenseringsskjermer så tett som mulig (tabell 1). For bukspyttkjertelen kreft og medulloblastoma ingen matchende genekspresjon og kopiere talldata var tilgjengelig. Utvalgsstørrelsene i disse studiene varierte fra 9 til 77.
Dataanalyse
For alle eksemplar nummer datasett, sirkulær binær segmentering (CBS) verdier [16] ble bestemt og ekstrahert for hvert gen lokasjon. Hvis ingen CBS verdi var tilgjengelig for et bestemt gen sted, ble den nærmeste verdien som er tilordnet genet. Disse CBS verdier ble anvendt for å bestemme frekvensen av kopiantallet tap av hvert gen i den tumor-kullet, og ble korrelert med genekspresjon nivåer (Spearman rang korrelasjon). For bestemmelse av kopiantall tap, ble ulike cut-off-innstillingene som brukes, i henhold til informasjon gitt i den opprinnelige papir av datasettet brukes (tabell S5). Uttrykket varians for hvert gen innenfor hver tumortype ble beregnet ved standardavviket av loggede ekspresjonsnivåene.
Basert på deres korresponderende prioritering verdi, enten fitSNP DER verdi [17], et uttrykk varians, gen dosering følsomhet eller hyppighet av kopiantall tap, ble genene rangert i synkende rekkefølge.
for de kombinerte metoder, ble de topprangerte genet lister bestemmes ved å ta i skjæringspunktet mellom de topprangerte gener som definert av to enkle parametere.
for hver kreft enhet, ble antallet av muterte gener plottet (y-aksen) i forhold til et visst antall topprangerte gener som skal bli sekvensert (x-akse). For enkeltprioriterings strategier for disse kurver ble så sammenlignet med referansemutasjons nivå i tumoren enhet, som representerer forholdet mellom muterte gener versus antallet gener sekvensert for å oppnå et visst antall av muterte gener hvis ikke prioritering strategien brukes.
i tillegg er den positive prediktiv verdi (PPV), eller den mutasjonshastigheten, ble beregnet for alle forskjellige strategier. Denne verdien representerer forholdet mellom antall gener med mutasjoner og det totale antall gener i en viss gen delsett. Disse verdiene ble beregnet for forskjellige cut-off-nivået av topprangerte gener (500 – 400-300 – 200-150 – 100 – 75-50 – 25-10), hvorved endringen i PPV i forhold til referanseverdien ble vurdert.
for å identifisere de beste resultater strategi på tvers av de forskjellige krefttyper, mener PPV verdier bestemt for flere topprangerte gener avskjær, og grunnlinjen PPV, (tabell S1) ble analysert ved hjelp av brute force vektet rangering analyse. Denne analysen ga en rangert liste over de forskjellige prioriteringsmetoder på tvers av de forskjellige krefttyper (Tabell S2). For det veide rangeringen analyse av de 10 forskjellige prioriterings strategier (4 single strategier og 6 kombinstrategier), ble medulloblastom og bukspyttkjertel cancer datasett utelukket, på grunn av fravær av genet doseringsfølsomhetsverdiene.
Som et evaluerings av den fitSNP cut-off bestemmes av Chen et al. [3], ble det mutasjons informasjon om alle forskjellige krefttyper kombinert og PPV ble bestemt for forskjellige fitSNP cut-off-verdier (figur 2).
For alle analyser, den statistiske plattformen R ble anvendt (pakker GEOquery , DNAcopy, RankAggreg) [18] – [20]
Hjelpemiddel informasjon
Figur S1..
Oversikt over PPV tomter i funksjon av antallet av sekvenserte gener for de seks enheter kreft.
doi: 10,1371 /journal.pone.0031333.s001 plakater (TIF)
Figur S2.
Visualisering av de vektede rangering resultater for topp-100 rangert gener. De grå linjene representerer rangeringen av de fire forskjellige krefttyper for de 10 prioriteringsstrategier (4 enkle strategier og 6 kombinert strategier) og baseline nivå. I rødt, er et resultat av brute force rangering algoritme vist. Den svarte linjen er der basalnivået er rangert på tvers av de ulike datasett. EV: uttrykk varians; DS: dosering følsomhet; FCNL: Hyppigheten av kopiantall tap
doi: 10,1371 /journal.pone.0031333.s002 plakater (TIF)
Figur S3.
Tomter av antall muterte gener i forhold til et visst antall topprangerte gener for de seks kreft enheter, inkludert kombinasjonsstrategier.
doi: 10,1371 /journal.pone.0031333.s003 plakater (TIF)
Figur S4.
Tomter av andelen muterte fitSNP gener som er funnet å være sjåfører. For tykktarmskreft, glioblastom, bukspyttkjertelen og brystkreft, er PPV plottet for de 500 fitSNP gener (svart linje). Den grå linjen representerer prosentandelen av muterte fitSNP gener som er identifisert som driver gener i henhold til de respektive publikasjonene. Anriking av identifiserte driver gener kan sees i de beste fitSNP gener i både tykktarmskreft og glioblastom, mens i bukspyttkjertelen og brystkreft dette kan ikke bekreftes
doi:. 10,1371 /journal.pone.0031333.s004
(PDF)
Tabell S1.
Oversikt over analysene per kreft enhet og prioritering strategi. Oversikt notering PPV, antall sekvenserte gener og antall muterte gener for grunnlinjen PPV, maksimum PPV, et annet antall topprangerte gener og en til 20 muterte gener. I rødt, er verdiene angitt som ikke samsvarer med antall topprangerte gener vurderes, på grunn av cut-off restriksjoner på prioriterings metode
doi:. 10,1371 /journal.pone.0031333.s005 product: ( XLS)
Tabell S2.
Rangert lister over de ulike prioriteringsmetoder. Disse rangert listene er basert på brute force vektet rangering algoritme, utført på tvers av de ulike kreft enheter. Kåringen er utført på de enkelte prioriteringsstrategier alene, så vel som sammen med den kombinerte strategier
doi:. 10,1371 /journal.pone.0031333.s006 plakater (XLS)
tabell S3.
Oversikt over de muterte gener i de ulike studerte kreft enheter.
doi: 10,1371 /journal.pone.0031333.s007 plakater (XLS)
Tabell S4.
Oversikt over de muterte gener i topp-500 fitSNP gener.
doi: 10,1371 /journal.pone.0031333.s008 plakater (XLSX)
Tabell S5.
Cut-offs som brukes for de ulike kreft enheter for å fastslå kopi nummer tap.
doi:. 10,1371 /journal.pone.0031333.s009 plakater (XLS)
Takk
Vi vil gjerne takke Filip Pattyn for hans innspill til vektet rangering analyse