PLoS ONE: S-Score: En Scoring System for identifisering og prioritering av forventet kreftgener

Abstract

En ny metode, som gjør det mulig for identifisering og prioritering av predikerte kreftgener for fremtidig analyse, er presentert. Denne metoden genererer et gen-spesifikk poengsum kalt «S-Score» ved å inkludere data fra ulike typer analyser inkludert mutasjon screening, metylering status, kopi-nummer variasjon og uttrykk profilering. Metoden ble brukt på data fra Kreft Genome Atlas og tillot identifisering av kjente og potensielt nye onkogener og tumor dempere forbundet med ulike kliniske funksjoner, inkludert korteste perioden for å overleve i eggstokkreft pasienter og hormonelle undertyper hos brystkreftpasienter. Videre, for første gang et genom-bred søke etter gener som oppfører seg som onkogener og tumor lyddempere i forskjellige tumortyper ble utført. Vi ser for oss at S-score kan brukes som en standard metode for identifisering og prioritering av kreftgener for oppfølgingsstudier

Citation. De Souza JES, Fonseca AF, Valieris R, Carraro DM, Wang JYJ, Kolodner RD, et al. (2014) S-Score: En Scoring System for identifisering og prioritering av forventet kreftgener. PLoS ONE 9 (4): e94147. doi: 10,1371 /journal.pone.0094147

Redaktør: Gil Ast, Tel Aviv University, Israel

mottatt: 12 november 2013; Godkjent: 13 mars 2014; Publisert: 07.04.2014

Copyright: © 2014 de Souza et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien ble støttet av CNPq bevilgning 483775 /2012-6 til SJS og ved National Institutes of Health gi GM26017 til RDK. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

tilgjengeligheten av ulike «omics» teknologier og den siste utviklingen av neste generasjons sekvensering har brakt nye perspektiver til feltet av kreftforskning [1]. Kreft Genome Atlas (TCGA) prosjekt, for eksempel, har generert store mengder data ved å bruke de forskjellige «omics» teknologier for å studere orgel-site spesifikke kreftprøver [2] – [5]. De TCGA data omfatter somatiske mutasjoner, genekspresjon, metylering og kopiantall variasjon, som sammen med kliniske opplysninger fra pasientene representerer en viktig ressurs for utvikling av nye strategier for diagnostiske og terapeutiske intervensjoner samt gi grunnlagsdata for mer detaljerte studier av spesifikke gener og stier [2] -. [5]

Disse genom-wide data har blitt brukt til å identifisere gener som er endret i kreft. Disse endringene oppstår vanligvis i tumorsuppressorgener som p53 eller onkogener som KRAS. Endringer i tumorsuppressorgener vanligvis føre til tap av funksjon av de respektive proteiner, mens forandringer i onkogener fører til øket eller endret aktivitet, enten som følge av høyere ekspresjon eller aktiverende mutasjoner. Selv om det er gener som ofte endres i kreft, en slående eksempel er p53, en av de viktigste konklusjonene fra de første store studier er at tumorigen prosessen drives av endringer i forskjellige gener, både individuelt og i kombinasjon, avhengig av den enkelte sammenheng med pasienten, blant annet [2] – [7]

Et viktig spørsmål i analysen av disse «omics» datasettene er hvordan man skal måle effekten av alle genetiske endringer funnet. i en kohort av prøver. Det som er nødvendig for en slik innvirkning studien er en gen-spesifikk stillingen som er både kvalitativ (som angir om et gen er en suppressor, et onkogen, enten eller begge) og kvantitativ (som angir frekvensen av endringer av genet i en gitt sett av svulster). Tidligere forsøk på å generere verdiene for kreftgener har brukt en enkelt type data, enten mutasjonsfrekvens eller uttrykksmønster [6], [8]. I den senere tid Volgestein et al. [1] foreslått en strategi som tar hensyn til både type somatiske mutasjoner (tilbakevendende missense for onkogener og inaktive mutasjoner for kreftdempere) og deres frekvens (de adopterte en 20% -regelen, dvs. de typer mutasjoner måtte dukke opp i ved minst 20% av de analyserte prøver). Selv om denne strategien kan effektivt identifisere de vanligste driver mutasjoner i svulstene, betyr det ikke utforske hele spekteret av genetiske /epigenetiske forandringer som genererer den karakteristiske genetisk heterogenitet i svulster. En annen fremgangsmåte har innbefattet beregningen av antall ikke-redundante prøver hvor et gitt gen eller en gruppe av gener som er endret. Selv om denne strategien har vært mye brukt, som for eksempel i CBio Cancer Genome Portal [9], betyr det ikke diskriminerer mellom onkogene og kreft undertrykke endringer og tillater ikke brukeren å gi ulike vekter for den type genetisk forandring funnet.

Her foreslår S-stillingen, som integrerer informasjon om mutasjonstatus, uttrykksmønster, metylering status og kopitallet for å frembringe en unik verdi er direkte proporsjonal med frekvensen i hvilken et gitt gen er endret i en krefttype. Den kritiske verdien av denne metoden er at det letter identifiseringen av spådd kreftgener, rang ordre dem til å prioritere dem for fremtidig dyptgående analyse og indikerer hvilke funksjoner (f.eks mutasjon, uttrykk, metylering, kopiantall endringer og kombinasjoner av disse) bør undersøkes nærmere. Som et bevis på prinsipp, ble her S-poengsum metoden anvendt på data fra Kreft Genome Atlas (TCGA) prosjekt for GBM, tykktarms, eggstokk og brystsvulster.

Materiale og metode

data~~POS=TRUNC kilde~~POS=HEADCOMP

Expression z-score, metylering og GISTIC CNV (kopi antall variant) data ble hentet fra den cBIO portalen ved hjelp av CGDS-R-pakke, som gir en grunnleggende sett av funksjoner for spørring Kreft Genomisk data Server (CGDS) via R-plattform for statistisk databehandling (https://cran.r-project.org/web/packages/cgdsr/index.html). Somatisk mutasjon data ble oppnådd fra den kosmiske databasen [10] og fra en lokal samling av alle somatiske mutasjoner som finnes i litteraturen. Terskler for alle typer data er omtalt nedenfor. Kliniske data for alle prøver ble innhentet fra TCGA nettsiden (https://tcga-data.nci.nih.gov/tcga/tcgaHome2.jsp).

CNV forsterkning og sletting

antatte kopitall oppfordrer prøvene ble bestemt ved bruk GISTIC [9]. De publiserte GISTIC terskler er brukt i denne studien var: homozygot delesjon, = -2; sletting, -2 Til = 1; nøytral -1 Til 1; vinning, = 1 til 2; og forsterkning, = 2. boksplott ble generert ved hjelp ggplot2, et grafikkverktøy for R statistikkpakken.

Expression analyse

Expression data fra cBio portalen ble brukt i analysen som presenteres her [9]. Ekspresjonsnivået gitt er den relative ekspresjon av et gitt gen i forhold til ekspresjon av dette gen i en referansegruppe (enten tilstøtende normale prøver eller tumorer som er diploid for det genet). Opp og ned-regulering ble utledet ved den Z-score på det uttrykket nivå, dvs. antall standardavvik fra gjennomsnittet av uttrykket i referansegruppen. Samme uttrykk data ble anvendt ved beregning av S-stillingen på figur 1, og også som en selvstendig datasett i figur 2.

Tverrgående grå linjer angir en Z-score terskel lik 3. GBM, glioblastom; OV, eggstokkreft; BRCA, brystkreft; og COADREAD, tykktarmskreft.

Hvert datapunkt tilsvarer en prøve. (A) Punktdiagram som viser uttrykket (Y-aksen) og metylering status (X-aksen) for TMEM101 i settet av ovarietumorer fra TCGA. (B) Scatter plot som viser uttrykket (Y-aksen) og kopiere nummer status for FBXO25 for eggstokkreft fra TCGA. Basert på Gistic verdier, ble prøvene delt i ulike kategorier (X-aksen). Se Metoder for Gistic terskler. (C) Scatter plot som viser uttrykket (Y-aksen) og kopiere nummer status for ACTR5 i colontumorer fra TCGA. Basert på Gistic verdier, ble prøvene delt i ulike kategorier (X-aksen).

Somatiske mutasjoner

For å beregne S-score, vi bare betraktet nonsense mutasjoner (variable ns i ligninger som er presentert i teksten) som ble funnet for det aktuelle genet i denne tumortype. Variabelen ble stratifisert til to mulige situasjoner: der bare nonsense mutasjoner forekommer i tumorprøver fra TCGA ble vurdert og hvor nonsense mutasjoner forekommer i samme tumortype (alle prøvene som er tilgjengelige i COSMIC) ble vurdert. ble brukt for data som er presentert i figurene 3 og 4 og samtidig ble anvendt for analysen presentert i figur 1, figur 5 og tabell 1.

A heatmap plott som viser gener med S-skårer signifikant forskjellig mellom kort og lang -term overlevelse hos pasienter med ovarietumorer. Blå er et tegn på negativ S-stillingen mens gult er et tegn på positiv S-poengsum.

S-poengsum sammenligning for de 50 øverste onkogener og 50 topp tumor dempere mellom ER-PR- og ER + PR + brystkreft undertyper. Hvert datapunkt er et gen. X og Y-aksene representerer S-score for ER + PR + og ER-PR- sub-typer, henholdsvis.

Genome-wide analyse av gener oppfører seg som tumor suppressor i en tumortype og onkogen i en annen tumortype. Seksti-sju gener med S-poengsum -2,5 i en tumor type og S-poengsum 2,5 i en annen svulsttypen ble valgt og en heatmap viser deres S-score for alle krefttyper er presentert. Blå representerer negative S-score mens gul representerer positive S-poengsum

Resultater og Diskusjon

S-score er gitt ved likningen # 1:. (1) hvor, (2) og (3)

hvor, etter

= antall nonsens mutasjoner for det respektive genet.

= antall prøver hvor de respektive genet er metylert .

= totalt antall prøver informative for metylering analyse.

= antall prøver der det respektive genet er slettet

= totalt antall prøver informative for CNV analyse.

= antall prøver hvor de respektive genet blir forsterket.

= antall prøver hvor de respektive genet er over-uttrykt.

= totalt antall prøver informative for analyse av genuttrykk.

= antall prøver der det respektive genet er under-uttrykt.

= indeks for forsterkning.

= indeks for over-uttrykk.

= indeks for nonsense mutasjoner.

= indeks for metylering.

= indeks for sletting.

= indeks for under utfoldelse.

I tilfelle 1 og 1, da (4)

I tilfelle 1 og 1, da (5)

I tilfelle og er begge mindre enn en , deretter . I denne rapporten er log en representasjon av log

2.

Bruk av loggen i ligningen # 1 gjør at S-score for å variere fra negativ (indikasjon på svulst undertrykke eller redusert genaktivitet) til positiv (tegn på onkogen eller økt genaktivitet) verdier. S-stillingen som et forhold mellom (ligning # 2) og (ligning # 3) tar også sikte på å gi mer verdi til de gener som presenterer en eksklusiv mønster av enten tumor undertrykke eller onkogen aktivitet i en respektiv tumortype. En annen viktig sak å understreke er at hver type data, CNV, mutasjon, uttrykk og metylering, behandles selvstendig og har en proporsjonal vekt gitt av den numeriske indeksen knyttet til hver datatype.

S-poengsum metode ble testet ved bruk av data fra prosjekt TCGA for fire typer av tumorer: glioblastom (GBM), kolorektal tumor, bryst-tumor og eggstokk tumor. En kritisk parameter ved beregning av S-score er numerisk indeks som brukes for hver type data. For å finne de beste indeksverdier for parametrene i ligningene # 2 og # 3, ble to verdier for hver indeks testet. I alle scenariene, ble mer vekt gitt til nonsens mutasjoner på grunn av det faktum at denne type endring vanligvis fører til en betydelig reduksjon i funksjon av den respektive protein. Videre er det i alle scenarier metylering ikke ble brukt på grunn av kvalitet kontroll problemer.

En liste over 138 kreftgener identifisert av Volgestein et al [1] ble brukt som en målestokk for å vurdere hvilke sett av indekser vil velge mer kjent onkogener og tumor dempere. Selv om denne listen ble utarbeidet ved hjelp av data fra flere krefttyper, og her har vi bare analysert fire krefttyper, tror vi vår analyse er omfattende nok for en slik test. For hver tumortype analysert her antall gener med S-poengsum -2 eller 2 ble beregnet for hvert scenario (tabell S1). For å teste for en mulig berikelse, ble en Monte Carlo-simulering utføres hvor tilfeldige sett av 138 gener (av alle kjente menneskelige gener med en S-score for de respektive tumor) ble valgt og antall ekstreme S-score beregnet. Blant alle testede scenarioer, den ene med en høyere verdi for nonsense mutasjoner (= 5) og en verdi på 0,5 for alle andre indekser fremmet den viktigste berikelse av kjente kreftgener for alle krefttyper (Tabell S1). Videre, for å unngå enhver skjevhet på grunn av en vilkårlig terskelverdi (S-stillingen -2 eller 2), anvendte vi en ny terskel for hver tumortype er definert som S-stillingen med en Z-score på 2 (gjennomsnitt av alle S-score pluss eller minus to standardavvik) (Tabell S2). Det samme sett av indekser, som sammen med den foregående analysen, viste den høyeste anrikning av kjente kreftgener. Dette settet med indekser (= 5; = 0,5; = 0,5; = 0,5 og = 0,5). Deretter ble brukt for alle andre studier

For å få mer informasjon om prediktiv kapasiteten til S-poengsum metode, en annen referanseindeks strategien ble utført for å definere «positiv prediktiv verdi» og «negativ prediktiv verdi» for hver svulst type. Tusen tilfeldige sett av 50 gener ble valgt fra en liste på 138 gener fra Volgestein et al. [1] og ble anvendt for å beregne gjennomsnittlig antall sanne positive og falske negative. På lignende måte ble det tusen tilfeldige sett av 50 gener valgt fra alle humane gener (minus 138 kreftgener) ble valgt og anvendt for å beregne gjennomsnittlig antall av sanne negative og falske positive for hver tumortype. Disse verdiene er vist i tabell S3 Det er verdt å nevne, men at en liste over kreftgener fra Volgestein et al. [1] er ikke den gylne standard for denne typen analyser siden den inneholder flere gener som enten onkogener eller dempere i tumortyper forskjellige enn de analysert her. Disse funksjonene sannsynligvis undervurdere prediktiv kapasiteten til S-poengsum metoden.

Disse tidligere analyser viser at S-poengsum metoden er i stand til å identifisere

bona fide

onkogener og tumor dempere. Data som er vist i tabell 1 bekrefter at sammenstillingen av kreftgener fra Volgestein et al. [1] er forutinntatt mot ekstreme S-score ( 2 eller -2). Når en normalisert terskel brukes (S-score som representerer den gjennomsnittlige S-poengsum pluss eller minus to standardavvik) det samme mønsteret er observert (tabell S4).

Figur 1 tomter fordelingen av S-score for alle menneskelige gener i hver tumortype. De menneskelige gener med S-score som var positive eller negative ytterligheter (Z rille 3) i minst en tumor type er oppført i tabell S5. Som en bekreftelse på denne fremgangsmåte, tidligere kjente tumor suppressorer og onkogener viser ekstreme S-resultater verdier for disse typer av tumorer. I GBM, for eksempel genet med høyest S-stillingen er EGFR. Andre gener med høye positive S-score inkludere de som er kartlagt til samme locus som EGFR (som SEC61G, LANCL2 og ECOP) og er derfor forsterket sammen med EGFR. Selv om disse genene er ikke nødvendigvis en årsaks involvert i tumorigent prosessen, de representerer bona fide genetiske endringer i tumortype som kan gi nye terapeutiske og diagnostiske muligheter, som rapportert for person gener slettet i tumorer [11], og som sådan bør rapporteres . Effektiviteten av vår fremgangsmåte er også illustrert i den andre enden av det S-stillingen fordeling. Blant de gener med de mest negative S-score er velkjente tumorsuppressorgener som CDKN2A (den mest negative S score for GBM), PTEN, NF1 og RB1. S-score for alle menneskets gener i de fire krefttyper er gitt i tabell S6.

En nytten av S-Score system er at det tillater enkel identifisering av gener av interesse for ytterligere analyse. For eksempel vurdere genene FBXO25 (S-Score = -3,18 i eggstokkreft), TMEM101 (S-Score = -1,6 i eggstokkreft) og ACTR5 (S-Score = 3,69 i tykktarm kreft) som er klassifisert etter vår analyse som lyddemper, antatt lyddemper og onkogen, henholdsvis. Evaluering av plott av ekspresjon sammenlignet med kopiantallet eller metylering for disse genene, som er hensiktsmessig (figur 2) lett identifiserer disse genene som å ha en identifiserbar del av TCGA tilfeller forbundet med redusert kopiantall og redusert ekspresjon (kandidat suppressor-gen), og redusert ekspresjon økt metylering (kandidat til taushet suppressor genet) og økt kopiantall og økt uttrykk (kandidat onkogen), henholdsvis. For å illustrere nytten av slike strategi tomter for kjente onkogener og dempere er gitt som tall S1-S3. Denne typen av mer detaljert klassifisering vil da legge til rette for oppfølgingsstudier ved å tilby en prioritering av genene, basert på resultatet, for videre analyse. Ingen av de tre genene ovenfor har tidligere blitt identifisert som har vært involvert i utviklingen av de respektive tumortyper.

S-stillingen gir også mulighet for en direkte sammenligning mellom prøvene klassifisert forskjellig i henhold til en biologisk og /eller klinisk parameter. For å illustrere dette programmet ble prøvene i TCGA høyverdig serøs eggstokkreft data inndelt i kvartiler etter total overlevelse. Vi deretter beregnet S-score for alle menneskelige gener ved hjelp av prøvene som tilhører den første (korteste overlevelse) og siste (lengste overlevelse) kvartil av overlevelse distribusjon. En sammenligning av S-score beregnet fra de to gruppene tillater oss å identifisere antatte onkogener (med positive S-scores) og antatte tumorsuppressorgener (med negativ S-scores) er forbundet med enten den korteste eller den lengste overlevelse (figur 3). Flere av de genene som er identifisert er kjent markører for å overleve. For eksempel har CDC42 inhibering vært forbundet med lengre overlevelse hos mus med prostatakreft xenografts [12]. Et annet eksempel er canx som nedregulering har vært forbundet med lengre overlevelse i GBM-pasienter [13]. Videre er det genetiske varianter av RGS12 blitt forbundet med overlevelse i sent stadium ikke-småcellet lungekreft [14]. En annen interessant gen er TJP2 som over-uttrykk har vært forbundet med langsiktige overlevelse i GBM [15], i samråd med mønsteret vist i Figur 3.

Blant de genene som er identifisert av denne poengsystem for å bli assosiert med overlevelse, det mest interessante er de med motsatte klassifikasjoner (positive og negative score) i den korteste eller den lengste overlevelse iler. Vi fant ut at glucoronidase B (GUSB) hadde en positiv score (3,04, en indikasjon på onkogen) for den korteste overlevelse gruppe og en negativ score (-1,40, en indikasjon på svulst suppressor) for den lengste overlevelse gruppen. Glucuronidases er kjent for å være involvert i spredning av kreftceller fra det primære stedet [16] og GUSB har nylig blitt inkludert i en signatur for å forutsi lymfeknutemetastase i livmorhalskreft [17]. S-stillingen metoden bekrefter den ideen at GUSB har en onkogen funksjon i de mer aggressive tumorer (korteste overlevelse). Imidlertid dens negative S-stillingen i mindre aggressive tumorer indikerer at tapet av GUSB kan også drive ovariecancer utvikling med de resulterende tumorer er mindre aggressive. Et interessant funn i vår analyse er foreningen av RAD23B og XPC, både med negative S-score, med kortsiktig overlevelse (figur 3). Proteiner kodet av disse genene danne et kompleks som er involvert i DNA-reparasjon skadet. En rekke andre gener med motsatte S-score i den korteste og den lengste overlevelse gruppene er vist i figur 3. Disse genene kan representere potensielle prognostiske biomarkører samt mål for utviklingen av nye behandlingsformer.

For ytterligere å utforske potensialet i S-score system for å identifisere gener knyttet til ulike kliniske parametre ble brystkreftpasienter fra TCGA kohorten inndelt etter to hormonelle undergrupper: ER + PR + og ER-PR- (ER: Østrogen reseptor, PR: progesteron reseptor ). Data fra pasienter i hver undertype ble deretter anvendt for å beregne S-score for alle humane gener. Mens onkogener i de to undertyper er i utgangspunktet den samme, er et mye større uoverensstemmelse observert for tumorsuppressorgener. Dette er vist i spredningsplott i figur 4, som inneholder de 50 antatte onkogener og 50 antatte dempere (klassifisert i henhold til ER + PR + subtype). Mens alle onkogener i ER + PR + subtype (S-stillingen rundt 4) er også klassifisert som onkogener i ER-PR-subtype (S-stillingen som strekker seg 1,42 til 5,50), tumor-suppressorer i ER + PR + (S -score rundt -4) har en annen inndeling i eR-PR- subtype (S-poengsum varierer fra -4,85 til 2,69). Faktisk ble en stor fraksjon av de undertrykkende midler i ER + PR + subtype klassifisert som onkogener i det andre undertype (figur 4). Disse resultater antyder at forskjellene i biologiske og kliniske egenskaper mellom disse to brystcancer subtyper kan skyldes forskjeller i tumordempere gener. Disse gen signaturer representerer en mulighet for utvikling av mål for nye diagnostiske, prognostiske og terapeutiske tilnærminger.

S-poengsum metoden ble også brukt i et genom-wide søk etter gener som kan oppføre seg som Lyddemper i en svulst skriver og onkogener i en annen tumortype. I de siste årene noen gener har vist seg å føre de mønster. NOTCH1, for eksempel, er en kjent onkogen for T-celle akutt lymfoblastisk leukemi [18] – [19], men viser også tumorundertrykkende aktivitet i hudkreft [20] og hepatokarsinom [21]. Ved hjelp av et sett med strenge kriterier (S-poengsum 2,5 i en tumor type og S-poengsum -2,5 i en annen tumor type), har vi funnet 65 gener som viste onkogene og kreft undertrykkende aktiviteter i ulike tumortyper (blant de fire typene analysert her). Vår analyse identifisert LMO7 som et gen oppfører seg som tumor suppressor og onkogen. Dette genet har blitt rapportert å bli nedregulert i lungekreft [22] og mus som mangler dette gen har en økt mottakelighet for spontan lungekreft [23]. På den annen side synes genet for å være et onkogen i begge bryst [24] og leverkreft [25]. En annen interessant kandidat er USP12, et gen som koder for et deubiquitinase. Nylig, USP12 har vist seg å være en positiv regulator av androgen reseptor som virker i en pro-proliferativ måte prostatakreft [26]. USP12 kan også fungere som en tumor suppressor ved negativt å regulere AKT-aktivering og dermed fremme apoptose [27]. Ytterligere analyser er nødvendig for å fullt utforske alle genene er vist i figur 5. Det er viktig å understreke at NOTCH1 har ikke dukket opp i vår liste på grunn av det faktum at vi ikke har brukt leukemi data i våre studier.

En ulempen ved den S-stillingen metoden, som er en begrensning i ethvert forsøk på å etablere denne type poengsystem, er mangelen på en indeks for aktiverende mutasjoner som forekommer i oncogenes. For eksempel er aktiverende mutasjoner i KRAS kjent for å være en avgjørende faktor for mange krefttyper [28]. Selv om S-score for KRAS var positiv for tre av fire svulster analysert her, vår metode var ikke i stand til å fullt ut måle effekten av disse typer aktive mutasjoner i onkogener. En mulighet kan være bruk av missense mutasjoner, som hevdet av Volgestein et al. [1]. Ett problem med missense mutasjoner, derimot, er hvordan man skal vurdere deres innvirkning på proteinnivå, enten de aktiverer, inaktivere eller nøytral. Selv om det er dataverktøy som tar sikte å utlede effekten av en missense mutasjon på proteinnivå, vi fortsatt tror at deres prestasjoner generelt er dårlig [29]. Men som vi forbedre vår forståelse av naturen av missense mutasjoner, disse typer genetiske endringer kan innarbeides i beregningen av S poengsum.

For å gjøre S-score system mer nyttig for samfunnet, en nett~~POS=TRUNC portalen~~POS=HEADCOMP er gitt på https://www.bioinformatics-brazil.org/S-score med genom-wide resultater tilgjengelig for nedlasting, samt et gjenfinningssystem for tilpassede søk. Videre kan brukeren endre verdiene for alle parametrene i likningene # 2 og # 3 og generere S-score for alle kjente humane gener. En liste over alle TCGA prøver fra hver svulst type som brukes i denne studien er gitt som Table S7.

Hjelpemiddel Informasjon

Figur S1.

Expression X metylering tomten for den kjente tumor suppressor MGMT. Hvert datapunkt representerer en GBM prøve. Data viser stanse av MGMT i flere GBM prøver

doi:. 10,1371 /journal.pone.0094147.s001 plakater (TIF)

Figur S2.

Expression X kopiantall variasjon tomten for den kjente tumor suppressor CDKN2A. Hvert datapunkt representerer en GBM prøve. Kategorier av kopiantall variasjon ble definert av GISTIC klassifisering. Homdel = homozygot delesjon; Hetloss = tap av heterozygosis

doi:. 10,1371 /journal.pone.0094147.s002 plakater (TIF)

Figur S3.

Expression X kopiantall variasjon tomten for den kjente onkogen erbB2. Hvert datapunkt representerer en brysttumorprøve. Kategorier av kopiantall variasjon ble definert av GISTIC klassifisering. Hetloss = tap av heterozygosis; . Amp = forsterkning

doi: 10,1371 /journal.pone.0094147.s003 plakater (TIF)

Tabell S1.

Valg av indekser for parametre i S-rille ligninger. Hver rad representerer et scenario med verdier for indekser. Tallet i parentes svarer til det antall gener over terskelen (S-stillingen 2 eller S-stillingen -2) i den virkelige sett av gener fra 138 Volgestein et al. [1]. Tallene i hver celle tilsvarer antall simulerte sett i hvilken antallet gener med S-score over terskelen er lik eller høyere den tilsvarende tall i den virkelige settet (tall i parentes):

doi:. 10,1371 /journal. pone.0094147.s004 product: (docx)

Tabell S2.

Valg av indekser for parametre i S-rille ligninger. Hver rad representerer et scenario med verdier for indekser. Tallet i parentes svarer til antallet av gener over terskelen (S-resultater verdier som tilsvarer den gjennomsnittlige pluss eller minus to standardavvik) i den virkelige sett av gener fra 138 Volgestein et al. [1]. Tallene i hver celle tilsvarer antall simulerte sett i hvilken antallet gener med S-score over terskelen er lik eller høyere den tilsvarende tall i den virkelige settet (tall i parentes):

doi:. 10,1371 /journal. pone.0094147.s005 product: (docx)

tabell S3.

Tusen tilfeldige sett av 50 gener ble valgt fra en liste over 138 gener fra Volgestein et al. [1] og ble anvendt for å beregne gjennomsnittlig antall sanne positive og falske negative. Positiv prediktiv verdi (PPV) ble beregnet ved den følgende ligning: sanne positive /sanne positive + falsk positiv. I en lignende måte, ble ett tusen tilfeldige sett av 50 gener valgt fra alle menneskelige gener (minus 138 kreftgener) og brukes til å beregne gjennomsnittlig antall sanne negative og falske positive for hver svulst type. Negativ prediktiv verdi ble beregnet ved hjelp av følgende ligning: true negativ /sant negativ + falsk negativ

doi:. 10,1371 /journal.pone.0094147.s006 plakater (docx)

Tabell S4.

Kjente kreftgener har ekstreme S-score. Antall gener (Fast Set) med S-score høyere enn gjennomsnittet pluss to standardavvik (Z rille = 2) eller mindre enn gjennomsnittet minus to standardavvik (Z poengsum = -2) i 138 kreft genet liste fra Volgestein et al. [1]. Tall i «10000 Simulerte Sets» rad tilsvarer gjennomsnittlig antall gener med S-score over eller under grensen i 10.000 sett inneholder 138 gener tilfeldig utvalgte. Mellom parentesene er det intervall som tilsvarer den gjennomsnittlige +/- 2 x standardavvik. P-verdien av forskjellen mellom reelle og simulerte sett er vist i den siste raden

doi:. 10,1371 /journal.pone.0094147.s007 plakater (docx)

Tabell S5.

Sammenheng mellom Z-score og S-score for BRCA svulst. Hvert regneark viser alle menneskelige gener med S-score som var positive eller negative ytterligheter (Z-score 3)

doi:. 10,1371 /journal.pone.0094147.s008 plakater (XLSX)

Table S6 .

S-score for alle menneskets gener. For hver av de fire krefttyper analysert her, er alle menneskelige gener alfabetisk oppført med de tilsvarende S-score

doi:. 10,1371 /journal.pone.0094147.s009 plakater (XLSX)

Tabell S7.

Identifisering av alle TCGA prøvene brukt i denne studien. Identifikasjonsnummer for alle TCGA prøvene brukt i denne studien

doi:. 10,1371 /journal.pone.0094147.s010 plakater (XLS)

Takk

Forfatterne er indebt til Raimundo Furtado Neto for å hjelpe på optimalisering av S-poengsum algoritme.

Legg att eit svar