PLoS ONE: Ikke-Gaussiske fordelinger påvirke Identifikasjon av uttrykk mønstre, Funksjonell Stempler og Prospective Klassifisering i humane kreft genomer

Abstract

Innledning

Gene uttrykk data antas ofte å være normalfordelt, men denne antakelsen er ikke testet strengt. Vi undersøker fordelingen av uttrykket data i humane kreft genomer og studere konsekvensene av avvik fra normalfordelingen for translasjonsforskning molekylær onkologi forskning.

Metoder

Vi gjennomførte en sentral øyeblikk analyse av fem kreft genomer og utført empirisk fordeling passende å undersøke den sanne fordelingen av uttrykk data både på komplett-forsøket og på individ genet nivåer. Vi brukte en rekke para og parametriske metoder for å teste effekten av avvik fra normalitet på genet ringer, funksjonell annotering og potensielle molekylære klassifisering ved hjelp av en sjette kreft genom.

Resultater

Sentrale øyeblikk analyser avdekke statistisk signifikante avvik fra normalitet i alle de analyserte kreft genomer. Vi observerer så mye som 37% variasjon i genet kall, 39% variasjon i funksjonell merknader, og 30% variasjon i prospektive, molekylær svulst underklassifikasjon forbundet med denne effekten.

Konklusjoner

Kreft genekspresjon profilene er normalt ikke-fordelt, enten på den komp-forsøket eller av den individuelle-genet nivå. I stedet viser de komplekse, tunge-tailed distribusjoner preget av statistisk signifikant skjevhet og kurtosis. Den ikke-Gaussian distribusjon av disse dataene påvirker identifisering av differensielt-uttrykte gener, funksjonell annotering og potensielle molekylær klassifisering. Disse effekter kan reduseres i noen tilfeller, selv om ikke fullstendig eliminert, ved hjelp av ikke-parametriske analyser. Denne analysen fremhever to upålitelige forutsetninger translasjonell kreft genekspresjonsanalyser: at «små» avganger fra normalitet i uttrykket data distribusjoner er analytisk ubetydelig og at «robuste» gen-ringer algoritmer kan kompensere fullt ut for disse effektene

Citation: Marko NF, Weil RJ (2012) Non-Gaussiske fordelinger påvirke Identifikasjon av uttrykk mønstre, Funksjonell Stempler og Prospective Klassifisering i human Cancer genomer. PLoS ONE 7 (10): e46935. doi: 10,1371 /journal.pone.0046935

Editor: William B. Coleman, University of North Carolina School of Medicine, USA

mottatt: 17 mars 2012; Godkjent: 06.09.2012; Publisert: 31 oktober 2012

Copyright: © 2012 Marko, Weil. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. NFM er støttet av en bevilgning fra American Association of Nevrologisk Surgeons «William P. VanWagenen Fellowship program. RJW støttes delvis av Grant No.W81XWH-062-0033 fra United States Department of Defense Breast Cancer Research Program, ved Melvin Burkhardt stol i nevrokirurgisk onkologi, og ved Karen Colina Wilson forskning begavelse innen hjernesvulst og nevro onkologi Center ved Cleveland Clinic Foundation. Ingen ekstra ekstern finansiering ble mottatt for denne studien. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Bakgrunn

Microarray baserte analyser av genuttrykk har blitt en bærebjelke i grunnleggende og translasjonell kreftforskning. Et betydelig antall av moderne undersøkelser stole på disse verktøyene for å informere hypotese generasjon [1], for pathway analyse [2], [3], for pharmacogenomics og medisiner [4], og for å utvikle molekylære Basert sykdomsklassifiserings strategier [5] , [6]. I tillegg er genuttrykk data blir stadig viktigere for å informere klinisk diagnose og pasientbehandling [7], [8] og microarray-baserte genomiske profiler blir nå brukt til å veilede pasienten innmelding og lagdeling i store kliniske studier [9] [10].

med dette som bakteppe, blir viktigheten av nøyaktig tolkning av microarray resultater og vesentlige konsekvenser av systematiske analytiske feil tydelig. I de tidlige dagene av microarray analyse, høye eksperimentelle kostnader og betydelig teknisk variabilitet begrenset tilgjengelig informasjon som omfattende analyser av de praktiske virkningene av subtile skjevheter i microarray data eller i sin tolkning kan bli studert [11]. Dette i sin tur nødvendig at visse matematiske og biologiske forutsetninger gjøres [12], [13], og mangelen på tilstrekkelige data utelukket grundig undersøkelse av gyldigheten av disse forutsetningene.

forutsetningen om normalitet i to relaterte typer Expression datasett

en vanlig antagelse er at data fra microarray-baserte genom uttrykk analyser i samsvar med en standard Gaussian (normal) fordeling. Denne antakelsen er sjelden eksplisitt, men snarere er oftest laget implisitt når etterforskerne gjelder analytiske algoritmer betinget på Gaussian antakelsen. Distribusjonsmessige forutsetninger er relevante for minst to forskjellige sett med uttrykk data generert i mikromatriseanalyse, og normaliteten antagelsen har vært trinnløst (ofte implisitt) påført på begge [12] -. [15]

første datasett der distribusjon er relevant omfatter komplett sett av individuelle uttrykk verdier på tvers av alle gener og alle prøvene i et gitt eksperiment. For eksempel, i en studie som undersøker ekspresjonen av gener 25.000 i 100 tumorer, er dette settet med alle 2,5 millioner genekspresjon verdier. Fordelingen av dette sammensatte datasettet kan være særlig aktuelt å nedstrøms gruppering og klasse diskriminering analyser, som mange av disse algoritmene er vanligvis brukt på hele datasettet som helhet. Når algoritmer tert på et standard Gaussisk fordeling er brukt, er den normale antakelsen implisitt innført.

Det andre datasettet der distribusjon er relevant er datasettet som omfatter de individuelle uttrykk verdier for et enkelt gen på tvers av hele spekteret av eksperimentell prøver. Fortsetter forrige eksempel, ville dette eksperimentet generere 25.000 slike datasett, hver med 100 datapunkter. Fordelingen av disse 100 datapunkter kan være særlig relevant for studier som undersøker konsistensen av oppførselen til et bestemt gen i en bestemt tumortype eller analysere mønsteret av sin endring tvers av en rekke «klasser» eller «karakterer» av en bestemt tumor . Her fordelingen kan tilveiebringe en nyttig beskrivelse av virkemåten til denne enkelt gen på tvers av flere uavhengige utvalg, men den vanlige antagelse kan være implisitt innføres hvis algoritmer som benyttes til å analysere oppførselen til dette genet er betinget ved en standard gaussisk fordeling.

forutsetningen om normalitet er eksplisitt undersøkt i genuttrykk analyse, men i begrenset grad. Selv om det i utgangspunktet så ut til å ha både teoretisk [16] og empirisk støtte [11], [17], nyere analyser har antydet muligheten for ikke-Gaussiske fordelinger for genuttrykk data [18] – [21]. I dag, derimot, de fleste av disse observasjonene er hentet fra simulerte [19], [21], heterogene [20], [21], eller ikke-kliniske datasett [18] -. [21]

Betydningen

muligheten for at genuttrykk data bryter normalitet antagelsen kan være av stor betydning for klinisk og translasjonsforskning etterforskere. De fleste eksisterende og foreslåtte medisinske anvendelser av microarray expression data er hentet fra analyser betinget på denne forutsetningen, hvorav mange har stolt på parametrisk statistikk for genet kall og klasse oppdagelsen [6] – [8]. Translasjonsforskning onkologer er blant de mest ivrige forbrukere av microarray data og den mest sannsynlige til å foreslå sin klinisk anvendelse, slik at en logisk sted å begynne en undersøkelse av omfang, utstrekning, og kliniske implikasjoner av ikke-Gaussiske fordelinger i genuttrykk data er med stor , offentlig tilgjengelige kreft genom databaser [22], [23]. Tross, er dette problemet grunnleggende for dagens analytiske paradigmet for genuttrykk data generelt, og vi forventer at resultatene av denne undersøkelsen vil ha betydning utover sfæren av translasjonsforskning molekylær onkologi.

Den nåværende etterforskningen har to mål og har vært inndelt i to deler: den første er teoretisk – å studere fordelingen av kreft genuttrykk data – både på individ- genet og på hele datasettet nivå – og for å vurdere i hvilken grad disse avviker fra det normale. Dette gir grunnlag for den andre, translasjonsforskning mål: å studere konsekvensene av ikke-Gaussian genuttrykk distribusjoner på klinisk-orienterte genomiske analyser. Den eksperimentelle modellen er bevisst utformet for å rekapitulere trofast arbeidsflyten av en typisk translasjonell rørledning for analyse av genuttrykk (Figur 1).

Flyt Diagrammet viser typisk microarray analyse arbeidsflyt (øverste delen), de statistiske metodene som brukes på hvert trinn (midtre delen), og de tilsvarende tabeller og figurer i dette manuskriptet som presenterer analyser på hvert nivå (underdelen)

Resultater

Distribution Analysis -. Fullstendige datasett

Vi først undersøkt fordelingen av komplett sett av individuelle uttrykk verdier på tvers av alle gener og alle prøvene i hver av fem forsøk (den første typen datasett beskrevet i innledningen). Tabell 1 oppsummerer resultatene av den sentrale øyeblikk analyse av fem, i stor skala (n = 180, hver) humane kreft genomer, som ble utført etter normalisering med enten robust multi gjennomsnitt (RMA) [24] eller DChip [25] metoder. Disse data viser at, mens gjennomsnitt og standardavvik foreslår omtrentlig normaliteten (μ Område: -0.18-0.10; σ Område: 0,84 til 1,58), den tredje og fjerde sentrale øyeblikk avviker fra det normale i en statistisk signifikant måte. Fisher indekser av skjevhet og kurtose, som anses signifikant ved α 0,05 når de overstiger ± 1.96, er 100 for alle prøvene. I tillegg har

F

-test av variansen viser statistisk signifikante avvik fra normalitet for alle prøvene (tabell 1, S1). Alle fem kreft genuttrykk distribusjoner derfor avvike betydelig fra normalfordelingen. Dette er videre støttet av resultatene av enveis og toveis KS tester, som viser betydelige avvik fra normalitet for alle datasettene. Videre resultatene av den sentrale øyeblikkene analyse tyder på at disse distribusjoner har liten, men signifikant skjevhet, er markert kurtotic, og er tunge-tailed (figur 2). Lignende resultater fra data normalisert ved å bruke både RMA [24] og den DChip metoden [25] tyder på at denne avgang fra normalitet er lite sannsynlig å være en funksjon av normalisering algoritmen, og analyse av både Log

2-transformert og Log

2-trekkes data tyder på at det ikke er relatert til Log subtraksjon (tabell 1, S1, figurer S1, S2).

kilde~~POS=TRUNC dataene~~POS=HEADCOMP for disse grafene er de Logg

2-trekkes datasett. Alle bin bredder er satt til 200 for å bedre visualisering. Røde kurvene representerer den optimale normalfordeling. Den primære avbildning gir histogrammet med den overlagrede teoretiske normalkurven. Det innfelte presenterer quantile-quantile (QQ) plottet, hvor avvik fra linjen (y = x, svart) viser avvik av empirisk fra den teoretiske normalfordelingen. Venstre panel viser data normalisert med RMA-metoden. Høyre panel viser data normalisert med DChip metoden. A: Brain; B: Bryst; C: Colon; D: Gastric; . E: Ovarian

Disse funnene er ikke nødvendigvis overraskende, som ingen av normaliseringsmetoder eller prosessen med log-transformasjon er spesielt beregnet på å produsere normalitet; imidlertid, viser denne analyse ved hjelp av flere uttrykk datasett at ingen av disse transformasjoner er tilstrekkelige til å produsere Gaussiske data. Følgelig kan det ikke være trygt antas at data som har blitt «normalisert» ved hjelp av en av disse metodene faktisk er i samsvar med en «normal» (standard Gaussfordelingen)

Distribusjon Analyse -. Egne Gener

Vi har også undersøkt data fordelinger av enkeltgener på tvers av de 180 prøver av hver av de fem kreft datasett. Mange forskere har undersøkt data fra et eksperiment som inneholder mikromatriser av flere, tilsvarende svulster kan gå ut fra at en «overuttrykt» gen ville oppvise en gaussisk fordeling sentrert rundt en positiv middelverdi, vil en «underexpressed» gen har en lignende fordeling rundt en negativ verdi, og et gen hvis uttrykk er uendret vil ha en gaussisk fordeling sentrert rundt null. Vår analyse, men viser at varierende grad av skjevhet og kurtosis samt markert avvik fra enhet blant standardavvikene er karakteristisk for uttrykket distribusjoner for individuelle gener. Tabell 2 oppsummerer resultatene av denne analyse, og Figur 3 gir et illustrerende eksempel på denne virkning ved å plotte de fordelingene utvalgte gener fra hjernetumor (glioblastom) datasett.

Disse diagrammene illustrerer det brede spekter av potensiell skjevhet (A) og kurtosis (B) som eksisterer i uttrykket fordelinger av enkeltgener omfattende kreft uttrykk datasett. Dette tilbakeviser antagelsen om at uttrykket data for individuelle gener følger en tilnærmet Gaussisk fordeling rundt genets middel uttrykk nivå. Data for disse grafene ble tatt fra loggen

2-trekkes, RMA-normaliserte glioblastom ekspresjonsdata. For skjevhet sammenligning ble fem gener med sammenlignbare midler, standardavvik, og kurtose valgt fra undergrupper av gener som representerer omtrent

th 10,

th 25, 50

th, 75

th og 90

th persentiler for per-genet skjevhet som finnes i datasettet. Tilsvarende for kurtosen sammenligning fem gener med sammenlignbare midler, standardavvik, og skjevhet ble valgt ut fra undergrupper av gener som representerer omtrent

th 10,

th 25, 50

th, 75

th og 90

th persentiler for per-genet kurtose som finnes i datasettet. Identiteten til de genene ikke er germane for sammenligningsformål.

Curve Montering

empirisk kurvetilpasning ble brukt til å undersøke selve morfologi av kreft genuttrykk distribusjoner ( tabell 3; figurene 4, S3, S4, S5, S6). Denne analysen viser at komplekse, multi-parameter distribusjoner er pålagt å mer nøyaktig modellere uttrykk data distribusjoner. Generelt er best tilpasning distribusjoner var de som parametriseres å modellere skjevhet, kurtosis og tunge haler. Disse inkluderer multi-parameter utdelinger knyttet til β-prime (Pearson VI, i stand til modellering skjevhet) (f.eks Logg logistikk, Dagum, Burr), kurtotic distribusjoner (f.eks hyperbolsk-sekant), og den allsidige, 4-parameter Johnson SU [26].

Distribusjon passende for kreft i hjernen datasettet for RMA (øverst) og DChip (nederst) normaliserte data. De tre best tilpasning kurvene er lagt på histogrammet, og normalfordelingskurve er inkludert for sammenligning. De spesifikke parametre for best tilpasning distribusjoner er gitt. Det innfelte viser quantile-quantile (QQ) plottet for best tilpasning og normalfordelinger. Disse listene viser at Funksjoner med flere distribusjoner stand for modellering skjevhet og kurtosis bedre karakterisere data enn standard Gaussian (normal) fordeling. Lignende grafer for flere krefttyper er gitt i figurene S2, S3, S4, S5.

Selv om disse distribusjonene passe dataene mer nøyaktig enn normalfordelingen, viser KS testing at de er ufullkomne anfall (Tabell 3). Videre er det ingen enkel distribusjon som er klart overlegen for modellering av alle sett av ekspresjonsdata. Samlet sett bekrefter denne analysen betydelige avvik fra normalitet forbundet med kreft genom uttrykk data og demonstrerer den komplekse natur av de underliggende uttrykk distribusjoner

Gene Calling Funksjonelle Merknads

Frem til dette punktet analysen har vært fokusert på å undersøke de faktiske distribusjoner av genekspresjon datasett og sammenligne disse med en teoretisk, normalfordeling. Denne analysen har vist at humane kreft-genekspresjon data blir normalt ikke-fordelt, enten på eksperimentet eller på enkelt-gen nivå. En passende neste spørsmål er om disse avvik fra normalitet påvirker vanligvis-utført genuttrykk analytics, inkludert molekylær klassifisering, genet kall og funksjonell annotering.

For å undersøke dette spørsmålet, utførte vi en analyse av et genuttrykk datasett fra 23 lavgradige gliomer (LGG), inkludert en unik undergruppe av elleve svulster med intakte kromosomer 1p og 19q (vilkårlig utpekt

klasse 1

) og en annen undergruppe av åtte Oligodendrogliomer med kromosom 1p /19q codeletions [5] , [27] (tilfeldig betegnet

klasse 2

), ble brukt for å studere effektene av den datafordelingen på identifikasjons gener som er differensielt uttrykt mellom kjente tumor undergrupper. Dette ble oppnådd ved å påføre en jevn transformasjon (Boks-Cox [28]) for å uttrykket datasettet for å forbedre den normalitet av datadistribusjon og deretter å sammenligne resultatene fra genet ringer algoritmer som anvendes til moder og transformerte datasett (figur 5). På denne måte bare formen av fordelingen har endret seg, og nullhypotesen er at denne transformasjonen ikke skulle ha noen virkning på genet ringer hvis metodene er tilstrekkelig «robust» til fordeling morfologi eller er virkelig «fordeling uavhengig.»

A Box-Cox transformasjon påført low-grade gliom datasett (venstre) resulterer i en distribusjon som nærmere tilnærmet normalfordelt (til høyre). Legg merke til at den overordnede fordelingen ble recentered til en null bety for å kompensere for standard middelverdien av Robust multichip Normalisering utgangen fra 7. Denne transformerte fordeling ble deretter brukt for å analysere fordelingsavhengige effekter på identifisering av differensielt uttrykte gener,-funksjonell merknader, og prospektiv molekylær klassifisering

tosidig studentens

t

-test med en standard Bonferronikorreksjon (

p

0,01)., identifisert 50 differensielt uttrykt gener mellom

klasse 1 Hotell og

klasse 2

hjelp av foreldre distribusjon og 55 bruker forvandlet distribusjon (9,1% forskjell). Førtini (49) av 56 totalt antall differensielt-uttrykte gener var felles for begge lister (87,5%), mens 7 ble entydig identifisert i bare en av de to lister (12,5%) (tabellene 4A, S3).

Selv med strenge Bonferroni korreksjon,

t

-test er en parametrisk test som gjør forutsetninger om formen på den underliggende fordelingen. For å eliminere denne effekten, søkte vi to, parametriske metoder for genet ringer. En to-klasse, uparet betydning analyse av mikromatriser (SAM) [29] identifisert 759 differensielt-uttrykte gener i morselskapet og 478 i den transform distribusjon (37,2% forskjell). 760 samlede gener, 477 (62,8%) var felles for begge lister, mens 283 (37,2%) var unike for bare en av de to listene (tabellene 4A, S4). En to-klasse, uparet Kruskal-Wallis (KW) test identifisert 1,801 differensielt-uttrykte gener i den overordnede distribusjon og 1800 i den transform distribusjon. Det var 99,9% overlapping i disse gen-lister (tabeller 4A, S5).

En alternativ strategi for genet kall bruker lineær modellering for mikromatriser (LIMMA) [30] et bayesiansk tilnærming til lineær modellering for å beregne en moderert

t

-test. Selv om denne metoden foruts normalitet av de underliggende data, er det sett av mange å være bedre enn standard og korrigert

t

-UNDERSØKELSER og regnes robust til en rekke konfunderende matematiske og statistiske effekter [31]. LIMMA identifisert 2.866 differensielt-uttrykte gener i mor- og 2981 i den transform distribusjon. Fra 3,047 samlede gener, 2710 (88,9%) var felles for begge lister, mens 337 (11,1%) var unike for bare en av de to listene (tabellene 4A, S6).

Virkningene av fordelingen på funksjonelle merknad ble studert først ved hjelp DAVID [32], [33] for å kommentere for genet ontologi (GO) [34], [35] og Kyoto Encyclopedia of gener og genomer (KEGG) [36] vilkårene i genet listene tidligere generert av SAM og KW analyser og deretter ved å utføre en statistisk berikelse analyse for de merkede termer. Dette identifisert 46 unike vilkår i SAM-lister, med 60,9% overlapping mellom beriket vilkårene i morselskapet og forvandlet lister. Motsatt, analyse av listene som genereres av KW analysen identifiserte 49 beriket vilkår, som alle var identiske i listene fra den overordnede og transformerte datasett (100,0% overlapping) (Tabeller 4B, S7, S8).

Klassifisering

genuttrykk data er ofte brukt som grunnlag for forsøk på molekylær-baserte underklassifikasjon av svulster med lignende histologi men ulike kliniske fenotyper. Vi utnyttet

a priori

kunnskap [5] av to slike grupper innenfor lavgradig gliom datasett (

Klasse 1 Hotell og

Klasse 2

) for å simulere klassifiseringsprosessen og for å studere forholdet mellom resultatene til formen av den underliggende dataformidling. Diskriminant analyse (DA) og k-nærmeste naboer (KNN) klassifiserere ble trent på en undergruppe av tumorene med representanter for hver klasse, og ble deretter brukt til å klassifisere ti, nye tumorer inn i en av de to klassene. Identiske analyser ble utført på data fra den overordnede og forvandlet distribusjoner. Resultatene av disse analysene viser en 20% forskjell i klasse oppgave (2/10 prøver) for DA og 30% (3/10 prøver) for KNN klassifikator når den brukes sammen med de overordnede data, men identiske klassifikasjoner for begge modeller når det brukes sammen med de transformerte datasettet (figur 6). Denne virkning er uavhengig av den første metoden for datareduksjon (SAM eller

t

-test) (figur S7).

To metoder for potensiell molekylær klassifisering, parametrisk diskriminant Analyse (DA, topp ) og den parametriske K-Nærmeste Naboer klassifikator (KNN, nederst), ble brukt i forbindelse med den overordnede og forvandlet lavgradige gliomer uttrykk datasett for å studere fordelingsavhengige effekter molekylær svulst underklassifikasjon. Klasse 1 representerer lavgradig, 1p /19q-intakte hjernesvulst, og klasse 2 representerer kromosom 1p /19q codeleted, lavgradig Oligodendrogliomer. De øverste fargefeltene representerer kjente klasse av hver prøve (svarte bokser, rød = klasse 1, blå = klasse 2). Området nedenfor fargefeltene er en del av genuttrykk profilen (rød = underexpressed, grønn = overexpressed). DA brukes i forbindelse med den overordnede (ikke-normal) fordeling produserer to feilklassifiseringer og KNN produserer tre, mens begge metodene som brukes sammen med forvandlet datasett resultat i nøyaktig molekylær underklassifikasjon.

Diskusjoner

Gene Expression data er ikke normalt-Distributed

fordelingen av genekspresjon data blir vanligvis antatt å være i overensstemmelse med en standard gaussisk (normal) fordeling [11], [17]. Denne antakelsen kan skyldes en kombinasjon av tre faktorer. Først denne oppførselen kan (kanskje) spådd av sentralgrensesetningen [16]. For det andre grunnleggende analyse av genekspresjon datasett, som generelt innbefatter beregning av gjennomsnitt og standardavvik, så vel som visuell inspeksjon av dataene fordeling, vanligvis avslører klokkeformede kurver med midler (μ) sentrert i nærheten av null og standard avvik (σ) ca. lik en. Tredje, i de tidlige dagene av genekspresjonsanalyser når disse forutsetningene ble kodifisert, datasett var små og observerte forskjellene fra disse teoretiske verdiene kan ikke ha oppnådd statistisk signifikans.

Den moderne æra av uttrykk analyse, preget av redusert kostnad og økt prøve tilgjengelighet, gir nå den luksus å jobbe med datasett som inkluderer flere ganger flere prøver og eksponentielt-flere funksjoner enn de av fortiden. Disse datasett, som de undersøkte her, tillater mer presis analyse av fordelingen av uttrykket data. I denne analysen har vi gått utover beregning μ og σ (som faktisk ser ut til ved første øyekast å være i samsvar med normalitet i disse data) og har utført en omfattende analyse av høyere orden sentrale øyeblikk for disse distribusjonene. Denne analysen utnytter tilgjengeligheten av nesten 10

8 funksjoner per datasett for å tillate statistisk signifikans vurderinger av tilsynelatende-mindre avvik fra normalitet. Dermed avslører det at disse avvikene oppnå en høy grad av statistisk signifikans for alle de fire første sentrale øyeblikk. Dette gir overbevisende bevis for at disse kreft genuttrykk data ikke er i samsvar med en standard Gaussisk fordeling (figur 2, tabell 1), og at kategoriske forutsetninger for normalitet for disse typer datasett kan være ugyldig.

genekspresjonsdata utstillinger komplekse Distribusjons Kjennetegn

empirisk kurvetilpasning identifiserer, på en objektiv måte, distribusjoner som mest nøyaktig modellere de observerte fordelinger av uttrykket data. Analyse av de empirisk-fit fordelinger gir ytterligere informasjon vedrørende datadistribusjon og kan brukes til å trekke generelle konklusjoner angående hvilke typer nedstrøms analyser som kan anvendes for disse datasettene. Denne analysen viser at uttrykket elingene ikke er godt modellert av forenklet, to-parameter fordelinger (for eksempel normalfordeling), men i stedet krever fordelinger med flere (3-4) formparameterne for å modellere de data nøyaktig. Flere derivater av β-prime-fordeling (f.eks Log-logistikk, Dagum, Burr [37], [38]) ble empirisk identifisert som nyttige modeller for disse dataene. Dette er logisk gitt at β-prime er relatert til Pearson typen VI fordeling, noe som er en av en familie av fordelinger opprinnelig ble brukt til å modellere skjeve data [38]. Den hyperbolsk sekans fordeling ble også ofte identifisert blant disse empiriske modeller. Dette er en mer enkel, to-parameterfordeling med en overdrevet kurtose [39], og dens identifikasjon som en nyttig modell for disse data understreker kurtotic arten av datasettene. Til slutt, den 4-parameter Johnson SU [26] er en allsidig fordeling til modell skjeve og kurtotic data. Sammen Johnson familie av fordelinger dekker hele skjevheten-kurtose spekteret, og SU fordelingen er spesielt nyttig med logaritmisk data [38]. I samlet, identifisering av disse spesielle familier (β-prime /Pearson, hyperbolsk-sekant, Johnson) fremhever skjevhet og kurtose av disse datasettene og understreker utilstrekkelighet av normalfordelingen å modellere nøyaktig kreft genuttrykk data.

målet var å bruke prosessen distribusjons passende å lære så mye som mulig om den underliggende datastrukturen av kreft transkriptomet, for ikke å identifisere en singel, «best-fit» distribusjon for kreft genuttrykk data. Faktisk KS analyse (tabell 3) viser at ingen av de 57 distribusjoner (Tabell S2) mot der disse dataene ble testet gitt en ideell modell for de underliggende data. Det er uvisst om en enkelt distribusjons kan beskrive kreft transcriptome trofast, og det er sannsynlig at ikke to kreft genekspresjon datasett vil ha den samme, «best-fit» fordeling. Vi hypotese at komplekset form av den samlede utdelinger kan gjenspeile sammensetningen av ulike, unike distribusjoner av komponent gener. Videre undersøker denne blandingen-modellen hypotesen og dens implikasjoner for genet ringer er utenfor rammen av denne rapporten, men fortjener nærmere undersøkelse.

Uansett, identifisere en slik teoretisk modell for den samlede fordelingen ikke nødvendigvis er pålagt å gjennomføre høy- kvalitet analyse av uttrykk data. I stedet, kan forskere som arbeider med genuttrykk data vil utføre tilsvarende analyser for de som er beskrevet for å forstå arten av fordelingen av deres unike datasett. Dette vil da tillate dem å kontrollere at deres nedstrøms analyser ikke er gjort til skamme av unøyaktige forutsetninger om formen på data distribusjoner.

Ikke-Gaussiske fordelinger påvirke Gene Calling og funksjonell annotering

Etter å ha vist at kreft genekspresjon data er normalt ikke-fordelt, et kritisk spørsmål er i hvilken grad slike avvik fra det normale påvirke nedstrøms, analyserer translasjonell. Betydelig innsats i translasjonell onkologi har blitt brukt til å identifisere unike, genotypiske undergrupper av svulster med klinisk signifikante fenotypiske sammenhenger, så vi fokusert vår analyse av analytiske effektene av ikke-Gaussiske fordelinger i dette domenet.

En felles mål av translasjonsforskning undersøkelsene er å identifisere et sett av gener med differensial uttrykk mellom to, kjent eller mistenkt kreft undergrupper. Vi undersøkte dette spørsmålet ved å bruke en normal-transformasjon til LGG datasettet, ved hjelp av tre forskjellige algoritmer for å identifisere differensielt-uttrykte gener mellom

Class1 Hotell og

Klasse 2

i både foreldre og i den transform data, og deretter utføre en semi-kvantitativ analyse av de resulterende genet listene.

Bonferroni-korrigert

t-

test identifisert 50 differensielt-uttrykte gener i morselskapet og 55 i den transform distribusjon og resulterte i en fordeling avhengig variasjon på 12,5% (se

Tekst S1

, for ytterligere diskusjon av denne beregningen) (tabell 4A). I hvilken grad denne variasjonen gjenspeiler de parametriske forutsetninger klassifikator er vanskelig å fastslå, fordi nivåene av Bonferronikorreksjon resulterer i en liten liste over forskjellig-uttrykte gener. LIMMA [30], som er ansett som mer robust enn grunnleggende og korrigert

t

-UNDERSØKELSER tross for sin grunnleggende forutsetningen om normalitet, var også følsom for endringer i den underliggende data distribusjon, med en 11,1% forskjell i genet calling bemerket mellom foreldre og forvandlet distribusjoner (tabell 4A, S6). Motsatt identifisert nonparametric KW test 1,801 differensielt-uttrykte gener, hvorav 1800 (99,9%) var felles for begge listene (tabell 4A, S5).

Legg att eit svar