Abstract
Kopier nummer variasjon (CNV) spiller en rolle i patogenesen av mange menneskelige sykdommer, spesielt kreft. Flere hele genom CNV assosiasjonsstudier har blitt utført i den hensikt å identifisere kreft assosiert CNVs. Her foretok vi en ny tilnærming til hele genomet CNV analyse, og målet er å identifisere assosiasjoner mellom CNV forskjellige gener (CNV-CNV) over 60 humane kreftcellelinjer. Vi hypotese at disse foreningene peker på rollene til de tilknyttede gener i kreft, og kan være indikatorer på deres posisjon i genet nettverk av kreft-kjøring prosesser. Nyere studier viser at genet foreninger er ofte ikke-lineære og ikke-monoton. For å få et mer fullstendig bilde av alle CNV foreninger, utførte vi studenter univariat analyse ved å utnytte dCov, MIC, og HHG foreningen tester, som er i stand til å oppdage alle typer forening, inkludert ikke-monotone relasjoner. Til sammenligning brukte vi Spearman og Pearson foreningen tester, som oppdager bare lineære eller monotone relasjoner. Bruk av dCov, MIC og HHG tester resulterte i identifisering av dobbelt så mange assosiasjoner i forhold til de som finnes ved Spearman og Pearson alene. Interessant, var de fleste av de nye assosiasjoner oppdaget av HHG test. Deretter benyttet vi dCov og HHG evne til å utføre multivariat analyse. Vi testet for sammenhengen mellom gener med ukjent funksjon og kjente kreftrelaterte veier. Våre resultater tyder på at multivariabel analyse er mye mer effektiv enn univariat analyse med det formål å tillegge biologiske roller til gener av ukjent funksjon. Vi konkluderer med at en kombinasjon av multivariate og univariate studenter foreningen tester kan avsløre vesentlig informasjon om genet nettverk av sykdoms kjører prosesser. Disse metodene kan brukes på alle store gen eller sti datasettet, slik at mer omfattende analyse av biologiske prosesser
Citation. Gorfine M, Goldstein B, Fishman A, Heller R, Heller Y, Lamm AT (2015) Funksjon of Cancer Associated Gener avslørt av Modern Univariate og multivariabel Association tester. PLoS ONE 10 (5): e0126544. doi: 10,1371 /journal.pone.0126544
Academic Redaktør: Lin Chen, The University of Chicago, USA
mottatt: 27 september 2014; Godkjent: 03.04.2015; Publisert: 12. mai 2015
Copyright: © 2015 Gorfine et al. Dette er en åpen tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Data Tilgjengelighet: All relevant data er i avisen og dens saksdokumenter filer
Finansiering:. Dette arbeidet ble finansiert av National Institutes of Health (tilskudd P01CA53996 til MG), israelske Centers for fremragende forskning (i-CORE) program, (Center Ingen . 1796-1712 til ATL), The Israel Science Foundation (bevilgning nr 644/13 til ATL). ATL er en Taub fyr – støttet av Taub Foundation. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Kopier nummer variasjoner (CNV) er en del av normal menneskelig genetisk variasjon. Titusenvis av CNVs har blitt rapportert i Database of Genomic Varianter (DGV) basert på friske kontrollprøvene [1,2]. Men CNVs er også en betydelig del av variasjonen i sykdomsrisiko og forekomst av mange sykdommer og lidelser, inkludert kreft, HIV-infeksjon, autisme og psykiske lidelser [3-5]. I kreft, er CNV en av de viktigste somatiske avvik funnet [6]. I dag CNV analyse har blitt en sentral del av kreftforskning og mange studier konsentrere seg om å oppdage CNVs i det menneskelige genom i normale og syke vev og celler. ([7,8], DGV (https://projects.tcag.ca/variation)). I klinikker er vant et økende antall CNV for diagnostikk og personlig behandling.
Mens enkelte CNVs kan oppdages av fluorescerende in situ hybridisering (FISH), krever hele genomet CNV deteksjon microarray-baserte komparativ genomisk hybridisering (matrise CGH ) eller neste generasjons sekvensering (NGS) plattformer [6]. Disse plattformene generere svært store mengder data, noe som gjør analysen svært utfordrende. En stor oppgave CNV dataanalyse er å identifisere og karakterisere assosiasjoner mellom CNVs og sykdommer som kan potensielt bli drevet av biologisk relevante mekanismer [9-11].
Flere assosiasjonsstudier har blitt utført i den hensikt å knytte CNVs mot sykdommer [7,8,12]. For eksempel Stamoulis et al. [11] fokusert på monotone relasjoner mellom CNV innenfor og på tvers kromosomer; Bussey et al. [12] så på Pearsons korrelasjon mellom CNV og genuttrykk nivåer. Mens de fleste studier forbundet CNV med genekspresjon profil, svært få, om noen, forsøk har vært gjort for å assosiere mellom CNVs av forskjellige gener påvist i sykt vev, selv om identifisering av forbindelser mellom gener er ekstremt viktig for å forstå grunnleggende biologiske fremgangsmåter og modellering gennettverk. I dette arbeidet foretok vi en slik tilnærming for å analysere kreftrelaterte CNV data. Begrunnelsen var at siden CNV formasjon er en del av kreftutvikling, ville assosiasjoner mellom CNVs av gener være en indikasjon på sine roller i kreftutvikling. I tillegg kan identifisering av disse foreningene aktiver bygge et gen nettverk av sykdoms kjøre prosesser.
Til dags dato, de mest brukte foreningen tester er basert på Pearsons eller Spearmans korrelasjonskoeffisient. Pearsons testen er følsom for den lineære komponent i et forhold mellom to variabler, mens Spearmans testen påviser monotone forhold, som for eksempel en sigmoid. Derfor begge testene ikke er i stand til å oppdage ikke-monotone relasjoner som U-formet, ellipse, sinusformet, etc. Nyere studier viser at genet foreninger er ofte ikke-lineære og ikke-monotone [13-15]; derfor for å oppnå et fullstendig objektivt bilde av alle genet sammenslutninger må man anvende andre statistiske metoder.
Nylig har flere statistiske tester for å påvise alle typer forbindelser, inkludert ikke-monotone seg, ble foreslått. Spesielt Szekely et al. [16,17] foreslo en test, oppkalt dCov, basert på avstand kovarians og avstand sammenheng; Reshef et al. [18] presenteres en test basert på en ny grad av avhengighet-maksimal informasjon koeffisient (MIC); og Heller et al. [19] foreslått en test basert på rekkene av avstander, oppkalt HHG. Omfattende simulerings studier som sammenligner mellom HHG, dCov, MIC, Spearman og Pearson er utført [13,19]. Deres viktigste konklusjonene var at HHG er vanligvis sterkere enn dCov og dCov er vanligvis kraftigere enn MIC i ikke-monotone innstillinger.
I tillegg til deres blir univariate analyseverktøy som kan identifisere et bredt spekter av foreningen typer , dCov og HHG gjelder også for multivariabel analyse, dvs. testing for avhengigheten mellom de variable X og Y, når X og Y er vektorer snarere enn enkelt variabler. Således disse testene kan anvendes for å identifisere forbindelser mellom banene eller mellom et gen og en vei, selv når prøvestørrelsen er mye mindre enn dimensjonen på enten X eller Y.
Den andre Formålet med dette arbeidet var å demonstrere effektiviteten av assosiasjons tester som også er i stand til å detektere ikke-monotone forhold, slik som dCov, MIC og HHG for å analysere hele genomet krets data. For dette formål vi benyttet i disse testene langs standard Spearman og Pearson test i analysen av CNV data utledet fra 60 humane cancercellelinjer (NCI-60) [12]. Vi har funnet at anvendelse av tester som er i stand til å detektere alle typer av forhold, slik som dCov og HHG, for univariat analyse, som resulterer i identifikasjonen av dobbelt så mange forbindelser sammenlignet med de som finnes ved Spearman og Pearson alene. De fleste av de nye forbindelser ble påvist ved den HHG test. Videre multivariat analyse ved hjelp av dCov og HHG var i stand til å knytte mellom gener med ukjent funksjon fra våre datasett og grunnleggende biologiske mekanismer, noe som gir et hint til mulige biologiske funksjoner av disse genene.
De metodene som presenteres her kan være nyttig i mange andre sammenhenger som krever påvisning av sammenslutninger av gener og veier, for eksempel ombygging av nettverk og trasé-en viktig oppgave i systembiologi [20]. Denne studien viser at ved hjelp av disse metodene forskerne kan avdekke flere sammenslutninger av forskjellige typer, og dermed har et bredere bilde til disposisjon når du forsøker å studere biologiske fenomener.
Resultater
Identifikasjon av gene- av-Gene foreninger
for å finne sammenhenger mellom kreft-relaterte CNVs, brukte vi CNV data innhentet av en rekke CGH fra 60 humane kreftcellelinjer (NCI-60; [12]). Innenfor CGH utvalg valgte vi kloner som har kjent genet symboler og, for konsistens, ingen manglende verdier i noen cellelinje. Resultatet inneholdt 99 gener. I tillegg til de tradisjonelle foreningen tester, Spearman og Pearson, søkte vi tre tester, dCov, MIC og HHG, som også er i stand til å detektere ikke-monotone relasjoner. En forening ble betraktet som signifikant hvis FDR-justerte p-verdien var mindre enn 0,05 med Benjamini-Hochberg prosedyre [21]. Ut av 4851 parvise sammenligninger, Pearson eller Spearman oppdaget 254 signifikante sammenhenger, dCov oppdaget 256, MIC oppdaget 157 og HHG oppdaget 400 signifikante sammenhenger (se figur 1, tabell 1, S1 figur, og S1 tabell for detaljerte resultater). Sammenligning av de tre tester som er i stand til å detektere alle typer av forbindelser, nemlig dCov, MIC og HHG, avslørte at de deler 139 felles betydelige resultater. Videre ble 44 foreninger funnet signifikant bare ved dCov; 11 bare av MIC og 183 bare ved HHG (S1 figur, øverst til høyre). Sammenligning Pearson og Spearman med dCov og HHG avdekket at 29 signifikante sammenhenger ble oppdaget utelukkende av Pearson eller Spearman, bare 10 utelukkende av dCov mens 184 ble oppdaget utelukkende av HHG (fig 1).
MIC ble ekskludert på grunn av lite antall signifikante funn som tilbys av denne metoden. Arealet av hver oval representerer antall signifikante tester av hver metode, og kryss (understreket av forskjellige farger) representerer vanlige funn. Tydeligvis, Pearson eller Spearman, dCov og HHG aksje 185 funn; 184 tester var signifikante ved HHG men ikke av Pearson, Spearman eller dCov; 10 tester var signifikante ved dCov og ikke av Pearson, Spearman eller HHG; 29 tester var signifikante ved Pearson eller Spearman men ikke av dCov eller HHG; dCov og HHG dele 26 funn; Pearson eller Spearman og dCov dele 35 funn; og Pearson eller Spearman og HHG dele bare fem funn.
Av antall signifikante statistiske assosiasjoner funnet av dCov, MIC eller HHG, men ikke av Pearson eller Spearman, antall funnet av HHG var usedvanlig stort. Spesielt mens antall signifikante assosiasjoner som deles av Pearson eller Spearman og HHG er 190, Pearson og Spearman savnet 210 foreninger funnet av HHG, mens HHG savnet bare 64 foreninger funnet av Pearson eller Spearman. I ovennevnte analyse, kombinert vi Pearson og Spearman resultater som hadde justert p-verdi mindre enn 0,05 som om de var en enkelt metode, selv om dette gir da en fordel i forhold til andre metoder. Gitt dette, er det desto mer interessant at HHG funnet 57% flere foreninger da Pearson og Spearman. Vi konkluderer derfor med at analyser basert på de tradisjonelle Pearson og Spearman foreningen tester kan gå glipp av en betydelig andel av alle mulige sammenhenger mellom gener.
For å demonstrere den biologiske relevansen av foreningene oppdaget av HHG vi tok en nærmere titt på de oppdagede forbundet genet parene. Et eksempel på en forening som bare finnes ved HHG er sammenheng mellom genene Lyn og CTSB (fig 2). LYN koder for en ikke-reseptor tyrosin-kinase-protein, en regulator av flere signaltransduksjonsveier, mens CTSB koder for cathepsin B, en tiol protease som deltar i intracellulær degradering og omsetning av proteiner. Ingen direkte biologiske interaksjoner mellom disse to proteiner er kjent, men de begge kommuniserer direkte med en tredje protein, Sphingosine kinase 1 (SPHK1). SPHK1 katalyserer fosforylering av sfingosin for å danne sfingosin-1-fosfat (S1P), en nøkkel sfingolipid signalmolekyl som er involvert i cellevekst, overlevelse, differensiering og motilitet. Interaksjon mellom Lyn og SPHK1 er viktig for aktivering av SPHK1 [22]. På den annen side har interaksjon mellom Cathespin B og SPHK1 blitt vist å ned-regulere SPHK1 nivåer
in vivo product: [23], og å spalte det
in vitro product: [24]. Dette eksperimentelle data viser at sammenhengen mellom Lyn og CTSB identifisert av HHG er faktisk biologisk relevant. Videre til eksistensen av sammenhengen mellom CNV av Lyn og CTSB punkter LYN- SPHK1 og CTSB- SPHK1 interaksjoner som viktig for kreftutvikling
Første linje består av tre funn oppdaget bare av Spearman eller Pearson.; andre, bare ved HHG; tredje, bare ved dCov; og fjerde, bare av MIC. P-verdier (etter justering for multippel testing) nomineres i hver tomt.
Et annet eksempel på en forening som kun finnes ved HHG er sammenheng mellom genene CDKN1A og TKT (fig 2). CDKN1A koder for CDK-samspill protein 1 (p21), en potent cyclin-avhengig kinase inhibitor som regulerer cellesyklus progresjon gjennom G1 /S sjekkpunkt. TKT koder for Transketolase, en sentral enzym av Pentose fosfat pathway. Sammenhengen mellom CDKN1A og TKT oppdaget av HHG gjenspeiler faktisk en sammenheng mellom veier disse to genene tilhører. Etter cellesyklusprogresjon fra G1 inn i S-fasen, er det en opp-regulering av Pentose fosfat vei, som er ansvarlig for produksjon av ribose-5-fosfat (R5P), som er nødvendig for syntese av nukleotider og nukleinsyrer [25] . Alle genene i eksemplene ovenfor er plassert på forskjellige kromosomer eller langt borte fra hverandre på det samme kromosom; dermed fysisk nærhet kan ikke forklare CNV-baserte foreninger.
Identifisering av gen-funksjon ved hjelp av multivariate foreningen tester
Påvisning av assosiasjoner mellom par av gener ved univariat analyse er en god start mot å utlede biologisk informasjon fra CNV data, som vist ovenfor. Når imidlertid arbeider med et stort antall gener, funksjon og en relasjon til biologiske baner for mange gener er ofte ukjente. Finne foreninger med kjente gener kan kaste lys over deres mulig funksjon, men multivariat analyse kunne gi ytterligere viktig informasjon. Derfor benyttet vi de multivariate tester for avhengighet mellom flere gener med ukjent funksjon i vårt datasett og kjente veier, ved hjelp dCov og HHG multivariate tester. Nærmere bestemt av de 99 gener i vårt materiale, tolv gener har ingen kjent funksjon eller tilknytning til en biologisk reaksjonsvei (figur 3), som bestemt ved hjelp av KEGG pathway ([26,27]; https://www.genome.jp/kegg /verktøy /map_pathway1.html). For å oppdage sine assosiasjoner med kjente veier, må vi først tildelt resten av genene til trasé basert på KEGG sti mapper (S2 tabell), og deretter valgt åtte eksperimentelt påvist biologiske mekanismer som inneholder minst fem gener fra våre datasettet (fig 3). I tillegg apoptose vei, som er en av de grunnleggende kreftrelaterte mekanismer, ble inkludert i vår studie, selv om bare to gener fra våre datasett har blitt tildelt. Neste, vi testet for assosiasjoner mellom hvert gen-bane par blant de tolv gener og ni veier. Vi søkte dCov og HHG som var, av testene vi brukte ovenfor, bare to tester som kan multivariat analyse, dvs. testing for assosiasjon mellom vektorer (flere detaljer er tilgjengelig i Materialer og metoder avsnitt). I alt ble 108 tester utført med hver metode og et testresultat ble betraktet som signifikant hvis FDR-justerte p-verdien var mindre enn 0,05 med Benjamini-Hochberg prosedyre [21]. Av de tolv gener, seks gener viste signifikante assosiasjoner til trasé (fig 3A og S3 Table).
I panelene A og B, gener (til venstre) og veier (til høyre) ble analysert for tilknytning av HHG og dCov. Signifikante sammenhenger (korrigert for multippel testing) er forbundet med linjer: stiplede for HHG, strødd for dCov og solid for begge. A) signifikant sammenheng mellom gener med ukjent funksjon og kreftrelaterte veier. Foreninger funnet av dCov og HHG er merket. B) signifikant sammenheng mellom gener med kjent funksjon og kreftrelaterte veier. Bare foreninger funnet av dCov er vist som ingen signifikante sammenhenger ble funnet ved HHG.
To gener, LRRC32 og SPI1, ble funnet å være assosiert med det meste av veier, noe som tyder på at de kan være signaltransduksjon mellom regulerer nedstrøms mål som tilhører disse banene. Disse funnene er i tråd med resultatene av univariat analyse, som i betydelig grad forbundet både gener med serin /treonin kinase PAK1 og SPI1 genet også med HRAS, en GTPase av RAS familien. Faktisk, ifølge KEGG sti mapper PAK1 og HRAS tilhører de fleste av stiene som LRRC32 og SPI1 ble funnet å være assosiert. Videre både PAK1 og HRAS er involvert i transduksjon av sprednings signaler og deres miss-regulering fører til unormal signaltransduksjon og kreft [28,29]. Således, mens en univariat analyse kunne finne sammenheng mellom gener med ukjent funksjon og individuelle gener med kjent funksjon, den ovenfor multivariat analyse kunne peke ut sine assosiasjoner med biologiske prosesser.
De fire gjenværende knyttet gener, AFF2, CLCN5, MYCN, og TCL1A, ble funnet å være forbundet hver til en eller to bestemte reaksjonsveier som tyder på at de utgjør nedstrøms effektorer i disse baner (se eksempler nedenfor). Ingen sammenhenger ble funnet mellom de seks andre gener og noen av trasé.
I multivariat analyse anvendt ovenfor til gener med ukjent funksjon, dCov og HHG oppdaget lignende rekke betydelige multivariate sammenhenger, 15 av dCov, og 13 ved HHG, mens 8 ble påvist ved begge metoder. Derfor vår analyse avdekket ingen klare bevis på overlegenheten av en metode over den andre i dette spesielle bruksområdet.
I tillegg til den multivariable analyse anvendt til gener av ukjent rolle i kreft, plukket vi to gener fra datasettet , PIK3CA og MSH2, som har etablert biologisk funksjon, og ikke tilhører noen av de åtte veier i henhold til KEGG, og utførte gen-pathway multivariate tester av foreningen av dCov og HHG, lik de utført over for gener med ukjent funksjon. Mens dCov funnet 13 signifikante resultater, HHG fant ingen (Fig 3B og S4 tabell).
De foreninger, oppdages av dCov, mellom MSH2 og cellesyklus, apoptose, brennvidde heft, RAS, WNT og aktin trasé er konsistente med dens funksjon i DNA mismatch reparasjon og dens forbindelse til celledeling [31]. Tilsvarende assosiasjoner mellom PIK3CA og følgende trasé: apoptose, aktin, Focal vedheft, FoxO signal, T-celle reseptor signal, Axon veiledning og Wnt (Fig 3B og S4 Table) er støttet av store biologiske data [32-35]. Forholdet av PIK3CA til disse banene, så vel som dens sentrale rolle i humane kreftformer, er en konsekvens av det å være en nøkkelspiller i aktivering av signaleringskaskader som er involvert i cellevekst, overlevelse, formering, motilitet og morfologi [36]. Avviket i den aktuelle resultatene av dCov og HHG (figur 3B) er på grunn av den lineære natur av forholdet mellom disse genene og trasé, og det faktum at styrken av HHG er i å finne ikke-monotone relasjoner. For eksempel dCov oppdaget signifikant sammenheng mellom PIK3CA og Axon veiledning veien. Ser tilbake på univariate analysen (S1 tabell) ser vi at PIK3CA ble funnet å være signifikant assosiert med HRAS, som tilhører den Axon veiledning vei, og denne foreningen ble også funnet ved Pearson eller Spearman. Slike resultater tyder sterkt lineært forhold mellom PIK3CA og HRAS (figur 4). Tilsvarende krets funnet ved dCov, men ikke ved HHG, mellom MSH2 og Ras-signalreaksjonsveien kan forklares ved den signifikant sammenheng funnet ved Pearson eller Spearman mellom MSH2 og genet REL, som hører til denne reaksjonsvei (S1 tabell, og Fig 4 ). Det er forventet at kjente sammenhenger mellom gener oppdaget av laboratoriemetoder (som co-IP) eller ved bioinformatiske analyse av high-throughput data basert på klassiske lineære eller monotone orienterte metoder vil bli sterkt partisk mot lineære eller monotone relasjoner.
Scatter plott av PIK3CA versus HRAS (venstre panel) og MSH2 versus REL (høyre panel).
Sammen er disse resultatene gir et bevis for at evnen til multivariat analyse for å avsløre biologisk relevant genet -pathway foreninger.
Diskusjoner
i dette arbeidet vi foretok en ny tilnærming til hele genomet CNV analyse, og målet er å identifisere assosiasjoner mellom CNV forskjellige gener (CNV-CNV) over 60 humane kreftcellelinjer. Vi brukte moderne foreningen tester som kan oppdage ikke-lineære og ikke-monotone foreninger og anvendt dem i univariate innstillinger, i forsøk på å identifisere genet-genet foreninger. Vi har også brukt dem i multivariat innstillinger, i forsøk på å identifisere sammenslutninger av gener med ukjent funksjon med etablerte kreftrelaterte veier.
Til sammen viser vår univariat analyse at assosiasjoner mellom CNV av gener funnet av HHG reflektere sanne biologiske prosesser . Dette tyder på at univariat analyse ved hjelp av statistiske tester som bare er målrettet mot lineære eller monotone foreninger kan resultere i mange biologisk viktige funn gjenværende unrevealed. I tillegg, i dette datasettet, overlegenhet av den HHG testen i de andre testene som er i stand til å detektere ikke-monotone relasjoner er åpenbar.
I den multivariate innstilling, forskjellen mellom de sterkt assosierte gener (LLRC32 og SPI1) og de andre fire er forbundet gener er et eksempel på hvordan multivariat analyse kan antyde den stilling av et gen i en bane. Brukes på en større datasett og kombinert med univariat analyse, ville denne analysen tillate enda mer raffinert posisjonering av et gen i en vei.
Seks gener ikke forbinder med noen av trasé. Dette kan være på grunn av flere årsaker; en av dem er begrenset antall av biologiske mekanismer med hvilke gener med ukjent funksjon ble forbundet, som en konsekvens av et begrenset antall gener (99) med komplette CNV data i databasen anvendt for denne studien. En annen årsak kan være den begrensede biologiske data rapportert i KEGG, men denne situasjonen er forventet å forbedre dramatisk i nær fremtid på grunn av kontinuerlig akkumulering av data fra systemer biologiske undersøkelser.
I tilfelle LRRC32 og SPI1 omtalt ovenfor, de univariable og multivariate resultater utfyller hverandre som disse genene ble funnet å være assosiert med trasé ved den multivariate analysen og de spesifikke medlemmer av disse banene ved univariate analysen. Men det er viktig å merke seg at dette ikke er en generell regel. Som en multivariabel test av uavhengighet angir avhengigheten mellom to vektorer, mens en univariat metode bare løkker i løpet av par av komponenter og testprogram for avhengigheten mellom hvert par av variabler. Derfor er det mulig å oppnå ikke-signifikante univariable tester, men et vesentlig multivariabel test for den samme datasettet. Faktisk er det en mulighet for noen forbindelse mellom hvilke som helst to enkeltgener og likevel av en multivariat forening med hele veien. Dette kan skje på grunn av de kombinerte effektene av variablene i den multivariable test. For eksempel ble AFF2 funnet å være signifikant assosiert med axon veiledning pathway (justert p-verdi = 0,022) ved multivariate analysen, mens ingen signifikant sammenheng mellom AFF2 og en hvilken som helst av genene som utgjør axon veiledning reaksjonsveien ble funnet ved den univariate analysen. Dette kan være et resultat av svake sammenhenger mellom AFF2 og sti medlemmer, eller alternativt på grunn av en sterk tilknytning til en sti medlem som ikke var inkludert i dataene. I alle fall, det oppdaget multivariat analyse gen-reaksjonsveien krets ikke kunne ha blitt utledet basert på univariable analyseresultatene.
I motsatt fall to gener, A og B, kan være forbundet ved univariat analyse, mens ingen sammenheng mellom gen A og veien genet B tilhører er funnet av multivariat analyse. For eksempel CLCN5 ble funnet av univariate analyse å være forbundet med MET og BCL2, som begge tilhører den Focal adhesjon veien, noe som ikke var assosiert med CLCN5 av multivariabel testing. En multivariat analyse avdekket imidlertid assosiasjoner mellom CLCN5 og Axon veiledning og RAS trasé (fig 3). Begge disse reaksjonsveier inneholder MET, den eneste vei medlem funnet å være assosiert med CLCN5 ved univariate analysen. Slike resultater er forventet siden MET er en reseptortyrosinkinasehemming, transducing signaler fra utenfor cellen, og dermed er helt i starten på mange veier, mens BCL2 er en terminal protein i mange veier. Dette betyr at en univariate forbindelse med dem er ikke sterk nok til å detektere en sti krets. Bekreftelse på at CLCN5 CNVs er assosiert med Axon veiledning sti kommer fra observasjonen at 65,9% av sentralnervesystemet kreftformer har et tap av ett eller to eksemplarer av CLCN5 genet (COSMOS, [30]).
Disse eksemplene viser den mulige fordel av multivariant av uavhengighet over univariable tester når målet er å finne et forhold mellom et gen og en gruppe av gener, for eksempel en vei, eller finne en forbindelse mellom to grupper av gener (for eksempel to pathways). Generelt, for å oppnå et fullstendig bilde, både krets tester typer bør anvendes.
dCov og HHG testene er permutasjon tester, og beregning av mange slike tester kan være beregningsmessig krevende. Distribusjonsfritt univariate tester av en smak som ligner på HHG ble nylig introdusert i [37]. Disse testene kan være nyttige alternativer til HHG prøve når et stort antall univariate tester samtidig undersøkt
I sammendraget, våre resultater viser:. (1) multivariatanalyse er et svært nyttig verktøy for å tillegge biologiske roller til gener av ukjent funksjon; (2) Univariat omnibus analyse, dvs. ved hjelp av tester som gjenkjenner alle typer relasjoner, kan avdekke mange nye viktige foreninger som ikke kan oppdages av de vanlige lineære og monotone foreningen tester; (3) HHG test bedre enn alle de andre testene i å finne univariate foreninger; Og viktigst av alt, (4) Ved hjelp av en kombinasjon av multivariate og univariate foreninger tester kan avsløre vesentlig informasjon om genet nettverk, og i dagens kontekst, om kreft-kjøring prosesser.
Materialer og metoder
CNV databaser
Comparative genomisk hybridisering (CGH) data fra et panel av 60 humane kreftcellelinjer (NCI-60) ble hentet fra [12,38 Bryterens]. Den CGH inneholder 349 kloner. Etter eksklusiv kloner med manglende verdier og kloner med ukjente genet symboler, ble utført vår analyse på et sett av 99 CGH kloner, som representerer 99 gener. S5 tabell inneholder aCGH rådata fra NCI-60.
Univariat analyse
Association analyse ble utført på 99 kloner basert på deres kopiantall i hver av de 60 cellelinjer fra NCI-60. Vi testet alle mulige parvise foreninger blant de 99 kloner, genererer 4851 par. Vi brukte de følgende tester av uavhengighet: (i) test basert på Pearson korrelasjonskoeffisient [39] (ii) test basert på Spear rang korrelasjonskoeffisient [40] (iii) avstanden kovarians (dCov) [16,17]; (Iv) maksimal informasjon koeffisient (MIC) [18]; og (v) en test basert på rekkene av avstander (HHG) [19]. For hver metode vi justert for multiple sammenligninger av FDR av Benjamini og Hochberg [21], og en testresultatet ble ansett som vesentlig dersom den justerte p-verdien var mindre enn eller lik 0,05.
I det følgende gir vi en oversikt over testene. Anta vi har
N
uavhengige observasjoner (
X
i
,
Y
i
),
i
= 1, …,
N
, fra felles distribusjon av (
X
,
Y
),
X
Y
∈
R Hotell og vårt mål er å teste om det er en sammenheng mellom
X Hotell og
Y
.
jeg. Pearson korrelasjonskoeffisient.
Prøven Pearson korrelasjonskoeffisient, merket med
r
p
, er givenwhere og er definert på samme måte basert på
Y
1, …,
Y
N
. Verdien av
r
p
er mellom -1 og 1.
r
p
lik 1 eller -1 tilsvarer til datapunkter som ligger nøyaktig på en linje. En verdi på 0 betyr at det ikke er noen lineær sammenheng mellom
X Hotell og
Y
. If (
X
,
Y
) følger bivariate normalfordelingen, under nullhypotesen ingen lineær sammenheng mellom
X Hotell og
Y plakater (dvs. den sanne korrelasjonskoeffisient lik 0), følger en Student
t
fordeling med
N Anmeldelser – 2 frihetsgrader [39]. Dette Student
t
distribusjon har også ca, hvis fordelingen av (
X
,
Y
) er ikke normalt, men utvalgsstørrelsen er stor nok. Vi brukte denne testen ved hjelp av funksjonen cor.test med parameter method = «Pearson» i pakken
statistikk
av R (https://www.r-project.org).
ii. Spearman korrelasjonskoeffisient.
Spearman korrelasjonskoeffisient, merket med
r
s
, er definert på samme måte som
r
p
men i stedet for å bruke de observerte verdiene sine rekker brukes [40]. Ved knyttet verdier, er en rang lik gjennomsnittet av sine posisjoner i stigende rekkefølge av verdiene tildelt. En verdi på 1 eller -1 for
r
s
tilsvarer saken der
X Hotell og
Y
er perfekte monotone funksjoner fra hverandre. Under nullhypotesen ingen monoton sammenheng mellom variablene og stor utvalgsstørrelse, følger en Student
t
fordeling med
N Anmeldelser – 2 frihetsgrader [40]. Vi brukte denne testen ved hjelp av funksjonen cor.test med parameter method = «Spearman» i pakken
statistikk
av R (https://www.r-project.org).
iii. . Den dCov test
Avstanden kovarians test [16,17] bruker alle parvise euklidske avstand
en
ij
=