Abstract
Bakgrunn
NCI-60 er et panel av 60 forskjellige humane kreftcellelinjer som brukes av det amerikanske National Cancer Institute for å screene forbindelser for anticancer aktivitet. I denne studien ble genuttrykk nivåer fra fem plattformer integrert for å gi et enkelt sammensatt transkriptom profil. Den omfattende og pålitelige natur at datasettet tillater oss å studere gen co-uttrykk på tvers av kreft cellelinjer.
metodikk /hovedfunnene
hierarkisk clustering avdekket mange klynger av gener som gener CO- varierer på tvers av NCI-60. For å finne ut funksjonell kategorisering forbundet med hver klynge, brukte vi Gene ontologi (GO) Consortium databasen og GoMiner verktøyet. GO kart gener til hierarkisk organisert biologisk prosess kategorier. GoMiner kan utnytte GO til å utføre ontologiske analyser av genuttrykk studier, genererer en liste over vesentlige funksjonelle kategorier.
Konklusjon /Betydning
GoMiner analyse avdekket mange klynger av coregulated gener som er forbundet med funksjonelle grupperinger av GO biologiske prosess kategorier. Spesielt disse kategoriene som skyldes sammenhengende co-uttrykk grupperinger reflektere kreft-relaterte temaer som vedheft, cellemigrasjon, RNA-spleising, immunrespons og signaltransduksjon. Dermed disse klyngene demonstrere transcriptional coregulation av funksjonelt-relaterte gener
Citation. Zeeberg BR, Reinhold W, Snajder R, Thallinger GG, Weinstein JN, Kohn KW, et al. (2012) Funksjonelle kategorier Assosiert med klynger av gener som er Co-Uttrykt på tvers av NCI-60 Cancer Cell Lines. PLoS ONE 7 (1): e30317. doi: 10,1371 /journal.pone.0030317
Redaktør: Ilya Ulasov, University of Chicago, USA
mottatt: 17 juni 2011; Godkjent: 15 desember 2011; Publisert: 24 januar 2012
Dette er en åpen-tilgang artikkelen, fri for all opphavsrett, og kan bli fritt reproduseres, distribueres, overføres, endres, bygd på, eller brukes av alle for ethvert lovlig formål. Arbeidet er gjort tilgjengelig under Creative Commons CC0 public domain engasjement
Finansiering:. Denne forskningen ble støttet av egenutført Research Program av National Institutes of Health, National Cancer Institute, Senter for kreftforskning, forskning og østerrikske departementet for vitenskap og forskning, GEN-AU-prosjektet Bioinformatikk Integration Network. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
NCI-60 er et panel av 60 humane kreftcellelinjer som har blitt brukt av Developmental Therapeutics Program (DTP) av det amerikanske National Cancer Institute til skjermen forbindelser pluss naturlige produkter siden 1990 [1], [ ,,,0],2]. NCI-60 panel inneholder cellelinjer fra kolorektal (CO), renal (RE), eggstokkene (OV), prostata (PR), lunge (LC), bryst (BR), og sentralnervesystemet (CNS) kreft opprinnelse, som samt leukemi (LE) og melanomer (ME). Vi og våre mange samarbeidspartnere rundt om i verden har profilert NCI-60 mer omfattende i DNA, RNA, protein, mutasjon, funksjonell, og farmakologiske nivå enn noe annet sett med celler som finnes [1], [2], [3] , [4], [5], [6]. De NCI-60 data har blitt mye brukt i kreftforskning og bioinformatikk, men flere datasett kan være mest informative for godkjenning av komplekse «biosignatur. Slike biosignatur igjen kan føre til økt forståelse av celle fenotyper og sti relasjoner i cellen .
Vi har tidligere utviklet GoMiner [7] og høy gjennomstrømming GoMiner [8], programmer som organiserer lister over «interessant» gener (for eksempel under- og over uttrykte gener fra en microarray eksperiment) for biologisk tolkning i sammenheng med den Gene Ontologi [9], [10]. GoMiner og relaterte verktøy typisk generere en liste over vesentlige funksjonelle kategorier. I tillegg til lister og tabeller, kan høy gjennomstrømming GoMiner gi to typer klyngebildekart (Cims) som grafisk produksjon. Integrative
kategorier versus eksperimenter
Cims fange forholdet mellom kategorier og flere eksperimenter; individ
kategorier kontra gener
Cims fange forholdet mellom kategorier og gener. Begge typer Cims brukes til å presentere resultatene i dette arbeidet.
I det siste tiåret, systembiologi har blitt stadig mer fremtredende som antall analyser gener og biologiske parametre har økt, og begynner å vise sin funksjonelle relasjoner. En standard metode for å studere systembiologi med genomisk data er å klynge gener hvis uttrykk profiler co-varierer enten over en tid kurs eller på tvers av flere prøver. For eksempel, Garraway
et al.
[11] utførte en integrert veiledet analyse av SNP matrise og genuttrykk data for å identifisere MITF som en avstamning overlevelse onkogen forsterket i malignt melanom. En rekke ytterligere genekspresjon mikromatriser demonstrere potensialet av gen co-ekspresjonsstudier. For eksempel, Prieto
et al.
[12] brukte Affymetrix HGU133A plattform for å identifisere co-uttrykk nettverk i et mangfold av menneskelige vevsprøver. Deres nettverk avslørte et kart over koekspresjon klynger organisert i veldefinerte funksjonelle konstellasjoner. To store regioner i dette nettverket samsvarer med gener som er involvert i atom og mitokondrie metabolisme. Denne studien er ikke direkte relevant for kreft, men siden det ikke noen kreftvev ble inkludert i studien. Choi
et al. Product: [13] gjorde studien kreft vev, men hadde dessverre avlives publiserte data fra hva som ville nå anses å være utdatert (Affymetrix U95A) eller upålitelige (cDNA) plattformer. Også data innhentet på ulike plattformer for å bli forlikt, og datoen for studier forut for tilgjengeligheten av pålitelige ressurser som AffyProbeMiner [14] og SpliceCenter [15]. Likevel, Choi var i stand til å oppdage funksjonelle forskjeller mellom normal vekst og kreft i form av genet koekspresjon endringer i brede områder av fysiologi. Energi metabolisme, cellesyklus, aktivering av immunsystemet og kollagenproduksjonen
Andre studier har vært fokusert på vevs-spesifikke gener. Cho
et al product: [16] avdekket mange stier knyttet til patofysiologien av lungekreft:. Cytokinnettverket og TNF /stress relatert signalveien par; trombin signalering og protease-aktiverte reseptorer reaksjonsvei; Cellesyklus: G1 /S Check Point og Hemming av Cellular spredning av Glivec. Likeledes studier av Lai
et al.
[17] ble begrenset til prostata kreft og utviklet en statistisk metode for å identifisere differensial gen-gen co-uttrykk mønstre i ulike celle stater. For et gen av interesse, er andre gener valgt som har differensial-gen-genet ko-uttrykk mønstre med dette genet i forskjellige celletilstander. Ved å bruke tumorsuppressorgener TP53, PTEN og RB1 som genet av interesse, utvalgte gener inkludert hepsin, GSTP1 og AMACR.
Denne studien ble gjennomført for å teste hypotesen om at gener fra lignende funksjonelle kategorier tendens til å vise sammenlignbare mønstre av uttrykk på tvers av cellelinjer fra en bred vev av opprinnelse spektrum (
dvs.
, de NCI-60 cellelinjer). Denne hypotesen ble generert i løpet av vår nylig studie som viser at atom kodet mitokondrielle gener er coregulated mellom hverandre og med den MYC-genet på tvers av NCI-60 [18], [19]. Denne analysen ble utført med den forbedrede uttrykks data i CellMiner (https://discover.nci.nih.gov/cellminer) [20], [21]. Disse data er av overlegen kvalitet, siden de blir oppnådd ved sammenstilling av fem microarray plattformer (se detaljer i metode avsnitt). De også ta opp den generelle i de coregulation prosesser siden NCI-60 består av et spesielt rikt sett med prøver fra 9 vevstyper med høy reproduserbarhet.
Diskusjon
Resultater og
Globalt oversikt over strategien og prosessflyt
et flytdiagram (figur 1) gir en global oversikt over prosessen flyt. Vi urfremført standard hierarkisk clustering på genuttrykk profiler på tvers av NCI-60 cellelinjer. Vi deretter kutte den resulterende klyngen treet for å oppnå 4 nivåer av kutt, ber om (fra laveste til høyeste oppløsning) 20, 40, 80, eller 160 gensamlingene (som resulterer i totalt 20 + 40 + 80 + 160 = 300 gensamlingene) . Denne ordningen generert familier av klynger slik at en klynge av 20 snitt var en forelder til et barn klyngen i 40-cut, og så videre. En klynge av 20 snitt kan ha en eller flere slike barn, men hvert barn har bare en av foreldrene. Således kan hver klynge familie være entydig betegnet med klynge antall av sin 160-snitt. Genet sett for hver av de 300 klynger ble sendt til høy gjennomstrømming GoMiner (HTGM) for å finne de betydelige Gene Ontologi Consortium (GO) kategorier knyttet til hvert gen sett. Farten kategorier som var til stede på tvers av alle 4 stykker av en klynge familie ble ansett for å være
robuste
kategorier forbundet med den familien. Betydningen av robusthet er det en robust kategori er uavhengig av den spesielle grad av oppløsning som brukes for å kutte genet klynge treet. Dermed blir robuste kategoriene er mer fokusert og pålitelig enn ikke-robuste kategorier som er vesentlige for noen bestemt kutt, men ikke for alle kutt.
Gene klynger basert på co-uttrykk
Ved hjelp av denne strategien og prosessering flyt, vi dro ut for å undersøke hele datasettet for 16,821 gener i CellMiner med høy kvalitet uttrykk data på tvers av flere mRNA uttrykk plattformer i NCI-60 cellelinjer. Hierarkisk clustering av genuttrykk profiler ble utforsket på 4 nivåer av oppløsning ved å be om kutt som inneholder 20-, 40-, 80- eller 160-klynger.
GÅ kategorier knyttet til hver co-uttrykk klynge
Vi kjørte høy gjennomstrømming GoMiner (HTGM) på gensettene i alle 300 klynger, og spurte om det skulle være noen GÅ kategorier stede på tvers av alle 4 nivåer av kutt av en klynge familie. At resultatet ble beste visualisert av en ny type «kategorier
versus
eksperimenter» CIM (2A, S1 A, B). Bare rader var gruppert, ettersom søylene allerede hadde blitt forhånds anordnet i en spesiell rekkefølge: å starte med en av klyngene fra 20 snitt, vi koblet at klynge med den klyngen (e) av 40 snitt som befinner «barn» av 20-kutt. Denne prosessen ble brukt rekursivt til alle 4 kutt. For å lette visualisering av kuttene, vi tok fordel av en ny funksjon i Genesis clustering program for å tildele en distinkt fargeskala for hvert kutt. Vi skissert de samme gruppene av kategoriene som var statistisk signifikant og som hadde gjensidig relatert biologisk funksjonalitet innenfor NCI-60 klynger (hvite rektangler i figurene 2A og S1B). Klyngen familie antall og funksjonelle betegnelser vises ved siden av hver omkranset gruppe. Til høyre i figur 2A er en skala indikator som viser høyden okkupert av 10 rader med kategorier. Koordinatene til klynger i figur 2 er gitt i tabell 1, og den robuste kategoriene som er vist i figur 2A er gitt i tabell S1.
(A) kompakt versjon. Fullversjonen er tilgjengelig som Tall S1A, B. Bare kategorier med FDR 0,10 for minst ett kutt er representert. Koordinatene til klynger (
f.eks
, R1, C1) er vist i tabell 1. HTGM FDR for GO kategorier for 20-, 40-, 80- og 160-kutt er gitt i grønt , blå, rosa og rødt, henholdsvis. En lys farge tilsvarer høy korrelasjon (dvs. en lav FDR), og en mørkere nyanse tilsvarer en FDR nær terskelen til 0,10. Klyngen tall for de 160-kutt er vist på høyre side av hver omkranset gruppering. (B) Blowup av klyngen 52 familie gruppering avledet fra figur 2A.
Figur 2A viser tydelig veldefinerte klase familier som oppstår fra konvergens av sammenhengende genekspresjon og sammenhengende biologiske prosesser med en overordnet GO kategori. At konvergensen er særlig tydelig i flere klase familier (klyngen nummeret for den 160-snitt komponent av familien er gitt i parentes): cellemigrasjon (52), signaloverføring (11), reproduksjon (51), celleadhesjon (132) , kollagen (72), immunsystemet (68), RNA-prosessering (137), RNA-spleising (69) og DNA-replikasjon (154). Dermed ble hver klynge definert av et bestemt gen uttrykk profil og en bestemt og samlende GO kategorisering.
Vi var fornøyd over å finne at vi kunne identifisere 64 robuste kategorier (tabell S1), som består av 15 gener GO funksjonalitet, alle hvorav (med unntak av øyet pigmentering) er nært relatert til kreft. For bedre å illustrere den operasjonelle definisjon og konseptet med robusthet, har vi konstruert en blowup (figur 2B) av klyngen 52 familien gruppering skissert i gul i figur 2A. Klyngen 52 familie gruppering består av etterkommere av klyngen 10 av 20 snitt, som ordnet i panelet «Bestem hvilke klynger er foreldre til andre klynger» i flytdiagram (figur 1). At panelet viser at veien til å klynge 52 av 160 snitt inkluderer klynge 30 av 40 snitt og cluster 42 av 80 snitt. I figur 2B, merk at 4 forskjellige fargeskalaer skille de 4 kutt (
f.eks.
, Grønn, blå, lavendel og rødt utpeke 20-, 40-, 80-, og 160-kutt, henholdsvis). For eksempel, HTGM analyse viste at GO: 0051674_localization_of_cell var statistisk signifikant i klynger 10, 30, 42, og 52 av de 20-, 40-, 80- og 160-kutt, respektivt. Dermed GO: 0051674_localization_of_cell ble utpekt som en robust kategori. I kontrast, GO: 0048468_cell_development var signifikant bare i klyngen 52 av 160 snitt, og ble dermed ikke utpekt som robust. Legg merke til at panelet i flytdiagrammet viser 7 familie grupperinger som stammer fra klynge 10 av de 20 snitt. Den nåværende Figuren viser at ingen av de andre enn 10/30/42/52 familie grupperinger inneholder en robust kategori, selv om noen inneholder betydelige kategorier (
f.eks
, 10/11/36/43 inneholder GO: 0051674_localization_of_cell som betydelig, men ikke robust kategori).
den robuste kategorier for klyngen familien tilsvarer klynge 52 av 160 snitt er oppført i bunnpanelet av flytdiagrammet i figur 1. de robuste kategorier fokusere på celle migrasjon, mens (robuste pluss ikke-robuste) betydelige kategoriene er mer mangfoldig, generelt reflekterer nevron utvikling, immunrespons, og epitelial-mesenchymale overgang (EMT) i tillegg til cellemigrasjon (se «kategorier
versus
gener «Cims nedenfor).
offentlig database for å tillate utforskning av resultatene i figur 2A
for å lette fremtidig forskning med clustering og funksjonelle kategorisering resultatene som er rapportert her gir vi en offentlig database. Flere pre-bygget MySQL spørringer kan utstedes for å hente informasjon fra en database som inneholder resultatene i figur 2A og sin utvidede versjonen Figur S1B. En typisk spørring kan innebære å hente en liste av gener innen en bestemt klynge som tilordnes til en spesifisert GO kategori. Et grafisk brukergrensesnitt (GUI) for utstedelse av den ønskede spørringen er gitt på URL https://discover.nci.nih.gov/NCI60/menu.table.html. Webadressen inneholder en praktisk tabell med klikkbare spørsmål og eksempler på tilsvarende input og output parametre (figur 3). En PowerPoint tutorial for å bruke databasen er tilgjengelig fra supplerende materiale (Powerpoint S1).
»Kategorier
versus
gener» Cims
For å illustrere en type biologisk informasjon som kan merkes fra clustering strategi som vi brukte, avgrense vi sammenhengen mellom gener og funksjonelle kategorier for cluster 52 av 160 snitt, ved å konstruere en «kategoriene
versus
gener» CIM for de store kategoriene (Figur 4A) og for den robuste kategoriene (figur 4B). Ytterligere detaljer er presentert i Method.
De betydelige kategorier CIM er et supersett av de robuste kategorier CIM med hensyn til både gener og kategorier. Som nevnt ovenfor, er robuste kategoriene sterk fokus på cellemigrering, mens de betydelige kategoriene av klynge 52 av 160-snitt er mer mangfoldig, generelt reflekterende neuron utvikling, immunrespons, og EMT i tillegg til cellemigrering. Statistikken for de to Cims er oppsummert i trinn nummer 4 og 5 i tabell 2.
For de robuste kategorier CIM (figur 4B), i noen tilfeller er det betydelig overlapping mellom genene i kategorier, som oppstår for de nederste 7 kategorier (den «cellevandring» gruppe) i CIM. I denne situasjon har vi tolke disse kategoriene som blir i stor grad overflødig i forhold til hverandre. En mer informativ situasjon oppstår når det ikke er full redundans, men heller når det bare er delvis overlapping mellom (grupper av) kategorier, for eksempel den nevnte celle migrasjon gruppe, og de fire øverste kategoriene i CIM. Slike delvis overlapping kan avsløre «cross-talk» mellom ulike biologiske funksjoner. Kategori forhold kan gjenspeile deltakelse av cellemigrerings komponenter, for eksempel cytoskjelettet og integriner.
For det vesentligste av kategoriene (figur 4A), medierer TGFB2 krysstale mellom neuron differensiering og cellemigrerings grupper av kategorier. Mer påfallende er separasjon av hoveddelen av cellevandring relaterte (
dvs.
, TGFB1I1, MYH9, VCAM, ADAM9, DLC1, FGF2, CLIC4, NEXN, og VCL) og nerverelaterte gener (
dvs.
, IL6, INHBA, KCNMA1, DBN1, FEZ2, ROBO3, og NOG). Således, for det meste, forskjellige sett av gener som korrelerer med de 2 funksjonalitet, og årsaken til deres vises i det samme område familie 52 av de 160-snitt (på grunn av høyt korrelerte genekspresjonsprofiler) indikerer et intimt forhold mellom celle migrasjon og nevroner utvikling som krever fremtidig etterforskning.
Konklusjoner
den omfattende karakter av NCI-60 genekspresjon datasettet, sammen med det brede spekter av vev opprinnelsesland representert, tillot oss å få innsikt inn i systembiologi av kreftceller ved å identifisere flere klynger av gener som samvarierer over 60 cellelinjer.
for ytterligere å karakterisere genene innen hver klynge, brukte vi Gene ontologi (GO) Consortium database sammen med GoMiner verktøy for å fast funksjonelle foreninger. GoMiner analyse viste at genene i mange klynger er forbundet med sammenhengende GO biologiske prosess kategorier, for eksempel cellemigrasjon, signaltransduksjon, reproduksjon, celle adhesjon, kollagen, immunforsvaret, RNA prosessering, RNA spleising, og DNA replikasjon.
de nye funksjonene i vår tilnærming er (1) co-uttrykk analyse av høy kvalitet genuttrykk profiler som gis gjennom den nylig tilgjengelig kompositt transkriptomet profil basert på den integrerte genuttrykk nivåer fra fem plattformer, (2) bruk av GÅ kategorisering å finne robuste kategorier som ikke er avhengig av å velge et bestemt nivå av oppløsning for å kutte klyngen dendrogram, og (3) ved hjelp av genene i utvalgte klynger for å generere fremtidige forskning retninger, slik som celle migrasjon genene i klyngen 52 av 160 snitt (Kohn
et al.
, manuskript under forberedelse). Så vidt vi vet, har ingen av disse funksjonene er undersøkt /gjennomført tidligere.
En type ny innsikt er klarlegging av nye genet forbindelser basert på de to kriteriene for co-uttrykk og koordinert funksjonell kategorisering. Denne tilkoblingen kan visualiseres ved å undersøke genene i de GO kategorier som har delvis overlappende med genet
versus
kategorier type HTGM CIM (se for eksempel TGFB2 krysstale mellom nevroner differensiering og cellemigrasjon kategoriene i figur 4A).
En annen type ny innsikt er klarlegging av de høyest co-regulert trasé, med bekreftelse av nærstående funksjonell kategorisering av genene i veien. For eksempel er mange av genene i klyngen 52 av 160 snitt er involvert i en svært koordinert celle migrasjon pathway (Kohn
et al.
, Manuskript under forberedelse).
Materialer og metoder
CellMiner
NCI-60 transkripsjon uttrykk.
Gene avskrift ble bestemt ved hjelp av sonder fra fem plattformer. Disse inkluderer, fra Affymetrix (Affymetrix Inc., Sunnyvale, CA), den ~60,000 funksjonen Human Genome U95 Set (HG-U95) [5], den ~44,000 funksjonen Human Genome U133 array (HG-U133) [5], den ~47,000 har human Genome U133 Plus 2,0 Arrays (HG-U133 Plus 2.0); og ~5,500,000 funksjonen Genechip Menneskelig Exon 1,0 ST array (GH Exon 1,0 ST) [19]. Også inkludert fra Agilent (Agilent Technologies, Inc., Santa Clara, CA) var ~41,000 funksjonen Whole Human Genome Oligo Mikromatrise [3]. Alle Affymetrix plattformer ble normalisert ved Guanine Cytosine Robust Multi-matrise analyse, eller GCRMA [22]. Agilent mRNA prober ble normalisert basert på deres oppdagelse i minst 10% av cellelinjer, ved hjelp GeneSpring GX av i) å sette noen gProcessedSignal verdi mindre enn 5-5, ii) transformere gProcessedSignal eller gTotalGeneSignal til Logbase 2, og iii) normalisering per array til 75
th persentil [3]. Vår relasjonsdatabase, CellMiner, på http: //discover.nci.nih.gov , kan brukes for å få tilgang til data fra HG-U95, HG-U133, HG-U133 Plus 2.0 og Agilent Hele menneskelige genom oligo Mikromatriser .
prober (Agilent) eller probe sett (Affymetrix) ble deretter ført gjennom følgende kvalitetskontroll kriterier før bruk for å bestemme relative genuttrykk nivåer. Først ble gjennomsnittlig probe satt intensitet områder (ment å inkludere Agilent sonder i følgende tekst) bestemt. Probe setter med en intensitet varierer eller lik 1,2 log
2 ble droppet. Sonden angir nummeret for et gen som passerte disse kriteriene ble bestemt, og 25% av dette nummeret beregnet. Pearsons korrelasjoner ble bestemt for alle mulige kombinasjoner av de resterende sondesett (for hvert gen). Hver sonde sett gjennomsnitts korrelasjon ble bestemt som i forhold til alle andre (for et enkelt gen). Deretter ble de probe sett med gjennomsnittlig korrelasjon på mindre enn 0,30 fjernet. Etter dette trinnet, setter sonde med lavest gjennomsnitts sammenhenger 0,60 ble droppet. De resterende probe sett /probe sett korrelasjoner kombinasjoner ble deretter beregnet på nytt. Den laveste gjennomsnitts korrelasjon probe sett fortsatte å bli droppet, og gjennomsnittlig omregnet til enten alle gjennomsnittlige korrelasjoner were≥to 0,60, eller før vi nådde 25% tilsvarer original probe sett nummer (beregnet ovenfor).
disse prosedyrene ga nøyaktige transkripsjon intensitetsverdier som var svært reproduserbar og internt konsistent. I tillegg bidrar til den høye kvaliteten på dataene, tror vi, var følgende: (1) Celle vekst, høsting og kvalitetskontroll ble gjort først og fremst av en person (W. Reinhold). (2) Kvalitetskontroll av individuelle probe sett var basert på et minimum intensitet spekter av 1,2 log2 og mønster korrelasjon av 0,60. Dette gir beskyttelse mot sporadisk dårlige probe sett. (3) Transformasjon av dataene til poengsummer z [23] ved subtraksjon av 60 cellelinje betyr og divisjon av standardavvikene gitt beskyttelse mot enkelt-plattform anomalier, og tillot sammenligning av alle sonde innstilte data. Z scorer gjennomsnitt ble bestemt for alle tilgjengelige (18,412) gener for hver cellelinje. Detaljer om z-poeng beregningen er gitt i Supplemetary Materials (Document S1). Disse beregningene ble gjort i Java.
Hvert trinn i prosessen med å trekke gener fra CellMiner [21], og velge de som passer både HUGO Gene Nomenclature Committee symboler (HGNC) [24] symbol samt en GO database merknader, resulterer i et «tap» av gener. Graden av tapet i hvert trinn er oppsummert i Tabell S2. For eksempel er 29,017 og 16,821 gener representert i HGNC og fem-plattformen avskrift uttrykk analyse, henholdsvis. Undergruppe av gener som er representert i HGNC er 11 767/16 821 = 69,9%. Dette tallet er høyere enn den samlede andelen av omtrent 55% av alle humane gener som er representert ved HGNC (Zeeberg
et al.
, Upublisert). Undergruppe av HGNC gener er representert i biologiske prosessen ontologi av GO (under de vilkår som er angitt i tabell S2) består av en noe skuffende 7654/29017 = 26,4%. Det totale utbyttet av fem plattformer gener som har både HGNC og gå biologisk prosess merknader er 6477/11767 = 55,0%.
Laste ned og pre-prosessering av gener fra CellMiner
En spesiell forespørsel ble gjort til systemadministrator for komplett sett av genuttrykk profiler. Det nedlasting ville ha vært for stor til å utføre gjennom den vanlige web-grensesnitt. Verdiene for hvert gen var basert på konsensus av fem microarray plattformer, og er uttrykt som Z-score, som beskrevet i Utfyllende materialer og som beskrevet tidligere [19].
Dataene ble pre-behandlet av pre-velge bare de genene som har både en HGNC symbol og merknader i GO biologiske prosessen ontologi. Hvert gen profil vektor ble skalert til null middelverdi og enhet varians.
Gene klynger basert på co-uttrykk
En R språk (https://www.R-project.org) [25 ] skript ble utviklet for å utføre hierarkisk clustering av genuttrykk profiler på tvers av NCI-60. Siden gener kan fungere positivt eller negativt i et nettverk, ønsket vi gener som var sterkt korrelerte og svært anti-korrelerte som skal tildeles den samme klynge, så vi spesifisert en avstand beregning av 1-abs (cor (t (matte))) /2. Vi har også spesifisert komplett kobling clustering.
Vi brukte R-funksjonen
cutree ()
å kutte den resulterende hierarkisk klynge tre inn i 20, 40, 80, og 160 klynger. Disse klyngene hadde to viktige egenskaper:
Den totale sett av gener i klyngen treet ble delt (helt og uten duplisering) blant de klynger. Det vil si at hvert gen i den opprinnelige settet vist i nøyaktig en klynge.
Klyngene i 40 snitt ble stablet i klynger av de 20 snitt. Det vil si, hver klynge av 40 snitt ble en delmengde av en enkelt klynge av 20 snitt. Dette mønsteret ble opprettholdt rekursivt gjennom alle nivåer av kutt.
Brutto fordeling av gener for alt 300 (
dvs.
, 20 + 40 + 80 + 160) klynger er vist i tabell S3. Hver klynge ble senere analysert ved GoMiner (se neste avsnitt). Vi utførte flere kutt fordi vi ønsket å prioritere de GO kategorier som var uavhengig av den aktuelle skjæremønster (se metodedelen «Skåring GO kategorier»).
Forholdet mellom klyngene i påfølgende kutt (for eksempel 20 og 40, 40 og 80, eller 80 og 160) er avgrenset av en tabell som genereres av rekken av r-anrop er eksemplifisert for 20 og 40 som: det resulterende tabellen viser som klynge (e) i 40 snitt oppsto fra hver klynge i 20-kutt.
Cluster familier
kan defineres ved å starte med en av klyngene i 20-cut, og ved hjelp av 20- og 40-kutt tabellen for å finne alle de 40-cut klynger som ble avledet fra det 20- cut klynge. Denne prosessen ble gjentatt i sin tur for de 40 snitt klynger ved hjelp av 40- og 80-kutt bord, og så videre. Settet med den valgte 20-kutt klynge pluss en enkelt avledet klynge fra hver av 40-, 80-, og 160-kutt utgjorde en klynge familie.
høy gjennomstrømming GoMiner (HTGM)
GoMiner [7] er et verktøy for biologisk tolkning av «Omic «data, inkludert data fra genuttrykk mikromatriser og state of the art sekvense teknologier. Det utnytter Gene ontologi (GO) til å identifisere «biologiske prosesser», «molekylære funksjoner,» og «cellulære komponenter» representert i en liste av gener. Høy gjennomstrømming GoMiner (HTGM) [8], som ble brukt for mange av de analysene som presenteres her, er en forbedring av GoMiner som effektivt utfører beregningsmessig utfordrende oppgaven med automatisert gruppebehandling av et vilkårlig antall slike gener lister.
En GO kategorien er
beriket
dersom antall endrede gener som HTGM tildelt det er statistisk signifikant større enn antallet forventes ved en tilfeldighet. En kategori er ansett som
betydelig
hvis Fishers Exact p-verdi og dens falske funnrate (FDR) er begge mindre enn eller lik en brukervalgt terskel (typisk 0,10, på sjeldne anledningen, p-verdien kan overskride terskelen selv om FDR er under terskelen, og vi ønsker gjerne å avvise slike tilfeller). Se [7], [8] for detaljerte diskusjoner av GoMiner og HTGM, inkludert beregninger av statistisk signifikans.
Vi kjørte alle klynger avledet fra kutt for 20-, 40-, 80- og 160-kutt klynger, totalt 300 innspill filer i en enkelt HTGM løp. Parametrene som brukes i alle HTGM analysene er oppført i tabell S4.
Den gjennomsnittlige gener /klynge på 160 snitt nivået var ca 40, som vi vanligvis ville vurdere å være for få gener å sende til GoMiner . Men i dette tilfellet, som vist nedenfor, finner vi mange viktige og funksjonelt konsistent GO klynger. Således synes den tidligere hierarkisk gruppering av gener basert på ekspresjon for å ha forhånds fokusert genene i et funksjonsmessig sammenhengende måte for derved å kompensere for den lave statistiske styrken av et lite sett.
grov fordeling av GO kategorier som resulterer i å kjøre GoMiner på 300 klynger som omfatter 20-, 40-, 80-, og 160-kutt er vist i tabell S5. Således likheten av genekspresjonsprofiler noen ganger, men ikke alltid, innebærer koherens av biologisk funksjon. Fraksjonen av klynger med minst én vesentlig kategorien moderat reduksjon fra 0,55 (for 20 snitt) til 0,41 (for 160-cut).
Sortering klynger innenfor klase familier
Cluster familier er definert i Methods avsnittet «Gene profil basert hierarkisk clustering.» Vi utviklet en algoritme for sortering av klynger i en klynge familie for eventuell displayet som CIM bilde. Algoritmen bruker tabeller generert av R-koden (se «Gene profil-baserte hierarkisk clustering»), for å gi riktig global bestilling av klynger avledet fra hverandre i forskjellige kutt for 20-, 40-, 80- og 160-cut klynger. Kort fortalt, en klynge familie består av en gitt 20-kutt, og en 40-cut (e) avledet fra at 20-cut, og så videre.
Scoring GO kategorier
Hver GO kategori som var signifikant i det minste i en hierarkisk klynge ble bedømt i henhold til sin tilstedeværelse i klynger av hver av de 20-cut familier.