Abstract
Tolkningen av biologiske datasett er avgjørende for å generere hypoteser som styrer forskning, men likevel moderne metoder for global analyse utfordring vår evne til å skjelne meningsfulle mønstre og deretter formidle resultatene på en måte som lett kan forstås . Proteomikk data er spesielt utfordrende fordi massespektrometri varslere ofte glipp av peptider i komplekse prøver, noe som resulterer i grisgrendte datasett. Bruke R programmeringsspråk og teknikker fra feltet av mønstergjenkjenning, har vi utviklet metoder for å løse og evaluere klynger av proteiner som knyttes sammen av deres mønster av uttrykk i ulike prøver i proteomikk datasett. Vi undersøkte tyrosin phosphoproteomic data fra lungekreft prøver. Vi beregnet ulikheter mellom proteiner basert på Pearson eller Spearman korrelasjon og på euklidske avstander, mens håndtere store mengder manglende data. De ulikheter ble deretter brukt som har vektorer i clustering og visualisering algoritmer. Kvaliteten på clusterings og visualiseringer ble evaluert internt basert på den primære data og eksternt på grunnlag av genet ontology og protein interaksjon nettverk. Resultatene viser at T-fordelt stokastiske nabo innstøping (t-SNE) etterfulgt av minst strekker seg over tre metoder grupper spredte proteomic data til meningsfylte klynger mer effektivt enn andre metoder som
k
en anordning og klassisk flerdimensjonal skalering. Videre viser våre resultater at ved å bruke en kombinasjon av Spearman korrelasjon og euklidsk avstand som en ulikhet representasjon øker oppløsningen av klynger. Våre analyser viser at mange grupper inneholde en eller flere tyrosinkinaser og omfatte kjente effektorer, så vel som proteiner med ingen kjente interaksjoner. Visualisere disse klyngene som nettverkene belyst tidligere ukjente tyrosinkinasesignaltransduksjon trasé som driver kreft. Vår tilnærming kan brukes til andre datatyper, og kan lett vedtatt fordi åpen kildekode-pakker er ansatt
Citation. Grimes ML, Lee WJ, van der Maaten L, Shannon P (2013) Wrangling Phosphoproteomic data å belyse Kreftsignalveier. PLoS ONE 8 (1): e52884. doi: 10,1371 /journal.pone.0052884
Redaktør: Jorge Sans Burns, Universitetssykehuset i Modena og Reggio Emilia, Italia
mottatt: 26. juli 2012; Godkjent: 22 november 2012; Publisert: 03.01.2013
Copyright: © 2013 Grimes et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. MG var støttet av National Institutes of Health (NIH) NS070746-01, NS061303-01, og Cobre NCRR tilskuddet P20 RR015583. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Cell atferd styres av funksjonelle samspill mellom biologiske molekyler, som er klassisk studert ett om gangen, og kommuniserte med pathway diagrammer eller tegneserier. Signaliserte nettverk er faktisk mye mer komplisert enn disse enkle modeller, som avslørt av store tilnærminger til å studere genomet, transkriptomet, og proteom. Disse studiene gir en stor mengde data som er vanskelig å forstå
prima facia
. For å løse dette problemet, en kombinasjon av statistisk analyse og visualisering teknikker kan være nyttig [1] – [4].
En hovedutfordring ved håndtering av store datasett er hvordan du kan løse relasjoner i dataene, og vise resulterer i en meningsfull måte for leting, presentasjon, og til slutt, forståelse av dynamikken i celle responser i syke tilstander og normal differensiering [3]. Mye arbeid har blitt gjort på utforskende dataanalyse og resultater i statistikk [5], og på «nettverk» metafor, som beskriver forholdet mellom biologiske molekyler [6]. Hierarkisk clustering dendrogrammer, varme kart og nettverks grafer har vært ansatt i forsøk på å visualisere mønstre som kan tyde på funksjonelle relasjoner mellom ulike grupper innen data. Det er allment anerkjent at høy gjennomstrømming karakterisering teknologier vil dra nytte av forbedret visualisering og bioinformatiske verktøy [7], og dette gjelder særlig for phosphoproteomic dataanalyse [4], [8], [9].
Høyere oppløsning av datastruktur og datavisualisering kan være spesielt nyttig for studier som undersøker fosforylering av cellulære proteiner. Phosphoproteomic teknikker har blitt stadig mer effektive for å identifisere proteiner i de senere år. Forstå de resulterende dataene, er imidlertid vanskelig, både på grunn av dynamikken i cellesignalering, og fordi signale viser mange overlappinger og god redundans [10], [11]. For å forstå disse dataene og overskride begrensningene ved å representere signaltransduksjon som lineære baner, det er et klart behov for verktøy og metoder som integrerer data analyse og grafer [2], [12]. Verktøyene skal sette etterforskere til å velge statistiske teknikker med passende forutsetninger for den type data blir analysert, og visualisere resultatene på en måte som antyder hypoteser for videre datainnsamling og eksperimenter.
En vurdering som er spesielt viktig når analysere proteomikk massespektrometri data er hvordan manglende verdier håndteres. Med forsiktig bruk av høyoppløselige instrumenter, har massespektrometri en svært lav falsk positiv rate [13], noe som betyr at vi kan ha høy tillit til data hvor proteiner er identifisert. Likevel er falsk negativ rente antas å være store og i phosphoproteomic analysen er underlagt omfanget av optimalisert prøve berikelse [14], peptid fraksjonering [15], [16], fosforylering nettstedet støkiometri [17] og massespektrometer oppløsning, med nylige forbedringer som mål å minimere brøkdel av peptider i komplekse prøver som savner detektoren [18]. Mest brukte programvareverktøy for statistiske analyser, for eksempel
k
en anordning eller hierarkisk clustering, krever en godtgjørelses tilnærming til å håndtere manglende data. Imputing nuller som plassholdere for å representere den manglende data er en veldig enkel tilnærming som ofte brukes. Imputing nuller er upassende for disse data, men fordi nullverdier påvirke statistiske beregninger når de behandles som data. Alternative metoder for å estimere manglende verdier basert på tidligere data har blitt beskrevet, men disse metodene er egnet når bare noen få verdiene mangler [19] – [21], eller når meget sterke antakelser kan gjøres på kovariansen strukturen av data [ ,,,0],22], [23] som er urealistisk for proteomic data. Det er urimelig å gjøre slutninger om manglende verdier ved hjelp av disse metodene i phosphoproteomic data fordi det kan være flere manglende verdier enn data. Derfor er den mest direkte metode for å beregne statistiske forhold ved hjelp av bare de variable som observeres, og for å ignorere alle mangler variabler. Vi brukte denne tilnærmingen som et utgangspunkt for å søke forbedrede fremgangsmåter for oppløsning av datastrukturen, som vi har anvendt for å phosphoproteomic data fra lungekreftprøver [24]. Denne tilnærmingen betydelig forbedret oppløsning av klynger som er identifisert i sparsomme datasett som er typiske for proteomic studier. Videre vår analyse av gen-funksjon merknader og protein-protein interaksjoner innenfor klynger foreslått flere nye kreft driver trasé og potensielle koblinger mellom disse banene og proteiner som ikke tidligere har vært preget.
Resultater
Inkludering og Clustering metoder
grupper av proteiner fosforylerte i de samme prøvene kan indikere signalveier aktivert i ulike klasser av svulster, så det er verdt å forsøke å finne klynger definert av statistiske metoder i phosphoproteomic data. Phosphoproteomic data fra Rikova
et al. Product: [24] ble reexamined å belyse forholdet mellom proteiner fosforylerte i lungekreft prøvene som tidligere ikke var verdsatt. Dette datasettet, som består av tyrosin fosforylerte proteiner fra 41 ikke-småcellet lungekreft (NSCLC) cellelinjer og over 150 NSCLC tumorer, ble omgjort til en tabell over 2482 gener ved 233 prøver, er spesielt utfordrende for clustering algoritmer fordi 95,7% av tabellen celler inneholder ingen data. Mange proteiner ble identifisert i undergrupper av prøver, og vi kan ikke vite om disse er virkelig fraværende eller rett og slett ikke oppdaget. Bruk av nuller for å representere ingen data vil derfor fordunkle statistiske beregninger fordi alle nullene korrelerer med hverandre. Vår tilnærming med R-programvaren tillater oss å undersøke bruk av NA (tolket som data ikke tilgjengelig) som en verdi som var mer passende enn null for å representere fraværet av data.
Vi analyserte data med eller uten imputing nuller for NAs ved hjelp av to vanlig anvendte statistiske mål av avstand: Pearson eller Spearman avstand, som er en minus den absolutte verdi av Pearson eller Spearman korrelasjon mellom hvert protein og alle andre proteiner, og euklidsk avstand, som måler den relative nærhet i flerdimensjonale plass av hvert protein til alle andre proteiner. Pearson og Spearman korrelasjon var veldig nær hverandre, så Spearman ble brukt for senere analyser. Konvertering av data til statistisk avstand gjør ingen sammenheng (en avstand på NA) som skal stilles til en vilkårlig stor verdi (100 ganger maksimal virkelige avstanden mellom to proteiner, se Materialer og metoder). Avstand matriser ble deretter omregnes flerdimensjonal skalering til kartesiske koordinater i to eller tre dimensjoner for å visualisere datastruktur (figur 1 og S1). Bruk av NAs å representere manglende verdier ga opphav til datastrukturer (Figur 1, blå punkter) som var mye mer svært løst enn de hvor nuller erstattet NAs (figur 1, røde punkter).
(A) og Spearman ( B) avstand matriser beregnet ut fra data hvor NAs (blå punkter) eller nuller (røde punkter) ble brukt til å representere fraværet av phosphoproteomic massespektrometri signaler. Data er plottet på samme skala i hoved grafer; innfellinger vise omfanget og fordelingen av noder fra avstand matriser beregnet fra data ved hjelp av nuller til å representere noen signaler.
Tredimensjonal statistiske datastrukturer løses ved Spearman (figur S1 A, B) og euklidsk (figur S1 C, D) avstanden var svært forskjellige fra hverandre fordi de benytter ulike metoder for å beregne statistiske sammenhenger. Noen proteiner som ikke ble riktig løst ved en fremgangsmåte ble separert ved den andre, noe som tyder på at en kombinasjon av disse to metodene skal videre løse dataene. Å kombinere forskjellige kilder til ulikhet er blitt funnet å være nyttig i mønstergjenkjenning siden forskjellige ulikheter tiltak kan fremheve forskjellige typer informasjon [25]. Den skalerte summen av Spearman og euklidsk avstand, avledet fra beregninger med NAs å representere fravær av data, ble representert som to eller tre dimensjonal Spearman-euklidske ulikheter (SED) (Figur S1, E, F, figur S2, A, B; Movie S1).
Evaluering av Clustering Metoder
Vi spurte om forskjellige clustering algoritmer kunne skjelne sammenhenger i disse dataene. Grafer av data struktur fremstilt ved flerdimensjonal skalering, i hvilken node størrelse og farge representerer den totale mengden av fosforpeptider, foreslo relasjoner mellom proteiner som kan bli verdsatt ved manuell utforskning av datastrukturen i Cytoscape (figur S1). Leting og valg av klynger basert på nærhet innenfor datastrukturen i tre dimensjoner ved hjelp av PyMOL var også mulig (fig S2, filmer S1, S2; se nedenfor). Fordi manuelt valg av klynger i store datastrukturer er arbeidskrevende, evaluert vi automatisert utvalg av klynger ved hjelp av
k
-centers,
k
en anordning, og flerdimensjonale skalering og t-fordelt stokastisk nabo embedding ( t-SNE, ref. [26]) med minimum spenntre metode for å velge grupper basert på nærhet.
for å evaluere klynger, ble en indeks beregnet ut fra de opprinnelige dataene som målte tettheten av data og antall gener som passet den generelle mønsteret av uttrykk i hver klynge (se Materialer og Metoder og Tabell 1) .Dette indeks rangert klynger inneholder vanligvis fosforylerte proteiner høyere enn klynger mer grisgrendte med data (høyere prosent NA, tabell 1). Basert på denne benchmark, den mest effektive clustering metoden var minimal spenntreet metoden i t-STO innebygd plass. t-SNE er en ny mønstergjenkjenningsteknikk som tar sikte på å modellere den lokale strukturen av data i et enkelt kart samtidig som det sikres at ulike grupper av punkt er modellert langt fra hverandre, [26]. Figur 2 sammen klynger identifisert med minimal Spanning Tree i flerdimensjonale skalering (A) og t-STO (B) innebygd plass fra Spearman-Euclid ulikhet. (Figur S3 viser todimensjonal t-SNE grafisk i Cytoscape;. Figur S2C, D og filmer S1 viser S2 tredimensjonale t-SNE embedding tegnes ved hjelp PyMOL) Erfaringsmessig har vi funnet at t-SNE løst klynger fra den kombinerte Spearman -Euclid ulikhet mer effektivt enn enten Spearman eller Euclid ulikhet alene (høyeste sum Index, tabell 1). Generelt klynge medlems definert ved forskjellige metoder i økende grad i hver sin retning ved gruppering proteiner som var mer sparsomt representert i dataene. Klaser ble løst mest effektivt når avstanden matrisen ble behandlet som en «funksjon vektor» i en såkalt ulikhet representasjon (sammenlign Metode: uensartethet vs avstand, tabell 1) [27]. Clustering metoder brukt på rådata, eller til data der nuller representert fravær av data, var ikke vellykket (ikke vist); de konvergerte på bare en stor klynge, og etterlater en rekke individuelle proteiner.
(SED) redusert til to dimensjoner ved flerdimensjonal skalering (A) eller t-STO (B). 100 klynger ble valgt av enkeltledd minimum spenntrær. Røde sirkler er tegnet rundt klynger.
Data Wrangling
Begrepet «fuzzy clustering» omfavner ideen om at medlemskap i mer enn én gruppe er mulig. Dessverre, fuzzy
c-
betyr clustering løst bare noen distinkte klynger som inneholder mindre enn 10% av proteinene i datasettet (se tabell 1 legende). Selv om denne clustering teknikken viste seg å være av begrenset bruk for disse dataene, er begrepet uklare eller overlappende grenser mellom klynger likevel viktig å huske på når du undersøker klynger bestemt ved noen metode. Medlemskap i enkelte klynger identifisert fra harde clustering metoder på Spearman, euklidsk, eller SED embedding delt på ulike måter klynger som inneholder selv de mest statistisk godt representert proteiner (Figur S4). Vi ønsker å sette pris på mønstre av tyrosinfosforylering å belyse forskjellige veier som kan kjøre eller være aktiv i ulike typer lungekreft. Selv om det er verdt å nøye bestemme hvilken fastsetter av proteiner er oftest samtidig er aktivert, kan tyrosin-fosforylert proteiner som finnes i mange prøver bli aktivert av flere overlappende baner, og en eller flere nedstrøms effektorer kan aktiveres ved mer enn en tyrosin-kinase [28 ], [29]. Dermed tildeling av proteiner til en klynge bør ikke bli sett på som bevis for ekskludere dem fra å delta i en signalveien identifisert i en annen klynge.
Med dette i tankene, undersøkte vi hvordan datadrevet analyser kombinert med hypothesis- drevet utspørring og filtrering kan anvendes for å fange opp mer informasjon fra lungekreft datasettet. Vi antok at tilstedeværelsen av en eller flere tyrosinkinaser i individuelle klynger impliserer disse kinaser i baner (enten direkte eller indirekte) som forårsaker tyrosinfosforylering av andre proteiner i den klyngen. Dermed har vi foreløpig identifisert klynger av tyrosin kinaser, hvor tilstede. Klynger som inneholdt de høyest fosforylert proteiner i disse dataene inneholdt FAK (PTK2), LCK, LYN, Fyn, DDR1 og EGFR. Vi fokuserte på disse klyngene, og to andre klynger som inneholder ALK og MET, for detaljert undersøkelse. Vi evaluerte og filtrert klynger basert på interne kriterier, som er basert på primærdata og eksterne kriterier fra protein interaksjon og genet ontologi (GO) databaser [30] -. [32]
For å vurdere validiteten av klynger, undersøkte vi undergruppe av de viktigste dataene i dem. Vi fokuserte på de clustering metoder som gjorde det godt i henhold til kriteriene som er definert i tabell 1. Data ble fremstilt grafisk som varme kart sortert etter synkende phosphopeptide innholdet. Den sortert varme kart, som kan betraktes som en tredimensjonal histogram med
z
-dimension representerer mengde av en fargeskala, gir en oversikt for å vurdere samsvar med et lignende mønster i primærdata. Klynger inneholdende de mest representerte proteiner i lungekreft data er vist i figurene S4 og S5. Klaser ble også evaluert ved bruk av indeksen som måler datatetthet som beskrevet ovenfor (tabell 2). FAK (PTK2) og LCK ble gruppert sammen med MAPK14 (p38a) og GSK3A (som var til stede i alle prøvene) av alle tiltak unntatt Spearman (Figur S4C, tabell 2, Spearman t-STO gruppe 108). Klynger inneholder EGFR var også i stor grad lik, gruppering EGFR med DDR1, LYN, og FYN (figur S5), bortsett fra at
k-
betyr på Euklidsk embedding gruppert EGFR med FAK-LCK cluster (figur S4A; Tabell 2 , Euclid
k
en anordning gruppe 56). Til tross for disse unntakene var det betydelig enighet blant ulike clustering metoder for de høyest representert proteiner i datasettet.
Ulike embedding (Spearman vs. euklidske) produsert overlappende, men distinkte klynger, og kombinert ( SED) innebygging produsert en rimelig konsensus view (figur S4D, S5D). Tatt i betraktning at både Spearman og euklidsk ulikhet definere klynger som er statistisk meningsfylt, vi også kombinert dem på en annen måte, ved å slå sammen overlappende grupper etter clustering, deretter filtrering. Å anvende denne tilnærmingen til den FAK-LCK gruppe (figur S4E) returnerer en klynge svært lik den SED settet (figur S4D). Tilsvarende var det god overensstemmelse sammenligne EGFR klyngen når Spearman og euklidsk embedding ble kombinert før (figur S5D, SED t-STO) eller etter (figur S5E) clustering algoritmen ble utført. Disse resultatene antydet at det å kombinere Spearman og euklidske embeddinger enten før eller etter gruppering er nyttig for å representere en konsensus riss av klynger. SED (t-STO) FAK (PTK2) cluster (figur S4D) og den kombinerte Spearman og euklidsk EGFR cluster (figur S5E) ble fremstilt grafisk som nett i Figur 3, som omfatter data fra protein interaksjonsdatabaser som kanter (forklart i eksterne evalueringer, nedenfor).
A) Cluster som inneholder LCK og FAK (PTK2) avledet fra t-STO på SED embedding (figur S4D). B) Cluster som inneholder EGFR og LYN, avledet fra først å utføre t-SNE Spearman og euklidsk embedding separat, deretter kombinere disse klyngene og filtrering (figur S5E). Node størrelse og farge (hvit til gul) indikerer det totale antall av fosforpeptidene påvist i alle prøver. Kantene er protein interaksjonsdata fra String (string.embl.de/), GeneMANIA (genemania.org/), og de kinase-substrat data fra PhosphoSitePlus (phosphosite.org). For klarhets skyld, ettersom grafer av disse klyngene, inkludert alle individuelle kanter var vanskelige å tolke, ble slått sammen kantene og kant vekter, som indikerer styrken av bevisene for interaksjon, ble summert for å bestemme tykkelsen på kantlinjen. Protein interaksjonsnettverksdata ble importert til R for kanten flettingen og plottet med RCytoscape som beskrevet i Materialer og metoder. Node posisjon i nettverket grafer ble satt med en kant-vektet, fjærinnebygd layout der svært tilkoblet noder gruppen tettere sammen. Klyngen i (A) hadde 107 ganger mer kantene, 544 ganger større kant vekt, og 7,5 ganger mer GO termer hentet enn gjennomsnittlig tilfeldig klynge. Klyngen i (B) hadde 88 ganger mer kantene, 499 ganger større kant vekt, og 10,8 ganger mer GO termer hentet enn gjennomsnittlig tilfeldig klynge. Som et ytterligere tiltak, ble antall kanter som forventes fra disse nodene i det hele lungekreft nettverk beregnet (se Materialer og Metoder). Den LCK /PTK2 nettverk (A) hadde 122 flere kanter, og EGFR-nettverk (B) hadde 67 flere kanter, enn forventet av denne beregningen.
Et viktig mål med detaljert analyse av store datasett er å avdekke nye mekanismer eller signalveier. MET, har reseptor-tyrosin-kinase for hepatocytt vekstfaktor (HGF) er vist å drive tumorgenese når overactivated i en rekke kreftformer, inkludert lungekreft [33]. Anaplastisk lymfom kinase (ALK) er en viktig onkogen driver, men er mindre godt studert enn mange andre reseptor-tyrosinkinaser (RTK) [34]. Klynge medlemskap for klynger som er identifisert fra de data som ble undersøkt her inneholdende MTT og ALK var mer variert ved forskjellige metoder ble anvendt (fig S6, S7, S8, tabell 2). Klyngene som inneholder MET varierte i størrelse fra 8 til 162 proteiner, med liten overlapping (tabell 2, figur S6). Ingen av de klynger identifiserte automatisk ut til å være spesielt overbevisende basert på interne evalueringer, men å kombinere klynger fra t-STO på Euklidsk (figur S6B) og Spearman (figur S6C) embedding, deretter filtrering, definert en rimelig størrelse klynge som gjorde mest fornuftig av interne evalueringer (figur 4, lav prosent NA, tabell 2). Denne klyngen identifisert samarbeid av RTK EPHA2, ErbB2 og ErbB3 med MET, noe som kan gi ytterligere mål for metastatisk lungesvulster.
(se Materialer og metoder). Varmen kartet (A) representerer manglende data (NA) som svart, og økende skalert peptid teller vises på en blå-gul skala (fargetasten, venstre). Data er organisert ved å redusere summer skalert peptid teller gener (synkende fra topp til bunn) og prøver (synkende fra venstre til høyre). B) MET i lungekreft vist som et protein-interaksjon nettverk tegnes som i figur 3. Denne klyngen hadde 70 ganger mer kantene, 847 ganger større kant vekt, fem ganger mer GO termer hentet enn gjennomsnittlig tilfeldig klynge, og 249 mer kantene enn ville forventes fra disse nodene fra hele lungekreft nettverk.
Fosforylert ALK ble påvist i et mindre antall prøver i datasettet undersøkt, noe som skaper et vanskelig statistisk problem som krever en kombinasjon av tilnærminger for å gi potensielle biologiske innsikt.
k-
betyr gruppen ikke inneholder proteiner som har mønster av fosforylering i den primære data ble godt korrelert (fig S7A), og den SED (t-SNE) klynge innehold ALK var meget stor, som inneholder et antall av tynt-identifiserte proteiner (Figur S7D). De eneste gener med liknende klasemønsteret mellom t-STO Euclid og Spearman klynger var ALK og EML1 (figur S7b, C). Vi eksperimenterte derfor med ulike tilnærminger for å kombinere og filter klynger.
ALK og pigghuder microtubule assosiert protein som 4 (EML4) ble korrelert i 6 prøver, som ble identifisert i Spearman (t-STO) cluster (Figur S7C ). Dette ble bemerket av Rikova,
et al., Etter som elegant bevist at en translokasjon produsert en hybrid
ALK-EML4
genet i en undergruppe av tilfellene, noe som skaper et onkogen analogt til nucleophosmin-anaplastic lymfom kinase (NPM-ALK), som driver anaplastiske stor-celle lymfomer [24], [34], [35]. Det finnes flere tilfeller, men hvor EML4 ble funnet og var ikke ALK (figur S8A), og tilfeller hvor ALK ble detektert og EML4 var ikke (fig S8B). I tillegg finnes det et antall proteiner som er identifisert i en prøve som inneholder EML4 men ikke ALK (H3255, fig S8A, B). Disse dataene påvirket euklidsk ulikhet mer enn Spearman, og dermed maskere potensielt interessante relasjoner. En mer informativ gruppering ble fremstilt ved først å kombinere klynger av forskjellige metoder (figur S8C), og deretter filtrering for ALK og proteiner som finnes i det minste to ganger (figur 5).
(A) og protein-interaksjon nettverk (B ). Denne klyngen er avledet fra klynger kombin fra fig S8B og C hvori proteiner tilstede i en enkelt prøve, eller prøver som inneholder et enkelt gen, ble filtrert. Denne klyngen hadde tolv ganger mer kanter, ti ganger større kant vekt enn gjennomsnittet tilfeldig klynge, og 7 flere kanter enn kan forventes fra disse nodene i hele lungekreft nettverk. Individuelle kantene er vist fra String (blå) og GeneMANIA (svart).
Fordi metodene for å identifisere ALK og MET klynger (figur 4 og 5) involvert flere trinn utover clustering algoritmer, er at ved å kombinere klynger og filtrering på ulike måter, beskriver vi disse fremgangsmåter som «data wrangling». Dette begrepet er ment å betegne noen curating av dataene i grupper ved hjelp av kvantitative filtre, med utgangspunkt i klynger som er identifisert ved automatiske fremgangsmåter. For ytterligere å validere disse metodene, undersøkte vi klynger ved hjelp av eksterne evalueringer.
Eksterne evalueringer
Klynger identifisert fra statistikk som inneholder proteiner som fysisk samhandle sannsynligvis vil representere funksjonelle signalnettverk. Protein samhandling og GO data hentet fra eksterne databaser ble brukt som ekstra tiltak av den biologiske betydningen og gyldigheten av klynger identifisert ovenfor. Disse databasene er ufullstendige arbeider som pågår [36], [37], likevel hvis de klynger implisere virkelige veier de vil være mer sannsynlig enn et tilfeldig utvalg av gener fra datasettet for å vise interaksjoner og funksjonell synergi. Som en kontroll, vi tilfeldig valgt 11 til 34 proteiner fra datasettet (størrelsen av klynger vi ansett informativ) og bestemmes det midlere antall og vekt av kanter som representerer bevis for fysiske eller genetiske interaksjoner for tilfeldige grupper (se Materialer og Metoder). Nettverkene som er vist i figurene 3 og 4B hadde mer enn seksti ganger flere kanter (og 500 ganger mer kant vekt) over bakgrunn fra tilfeldig utvalgte proteiner (se figurene 3 og 4 sagn).
Vi brukte tilfeldig klynger for å bestemme bakgrunnen GO sikt berikelse, som var om en beriket GO sikt for hver tredje gener valgt tilfeldig fra lungekreft datasett (se Materialer og metoder). Denne relativt høy bakgrunn for GO sikt berikelse indikerer at GO vilkår for klynger bør tolkes med forsiktighet. Likevel antall GO termer hentet var mer enn fem ganger i løpet av bakgrunnen for FAK (PTK2), EGFR, og møtte nettverk (figur 3 og 4). Et sammendrag av GO vilkår for disse klyngene, og alle klynger identifisert av t-STO på SED 2D embedding (cluster medlemskap og GO oppsummeringstabeller, tilgjengelig på nettet), avslørte linker til mange signalering, metabolske, og vekstkontroll prosessen i FAK ( PTK2) gruppe, impliserer disse proteinene som huber av signal integrasjon for mange lungekreftsignalveier. EGFR-klynge var også lenker til signaltransduksjon og vekstkontroll, og også til differensiering. I motsetning til dette MET klyngen hadde mange flere linker til cellemigrering, kontroll av aktin organisasjon, og adhesjon, noe som tyder på en rolle for disse proteiner i metastasering.
Proteiner i ALK klynge er ikke så godt studert, og ALK klyngen GO betingelser ble ikke signifikant økt i bakgrunnen, men elleve ganger flere kanter (og ti ganger mer kant vekt) var tilstede i ALK nettet sammenlignet med tilfeldige proteiner (figur 5). Observasjonen at elleve ganger flere kanter (og ti ganger mer edge vekt) var tilstede i ALK-nettverket i forhold til tilfeldige proteiner indikerte at ALK klyngen er verdig videre undersøkelser.
Co-aktivering av tyrosin kinaser i lungekreft
31 av de 58 RTK i det menneskelige genom ble påvist i dette datasettet, og alle ni SFKs. Samtidig aktivering av RTK og SFKs observert i klynger som inneholder EGFR (figur 3B) og MET (figur 4) foreslo en hypotese om at funksjonell synergi mellom to eller flere tyrosinkinaser spiller en rolle i lungekreft utvikling. Dette fikk oss til å søke etter andre klynger der to eller flere tyrosin kinaser ble funnet sammen. Vi identifiserte klynger som er definert fra t-SNE innstøping av Spearman, euklidsk, eller kombinert (SED) ulikhet som beskrevet ovenfor, som inneholder to eller flere tyrosinkinaser (tabell 3). Discoidin domene-reseptor 2 (DDR2) er nylig blitt identifisert som en mulig lungekreft driver [38], og er forbundet med SFK, HCK i klynger som stammer fra alle disse tre embeddinger (tabell 3). DDR2 var ofte samtidig er aktivert med HCK, og også med DDR1, FGR, og PDGFRA i et antall prøver, som er identifisert i SED settet (figur 6). Disse klynger av co-aktivert tyrosinkinaser indikere samarbeid i signaloverføring, og kan foreslå terapi med kombinasjoner av kinaseinhibitorer [39], [40]
(A), fremstilles grafisk som et varme kart.; og (B), tegnes som et nettverk som i figur 5, bortsett fra flere kanter er inkludert fra GeneMANIA: svart – genetiske interaksjoner; mørk turkis – felles protein domener; fiolett – fysiske interaksjoner; grønn – veien; og String: lys turkis – homologi; orange – kunnskap; og blått – kombinert poengsum. SHC1 ble inkludert fordi det er koblet til nettverket for disse proteinene som begrensede interaksjonsdata er kjent.
Diskusjoner
Denne meldingen tar hastesamtaler for å analysere proteomikk data med mer effektiv metoder, og integrere disse analysene med protein interaksjon og funksjon databaser for å belyse signaliserer nettverk som driver sykdommer som lungekreft [41], [42]. Kombinere data avhørsmetoder med datamaskin visualiseringsverktøy forsterker betydelig vår evne til å gjøre følelse av store datasett og deres koblinger til genomet og protein interaksjonsdatabaser. Vi beskriver her effektive metodene for å utforske datastruktur, velger undergrupper basert på statistiske sammenhenger, og visualisere valgene som nettverk. De kombinerte interne og eksterne evalueringer gitt sterke bevis for at klynger av proteiner som er identifisert her representerer funksjonelle signalnettverk i lungekreft fordi de inneholder proteiner som er kjent for å samhandle med hverandre.
Den åpne kildekode plattformer R, Cytoscape og RCytoscape ble anvendt for denne studien. Skriptspråk som R er mye flinkere til å håndtere store datamengder enn regneark og R har et rikholdig bibliotek av verktøy statistisk analyse, inkludert mange utviklet for bioinformatikk og systembiologi [1], [43].