PLoS ONE: Identifikasjon av Logic relasjonene mellom gener og subtyper av ikke-småcellet lungekreft

Abstract

Ikke-småcellet lungekreft (NSCLC) har to viktige undergrupper: adenokarsinom (AC) og plateepitelkarsinom (SCC). Diagnostisering og behandling av NSCLC er hindret av begrenset kunnskap om patogenesen mekanismer for undergrupper av NSCLC. Det er nødvendig å undersøke de molekylære mekanismene relatert med AC og SCC. I dette arbeidet har vi forbedret logikken analyse algoritmen for å utvinne de tilstrekkelige og nødvendige betingelser for tilstedeværelse stater (tilstedeværelse eller fravær) av fenotyper. Vi søkte vår metode til AC og SCC prøver, og identifisert lavere og høyere logiske sammenhenger mellom gener og to undertyper av NSCLC. De påviste sammenhenger var uavhengig av prøver utvalgte, og deres betydning ble validert av statistikk test. Sammenlignet med de to tidligere metoder (ikke-negative matrise factorization metode og relevansen analysemetode), den nåværende metoden bedre enn disse metodene i tilbakekall hastighet og klassifisering nøyaktighet på NSCLC og normale prøver. Vi fikk biomarkører. Blant biomarkører, har gener blitt brukt til å skjelne fra AC SCC i praksis, og andre seks genene ble nylig oppdaget biomarkører for å skille subtyper. Videre

NKX2-1

har vært ansett som et molekylært mål for målrettet terapi av AC, og andre gener kan være nye molekylære mål. Ved genet ontologi analyse, fant vi at to biologiske prosesser ( «epidermis utvikling «og» celle adhesjon») ble nært beslektet med tumorigenesis av undergrupper av NSCLC. Mer generelt kan den gjeldende metoden bli utvidet til andre komplekse sykdommer for å skille undergrupper og oppdager de molekylære mål for målrettet terapi

Citation. Su Y, Pan L (2014) Identifisering av Logic relasjonene mellom gener og undergrupper av ikke-småcellet lungekreft. PLoS ONE 9 (4): e94644. doi: 10,1371 /journal.pone.0094644

Redaktør: Yan Zhang, Harbin Medical University, Kina

mottatt: 20 november 2013; Godkjent: 18 mars 2014; Publisert: 17 april 2014

Copyright: © 2014 Su, Pan. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Forfatterne «arbeid er støttet av Natural Science Foundation National of China (Grant nr. 61100145, 61033003 og 91130034). Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Lungekreft er den ledende årsak til kreft dødsfall i verden [1]. Det har blitt delt inn i to klasser av Verdens helseorganisasjon (WHO): ikke-småcellet lungekreft (NSCLC) og småcellet lungekreft (SCLC) [2]. NSCLC, som har to store undergrupper: adenokarsinom (AC) og plateepitelkarsinom (SCC), står for mer enn halvparten av alle lungekreft tilfeller [2]. Men mindre enn av NSCLC pasienter overleve utover fem år [3]. Den begrensede effektiviteten av diagnose og behandling av NSCLC er hovedsakelig forårsaket av problemer med å skille de subtyper og begrenset kunnskap om patogenesen mekanismer undertyper av NSCLC.

NSCLC er et system sykdom, og forskjellen på AC og SCC kan bli reflektert på cellulært og molekylært nivå. Tradisjonelle metoder er avhengige av visuell celle-morfologi (for eksempel størrelsen av tumor og histologiske egenskaper) for å skille undertyper, som er basert på cellenivå [4] – [6]. Det er blitt foreslått at tradisjonelle metoder kan effektivt skille SCLC fra NSCLC på grunn av den klart skille mellom morfologien av SCLC-celler og den til NSCLC-celler [7]. Men den morfologiske forskjellen mellom undergrupper av NSCLC er fortsatt uklart [8]. Flere molekylære nivå data (mRNA, mikroRNA og metylering data) mellom NSCLC og normalt har vært brukt for å analysere dysfunksjoner av NSCLC [9]. Det ble foreslått at den diskriminerende evne gener innhentet av mRNA data var betydelig større enn de av mikroRNA og metylering data. Derfor er det rimelig å hente verdifulle gener og biologiske prosesser som har stor diskriminerende evne mellom AC og SCC på mRNA nivå.

En målrettet terapeutisk middel er laget for å forstyrre en bestemt molekylære mål som spiller en avgjørende rolle for tumorvekst og progresjon [10]. For eksempel, som er en målrettet terapeutisk middel for målrettet behandling av NSCLC, er et monoklonalt antistoff til

VEGF

. Genet

VEGF

er viktig fordi det er høyere uttrykt i lungekreft enn i normal lunge [11]. Derfor kan de molekyler som spiller forskjellige roller mellom kreft og normalt være viktig for valg av terapeutiske midler. Selv målrettet terapi viser kliniske fordeler, har målrettede midler ikke aktivert målrettet terapi for å endre klinisk utfall dramatisk. Videre kan eksisterende målrettede terapeutiske program være egnet for den prognostiske av en spesiell undertype av NSCLC. For eksempel, bare pasienter med ikke-SCC er bedre å bruke [12]. Derfor er det nødvendig å undersøke de molekylære mekanismene som er beslektet med de subtyper av NSCLC, for å utvikle effektive metoder for å skille AC fra SCC og nye terapeutiske midler spesielle for undergrupper av NSCLC.

uttrykk mønstre av flere gener er funnet å være spesielt for undergrupper av sykdommer. For eksempel er

NKX2-1

genet uttrykkes i lunge AC [13]. Knockdown av

NKX2-1

resultater veksthemming i lunge AC celle. Derfor er nærværet av lungen AC er avhengig av ekspresjonen av

NKX2-1 product: [14]. Et annet eksempel er involvert i forskning av spiserørskreft, kombinasjonen av genene

GATA6 Hotell og

SPRR3

kan diskriminere mellom normal epitel, Barretts dysplasi og Barretts øsofagus forbundet AC [15]. Noen spesielle relasjoner eksisterer mellom genet paret (

GATA6 Hotell og

SPRR3

) og fenotyper av spiserørskreft. Slike eksempler antyder eksistensen av relasjoner mellom gener og subtyper av sykdommer

De metodene som indirekte identifiserer gen-fenotype relasjoner kan grovt deles inn i tre vanlige fremgangsmåten. Konstruere et gen-gen (eller protein-protein) nettverk og en fenotype-fenotype nettverk ved å samle interaksjonsdata fra flere databaser; kobler den gene-genet (eller protein-protein) nettverk med fenotype-fenotype nettverk; bruke en algoritme (f.eks random walk med omstart på heterogene nettverk algoritme) for å antyde parvise gen-fenotype relasjoner [16], [17]. Imidlertid støy fra integrering av data begrenser effektiviteten av påvisning av gen-fenotype relasjoner.

Mange metoder har blitt utviklet for å knytte direkte enkle molekyler til fenotyper. Den nonnegative matrise faktorisering (NMF) metoden er en dimensionality reduserende algoritme for å oppnå et sett med metagenes og tilhørende koeffisienter [18]. Hver fenotype tilsvarer en metagene. Koeffisienten av et gen i en metagene representerer nærhet av forholdet mellom genet og den fenotype som svarer til den metagene. Denne metoden krever å filtrere flere data for å sikre nonnegative tilstand, som kan tap en del nyttig informasjon. Lineær korrelasjon koeffisienter ble brukt til å måle genotype-fenotype assosiasjoner mellom enkelt proteiner i en mikrobe og mikrobenes fenotyper [19]. Slonim et al. brukes relevansen analysemetode (RA) for å antyde gen-fenotype relasjoner ved å estimere gjensidig informasjon [20]. Imidlertid er fenotype trekk ofte påvirkes ikke av et enkelt gen, men ved kombinasjoner av gener. Association regel gruvedrift (ARM) er et data mining teknikk for å trekke if-then regler med den generelle formen [21]. Bowers et al. designet logikken analysemetode for å få if-then regler fra et element eller en kombinasjon av elementer til en annen. Tidligere studier har blitt gjort for å antyde logiske sammenhenger mellom gener eller proteiner ved hjelp av parvise og triplet logikk analyse på uttrykk data eller fylogenetiske profiler [22]. Men hvis-så reglene kan ikke ha mange biologiske tilfeller med mindre det motsatte forhold holder så vel [23].

I denne artikkelen, forbedrer vi logikken analyse metode for å utvinne de nødvendige og tilstrekkelige betingelser for tilstedeværelsesstat (nærvær eller fravær) av fenotyper [22]. Den nåværende metoden tar hensyn til både et enkelt gen og et gen par som kan påvirke fenotyper. Vi bruker metoden for å antyde gen-subtype relasjoner basert på AC og SCC prøver. Det foreslås at uttrykk mønstre (uttrykk eller ikke-uttrykk) av identifiserte gener er nødvendige og tilstrekkelige betingelser for tilstedeværelse statene AC eller SCC. Effektiviteten av den aktuelle fremgangsmåten er vist på NSCLC og normale prøver. Våre resultater viser at den nåværende metoden utkonkurrerer de to eksisterende metoder (NMF metode og RA-metoden) i tilbakekalling hastighet og klassifisering nøyaktighet. Dette arbeidet kan bidra til å finne biomarkører for å skille undergrupper av sykdommer og å utforme nye målrettede terapeutiske midler for sykdommer, så vel som avslører de biologiske prosessene som er nært beslektet med sykdommer.

Resultater

Vi søkte vår metode for å identifisere sammenhenger mellom gener og to store undergrupper av NSCLC (AC og SCC). Videre ble resultatene sammenligning av vår metode med de av de to tidligere metoder (NMF metode og RA-metoden) laget ved å sammenligne to mål (tilbakekall rente og klassifisering nøyaktighet) på data fra GSE18842 som inneholder tilsvarende antall NSCLC og normale prøver. De biomarkører samt biologiske prosesser som var nært beslektet med subtypene av NSCLC kan fås fra flere interessante sammenhenger mellom gener og undergrupper av NSCLC.

Identifisering av gen-subtype lavere og høyere logiske relasjoner

Gitt at antallet AC prøver () var mye større enn den til SCC prøver () (Tabell 1), vi tilfeldig valgte fast antall (ie) i vekselstrømsprøver for å sikre at tilsvarende antall prøver for forskjellige fenotyper. Vi exacted kolonner av binære data-probe, så vel som de av fenotype profildata, som svarer til de valgte AC prøvene og alle de SCC prøver. De nye binære data-proben og fenotype profildata ble dannet av pålagt kolonner av binære data-proben og fenotype profildata, å opprettholde de relative posisjoner av kolonner. De nye binære data proben hadde størrelse, hvor de første kolonnene tilsvarte AC prøver, og de siste kolonnene henvist til SCC prøver. De nye fenotype profildata hadde størrelse, hvor den første raden representert AC og den andre representerte SCC. For enkelhets skyld har vi definert den første og andre rekke av de nye fenotype profildata som vekselstrømsprofildata og SCC profildata, henholdsvis. De undertyper av NSCLC data omfattet de nye binære probe data og de nye fenotype profildata. Vi søkte vår metode til undergrupper av NSCLC data til mine gen-subtype logiske relasjoner.

Identifikasjon av probe-subtype lavere og høyere logiske relasjoner.

Basert på undergrupper av NSCLC data beregnet vi usikkerheten koeffisienten for en undertype av NSCLC forutsagt av en sonde (eller en sonde par), samt usikkerheten koeffisienten for en sonde (eller en sonde par) blir forutsagt av undertype i den motsatte retning. Den samme prosedyre ble brukt for å tilfeldige binære data probe og fenotype profildata. Den maksimale tilfeldige usikkerhets koeffisienter for logikk parvise og triplet kombinasjoner ble brukt som tersklene for lavere og høyere logiske relasjoner, henholdsvis. Det vil si, ble foreningen av en sonde eller en sonde par med en subtype betraktet som signifikant hvis og bare hvis dens usikkerhets koeffisienter i begge retninger ble funnet å være større enn den maksimale verdi som oppnås fra de tilfeldige data. La og vær terskler for lavere og høyere logiske relasjoner, henholdsvis. Vi har innhentet logikk parvise kombinasjoner og logikk triplet kombinasjoner med usikkerhet koeffisienter høyere enn og henholdsvis.

På grunn betydningen av den oppdaget logikk parvis og triplet kombinasjoner ikke kan akkurat bekreftet av begrenset kunnskap om gen-subtype interaksjoner, en statistisk analyse er fortjente å bli estimert [24]. Anta signifikansnivået var. P-verdiene var alle nuller for de oppdagede logikk parvise og triplet kombinasjoner, som var mindre enn signifikansnivået. Resultatene av den statistiske analysen viste at de oppdagede logikk parvise og triplet kombinasjoner ikke samhandler tilfeldig.

Neste, vi evaluert den falske funnraten (FDR) for å kontrollere den globale betydningen av oppdaget logikk parvis og triplet kombinasjoner . Begge FDR verdier for oppdaget parvise og triplet kombinasjoner var null, derfor alle de oppdaget logikk parvise og triplet kombinasjoner ble ikke generert ved en tilfeldighet og alle av dem kan representere virkelige assosiasjoner.

I tillegg har vi beregnet tilbakefall av oppdaget logikk parvis og triplet kombinasjoner blant alle tilfeldige forsøk. De logiske relasjoner med tilbakefall større enn det som ble ansett som relasjonene som var uavhengig av de utvalgte prøver. Til slutt hentet vi probe-AC lavere logiske relasjoner og probe-AC høyere logiske relasjoner (tabell A og B i tabell S1).

Legg merke til at AC profildata og SCC profildata var binære utfyllende vektorer. Dersom en probe (eller en sonde par) er beslektet med AC ved th type lavere (høyere) logiske forhold, da proben (sondeparet) er beslektet med SCC ved th type lavere (høyere) logiske forhold, der usikkerheten koeffisient av sonden-SCC lavere (høyere) logikk forhold er lik den til sonden-AC lavere (høyere) logikk forhold, men. Derfor er sonden som har et nært forhold til vekselstrøms også nært beslektet med SCC. Til slutt fikk vi probe-AC /SCC lavere logiske relasjoner og probe-AC /SCC høyere logiske relasjoner.

Identifisering av gen-subtype lavere og høyere logiske relasjoner.

Hver sonde, som ble fokusert på i denne artikkelen, er adressert til et enkelt gen. Omvendt kan et gen påvises ved mer enn en probe. For eksempel

CLCA2

genet ble oppdaget av fire ulike prober:

206164_at

,

206165_s_at

,

206166_s_at Hotell og

217528_at

. Alle de ovennevnte fire prober ble beslektet med AC av den andre type av lavere logiske relasjoner. Dessuten, og ble den bety usikkerhet koeffisienter for hver av de fire sonder relatert med AC i begge retninger, henholdsvis. En sonde-AC logikk forhold sett omfattet flere sonde-AC logiske forhold, hvor prober ble knyttet til det samme genet. I et sonde-AC logikk forhold settet, sonde-AC /SCC logikk forhold med den største usikkerhets bety koeffisienter i begge retninger ble anvendt for å danne et gen-AC /SCC logikk forhold som beskrevet i Seksjon Materialer og metoder. Dermed

CLCA2

var relatert med AC av den andre typen lavere logiske relasjoner og koeffisienten av

CLCA2

-AC /SCC forholdet var.

Ifølge ovenfor metode, gen-AC /SCC lavere logiske relasjoner ble samlet inn via sonde-AC /SCC lavere logiske relasjoner (tabell A i tabell S2). Hver av resten probe-AC /SCC lavere logiske relasjoner generert et gen-AC /SCC lavere logikk forholdet. Til slutt, erholdt vi gen-AC /SCC nedre logiske forhold (Tabell A i Tabell S3).

Vi fant at hvis et gen ble påvist ved mer enn en probe, og probene var relatert med undertyper med lavere logikk relasjoner, deretter typer av probe-AC /SCC nedre logiske forhold var de samme. Det er foreslått at probene som er knyttet til det samme genet kan være forbundet med undertyper av den samme måte.

Vi erholdt seks genet-AC /SCC høyere logiske relasjoner fra sonde-AC /SCC høyere logiske ligningene ( Tabell B i tabell S2). Hver av resten probe-AC /SCC høyere logiske relasjoner generert et gen-AC /SCC høyere logikk forholdet. Til slutt, erholdt vi gen-AC /SCC høyere logiske forhold (tabell B i Tabell S3).

I det følgende vi diskutert eksempler på logiske forbindelser som kan utledes fra fenomener som tidligere er beskrevet i litteraturen.

Eksempler på gen-subtype lavere logiske relasjoner.

Hvis hver av genene

DSG3

,

CLCA2

,

DSC3 Hotell og

PKP1

ble uttrykt, så SCC var til stede, mens AC var fraværende. I tillegg, hvis hver av ovennevnte gener som ikke er uttrykt, så SCC var fraværende og AC var til stede. Det vil si ekspresjonen av hver av ovennevnte gener var et tilstrekkelig og nødvendig betingelse av nærværet av SCC, så vel som fravær av AC. Våre resultater antydet at gener (

DSG3

,

CLCA2

,

DSC3 Hotell og

PKP1

) kan skille subtype AC fra SCC. Gitt at intracellulære broer er en av de mest karakteristisk for SCC, men ikke fra AC, kan proteiner som er involvert i disse broene være oppregulert i SCC, som f.eks desmosom proteiner og intercellulære synaptiske proteiner [25].

desmoglein 3

er protein kodet av

DSG3

. Dette proteinet er et kalsiumbindende transmembran-glykoprotein komponent av desmosom i virveldyr epitelceller. Proteinet som kodes av

DSC3

er en kalsium-avhengig glykoprotein (

Desmocollin 3

) som er nødvendig for celleadhesjon og desmosom formasjonen. Den kodet av

protein PKP1

kan være involvert i molekylær rekruttering og stabilisering under desmosom formasjon. Proteinet kodet av

tilhører CLCA2

kalsiumantagonister sensitive klorid ledningsevne protein familien. Det kan tjene som adhesjonsmolekyl for lungemetastatiske kreftceller. De ovennevnte fire gener (

DSC3

,

DSG3

,

PKP1 Hotell og

CLCA2

) som er knyttet til desmosomes ble funnet å være oppregulert i SCC i forhold til AC-undertypen [26]. Konkret

DSG3

viste høy uttrykk i SCC, mens lav uttrykk i AC [26].

DSC3

ble også oppregulert i SCC utelukkende [27], [28]. I primære lungesvulster,

DSC3

var en diagnostisk markør for lunge plateepitelkarsinom [29].

PKP1

viste en ganger høyere nivå av ekspresjon i SCCS enn i ACs og normal lunge og kan således være nyttig ved histopatologisk diagnose [28].

CLCA2

har blitt antydet å være spesielt overuttrykt i SCC [30].

Vi fant at subtype AC (SCC) var til stede (fraværende) hvis og bare hvis

NKX2-1

ble uttrykt. Det er forstått at uttrykket for

NKX2-1

i prøven av AC er mye høyere enn for SCC.

NKX2-1

som er kjent som skjoldbrusktranskripsjonsfaktor 1 (

TITF-en

) er en homeodomain inneholder transaktive faktor, og det uttrykkes i terminalen lunge bronkiolene og lunge periferien overveiende [31 ]. Tilstedeværelsen av

NKX2-1

protein var utbredt i AC, mens det i SCC

NKX2-1

var fraværende [13]. Det er i samsvar med våre resultater.

Eksempler på gen-subtype høyere logiske relasjoner.

De høyere logiske relasjoner mellom genet parene og SCC ble valgt ut for videre analyse. Gene par (

GPX2

,

ITGB8

) og (

GPX2

,

SLC2A12

) var i slekt med SCC, via en «OG» logisk sammenheng ( høyere logikk forholdet type). Det indikerer at

GPX2

,

ITGB8 Hotell og

SLC2A12

ble alle uttrykt hvis prøven var SCC. Dessuten, alle av genene

GPX2

,

ITGB8 Hotell og

SLC2A12

ble ikke uttrykt hvis prøven var AC.

GPX2

ble oppdaget å ha høyere uttrykk i SCC sammenlignet med AC og normal [32], [33]. Vi var uvitende om bevis i litteraturen av relasjonene mellom

ITGB8

,

SLC2A12

og undergrupper av NSCLC. Vår analyse generert flere nye relasjoner.

Det er ikke nok bevis for høyere logiske relasjoner for å skille undergrupper av NSCLC. Derfor er mesteparten av forholdet mellom parene genet og undertyper av NSCLC er ikke blitt bekreftet. Som mangel på kunnskap om regulering relasjoner mellom gener og subtyper er de eksakte forholdene mellom de vanligste genet parene og undertyper fortjente å bli sjekket.

Ytelse sammenligning

Vi blir pålagt kolonner av binære probe data så vel som de av fenotype profildata, som svarer til de NSCLC prøver og normale prøver av GSE18842. De nye binære data-proben og fenotype profildata ble dannet av pålagt kolonner av binære data-proben og fenotype profildata, å opprettholde de relative posisjoner av kolonner. NSCLC og normale data omfattet de nye binære probe data og fenotype profildata.

Bruk av de tre metodene.

Vi først brukt den gjeldende metoden til NSCLC og normale data. Vi setter, og fått probe-fenotype lavere logiske relasjoner. Betydningen og global betydning av de påviste forhold ble bekreftet av statistikk test.

Deretter søkte vi NMF metoden til NSCLC og normale data. Rader med «s» ble filtrert fra binære probe data for å sikre muligheten for NMF metoden. Resten binære sonde data inneholdt rader og kolonner. Fordi to grupper av prøver (AC og SCC) ble inkludert i de binære data-probe, valgte vi som dimensjonalitet reduksjon parameter for NMF-metoden. Blant de oppnådde to metagenes, den andre metagene hadde høyere ekspresjonsnivå i nesten alle (dvs) av NSCLC-prøvene, mens lavere ekspresjonsnivå i nesten alle (dvs) av de normale prøver. Probene i den andre metagene ble sortert i henhold til deres aktiverings nivåer (Tabell S4). Den første proben representerte den mest knyttet sonde til NSCLC fenotype, mens den siste sonde representerte det minste nært beslektede probe.

Til slutt, søkte vi RA metode til NSCLC og normale data. Vi sortert sondene av gjensidig informasjon mellom sonde profiler og NSCLC profiler.

Legg merke til at sammenhengene mellom genet parene og fenotyper kan måles ved dagens metode, men de kunne ikke bli målt av NMF og RA metoder. Derfor, fra dette synspunkt, er den nåværende metode overlegen i forhold til de to tidligere metoder. Alle de tre metodene kunne finne enkeltgener nært beslektede med fenotyper. Derfor, vi bare identifisert genet-fenotype lavere logiske relasjoner med den gjeldende metoden og sammenlignet resultatene med de som oppnås ved de to tidligere metoder.

Ytelse sammenligning for de tre metodene.

Vi valgte to datasett involverte genene som er relatert med NSCLC. En datasettet inneholder høyfrekvente gener på mRNA nivå oppdaget av Huang et al. (Tabell S5) [9]. Det ble vist at disse genene tilhørte de beste dysfunksjonelle gensettene med god diskriminerende evne. Vi valgte datasettet fordi det ble samlet inn fra GEO med tiltredelse nummer GSE18842, som også var kilden til NSCLC og normale data i dette arbeidet. Den andre datasettet inneholder opp- /ned-regulerte gener funnet av Urgard et al., Hvor genene er nedregulert og gener er oppregulert i NSCLC sammenlignet med normalt vev (tabell S5) [34]. Totalt gener ble delt av de ovennevnte to datasettene. Fordi det er vanskelig å validere gener som inngår i hver datasettet, er det rimelig å vurdere disse genene som sannheten data for å beregne resultatene for ulike metoder i dette arbeidet.

For å kunne beregne ytelsen til dagens Fremgangsmåten og sammenligner ytelsen til de to tidligere metoder (NMF fremgangsmåten og RA-metoden), beregnet vi et mål: tilbakekall hastighet som var forholdet mellom antallet detekterte gener i sannhets data til det totale antall av gener i sannhets data. Merk at tilbakekall hastigheten kan være forutinntatt ved ufullstendig natur sannhets data. Videre, vurderte vi klassifiseringen nøyaktighet som evaluerte den diskriminerende evne førte sonder.

Blant alle gener påvist ved prober oppnådd ved den aktuelle fremgangsmåten, gener var i sannhets dataene. Derfor tilbakekall frekvensen av den aktuelle metoden var. Å sammenligne tilbakekalling rate av dagens metode med de av de to tidligere metoder, valgte vi de beste sonder innhentet av NMF metoden og RA-metoden, henholdsvis. Vi fant og null av genene i sannheten data har blitt oppdaget av NMF metoden og RA-metoden, henholdsvis. Derfor tilbakekalling frekvensen av NMF og RA var og, henholdsvis. Den nåværende metoden hadde høyere tilbakekalling rente enn NMF og RA.

Av Fig. 1, fant vi at dagens metode oppnås høyere klassifisering nøyaktighet enn NMF metoden og RA-metoden. I tillegg er den gjennomsnittlige klassifisering nøyaktigheten av vår metode nærmet til (d.v.s.), som betyr at sondene som oppnås ved foreliggende fremgangsmåte har en stor evne til klassifisering. I figuren er hver kurve var jevn med liten svingning. Det indikerer at klassifiseringen nøyaktigheten var lite følsom overfor antall sonder.

I henhold til hver metode, rangerer vi genene i synkende rekkefølge av koeffisientene i gener relatert med fenotyper. Vi i valgte de beste genene, hvor. Klassifiseringen nøyaktighet er beregnet basert på de beste genene. «RA», «NMF «og» U «representerer relevans analysemetode var den ikke-negative matrise faktormetoden og den gjeldende fremgangsmåte, henholdsvis.

Biomarkører og nøkkel gen parene

Biomarkører utledes av gen-subtype lavere logiske relasjoner.

i tidligere forskning, har et totalt antall gener blitt rapportert å bli brukt til å skille mellom AC og SCC, og disse genene er

DSG3

[26],

CLCA2 product: [30],

DSC3 product: [27],

PKP1 product: [28],

NKX2-1 product: [35], GJB5 [26], KRT6B [36], SERPINB13 [36], TP63 [37], TRIM29 [38],

KRT5 product: [28],

NTRK2 product: [28] og

DST product: [39]. Vi sortert gener som var involvert i gene-AC /SCC lavere logiske relasjoner i synkende rekkefølge etter deres koeffisienter. Interessant ble alle ovennevnte gener som inngår i toppen gener. Det er foreslått at et gen som har høy usikkerhet koeffisient kan tydelig skille AC fra SCC.

For å få et sett av biomarkører, vi først valgt de beste rangert gener (fig. 2). Fordi de molekylære mål for målrettede terapeutiske legemidler spille viktige roller for svulst, bør biomarkører for målrettet terapi har forskjellige biologiske funksjoner mellom NSCLC og normal. Deretter ble et kryss sett genereres mellom topp gener og gener involvert i gen-NSCLC lavere logiske relasjoner (genene har blitt oppnådd i første ledd «Sammenligning av ytelse). Til slutt skjærer gener ble ansett som biomarkører for å skille AC fra SCC-senteret, så vel som nye molekylære mål for målrettede terapeutiske midler. Det vil si, det sett av biomarkører som omfattes

DST

,

CLCA2

,

KRT5

,

DSG3

,

GJB5

,

SERPINB13

,

BNC1

,

TRIM29

,

LOC642587

,

PKP1

,

KRT6B

,

FAT2

,

GOLT1A

,

DSC3

,

NKX2-1

,

TP63

,

LASS3

,

PVRL1 Hotell og

NTRK2

.

Det er gener relatert med undergrupper av NSCLC av lavere logiske relasjoner, og hvert gen legger en koeffisient. Genene er rangert etter koeffisienter i synkende rekkefølge. Den øverste gener er valgt for å identifisere biomarkører. De blå nodene representerer biomarkører identifisert i dette arbeidet. De gule nodene representerer seks gener som ikke er relatert med NSCLC på NSCLC og normale prøver. De røde nodene representerer subtyper, dvs. AC og SCC.

Nøkkel genpar inferred av gen-subtype høyere logiske relasjoner.

Vi gruppert sammen genet-subtype høyere logiske relasjoner med samme logiske funksjon. Fordi de to logiske funksjoner og (Type 1) og XOR (type 8) har mer intuitive biologiske tolkninger enn andre logiske funksjoner, begrenset vi vår analyse til disse to logiske funksjoner. De viktigste genet parene ble definert som genet parene som er involvert i genet-subtype høyere logiske relasjoner med logikk funksjon AND eller XOR. Vi har fått viktige genpar totalt, hvor og genet parene var i slekt med AC /SCC gjennom logiske funksjoner AND og XOR, henholdsvis (Tabell S6). Dette resultatet kan forklares med de strenge parametrene vi valgte.

Gene ontologi analyse

Gene ontologi (GO) er en strukturert og kontrollert vokabular og klassifikasjoner om merknader av gener, genprodukter og sekvenser [40]. GO omfatter tre kategorier av begrepene: biologiske prosesser, molekylære funksjoner og cellekomponenter. Vi var fokusert på de biologiske prosessene berikende gener som er involvert i lavere logiske relasjoner. Så, i det følgende, når vi sier GO termer betyr det at GO vilkårene i kategorien «biologisk prosess «.

Ifølge probe-AC /SCC parvise foreninger og deres usikkerhets koeffisienter, fikk vi et gen sett inneholder gener uten overlapping og hvert gen festet en koeffisient. Totalt gener ble rangert i synkende rekkefølge av koeffisienter og gitt som innspill til Gorilla. Gorilla ga betydelige GO begreper som «vev utvikling «(GO: 0009888),» epidermis utvikling» (GO: 0008544), og «epitelcelledifferensiering «(GO: 0030855) (del A i vedlegg S1). Gitt at de betydelige GO vilkårene ble hentet basert på subtyper av NSCLC data, må det kontrolleres om de betydelige GO vilkårene er også betydelig på NSCLC og normale prøver. Den samme fremgangsmåte ble anvendt på rangert gener basert på den NSCLC og normale data. Testen viste signifikante GO vilkår med betydelig verdi (del B i vedlegg S1). I alt syv av GO vilkår på undergrupper av NSCLC data var også betydelig på NSCLC og normale prøver (Tabell 2). Det indikerer at følgende syv biologiske prosesser er viktig for tumordannelse av NSCLC. Vev utvikling, epidermis utvikling, epitelcelledifferensiering, anatomisk struktur utvikling, utviklingsprosess, celle adhesjon og biologisk vedheft

Videre vi gruppert genene nært beslektet med subtyper av NSCLC i to grupper etter hvilke typer gen-SCC lavere logiske relasjoner. Vi kartlagt genene som ble knyttet med SCC (AC) av Type () lavere logiske relasjoner å gå vilkår. Gene ontologi Analysen avdekket GO vilkår med p-verdi score mindre enn og berikelse score større enn.

Legg att eit svar