PLoS ONE: Forbedret Klassifisering av Lung Cancer Svulster Basert på strukturelle og fysiske og kjemiske egenskaper Proteiner Bruke Data Mining Models

Abstract

Oppdager divergens mellom onkogene svulster spiller en sentral rolle i kreftdiagnose og behandling. Dette forskningsarbeidet ble fokusert på å designe en beregnings strategi for å forutsi klassen av lungekreftsvulster fra de strukturelle og fysiokjemiske egenskaper (1497 attributter) av proteinsekvenser hentet fra gener som er definert av microarray analyse. Den foreslåtte metodikken involverte bruk av hybridfunksjonen valgteknikk (gain ratio og korrelasjonsbaserte delsett evaluatorer med inkrementell funksjonsvalg) etterfulgt av Bayesiansk nettverk prediksjon å diskriminere lungekreftsvulster som småcellet lungekreft (SCLC), ikke-småcellet lungekreft ( NSCLC) og felles klasser. Dessuten, denne metodikken eliminert behovet for omfattende data rensing strategier på proteinegenskaper og avslørte den optimale og minimalt sett med funksjoner som bidro til lungekreft tumor klassifisering med en forbedret nøyaktighet i forhold til tidligere arbeid. Vi har også forsøkt å forutsi via veiledet clustering mulige klynger i lungesvulstene. Våre resultater viser at tilsyn clustering algoritmer utstilt dårlig ytelse i å skille de lunge svulst klasser. Hybrid har utvalget identifisert fordelingen av løsemiddel tilgjengelighet, polarizability og hydrofobi som de høyest rangerte funksjoner med trinnvis funksjon utvalg og bayesiansk nettverk prediksjon generere optimal Jack-knife kryssvalidering nøyaktighet på 87,6%. Presis kategorisering av onkogene gener som forårsaker SCLC og NSCLC basert på de strukturelle og fysiokjemiske egenskaper av deres proteinsekvenser er forventet å løse funksjonaliteten til proteiner som er vesentlig for å opprettholde den genomiske integriteten til en celle og også kan virke som en informativ kilde for drug design, målretting viktige protein egenskaper og deres sammensetning som er funnet å eksistere i lungekreftsvulster

Citation. Ramani RG, Jacob SG (2013) Forbedret Klassifisering av Lung Cancer svulster basert på strukturelle og fysiske og kjemiske egenskaper Proteiner Bruke data Mining modeller. PLoS ONE 8 (3): e58772. doi: 10,1371 /journal.pone.0058772

Redaktør: Vladimir N. Uversky, University of South Florida College of Medicine, USA

mottatt: 22 desember 2012; Godkjent: 06.02.2013; Publisert: 07.03.2013

Copyright: © 2013 Ramani, Jacob. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne forskningen arbeidet er en del av All India Rådet for teknisk utdanning (AICTE), India-finansierte forskningsopprykksordningen prosjekt med tittelen «Effektiv klassifiserings~~POS=TRUNC for kliniske livs data (Parkinson, brystkreft og P53 mutanter) gjennom funksjonen relevans analyse og klassifisering» med referanse tall 8023 /RID /RPS-56 /2010-11 og 200-62 /FIN /04/05/1624. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Oncogene svulster er den ledende dødsårsaken i verden med Lung Cancer bærer store toll av ondartede dødsfall [1] – [3]. Røyking og bruk av tobakk sammen med ulike miljøkreftfremkallende økt menneskelig mottakelighet for denne dødelige sykdommen [4] – [5]. Gene Polymorfisme opptatt med avgiftning av kreftfremkallende har vært forbundet med dannelse av lungesvulster. Lungesvulster er grovt kategoriseres som ikke-småcellet lungekreft (NSCLC) påvirker nesten to tredjedeler av pasienter med lav overlevelse og småcellet lungekreft (SCLC), som begge reagerer på ulike former for terapi [6] – [10]. Dette driver behovet for å nøyaktig identifisere patologiske forskjellene mellom disse to typer svulster.

genuttrykksmønster fra microarray analyse aktivert sub-kategorisering av lungekrefttyper som er relatert til graden av svulst avgrensning, natur terapi og offer overlevelsesrate [11] – [14]. Det var et etablert faktum at Lung karsinogenese var en prosess som er involvert grad fenotypiske endringer som ble gjort som et resultat av onko-genet aktivering og deaktivering av tumorsuppressorgener [8]. Rapportene hittil i litteratur har ikke klart å identifisere noen pålitelige biomarkører for denne tilstanden siden wet-lab forsøk ofte forbrukes mer tid, kompetanse og kapital med usikker avkastning [1], [4] – [6]. Microarray teknologi har blitt brukt i den siste tiden til å oppdage nødvendige biomarkører men dagens metoder var mer utsatt for overse potensielle fakta som finnes i pasient vevsprøver [14]. Derfor fastsettelse av potensielle og informative markører (diagnostiske og prognostiske) fra både biologiske og molekylære perspektiv er svært viktig å studere og evaluere den genetiske og molekylære særpreg som preget svulster og Tumor Node metastase (TNM) staging i lunge kreft å muliggjøre effektiv diagnose og bekrefte terapeutiske strategier.

i de siste forskningsforetak, flere classifiers og data mining modeller har blitt brukt som målrettet riktig kategorisering av lungekreftsvulster. Førti-en prøver er kjennetegnet ved 26 attributter beregnet fra den masse-til-ladning-forhold (m /z) og topphøydene av proteiner identifisert ved massespektroskopi av blodserumprøver fra lungekreft påvirket og ikke-berørte pasienter ble benyttet for å trene en klassifisering og regresjon treet (CART) modell [13]. Molekylær klassifisering av NSCLC basert på en prosentandel tog-test tilnærming ble brukt til å vurdere påliteligheten av cDNA microarray-baserte klassifiseringer av resected menneske ikke-småcellet lungekreft (NSCLCs) [14]. I videre forskning Linear diskriminant analyse og kunstig nervesystem klassifisering av enkelte lungekreftcellelinjer (SCLC og NSCLC) ble utført basert på DNA metylering markører [13]. Resultatene rapportert at Artificial Neural Network analyse av DNA metylering data var en potensiell teknikk for å utvikle automatiserte metoder for lungekreft klassifisering. I en annen studie Support Vector Machine [14] ble brukt i lungekreft genuttrykk database analyse og resultatene foreslo at innlemmet forkunnskaper til kreft klassifikasjon basert på genuttrykk data var avgjørende for å bedre klassifisering nøyaktighet. Automatisk klassifisering av lunge TNM kreft stadier fra fritekst patologi rapporter ved hjelp av symbolsk regel- basert klassifikasjon ble forsøkt [15]. Metodikken ble vurdert basert på nøyaktighet parametere og forvirring matriser mot en database med tverrfaglig team iscenesettelse av beslutninger og en maskinlæring basert tekst klassifikasjonssystem hjelp støtte vektor maskiner.

Den aktuelle undersøkelsen ble fokusert på en veldig fersk artikkel av Hosseinzadeh et.al [1] som forsøkte å klassifisere lungekreftsvulster basert på strukturelle og fysio egenskapene til proteiner ved hjelp av bioinformatikk-modeller. Vi valgte dette papiret for tre hovedgrunner. (I) Arbeidet er den nyeste og dataene er offentlig tilgjengelig. (Ii) Forskningen involvert rikelig med data rengjøring og pre-prosesseringsstrategier som kunne vært unngått. (Iii) Deres arbeid involvert noen forutsetninger om den oppnådde data som ikke er tatt i bruk i dette arbeidet. Videre metoden foreslått i denne utredningen var i stand til å generere høyere klassifisering nøyaktighet i å skille mellom lungekreftsvulster basert på proteinegenskaper og samtidig beholde de opprinnelige dataene og eliminere forutsetninger. Nettopp dette papiret gjør følgende bidrag: (a) Utforming av en ny metodikk med hybrid-funksjonen utvalg teknikker for å identifisere de optimale protein funksjoner som skilte mellom lunge kreftsvulster med større nøyaktighet. (B) eliminert behovet for data rengjøring og forutsetninger attributt betydning. (C) Bidra funksjoner identifiserte antas å påvirke drug design som kunne rettet mot protein eiendom fører til lunge kreftsvulster.

Materialer og metoder

Datasett

Gene Set Enrichment analyse database (GSEA db) [16] ble anvendt for å oppnå de gensettene som har bidratt til utviklingen av NSCLC og SCLC. Det ble innhentet fra Kyoto Encyclopaedia av gener og genomer (KEGG) [17] gensettene. Totalt 84 gener [17] var tilstede i SCLC genet sett mens 54 gener [17] ble funnet å bidra til NSCLC. For å kunne nøyaktig skille mellom de to klasser av tumorer, ble genene som vanligvis forekommer i både tumorer som er lagt inn i en annen klasse som kalles vanlig. Styrken av genet er angitt for SCLC var 59, NSCLC inkluderte 29 Mens den felles genet satt summeres opp til 25. Proteiner for hver gruppe av gener ble oppnådd fra Gene kortdatabase [18] og de tilsvarende proteinsekvenser hentet fra Uniprot kunnskapsdatabase [19]. Disse sekvenser ble lagret som tekstfil og fylt på PROFEAT web-server [20] – [21] for å beregne de strukturelle og fysiokjemiske egenskaper assosiert med proteinet. Totalt 1400 og nitti sju attributter ble beregnet og representert som Fi.jkl der «l» representerte descriptor verdi og «k» betegnet descriptor mens «j» indikeres funksjonen og «jeg» tilkjenne funksjonen gruppen [ ,,,0],20] – [21]. Funksjonene og deres kommentarer har blitt gitt som File S1. Den komplette datasett bestående av 1497-funksjoner og 113 tumorprøver [17] ble lagt i å WEKA 3.7.7 maskinlæring programvare [22] og tumortype ble satt til å være målet klassen. Den komplette pre-prosessert datasett er gitt som File S2. Variasjonen i prøvestørrelse i forhold til tidligere arbeid er knyttet til mulige updations i databasen. Metodikken foreslått i dette forskningsarbeidet er beskrevet i neste avsnitt

Forslag Computational Methodology

Den foreslåtte metodikken består av to faser. Treningen fase og prediksjon fasen. Opplæringsfasen innlemmet data forberedelse, funksjonsvalg og klassifiseringsprosessen mens prediksjon fase involvert evaluering av klassifiseringsmodellen ved hjelp av Jack-knife kryssvalidering test basert på ytelse parametere [23] – [24]: Matthews Korrelasjon Co-effektiv ( MCC) og nøyaktighet. Den skjematisk fremstilling av den foreslåtte metodikken er gitt i Figur 1. Dataforberedelsesfasen innlemmet kategorisering av de innspill gensettene som SCLC, NSCLC og felles klasser. Dette ble etterfulgt av hybrid-funksjonen utvalg med trinnvis funksjonsvalg. Klassifiserings modellene ble deretter bygget og sammenlignet for å identifisere de beste resultater beregnings prediksjon teknikk på lungetumoren klassifisering ved hjelp av protein strukturelle og fysiokjemiske egenskaper.

Hybrid funksjonsvalg.

Feature ranking presenteres betydelig funksjoner i den rekkefølgen av deres bidrag til å kategorisere prøvene under de ulike målgrupper klassene [25] – [28]. Siden de fleste har valg algoritmer fokusert på vurdering attributtene i henhold til deres betydning verdi, forpliktelsen til å velge den begrensende begrensningen hvilte med brukeren [29] – [31]. Derfor for å automatisere prosessen med å finne minimal ennå optimal sett av funksjoner, ble rangeringen har valg algoritmer fulgt av korrelasjons undergruppe sensur [32] som inkluderte funksjoner sterkt korrelert til klassen og minst korrelert til hverandre. Siden både rangeringen og undergruppe evaluatorer ble utnyttet for å oppnå optimal funksjon sett, var dette kalt Hybrid funksjonsvalg strategi. Beskrivelsen av metodene som brukes i denne forskningen er beskrevet nedenfor

Gain Ratio Criterion

Få ratio kriterium [33] -.. [34], avslørte sammenhengen mellom et attributt og klassen verdi , blir først og fremst beregnet fra informasjons Gain hjelp av informasjonen Entropy (InfoE) verdier [35]. Etter å ha fått verdien av Entropy H (S

R), og forutsatt «F» å være mengden av alle funksjoner, og S

R for å være mengden av alle postene, verdi (r, f) er tatt for å være verdien av en bestemt forekomst «r $ \\ raster = «RG1» $ S «for funksjonen «f $ \\ raster =» RG1 » $ F «. Informasjon Gain for attributtet ble beregnet ved hjelp av ligning (1) som følger [35] 🙁 1)

For å kunne beregne egenverdi for en test, ble følgende formel vedtatt: (2)

Informasjon Gain ratio [33] – [35] ble beregnet som forholdet mellom informasjons Gain og egenverdi, i henhold til ligning (3) (3)

de attributtene ble dermed rangeres etter sin rangering i synkende rekkefølge av Gain Ratio score og ble brukt for CFS Delsett Evaluator metoden beskrevet nedenfor.

korrelasjon funksjonsvalg (CFS) Delsett Evaluator.

CFS hypotesen [36] foreslo at de prediktive funksjonene som trengs for å være svært korrelert til målet klasse og minst relevant for andre prediktor attributter. Den følgende ligning [36] – [37] bokført verdi av en funksjon undergruppe S som besto av «k» funksjoner (4) der, var den gjennomsnittlige verdien av alle funksjons klassifisering sammenhenger, og var den gjennomsnittlige verdien av all funksjon- har korrelasjoner. Den CFS kriteriet [36] ble definert som følger:

(5) Hvor og variabler ble referert til som korrelasjoner. Attributtene som skildret en høy korrelasjon til målet klasse og minst relevans til hverandre ble valgt som den beste undergruppe av attributter.

attributtene filtrert av CFS Delsett Evaluator metoden ble tilsatt i en trinnvis måte å identifisere optimal sett med funksjoner som bidro til lunge svulst kategorisering. Denne metodikken er rapportert nedenfor.

Incremental funksjonsvalg.

prediktor attributter som genereres av Gain Ratio og CFS Delsett data Evaluator (Hybrid funksjonsvalg) metoden senere ble benyttet for trinnvis Feature Selection (IFS ) [38] – [39] for å bestemme den minimale og optimalt sett av funksjoner. På å legge hver funksjon, ble en ny funksjon sett innhentet og k

th funksjonene kan være oppgitt som (6)

Hvor M merket det totale antall Predictor undergrupper. På konstruere hver funksjon sett ble prediktor modellen konstruert og testet gjennom Jack-knife kryssvalidering metoden. MCC og nøyaktighet av kryssvalidering ble målt, som fører til dannelsen av IFS bordet med antall funksjoner og klassifisering nøyaktighet de var i stand til å generere. «AT

o «var minimal og optimal funksjon sett som oppnådde den høyeste MCC og nøyaktighet.

For å finne det beste klassifiseringsmodell for lungetumor klassifisering [40], totalt fem referanse prediksjon teknikker nemlig Support Vector Machine [29], Random Forest [1], nærmeste nabo algoritme [39], Bayesiansk Network Learning [22] og Random Committee (Ensemble klassifikator) [22] ble analysert og sammenlignet. Våre resultater bekreftet at bayesiansk nettverk tilnærming generert høyere nøyaktighet i tumor klassifisering med optimal funksjon sett.

Bayesiansk Network Learning.

læringsfase i denne tilnærmingen innlemmet prosessen med å finne en passende Bayesiansk nettverk [41] gitt et datasett D i løpet av R der R = {r

1, r

n}, n ≥1 var den sett av input variabler. Klassifiseringen oppgave besto i å klassifisere en variabel V = v

0 kalles klassevariabel (NSCLC /SCLC /COMMON) gitt et sett av variabler R = r

1. . . r

n. En klassifiserings C: r → v var en funksjon som tilordnet en forekomst av «r «til en verdi på» v «. Klassifikator ble lært av et datasett D som besto av prøvene over (r, v) [42]. En Bayesisk nettverks over et sett av variabler R var en nettverksstruktur B

s, en rettet asyklisk graf (DAG) over settet av variable R og et sett av sannsynlighets tabeller [43] ble gitt ved (7)

Hvor pa (r) ble sett av foreldre med r i B

S og nettverket representerte en sannsynlighetsfordeling gitt ved ligning. (8) (8)

slutning gjort fra bayesiansk nettverk [41] – [43] var å fordele den kategorien med maksimal sannsynlighet [44]. The Simple Estimator med K2 lokale søk metode å bruke Bayes Score ble benyttet (standardparametere) for gjennomføring av algoritmen i WEKA 3.7.7 [22]. Clustering metoder er orientert om i neste avsnitt

Overvåket Clustering

Veiledet clustering [45] -.. [47] fravikes uten tilsyn clustering i at det ble brukt på allerede kategorisert eksempler med prime sikte på å detektere klynger som hadde høy sannsynlighet tetthet med hensyn til en enkelt klasse. Overvåkte clustering nødvendige antall klynger som skal holdes på et minimum, og gjenstander ble tilordnet klynger ved hjelp av begrepet nærhet i forhold til en gitt avstand funksjon [48] – [49]. Overvåket clustering evaluert en gruppering teknikk basert på følgende to kriterier [47] – [49]:

Class urenhet, Urenhet (X):

Det ble målt ved andelen marginale eksempler de ulike klynger av en gruppering X. en marginal eksempel var et eksempel som tilhørte en klasse forskjellig fra den hyppigste klasse i sin klynge.

Antall klynger, k.

i denne forskningen har vi sammenlignet klassene å klynge evaluering nøyaktigheten av syv clustering algoritmer [22] nemlig forventning-maksimering (EM) algoritme, spindelvev [22], hierarkisk clustering, k-means, lengst Først clustering, tetthet-baserte clustering og filtrert Clustering. Antall klynger ble automatisk tildelt i spindelvev algoritmen, mens de resterende algoritmer tillot brukeren å velge ønsket antall klynger [22]. Noen algoritmer utstilt bedre ytelse på inkludering av alle attributtene for clustering mens ytelsen forverret seg på hybridfunksjonen valg datasett. De ytelsen evalueringsmetoder og parametre orienteres om i de påfølgende avsnittene.

Jack-knife kryssvalidering test.

statistiske prediksjon metoder [50] ble benyttet for å måle prediktor ytelse for å vurdere deres effektivitet i praktisk bruk. I denne studien, jack-kniv kryssvalidering metoden [50] – [51] ble brukt for verifikasjon og validering av klassifiserings nøyaktighet siden tidligere rapporter har uttalt at det skal være minst vilkårlig i naturen og allment anerkjente av forskere og praktikere å anslå ytelsen av prediktorer. I jack-kniv kryssvalidering [38] – [39], [52], hver og en av de statistiske registreringer i treningsdatasettet er i sin tur identifisert som en testprøve og prediktoren ble trent av de øvrige prøvene. Under saksing prosessen [23] – [24], [39], både treningsdatasettet og testing av datasettet var faktisk åpen, og en statistisk prøve beveget fra en gruppe til den andre. I denne forskningen, følgende indekser [50] – [52] ble vedtatt for å teste den foreslåtte metodikken (9) (10) hvor reflekterte Mathews korrelasjonskoeffisient.; reflekterte nøyaktighet, dvs. frekvensen av korrekt spådde kreft svulst lunge klasse; TP, TN, FP og FN betegnet antall sanne positive, sanne negative, falske positive og falske negative, henholdsvis.

Eksperimentell Resultater og Diskusjon

De eksperimentelle resultatene er diskutert i tre seksjoner. Den fremste beskriver rangeringen av de strukturelle og fysiokjemiske egenskaper i henhold til deres gain ratio. Hele listen over attributter ble rangert og filen er gitt som Tabell S1. Den andre delen tar for seg resultatene av inkrementell funksjonsvalg, mens den siste delen skildrer den komparative resultatene av referanseklassifiserings modeller på proteinsekvensen eiendommer i kategorisere lungesvulster.

Hybrid funksjonsvalg

En totalt 1497 attributtene ble opprinnelig lastet som treningsdata med 113 tilfeller [17] – [18]. Ingen poster ble duplisert og det var ingen manglende verdier. På rangering attributtene ved Gain Ratio kriteriet, ble totalt 134 attributter tildelt en gevinst ratio større enn null. Den CFS undergruppe evaluator returnerte 39 funksjoner som er den mest optimale delsett som var sterkt korrelert til mål-klassen, men minst korrelert til hverandre. Disse funksjonene ble deretter benyttet for trinnvis funksjonen utvelgelsesprosessen. Resultatene av Hybrid Feature Selection teknikker er gitt i tabell S1.

Trinnvis funksjonsvalg

rangert attributter fra CFS undergruppe evaluator var deretter inn i synkende rekkefølge av deres rang til klassifikator . Ved hver attributt oppføring, ble MCC og nøyaktigheten av sorter på Jack-knife test beregnet. Bayesiansk Network Learning ble funnet å gi den høyeste prediksjon MCC av 0,812 og nøyaktighet på 87,6% med 36 funksjoner. IFS kurver generert på klassifikator nøyaktighet og tilsvarende MCC er representert i figur 2. Den optimale prediksjonsnøyaktigheten med den foreslåtte metodikken for hver funksjon undergruppe er gitt i tabell 1. De fullstendige resultatene av inkrementell funksjonsvalg prosessen på alle de tre Hybrid funksjonsvalg datasett er gitt i Tabell S2.

(A) IFS kurve generert ved hjelp Klassifisering Nøyaktighet i Lung Tumor kategorisering. X-aksen representerer antall funksjoner, mens y-aksen representerte jack-kniv kryssvalidering nøyaktighet. Toppen av klassifisering nøyaktighet oppnås var 87,6% med 36 funksjoner. De 36 topp egenskaper avledet av Hybrid funksjonsvalg (Gain Ratio + CFS Subset) tilnærming danne optimal funksjon sett. (B) IFS kurve generert ved hjelp av MCC verdier hentet fra klasse algoritmer. Toppen av MCC er 0,812 med 36 funksjoner. De 36 topp egenskaper avledet av Hybrid funksjonsvalg tilnærming (Gain Ratio + CFS Subset) dannet optimal funksjon sett.

Klassifiserings Modeller

Benchmark klassifiseringsmodeller som har vært rapportert [14], [38] – [39] [53] – [54] for å generere høy nøyaktighet ved klassifisering av biologiske data ble sammenlignet for å bestemme den optimale forutsigelse teknikk som genereres størst nøyaktighet i prediksjon. Den komparative resultatene av klassifiseringsmodeller med funksjonssettet som genereres av Hybrid funksjonsvalg teknikk er avbildet i tabell 2. ytelse sammenlignes basert på MCC og prediksjon nøyaktighet.

Clustering Modeller

Denne studien benyttet syv clustering algoritmer [22] for å sammenligne sine resultater i kategorisere klasser av lungesvulster basert på attributtverdier. Resultatene av generere clustering algoritmer på datasettet før og etter å ha utført hybrid funksjon utvalg presenteres. Klassene å klynge evalueringsresultatene er portrettert i tabell 3. Det fremgår av ordnet resultater som clustering algoritmer ikke var nyttig i å gi noen ny idé på attributtet betydning i å oppdage klynger siden deres prestasjoner nøyaktighet var betydelig lav. Diskusjonene om dataene og resultatene er presentert i den påfølgende avsnitt.

Diskusjoner

Influence of Strukturelle og fysisk-kjemiske egenskaper

Det har vært flere forskere på lunge kreft klassifisering [55] – [65], men den eneste tidligere beregnings studie om påvirkning av proteinsekvens basert strukturelle og fysiokjemiske egenskaper i kategorisering av lungekreft ble gjort av Hosseinzadeh et.al [1] som utnyttet beslutningstre genereres av Random Forest klassifikator å identifisere de medvirkende attributter. I denne studien benyttet vi den minste treet blant de ti beslutning tre modeller som genereres av Random Forest klassifikator [66] på treningsdatasettet for å identifisere de mest medvirkende attributtene til lunge svulst klassifisering. Riktignok Random Committee algoritmen også avbildet 100% nøyaktighet og en høy MCC av en i treningsfasen, de oppnådde resultater på Jack-kniv kryssvalidering var ikke så høy som den tilfeldig Forest modell. Beslutningstreet modell med det minste antall noder som genereres av den tilfeldig Forest på treningsdatasettet er skildret i figur 3. Den visualiseringen av denne treet gjorde det lettere å identifisere sammensetningen av hvert protein egenskap i de forskjellige typer av lungekreft tumorer, og dermed gi en kilde for drug design rettet mot proteinsammensetningen.

følgende nye innsikter om protein eiendommene ble ervervet fra Random Forest modell med et nytt sett med diskriminerende funksjoner blir rapportert for første gang i diskriminerende lunge svulst klasser.

dipeptid sammensetningen var den mest kresne funksjon blant klassene. F1.2 [dipeptid Sammensetning], F5.3 [Distribution Descriptor], F4.1 [Geary Auto-korrelasjon] og F6.1 [Sequence for kopling nummer] var de påfølgende betydelige protein bygninger som benyttes av Random Forest Model å diskriminere lunge svulst klasser.

En lav verdi av F5.3.2 [Normalisert vdw volumer] og F [7,1] pseudo aminosyre-sammensetning flyttet postene inn i felles klasse. En høy F5.3.1 [fordeling av hydrofobisitet] og F5.3.3 [fordeling av polaritet] ble funnet blant de vanligste genene i begge klasser av tumorer, mens en lavere konsentrasjon av det samme ble funnet blant NSCLC-tumor-gener. Dette leder molekylære undersøkelser for å designe medikamenter som ville senke fordelingen av hydrofobisitet og polaritet samtidig øke de normaliserte vdw volumer og pseudo aminosyre-sammensetning for å målrette den felles klasser av svulster.

En høy dipeptide sammensetning var karakteristisk for NSCLC-gener og en forholdsvis lav verdi som representeres av SCLC-tumorer. En høy konsentrasjon av F5.3.1 [Fordeling av hydrofobisitet] og F5.3.7 [fordeling av Solvent Accessibility] var tydelig i felles klasser av svulster. Disse funnene foreslår å designe medikamenter som øker dipeptide sammensetning for å hjelpe til herding av SCLC svulster og medikamenter som reduserer dipeptide sammensetningen for å kurere NSCLC svulster. Videre utforming av legemidler som senker fordelingen av hydrofobisitet og væske tilgjengelighet kan hjelpe i herding svulster i begge typer.

Det var tydelig at en streng avgrensning mellom tumor kategoriene var en komplisert oppgave, siden mange egenskaper var funnet å utvise lignende sammensetning i både tumor klasser. Men den foreslåtte metodikken ble funnet å skille mellom tumor klasser med et høyt MCC av 0,812 og klassifisering nøyaktighet på 87,6%, den høyeste trafikken så langt i protein-Eiendoms basert lunge svulst kategorisering.

Sammenligning med tidligere arbeid

som nevnt tidligere, den eneste tidligere beregningsstudie på lunge svulst kategorisering basert på proteinsekvensen baserte strukturelle og fysiokjemiske egenskaper ble rapportert av Hosseinzadeh et.al [1] som gjorde en sammenligning av ti forskjellige trekk utvalg teknikker og rapporterte de funksjonene som genereres av Gain Ratio kriterium for å generere optimal 10-fold kryssvalidering nøyaktighet på 86% med Random Forest klassifikator. Deres metode innlemmet 114 sekvenser med 30 gener i NSCLC klasse, 59 i SCLC og 25 i felles klasse av svulster. Videre deres metodikk involvert også omfattende data rengjøring og pre-prosessering. Her har vi gjort bruk av de 113 sekvensene [16] – [18] fra KEGG gensettene tilsvarer de NSCLC og SCLC tumor klasser og segregerte genene under tre klasser nemlig, NSCLC, SCLC og vanlig. Antall poster summeres opp til 113 med 29 gener [16] – [17] i NSCLC klassen. Denne studien var rettet mot å identifisere minimal og optimal sett med funksjoner for å kategorisere lunge svulst klasser for bruk i diagnostisk praksis og drug design. Derfor brukte vi Gain Ratio kriteriet Informasjon Gain kriterium og Symmetric Usikkerhet å rangere de funksjonene og deretter brukte Korrelasjon Feature Delsett evaluator [22] med et søk avslutning terskel på 5 og Best Første Søk tilnærming til å identifisere den minste undergruppe av funksjoner med en høy korrelasjon til målet klassen og minst korrelasjon til hverandre. Dette resulterte i en funksjon undergruppe med 39 funksjoner. På sammenligne jack-kniv kryssvalidering nøyaktigheten av fem referanseklassifiseringssystemer, ble det bayesianske Network Learning algoritme funnet å generere den høyeste MCC på 0,77 med en nøyaktighet på 85% med alle de tre hybridfunksjonen valg undergrupper. På søker Inkrementell funksjonsvalg fikk vi den mest optimale trekk sett med 36 funksjoner (funksjon undergruppe av Gain Ratio + CFS) genererer en nøyaktighet på 87,6%.

Den tidligere arbeid ved Hosseinzadeh et.al rapportert en høy nøyaktighet på 86% bare på de rensede data etter fjerning av like poster, korrelerte poster og basert på standardavviket verdier. Når du vurderer de samme dataene, har vår foreslåtte arbeidet oppnådd en høyere nøyaktighet med de originale, umodifiserte data og dermed spare regnetid ved eliminering av data renseprosessen. For å få frem sammenligningen tydeligere har vi identifisert nøyaktigheten av Random Forest med Gain Ratio (tidligere foreslått klassifiserer modell) på de opprinnelige dataene som var i stand til å generere en optimal nøyaktighet på bare 79,6% med 26 funksjoner fra Gain Ratio – CFS funksjon sett i forhold til våre foreslåtte metoden som produserte 87,6% presisjon med 36 funksjoner fra den samme funksjonen undergruppe. Vi tror vår foreslåtte metodikken kan lett utvides til å klassifisere og skille mellom andre onkogene svulster siden den opprinnelige dataene ble beholdt for matematisk analyse. Men den tidligere metoden ser ut til å ha gitt en høy nøyaktighet (86%) bare på den rengjorte data som gjør det til en begrensning når strekker metodikken til andre kreft datasett. Videre den tidligere foreslåtte modellen vil innebære ytterligere data pre-prosessering tid når den brukes til nye kreft datasett.

Sammenligning med andre metoder

Vi har sammenlignet tre trekk utvelgelsesmetoder [22] nemlig Informasjon Gain, Symmetric usikkerhet og Gain Ratio. Vi søkte CFS Subset evaluator på alle funksjonssettene rangert etter de tre algoritmer. Alle de fem referanseklassifiseringsalgoritmer [67] – [68] ble brukt på de reduserte geoobjektdatasett. Resultatene er tabulert i tabell 2. Alle de tre prediktor metodene vist gjennomgående høy presisjon med den Bayesian Network forutsigelse teknikk. Den optimale nøyaktighet ble oppnådd bare under prosessen med trinnvis funksjonsvalg med Gain Ratio og CFS undergruppe evaluator kombinasjon som oppnås en forbedret nøyaktighet på 87,6% med 36 funksjoner.

Legg att eit svar