PLoS ONE: Klassifisering av Lung Cancer Svulster Basert på strukturelle og fysiske og kjemiske egenskaper Proteiner av bioinformatikk Modeller

Abstract

Rapid skillet mellom småcellet lungekreft (SCLC) og ikke-småcellet lungekreft (NSCLC) tumorer er svært viktig i diagnostisering av denne sykdommen. Videre sekvens avledet strukturelle og fysio beskrivelsene er svært nyttig for maskinlæring prediksjon av protein strukturelle og funksjonelle klasser, klassifisere proteiner og prediksjon ytelse. Heri, i denne studien er klassifiseringen av lungesvulster basert på 1497 attributter som stammer fra strukturelle og fysiske og kjemiske egenskaper proteinsekvenser (basert på gener som er definert av microarray analyse) undersøkt gjennom en kombinasjon av attributt vekting, overvåket og unsupervised clustering algoritmer. Åtti prosent av vektingsmetodene utvalgte funksjoner som autokorrelasjon, dipeptid sammensetning og fordeling av hydrofobi som den viktigste protein attributter i klassifisering av SCLC, NSCLC og felles klasser av lungesvulster. De samme resultatene ble observert ved de fleste tre induksjons algoritmer mens beskrivelsene av hydrofobi distribusjon var høy i proteinsekvenser vanlig i både grupper og fordeling av omkostninger i disse proteinene var svært lav; viser VANLIGE proteiner var veldig hydrofobe. Videre er blandingene ifølge polar dipeptid i SCLC-proteiner var høyere enn NSCLC proteiner. Enkelte clustering modeller (alene eller i kombinasjon med attributt vekt algoritmer) var i stand til å klassifisere nesten SCLC og NSCLC proteiner. Random Forest tre induksjon algoritme, beregnet på blader one-out og 10-fold kryssvalidering) viser mer enn 86% nøyaktighet i clustering og forutsi tre forskjellige lungekreftsvulster. Her for første gang anvendelsen av data mining verktøy for effektivt å klassifisere tre klasser av lunge- kreftsvulster angående viktigheten av dipeptidet sammensetning, autokorrelasjon og fordeling deskriptor er rapportert

relasjon:. Hosseinzadeh F, Ebrahimi M, Goliaei B, Shamabadi N (2012) Klassifisering av Lung Cancer Svulster basert på strukturelle og fysiske og kjemiske egenskaper Proteiner av bioinformatikk Models. PLoS ONE syv (7): e40017. doi: 10,1371 /journal.pone.0040017

Redaktør: Hassan Ashktorab, Howard University, USA

mottatt: 27 mars 2012; Godkjent: 30 mai 2012; Publisert: 19.07.2012

Copyright: © 2012 Hosseinzadeh et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Forfatterne har ingen støtte eller finansiering for å rapportere

konkurrerende interesser:. forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Lungekreft er en ledende årsak til dødsfall fra kreft. verdensomspennende. Blant lungekreft, ikke-liten celle lungekreft (NSCLC) påvirker omtrent 80% av pasientene og, når diagnostisert ved en lokalisert stadium, er det 5 års overlevelse på 50%, mens den reduseres til 8% og 3% i tilfellet av spredning til lymfeknuter eller metastase, henholdsvis [1]. Innånding av tobakksrøyk og andre miljøkreftfremkallende er ansett som en viktig etiologisk faktor [2]. Epidemiologiske studier fortsette å gi bevis for at genetisk variasjon i den individuelle respons på kreftfremkallende kan endre faren for kreft. Polymorfismer av gener involvert i avgiftning av kreftfremkallende, og de som modulere og reparasjon DNA skader etter kreftfremkallende eksponering, har vært knyttet til risikoen for lungekreft [3].

Pasienter med ikke-småcellet lungekreft (plateepitel , AC, og storcelle) behandles annerledes enn dem med liten celletumorer, derfor patologisk skille mellom disse to typer av lungetumor er meget viktig. De genuttrykksmønster gjort mulig under klassifisering av adenokarsinom i undergrupper som korrelert med graden av tumor differensiering, så vel som pasientens overlevelse. Genekspresjonsanalyser lover derfor å utvide og forbedre standarden patologisk analyse [4]. Det er allment akseptert at lunge karsinogenese er en flertrinns prosess og fenotypiske forandringer resulterte fra aktiveringen av onkogener og inaktivering av tumorsuppressorgener [5]. Ikke-småcellet lungekreft (NSCLC) er den ledende årsak til kreft dødelighet på verdensbasis. I dag ingen pålitelige biomarkører er tilgjengelige for å veilede forvaltningen av denne tilstanden. Mikromatriser kan tillate passende biomarkører å bli identifisert, men dagens plattformer mangler sykdom fokus og er dermed trolig glipp av potensielt viktig informasjon i pasient vevsprøver. En kombinasjon av store in-house sekvensering, genekspresjon profilering og offentlig sekvens og genuttrykk data mining ble brukt for å karakterisere transkriptomet av NSCLC [6]. Identifisere en nyttig prognostisk biologisk og molekylær markør er derfor viktig å vurdere biologiske og molekylære egenskaper som avvek fra tumor, lymfeknute, metastase TNM staging i ikke-småcellet lungekreft (NSCLC) for å forutsi prognose og etablere forebyggende metoder [7 ]. En bedre forståelse av den molekylære patogenesen av SCLC ville sannsynligvis foreslå strategier for tidligere diagnose og nye molekylære målrettede terapier [8].

I nyere studier, er noen klassifiserere brukt for klassifisering av kreftgener eller proteiner, f.eks KNN klassifikator kan ha litt nytte for noen microarray klassifisering problemer, virker på hele non-dimensjon redusert datasett. De viser at å øke dimensjonalitet av disse settene (vurderer parene, tredobler eller fire-tupler, snarere enn individuelle karakterutskrift sekvenser én etter én) kan føre til betydelige forbedringer med hver dimensjon fått [9]. I annen studie, funksjoner proteiner uttrykt i ondartet, godartet og begge kreft ble sammenlignet ved hjelp av ulike screeningteknikker, clustering metoder, beslutningen tre modeller og generalisert regel induksjon (GRI) algoritmer for å se etter mønstre av likhet i to godartede og ondartede brystkreftgrupper [10] eller utvikle og teste en naiv bayesisk klassifikator basert på sekvens egenskaper av genene og molekylær funksjon og biologiske prosesser i hvilke de er involvert for å avsløre sine unike egenskaper som kan bistå til identifisering av nye kandidatkreftgener [11 ] eller gjennomføre en systematisk metode som spår kreft involvering av gener ved å integrere heterogene datasett ved å stole på: (i) protein-protein interaksjoner; (Ii) differensial uttrykk data; og (iii) strukturelle og funksjonelle egenskaper kreftgener [12].

Også i klassifiseringen av lungekreft, i flere studier, data mining modeller har blitt brukt. For eksempel en klassifisering og regresjon treet (KJØP) modell ble trent til å klassifisere 41 kliniske prøver, for eksempel sykdom /nondisease basert på 26 variable beregnet fra den masse-til-ladning-forhold (m /z) og topphøydene av proteiner identifisert ved massespektroskopi av blodserumprøver fra personer med og uten lungekreft [13], eller et treningstesting tilnærming til molekylær klassifisering av reseksjon av ikke-småcellet lungekreft som i denne studien, har en treningstesting tilnærming blitt brukt til å teste påliteligheten av cDNA microarray-baserte klassifiseringer av resected menneske ikke-småcellet lungekreft (NSCLCs) analysert av cDNA microarray [14]. I den andre studien, har klassifiseringen av enkelte lunge kreft cellelinjer (SCLC og NSCLC) er utført på grunnlag av DNA metylering markører ved hjelp av lineær diskriminant analyse og nevralt nettverk, og i følge dette arbeidet støtter løftet om ANN analyse av DNA-metylering data som en kraftig metode for utvikling av automatiserte metoder for klassifisering lungekreft [15]. I en annen studie lungekreft genekspresjon database analyse innlemmet tidligere kunnskap med støttevektormaskin baserte klassifiseringsmetode, sammen med anvendelsen av støttevektormaskin som diskriminant tilnærming, og en metode foreslått at innlemmet tidligere kjennskap til kreft klassifikasjon basert på genekspresjon data å forbedre nøyaktigheten [16]. For å automatisk klassifisere lunge tumor-node-metastaser (TNM) kreft stadier fra fritekst patologi rapporter ved hjelp av symbolsk regelbasert klassifikasjon. De nøyaktighet måle og forvirring matriser ble brukt for å evaluere TNM etapper klassifisert av symbolsk regelbasert system. Systemet ble evaluert mot en database med tverrfaglig team iscenesettelse av beslutninger og en maskinlæring basert tekst klassifikasjonssystem hjelp støtte vektor maskiner [17]. Sequence-avledet strukturelle og fysiokjemiske egenskaper har ofte blitt brukt i utviklingen av statistiske læringsmodeller for å forutsi proteiner og peptider av ulike strukturelle, funksjonelle og interaksjons profiler.

PROFEAT (protein Features) er en web-server for databehandling ofte -brukte strukturelle og fysiokjemiske egenskaper av proteiner og peptider fra aminosyre-sekvens [18]. Sekvens-avledet strukturelle og fysiokjemiske egenskaper er ofte blitt brukt for å forutsi protein strukturelle og funksjonelle klasser [19], [20], [21], [22], [23], protein-protein interaksjoner [24], [25], [26], subcellulære steder [27], [28] og peptider av spesifikke egenskaper [29] fra deres rekkefølge. Disse funksjonene er svært nyttig for å representere og skille proteiner eller peptider av ulike strukturelle, funksjonelle og interaksjons profiler, som er avgjørende for vellykket bruk av statistiske læringsformer i å forutsi strukturelle, funksjonelle og interaksjons profiler av proteiner og peptider uavhengig av sekvenslikhet [ ,,,0],30].

i denne studien, med fokus på viktigheten av klassifisering av lungesvulster i diagnostisering og behandling av denne sykdommen og anvendelse og nytten av sekvens-avledet strukturelle og fysiokjemiske egenskaper til proteiner, klassifisering av 2 typer lungesvulster basert på de strukturelle og fysiske og kjemiske egenskaper proteiner undersøkt ved hjelp av bioinformatikk og data mining-verktøy.

Materialer og Metoder

data~~POS=TRUNC Forberedelse

Microarray analyse på GSEA db ( Gene Set Enrichment Analyse database) brukes til å trekke gener involvert i begge typer lungesvulster (SCLC eller NSCLC). Noen gener var vanlig i både svulster så navngitt som felles sett. Proteiner for hver gruppe av gener (SCLC = 59, NSCLC = 30 eller COMMON = 25) hentet av DAVID server (https://david.abcc.ncifcrf.gov) og proteinsekvenser hentet fra Uniprot Kunnskaps (Swiss-Prot og skjelver) database. Ett tusen og nitti sju protein funksjoner eller egenskaper beregnet av PROFEAT web (https://jing.cz3.nus.edu.sg/cgi-bin/prof/prof.cgi) inkludert strukturelle og fysio protein. En indeks Fi.jkl brukes til å representere den l

th descriptor verdien av k

th descriptor av j

th funksjon i jeg

th funksjonen gruppe, som fungerer som en enkel referanse til den PROFEAT anvisningen som følger i serveren hjemmeside og noen lister over disse funksjonsgruppene viste i tabell S1 (detaljer har presentert i vedlegg S1) [18]. Et datasett av disse protein funksjoner ble importert til Rapid Miner (Rapid Miner 5.0.001, Rapid-I GmbH, Stochumer Str. 475, 44227 Dortmund, Tyskland) programvare, og den type svulst (SCLC, NSCLC eller vanlig) ble satt som målet eller etiketten attributt.

data Rengjøring

dupliserte funksjoner fjernet ved å sammenligne alle eksempler med hverandre på grunnlag av den angitte valg av attributter (to eksempler ble antatt lik dersom alle verdier av alle valgte attributtene var lik). Så unyttig attributter fjernet fra datasettet. Numeriske attributter som er besatt standardavvik mindre enn eller lik en gitt terskel avvik (0,1) forutsettes da å være ubrukelig og fjernet. Endelig korrelert funksjoner (med Pearson korrelasjon større enn 0,9) utelatt. Etter rengjøring, antall attributter og poster redusert og denne databasen merket som endelig Rengjøres database (FCdb).

attributtet Vekting

For å identifisere de viktigste funksjonene og for å finne mulige mønstre i funksjoner som bidrar til lungekreft svulster, ble 10 forskjellige algoritmer for attributt vekter påføres renset datasettet (FCdb) som beskrevet nedenfor.

Vekt av informasjon vinning.

Denne operatøren beregnet relevansen av en funksjon ved å beregne den informasjonen gevinst i klassen distribusjon.

Vekt av informasjon gain ratio.

Denne operatøren beregnet relevansen av en funksjon ved å beregne den informasjonen gevinst ratio for klassen distribusjon.

Vekt av regelen.

Denne operatøren beregnet relevansen av en funksjon ved å beregne feilraten av en oner Model på eksempelet satt uten denne funksjonen.

Vekt avvik.

denne bruks opprettet vekter fra standardavvikene alle attributter. Verdiene ble normalisert ved gjennomsnittlig, minimum eller maksimum attributtet.

vekt ved chi-square statistiske.

Denne operatøren beregnet relevansen av en funksjon av databehandling, for hvert attributt av inngangs eksempel sett, verdien av chi-kvadrat statistikk med hensyn til klassen attributtet.

vekt ved Gini-indeksen.

denne operatøren beregnet relevansen av et attributt ved å beregne Gini-indeksen i klassen distribusjon, hvis det gitte eksempel sett ville ha blitt delt i henhold til funksjonen.

Vekt av usikkerhet.

Denne operatøren beregnet relevansen av et attributt ved å måle symmetrisk usikkerhet knyttet til klassen.

Vekt av lettelse.

Denne operatoren målt relevansen av funksjoner ved sampling av eksempler og sammenlikne verdien av den aktuelle funksjonen for det nærmeste eksempelet på den samme, og av en annen klasse. Denne versjonen har også jobbet for flere klasser og regresjon datasett. De resulterende vekter ble normalisert i intervallet mellom 0 og 1.

vekt ved SVM (Support Vector Machine).

Denne operatoren brukes koeffisientene til normal vektor av en lineær SVM som har vekter.

vekt ved PCA (Principle Component Analysis).

Denne operatoren brukes faktorene for den første av de viktigste komponentene som har vekter.

attributtet Utvalg

Etter attributt vektingsmodeller kjørte på FCdb, hvert protein attributt (funksjon) fikk en verdi mellom 0 og 1, som avslørte betydningen av at attributt med hensyn til en målattributtet (type svulster). Alle variabler med vekter høyere enn 0,50 ble valgt ut og 10 nye datasett opprettet. Disse nydannede datasett ble navngitt i henhold til deres egenskap vektingsmodeller (Informasjon gevinst, Information gain ratio, Rule, avvik, Chi Squared, Gini-indeksen, usikkerhet, Relief, SVM og PCA) og ble brukt til å bli med senere modeller (overvåket og uten tilsyn ). Hver modell av veiledet eller uten tilsyn clustering ble utført 11 ganger; første gang det ble kjørt på hoveddatasettet (FCdb) og deretter på 10 nydannede datasett (resultatene av attributt vekting).

Unsupervised Clustering Algoritmer

clustering algoritmer oppført nedenfor var brukes på de 10 nyopprettede datasett (generert som resultatene av 10 forskjellige attributt vekting algoritmer (så vel som den viktigste datasettet (FCdb).

K-midler.

Denne operatøren bruker kjerner til beregne avstanden mellom objekter og klynger. på grunn av innholdet av kjerner, er det nødvendig å oppsummere løpet alle elementer av en klynge for å beregne en avstand.

K-Medoids.

Denne bruks representerer en implementering av k-Medoids. Denne operatøren vil skape en klynge attributt hvis det er ennå ikke tilstede.

tre induksjon modeller

DecisionTrees.

Fem tre induksjons modeller, inkludert Decision forfedre Decision tre parallell, Decision Stump, Random treet og Random Forest kjørte på hoveddatasettet (FCdb). en vektbasert parallell beslutningstre modellen, som lærer en beskjæres beslutningstre basert på en vilkårlig funksjon relevans test (attributt vekting ordning som indre operatør), anvendt på 10 forskjellige datasett opprettet fra attributt vekting utvalg (SVM, Gini-indeksen, Usikkerhet, PCA, Chi Squared, Rule, Relief, Information Gain, informasjon Gain Ratio og avvik).

Maskin Basert Tippe av La One-out 10-fold kryssvalidering

beslutning treet.

Sixteen maskinlæringsmodeller kjøre på fire beslutningen tre algoritmer (

beslutningstre, Decision Tre parallelle, Decision Stump

og

Random Forest

) med fire ulike kriterier (

Gain Ratio, Information Gain, Gini-indeksen Hotell og

Nøyaktighet

) på alle 11 datasett for å finne en passende modell (s ) for å forutsi nøyaktighet og klassifiseringsfeil av klasser basert på protein attributter. For å beregne nøyaktigheten av hver modell, er 10-fold kryssvalidering [14] brukes til å trene og teste modeller på alle mønstre. For å utføre kryssvalidering, ble alle postene tilfeldig delt inn i 10 deler, ble 9 sett brukt til trening og den 10. en for testing (la én-out). Prosessen ble gjentatt 10 ganger og nøyaktigheten for sann, usann og total nøyaktighet beregnes. Den endelige nøyaktighet rapportert som gjennomsnittet av nøyaktighet i alle de ti testene.

Resultater

Data Rengjøring

Den første datasettet inneholdt 114 poster (proteinsekvenser) med 1497 protein funksjoner . Av disse postene, ble 59 poster klassifisert som SCLC klasse, 30 poster tilhørte NSCLC klasse og 25 poster ble klassifisert som felles klasse. Etter fjerning av duplikater, unyttig attributter, og korrelerte funksjoner (data rengjøring) antallet protein funksjoner redusert til 1089 funksjoner

attributtet Vekting

Data ble normalisert før du kjører modellene.; Det var forventet at alle vekter ville være mellom 0 og 1. Funksjoner fikk vekt verdier høyere enn 0,50 med minst 50% av vekting algoritmer som anses som viktige protein funksjoner (Tabell S2).

Unsupervised Clustering Algoritmer

To forskjellige unsupervised clustering algoritmer (K-Verktøy og K-Medoids) ble anvendt på FCdb og ti datasett opprettet ved hjelp av attributtet utvalg (vekting) algoritmer. Ingen av clustering algoritmer var i stand til å skille fullt proteiner som er involvert i noen typer lungetumor (tabell S3).

Tre Induksjon Modeller

Fem treet induksjons modeller (Decision forfedre Decision Tre parallelle Avgjørelse Stump, Random treet og Random Forest) kjørte på FCdb og 10 datasett som genereres etter å ha utført 10 attributt vekting algoritmer. Totalt 151 trær generert (Random Forest modell inkludert seg selv 10 modeller)

Flere modeller indusert enkle trær, mens andre var komplisert.; 9 Decision Tree and 35 Random Forest modellene var de beste trærne for å skille klart mellom to krefttyper.

Distribusjon av hydrofobisitet var den viktigste egenskapen brukes til å bygge treet når beslutning treet modellen brukes til informasjon Gain datasett ( Figur 1). Når verdien for denne funksjonen var mer enn 30,628, proteiner falt i felles klasse. De autokorrelasjons beskrivelsene og dipeptid komposisjoner var de andre funksjonene som brukes til å bygge resten av treet. Hvis sammensetningen av cystein-glutaminsyre ([F1.2.1.24]: polar dipeptid) var mer enn 0,087, proteinet tilhørte SCLC tumor og på annen måte falt i NSCLC klasse. Sammensetning av polare dipeptider i NSCLC proteiner var flere enn SCLC proteiner ([F1.2.1.218]: Met-Val) og overhand, dipeptid komposisjoner av SCLC proteiner er mer polar enn NSCLC proteiner ([F1.2.1.326]: Thr- Gly, [F1.2.1.98]: Phe-Val). . Detaljene i denne modellen har blitt til under

Etter viktige punkter kan trekkes ut fra hårlokk i Generelt har disse resultatene rapportert for første gang:

F1.2 (dipeptide sammensetning), F3.1 (Moran autokorrelasjon) og F5.3 (distribusjon descriptor) var de viktigste protein funksjoner som brukes av beslutningen tre modeller for å klassifisere tre lungekreft klasser (SCLC, NSCLC, vanlig).

fordeling av hydrofobi (F5.3.1) i felles klasse var svært høy, mens fordelingen av kostnader (F5.3.5) var svært lav (figur 2).

Generelt sammensetningen av ikke-polare dipeptider i SCLC klasse ble mindre enn sunn proteiner og sammensetning av polar dipeptid i SCLC assosierte proteiner var høyere enn NSCLC klasse (figur 1).

i det første trinnet hvis fordeling av ansvaret var lik eller lavere enn 22.703 proteiner falt i FELLES klasse; dipeptide sammensetning var annen viktig funksjon for å tegne dette treet.

Maskin Basert Tippe av La One-out 10-ganger Cross Validation

De nøyaktighet på alle indusert prediksjon algoritmer er presentert i tabell S4. Nesten, gjennomsnittlig nøyaktighet på alle modeller viste nøyaktig høyere enn 60%. Den laveste nøyaktighet oppnås når Stump Decision Tre modell kjørte på Relief datasett med Gini-indeksen kriterier (41.89%). Den beste spådd nøyaktighet oppnås når Random Forest Decision Tre modell kjørte på Rule datasett med Gain Ratio (86,00%)

Diskusjoner

Lungekreft kan grovt deles inn i to grupper etter patologi. Non -små celle lungekreft (NSCLC) (80,4%) og småcellet lungekreft (16,8%) [31]. Pasienter med ikke-småcellet tumor behandles annerledes enn de med små celle svulster. Den patologiske Skillet mellom småcellet lungekreft (SCLC) og ikke-småcellet lungekreft er derfor meget viktig [4]. Mange studier har ansett for klassifisering av lungekreft [16], [32], [33], [34], [35], [36], [37], [38], [39]. For eksempel har RNA uttrykk mønstre forbundet med ikke-småcellet lungekreft sub klassifisering er rapportert, men det er betydelige forskjeller i viktige gener og kliniske trekk ved disse undergrupper avstøpning tvil om deres biologiske betydning. I denne siste studien, har en trenings-testing tilnærming brukes til å teste påliteligheten av cDNA microarray-baserte klassifiseringer av resected menneske ikke-småcellet lungekreft (NSCLCs) analysert av cDNA microarray. Resultatene viste at genuttrykk profilering kan identifisere molekylære klasser av resected NSCLCs at korrekt klassifiserer en blindet test årsklasse, og korrelerer med og kosttilskudd standard histologisk evaluering [14]. Oppsummert har omfattende og detaljerte støtte til ideen om at genuttrykk basert klassifikasjon av svulster vil snart bli klinisk nyttig for kreft i lunge gitt [4]. Molekylær klassifisering av NSCLC ved hjelp av en objektiv kvantitativ test kan være svært nøyaktig og kan bli oversatt til en diagnostisk plattform for bred klinisk anvendelse [40].

Sequence-avledet strukturelle og fysio beskrivelsene har ofte blitt brukt i maskinlæring prediksjon av protein strukturelle og funksjonelle klasser [19], [20], [21], [22], [23], [24], protein-protein interaksjoner [24], [25], [26], [41], subcellulære steder [27], [28], [42], [43], peptider som inneholder spesifikke egenskaper [29], [44], microarray data [45] og protein sekundær struktur prediksjon [46]. Disse beskrivelsene tjene til å representere og skille proteiner eller peptider med forskjellige strukturelle, funksjonelle og interaksjons profiler ved å utforske de anerkjente funksjoner i komposisjoner, korrelasjoner, og fordelinger av konstituerende aminosyrer og deres strukturelle og fysiokjemiske egenskaper [18], [20], [ ,,,0],26], [30] og dette viste seg at i dag brukes beskrivelsessett er generelt nyttig for klassifisering proteiner og prediksjon ytelsen kan økes ved å utforske kombinasjoner av beskrivelsene [47].

i denne studien brukte vi strukturelle og fysiske og kjemiske egenskaper proteiner som involverer i noen typer lungesvulster for klassifisering av dem og avdekke de viktigste protein egenskaper som har deltatt i skille av lungesvulster. Forskjellige modelleringsteknikker ble brukt for å studere 1497 attributtene for proteiner som er involvert i to og fire typer (upubliserte data) for lungekreft. Når antall variabler eller attributter er tilstrekkelig stor, er evnen til å behandle enheter betydelig redusert. Data rensing algoritmer ble benyttet for å fjerne korrelerte, ubrukelig eller like egenskaper som resulterer i en mindre database [48], [49]. Ca 15% av attributtene kasserte når disse algoritmene ble brukt på de opprinnelige datasettene

Ti forskjellige attributt vektingsmodeller brukes på endelig ryddet datasett.; som hver algoritme bruker et bestemt mønster for å definere de viktigste funksjonene, og dermed kan resultatene være forskjellig [50]. De har grupper av F5.3 (distribusjon deskriptorer), F1.2 (dipeptid sammensetning) og F3.1 (autokorrelasjon) var de viktigste attributtene valgt av attributt vekting modeller for å skille mellom SCLC, NSCLC og felles klasser av lunge krefttyper, som definert av 80% av attributt vekting algoritmer (tabell S2).

Videre er i de aktuelle beslutning trær, sammenlignbare resultater med attributtvekt algoritmer ble vist og det samme proteinet attributt-grupper (F2.1, F3.1 , F5.3 og F1.2) valgt som de viktigste attributter i klassifiseringen av lunge kreft proteiner. I tillegg er de fleste indusert trær viste F5.3 egenskaper, fordeling av hydrofobisitet i FELLES proteiner var meget høy og fordeling av ladede rester i disse proteinene er meget lav, og derfor resultatene bekreftet proteinene fra vanlig type var meget hydrofobe.

betydningen av hydrofobi har vært fremhevet i noen studier [51], [52], [53]. Det er velkjent at hydrofobisitet spiller en stor rolle i å bestemme egenskapene til aminosyrer, peptider og proteiner. I en annen studie, hydrofobe rester var dominerende i sakte spekter av folding, og hydrofile rester ofte skjedde i rask rekkevidde. Generelt er det omgivende miljø av proteiner er vann. Vanligvis er sidekjedene av hydrofobe rester begravet i det indre av proteiner for å danne hydrofobe kjerne, som er bortsett fra vann, mens sidekjeder av hydrofile rester er eksponert på overflaten av proteinene, som er nær vannmolekyl [ ,,,0],54]. Derfor resultatene av vår studie, for første gang, bekrefter at betydningen av hydrofobi i tillater rask folding av de vanligste proteinene mellom to typer lungesvulster og øke deres evne til tumorigent eiendom.

dipeptid sammensetning var andre viktige protein har grupper valgt som en viktig i denne studien. I våre nyere studier, viste vi at spesifikke dipeptider spille den sentrale rollen til klassifisering av brystkreft og protein halogen stabilitet og termostabilitet [10], [55], [56]. Betydningen av sekvensbasert klassifisering i påvisning av forskjellige proteiner uttrykt i brystkreft og viktigheten av Ile-Ile dipeptid i gruppering av proteiner, ble rapportert der [10]. I denne utredningen, de fleste av beslutnings tre modellene viste at sammensetningen av polar dipeptid i SCLC proteiner var mer enn NSCLC proteiner og vice versa, noe som resulterer NSCLC proteiner for å vise mer hydrofobisitet. Disse resultatene har rapportert for første gang, og kan være en av de viktigste faktorene for å lette SCLC svulster distribusjon.

I denne studien, autocorrelation descriptor var en annen viktig funksjon for klassifisering av lungesvulster. Autokorrelasjon beskrivelsene er en klasse av topologiske beskrivelser, også kjent som molekylære tilkoblings indekser, beskrive samvariasjon mellom to objekter (protein eller peptid sekvenser) i form av deres spesifikke strukturelle eller fysisk-kjemiske eiendom [57], som er definert basert på fordelingen aminosyre eiendommer langs sekvens [58]. Åtte aminosyre eiendommene brukes for å utlede autokorrelasjonsbeskrivelser: hydrofobisitet skala [59]; gjennomsnittlig fleksibilitet index [60]; polarizability parameter [61]; fri energi av aminosyreløsning i vann [61]; rester tilgjengelige flater [62]; aminosyrerest volumet [63]; steriske parametre [64]; og relativ mutability [65]. En av nylig studie viste at det italienske lotteritilsynet (aminosyresekvens autokorrelasjon) informasjon er svært effektiv for å representere forholdet mellom proteinsekvensen og tilhørende brette grad [54]. Så autokorrelasjonsegenskaper kan spille en viktig rolle i folding av tre lungekreftsvulster studert her, og denne funksjonen har blitt rapportert for første gang i denne studien. Autokorrelasjon tilnærming hadde vellykket bruk for modellering molekylære egenskaper, biologiske aktiviteter [66], [67] og prediksjon av protein helix innhold [68]. I en fersk undersøkelse, en metode for å rekonstruere den belastningen fordelingen ved å endre autokorrelasjonsteknikk, «kombinert autocorrelation metoden» foreslått. I forsøkene ved hjelp av en svulst fantom og en ekstrahert brystvev inkludert en kreftsvulst, hvert elastisitetsmodul bilde som oppnås ved den kombinerte autokorrelasjonsmetoden og den 3-D finite element modell for vev vises klart i regionen hardere enn omgivende mykt materiale eller vev. Disse resultatene viser at den kombinerte autokorrelasjonsmetoden er en lovende middel for å diagnostisere svulster [69] som vist i denne artikkelen.

Unsupervised clustering algoritmer har vært mye brukt i en rekke områder i de biologiske vitenskaper, inkludert diagnostikk og bildebehandling [70], EST [71], kreft påvisning [72], arrangøren analyse [71], gen- og protein bioinformatikk [56], [73], [74], [75], [76]. Her har vi brukt to forskjellige unsupervised clustering metoder (K-Verktøy og K-Medoids) på FCdb og 10 datasett opprettet fra protein attributter, som ble tildelt høye vekter. Forestillinger av disse algoritmene variert betydelig. Noen metoder kunne nesten tildele NSCLC protein i riktig klasse (for eksempel K-Medoids algoritme, når den brukes til FCdb og avvik, Gini-indeksen, Information Gain, PCA og usikkerhet datasett). Resultatene viste at K-Medoids algoritme var nesten i stand til å klassifisere SCLC-proteiner inn i riktig klasse når kjører på Chi kvadrerte datasett. Men ingen av clustering algoritmen var i stand til riktig klassifisere VANLIGE proteiner til respektive klasse (tabell S3). For mer nøyaktig gruppering av proteiner som tilhørte noen typer lungesvulster, andre clustering modeller som EM brukes på data med høyere nøyaktighet (upubliserte data).

Som vist i tabell S4, den samlede mulige for tre induksjons modellene var generelt høy nok og forbedret når kriteriene endres. For eksempel nøyaktigheten for Decision trestubbe modell for nøyaktighet kriteriet var 41,89%, men forbedret seg til 84,00% når kriteriet endret indikerer en meget kraftig økning i modellen nøyaktighet og ytelse. Den beste nøyaktighet oppnås når Random Forest modellen løp med Gain Ratio kriteriet (86,00%) som gjør det den beste modellen for å bruke i slike forhold, og er den første maskinen basert læring algoritme for å forutsi lungekreft tumortyper basert på protein attributter.

Legg att eit svar