Abstract
Bakgrunn
microRNAs (mirnas) er små ikke-kodende RNA som regulerer genekspresjon. Det er blitt foreslått at mirnas spiller en viktig rolle i kreftutvikling og progresjon. Deres evne til å påvirke flere genet trasé ved å målrette ulike mRNA gjør dem til en interessant klasse av regulatorer.
metodikk /hovedfunnene
Vi har utviklet en algoritme, Klassifisering basert Analyse av koblede Expression data av RNA (CAPE RNA), som er i stand til å identifisere forandres miRNA-mRNA regulering mellom vevsprøver som tildeler interaksjons tilstander til hver prøve uten forhåndsdefinert lagdeling av grupper. Fordelingen av de tildelte interaksjons statene i forhold til gitte eksperimentelle grupper brukes til å vurdere kvaliteten på en spådd interaksjon. Vi viser anvendeligheten av vår tilnærming ved å analysere urothelial karsinom og prøvene normale blæren vev avledet fra 24 pasienter. Ved hjelp av vår tilnærming, normal og svulst vevsprøver samt forskjellige stadier av tumorprogresjon var vellykket lagdelt. Også våre resultater tyder interessante ulikt regulert miRNA-mRNA interaksjoner forbundet med blære tumorprogresjon.
Konklusjon /Betydning
Behovet for verktøy som lar en integrerende analyse av mikroRNA og mRNA uttrykk data har vært adressert. Med denne studien, gir vi en algoritme som legger vekt på fordelingen av prøver å rangere forskjellig regulert miRNA-mRNA interaksjoner. Dette er et nytt synspunkt i forhold til dagens tilnærminger. Fra bootstrapping analyse, gir vår rangering funksjoner som bygger sterke classifiers. Videre analyser viser gener identifisert som forskjellig regulert av mirnas å bli beriket i kreft trasé, og dermed tyder biologisk interessante interaksjoner
Citation. Hecker N, Stephan C, Mollenkopf HJ, Jung K, Preissner R, Meyer HA (2013 ) En ny algoritme for integrert analyse av miRNA-mRNA interaksjoner basert på individuelle Klassifisering avslører Innsikt i blærekreft. PLoS ONE 8 (5): e64543. doi: 10,1371 /journal.pone.0064543
Redaktør: Panayiotis V. Benos, University of Pittsburgh, USA
mottatt: 12. oktober 2012; Godkjent: 17 april 2013; Publisert: May 24, 2013
Copyright: © 2013 Hecker et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Denne studien ble finansiert av BMBF (MedSys, gi nr 0315450) https://www.bmbf.de/and Deutsche Forschungsgemeinschaft (DFG) GRK 1772 «Computational Systems Biology» https://www.dfg.de. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Blærekreft er den fjerde vanligste kreftformen i industrialiserte land [1]. Muskel invasiv blære carcinoma har fortsatt en høy dødelighet, til tross for bedre behandling av forbedrede kirurgiske teknikker og aggressiv behandling. Omtrent 90% av alle urothelial neoplasmer klassifiseres som urothelial karsinom (UCC), som kan deles ved kliniske og morfologiske parametere i to forskjellige undergrupper [2], [3]. Flertallet av UCC tilhører gruppen av papillær ikke-invasive svulster (stadium PTA), generelt disse svulstene er godt differensiert, har en tendens til å vokse sakte uten stor spredning og har en god klinisk prognose. De resterende en tredjedel av UCC er invasive svulster (stadium PT1 og høyere) med dårlig differensiering, høy progresjon og evnen til å danne metastaser. På molekylært nivå, er de fleste ikke-invasiv UCC forbundet med FGFR3 mutasjon og kromosom 9 tap [4], [5], mens inaktivering av p53 og PTEN-funksjon spiller en viktig rolle i progresjon av invasive UCC [6]. I flere publikasjoner, har transcriptomic ekspresjonsmønstre vært knyttet til kliniske resultater i urothelial karsinom [7] – [10]. Videre ble først integrert analyse av både miRNA og mRNA data utføres for å få en mer detaljert innsikt i regulatoriske nettverk og involverte kreft signaltransduksjonsveiene som forårsaker blære kreft [11], [12]. Men de eksakte mekanismene som er involvert i initiering og progresjon av blæren urothelial karsinom fortsatt i stor grad uklart. Videre undersøkelse av genekspresjon og miRNA uttrykket data er avgjørende for å oppdage de ukjente prosesser som fører til tumorgenesis. Ved etableringen av microarray anvendelser, har flere beregningsmetoder blitt utviklet for å analysere genekspresjon data. Gene sett analyse og genet anrikning analyse blir ofte brukt for å identifisere differensielt uttrykte gener [13], [14]. De mest vanlige verktøy og web-tjenester som gjelder prinsippene om genet berikelse analyse er DAVID [15], GeneTrail [16], gorilla [17], GeneCodis [18] og GoEast [19], for en generell oversikt se referanse [20] .
Bortsett fra co-uttrykte gener, differensielt regulerte par mirnas og mRNA spille en viktig rolle i flere cellulære prosesser og sykdommer. For å vurdere dette problemet, har flere metoder blitt utviklet for å forutsi interaksjoner mellom mirnas og mRNA basert på deres sekvenser. De fleste av verktøyene utnytte frø utfyllende mellom mirnas og 3’UTR av spesifikk mRNA, informasjon om sekvensen bevaring av tilstøtende baser og termodynamiske egenskaper miRNA-target mRNA interaksjoner. De forskjellige fremgangsmåter er nylig blitt gjennomgått [21]. Noen av de mest vanlige verktøy er TargetScan [22] – [25], PicTar [26] – [29], Miranda [30] – [32] og mareritt [33]. Flere nettressurser gir validert eller spådd miRNA-mRNA interaksjoner, f.eks TarBase [34], miRecords [35], miRGen [36] og miRBase [37], miRGator tilbyr miRNA og mRNA uttrykk profiler [38], Base [39] og Dorina [40] er databaser som integrerer miRNA og ribonucleoprotein bindingssteder.
det er behov for metoder som anser egenart miRNA indusert regulering. miReduce [41] og Sylamer [42] kan brukes til å vurdere sammenhengen mellom frø motiv enrichments i 3’UTRs av mRNA for differensielt regulerte gener i miRNA knockout eksperimenter. DIANA-mirExTra implementerer lignende genet motiv evalueringsmetoder som en web-tjeneste [43]. Creighton et al utviklet en kolleksjon av Excel makroer å kombinere sett av beriket gener med miRNA-mRNA interaksjons spådommer [44]. Nylig, metoder og web-tjenester for integrert analyse av miRNA og mRNA uttrykk data har blitt utviklet som MAGIA [45], [46], MMIA [47], mirAct [48], miRConnX [49] og miRTrail [50] . GenMIR ++ implementerer en Bayesiansk læring tilnærming for å identifisere differensial miRNA-mRNA regulering [51], [52]. HOCTAR beregner negative korrelasjoner mellom miRNA og mRNA uttrykk [53]. Andre metoder er basert på regresjonsanalyse [54], [55]. En tilnærming basert på gruppering miRNA og mRNA-ekspresjon av data i forbindelse med en t-test ble utviklet av Jayaswal et al. [56]. De fleste av dagens verktøy har svakheter som bruker metoder som er utsatt for feil til uteliggere eller de tillater ikke identifisere differensial regulering mellom to grupper av prøver.
I denne studien presenterer vi en ny tilnærming som evaluerer differensial miRNA -mRNA regulering kombinert med fordelingen av prøver for en enkelt interaksjon. Vi hypotese at enkelt miRNA-mRNA interaksjoner er karakteristisk for en bestemt tilstand av tumorigenesis. Vi anser differensial miRNA indusert genregulering som en to klasse problem og bruke følgende forutsetning. Gitt en interaksjon mellom en miRNA og mRNA som er karakteristisk for en forskjell mellom to grupper av prøver, er det miRNA oppregulert og mRNA nedregulert i den første gruppe i forhold til den andre gruppen, eller gjensidig. Vår tilnærming klassifiserer hver forutsagt interaksjonen for hver prøve uavhengig av gruppe kunnskap. Ved denne måten, kan man analysere individuelle forskjeller innenfor et kollektiv av prøver for et bestemt sett av interaksjoner. Videre gis en interaksjon, kan vi fordele prøvene til forventede grupper som reflekterer miRNA indusert genregulering. Avtalen mellom de forventede grupper og de eksperimentelle de gir en meningsfull ranking å skille potensielle interaksjoner fra de som er lite sannsynlig. I et siste trinn, innlemme vi informasjon om negativ korrelasjon mellom miRNA og mRNA uttrykk for å eliminere falske positiver.
Identifisere forskjellig regulert miRNA-mRNA interaksjoner er et i utgangspunktet en form for funksjonsvalg. For å validere de ulike trinnene i vår tilnærming, har vi utført en prinsipal komponentanalyse for å analysere separasjon av prøver etter tildeling av interaksjons stater og evaluert resultatene av vår rangering for å bygge classifiers.
I særdeleshet, vi har søkt vår tilnærming til et kollektiv av friske blære vevsprøver og blære tumorprøver på ulike stadier. I tillegg har vi undersøkt muligheten for vår tilnærming til å klassifisere prostata kreftsvulster og friskt vev, samt tykktarmskreft prøver og friskt vev ved hjelp av små utvalgsstørrelser [57]. Utførelsen av våre klassifikasjonsapparater ble sammenlignet med en godt etablert metode for genuttrykk data, Tippe Analyse av Microrarrays for R (pamr), som er en forbedret nærmeste Tyngdepunktet klassifikator [58]. Videre har vi beregnet pathway berikelse score for gener involvert i antatte interaksjoner og foreslå interessante interaksjoner for blærekreft tumorprogresjon.
Materialer og metoder
Pasienter og vevsprøver
Et utvalg 24 urothelial prøver fra et kollektiv av blærecancerpasienter som er beskrevet tidligere ble brukt i denne studien [59]. Åtte prøver ble hentet fra nonmalignant blæren vev (8 mannlige pasienter, median alder 69, range 47-80 år), 8 prøver fra lavgradig papillær urothelial karsinom (8 mannlige pasienter, median alder 72,5, range 59-79 år; 2x pTaG1 og 6x pTaG2)), og 8 prøver fra invasive svulster (6 mannlige, 2 kvinnelige pasienter, med en median alder 73, range 62-76 år, 1x pT1G1, 4x pT1G3 og 3x pT2G3). Prøvene ble oppsamlet umiddelbart etter kirurgi i flytende nitrogen og lagret ved -80 ° C inntil videre analyse. Tumor staging ble utført i samsvar med International Union Against Cancer og histologisk gradering i samsvar med WHOs /ISUP kriteriene for 2004 [60]. Alle pasienter med blærekreft gikk gjennom radikal cystektomi eller transurethral reseksjon ved Universitetssykehuset Charité i Berlin mellom 2008 og 2009, og ga skriftlig informert samtykke til bruk av representative vevsprøver for forskningsformål. Studien ble godkjent av Ethic Utvalget ved Universitetssykehuset Charité (File: EA1 /153/07).
Isolering av RNA og karakterisering av kvantitet og kvalitet
analysert tumorvev prøvene inneholdt mer enn 80% tumorceller som tidligere beskrevet [59]. Omtrent 20-30 mg våtvekt vev ble behandlet med 350 ul lyseringsbuffer og total-RNA ble isolert ved anvendelse av miRNeasy Mini Kit (Qiagen, Hilden, Tyskland) i henhold til produsentens protokoll. En ytterligere DNase I-fordøyelse skritt på RNA-bindende silikagel-membranen ble utført. Mengden og kvaliteten av isolert RNA ble bestemt av en Nanodrop 1000 spektrofotometer (Nanodrop Technologies, Wilmington, DE, USA) og en Bioanalyzer 2100 (Agilent Technologies, Santa Clara, CA, USA). Kun prøvene med RNA integritet nummer (RIN) verdier 5 ble anvendt. De RNA prøver isolert fra nonmalignant samt fra ikke-invasive og invasive tumor vevsprøver viste sammenlign median 260/280 absorbans forhold (2,02, 2,03 og 2,03) og median RIN verdier (7,3, 6,7 og 7,2, Kruskal-Wallis test, P = 0,486).
Mikromatrise-basert RNA-analyse
miRNA uttrykket analyse ble utført av én farge hybridizations på menneskelig Katalog 8-plex 15 K mikroRNA mikromatriser (AMADID 019118) fra Agilent (Agilent Technologies, Santa Clara, CA, USA) som omsluttet 723 mennesker og 76 virus microRNAs fra Sanger miRBase (release 10.1). Alle reaksjonstrinn ble utført som tidligere beskrevet i detalj [61]. Etter hybridisering, ble microarrays vasket, skannet og behandlet i henhold til leverandørens protokoll. Rådata ble normalisert ved hjelp Genespring GX11 programvare (Agilent) med standard parametere (terskel rå signal til 1,0, prosent skifte til 90-persentilen som normalisering algoritmen og ingen baseline transformasjon). All microarray data har blitt deponert i NCBI GEO database med tiltredelse antall GSE36121.
mRNA uttrykk analyse ble utført av én farge hybridizations på hele menneskets genom microarray 4 × 44 K v2 (026652) fra Agilent bestående prober for menneskelige 34184 mRNA transkripter. Etter hybridisering, ble microarrays vasket, skannet og behandlet i henhold til leverandørens protokoll. Rådata ble normalisert ved hjelp Genespring GX11 programvare (Agilent) med standard parametere (prosent skiftet til 75. persentil som normalisering algoritmen og en median baseline transformasjon av alle prøvene). All microarray data har blitt deponert i NCBI GEO database med tiltredelse antall GSE40355.
Klassifisering av miRNA-mRNA interaksjoner
miRNA-mRNA interaksjon datasett.
validert menneskelige miRNA -mRNA interaksjoner ble hentet fra Tarbase 5.0 og miRecords (versjon 11-2010) [34], [35], [62]. Human Target mRNA spådommer for mirnas ble hentet fra TargetScan 5,2 og microRNA.org (versjon 8-2010) [22] – [25], [63]. Den microRNA.org ressursen består spådommer beregnet av Miranda algoritmen [30], [31]. Ved microRNA.org, de eneste spådommer som ble vurdert, var de merket som «konservert miRNA» og «god mirSVR score». For analysen ble skjæringspunktet mellom microRNA.org og TargetScan spådommer lagt til settet av validerte interaksjoner. miRNA familier ble hentet som definert i TargetScan datasettet.
Algoritme for klassifisering av uttrykket verdier.
Målet med algoritmen er å partisjonere uttrykket verdiene som svarer til hver sonde inn i tre sett .: «høy», «medium» og «lav»
La vær log-normaliserte uttrykk verdien av en spesifikk probe for en gitt prøve som enten refererer til en miRNA eller mRNA. er den tilsvarende sett av verdier av uttrykk som probe i løpet av alle prøver. Til å begynne med blir uttrykket verdiene exponentiated, det vil si. På denne måten unngår vi noen numeriske problemer. Alle verdier er større enn null, fordi nærmer seg null som blir mer negativ, det vil si når det nærmer seg, også, om så. Åpenbart er det en avhengighet av hvordan den opprinnelige dataene ble normalisert.
Vi definerer den absolutte ganger endring som for to verdier. Vær oppmerksom på at.
Det er to foreløpige betraktninger. Den første antakelse er at to uttrykk verdier er uttrykt forskjellig hvis deres absolutte ganger endring er høyere enn en viss terskel. Den andre forutsetningen er at verdier som absolutte ganger endring er i en viss rekkevidde er tilsvarende uttrykk, det vil si deres absolutte ganger endring er lavere enn eller lik en terskel.
Gitt og en nonempty satt
B
der er kardinaliteten av settet
B
definerer vi den absolutte ganger endring mellom
en
og gjennomsnittet av settet
B
som der. Igjen, siden
B
er ikketom, og hvis og bare hvis.
Vi definerer det settet
A
er nabolaget av
en
hvis og bare hvis der.
Vi definerer
en
som representant for et sett
en
hvis og bare hvis
A
er nabolaget av
a
. Vær oppmerksom på at det kan være mer enn én representant for et sett
En
, dvs. for to verdier der
En
er nabolaget
en
og
B
er nabolaget
b, etter om, men også hvis og.
Vi definerer en scoring funksjon på to elementer,
en
og
b
og deres nabolag
A Hotell og
B
som følger:
Vi legger følgende begrensning for å avgjøre sluttresultatet, der:
Bakgrunnen dette scoring funksjon er å finne to sett av tilsvarende verdier uttrykt som dekker det meste av data, og dermed også som overlapper lite som mulig, dvs. at datadekning sikt. I tillegg er mer like store sett er høyere scoret, dvs. at størrelsesfordelingen sikt. Ellers ett sett kan inneholde et enkelt element og det andre sett alle andre medlemmer. Siden, bør datadekning være mer enn lineært vektet i forhold til størrelsesfordelingen av settene, innførte vi et kvadratisk forhold på datadekning sikt. Den siste typen vilkår, dvs. de satt representative straffen vilkår, straffe sett representanter som er langt fra deres nabolag. De satt representative straff vilkår bør ha mindre innflytelse enn datadekning sikt, og dermed disse vilkårene er innført i bare ett av de to datadekning vilkår.
For å oppsummere den avgjørende betydningen av scoring funksjon, identifiserer vi to forskjellige nabolag, dvs. verdier av lignende uttrykk. Disse nabolag forskjellige med minst en definert absolutt ganger endring, men da den absolutte ganger endring kan være vilkårlig stort. Scoringen funksjonen evaluerer i hvilken grad disse nabolag er nyttige for å representere data, basert på data dekning ikke absolutte verdier.
Gitt de to resulterende sett og deres tilsvarende representanter som produserer den høyeste sluttresultatet, betegner vi representanten med lavere verdi som og representanten med høyere verdi som. Basert på og, to grenser og er beregnet som følger:
Bakgrunnen for dette er som følger. Grensene er definert ved den øvre grense av det nedre settet, og den nedre grense av det øvre settet; hvis settene overlapper hverandre, blir grensene slått
Til slutt, for hver klassifisering av
v
er definert ved:.
Denne klassifiseringen vil bli referert til som stat i følgende.
for selve klassifiseringen av uttrykk verdier, fold terskel og nabolag terskel bestemmes dynamisk fra en liste over forhåndsdefinerte sammenkoblede verdier, det vil si et par til i-te element i listen. Separat for hvert miRNA eller mRNA sonde, blir folden terskel og nabolag terskel som gir høyest for det spesielle sett av verdier uttrykk brukt. For denne studien, vi definert.
Filtrering og interaksjons stater.
Bare de miRNA eller mRNA sonder anses som overstiger en viss poengsum høyere enn en terskel der
t
si en vilkårlig reell verdi og kardinaliteten er antall prøver. Vurderer en enkelt prøve, blir mRNA prober som er tilordnet den samme EntrezGeneID klassifisert av maksimalt forekommende tilstand. På en uavgjort, preferanser for klassifiseringen er lav (L), høy (H) og deretter medium (M). Før interaksjoner blir klassifisert, blir mRNA og miRNA prober filtrert ved forholdet mellom M klassifiserte prøver, hvor er den tilsvarende terskel. For en miRNA-mRNA samhandling og for hver prøve klassifisering av en interaksjon er kombinasjonen av de to statene i miRNA og mRNA i den rekkefølgen, f.eks hvis en miRNA er klassifisert som L for en bestemt prøve og mål-mRNA er klassifisert som H, da tilstanden av interaksjonen er LH. Derfor er det ni mulige tilstander for samspill:
S
= {LH, HL, LM, HM, MH, ML, HH, LL, MM}
Vi gruppe disse kombinasjonene av. deres biologiske betydning:
nedregulert statene
S
compHL
= {HL, ML, HM}; oppregulert miRNA føre hypotetisk nedregulering av mRNA.
oppregulert statene
S
compLH
= {LH, MH, LM} ;. Nedregulert miRNA føre hypotetisk oppregulering av mRNA.
udefinerbare tilstander
S
udef
= {HH, LL, MM} som ikke følger den biologiske tolkningen nevnt ovenfor.
interaksjoner med en frekvens på udefinerte tilstander høyere enn en terskel ble ekskludert fra settet av interaksjoner. Vi vil videre referere til det sett av interaksjoner som tilfredsstiller filterkriteriene som er nevnt ovenfor som settet av regulerte interaksjoner.
Gitt to forhåndsdefinerte grupper
A Hotell og
B
ble det definert at en interaksjon er ulikt regulert for
A Hotell og
B
, hvis staten med maksimal frekvens av gruppen
en
er et element av og staten med maksimal frekvens av gruppen
B
er et element av eller gjensidig. For alle datasettene i denne studien, vi satt, og.
Jaccard-Index.
For hver interaksjon, er en Jaccard-indeksen beregnet for å evaluere avtalen mellom de forhåndsdefinerte eksperimentelle grupper og forventede grupper basert på antagelsen om at en mRNA nedregulert for en gruppe og oppregulert for den andre gruppen av en bestemt miRNA.
Derfor en partisjon beregnes hvor prøvene grupperes i tre grupper og. Hvor er det sett av prøver som har en interaksjon tilstand av enten HL, HM, eller ML, er det sett av prøver som har en interaksjon tilstand av enten LH, LM, eller MH og er den sett av prøver som staten er enten HH, MM, eller LL.
Jaccard-indeksen er så likheten mellom de to partisjoner og og forutsetter en verdi mellom 0 og 1 [64], [65]. Figur 1 oppsummerer trinnene som ble utført for å identifisere differensielt regulerte interaksjoner i denne studien.
Input data er avbildet med oransje rektangler. Utgangsdata er indikert med røde rektangler. Ellipsen refererer til et sett med anslåtte interaksjoner. Dette settet er uavhengig av inndata, men det kan endres. Operasjoner for å manipulere data er avbildet som diamanter.
Enkelt klassifiseringsmodell.
For å vurdere anvendeligheten av vår rangering av Jaccard-indekser, basert på settet av utvalgte forskjellig regulerte interaksjoner en enkel klassifisering modellen er bygget som forutsier den første gruppen av et ensemble av prøver, f.eks kreftprøver fra et kollektiv av kreft og ikke-kreftprøver.
En slik modell inneholder et sett av tilstander for hver interaksjon
i
av settet av utvalgte interaksjoner
I
der eller. I tillegg er et sett av udefinerte tilstander definert. For hver prøve, er summen av interaksjoner klassifisert som den første gruppen gitt av for alle interaksjoner
i
der staten av utvalget. refererer til summen av interaksjoner som er klassifisert som den andre gruppe, dvs. alle interaksjoner
i
hvor tilstanden til prøven og. Med andre ord for en prøve, øke vi om tilstanden til prøven indikerer en regulering i den samme retning som definert i modellen for spesifikk interaksjon, øke vi om tilstanden til prøven svarer til den motsatte regulering og ingenting blir inkrementert hvis tilstanden til prøven svarer til en udefinert tilstand interaksjon. Klassifiseringen av prøven blir så definert av maksimum og.
En modell er generert fra de høyest rangerte interaksjoner innenfor en terskelverdi for Jaccard-indeksen for en interaksjon eller ved et definert antall randomiserte interaksjoner innenfor en rekke Jaccard-indekser. Statene er definert i henhold til staten med høyest frekvens for den første gruppen.
bootstrapping analyse.
De normaliserte uttrykk verdiene ble tilfeldig delt inn i opplæring og testsett hvor hvert treningssett inneholder halv av prøvene i hver gruppe uten erstatning. Dersom antall prøver var merkelig for en gruppe, ble treninger sett tildelt én prøve mer enn testsett for denne gruppen. Når det gjelder blærekreft datasettet, for den kollektive av alle prøver, hver trening og hver testsett inneholder åtte sampler fra enten gruppe av invasive og ikke-invasive blærekreftprøver og fire prøver normalt vev. For kollektiv av blærekreft prøver, hver trening og hver test sett inneholder fire blærekreft prøver og fire ikke-invasiv blærekreft prøver. For de to kollektivene, ble 100 forskjellige datasett med trening og testsett generert av tilfeldig dele prøvene under de begrensninger som er nevnt ovenfor. miRNA-mRNA interaksjoner ble beregnet og klassifisert separat for hver trening og hver testsett. For hver av de 100 datasettene en modell beregnet på grunnlag av treningssettet, og påført på tilsvarende testsettet. Mean særegenheter, følsomhet og falske positiver priser ble beregnet i løpet av alle 100 datasett.
På samme måte som blærekreft datasett, et tykktarmskreft og prostatakreft svulst datasett som inneholder paret miRNA /mRNA micro array uttrykk data ble brukt å anslå særegenheter og følsomhet. Kolon vevsprøver og prøver prostatavevet ble tatt ut fra datasettet leveres av Lu et al. [57] og behandlet som to separate datasettene. I mer detalj, omfatter det tykktarm tumor datasettet fire friske prøver og syv tumorprøver. Prostata svulst Datasettet inneholder seks friske og seks tumorprøver. For både tykktarmskreft og prostatakreft tumordatasettet separat, 50 randomiserte treningssett og testsett ble samlet, da bety spesifisiteter og sensitiviteter ble beregnet på samme måte som nevnt ovenfor.
I tillegg til kreftvevet prøven kollektiv av blærekreft datasett, ble hele prosedyren utføres med en avvikende fjernet og det samme avvikende re-tildelt den forventede gruppen i henhold til resultatene av vår undersøkelse.
Tippe Analyse av Mikromatriser for R
for å sammenligne resultatene fra våre classifiers til en annen metode, Prediction Analyse av Mikromatriser for R (pamr) [58], ble utført med de samme opplæring og testsett som nevnt ovenfor. Pamr består av en k nærmeste krympet Tyngdepunktet klassifikator. En terskelverdi er brukt til å definere forlenge av krymping for en modell, dvs. et lavere terskelverdi vil generere en større modell og en høyere terskel mindre modell. Pamr ble brukt på hvert sett av log-normalisert miRNA og mRNA uttrykk data separat. Først fant vi ut en rekke terskler separat for miRNA og mRNA-data for hvert datasett ved å bruke «pamr.plotcv «for noen tilfeller av treningssett. Neste, vi brukte dette området av terskler for å iterere over alle randomiserte opplæring sett tilsvarer en miRNA eller mRNA av et datasett, beregnet modellene og klassifisert tilsvarende testsett. «Pamr.adaptthresh «ble brukt til å skalere modellen før klassifisere tilsvarende test sett. Bortsett terskel standard parametere ble brukt for alle funksjoner i pamr.
Mean særegenheter og sensitiviteter ble beregnet på samme måte som nevnt ovenfor.
Korrelasjonskoeffisienter
For hver av tre forsøksgrupper, dvs. blærekreft prøver, ikke-invasiv blærekreft prøver og prøver normalt vev, Spearman korrelasjonskoeffisienter, ρ, ble beregnet mellom miRNA og mRNA uttrykk. Loggen-normalisert uttrykk verdiene ble brukt som inngangsdata. Par av miRNA-mRNA ble definert ved det samme settet med vekselvirkninger, som nevnt ovenfor. Ekspresjonselementene verdiene ble behandlet separat for hver av de tre eksperimentelle grupper. Spearman korrelasjonskoeffisienter ble beregnet for hvert par av miRNA-mRNA interaksjoner for hver gruppe.
Behandling av blærekreftdatasettet
Vi søkte vår tilnærming til to ulike kollektiver, et kollektiv av alle prøvene (8 ikke-invasive- og 8 invasive tumorprøver samt 8 kontrollpersoner) og en kollektiv av tumorprøver med ulike kreft stadier (8 non-invasiv og 8 invasive prøver) uten friske personer. For begge kollektiver, bare mirnas og mRNA uttrykk verdier ble bearbeidet vises i minst 20% av de benyttede prøver en «tilstede samtale», indikert av microarray normalisering programvare Genespring GX. Deretter søkte vi vår tilnærming til å identifisere ulikt regulert interaksjoner. I et steg videre, valgte vi bare interaksjoner som viser en negativ korrelasjon, dvs. ρ≤-0,4, mellom normalis miRNA og mRNA uttrykk verdier for minst en eksperimentgruppe. For kollektiv av kreft vevsprøver disse gruppene er blærekreft prøver og ikke-invasiv blærekreft prøver. For kollektiv av alle prøvene gruppene omfatter både blærekreftutvalgsgrupper og gruppen av normale vevsprøver, dvs. tre forskjellige grupper.
Clustering
Basert på samspillet sier en rektor komponent og clustering analysen ble utført. For dette formålet ble interaksjons statene byttet inn reelle verdier som nevnt i tabell 1. En avstand matrise ble beregnet ut fra byen blokk avstand som en beregning. Etterpå ble hierarkisk clustering utført ved hjelp av Ward metode som et avstandsmål [66]. Hovedkomponentene i det fjerne matrise ble beregnet hvor avstanden matrise ble behandlet som et sett av
NN
dimensjonale vektorer [67].
Funksjonell merknad clustering
gener som er involvert i forskjellig regulerte interaksjoner mellom miRNA og mRNA ble analysert ved hjelp av databasen for merknader, visualisering og integrert funn (DAVID) [15] med standard klassifisering ente parametere.
Analyse av blærekreft datasett bruker Magia2 og Talasso
for komparativ analyse, søkte vi ytterligere fire tilnærminger for å analysere de to kollektivene av blærekreft prøver, den kollektive av sunne og tumorprøver og kollektiv av invasive og ikke-invasive tumor vevsprøver. Den Talasso webserveren ble brukt til å identifisere miRNA-mRNA interaksjoner med Talasso metode og GenMiR ++ algoritme [55]. Unionen mellom Tarbase ble miRecoreds 2010 og krysset av miRandaXL, PicTar 4-veis og Targetscan (miRGen) valgt som sett av mulige miRNA-mRNA interaksjoner.
I tillegg Spearman korrelasjon og en metaanalyse tilnærming ved hjelp den Magia2 webserveren ble anvendt for å analysere datasettene [46]. For analyse med Magia2 ble skjæringspunktet mellom spådommer fra TargetScan og microRNA.org (Miranda) definert som sett av mulige interaksjoner. Når det gjelder analyse ved hjelp av Spearman korrelasjon, er det bare interaksjoner anses som utstillings en negativ korrelasjon, dvs. ρ. 0
For alle tilnærminger og begge kollektiver, bare mirnas og mRNA uttrykk verdier ble bearbeidet vises i minst 20% av de benyttede prøver en «tilstede samtale», indikert av microarray normalisering programvare Genespring GX. Log-normalisert uttrykk verdier ble anvendt for analyse, som nevnt ovenfor.