PLoS ONE: Yin Yang Gene Expression Ratio Signatur for Lung Cancer Prognoser

Abstract

Mange studier har etablert genekspresjon-baserte prognostiske signaturer for lungekreft. Alle disse signaturene ble bygget fra trening datasett ved å lære korrelasjonen av genuttrykk med pasientenes overlevelse. De krever at alle nye prøvedata skal være normalisert til treningsdata, til slutt resulterer i vanligste problemene med lav reproduserbarhet og upraktisk. For å overvinne disse problemene foreslår en ny signatur modell som ikke involverer data trening. Vi hypotese at ubalansen mellom to motstridende effekter i lungekreftceller, representert ved Yin og Yang gener bestemmer pasientens prognose. Vi valgte yin og yang gener ved å sammenligne uttrykk data fra normale lunge og kreft vev lunge prøver å bruke begge uten tilsyn clustering og veier analyser. Vi beregnet Yin og Yang genuttrykk gjennomsnittsratio (YMR) som pasient risiko score. Trettien Yin og trettito Yang gener ble identifisert og valgt for signaturen utvikling. I normale lungevev, er det YMR mindre enn 1,0; i lungekreft tilfeller er YMR større enn 1,0. Den YMR ble testet for lungekreft prognose prediksjon i fire uavhengige datasett og det betydelig stratifiserte pasienter i høy- og lav-risiko overlevelsesgrupper (p = 0,02, HR = 2,72; p = 0,01, HR = 2,70, p = 0,007, HR = 2,73; p = 0,005, HR = 2,63). Den viste også prediksjon av kjemoterapi utfall for stadium II III. I multivariat analyse, den YMR risikofaktor var mer vellykket til å forutsi kliniske resultater enn andre vanlig anvendte kliniske faktorer, med unntak av tumorstadium. Den YMR kan måles i en individuell pasient i klinikken uavhengig av genekspresjon plattform. Denne studien ga en roman innsikt i biologien til lungekreft og belyse den kliniske anvendbarhet

Citation. Xu W, Banerji S, Davie JR, Kassie F, Yee D, Kratzke R (2013) Yin Yang Gene Expression Ratio Signatur for lungekreft prognose. PLoS ONE 8 (7): e68742. doi: 10,1371 /journal.pone.0068742

Redaktør: Tone Frost Bathen, Norsk teknisk-naturvitenskapelige universitet (NTNU), Norge

mottatt: 15 januar 2013; Godkjent: 03.06.2013; Publisert: 17.07.2013

Copyright: © 2013 Xu et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Forfatterne har ingen støtte eller finansiering for å rapportere

konkurrerende interesser:.. forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

Lungekreft er den ledende årsak til kreft-relaterte dødsfall i Nord-Amerika. Mens det har vært en nedgang i lungekreftdødsfall blant menn skyldes en reduksjon i tobakksbruk i løpet av de siste 50 årene, fortsatt står det for 29% av alle mannlige kreftdødsfall i 2010 [1]. 5-års total overlevelsesrate for lungekreft er så lav som 16% og har ikke vesentlig forbedret i løpet av de siste 30 årene [1]. Ikke-småcellet lungekreft (NSCLC) er den vanligste diagnosen lungekreft sto for 85% av årlige tilfeller. Omtrent 25% til 30% av NSCLC stede med tidlig stadium I sykdom og mottar kirurgiske inngrep. Men mer enn 20% av disse pasientene får tilbakefall innen fem år [2]. Adjuvant behandling har bedret overlevelse av en undergruppe av pasienter med stadium II og III sykdom. Imidlertid er det ikke kjent hvilke pasienter er mer sannsynlig å falle tilbake og vil ha mer nytte av flere behandlingsformer.

For å forbedre kliniske utfall, har forskerne investert mye arbeid i å identifisere lungekreft biomarkører som tillater leger å gjøre en tidlig diagnose , forutsi sykdomsforløp, og effekten av behandlingen. Genome-wide uttrykk profilering ved hjelp av microarray teknikker har identifisert mulige gen signaturer for å klassifisere pasienter i ulike overlevelse utfallet kohorter [3] – [17]. Tidligere rapporterte modeller ble bygget ved å lære korrelasjonskoeffisientene mellom genuttrykk og pasientenes overlevelse fra trening datasett og de krever at nye test datasett bli normalisert til treningsdataene. Følgelig er det disse signaturene har lav reproduserbarhet og er upraktisk i en klinikk setting. Det er lite som tyder på at noen av de rapporterte genekspresjonssignaturer er klar for klinisk anvendelse [18].

For å løse disse problemene, har vi utviklet en empirisk modell som ikke er basert på kunnskap om pasientenes overlevelse for fastsettelse av kreft biomarkør lunge signatur. Genregulering er en kompleks flerdimensjonal prosess som omfatter et spektrum av gener som enten aktivert eller undertrykkes, og hvis ekspresjon er enten kontinuerlig eller midlertidig. Vi hypotese at prognosen er bestemt av to motstridende grupper av gener som vi kaller Yin og Yang. I lungecancerceller, er den normale genekspresjon dysregulerte resulterer i cellulær proliferasjon og differensiering redusert. Kraften i Yin Yang teori er at det forenkler komplekse multi-dimensjonale aspekter av genuttrykk i to motstridende dimensjoner – Yin og Yang, og hvor balansen mellom Yin og Yang sikrer en sunn status for cellene. Tidligere publiserte studier har vist til de motstridende funksjonene til kjente kreftdempere og teinene som yin og yang i tumorigenesis [19] – [21]. Vi hypotese at i stedet for en individuell genet, to funksjonelt ubalanserte grupper av gener (Yin og Yang) i lungekreftceller avgjøre skjebnen til tumorceller, som i siste instans avgjør pasientens overlevelse. Nøyaktig identifikasjon av Yin og Yang gener i kreftutvikling kan brukes til å utvikle en prognostisk signatur.

Materialer og Metoder

Lung Cancer Patient eksempeldata

Vi har fokusert vår studie på adenokarsinom som det er en mer vanlig lungekreft og genekspresjonen data assosiert med klinisk informasjon er lettere tilgjengelig. Eksempeldataene fra Bhattacharjee

et al

. har blitt beskrevet tidligere [22]. Den består av 203 lungekreftpasientprøver inkludert 139 adenokarsinomer, 20 lunge karsinoider, 21 plateepitelkarsinom, 6 små-celle lunge kreft, og 17 prøver fra nærliggende områder med normal lungevevet. Blant de 139 adenokarsinomer, ble 125 pasientprøver i forbindelse med klinisk oppfølging informasjon om overlevelse og gjentakelse. Eksempeldataene fra Bild

et al

. inneholder 58 primære adenokarsinomer innsamlet gjennom Duke Lung Cancer Prognostic Laboratory [23]. Disse prøvene ble assosiert med 1-6 års pasientenes oppfølging. The National Cancer Institute direktør utfordring Consortium (DCC) for Molecular Klassifisering av Lung adenokarsinom prøvene består av 442 adenokarsinomer med pasientenes klinisk informasjon [13]. Disse prøvene ble samlet inn og behandlet i 4 uavhengige institusjoner: Canada /Dana-Farber Cancer Institute (CAN /DF), University of Michigan Cancer Center (UM), HL Moffitt kreftsenter (HLM), og Memorial Sloan-Kettering Cancer Center (MSK ). Stages I, ble II og III adenokarsinomer samlet, med ca 60% av prøvene fra stadium I svulster. Ingen av pasientene fikk preoperativ kjemoterapi eller stråling og minst 2 års oppfølging informasjon var tilgjengelig. 288 lunge adenokarsinom (LUAD) prøver fra Kreft Genome Atlas (TCGA) Prosjekt har omfattende klinisk informasjon. Unntatt fra datasettet var 20 pasienter som overlevelsestiden ikke er tilgjengelig og ni levende pasienter med oppfølgingstid mindre enn 2 dager.

Gene Expression data

genuttrykket av Bhattacharjee prøvene ble oppdaget av Affymetrix HU_U95Av2 Genechip. Den rå hybridisering intensitet datafiler (CEL) ble lastet ned fra https://www.broadinstitute.org/mpr/lung/. Genuttrykket indeksene ble behandlet med MAS5.0 algoritmen ved å bruke den ekspresjonistiske raffinerikapasitet modul (GeneData, Inc, San Francisco, CA, USA). Ingen ytterligere normalisering ble gjort i løpet av hvert datasett for å holde det enkelte prøve uavhengig i genet biomarkør deteksjon. Bortsett fra i clustering analyse for forskjellig uttrykt genet identifikasjoner, ble det Robust Multi-matrise Average (RMA) avledet og normaliserte uttrykk målinger beregnes fra rå CEL filer. Genet ekspresjon av Bild prøvene ble påvist ved Affymetrix HU_U133plus2 Genechip og signalintensiteten ble beregnet ved MAS5.0 algoritme. Datasettet ble lastet ned fra NCBI GEO database (GSE3141). DCC rå HG_U133A CEL filene ble lastet ned fra NCI caArray database (https://array.nci.nih.gov/caarray/project/details.action?project.id=182) [13]. MAS5.0 algoritme ble anvendt for genekspresjon summe. Ingen normalisering eller prefiltering ble brukt til prøver eller gener. De 259 RNA-seq data ble lastet ned fra TCGA Portal (https://tcga-data.nci.nih.gov/tcga/tcgaDownload.jsp). Genuttrykket RKPM (leser per kilobase per million kartlagt leser) verdien ble hentet fra eksempelfiler.

Signatur Gener Identifisering og utvelgelse

Uttrykket indeksene ble oppsummert av RMA algoritme og videre normalisert ved itemwise Z-normalisering ved hjelp Genedata Analyst modul (GeneData, Inc, San Francisco, CA, USA). 2-D hierarkisk euklidsk L2 avstand clustering med komplett kobling omgivelser for både gener og prøver ble utført for å utforske de forskjellig uttrykt biomarkør gener i lungesvulster. Uregulert og downregulated gener i kreftvevet ble valgt ut fra 2D clustering. Gener som ble uttrykt høyere i normal lunge vev enn i lungekreftceller ble kalt «Yang» gen-kandidater omvendt gener uttrykkes høyere i lungekreftceller enn normalt lungevev ble kalt «Yin» genet kandidater. Disse to genet listene ble matet inn IPA9.0 (Ingenuity® Systems, www.ingenuity.com) for samhandling nettverk og sti analyse. Nettverkene er bygget ved direkte interaksjoner. Nettverkene med betydelige score ble valgt ut for videre analyse.

Gene Signatur Klassifiserings Development

Uttrykket verdiene av de valgte Yin gener og Yang gener ble hentet fra publiserte microarray expression data. I utgangspunktet Yin (Y) og Yang (y) ekspresjon aritmetiske middelforholdet (YMR) ble beregnet som en signatur klassifiserings for hver prøve (YMR =). Siden 31 Yin gener og 32 Yang gener ble identifisert som probe sett fra HG-U95A Genechip, brukte vi disse granskings sett til å trekke ut de Yin og Yang genuttrykk verdier av Bhattacharjeès prøver. Hvis du vil trekke Yin og Yang gener fra forskjellige plattformer, brukte vi disse 63 probe sett og /eller deres genet symboler for å matche probe sett av andre plattformer. Vi først så på de beste kamp probe sett som deler høy sekvensidentitet og representerer de samme genene. De beste kamp probe sett filer kan lastes ned fra Affymetrix (https://www.affymetrix.com). Hvis de beste kamp sonde sett ikke kan bli funnet i en bestemt plattform, brukte vi yin og yang genet symboler. Ett Yin eller Yang genet symbol kan inneholde en enkelt sonde sett (enkelt kamp) eller flere probe sett. For flere ID innenfor det samme genet symbol, ble en gjennomsnittlig verdi som brukes. I HG-133plus2 av Bild datasett, har 62 gener er beregnet for gjennomsnitts uttrykk verdier fra flere probe sett siden bare én beste matchet sonde satt til HG-U95A 39651_at (RECQL4 genet). I HG-133A plattform av DCC datasett, 22 Yin gener «ble uttrykket stammer fra 22 beste matchet probe sett, 3 gener matche enkelt sonde sett og 6 gener» uttrykk var i snitt uttrykk for flere probe sett; 29 Yang gener «uttrykk var fra best matchet probe sett, og 2 gener fra flere probe sett. Pasienten risikoscore ble avledet fra YMR verdier. Ved hjelp av en YMR cutoff-verdier, delt vi pasientene inn i høy- og lav-risiko prognostiske grupper. Etter en 2-gangers forskjell er ofte valgt som en vilkårlig verdi i en to-gruppe sammenligning vi har definert en to-ganger i løpet av Yin Yang som en cutoff og deretter justeres det på grunnlag av normal prøve bety YMR eller kreft prøven bety YMR. Dersom den normale lunge prøven YMR er betydelig mindre enn 1,0 (for eksempel, TCGA RNAseq data), vil YMR cutoff justeres til å være lavere enn 2,0. Hvis normal utvalgsgjennomsnitt YMR er ikke tilgjengelig for et bestemt datasett (for eksempel DCC og Bild datasett), justerte vi en grenseverdi som er nær gjennomsnittet YMR av lungekreftdatasettet siden mange studier bruker gjennomsnittlig risikoscore å stratifisere pasienter. Uttrykket verdien av et gen kan måles fra en enkelt sonde sett i en plattform, men multiple probe setter i annen plattform. Denne forskjellen i uttrykket måling kan resultere i forskjellige YMR cutoff-verdier i ulike plattformer. Vi forventer det samme grenseverdi YMR for samme plattform. Det er verdt å merke seg at disse store skala uttrykk plattformer som opprinnelig ble utformet for forskningsformål, ikke for klinisk bruk. Den vilkår YMR cutoff verdier bestemt fra disse ulike plattformene brukes kun for YMR signaturvalidering. I fremtiden vil vi optimalisere en enkelt grenseverdi for resultatene YMR fra en klinisk relevant plattform som qPCR.

Vi sammenlignet også det aritmetiske YMR med geometrisk gjennomsnitt av Yin og Yang Ratio (gYMR). For å teste optimal genet størrelse, observerte vi effekten av å slippe gener fra 31 Yin og 32 Yang genet listen på assosiasjon med klinisk utfall. Vi har også vurdert betydningen av YMR signatur ved å sammenligne YMR til forholdet mellom tilfeldig plukket grupper av identiske gruppestørrelse.

Statistical Analysis

For å evaluere ytelsen til YMR signatur, brukte vi hver YMR som dikotome eller kontinuerlig kovariat i en Cox-modell, med 5-6 års total overlevelse eller tilbakefall fritt som utfallet variabel [13], [24] – [26]. Den estimerte risikoforhold, 95% konfidensintervall og p-verdien som er tillatt oss å direkte sammenligne forestillinger av YMR kovariat med andre kliniske variabler. Kaplan-Meier produkt-limit metoder og log-rank tester ble brukt for å estimere og teste forskjeller i sannsynligheten for overlevelse mellom lav- og høy-risiko pasientgrupper. Den overlevende funksjonen ble plottet for hver undergruppe. Alle statistiske analyser ble utført ved hjelp av Partek® programvare, versjon 6.3 (Partek Inc., St. Louis, MO, USA) eller R statistikk pakke Survcomp [27].

Validering

For å bekrefte at YMR er mindre enn 1,0 i normalt lungevev og større enn 1,0 i lunge cancer vevsprøver, målte vi YMR i nye uavhengige datasett. Disse datasettene ble behandlet av ulike plattformer, inkludert Affymetrix Genechip HG-U95, HG-133A, HG-133plus2, Illumina beadChip, og to-kanals array. De YMRS ble beregnet ut fra disse datasettene enten med eller uten data normalisering basert på de opprinnelige datakildene

For å validere YMR signatur for lungekreft prognose, fire uavhengige datasett ble brukt. 125 Bhattacharjee adenokarsinomer prøve datasett av HG_U95Av2 plattform som overlevelsestiden ikke ble brukt i modellbygging, adenokarsinomer 58 Bild eksempel data fra HG-133Plus2 plattform, 442 DCC eksempelfiler av HG-133A-plattformen, og 259 TCGA prøver av RNA-seq plattform. Dette er veldefinerte pasientprøver med klinisk informasjon. For analysene i denne studien, overlevelse eller tilbakefall frie resultater ble sammenlignet i henhold til høy risiko YMR (dvs. YMR er større enn 2,0 eller en justert cutoff) og lav-risiko YMR (YMR er mindre enn eller lik 2,0 eller en justert cutoff ) pasienter. Den YMR stillingen lagdeling i de samme trinn, og i respons på behandlingen ble testet i de følgende grupper av DCC pasienter, henholdsvis: fase I; stadium II III; mottatt kjemoterapi; ingen kjemoterapi; kjemoterapi på scenen jeg; kjemoterapi på scenen II III; ingen kjemoterapi på scenen jeg; ingen kjemoterapi på scenen II III.

Resultater

Identifikasjon av søker Lung Cancer biomarkør Gener

Vi sammenlignet normal lunge prøver med lungekreft prøver fra pasienter med blandet tumor etapper med forskjellige overlevelses ganger til identifisere og velge gener grupper for undertegning utvikling. Bruke unsupervised clustering analyse av microarray data fra Bhattacharjee

et al

. [22] undersøkte vi differensial genuttrykk i 17 normale lunge vevsprøver og 83 prøver fra en rekke lunge krefttyper. I 2D clustering, valgte vi en region hvor genene nedregulert i normale prøver, men oppregulert i nesten alle typer lungekreft (figur S1 A). Det område hvor gener ble oppregulert i en eller noen få typer kreft ble ikke valgt. Vi identifiserte 74 probe sett i denne regionen (figur S1B, Tabell S1). Vi identifiserte også en region hvor gener ble oppregulert i normale prøver, men nedregulert i nesten alle typer lungekreft (figur S2A). Det område hvor genene ble nedregulert i ett eller noen krefttyper ikke ble valgt. Vi identifiserte 108 probe sett i denne regionen (figur S2B, Tabell S2, figur 1A).

A. Clustering av genet identifikasjon. Sonden sett er i rader og er prøvene i kolonnene. Uttrykket indeksene alle 12,625 probe sett av de 100 prøvene ble oppsummert av RMA algoritme og videre normalisert ved itemwise Z-normalisering. 74 oppregulert gener (nedre halvdel rader) og 108 (øverst halv rader) ned regulerte gener i kreft vev ble valgt fra 2D clustering regioner. De forhåndsvalgte 74 og 108 probsets ble vist av clustering igjen. B. Yin (nederst) og Yang (øverst) gener utvalg av funksjonell analyse. De to sirklene representerer de to kjernene av funksjonelle effekter av Yin og Yang. Genene markert med samme farge er i samme samspillet nettverk.

Ved å sammenligne genekspresjon mellom ulike celletyper av lungekreft til de normale lungeceller, felles Yin og Yang gener mellom de ulike kreftformer kunne bli identifisert. Gene gruppering, i stedet for gruppen statistikk test, ikke bare registrerer uttrykk mønstre, men viser også noen grad av genet interaksjoner i det samme mønster. I motsetning til differensial genekspresjon som følge av to-gruppe statistiske tester, genuttrykksmønster som følge av opphopning har større toleranse overfor variasjoner på grunn av prøvetaking og databehandling. Individuelle gener kan ikke tilstede i differensial genet liste på grunn av store variasjoner som finnes i noen få prøver, men de samme genene kan vise en tilsvarende samlet uttrykk mønster i klyngeanalyse.

Yin Yang gener viste liten overlapp med tidligere rapportert lungekreft prognostiske signatur gener. Imidlertid ble mange Yin gener som presenteres her, finnes i tidligere studier som relaterer lungekreft eller annen vevstype kreftutvikling som GRIN2D [28], GAST [29], AMH [30], TCF3 [31], EXOSC2 [32], GRM1 [33], CDT1 [34], RecQL4 [35], CSTF2 [36], FCGR2B [37], RNASEH2A [38], CDC6 [39], CACYBP [40], BIRC5 [41], CDC25 [42], NRAS [43], EN2 [44], og MIF [45]. Selv om

n-ras

proto-onkogen er i genet listen Yin, fant vi ikke andre onkogener som er involvert i lunge tumorigenesis. Dette kan være på grunn av endring av ulike onkogener i ulike undergrupper av lungekrefttilfellene. Men spekulerer vi at progresjon gener kan spille viktigere rolle enn gener som er involvert i initiering eller markedsføring stadium av lunge tumorigenesis ved fastsettelse av lungekreft prognose.

Pathway og samhandling nettverk analyser av disse 74 genene lov å velge to hoved nettverk som er knyttet til tumor morfologi (tabell S3, nettverk betydelig verdi på 42) og DNA-replikasjon (tabell S4, nettverk betydelig score på 30). Disse nettverkene delta i de kanoniske molekylære mekanismer for kreft pathway (Figur 1B, Figur S3). Disse nettverkene inneholde 31 gener som har genet symbol navn matchet Affymetrix U95 AV2 probe sett identifikatorer. Vi valgte disse 31 gener som Yin gen kandidater (tabell 1). De 108 downregulated genene utgjorde to hovednettverk knyttet til vedlikehold (nettverk betydelig score på 63) og cellulær utvikling (nettverks betydelig score på 23) prosesser. RAR-aktivering veien og den leverstelcelleaktivering pathway (figur S4) aktiveres av Yang gener utøve en rekke virkninger på vev homeostase, celleproliferasjon, differensiering og apoptose. Det er dokumentert at lungevev havner Leverstel-lignende celler som er vitamin-A-lagring lungeceller [46] – [47]. Vi hentet fokus gener fra de nettverkene som er involvert celle vedlikehold og cellulær utviklingsprosessen som resulterer i to gen grupper. Disse to grupper (Tabell S5, S6) ble slått sammen, noe som resulterer i 32 unike gener totalt. Vi definerte disse 32 gener som Yang genet kandidater til signatur utvikling (tabell 2).

Gene Signatur for lungekreft

Å bygge signaturen modellen vi beregnet den YMR til pasienten risiko score. Den YMR representerer en enkel kombinasjon eller interaksjonseffekt av Yin gener og Yang gener. Forholdet indikerer Yin og Yang balanse status i lungeceller eller hvilken gruppe av gener er mer aktive enn andre, og omfanget av denne forskjellen. I normale lungeceller, er det Yang større enn Yin. Kreft fenotyper har høyere YMR score så er assosiert med høyere risiko sykdom. Vi først bekreftet vår hypotese at YMR er mindre enn 1,0 i normalt lungevev og større enn 1,0 i lungekreft vev. Vi brukte flere uavhengige utvalg datasett med ulike plattformer og ulike preprocesses (Tabell S7). YMRS var mindre enn 1,0 i alle normale lunge datasett [48] – [52] (figur 2). Vi målte også YMRS av 12 forskjellige normale menneskelige typer vev i ett datasett [52] (tabell S8). De YMRS var mindre enn 1,0 i normal lunge, så vel som i andre normale vev så som hjerte, milt, skjelettmuskel, og prostata, men større enn 1,0 i andre vev så som lever. Dette resultatet tyder på at Yin og Yang genuttrykk profiler er vevstype bestemt. I de 83 prøver av ulike lungekrefttyper som Yin og Yang gener ble identifisert via differensial genekspresjonsanalyser, alle prøvene hadde en YMR større enn 1,0. De YMRS er større enn 1,0 i andre uavhengige lungekreft prøvedatasettene er også vist i figur 2.

Microarray genekspresjon datasett fra forskjellige rapporter med forskjellige plattformer ble anvendt. Datasettene ble beskrevet som i tabell S7.

YMR Signatur Spår Survival Outcomes

Vi har evaluert YMR for prognose av fire datasett der pasienten klinisk informasjon var tilgjengelig. Vi første validert YMR modell for risiko resultatet av datasettet Bhattacharjee [22] fra hvilken modellen ble bygget. Siden pasientens overlevelse eller tilbakefall frie tids informasjonen ikke ble anvendt i modelleringen, dette datasett derfor fungerer som en uavhengig datasettet. Vi først testet YMR som en kontinuerlig variabel ved hjelp proporsjonal risikomodell og beviste at den økte YMR er forbundet med dårligere resultater innen seks år tilbakefall rente (p = 0,044, HR = 1,96) (Tabell S9). Vi undersøkte YMR som en dikotom variabel for å stratifisere pasienter som høy og lav risikogruppene. Ettersom de normale lungeprøver fra samme datasettet viser en midlere YMR på 0,91 og 125 adenokarsinomer ha en midlere YMR av 2,23, vi har definert en YMR cutoff på 2,0. Vi gruppert 125 adenokarsinomer pasienter i høy risiko (YMR 2,0, n = 65) og lav risiko (YMR = 2,0, n = 60) grupper. Som vist i figur 3A, er YMR betydelig stratifisert i stor grad av tilbakefall og lav tilbakefallsrisikogrupper (p = 0,013, HR = 2,7). Tidligere studier har rapportert en signifikant p-verdi for sine gen-signatur. Dette er å forvente som disse signaturer ble utviklet av pasientens overlevelse tid, og deretter brukes om igjen for å forutsi overlevelsestid. Som senere vist, er problemet med disse metodene er deres lave reproduserbarhet for nye uavhengige datasett. Som kontrast er det YMR tilnærming ikke er trenet til et bestemt datasett, og vil bli antatt å fungere for alle datasett. Vi plukket tilfeldig 500 par av grupper av identiske gruppe størrelser av Yin og Yang gener fra 12,625 gener fra HU-95av2 plattform og brukt samme forholdet cutoff som YMR 2.0. De 500 p-verdier har en gjennomsnittlig p-verdi på 0,75 (sd = 0,32) (fig S5). Vi fant at fire p-verdier fra disse stikkprøver er svært lav (0, 0, 0, 1 E-18, henholdsvis), men deres HRS er 1.0 eller nær 1,0 dermed disse gruppene kan ikke stratify risikogruppene.

A. Fritt regelmessighet funksjon kurven (lav risiko n = 60; høy risiko n = 65) av adenokarsinomer pasienter fra Bhattacharjee

et al

. B. Total overlevelse tid funksjon kurven av adenokarsinomer pasientene (lav risiko n = 27; høy risiko n = 31) fra Bild

et al

. C. Pasientprøver (lav risiko n = 248; høyrisiko n = 194) av DCC prosjektet. D. RNA-seq prøver (lav risiko n = 121; høyrisiko n = 137) fra TCGA. Lave YMR score (i grønt) tilsvarer den høyeste spådd overlevelse sannsynlighet og høye YMR score (i rødt) tilsvarer den største spådd risiko.

Vi evaluerte deretter YMR for en stor uavhengig DCC datasett . Disse datasettene ble samlet inn og behandlet fra fire ulike institusjoner. De inneholdt patologiske data og klinisk informasjon som beskriver alvorlighetsgraden av sykdommen ved kirurgi og det kliniske forløpet av sykdommen etter prøvetaking [13]. Vi gruppert disse 442 pasienter ved YMR inn høy risiko (YMR 1,8, n = 194) og lav risiko (YMR = 1,8, n = 248) personer siden den gjennomsnittlige YMR er 1.85. Som vist i figur 3C og i tabell S9, overlevelse resultatene av disse to gruppene var signifikant forskjellige (p = 0,005, HR = 2,63). Tilsvarende brukte vi YMR cutoff på 1,4 for Bild datasett siden gjennomsnittet YMR av de 58 adenokarsinomer er 1.6. Den YMR betydelig stratifisert (p = 0,019, HR = 2,72) Denne uavhengige datasett til høy (YMR 1,4, n = 31) og lav (YMR = 1,4, n = 27) risikogruppene (figur 3b). Vi beregnet YMR forhold med RNA-seq data for 259 TCGA prøver. De kontinuerlige YMR score forbinder med overlevelse signifikant (p-verdi 0,007, HR 1,87) (Tabell S9). Den dichotomous YMR signatur betydelig stratifisert høy- (n = 137) og med lav risiko (n = 121) gruppene (p = 0,007, HR = 2,73) (Figur 3D og tabell S9).

Vi beregnet geometrisk gjennomsnitt av Yin og Yang genuttrykk ratio (gYMR) og testet tilknytningen med dårlig resultat både som en kontinuerlig variabel og en dikotom variabel. Som det fremgår av tabell S10, ikke kontinuerlig gYMR ikke fungere for Bhattacharjee data og Bild data, og dichotomous gYMR ikke fungerer for Bhattacharjee data heller. Den aritmetiske YMR er robust i fire datasett. Den kontinuerlige YMR ikke vise sin assosiasjon med klinisk utfall i Bild datasett av HG-133plus2 plattform (p = 0,49). Dette er på grunn av den lille datastørrelsen være følsomme for pasient uteliggere eller unntak. Etter at vi fjernet pasient GSM70223 hvis YMR er 6,35, p-verdien av kontinuerlig YMR falt til 0,08. Etter at vi ytterligere fjernet pasient GSM70159 hvis YMR er 2,87, men overlevde i 73 måneder, p-verdien falt til et betydelig nivå av 0,0199. Vi har ikke tilstrekkelige data til å bidra til å forklare hvorfor dette unntaket har en høy YMR men en lang overlevelse. Men disse uteliggere eller unntak ikke påvirke dichotomous YMR (cutoff 1,4) som vesentlig stratifiserer pasientenes risiko i dette datasettet (p = 0,02, HR = 2,72) (Tabell S9)

Bruke DCC. datasett, testet vi effekten av å slippe gener fra Yin og Yang genet liste (Figur S6). Slippe en Yin-gen (217871_s_at, gen MIF) betydelig forbedret p-verdien av YMR, men dens HR reduseres samtidig (øvre panel på figur S6). Slippe en Yin gen påvirker p-verdi på gYMR men påvirket ikke HR (midtre panelet i figur S6). Slippe en Yang gen en tid ikke påvirke p-verdi på både YMR og gYMR (data ikke vist), og heller ikke HR av YMR og gYMR (nederst panel av figur S6). Sammenlignet med YMR, er gYMR mer motstandsdyktig mot drop-off effekt eller økt risiko forening etter noen gener ble droppet. Slippe tre Yin gener (HIST1H4J, CDC25A, og IGFBP5) gir best ytelse av gYMR for DCC data (Middle panel av figur S6). Med unntak av de Bhattacharjee data ved hjelp av dikotom YMR, gjorde det samme genet slippe ikke forbedre ytelsen til enten YMR (tabell S11) eller gYMR i tre andre datasett (Tabell S12). Disse resultatene indikerer at Yin Yang og genet listen kan bli ytterligere optimalisert til mindre størrelse ved å fjerne en til tre gener. Imidlertid er denne optimaliseringen begrenses av overlevelsestiden av datasettet testet, i likhet med begrensningene av data opplæring tilnærming. Vi forventer at rundt 30 Yin og 30 Yang gener ville sikre en representasjon av hele Yin og Yang effekter av kreftceller og et konsistent ytelse for ulike datasett. Mindre genet lister kan holde samme eller bedre ytelse for ett datasett, men kan ikke fungere godt for andre datasett.

Sammenligning av YMR med tidligere rapporterte signaturer

Vi har sammenlignet flere aspekter av YMR med de av tidligere rapporterte signaturer. Som oppsummert i tabell 3, er YMR avansert i reproduserbarhet og praktisk. Vi sammenlignet også prognostisk ytelsen YMR modell til en nylig rapportert 15-genet signatur [17]. Denne signaturen ble hevdet bedre enn mange andre tidligere rapporterte lungekreft prognostiske signaturer ved å teste en samme datasett med alle andre signaturer. Vi brukte samme DCC datasett og adenokarsinom data Bild [23] fra en annen plattform (U133plus2) for denne sammenligningen. Som vist i fig S7A, den 15-genet signatur stratifisert betydelig DCC prøver (p = 0,011, HR = 2,68), men ikke for de Bild prøvene (figur S7b, p = 0,6). Men YMR stratifisert ikke bare DCC prøvene i høy risiko og lav risikogruppene mer betydelig (figur S7C, p = p = 0,005, HR = 2,63) enn den 15-genet signatur, men også (figur S7D, p = 0,019, HR = 2,72) separerte Bild prøvene inn i høy- og lav-risikogrupper at 15-genet signatur kunne ikke. Vi gjorde ikke sammenligne de to andre datasett (NLCI, Agilent 44k, JBR 10, RT-qPCR) som ble brukt i Zhu

m.fl.

studie [17] fordi disse to plattformene ikke inneholder nok YMR signatur gener . Vi fant 15-genet signatur fungerer best for plateepitelkreft lungekarsinom blant alle fem datasett, men YMR fungerte ikke for disse dataene (data ikke vist), sannsynligvis på grunn av forskjellen i tumorbiologi mellom plateepitelkarsinom lungekarsinom og adenokarsinom.

Analyse av YMR og kliniske kovariater

Vi har evaluert YMR med klinikken kovariater i lungekreft prognose.

Legg att eit svar