Abstract
I det siste tiåret, optimalisert behandling for ikke-småcellet lungekreft hadde ført til bedre prognose, men total overlevelse er fortsatt svært kort. For ytterligere å forstå den molekylære basis for sykdommen har vi å identifisere biomarkører knyttet til overlevelse. Her presenterer vi utviklingen av et nettbasert verktøy egnet for sanntids meta-analyse av publiserte lungekreft microarray datasett for å identifisere biomarkører knyttet til overlevelse. Vi søkte de caBIG, GEO og TCGA repositories å identifisere prøver med publiserte genuttrykk data og overlevelse informasjon. Univariat og multivariat Cox regresjonsanalyse, Kaplan-Meier overlevelses tomt med hazard ratio og logrank P-verdi er beregnet og plottet i R. kan nås fullstendig analyse verktøy online på: www.kmplot.com/lung. Til sammen 1715 prøver av ti uavhengige datasett ble integrert i systemet. Som en demonstrasjon, vi brukte verktøy for å validere 21 tidligere publiserte overlevelses forbundet biomarkører. Av disse overlevelse ble beste spådd av CDK1 (p 1E-16), CD24 (p 1E-16) og CADM1 (p = 7E-12) i adenokarsinomer og ved CCNE1 (p = 2.3E-09) og VEGF ( p = 3.3E-10) hos alle pasienter med NSCLC. Andre gener signifikant korrelert til overlevelse inkludere RAD51, CDKN2A, OPN, EZH2, ANXA3, ADAM28 og ERCC1. I sammendraget, etablerte vi en integrert database og et nettbasert verktøy som kan uni- og multivariate analyser for
i silico
validering av nye biomarkører kandidater i ikke-småcellet lungekreft
Citation. Győrffy B, Surowiak P, Budczies J, Lánczky A (2013) Online Survival Analysis Software til Vurdere prognostisk verdi av Biomarkører Bruke Transcriptomic data i ikke-småcellet lungekreft. PLoS ONE 8 (12): e82241. doi: 10,1371 /journal.pone.0082241
Redaktør: Srikumar P. Chellappan, H. Lee Moffitt Cancer Center Research Institute, USA
mottatt: 27 juli 2013; Godkjent: 22 oktober 2013; Publisert: 18.12.2013
Copyright: © 2013 Győrffy et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres
Finansiering:. Forfatterne arbeidet ble støttet av den OTKA PD 83154 stipend, ved Tippe-prosjektet (gi nr. 259 303 av EU Health.2010.2.4.1.-8 call) og ved KTIA U_BONUS_12-1-2013-0003 tilskuddet. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet
Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer
Innledning
Selv om lungekreft behandling har bedret seg betraktelig i det siste tiåret som fører til bedre overlevelse for pasienter med alle faser av sykdommen, er det fortsatt ledende kreftrelaterte dødsfall i USA med 160 tusen dødsfall hvert år [1 ]. Med omtrent 85% av alle tilfeller den vanligste typen lungekreft er ikke-småcellet lungekreft (NSCLC), som omfatter adenokarsinom, plateepitelkarsinom, stor celle karsinom, og bronchioloalveolar carcinoma [2]. I likhet med andre kreft enheter kan vi forvente nye molekylære subtyper å dukke opp i fremtiden, som det er nå vel akseptert at lysmikroskopi basert histologisk underavdeling bruker bare ett av mange fenotypiske manifestasjoner av de genetiske endringene som ligger til grunn for lungekreft utvikling [2].
identifisering av gener som endret uttrykk er assosiert med overlevelse forskjellene kan legge kunnskap til å finne de som kan tjene som indikatorer på svulsten biologiske tilstand. I hovedsak er det to mulige scenarier for dette: for biomarkør kan enten være et enkelt gen eller en signatur som omfatter et sett av gener. Mens mange individuelle gener assosiert med overlevelse har blitt publisert i løpet av de siste tretti årene har nye microarray-baserte multigen molekylære prognostiske modeller ved hjelp av genomisk signaturer bare dukket opp i de siste ti årene [3], [4], [5], [6] , [7], [8], [9], [10], [11], [12], [13], [14], [15], [16], [17], [18], [ ,,,0],19]. En forutsetning for reproduserbarheten av slike genomiske signaturer er tilgjengeligheten av rådata, som bare ble sikret av publikasjoner i de siste seks årene [9], [10], [11], [12], [13], [ ,,,0],14], [15], [16], [17], [18]. Bemerkelsesverdig, i to tilfeller ikke signatur som en helhet, men gener som hver individuelt viktige prognostiske markører er identifisert [15], [19].
Den første oppdagelsen av en prognostisk markør må etterfølges av flere validering studier. Deretter blir resultatene av disse vanligvis syntetisert i en meta-analyse, inkludert et stort antall fortrinnsvis mer enn tusen pasienter. Her, ved å forene relevante data fra flere studier, er statistisk styrke økt og mer nøyaktige beregninger kan oppnås. Flere tidligere meta-analyser forsøkt å utføre en slik meta-analyse av tidligere studier for ensomme genet kandidater inkludert VEGF [20], MMP9 [21], cyclin E [22], Survivin [23] og CDK1 [24].
Her integrert vi tilgjengelige genom-nivå transcriptomic datasett og deretter brukt denne databasen til å utføre en meta-analyse av tidligere antydet overlevelse assosiert biomarkør-kandidater. Vi har også satt opp en global portal for slike meta-analyse som muliggjør uttrykkelig godkjenning av nye kandidater uten store bioinformatiske innsats i en automatisert rammeverk.
Materialer og metoder
Bygging av lungekreft microarray database
Vi har utforsket Kreft Biomedisinsk informatikk Grid (caBIG, https://cabig.cancer.gov/, microarray prøvene er publisert i caArray prosjektet), Gene Expression Omnibus (GEO, http: //www. ncbi.nlm.nih.gov/geo/) og kreft~~POS=TRUNC Genome Atlas (TCGA, https://cancergenome.nih.gov) for å identifisere lungekreft datasett ved hjelp av søkeord «lunge», «kreft», «small-cell» , «NSCLC», «overlevelse», «GPL96», «GPL3921» og «GPL570» (og de alternative navnene på de microarray plattformer). Søket ble begrenset til publikasjoner med samtidig tilgjengelige microarray genuttrykk data og publiserte kliniske karakteristika inkludert overlevelse. For å teste tilfeldig ble en parvis rank test utført for de innsamlede kliniske data som alder, kjønn, røyking historie, histologi, scene, klasse, suksessen med kirurgi, strålebehandling og anvendt kjemoterapi for alle pasienter i WinStat 2013. For den parvise rank test, prøvene ble først sortert i henhold til datasett. Deretter ble hver prøve ( «X») i serien, sammenlignet med alle verdier som forekommer senere i listen over alle prøvene ( «Y») – forutsatt at tilfeldigheter, sannsynligheten for X Y er 1/2. Sammenhenger mellom kliniske variabler og overlevelse ble undersøkt og Kaplan-Meier plott for disse ble plottet ved hjelp WinStat 2013. Blant de ulike microarray plattformer, Affymetrix HG-U133A (GPL96), HG-U133 Plus 2.0 (GPL570) og HG-U133A 2,0 ( GPL3921) ble inkludert, fordi disse blir jevnlig brukt og fordi disse arrays har 22,277 probe sett felles. Bruken av de samme probe sett gjør det mulig å måle det samme genet med tilsvarende nøyaktighet, relativ skala og dynamisk område.
For å unngå eventuelle skjevheter på grunn av array-feil, har vi utført en kvalitetssjekk for alle arrays. I dette bakgrunnen (mellom 19 og 218), den rå Q (mellom 0,5 og 14), prosentandelen av tilstedeværende anrop (over 30%), tilstedeværelse av bioB- /C- /D- pigger, GAPDH 3 « til 5»-forhold (under 4,3) og beta-aktin 3 «til 5»-forhold (under 18) ble undersøkt. Terskelverdiene tilsvarer den 95% -området av de matriser som tidligere beskrevet [25]. Kvalitetskontroll var ikke mulig for GSE4573 som for dette datasettet kun MAS5 normalisert data var tilgjengelig. En filtrering ble lagt inn i databasen for å utelukke potensielt forutinntatte arrays. I tillegg sammenlignet vi alle microarray filer ved hjelp av rangert uttrykk for alle gener å få øye på mikromatriser re-utgitt i ulike studier.
Oppsett av server for online overlevelse beregning
unprocessed.CEL filer ble MAS5 normalisert i R miljø (https://www.r-project.org) ved hjelp av simpleaffy biblioteket (https://bioinformatics.picr.man.ac.uk/simpleaffy/). Vi har valgt MAS5 for normalisering som det rangert blant de beste normaliserings metoder når kontrast til resultatene fra RT-PCR målinger i vår tidligere studie [26]. Videre kan MAS5 brukes til enkeltpaneler, slik at sømløse fremtidige utvidelser av databasen. For hele databasen, ble bare de vanlige sonder målt i alle tre array-plattformer beholdt (n = 22 277). Deretter ble en andre skalering normalisering utføres for å sentrere den midlere uttrykk for hver gruppe til 1000 – denne teknikken kan redusere sats effekter. Genekspresjon og kliniske data ble integrert ved hjelp av PostgreSQL, en åpen kildekode objekt-relasjonsdatabasesystem (https://www.postgresql.org/).
For å vurdere den prognostiske verdien av et gen, hver persentil (av uttrykket) mellom de nedre og øvre kvartiler ble beregnet, og de beste resultater terskelen ble anvendt som slutt cutoff i en univariat Cox regresjonsanalyse. Histologi, klasse, scene, kjønn og røyking historie kan bli brukt i multivariat analyse. Men bruker multivariat analyse færre pasienter som univariat analyse fordi ikke hver pasientene har all klinisk informasjon. Kaplan-Meier overlevelse plott og hasardratio med 95% konfidensintervall og logrank P-verdi ble beregnet og plottet i R ved hjelp av «survplot» funksjon «survival» Bioconductor pakken. R script som brukes av programvaren for å utføre Kaplan-Meier analyse og for å identifisere de beste cutoff er tilgjengelig som R script S1.
Hele beregnings veien er gjort tilgjengelig for re-analyse i et plattformuavhengig online tilgjengelig programvare som kjører på en Debian Linux (https://www.debian.org) server drevet av Apache (https://www.apache.org). De skript på serversiden ble utviklet i PHP, disse kontrollere brukergrensesnittet, forespørsler og levering av resultatene. Den RODBC pakken inneholder en mellomvare lag mellom R og PostgreSQL database. Denne plattformen kan nås over Internett via https://www.kmplot.com/lung.
Validering av tidligere utgitt overlevelse assosiert biomarkører
En Pubmed søk ble utført for å identifisere lungekreft overlevelse tilknyttede biomarkører med alle kombinasjoner av søkeordene «lungekreft», «NSCLC», «adenokarsinom», «plateepitelkarsinom», «survival», «genuttrykk», «signatur» og «metaanalyse». Bare studier publisert på engelsk ble inkludert. Kriteriene også inkludert etterforskningen av biomarkør i minst 50 pasienter – biomarkører som er beskrevet i eksperimentelle modeller ble utelatt. For hvert gen /signatur eksakte forholdene der det ble identifisert er hentet frem, og disse har blitt brukt som filtrering ved valg pasientene for overlevelse analyse.
For å visualisere resultatene av de ulike biomarkører i datasett inkludert forskjellig antall pasienter, har vi generert trakt plott som viser hasardratio (og konfidensintervall) på den horisontale aksen vs. utvalgsstørrelsen på den vertikale aksen for hvert datasett. Vi har også lagt et alternativ til webgrensesnittet å samtidig utføre analysen i hver av de enkelte datasett. Endelig signifikans ble satt til p 0,01
Resultater
Anleggs av kombinert lungekreft microarray database
Vi identifiserte til sammen 1,715 pasienter, 1,120 i sju GEO datasett, 133. pasienter i TCGA og 462 pasienter i caArray. Det var ingen prøver gjentatte ganger publisert. En prøve (GSM370984) mislyktes to parametere i kvalitetskontroll – denne matrisen ble ekskludert fra alle analysene. I tillegg, i 215 arrays en parameter var ute av 95% utvalg av alle matriser – disse matriser kan bli ekskludert fra analysene ved å velge «ekskluderer uteligger arrays» i webgrensesnittet. Total overlevelse ble publisert for 1,405 pasienter og tid til første progresjon ble publisert for 764 pasienter. Vi har samlet alder, kjønn, røyking historie, histologi, scene, klasse, suksessen med kirurgi, strålebehandling og anvendt kjemoterapi for alle pasienter – ingen av disse parametrene var signifikant i den parvise rank test indikerer tilfeldig fordeling av dataene. Et sammendrag av disse kliniske egenskaper for hvert datasett som brukes er presentert i tabell 1. overlevelse av pasientene stratifisert av subtype, kjønn, røyking historie og scene er presentert i Figur 1.
Angi -up av online overlevelsesanalyse plattform
Vi har ansatt Kaplan-Meier plott for å visualisere sammenhengen mellom genet under etterforskning og overlevelse. Før analysen ble pasientene filtrert ved hjelp av tilgjengelige kliniske parametre for å inkludere kun de pasientene der relevansen av genet er å bli vurdert. Foruten filtreringsalternativer spesifikke for kliniske parametre, gjennomførte vi en algoritme som inkluderer bruk av alle prosentiler mellom nedre og øvre kvartil for å identifisere de beste resultater cutoff.
Så vidt vi vet, er dagens utvikling den aller første system som gjør det mulig sanntid multivariat overlevelse analyse av gener i tilgjengelige transcriptomic kohorter.
Validering av tidligere publiserte NSCLC biomarkører
Vi identifiserte 21 tidligere publiserte overlevelses forbundet enkeltgener og 7 genekspresjonssignaturer (oppført i tabell S1 ). Hver av disse biomarkør kandidater ble undersøkt i en kohort som har tilsvarende kliniske karakteristika som pasientene i de opprinnelig var beskrevet. For genene målt ved flere probe sett på mikromatriser, ble de med høyest kvalitet brukt (høy kvalitet: gjennomsnitt uttrykk enn 500 eller maksimalt uttrykk over 1000, lav kvalitet: gjennomsnitt uttrykk under 100, mellom: alle andre sonder). I tilfelle det var flere av høy kvalitet sonder så det beste resultater ble brukt. Analyseresultatene er presentert i Tabell 2 og Figur 2.
Meta-analyse av disse genene og signaturer i respektive prøven kohort ga CCNE1, CDC2 og CADM1 som gir best mulige resultater enkeltgener (A-C) og underskrift av Yamauchi et al. (D). En trakt plott som viser hazard ratio (med konfidensintervall) versus prøve nummer for CDC2 og VEGF viser mer pålitelig estimering med større database størrelser (E-F).
Diskusjoner
betydningen av kreft biomarkører fremheves av suksessen av HER2-genet i brystkreft. Høy HER2 uttrykk var først en markør for dårligere overlevelse, men innføring av målrettede anti-HER2-behandling endret bildet. I dag HER2 positive pasienter har en bedre prognose enn kvinner med HER2 negativ sykdom [27]
Her , ved hjelp av en integrert database av ti tidligere publiserte transcriptomic datasett, validert vi foreningen med overlevelse for et sett av gener i ikke-småcellet lungekreft. Vanligvis ble de sterkeste assosiasjoner funnet for dem også undersøkt i en tidligere meta-analyse (VEGF, CCNE1 og CDK1). For alle disse genene høyere ekspresjon var forbundet med kortere overlevelse. Med over 5000 pasienter, meta-analyse for VEGF [20] benyttes det høyeste antall pasienter – analysen bekreftet også korrelasjonen mellom VEGF uttrykk og total overlevelse hos NSCLC pasienter ved både univariate og multivariate analyser. Betydningen av VEGF er på grunn av tilgjengeligheten av målrettede midler direkte å inhibere dets aktivering. Interessant, for en av de gener (CDK1) en tidligere meta-analyse faktisk forkastet en korrelasjon mellom genet og overlevelse [24]. I kontrast til våre resultater representerer en stor-skala uavhengig validering av genet. I enkelte gener, bare noen få var assosiert med lengre overlevelse når det viser høyere uttrykk – disse inkluderer CADM1, ANXA3, ADAM28, XIAP og XAF1. Future terapeutisk målretting av disse vil kun være mulig å bruke en annen tilnærming enn for de fleste gener der høyere uttrykk faktisk resulterer i kortere overlevelse.
Etter operasjonen, om lag to tredeler av tilbakefall for tidlig stadium sykdommen oppstår ved fjerntliggende områder . Derfor må utrydding av mikrometastaser har høy prioritet så tidlig som mulig. En tidligere meta-analyse av alle studier som undersøker kjemoterapi fordel viste en forbedring i total overlevelse [28] 5%. Dette overlevelse fordel med kjemoterapi ble også opprettholdt ved 9 års oppfølging. Av disse grunner bruk av adjuvant kjemoterapi er dagens standardbehandling for pasienter med tidlig stadium NSCLC. I vårt analysesystem har vi integrert bruk av cellegift for å aktivere validering av gener spesifikt knyttet til overlevelse i kjemoterapi behandlede pasienter.
En viktig årsaksfaktor for lungekreft er røyking som står for nesten 85% av alle saker. Lungekreft utvikling er lik andre kreftformer ved å involvere en trinnvis progresjon til en malign transformasjon drevet av den samlede virkning av genetiske endringer indusert av inhalert karsinogener [29]. På samme tid er antallet av tidligere ikke-røyker lungekreftpasienter også økende [30]. Samle ny innsikt i den underliggende mekanisme og etiologiske faktorer hos disse pasientene er nødvendig for å bedre forstå sykdommen og for å utvikle nye behandlingsstrategier [2]. I vår database hadde vi røykehistorie for 1,042 pasienter (av disse 187 aldri røyker) og meta-analyse verktøyet inkluderer også muligheten til å begrense til enten røyker på nonsmoker kohorter av pasienter. Andre filtreringsalternativene omfatter bruk av kjønn (data er tilgjengelig for 1,564 pasienter) og avholder (697 pasienter). Kombinasjoner av disse alternativene gjør for å validere biomarkører kandidater i under kohorter som har et format som ikke nås av noen av de tidligere enkeltstudier.
Tidligere innenfor styrets utfordring prosjekt for lunge adenokarsinom, kombinert bruk av klinisk og genuttrykk informasjon utføres best for å forutsi prognose [17]. Den multivariate analysen i online programvare gjør det mulig å sammenligne kliniske og molekylær variabler. Dessverre er ikke all klinisk informasjon publisert for hver pasient – dette begrenser betydelig potensial for enhver multivariat analyse inkludert både klinisk og genekspresjon variabler
Vi må også nevne noen problemer med meta-analyser som kan undergrave deres gyldighet. – disse inkluderer skjevheter knyttet til pasientens valg, til klinisk heterogenitet, til ulike utfallsmål, metodiske og statistiske teknikker [31]. Ett alternativ test for skjevheter blir plotting av prøvestørrelsen mot virkningen størrelse som dette er vanligvis forskjøvet og asymmetrisk i nærvær en skjevhet [32]. I utgangspunktet, uten en skjevhet, den største variasjonen bør observeres mest i de små studier og minst i store studier. Dette er konseptet av den opprinnelige trakt tomt som vi benyttet for å demonstrere sammenhengen mellom fare priser og utvalgsstørrelser for to utvalgte gener. Vi har lagt en analyse alternativ til vårt verktøy for å kjøre beregninger i hvert datasett separat for å muliggjøre rask bygging av slike analyser for ethvert gen.
Til slutt har vi også vurdert tidligere publiserte genekspresjonssignaturer å forutsi overlevelse. I dag er den kliniske anvendelsen av multigen signaturer fortsatt kontroversiell, så mange av dem ikke utkonkurrere prognostication med konvensjonelle parametere. Her, av syv signaturer, to var i stand til å forutsi overlevelse i stadium I [13], og i alle NSCLC pasienter [14].
I sammendraget, ved å utnytte genom-wide microarray datasett publisert i de siste fem år, har vi lykkes integrert i stor skala database egnet for
i silico
validering av biomarkører kandidater i ikke-småcellet lungekreft.
Hjelpemiddel Informasjon
Tabell S1.
Liste over gener involvert i tidligere publiserte gensettene
doi:. 10,1371 /journal.pone.0082241.s001 plakater (XLS)
R Script S1.
R script brukes til å generere Kaplan-Meier tomter
doi: 10,1371 /journal.pone.0082241.s002 product: (R)