PLoS ONE: Integrert analyse av flere Microarray datasett Identifiserer en reproduserbar Survival Predictor i Ovarian Cancer

Abstract

Bakgrunn

Offentlig data integrasjon kan bidra til å løse utfordringer i klinisk implementering av microarray profiler. Vi integrert flere ovarialcancer datasett for å identifisere en reproduserbar prediktor for overlevelse.

metodikk /hovedfunnene

Fire microarray datasett fra ulike institusjoner som utgjør 265 avansert stadium svulster ble jevnt behandles på nytt i en enkelt trening datasett, også justert for inter-laboratorium variasjon ( «batch-effekten»). Veiledet prinsipal komponent overlevelsesanalyse ble benyttet for å identifisere prognostiske modeller. Modeller ble selvstendig validert i en 61-pasient kohort bruke en tilpasset rekke Genechip og en offentlig tilgjengelig 229-matrise datasett. Molekylær korrespondanse av høy- og lav-risiko utfallet grupper mellom trening og validerings datasett ble demonstrert ved hjelp Subclass Mapping. Tidligere etablert molekylære fenotyper i 2

nd valideringssettet ble korrelert med høy og lav risiko utfallet grupper. Funksjonell representasjons og sti analyse ble brukt til å utforske genet nettverk forbundet med høy og lav risiko fenotyper. En 19-genet modellen viste optimal ytelse i treningssettet (median OS 31 og 78 måneder, p 0,01), en

st valideringssett (median OS 32 måneder versus ikke-ennå-nådd, p = 0,026) og 2

nd valideringssett (median OS 43 versus 61 måneder, p = 0,013) opprettholde uavhengig prognostisk makt i multivariat analyse. Det var sterk molekylær korrespondanse av de respektive høy- og lavrisiko svulster mellom trening og en

st valideringssettet. Lav og høy risiko svulster ble beriket for gunstige og ugunstige molekylære subtyper og stier, tidligere definert i offentlig 2

nd valideringssettet.

Konklusjon /Betydning

Integrering av tidligere genererte kreft microarray datasett kan føre til robuste og allment gjeldende overlevelse prediktorer. Disse prediktorer er ikke bare en samling av prognostiske gener, men ser ut til å spore sanne molekylære fenotyper av goodwill og dårlig utfall

Citation. Konstantinopoulos PA, Cannistra SA, Fountzilas H, Culhane A, Pillay K, Rueda B , et al. (2011) Integrert analyse av flere Microarray datasett Identifiserer en reproduserbar Survival Predictor i eggstokkreft. PLoS ONE 6 (3): e18202. doi: 10,1371 /journal.pone.0018202

Redaktør: Chad Creighton, Baylor College of Medicine, USA

mottatt: 17 november 2010; Godkjent: 23 februar 2011; Publisert: 29 mars 2011

Copyright: © 2011 Konstantinopoulos et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien ble støttet via NIH /NCI P50CA105009 Eggstokkreft SPORE (Career Development Award til Dimitrios Spentzos og Prosjekt 4 til Daniel Cramer /Stephen Cannistra), Clinical Investigation Training Program, Beth Israel Deaconess Medical Center og Harvard-MIT Seksjon for helsefag og teknologi, Boston, til Panagiotis Konstantinopoulos, den Bernice Shopkin Weisman fondet, Ovarian Cancer Research Fund til minne om Amy Sachs Simon, LeAnn fond, og søstrene Against eggstokkreft. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser:.. Forfatterne har erklært at ingen konkurrerende interesser eksisterer

Innledning

ovarialcancer (EOC) presenterer et eksempel på lover og utfordringer ved bruk av microarray analyse for prognostisk biomarkør forskning. På grunnlag av sin svært heterogen kliniske forløpet [1], [2], [3] (selv innenfor avansert EOC, som utgjør over 70% av tilfellene) og den beskjedne diskriminerende effekt av konvensjonelle prognostiske faktorer (mengden av resterende sykdom etter innledende kirurgi, alder, tumor karakter, og histologisk subtype [1], [4], [5]), mikroarray studier ble fulgt i et forsøk på å gjøre rede for molekyl og biologiske kompleksiteten av sykdommen [6], [7], [8] , [9], [10]. Imidlertid har ingen produsert en genekspresjon signatur som har vært passende for klinisk bruk. Dette skyldes i stor grad, blant andre grunner, variabel eller liten prøve størrelse, mangel på tilstrekkelig validering, eller inkludering av undertyper (klar celle, mucinkjertler, papillær EOCs), som utgjør distinkte molekylære enheter [11]. Mens kollektivt disse studiene kan være tilstrekkelig til å identifisere nyttige signaturer, som kombinerer data eller analyseresultater er vanskelig av mange grunner, blant annet ved bruk av en rekke forskjellige matrise plattformer, forskjellige data normalisering og analysefremgangsmåter, og variasjonen i eksperimentelle protokoller og pasientens valg. Til slutt, i mange tilfeller er det ikke klart om prognostiske skriftene reflektere reproduserbare stabil sykdom fenotyper eller bare er en kombinasjon av prognostiske gener. Disse begrensningene, som ikke er unik for eggstokkreft, viser de utfordringene som begrenser bruk av microarray signaturer i kreftomsorg og forskning, spesielt i kreft med mer begrenset tilgang på nødvendige ressurser vev.

I et forsøk på å løse disse utfordringer, vi montert, kuratert, og behandlet en samling av 265 rå genuttrykk arrays fra fire tidligere rapporterte eggstokkreft microarray studier [10], [12], [13], [14] med konsistent data normalisering, kvalitetskontroll, og analytisk metoder. En multi-genet modellen ble identifisert i denne sammensatte sett som ble så selvstendig validert i to separate kreft kohorter, hvorav en ble profilert på en tilpasset rekke Genechip og den andre var en offentlig tilgjengelig standard oligonukleotid rekke datasett [15]. Til slutt viste vi at dette multi-genet modellen er ikke bare prognostisk av utfallet, men gjenspeiler reproduserbare ovarialcancer fenotyper og ser ut til å samtidig spore deregulering av flere biologiske eller onkogene trasé i denne sykdommen.

Resultater

Utvikling av multi-genet prognostiske classifiers i den integrerte treningssett

Figur 1 viser arbeidsflyten med vår studie (gemalinne diagram). Vi har utformet en tilpasset rekke genet chip som omfattet om lag 650 topp utfører kandidat gener identifisert ved å bruke overvåket prinsipal komponent overlevelsesanalyse i hver av de fire tidligere rapporterte datasett. Da kombinerte vi alle fire mikroarray datasett i et sammensatt treningssett (med unntak av 39 uteligger prøver), som besto av 239 tumor arrays (tabell 1, figur 1). Hierarkisk clustering i det kombinerte treningssettet avslørte at, før påføring av satsen reguleringsalgoritmen, hvert datasett klart adskilt fra alle de andre reflekterende ikke-biologisk eksperimentell variasjon ( «sats effect»), mens etter justering for batch virkning, tumorprøver fra alle datasett ble godt blandet (figur 2).

rådata (Affymetrix .CEL filer) fra fire tidligere rapporterte microarray datasett fra ulike institusjoner ble brukt. Avvikende prøver ble ekskludert og batch-effekten ble justert noe som resulterer i den endelige treningssettet (239 arrays). 650 gener ble utvalgt ved å utføre overlevelsesanalyse i hvert datasett og ble brukt til å utvikle prognostiske modeller i den endelige treningssettet. Data pre-prosessering (kvalitetskontroll og batch-justering) og normalisering resulterer i et integrert treningssettet ble utført separat fra utvalget av 650 gener, som ble valgt uavhengig av hverandre ved å utføre overlevelsesanalyse i hver av de 4 datasett (MD Anderson, Penn, DUKE , BIDMC). Disse forutvalgte 650 genene ble deretter brukt til å utvikle prognostiske modeller i den forente treningssettet. Disse modellene ble selvstendig validert i to uavhengige datasett: en 61-tumor kohort bruke en tilpasset rekke inneholder 650 forhåndsvalgte gener og en 229-tumor nylig publisert eggstokkreft microarray datasett. Den korrespondanse av lav- og høyrisiko fenotyper ble vurdert ved hjelp SubMap.

Flerdimensjonal skalering av den kombinerte treningssettet avdekket at, før påføring av batch justering algoritmen, hvert datasett klart atskilt fra alle andre ( «batch-effekten»), mens etter korrigering av batch effekt, prøver fra alle datasettene var godt er blandet.

Vi senere brukte bassenget av de 650 markørgener (uten kunnskap om deres ytelsen på den tilpassede array) for å generere multi genet prognostiske classifiers i den kombinerte treningssettet. Gener assosiert med overlevelse (p 0,05) ble rangert basert på deres absolutte Cox regresjonskoeffisienter og prognostiske modeller med topp rangering gener ble utviklet ved hjelp av overvåket prinsipal komponent overlevelsesanalyse [16]

Siden vårt mål var å. utvikle oligogene prognostiske underskrifter vi først identifiserte modellene med lavest antall gener som kan gi prognostisk informasjon i den integrerte treningssettet. Modeller med så få som to gener særpregede mellom en høy og en lav risikogruppe for å overleve i den kombinerte treningssettet (HR = 1,7, p = 0,003). Da vi evaluerte modeller med høyere antall gener i treningssettet og la merke til gradvis økt Hazard ratio (HRS) før det var et platå, med stabile, statistisk signifikante HRS mellom 14 og 19 gener (dvs. HR = 2,1-2,3, p 0,001). Av disse modellene, den 19-genet modellen viste best prognostisk ytelse som tydelig av dens høyere risikoforhold i forhold til de andre. Den beste prognostiske modellen (19 gener, tabell 2) skilte mellom en høy og en lav risikogruppe (henholdsvis 31 og 78 måneder median OS, log rank p 0,01, permutasjon p = 0,02) (figur 3)

19-genet modellen skilles mellom en høy og en lav risikogruppe i opplæringen satt med en median OS på 31 måneder og 78 måneder henholdsvis (log rank p 0,01, permutasjon p = 0,02), en høy og en lav -risk gruppe for OS i en

st valideringssett (median OS 32 måneder versus ikke-ennå-nådd henholdsvis log rank p = 0,026), og en høy og en lav risikogruppe for OS i andre valideringssett (median OS 43 måneder versus henholdsvis 61 måneder, log rank p = 0,013).

Uavhengig validering av multi-genet prognostiske classifiers

19-genet prognostisk klassifikator ble brukt uten ytterligere modifisering av en

st validering sett som inkluderte uttrykk data fra en uavhengig kohort av avansert stadium eggstokkreft (tabell 1, n = 61) ved hjelp av våre egne utvalg som inneholder 650 tidligere utvalgte gener; disse genene hadde blitt valgt uten forutgående kunnskap om deres prognostisk ytelse i valideringssettet. Den 19-genet modellen skilles mellom en høy og en lav risikogruppe (median OS 32 måneder versus ikke-ennå-nådd henholdsvis log rank p = 0,026, 33 måneder median oppfølging, figur 3). Av notatet, når vi prioritert de 19 genene basert på deres korrelasjon med de viktigste komponentene i datasettet eller vekten av deres bidrag til modellen, classifiers inkludert toppen 8-19 genene var også prognostisk gyldig i første valideringssett (Tekst S1 ).

19-genet prognostisk sortereren ble også anvendt uten noen ytterligere modifisering av andre valideringssettet som omfattet ekspresjonsdata fra 229 eggstokk-kreft (Tabell 1, n = 229). Igjen, en 19-genet modellen skilles mellom en høy og en lav risikogruppe (median OS 43 måneder versus 61 måneder henholdsvis log rank p = 0,013, figur 3). Ligner på en

st validering sett, når vi prioritert de 19 genene basert på deres korrelasjon med de viktigste komponenter eller vekten av bidrag til modellen, flere classifiers inkludert toppen 8-19 genene var også prognostisk gyldig i andre valideringssett (tekst S1).

Viktigere, prøvde vi å gjenskape den prognostiske kraft av to tidligere rapportert underskrifter, fra BIDMC og Duke datasett, henholdsvis [6], [10]. Heller ikke signatur var reproduserbar i en av de to uavhengige valideringssett (Text S1). Begrunnelsen at dette kan skyldes forskjellige analytiske algoritmer benyttet i tidligere studier, vi forsøkte å bygge nye signaturer ved hjelp av overvåket prinsipal komponent overlevelse metode separat i hver av de 4 datasett som utgjorde den integrerte treningssettet. Igjen, ingen av disse signaturene kan bli validert i en av de to uavhengige sett (Text S1). Disse observasjonene understreker verdien av å integrere flere uttrykk datasett for å utlede mye reproduserbare signaturer.

Uavhengig prognostisk betydning av sorter justert for kjente kliniske og patologiske prognostiske faktorer

Vi utførte multivariat analyse og formelt fastslått at 19-genet modell opprettholdes uavhengig prognostisk betydning justert for faktorer, i både trening og de to uavhengige valideringssett (figur 4A og tabell 3). Nærmere bestemt, Hazard Ratio (HR) i døden for den ugunstige versus den gunstige gruppen var 2.47 i treningssett (95% KI, 1,71 til 3,56; p 0,01), 2,2 i en

st valideringssett (95% CI, 1,01 til 7,76; p = 0,04), (figur 4A) og 1,59 i 2

nd valideringssettet (95% CI, 1,05 2.4, p = 0,03) (tabell 3). Fordi bare 8/229 (3%) av svulstene var definitivt kjent for å være suboptimalt debulked i 2

nd valideringssett, debulking status ble inkludert i multivariat analyse av to

nd validering angitt som «grovt synlig «versus» ingen synlig «restsykdom etter operasjonen. Særlig uavhengig prognostisk verdi av profilen holdt gjelder uavhengig av hvorvidt lav karakter ble definert som en klasse eller grad 1 og 2 sykdommer (tabell 3).

A) prognostisk verdi av 19-Genekspresjon profil justert for kjente prognostiske faktorer ved Cox regresjon i opplæringen og 1

st valideringssett. B) Kaplan-Meier-analysen for OS som en funksjon av den 19-genet profil for homogene undergrupper av pasienter med optimal og suboptimal debulking status i treningssettet. C) Kombinasjonen av optimal debulking og lav-risiko 19-genet profilen ble assosiert med en median OS av 119 måneder i treningssett og ikke-ennå-nådd i valideringssettet, mens kombinasjonen av suboptimal debulking og høy-risiko 19 -Gene profilen ble assosiert med en median OS 23 måneder i treningssettet (HR = 7,3, 95% KI 3,4 til 13,5) og 21 måneder i en

st valideringssett (HR = 5,8, 95% KI 2.1- 16).

data~~POS=TRUNC på kjemoterapi respons var bare tilgjengelig for den første valideringssettet. Når vi inkludert kjemoterapi respons (dvs. oppnåelse av fullstendig klinisk respons (CCR) etter første kjemoterapi versus ingen prestasjon av SKR) i multivariat analyse for første valideringssett, 19-genet profil opprettholdt sin uavhengig prognostisk betydning (HR = 3,96, 95% CI 1,56 til 10,1;. p = 0,004)

Figur 4B viser også at den 19-genet profil var fremdeles prognostisk av OS når de anvendes i de homogene undergrupper av pasienter med optimal og suboptimal debulking status i opplærings sett. Dette undergruppe analysen kunne ikke utføres i en

st validering sett på grunn av utvalgsstørrelsesbegrensninger, og i to

nd valideringssett fordi bare 8/229 svulster (3%), var definitivt kjent for å være suboptimalt debulked .

genuttrykk modeller og debulking status var de sterkeste uavhengige prediktorer for å overleve; derfor var vi interessert i å vurdere deres kombinerte prognostisk kraft, som også er vist i figur 4C. Spesielt, var kombinasjonen av optimal debulking og lav-risiko 19-genet profil assosiert med en median OS av 119 måneder i opplæringen satt og ikke-ennå-nådd i en

st valideringssett, mens kombinasjonen av suboptimal debulking og høy risiko 19-genet profilen ble assosiert med en median OS 23 måneder i treningssettet (HR = 7,3, 95% KI 3,4 til 13,5) og 21 måneder i en

st valideringssett (HR = 5,8, 95% CI 2,1 til 16) viser at kombinasjonen av de to variablene er mye kraftigere enn noen av dem enkeltvis. Denne kombinasjonen kan ikke vurderes i to

nd valideringssett fordi bare 3% av svulstene var definitivt kjent for å være suboptimalt debulked.

Genome-wide molekylær korrespondanse av høye og lave risikogruppene mellom trening og valideringssett

Det er ofte uklart om prognostisk genuttrykk modeller er surrogater for underliggende bredere molekylær eller biologiske fenotyper, eller rett og slett en kombinasjon av individuelle prognostiske gener. For å teste hypotesen om at våre prognostiske modeller sporer molekylære fenotyper av høy versus lav risiko eggstokkreft, brukte vi en metodikk (Underklasse Mapping-SubMap) som er unikt egnet til å vurdere genom-wide molekylær korrespondanse av pre-spesifiserte undergrupper i uavhengige og selv teknisk ulike datasett [17]. Spesielt undersøkte vi om høy eller lav risiko svulster i den kombinerte treningssett var molekylært homolog med høy eller lav risiko svulster i en

st valideringssett, utover håndfull av gener som finnes i modellene. Dette gjøres ved å demonstrere anrikning av genet profilen av «høyrisiko» (eller «lav risiko») gruppe i treningssettet for et stort antall markører gener for «høy risiko» (eller «lav risiko») gruppe i valideringssettet og vice versa. Som vist i figur 5A, for den 19-genet modell, høy og lav risiko svulster i det kombinerte treningssettet korresponderte med høy grad av statistisk sikkerhet med høy og lav risiko tumorer henholdsvis i valideringssettet (tabell S1). Dette resultatet ble gjengitt ved hjelp av ulike undergrupper av markørgener for 19-genet modell.

SubMap analyse av genom-wide korrespondanse (likheten) mellom respektive høy og lav risiko grupper i trening og en

st validering sett. Legenden viser forholdet mellom farge og FDR-justerte p-verdier. Rød farge betyr høy tillit for korrespondanse; blå farge betegner manglende samsvar (tabell S1). B) Funksjonell genet sett analyse og funksjonell representasjons analyse i høy og lav risiko sykdomsprøver. Gene sett analyse (GSA) over et vidt område av differensielt uttrykte gener viste 8 veier som var konsekvent statistisk signifikant forskjellig uttrykt. (Efron-Tibshirani GSA, p 0,05). Valgte trasé-gensettene vises som var overrepresentert blant høyrisiko og lav risiko svulster ved funksjonell representasjons analyse ved hjelp av ENKEL (innen-system FDR ≤0.01). En fullstendig liste over disse banene er funnet i tabell S2, S3 og S4. Stjerner (*) betegne trasé som tilsvarende ble uttrykt i tilsvarende prognostiske grupper i to

nd valideringssettet.

For to

nd validering datasett, gunstig (C3 og C6) og ugunstige (C1, C2, C4, C5) prognostiske molekylære undergrupper allerede hadde blitt definert av forfatterne [15]. Vi har derfor vurdert om disse tidligere definerte molekylære undergrupper ble gjengitt i lav og høyrisikogrupper som definert av vår 19-genet profil i to

nd valideringssett (figur 3). Faktisk, i de to

nd valideringssettet, var den lave risiko gruppe (som definert ved 19-genet profil) anriket for den gunstige (C3 og C6) subtyper og den høyrisikogruppen ble anriket for ugunstige subtyper, som tidligere definert [15] (2-sidig Fishers eksakte p = 0,0016).

pathway analyse i høy og lav risiko sykdomsgrupper

for å få innsikt i veien kompleksiteten av høy og lav-risiko sykdom, utførte vi sti og representasjons analyser for å identifisere kommentert trasé og funksjonelle genet grupper som ble overrepresentert (beriket) i genet profiler av de to risikokategorier i det store treningsgruppe (tilpasset array, med design, inneholdt for få gener for å utføre denne analysen i valideringssettet).

GSA pathway analyse ble utført over et bredt spekter av forskjellig uttrykt gener mellom høy og lav-risikogrupper [ved hjelp av en t-test p fra 0,01 (3264 gener ) til så lavt som 0,0001 (1698 gener)], og avslørte åtte baner (figur 5B) som var konsekvent statistisk signifikant forskjellig uttrykt (Efron-Tibshirani GSA test p. 0,05)

Vi har også utført funksjonell representasjons analyse ved hjelp av ENKEL blant gener som ble oppregulert og nedregulert i høy versus lav-risiko pasienter (ved hjelp av en t-test p 10

-6). Vi fant 22 og 54 trasé overrepresentert blant gener oppregulert og nedregulert i høyrisikosvulster henholdsvis på en innenfor-system FDR terskel på 0,01. En fullstendig liste over disse banene er funnet i tabell S2, S3 og S4, mens valgte trasé er vist i figur 5B.

Interessant, flere av disse banene (figur 5B), som ble oppregulert i svulster med høy risiko dvs. «cytokin-cytokin reseptor interaksjon», «celle kommunikasjon», «ECM-reseptor interaksjon», «patogene invasjon», «cellevekst», og lav risiko svulster dvs. «differensiering», ble også tilsvarende uttrykk i høy og lav risiko svulster som tidligere rapportert i to

nd valideringssett [15].

Prognostic genuttrykk modeller reflektere aktivering av kjente onkogene baner i enkelte tumorprøver

Gitt at GSA eller ENKEL ikke kan tildele pathway aktiveringsstatus for enkelte kreftprøver, vi anvendt tidligere utviklet genekspresjon «readouts» som følge av eksperimentelt kontrollert aktivering av spesifikke onkogene baner (src, b-catenin og E2F3) som har vist seg å bære prognostisk relevans i eggstokkreft [12]. Vi oppdaget at i 239-tumor treningssett, odds-prosenter av aktivering av src og b-catenin trasé i vår høy versus lav-risiko gruppen var 3,42 (95% KI 1,89 til 6,18) og 2,77 (95% CI 1.59- 4.8) henholdsvis, mens odds-ratio for E2F3 var 0,251 (95% KI 0,141 til 0,446). Dette er i overensstemmelse med tidligere studier som indikerer at aktivering av src og b-catenin veier er forbundet med dårlig resultat, mens aktivering av E2F3 er forbundet med godt resultat, og viser at vår analyse registrerer biologisk relevant informasjon som ikke er umiddelbart innlysende ved å undersøke innholdet av 19-genet profil. I multivariat analyse inkludert 19-genet modell og 3 onkogene trasé, den 19-genet modellen opprettholdes uavhengig prognostisk betydning, mens aktiverings mønstre av onkogene trasé ikke (data ikke vist).

Diskusjoner

Selv om egnetheten av genuttrykk profilering for forutsigelse har blitt vist i eggstokkreft [6], [8], [10], flere utfordringer må løses før det blir et klinisk nyttig verktøy. Tidligere prognostiske microarray studier ble begrenset av størrelsen på utvalget, Interlaboratory variasjon, mangel på ekstern (av studien) validering, ikke-standardiserte analytiske tilnærminger og inkludering av histologiske undergrupper med forskjellige genetiske profiler og utfallet (dvs. klar celle, og mucinkjertler kreft) [11 ]. I denne studien beskrevet vi en vellykket rørledning som også kan være nyttige for tilsvarende innsats i andre kreftformer. Vi behandles på nytt og integrert rådata fra fire separate, tidligere generert microarray datasett [10], [12], [13], [14] som stammer fra ulike laboratorier og kjøre på forskjellige plattformer, inn i en stor og homogen sett, unntatt mucinous og klart celle EOCs, og dermed maksimere vår makt for å identifisere robuste profiler samtidig minimere falske positive funn. Vi korrigerte den ikke-biologiske eksperimentell variasjon ( «batch-effekten») [18], som var helt tydelig på tvers av studier (figur 2) og komponert en avsluttende opplæringen kohort av 239 svulster. Vi har også brukt en standardisert overlevelse analysemetode som kan måle seg med andre metoder brukt på microarray data [16], [19]. Den resulterende prognostisk modellen ble validert to ganger, i to separate uavhengige sett. Dette er første gang, så vidt vi vet, at dette har vært forsøkt i denne sykdommen. Svulster som inngår i de to validerings kohortene stammer fra ulike institusjoner og ble kjørt i ulike laboratorier og tidsperioder enn svulstene som inngår i den kombinerte trening kohort. En tilpasset chip ble brukt for en

st valideringssett, og en stor offentlig tilgjengelig hel-genom datasettet ble brukt som en 2

nd valideringssett, mens trenings prøvene ble tidligere drevet på forskjellige (hel-genom) plattformer mange år tidligere. I tillegg til rigor av denne valideringsprosessen, vår bruk av offentlig tilgjengelige datasettene og på en tilpasset utforming brikke minimaliserer kostnadene for innføring av gen-profilerings teknologi for å rutinemessig klinisk praksis.

A 19-genet modell med optimal prognostisk ytelse i treningssettet diskriminert mellom en høy og en lav risikogruppe for OS i de to valideringssett, og samtidig opprettholde sin selvstendige tilknytning til overlevelse i multivariat analyse justert for kjente clinicopathologic konfunderende faktorer. Av notatet, tidligere rapportert genekspresjonssignaturer fra enkeltkomponent datasett av treningssettet [6], [10], eller nylig generert modellene bruker vår nåværende metodikk i disse datasettene, var ikke reproduserbar i noen av de to uavhengige validerings datasett. Dette tyder på at vår strategi om å integrere informasjon fra ulike og teknisk ulike datasett i et sammensatt treningssett forsterker vår evne til å fange mye reproduserbare prognostiske genuttrykksmønster. Variasjonen i Hazard Ratio estimater for 19-genet profil mellom trening og to valideringssett, reflekterer sannsynligvis forskjellene mellom de ulike kliniske kohorter, hvis egenskaper er sjelden identiske i microarray studier. For eksempel forekommer to

nd valideringssett til overveldende bestå av optimalt debulked, og dermed bedre prognose pasienter. Likevel understreker dette ytterligere gyldigheten av profilen når den brukes til et bredt spekter av eggstokkreft pasientgrupper.

genuttrykk modellene var like kraftig som debulking status, den sterkeste kjente kliniske prediktor for overlevelse i avansert EOC [4 ], og kombinasjonen av optimal debulking og lav risikoprofil definert en populasjon med en lang overlevelse platå (70% 5-års overlevelse i både trening og en

st valideringssettet). Motsatt, kombinasjonen av suboptimal debulking og høy risikoprofil definert en befolkning med bare 10% 5-års overlevelse. En slik kraftig prognostisk lagdeling i avansert EOC er ikke mulig å bruke konvensjonelle kliniske faktorer ved diagnosetidspunktet og kan være nyttig for lagdeling av høyrisikopasienter som anses for investigational tilnærminger bruk av vedlikeholds og /eller konsolidering strategier, eller lav-risiko medisinsk ustabile pasienter som kan unngå den relativt giftig intraperitoneal kjemoterapi [20].

Vår studie også sikte på å undersøke visne profilen er ikke bare en matematisk kombinasjon av 19 prognostiske variabler, men er også å spore molekylære fenotyper av høy versus lav -risk eggstokkreft. Ved hjelp av en metodikk (SubMap) som er unikt egnet til å vurdere bredere genomisk likhet med undertyper identifisert i flere, uavhengige og ulike datasett [17], fikk vi bekreftet at de lave og høyrisikogrupper tildelt av våre prognostiske modellene var molekylært homolog mellom trening og valideringssett, noe som tyder på at vi ikke har rett og slett validert en matematisk prognostisk funksjon, men også sanne molekylære fenotyper av goodwill og dårlig utfall. I andre valideringssett, hadde molekylære utfallet subtyper allerede er etablert av forfatterne [15]. Våre funn at disse molekylære undergrupper var overrepresentert (beriket) i de høye og lave risikogruppene identifisert av vår 19-genet profil, ytterligere vitner om den oppfatningen at profilen sporer sanne og reproduserbare utfallet fenotyper i EOC.

mens det var utenfor rammen av vår studie for å undersøke den presise biologiske rolle om en bestemt vei, er det verdt å merke seg at veier som ble oppregulert i høyrisikogruppen har vært innblandet i eggstokkene kreftutvikling og /eller assosiert med aggressiv sykdom og dårlig resultat [21], [22], [23]. Videre trasé som var overrepresentert blant gener overuttrykt i høyrisikosvulster vært også vært forbundet med dårligere utfall [24], [25], [26], utlån biologisk plausibilitet til fenotyper vi oppdaget. Viktigere, flere av disse banene (figur 5B) ble også tilsvarende uttrykk i de høye og lavrisiko svulster tidligere rapportert i offentlig tilgjengelig 2

nd valideringssett, viser reproduserbarhet av biologiske nettverk forbundet med gode og dårlige utfall mellom ulike datasett [15].

til slutt tok vi nytte av tidligere utviklet genuttrykk «lese outs» som følge av eksperimentelt kontrollert onkogene pathway aktivering (src, b-catenin og E2F3) for å vurdere aktiveringsstatus i enkelte tumorprøver [12], [27]. Selv om det er en pågående debatt om hvordan onkogene pathway analyse beskrevet av Bild et al. [12]. ble påført i en bestemt studie [28], den opprinnelige onkogene veien analysemetoden beskrevet av Bild et al. har ikke blitt utfordret. I samsvar med kjente tidligere data, src og b-catenin trasé ble oftere aktivert i høy-risiko sammenlignet med lav risiko svulster, mens det motsatte var tilfelle for E2F3 vei [12], [27], [29]. Romanen forening av onkogene pathway aktiveringsstatusen med en fenotype «fanget» av en markør 19-genet profil, hvorav ingen av veien gener er medlem, viser at biologisk slutning i microarray studier ikke bør begrenses til hyppig anvendt tilnærming av screening en liste over topp markørgener i en prognostisk signatur. Av notatet, disse onkogene pathways tapt uavhengig prognostisk betydning i multivariat analyse når profilen ble inkludert, noe som tyder på at vår prognostisk klassifiserer er å fange komplekse fenotyper og at utfallet forskjeller i eggstokkreft kan ikke være tilstrekkelig forklares med deregulering av en enkelt onkogen eller signalveien.

i konklusjonen, eksemplifiserer vår tilnærming hvor integreringen og disiplinert analyse av den rike informasjonsinnholdet i publiseres, men vesensforskjellig kreft microarray datasett kan overvinne tidligere begrensninger og føre til utvikling av robuste og potensielt allment gjeldende prognostiske classifiers. En tilpasset matrise kan også være et praktisk redskap i studiet og behandling av kreft.

Legg att eit svar