PLoS ONE: Generering av «virtuelle» kontrollgrupper for enkelt Arm Prostate Cancer Adjuvant Trials

Abstract

Det er vanskelig å konstruere en kontrollgruppe for studier av adjuvant behandling (Rx) av prostatakreft etter radikal prostatektomi (RP) på grunn av etiske problemstillinger og pasient aksept. Vi utnyttet 8 kurvetilpasning modeller for å beregne tiden til 60%, 65%, … 95% sjanse for progresjonsfri overlevelse (PFS) basert på data hentet fra Kattan post-RP nomogram. De 8 modellene ble systematisk brukt på en trening sett av 153 post-RP tilfeller uten adjuvans Rx å utvikle 8 undergrupper av tilfellene (referanse case sett) som observerte PFS ganger ble mest nøyaktig forutsagt av hver modell. For å forberede en virtuell kontrollgruppe for en enkelt-arm adjuvant Rx rettssak, må vi først velge den optimale modellen for prøve tilfeller basert på minimum vektet euklidske avstanden mellom rettssaken saken satt og referanse saken satt i form av kliniske funksjoner, og deretter sammenligne virtuelle PFS ganger beregnet av den optimale modell med den observerte PFSs av rettssaken tilfeller av logrank test. Metoden ble validert ved hjelp av en uavhengig datasett fra 155 post-RP pasienter uten adjuvans Rx. Vi deretter brukt metoden til pasienter på en fase II studie av adjuvant kjemoterapi-hormonell Rx post RP, som indikerte at adjuvant Rx er svært effektiv i å forlenge PFS etter RP hos pasienter med høy risiko for prostatakreft tilbakefall. Metoden kan nøyaktig generere kontrollgrupper for single-arm, post-RP adjuvant Rx studier for prostatakreft, tilrettelegger for utvikling av nye terapeutiske strategier

Citation. Jia Z, Lilly MB, Koziol JA, Chen X, Xia XQ, Wang Y, et al. (2014) Generering av «virtuelle» kontrollgrupper for enkelt Arm Prostate Cancer Adjuvant Trials. PLoS ONE 9 (1): e85010. doi: 10,1371 /journal.pone.0085010

Redaktør: Stephanie Filleur, Texas Tech University Health Sciences Center, USA

mottatt: 21 april 2013; Godkjent: 24 november 2013; Publisert: 21 januar 2014

Copyright: © 2014 Jia et al. Dette er en åpen-tilgang artikkelen distribueres under betingelsene i Creative Commons Attribution License, som tillater ubegrenset bruk, distribusjon og reproduksjon i ethvert medium, forutsatt den opprinnelige forfatteren og kilden krediteres

Finansiering:. Denne studien ble støttet av United States National Institutes of Health gir NCI UO1CA11480 og NCI UO1CA152738 til D. mercola og University of California Irvine fakultet Career Development Award og Chao Family Comprehensive Cancer Center Seed Grant til Z. Jia. M. McClelland ble støttet delvis av Award Antall P30CA062203 fra National Cancer Institute og W81XWH-08-1-0720 fra CDMRP. Finansiører hadde ingen rolle i studiedesign, datainnsamling og analyse, beslutning om å publisere, eller utarbeidelse av manuskriptet

Konkurrerende interesser. Yipeng Wang er ansatt i AltheaDx Inc., og Zhenyu Jia er en konsulent for AltheaDx Inc. Dette ikke endrer forfatternes tilslutning til alle PLoS ONE politikk på deling av data og materialer.

Innledning

prostatektomi gir god sykdomskontroll for de fleste pasienter med klinisk lokalisert prostata kreft. Men for pasienter med høy risiko for tilbakefall, tilleggs (adjuvant) behandling kan være nødvendig for å forebygge tilbakefall av sykdommen. Melde kontrollgrupper i tidlig fase utforskende studier av nye adjuvant regimer er problematisk på grunn av etiske problemstillinger og pasientaksept. Sammenligningen av nye behandlinger med historiske kontroller kan gi partisk resultater, fordi forskjeller i pasientseleksjon lett kan forvirre funnene. Det beste kontroll ville være pasientene selv om de ikke var behandlet med adjuvant terapi. Derfor kan et alternativ til samtidige eller historiske kontrollgrupper være å konstruere et «virtuelt» kontrollgruppe for et sett med pasienter ved å estimere progresjonsfri overlevelse (PFS) basert på deres post-radikal prostatektomi (post-RP) kliniske kjennetegn. De estimerte PFS for den virtuelle Kontrollgruppen vil bli sammenlignet med den observerte PFS for den behandlede gruppe ved å bruke logrank test [1], [2] for å evaluere effekten av behandlingen. Slike kontroller vil trolig bli nærmere tilpasset de forsøkspersonene enn ville et sett med historiske kontroller som bare rundet egenskapene til studiepopulasjonen. Dermed blir viktig skritt for å generere en anslått kontrollgruppe er å estimere PFS ganger basert på pasientenes post-RP kliniske kjennetegn.

Predictive nomogrammer i onkologi er grafiske fremstillinger av matematiske formler eller algoritmer som inneholder observasjoner for relevante kliniske karakteristika for å forutsi en bestemt sluttpunkt. Slike nomogrammer er vanligvis basert på tradisjonelle statistiske metoder som multivariabel logistisk eller Cox analyse [3] – [5]. Den «Kattan» nomogram opprinnelig ble presentert i 1999 [6], og ble oppdatert i 2005 [7] og 2009 [8]. Disse nomogrammer utnytte pasientspesifikke parametre for å beregne en rekke sannsynlighetene for å være progresjonsfri på ulike tidspunkter etter prostatektomi. Alle versjoner er like nøyaktige i å forutsi sjansen for post-RP PFS, med concordance indeksene mellom 0,7680 og 0,7859 [9]. Selv nomogrammer har blitt brukt til å estimere PFS sannsynlig på vilkårlige ganger [10], [6] bare gir den tilgjengelige elektroniske versjonen av Kattan post-RP nomogram PFS

sannsynlig

for hver pasient på en rekke tidspunkter, f.eks, ved år 2, 5 og 7, etter kirurgi. Disse diskrete Kattan sannsynlighetsverdier kan ikke brukes til logrank analyse; de må konverteres først til en eneste gang måling for hver pasient.

Her presenterer vi en ny metode som involverer 8 modeller for å konvertere de Kattan sannsynlighetsverdiene til estimert tidsmålinger, med hver modell representert ved en referanse sak sett som har et annet nivå av tilbakefall risiko. Prøve kohorter med høyere tilbakefall risiko krever høyere stringens modeller. Den optimale modellen er valgt for rettssaken kohorten ved forsiktig å matche 8 henvisning saken stiller til rettssaken kohort basert på pasientenes post-RP kliniske kjennetegn.

Materialer og metoder

Pasient datasett

trening og validerings datasett.

radikal prostatektomi saker for opplæring og godkjenning ble identifisert fra forfatternes praksis og forskning databanker. Disse fagene hadde ikke mottatt noen form for adjuvant eller berging terapi. Alle datasettene som brukes en PSA terskel for 0,2 ng /ml, eller den nye radiografiske utseende av lesjoner i samsvar med metastaser, for definisjon av tilbakefall. Frekvens av radiografisk og PSA overvåking var på skjønn av behandlende leger. Vi har fått godkjenning fra UC Irvine IRB. Skriftlig samtykke ble gitt av pasientene inkludert deres informasjon som normalt er lagret på sykehuset databasen som skal benyttes for forskning. Høyrisiko tilfeller utstilt en eller flere av følgende egenskaper: 1) preoperativ PSA 15 ng /ml, 2) Gleason scorer ≥8, 3) extraprostatic forlengelse, 4) invasjon av sædblærene, 5) lymfeknutemetastaser , 6) positive kirurgiske marginer, 7) vedvarende påviselig PSA ≥0.2 ng /ml mer enn 45 dager etter operasjonen. De fleste tilfellene hadde to eller flere av disse funksjonene. For hver kilde til opplærings og validerings datasett, alle saker som møtte de nødvendige definisjoner, og som hadde alle relevante data, ble utnyttet. Nødvendige data inkludert type operasjon, dato for operasjon, pre-operative PSA-nivå, alder kirurgi, prostatektomi Gleason score, sædvæske status, lymfeknute status, margin status, extraprostatic forlengelse status, en eller flere PSA verdier ≥45 dager etter kirurgisk dato, tilbakefall status, dato for tilbakefall status vurdering, og minst ett års oppfølging tid.

Vi har opprettet en trening sett av 153 prostata kreft tilfeller som består av pasienter med et bredt spekter av tilbakefallsrisiko etter radikal prostatektomi. Flertallet besto av 112 RP tilfeller på Long Beach VA Hospital (Long Beach, California) fra desember 1990 til juni 1998. For å øke andelen av middels og høy risiko tilfeller vi lagt 41 saker fra UCI SPECS register over 1220 tilfeller . Specs (Strategic Partners for Evaluation of Cancer Signatures) konsortium prosjektet ble en NIH /NCI-finansiert studie som søkte å identifisere prediktive biomarkører for tidlig tilbakefall etter prostatektomi [11] -. [15]

En valideringsdatasettet av 155 tilfeller ble bygget med 62 saker fra University of California, Irvine (UCI), 32 tilfeller fra Loma Linda University (LLUB), og 62 flere saker fra UCI SPECS registeret brukes utelukkende for validering (SPECS (2)). Ingen av disse senere specs tilfeller (SPECS (2)) hadde blitt brukt i treningsdatasettet. Fordi vi forventet bruk av vår metode med én arm adjuvant terapi studier, brukte vi bare middels og høy risiko tilfeller i valideringen satt til å etterligne sannsynlig befolkningen som vil være involvert i slike studier. Kjennetegn på trening og valideringssett kan finnes i tabell 1.

Adjuvant terapi datasett.

Mellom 2001 og 2006, 20 personer med høy risiko prostatakreft ble behandlet med åpen RP fulgt av adjuvant multimodalitet terapi (HR, MBL) [16]. Alle fag var høy risiko for tilbakefall av prostatakreft, basert på en eller flere av følgende kliniske funksjoner: pT3 eller pT4 sykdom (80%), Gleason scorer 8-10 (60%), extraprostatic forlengelse (65%), positive kirurgiske marger (55%), tumor på seminale vesikler (35%) eller lymfeknuter (75%) eller høy preoperativ PSA-nivå ( 15 ng /ml; 40%). Pasientene fikk docetaxel og estramustin terapi i henhold til diett av Petrylak, et al [17], med en median på seks sykluser, som begynner om kort tid (median 2 måneder) etter operasjonen. De fikk også samtidig androgen deprivasjon terapi (ADT) i en median på 4,3 år. Forsøkspersonene ble overvåket for tilbakefall av sykdommen ved serie måling av PSA-nivåer, så vel som ved hjelp av standard kliniske parametere. Tid til tilbakefall ble definert som tiden fra operasjonen til det første PSA-nivå på 0,2 ng /mL eller høyere etter kjemoterapi behandling komponenten. Disse pasientene er fulgt i median 7,5 år, med maksimalt 11,0 år.

Nomogram

En web-applikasjon (https://www.mskcc.org/cancer-care /voksen /prostata /prediksjon-verktøy) basert på 1999 Kattan nomogram [6] ble brukt til å beregne PFS sannsynligheter på år 2, 5 og 7 etter prostatektomi basert på kliniske variabler som alder, margin status, tumor stadium, Gleason primære poengsum , Gleason videregående score, pre-op PSA nivå, sædvæske status, lymfeknute status, og år av prostatektomi.

Statistiske metoder

for hver pasient, vi montert de diskrete Kattan PFS sannsynlighetsverdier på år 0 (antatt å være 100%), 2, 5 og 7 etter RP med en Loess kurve [18], [19] eller spline [20] (se detaljer i Supplement og Supplerende Figur S1 i File S1). Den utstyrt kurven ble brukt til å beregne tid til variable endepunkter,

dvs.

, tid til 10%, 15%, …, eller 95% sjanse for å overleve, her kalt

modell

s (modell 0,10, model.15, …, model.95). I denne studien brukte vi bare 8 modeller, alle over median risiko,

dvs.

model.60, model.65, model.70, model.75, model.80, model.85, model.90, og model.95 fordi vi er interessert i hovedsak i studier med pasienter med høy risiko for tilbakefall.

det viktigste skrittet for vår metode er valg av riktig modell for et bestemt sett av prøve tilfeller (behandlede pasienter). Vi i utgangspunktet forventet at model.50 (tid til 50% sjanse for å overleve) vil være optimalt. Men denne modellen var utilstrekkelig til å forutsi PFS, spesielt for høyere risiko case kohorter. Vi utforsket derfor flere modeller med høyere stringens. Vi identifiserte undergrupper av opplæringssaker (kalt referanse tilfellet setter) for hver av de 8 modeller, hvor de observerte PFS ganger er tettest spådd av hver enkelt modell. Prøve saker ble deretter sammenlignet med de 8 referansesett basert på likheten av kliniske egenskaper for å finne den beste modellen for å generere virtuelle kontroller for prøve tilfeller.

Bygging av referansesett.

prosessen med å konstruere 8 referansesett for de 8 modellene er vist i figur 1 (øvre del). De 153 opplæringssaker (adjuvant behandling fritt tilfeller) ble sortert fra kort PFS tid til lange PFS tid bygger på observert PFS utfall for disse pasientene. For hver modell (model.60, model.65, … model.95), begynte vi med en start undergruppe av 30 tilfeller og deretter lagt ekstra tilfeller i rekkefølge fra rangert pool av opplæringssaker, før alle 153 tilfeller hadde blitt utnyttet. Som hver ekstra saken ble lagt til, vi gjentatte ganger beregnet en PFS sammenligningsgruppen med hvert av de 8 modeller, og sammenlignet disse beregnede PFS ganger til selve PFS ganger. Avtalen mellom de observerte og beregnede PFS ganger for en undergruppe av opplærings tilfellene ble kvantitativt evaluert av Chi-kvadrat statistikk av logrank test. Hvis de beregnede PFS ganger generert av modellen avtalt med selve PFS ganger, bør de to Kaplan-Meier-kurver innkopierer. The Chi-kvadrat statistikk fra logrank test vil da være mindre enn 3,84 som betyr ap value≥0.05 i khikvadratfordeling med frihetsgrad 1. Men ifthe to Kaplan-Meier-kurver ville skille, Chi-kvadrat statistikk ville være større enn 3,84. For en hvilken som helst modell, vil en delmengde av tilfeller som forårsaket den minste Chi-kvadrat-statistikken har de optimale kliniske egenskaper for bruk sammen med denne modellen. Derfor, for hver modell, chi-square tall fra logrank analysen ble plottet mot antall tilsatt tilfeller (figur 2). Settet av saker som produserte minimum Chi-kvadrat statistikk, noe som indikerer maksimal avtale beregnede PFS ganger og observerte PFS ganger, ble valgt som «optimal» for den aktuelle modellen.

Valg av den beste modellen.

for å finne den beste modellen for behandling prøve tilfeller, en rekke kliniske variabler ble matchet ved bruk av vektet Euklidsk avstand fra de kliniske parametre, mellom studiesaker og hvert sett med referanse tilfeller (eqn . 1). Kliniske variabler vurderes i beregning av reiseavstand inkludert alder, margin status, patologisk tumorstadium, Gleason primære score, Gleason sekundær score, pre-op PSA nivå, sædvæske status, lymfeknute status. Vi har lagt større vekt på kontinuerlige variabler enn den binære variabler i avstand beregning,

ie

, 17%, 5%, 17%, 17%, 17%, 17%, 5%, 5%, henholdsvis, for disse 8 kliniske variabler. Vektet euklidsk avstand basert på 8 kliniske variabler er definert som: (1) hvor er vektet Euklidsk avstand for modell

m

, er vekten for

i

th klinisk variabel, er median verdien av

i

th klinisk variabel for behandling prøvesaker, og er medianverdien av

i

th kliniske variabler av

m

th henvisning tilfelle satt (

m

= 1, …, 8). Modellen som referanse tilfellene hadde den minste vektede euklidske avstand til forsøks tilfellene ble deretter valgt for generering av kontrollgruppen ved å estimere tidspunktet for tilbakefall (eller «virtuelle» PFS tid) for hvert av prøve tilfeller. De observerte PFS ganger for prøve sakene ble deretter sammenlignet med de estimerte PFS ganger for de samme pasientene (virtuelle kontroller) ved hjelp av logrank test, for å nå en klinisk avslutning. Prosessen er avbildet i figur 1 (nedre del).

Alle analysene ble gjennomført i statistikkprogrammet R (https://www.R-project.org/) og skrevet i R språk. En web-applikasjon for å gjennomføre den foreslåtte metoden er offentlig tilgjengelig på https://mercola.hs.uci.edu/singlearm/. Den totale observerte og spådde PFSs for de behandlede pasientene ble oppsummert i et Kaplan-Meier metoden [21]. Den logrank test [1], [2] ble brukt til å sammenligne Kaplan-Meier-kurver.

Resultater

Validering bruker uavhengige testtilfeller

For å demonstrere resultatene av metoden brukte vi en helt uavhengig validering sett 155 tilfeller (Materialer og metoder). Den optimale modell (model.75) ble identifisert for testsettet. Sammenligningen

via

logrank test indikerte at de antatte PFS ganger avtalt med de observerte PFS tider svært godt (= 0,094 og

p

verdi 0,05, figur 3).

for ytterligere å undersøke resultatene av metoden vi laget 6 mindre valideringssett fra 155 validerings pasienter. De første og andre undergrupper bestå av pasienter som hadde kirurgi i årene 2000-2004 og årene 2005-2011, respektivt. Den tredje og fjerde undergrupper består av pasienter med Gleason ballen 6-7 (3 + 4) og 7 (4 + 3) -10, respektivt. Den femte og sjette undergruppene representerer pasienter med initial PSA ≤9 og pasienter med initial PSA 9, henholdsvis. Sammenligningene mellom de observerte PFS ganger og de beregnede PFS verdier

via

logrank test for disse valideringssett er oppsummert i figur 4A-4F. De beregnede PFS ganger avtalt med de observerte PFS tider svært godt ( «s 3,84 og p-verdier 0,05)., Som viser at den prediktive metoden var robust over et spekter av kliniske kjennetegn, typer operasjoner og drift datoer

Panel A: kirurgi 2000-2004; Panel B: kirurgi 2005-2011; Panel C: Gleason scorer 6-7 (3 + 4); Panel D: Gleason score 7 (4 + 3) -10; Panel E: preoperativ PSA ≤9; Panel F:. Preoperativ PSA 9

Søknad til adjuvant fase II-studier

Vi har gjennomført en fase II studie av adjuvant kjemoterapi og ADT for fag med høy risiko for tilbakefall etter radikal prostatektomi [16]. For å avgjøre om regimet er aktiv ved å forlenge PFS, har vi brukt som en sammenligningsgruppe de forventede PFS ganger avledet fra det samlede pasient Kattan data av metodene ovenfor. Matching av åtte kliniske parametre av våre pasienter med de 8 referanse case sett viste at model.60 ville være den beste modellen for å beregne «virtuelle» PFS verdier. Ved den valgte modellen, konverterte vi Nomogram-spådd sannsynlig til estimert PFS tid for hver av 20 pasienter (PFS som om de ikke fikk adjuvant behandling), og sammenlignet den observerte PFSs med spådd PFSs av Kaplan-Meier metoden. Den observerte PFS vesentlig forskjellig fra de estimerte PFS med = 19,3 og p-verdi 0,0001 ved logrank test (figur 5A). Denne sammenligningen hadde makt på 97% for å påvise en forskjell i overlevelse gitt 10-års overlevelse i to grupper er 80% og 20% ​​(rundet fra Kaplan-Meier-kurver i figur 5), henholdsvis. Kraften beregningen i ulike scenarier basert på den forenklede Rubenstein sin formel [22], [23] er gitt i Supplemental tabell S1 i File S1, noe som indikerer at vår analyse hadde tilstrekkelig styrke til å påvise disharmoni mellom den beregnede PFSs og den observerte PFSs.

Panel A: Sammenligning av forventet og observert PFS for en adjuvant behandling serie (n = 20) som fikk postoperativ kjemoterapi-hormonbehandling. Panel B: Kaplan-Meier analyse av PFS for adjuvant terapi pasienter (n = 20) og matchede historiske kontroller (n = 20) fra treningssettet

Som en ekstra bekreftelse på at dette adjuvant behandling diett. er aktiv, vi sammenlignet den observerte PFS med historiske kontroller – et sett med 20 klinisk-matchet saker som ble valgt manuelt fra de 153 trenings tilfeller (se tabell 1). Ingen av disse komparatorer fikk adjuvant behandling. Men PFS for vår behandlet kontrollgruppe var betydelig bedre enn det som ble sett for de historiske, klinisk-matchet fag fra matchet gruppe (figur 5B). Samlet disse dataene viser at den virtuelle kontrollgruppen metoden identifiserer adjuvant behandling regimer som er i stand til å forbedre en betydelig endepunkt, PFS.

Diskusjoner

Det er avgjørende å konstruere en kontrollgruppe for å vurdere effekten av en adjuvant post-prostatektomi terapi når melde kontrollgrupper blir upraktisk. Sammenligninger med

historiske

kontroller kan gi avvikende resultater på grunn av prøvetaking skjevhet. Derfor ville den beste kontrollen være pasientene selv om de ikke ble behandlet med adjuvant behandling. Nomogrammer har blitt brukt til å konstruere en kontroll arm basert på pasientenes historiske data å forholde seg til én arm (behandling arm only) forsøk. For eksempel, Gulley et al. brukte halabi nomogram [24] for å beregne den midlere overlevelsestid for hver enkelt pasient, og deretter sammenlignes den beregnede overlevelsen til den observerte overlevelse (etter behandling overlevelse) med logrank test [1], [2]. Den Halabi nomogram ble avledet fra pasienter med metastatisk kastrering resistent prostatakreft, og derfor er upassende for post-RP adjuvant terapi studier. Post-prostatektomi nomogrammer er også blitt anvendt til å generere sammenlignings grupper for adjuvant terapi forsøk. Kibel et al. utført en fase II studie av adjuvant docetaxel i risikopasienter høye [25]. For å sammenligne med den observerte PFS, brukte de en modifisert versjon av Kattan nomogram [6] til å forutsi utviklingen i hver enkelt pasient, og deretter gjennomsnitt sannsynlighetene ved hvert progresjon gang over pasientene [25]. Lignende strategi ble brukt i vurderingen av effekt og sikkerhet av Pertuzumab i en prostata kreft rettssak fase II [10]. Denne metoden gjelder når nomogram estimering av PFS er tilgjengelig på vilkårlige tider. Likevel, den elektroniske versjonen av Kattan post-RP nomogram [6] bare gir PFS

sannsynlig

for hver pasient 3 tidspunkter, dvs. år 2, 5 og 7. Dermed er nye tilnærminger for å utvide anvendelsen av elektroniske versjonen av Kattan post-RP nomogram til single-arm studier. Modellbaserte metoder har blitt foreslått for enkelt-arm fase II-studie data [26]; imidlertid har denne tilnærmingen blitt anvendt kun i den situasjon hvor ett tidspunkt vurderes, for eksempel, prediksjon av to-års overlevelse sannsynlighet.

Vårt første forventet at model.50 (tid til 50% sjanse for gjentakelse) ville være den optimale modell for de fleste prøve tilfeller. Uventet, model.50 ytelse var suboptimal,

dvs.

De beregnede PFS ganger var betydelig lengre enn de observerte PFS ganger, noe som indikerer at model.50 (eller median PFS) kan overvurdere PFS for pasienter med høy risiko. Vi har derfor studert effekten av kliniske funksjoner på ytelsen til 8 ekstra modeller (model.60, model.65, model.70, model.75, model.80, model.85, model.90, model.95). I denne studien har vi utviklet en ny metode basert på Kattan er nomogram [6] og som tillot nøyaktig beregning av den anslåtte PFS ganger for forsøk med ulike pasient komposisjoner.

Når vi konstruert referansesett for 8 modeller, vi hadde merket seg at den optimale modell for å konstruere en kontrollgruppe varieres basert på kliniske karakteristika for de tilfeller brukes. Model.60, model.65, model.70 og model.75 dannet en klasse av modeller (klasse 1) som er utstyrt med moderat risiko pasienter. I motsetning model.80, model.85, model.90 og model.95 dannet en annen klasse av modeller (klasse 2) som fungerte bedre for høyrisikopasienter. Dette fenomenet resulterer sannsynligvis fra vekting av variabler som brukes i nomogrammet beregningsalgoritme. For utviklingen av referanse saker for de modellene av disse to klassene, benyttet vi ulike utgangspunkt undergrupper. For modellene i klasse 1, startet vi med de første 30 (long-PFS) tilfeller i treningssettet, og deretter lagt tilfeller etter hverandre i en lang-til-kort PFS progresjon før alle 153 tilfeller hadde blitt utnyttet. For modeller i klasse 2, startet vi med de siste 30 (korte PFS) tilfeller i treningssettet, og deretter lagt tilfeller sekvensielt i en kort-til-lang PFS risiko progresjon før alle 153 tilfeller hadde blitt utnyttet. Ordningene for valg av start undergruppe skyldes den begrensede størrelsen på treningssettet. Hvis vi valgt 30 lang PFS tilfeller som start undergruppe for modellene i klasse 2, ville kurven av Chi-kvadrat statistikk øke uten å nå et lavmål (minimum Chi-kvadrat statistikk). Tilsvarende, hvis vi valgt ut de siste 30 tilfeller (korte PFS tilfeller) som starter undergruppe for modellene i klasse 1, ville det ikke være en nadir for kurven av Chi-kvadrat statistikk. Figur 2 viser populasjonen av Chi-kvadrat statistikk sammenlignet med det antall tilfeller anvendes, for hver av de 8 modeller. Merk at når vi sekvensielt undersøkt model.60, model.65, model.70, og model.75 (figur 2A-2D) vi måtte legge inn flere og mer kort PFS saker til første sett av 30 lang PFS tilfeller . Progresjonen fortsatte for de neste fire modeller, selv om vi her startet med 30 kort-PFS tilfeller (Figur 2E-2 H). For model.80 måtte vi legge til et stort antall lange-PFS tilfeller å minimere Chi-kvadrat statistikk. Men for model.95 vi lagt svært få tilfeller med disse først og fremst å være short-PFS pasienter. Merk at det kan være flere bassenger av tilfeller med egenskaper som kan analyseres godt av en bestemt modell. Disse kan være representert grafisk ved bred peker nedover topper (i stedet for pigger) av Chi-kvadrat statistikk, eller av flere diskrete nadirs. I alle våre eksempler, men det var en diskret «best» pasientpopulasjon (referanse sett) for en bestemt modell.

I løpet av utviklingen referanse sett av saker for 8 modeller, vi utnyttet den klassiske logrank test [1], [2] til å sammenligne den observerte PFS og «virtuelle» PFS estimert av ulike modeller. Den logrank testen er mye brukt i kliniske forsøk for å etablere effekten av en ny behandling sammenlignet med en kontrollgruppe behandling når målingen er på tide å hendelse, for eksempel tid til biologisk tilbakefall hos pasienter med prostatakreft. Hvis sensurerte observasjoner ikke er tilstede i data, så vil Wilcoxon rank sum test [27] bør brukes i stedet. The Chi-kvadrat statistikk med frihetsgrad 1 og tilhørende

p

verdi lett kan beregnes for Logrank test. Chi-kvadrat statistikk større enn 3,84 (

p

verdi 0,05) tyder på at det er betydelig avvik mellom den observerte PFS og den beregnede PFS; tvert imot, Chi-kvadrat statistikk mindre enn 3,84 (P-verdi 0,05) er til fordel for null-hypotesen som antyder avtale mellom den observerte PFS og den beregnede PFS. Den Logrank test kan ikke bare erstattes av samstemmighet index [28] eller mottaker opererer karakteristiske (ROC) kurve-baserte metoder [29] fordi disse metodene ikke er riktig å sammenligne to grupper av tidsmåling overlevelsesdata som involverer å sensurere. Disse alternative statistikken er mer egnet til situasjoner der en risiko prediktiv modell er etablert og prediksjon nøyaktighet må vurderes.

De sammenligninger mellom predikerte og observerte PFSs i opplæring og valideringssett som brukes pasientdatabaser som stammer fra flere kirurger bruke både åpne og laparoskopiske operasjoner, over en 21-års periode, ved flere institusjoner, med variable oppfølging mønstre. Til tross for disse variablene, har vår metode fungert godt å nøyaktig beregne PFS i en stor validering sak serien samt undergrupper av tilfellene valgt basert på år med kirurgi, Gleason score og innledende Ptil. Men fordommer kan være problematisk med mindre serier, som trolig vil være normen for pilot adjuvant behandling prøvelser. Iboende forskjeller i type operasjon eller dyktighet eller kirurgen kan føre til skjeve resultater. Den historiske versjonen av Kattan nomogram [6] benyttet data i hovedsak stammer fra åpne prostatektomi tilfeller, mens laparoskopisk tilfeller er mer vanlig nå. Videre er det kjent at Kattan nomogram kan undervurdere tilbakefall risiko i enkelte populasjoner [9], potensielt utfordrende oppdraget modell i studien. I tillegg felles bruk av en PSA terskel ≥0.2 ng /ml for definisjon av post-prostatektomi tilbakefall kan synes å gi et dårligere PFS enn kan bli spådd av en algoritme basert på Kattan nomogram, som brukte en PSA terskel på 0,4 ng /ml eller mer for å definere tilbakefall. Disse teoretiske bekymringer kan overvinnes ved hjelp av referansesett som er utviklet fra trening sett betydelig større størrelse og kompleksitet enn benyttet i denne rapporten. Vi for tiden engasjert i disse studiene.

Ulike datasettene har varierende tidspunktet for kirurgi. For eksempel Ahlering robot tilfeller (UCI) var 2002-2009, Long Beach, VA tilfellene var 1990-1998, Loma Linda University (LLUB) adjuvant kjemoterapi /hormoner tilfellene var 2001-2006, LLUB robot tilfeller (Ruckle) var 2007-2010, Specs tilfellene var 2000-2010. Faktisk, årsmodell prostectomy er en viktig variabel da den står for endringer i diagnostiske og terapeutiske teknikker over tid. Gitt nok prøver, kan en undergruppe prøver basert på år med kirurgi (kategorisk variabel), og tog referanse sett innenfor hver undergruppe. På denne måten, vil effekten av tidspunktet for prostectomy være godt ivaretatt. Men på grunn av den begrensede størrelse av trenings prøver i denne studien, har vi ikke ha nok kraft til å identifisere effekten av tidspunktet for kirurgi. Likevel gjorde vi teste ytelsen til dagens modell på pasientprøver som ble operert under forskjellige tidsrammer, dvs. en 2000-2004 og 2005-2011. Modellen fungerte veldig bra på begge testsett (figur 4). Avansert modell vil bli utviklet basert på økt prøvebase.

Fordi Kattan tall kan beregnes for hver pasient, er det ingen problemer med å skaffe en matchet sammenligningsgruppen spesifikke for studiepopulasjonen. Anvendelsen av den nye metoden til vår adjuvant fase II-studie viste at adjuvant terapi intervensjon betydelig forbedret PFS hos disse pasientene, sammenlignet med PFS forventet med ingen behandling. Et slikt resultat ville ikke være helt overraskende fordi 75% av pasientene hadde PN1 sykdom. Adjuvans ADT alene har vist seg å forbedre progresjonsfri, sykdomsspesifikke, og total overlevelse i post-prostatektomi individer med positive lymfeknuter [30]. I tillegg ser det ut til at adjuvant ADT alene er assosiert med en utmerket generelle PFS i høyrisiko post-prostatektomi fag [31]. Våre pasienter alle fått adjuvant kjemoterapi i tillegg til ADT, som kan ha gitt en fordel i våre pN0 pasienter og bidro til den generelle, svært signifikant forskjell i observert PFS og spådd PFS for våre pasienter.

I ulike emne grupper, kan både adjuvant post-prostatektomi strålebehandling eller androgen deprivasjon være effektive på betydelig bedre progresjonsfri, sykdomsspesifikke, eller total overlevelse. Imidlertid er heller ikke optimal behandling. Stråling øker bivirkninger som strikturer og inkontinens, samt rektale skader. Androgen Mangel kan være permanent, og fører til en rekke uønskede bivirkninger, for eksempel metabolsk syndrom, impotens og erektil dysfunksjon, og akselerert tap av benmasse.

Legg att eit svar