Bortom Kaplan-Meier

Statistisk analys av Immunicum Phase II MERECA-resultat

Link to English version

Disclaimer: All statistisk modellering av okända variabler har inneboende osäkerheter och potentiellt okända felkällor, och garanterar inte de resultat som förutsägs. Detta inlägg ska inte ses som ett slutgiltigt bevis angående resultat, utan som en kvalificerad uppskattning baserad på vad jag bedömer är en rimlig modell. Detta är inte heller någon rekommendation angående investeringsbeslut (något som bör göras på bättre grunder än ett blogginlägg på Internet). Jag vill också klargöra följande angående huruvida resultaten är “signifikanta”: begreppet signifikans hör till statistisk hypotestestning vilket inte är det jag gör här. I proceduren för statistisk hypotestestning måste man 1) ställa upp hypotesen före studien, 2) köra studien exakt som planerat (dvs. till sitt slut t.ex.) innan man bedömer resultaten 3) med de färdiga resultaten göra ett signfikanstest för att avfärda noll-hypotesen (att det inte är någon skillnad). Det är helt rimligt att Immunicum är försiktiga med uttalanden och följer gängse metod i hur man utför och bedömer studier. Det betyder inte att vi utomstående behöver vänta på dom slutsatserna för att göra egna bedömningar. Min analys kan tolkas som en kvalificerad gissning, givet vissa antaganden, om vad slutresultatet / effekten troligen är, och hur förvånade vi skulle bli om vi får ett resultat som avviker från det.

Immunicum rapporterade uppdaterade resultat från sin Fas II MERECA-studie 2020-02-06, innehållande individuell överlevnadsdata fram till December 2019 och tillhörande Kaplan-Meier-skattning av överlevnadskurvan (dvs. den genomsnittliga överlevnadsfunktionen).

En överlevnadskurva visar helt enkelt hur stor del av patienterna som fortfarande är vid liv vid tidpunkten T, t.ex. 18 månader. En överlevnadsfunktion visar för en enskild patient med vissa egenskaper, hur stor sannolikhet det är att den överlever till tidpunkten T.

När vi gör en Kaplan-Meier-skattning gör vi en väldigt allmän “bästa gissning” i hur den genomsnittliga överlevnadsfunktionen ser ut, utifrån data som är ofullständig då alla patienter ännu inte utvärderats över det tidsintervall vi är intresserade av. Nedan är en K-M-skattning utifrån uppföljningen december 2019.

Figur 1: Kaplan-Meier-skattning av överlevnadskurvan

Den svarta, streckade linjen motsvarar medianen (medianöverlevnad inträffar där den svarta linjen korsar den vertikala färgade linjen, men detta kräver att den färgade linjen är helt fastställd, vilket idag bara gäller upp till 24 månader för ovanstående graf).

Kaplan-Meier-kurvan ger en hjälplig indikation på hur överlevnadskurvan kommer att se ut, men är känslig för enskilda händelser, och svår att dra vidare slutsatser från, t.ex.:

  • Hur säkra är vi på en eventuell skillnad som visar sig mellan två grupper?
  • Om vi upprepade studien flera gånger, hur skulle utfallen se ut?
  • Vad är överlevnadseffekten av kombinationer av faktorer som prognos och behandling?

För att besvara sådana frågor kan vi skapa en statistisk modell av det studerade systemet, som matchar vår förståelse av orsak och verkan, och använda tillgänglig data för att uppskatta inställningar i den modellen. Då kan vi även uppskatta effekten av kombinationen av enskilda egenskaper som prognos och behandling, och simulera upprepade studier.

Figur 2: Modell för orsak och verkan

Ett grundläggande antagande i en överlevnadsmodell är att den faktiska livslängden för en enskild person är ett slumpmässigt resultat av en bakomliggande, tidsberoende risk för att dö (riskfunktionen), som beror på egenskaper hos personen / behandlingen. Om risken är hög, kommer överlevnaden i snitt att bli kort. Ibland kan risken ändras över tid, t.ex. att det tar en stund innan sjukdomen utvecklats tillräckligt för att bli dödlig.

Vårt mål är alltså att uppskatta riskfunktionen, och hur den påverkas av t.ex.:

  • IMDC-prognos
  • Behandling med Ilixadencel

Då kan vi även statistiskt simulera det slutgiltiga utfallet av Fas II-studien, givet nuvarande information, eller en hypotetisk Fas III-studie med fler deltagare.

Vår modell kan ge svar i form av:

  1. Vad är den “bästa gissningen” för riskfunktionen och hur olika faktorer påverkar den?
  2. Vad är vår osäkerhet runt denna gissning, givet vår begränsade information?

Kaplan-Meier-kurvan svarar endast på fråga 1, och bara i form av ett medelvärde för en hel grupp, istället för att undersöka relationen mellan olika individuella egenskaper.

Den vanligaste modellen för det önskade ändamålet är Cox proportional hazards model. En svaghet med modellen är att den inte tar hänsyn till att de olika faktorernas påverkan kan vara föränderlig över tid, exempelvis att en viss behandling behöver en minsta tid för att börja ge effekt. Då kan istället en modell som heter Aalen’s additive hazards användas.

Modellen utgår från att risken att dö över tid påverkas av olika faktorer, och att relationen mellan dessa faktorers styrka kan ändras över tid.

Vi matar in all existerande data i modellen och får då en bästa gissning på hur det hänger ihop, och mått som representerar vår osäkerhet. Då får vi bl.a. ut en graf som ser ut såhär:

Figur 3: Effekten på risk över tid av de olika egenskaperna, med 95% konfidensintervall

Grafen visar hur de olika faktorerna påverkar risken att dö över tid. Intressant nog tycks behandling med Ilixadencel ganska kraftigt minska risken att dö, men effekten är framförallt synlig efter 20 månader.

Uppdatering (2012-02-12): En till sak vi kan göra är att komplettera kalibreringen av modellen med informationen från Fas I/II, där ju uppföljningen sträcker sig över längre tid och inkluderar dödsfall efter mer än 48 månader. Detta kan ge en mer rättvis bild av vad som händer i de senare tidsintervallen. Skillnaden i grafen ovan blir framförallt att det gula / röda strecket höjs något i de senare intervallen (pga. fler dödsfall av patienter med poor prognosis / sarcomatoid features), och att Ilixadencels effekt når en platå på ca. -0.4 risk, som håller i sig mellan 40–66 mån. I övrigt blir simuleringarna väldigt lika nedanstående simuleringar, som enbart baserar sig på Fas II-datat.

Nu kan vi använda den bästa gissningen på riskfunktionen (de mörka strecken i föregående bild) till att räkna ut en teoretisk överlevnadskurva där vi jämför Ilixadencel + Sunitinib med enbart Sunitinib, baserat på den fördelning av övriga egenskaper (IMDC-prognos, sarcomatoid features) som förekommer i studien:

Detta är alltså vår bästa gissning på den förväntade överlevnadsfunktionen (generellt sett, dvs. inte för fas II-studien specifikt) med och utan behandling med Ilixadencel, för patientgrupper med samma sammansättning som i Fas II-studien.

För att få en komplett bild har vi några steg kvar:

  1. Vi vill göra en “sanity check” av vår uppskattade modell mot befintlig information
  2. Vi vill inkludera vår osäkerhet på skattningen i överlevnadsfunktionen, för att bedöma hur säkra vi kan vara på att behandlingen har effekt
  3. Vi vill simulera möjliga slutgiltiga utfall i Fas II-studien, inräknat vår osäkerhet
  4. Vi vill simulera möjliga utfall i en hypotetisk Fas III-studie, inräknat vår osäkerhet

Vi börjar med att simulera en hypotetisk Fas III-studie och kan därefter jämföra den med tidigare data för Sunitinib. Här simulerar jag en studie med 300 deltagare. Jag upprepar studien 100 gånger. OBS: För att inkludera osäkerheten i vår skattning av Ilixadencels effekt, slumpas för varje upprepning av studien en effektkurva fram, i proportion till osäkerheten på effekten (som syns i figur 2). Alternativet hade varit att alltid köra varje studie med den “bästa gissningen” på effektkurvorna i figur 2, men här inkluderar vi alltså två osäkerhetskällor:

  1. Slumpmässigheten i utfall som beror på slumpmässig livslängd av enskilda patienter
  2. Osäkerheten i utfall som beror på att vi inte har tillräcklig data för att exakt uppskatta relationen mellan riskfunktionen och behandlingen

Här är utfallet från 100 simulerade Fas III-studier, inklusive vår osäkerhet angående effekten. Den mörka linjen är den bästa gissningen på utfallet, medan de svagt färgade områdena motsvarar 5% och 95% percentilen, dvs. i 9 simuleringar av 10 hamnade utfallet inom det färgade området.

Figur 4: Utfall av 100 simuleringar av en studie med 300 deltagare

Nu kan vi göra en “sanity check” genom att jämföra den röda kurvan med existerande data från andra studier med enbart Sunitinib, med liknande sammansättning av patienter. Jag lägger helt enkelt bilderna på varandra:

Figur 5: Samma som figur 4 men med jämförelse mot historiska data

Vi ser att den röda kurvan överensstämmer ganska väl med tidigare data.

En annan “validering” är ju att titta på Figur 2 och bedöma rimligheten i effektkurvorna. Är det t.ex. rimligt, givet tidigare information, att effektkurvan för Ilixadencel är liten de första 18 månaderna, och sedan gradvis ökar? Ja, det finns ju det som talar för att det är väntat när det gäller behandlingar som bygger på aktivering av immunförsvaret.

Uppdatering (2012-02-12): En sak som kan se märklig ut i figur 2 är att effektkurvorna är “hackiga”, detta är av samma orsak som K-M-kurvan är hackig – enskilda dödsfall påverkar modellen även om den är mer robust mot detta än K-M. För att minimera effekten av detta har jag kört om alla simuleringar med en “smoothing penalty” på effektkurvorna, där hack jämnas ut (detta motsvarar vår förutfattade mening att risken inte plötsligt blir större en månad och mindre nästa månad, osv.). Resultaten är väldigt lika de resultat som presenteras nedan och inkluderas därför inte i inlägget.

I figur 5 kan vi även utläsa uppskattad medianöverlevnad. Gruppen som behandlas med Sunitinib väntas ha mellan 21–29 månaders medianöverlevnad i 90% av fallen av upprepade hypotetiska Fas III-studier. Den “bästa gissningen” på medianöverlevnad för Ilixadencel-gruppen överskrider 48 månader och är potentiellt obegränsad (dvs. minst hälften överlever tills studiens slut). Vi ser också att nedre 5%-gränsen för medianöverlevnad i Ilixadencel-gruppen ligger på ca. 24 månader, vilket är ett resultat av kombinationen av:

  1. Att vi inkluderat stor osäkerhet på hur mycket effekt Ilixadencel har i analysen
  2. Att medianöverlevnaden för gruppen (utan Ilixadencel) ligger nära den tidpunkt då behandlingen med Ilixadencel börjar ge stor effekt.

Mer intressant, utifrån det data vi ser, är egentligen skillnaden i överlevnad efter en lång tid, t.ex. 48 månader eller 5 år, där vi ser en väldigt stark effekt av Ilixadencel enligt den bästa gissningen, och en tydlig effekt även inräknat vår osäkerhet runt skattningarna.

I sin natur är måttet medianöverlevnad väldigt känsligt för precis var en eventuell platå i överlevnadskurvan ligger, och hur lång tid det tar innan den platån nås. Måttet är alltså lämpligare för grupper där långtidsöverlevnaden ligger mycket lägre än 50%.

De simulerade Fas III-resultaten och riskkurvorna är ju egentligen det mest intressanta när det gäller att bedöma Ilixadencels effekt utifrån tillgänglig information, men det kan också vara intressant att simulera slutförandet av Fas II-studien, givet nuvarande överlevnadsstatus, och få skattningar av den väntade medianöverlevnadseffekten, då detta lär vara viktigt för ett godkännande av myndigheter.

Här simulerar jag slutförandet av Fas II-studien 1000 gånger, givet nuvarande överlevnadsdata, inklusive vår osäkerhet på effekten baserat på begränsad data:

Figur 6: Slutförande av Fas II studien, simulerat 1000 gånger

På denna bild blir det väldigt tydligt varför det är så mycket tjat och osäkerhet om medianöverlevnaden: båda grupperna har en platå precis vid medianöverlevnaden, vilket gör att osäkerhetsintervallen blir mycket stora. Notera dock hur stor effekten på 48-månaders-överlevnad är i dessa fall:

  1. Bästa gissningen (mörka linjerna): ca 26% fler av totalgruppen överlever > 4 år
  2. Om gruppen har “otur” genom slumpmässiga dödsfall / att effektkurvan ligger i den sämre delen av spannet vi skattat: ca 10% fler av totalgruppen överlever > 4 år

Här är en bild som visar intervallet 5%-95% percentil och median, för medianöverlevnaden (jag har satt taket till 48 månader):

Korrigering (2012-02-12, 10:15, 12:15):
Medianöverlevnaden nedan var felaktigt uträknat pga. ett avrundningsfel, vilket gav lite högre medianöverlevnad för båda grupperna. Nu är det korrigerat, och jag har även upprepat studien 1000 ggr för att få mindre slumpmässighet i de exakta intervallen, vilket gör att nedre 5% för Ilixadencel-gruppen sänkts från ca 36 må till ca 35 må, medan övre 95% av Sunitinib-gruppen sänkts från ca. 33 mån till knappt 29 mån. Separationen är alltså större än innan. En ytterligare anteckning är att i diagrammet ovan och nedan har jag räknat avhoppare som “right censored” och simulerat deras överlevnadsutfall, snarare än att antingen räkna dem som avlidna eller räkna bort dem från statistiken. Om de skulle räknas som avlidna sjunker det lägre intervallet för Ilixadencel ca. 1 månad jämfört med nedan. Om de räknas bort från studien blir intervallet samma som nedan.

Figur 7: Förväntad medianöverlevnad i Fas II-studien baserat på 1000 simuleringar

En medianöverlevnadseffekt som utfall i Fas II är alltså väldigt sannolik, inräknat slumpmässiga utfall och den osäkerhet vi har runt effekten givet nuvarande data. Ännu mer relevant är dock den dramatiska effekt på långtidsöverlevnad som verkar finnas, och som bör ha blivit tydlig genom denna analys.

Det bör vara uppenbart från bilderna att en uppdatering om t.ex. 6 månader inte kommer att tillföra mycket ytterligare information jämfört med den information vi redan har tillgänglig (som dock är tillräcklig för att bedöma om det finns en effekt). Förvänta dig alltså att minst 12–18 månader till av uppföljning behövs för att göra bilden mycket tydligare. Slutsatsen av analysen är dock att vi redan med relativt stor säkerhet kan se effekten av Ilixadencel, vilket gör att en god skattning av eventuell chans för framgång för Fas II-studien redan kan göras.

Tillägg: Det är också värt att notera att ovanstående analys inte inkluderar den positiva information om “Complete Response” (CR) som Immunicum presenterat, eftersom data inte fanns tillgängligt som visar förändringen i response över tid och därför inte enkelt kan integreras i modellen. Den tillgängliga informationen om andel som får CR bör ses som ett ytterligare bidrag till trovärdigheten hos den underliggande modellen.

3 thoughts on “Bortom Kaplan-Meier

  1. Tack för ett av de väsentligaste bidragen för bedömningen av hur stor MERECAs framtida uppmätta medianöverlevnadseffekt kan väntas bli.

    Använder både simuleringen av Fas II-studie-utfall och Fas III-studie-utfall alla överlevnadsdata från MERECA som presenterades 6 feb 2020 ? Om inte, varför i så fall ?

    När det gäller sarcomatoid njurcancer tolkar jag figur 3 ovan som att den faktorn spelar liten roll, medan externa historiska studiedata talar för att den är en riskfaktor som reducerar förväntad överlevnad kraftigt och i samma storleksordning som IMDC dålig prognos och att båda dessa riskfaktorer kombinerade ytterligare signifikant reducerar förväntad överlevnad.
    Kan en “olycklig” fördelning e d i något avseende av sacromatoid cancer i MERECA i ilixadencelgruppen och kontrollgruppen ha medfört att faktorn fick onaturligt liten betydelse enligt din modell ? Den förekom ju ca 23 % i båda grupperna. Eller skapades modellen delvis med hjälp av externa referensdata m a p dessa riskfaktorer ?

    Kan du ange din skapade riskfunktion för överlevnaden i MERECA enligt modellen ?

    Like

Leave a Reply to Jens Cancel reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: