Featured

Bortom Kaplan-Meier

Statistisk analys av Immunicum Phase II MERECA-resultat

Link to English version

Disclaimer: All statistisk modellering av okända variabler har inneboende osäkerheter och potentiellt okända felkällor, och garanterar inte de resultat som förutsägs. Detta inlägg ska inte ses som ett slutgiltigt bevis angående resultat, utan som en kvalificerad uppskattning baserad på vad jag bedömer är en rimlig modell. Detta är inte heller någon rekommendation angående investeringsbeslut (något som bör göras på bättre grunder än ett blogginlägg på Internet). Jag vill också klargöra följande angående huruvida resultaten är “signifikanta”: begreppet signifikans hör till statistisk hypotestestning vilket inte är det jag gör här. I proceduren för statistisk hypotestestning måste man 1) ställa upp hypotesen före studien, 2) köra studien exakt som planerat (dvs. till sitt slut t.ex.) innan man bedömer resultaten 3) med de färdiga resultaten göra ett signfikanstest för att avfärda noll-hypotesen (att det inte är någon skillnad). Det är helt rimligt att Immunicum är försiktiga med uttalanden och följer gängse metod i hur man utför och bedömer studier. Det betyder inte att vi utomstående behöver vänta på dom slutsatserna för att göra egna bedömningar. Min analys kan tolkas som en kvalificerad gissning, givet vissa antaganden, om vad slutresultatet / effekten troligen är, och hur förvånade vi skulle bli om vi får ett resultat som avviker från det.

Immunicum rapporterade uppdaterade resultat från sin Fas II MERECA-studie 2020-02-06, innehållande individuell överlevnadsdata fram till December 2019 och tillhörande Kaplan-Meier-skattning av överlevnadskurvan (dvs. den genomsnittliga överlevnadsfunktionen).

En överlevnadskurva visar helt enkelt hur stor del av patienterna som fortfarande är vid liv vid tidpunkten T, t.ex. 18 månader. En överlevnadsfunktion visar för en enskild patient med vissa egenskaper, hur stor sannolikhet det är att den överlever till tidpunkten T.

När vi gör en Kaplan-Meier-skattning gör vi en väldigt allmän “bästa gissning” i hur den genomsnittliga överlevnadsfunktionen ser ut, utifrån data som är ofullständig då alla patienter ännu inte utvärderats över det tidsintervall vi är intresserade av. Nedan är en K-M-skattning utifrån uppföljningen december 2019.

Figur 1: Kaplan-Meier-skattning av överlevnadskurvan

Den svarta, streckade linjen motsvarar medianen (medianöverlevnad inträffar där den svarta linjen korsar den vertikala färgade linjen, men detta kräver att den färgade linjen är helt fastställd, vilket idag bara gäller upp till 24 månader för ovanstående graf).

Kaplan-Meier-kurvan ger en hjälplig indikation på hur överlevnadskurvan kommer att se ut, men är känslig för enskilda händelser, och svår att dra vidare slutsatser från, t.ex.:

  • Hur säkra är vi på en eventuell skillnad som visar sig mellan två grupper?
  • Om vi upprepade studien flera gånger, hur skulle utfallen se ut?
  • Vad är överlevnadseffekten av kombinationer av faktorer som prognos och behandling?

För att besvara sådana frågor kan vi skapa en statistisk modell av det studerade systemet, som matchar vår förståelse av orsak och verkan, och använda tillgänglig data för att uppskatta inställningar i den modellen. Då kan vi även uppskatta effekten av kombinationen av enskilda egenskaper som prognos och behandling, och simulera upprepade studier.

Figur 2: Modell för orsak och verkan

Ett grundläggande antagande i en överlevnadsmodell är att den faktiska livslängden för en enskild person är ett slumpmässigt resultat av en bakomliggande, tidsberoende risk för att dö (riskfunktionen), som beror på egenskaper hos personen / behandlingen. Om risken är hög, kommer överlevnaden i snitt att bli kort. Ibland kan risken ändras över tid, t.ex. att det tar en stund innan sjukdomen utvecklats tillräckligt för att bli dödlig.

Vårt mål är alltså att uppskatta riskfunktionen, och hur den påverkas av t.ex.:

  • IMDC-prognos
  • Behandling med Ilixadencel

Då kan vi även statistiskt simulera det slutgiltiga utfallet av Fas II-studien, givet nuvarande information, eller en hypotetisk Fas III-studie med fler deltagare.

Vår modell kan ge svar i form av:

  1. Vad är den “bästa gissningen” för riskfunktionen och hur olika faktorer påverkar den?
  2. Vad är vår osäkerhet runt denna gissning, givet vår begränsade information?

Kaplan-Meier-kurvan svarar endast på fråga 1, och bara i form av ett medelvärde för en hel grupp, istället för att undersöka relationen mellan olika individuella egenskaper.

Den vanligaste modellen för det önskade ändamålet är Cox proportional hazards model. En svaghet med modellen är att den inte tar hänsyn till att de olika faktorernas påverkan kan vara föränderlig över tid, exempelvis att en viss behandling behöver en minsta tid för att börja ge effekt. Då kan istället en modell som heter Aalen’s additive hazards användas.

Modellen utgår från att risken att dö över tid påverkas av olika faktorer, och att relationen mellan dessa faktorers styrka kan ändras över tid.

Vi matar in all existerande data i modellen och får då en bästa gissning på hur det hänger ihop, och mått som representerar vår osäkerhet. Då får vi bl.a. ut en graf som ser ut såhär:

Figur 3: Effekten på risk över tid av de olika egenskaperna, med 95% konfidensintervall

Grafen visar hur de olika faktorerna påverkar risken att dö över tid. Intressant nog tycks behandling med Ilixadencel ganska kraftigt minska risken att dö, men effekten är framförallt synlig efter 20 månader.

Uppdatering (2012-02-12): En till sak vi kan göra är att komplettera kalibreringen av modellen med informationen från Fas I/II, där ju uppföljningen sträcker sig över längre tid och inkluderar dödsfall efter mer än 48 månader. Detta kan ge en mer rättvis bild av vad som händer i de senare tidsintervallen. Skillnaden i grafen ovan blir framförallt att det gula / röda strecket höjs något i de senare intervallen (pga. fler dödsfall av patienter med poor prognosis / sarcomatoid features), och att Ilixadencels effekt når en platå på ca. -0.4 risk, som håller i sig mellan 40–66 mån. I övrigt blir simuleringarna väldigt lika nedanstående simuleringar, som enbart baserar sig på Fas II-datat.

Nu kan vi använda den bästa gissningen på riskfunktionen (de mörka strecken i föregående bild) till att räkna ut en teoretisk överlevnadskurva där vi jämför Ilixadencel + Sunitinib med enbart Sunitinib, baserat på den fördelning av övriga egenskaper (IMDC-prognos, sarcomatoid features) som förekommer i studien:

Detta är alltså vår bästa gissning på den förväntade överlevnadsfunktionen (generellt sett, dvs. inte för fas II-studien specifikt) med och utan behandling med Ilixadencel, för patientgrupper med samma sammansättning som i Fas II-studien.

För att få en komplett bild har vi några steg kvar:

  1. Vi vill göra en “sanity check” av vår uppskattade modell mot befintlig information
  2. Vi vill inkludera vår osäkerhet på skattningen i överlevnadsfunktionen, för att bedöma hur säkra vi kan vara på att behandlingen har effekt
  3. Vi vill simulera möjliga slutgiltiga utfall i Fas II-studien, inräknat vår osäkerhet
  4. Vi vill simulera möjliga utfall i en hypotetisk Fas III-studie, inräknat vår osäkerhet

Vi börjar med att simulera en hypotetisk Fas III-studie och kan därefter jämföra den med tidigare data för Sunitinib. Här simulerar jag en studie med 300 deltagare. Jag upprepar studien 100 gånger. OBS: För att inkludera osäkerheten i vår skattning av Ilixadencels effekt, slumpas för varje upprepning av studien en effektkurva fram, i proportion till osäkerheten på effekten (som syns i figur 2). Alternativet hade varit att alltid köra varje studie med den “bästa gissningen” på effektkurvorna i figur 2, men här inkluderar vi alltså två osäkerhetskällor:

  1. Slumpmässigheten i utfall som beror på slumpmässig livslängd av enskilda patienter
  2. Osäkerheten i utfall som beror på att vi inte har tillräcklig data för att exakt uppskatta relationen mellan riskfunktionen och behandlingen

Här är utfallet från 100 simulerade Fas III-studier, inklusive vår osäkerhet angående effekten. Den mörka linjen är den bästa gissningen på utfallet, medan de svagt färgade områdena motsvarar 5% och 95% percentilen, dvs. i 9 simuleringar av 10 hamnade utfallet inom det färgade området.

Figur 4: Utfall av 100 simuleringar av en studie med 300 deltagare

Nu kan vi göra en “sanity check” genom att jämföra den röda kurvan med existerande data från andra studier med enbart Sunitinib, med liknande sammansättning av patienter. Jag lägger helt enkelt bilderna på varandra:

Figur 5: Samma som figur 4 men med jämförelse mot historiska data

Vi ser att den röda kurvan överensstämmer ganska väl med tidigare data.

En annan “validering” är ju att titta på Figur 2 och bedöma rimligheten i effektkurvorna. Är det t.ex. rimligt, givet tidigare information, att effektkurvan för Ilixadencel är liten de första 18 månaderna, och sedan gradvis ökar? Ja, det finns ju det som talar för att det är väntat när det gäller behandlingar som bygger på aktivering av immunförsvaret.

Uppdatering (2012-02-12): En sak som kan se märklig ut i figur 2 är att effektkurvorna är “hackiga”, detta är av samma orsak som K-M-kurvan är hackig – enskilda dödsfall påverkar modellen även om den är mer robust mot detta än K-M. För att minimera effekten av detta har jag kört om alla simuleringar med en “smoothing penalty” på effektkurvorna, där hack jämnas ut (detta motsvarar vår förutfattade mening att risken inte plötsligt blir större en månad och mindre nästa månad, osv.). Resultaten är väldigt lika de resultat som presenteras nedan och inkluderas därför inte i inlägget.

I figur 5 kan vi även utläsa uppskattad medianöverlevnad. Gruppen som behandlas med Sunitinib väntas ha mellan 21–29 månaders medianöverlevnad i 90% av fallen av upprepade hypotetiska Fas III-studier. Den “bästa gissningen” på medianöverlevnad för Ilixadencel-gruppen överskrider 48 månader och är potentiellt obegränsad (dvs. minst hälften överlever tills studiens slut). Vi ser också att nedre 5%-gränsen för medianöverlevnad i Ilixadencel-gruppen ligger på ca. 24 månader, vilket är ett resultat av kombinationen av:

  1. Att vi inkluderat stor osäkerhet på hur mycket effekt Ilixadencel har i analysen
  2. Att medianöverlevnaden för gruppen (utan Ilixadencel) ligger nära den tidpunkt då behandlingen med Ilixadencel börjar ge stor effekt.

Mer intressant, utifrån det data vi ser, är egentligen skillnaden i överlevnad efter en lång tid, t.ex. 48 månader eller 5 år, där vi ser en väldigt stark effekt av Ilixadencel enligt den bästa gissningen, och en tydlig effekt även inräknat vår osäkerhet runt skattningarna.

I sin natur är måttet medianöverlevnad väldigt känsligt för precis var en eventuell platå i överlevnadskurvan ligger, och hur lång tid det tar innan den platån nås. Måttet är alltså lämpligare för grupper där långtidsöverlevnaden ligger mycket lägre än 50%.

De simulerade Fas III-resultaten och riskkurvorna är ju egentligen det mest intressanta när det gäller att bedöma Ilixadencels effekt utifrån tillgänglig information, men det kan också vara intressant att simulera slutförandet av Fas II-studien, givet nuvarande överlevnadsstatus, och få skattningar av den väntade medianöverlevnadseffekten, då detta lär vara viktigt för ett godkännande av myndigheter.

Här simulerar jag slutförandet av Fas II-studien 1000 gånger, givet nuvarande överlevnadsdata, inklusive vår osäkerhet på effekten baserat på begränsad data:

Figur 6: Slutförande av Fas II studien, simulerat 1000 gånger

På denna bild blir det väldigt tydligt varför det är så mycket tjat och osäkerhet om medianöverlevnaden: båda grupperna har en platå precis vid medianöverlevnaden, vilket gör att osäkerhetsintervallen blir mycket stora. Notera dock hur stor effekten på 48-månaders-överlevnad är i dessa fall:

  1. Bästa gissningen (mörka linjerna): ca 26% fler av totalgruppen överlever > 4 år
  2. Om gruppen har “otur” genom slumpmässiga dödsfall / att effektkurvan ligger i den sämre delen av spannet vi skattat: ca 10% fler av totalgruppen överlever > 4 år

Här är en bild som visar intervallet 5%-95% percentil och median, för medianöverlevnaden (jag har satt taket till 48 månader):

Korrigering (2012-02-12, 10:15, 12:15):
Medianöverlevnaden nedan var felaktigt uträknat pga. ett avrundningsfel, vilket gav lite högre medianöverlevnad för båda grupperna. Nu är det korrigerat, och jag har även upprepat studien 1000 ggr för att få mindre slumpmässighet i de exakta intervallen, vilket gör att nedre 5% för Ilixadencel-gruppen sänkts från ca 36 må till ca 35 må, medan övre 95% av Sunitinib-gruppen sänkts från ca. 33 mån till knappt 29 mån. Separationen är alltså större än innan. En ytterligare anteckning är att i diagrammet ovan och nedan har jag räknat avhoppare som “right censored” och simulerat deras överlevnadsutfall, snarare än att antingen räkna dem som avlidna eller räkna bort dem från statistiken. Om de skulle räknas som avlidna sjunker det lägre intervallet för Ilixadencel ca. 1 månad jämfört med nedan. Om de räknas bort från studien blir intervallet samma som nedan.

Figur 7: Förväntad medianöverlevnad i Fas II-studien baserat på 1000 simuleringar

En medianöverlevnadseffekt som utfall i Fas II är alltså väldigt sannolik, inräknat slumpmässiga utfall och den osäkerhet vi har runt effekten givet nuvarande data. Ännu mer relevant är dock den dramatiska effekt på långtidsöverlevnad som verkar finnas, och som bör ha blivit tydlig genom denna analys.

Det bör vara uppenbart från bilderna att en uppdatering om t.ex. 6 månader inte kommer att tillföra mycket ytterligare information jämfört med den information vi redan har tillgänglig (som dock är tillräcklig för att bedöma om det finns en effekt). Förvänta dig alltså att minst 12–18 månader till av uppföljning behövs för att göra bilden mycket tydligare. Slutsatsen av analysen är dock att vi redan med relativt stor säkerhet kan se effekten av Ilixadencel, vilket gör att en god skattning av eventuell chans för framgång för Fas II-studien redan kan göras.

Tillägg: Det är också värt att notera att ovanstående analys inte inkluderar den positiva information om “Complete Response” (CR) som Immunicum presenterat, eftersom data inte fanns tillgängligt som visar förändringen i response över tid och därför inte enkelt kan integreras i modellen. Den tillgängliga informationen om andel som får CR bör ses som ett ytterligare bidrag till trovärdigheten hos den underliggande modellen.

Beyond Kaplan-Meier

Statistical Analysis of Immunicum Phase II MERECA Results

Link to Swedish version

Disclaimer: All statistical modeling has inherent uncertainties and potential errors, and do not guarantee the predicted results. This post should not be seen as final evidence about the outcome of the studies, but only as a reasonable estimation based on an, in my judgement, suitable model for the problem. This is not a recommendation about investing in the company (something that should be done on better grounds than a blog post on the Internet).

Disclaimer 2: I’ve seen references to / discussions about this analysis together with the term “significance”. Therefore I want to make the following very clear: the term “significance” pertains to statistical hypothesis testing, which is not what I’m doing here. In the procedure for statistical hypothesis testing you must 1) define the hypotheses before starting the study, 2) perform the study exactly as planned (e.g. to the end of the pre-defined period) before judging the results, 3) afterwards perform a significance test against the null-hypothesis (that there is no difference). A reasonable way of performing a study like this would be to run the study for a pre-defined time and then perform a “log-rank test” with a pre-defined significance level, e.g. p=0.05 on the survival curves. I think it is entirely reasonable and expected that Immunicum is careful in their language about interpretation of the results, and follow the scientific method of how to perform studies like this one. That does not mean that we, as external parties, shouldn’t make statistical estimations based on the existing data. My analysis can be interpreted as a qualified guess about what the results / effect might be, together with a measure about how surprised we would be to see very differing results. To obtain a waterproof estimate you would also have to complement that with prior estimations of how probable the underlying model is, and preconceptions about probability of effect, etc. Even that would not hold as a scientific conclusion since scientific method places greater importance in following a preset procedure which is comparable to other studies, than to make the best possible guesses as to what the result might be. In everyday life, however, as in investment decisions, I believe it is more useful to base decisions on statistical estimations such as the one performed in this analysis, than to base them on scientific method.

Immunicum reported updated results from their Phase II MERECA-study February 6th 2020, comprising individual survival data up until December 2019 as well as the respective Kaplan-Meier estimate of the survival curve (i.e. the average survival function).

A survival curve simply put shows what proportion of subjects is still alive at the time T, e.g. 18 months. A survival function shows, for a specific subject with certain properties, the probability of that subject being alive at least until T.

When we make a Kaplan-Meier estimate, we make a very general “best guess” about what the average survival curve looks like, based on data that is incomplete (censored), since not all subjects have been evaluated over the time interval of interest. Below is a K-M estimate from the December 2019 follow-up:

Figur 1: Kaplan-Meier-estimate of the survival curve

The black, dashed line corresponds to the median (median survival occurs when the black line crosses a vertical colored line, although this requires the colored line to be fixed, which it is only up to 24 months in this case).

The Kaplan-Meier curve gives a passable indication of what the survival curve will look like, but is sensitive to individual events and difficult to draw further conclusions from, such as:

  • How certain are we of a potential difference between two groups?
  • If we repeated the study multiple times, what would the expected outcome be?
  • What is the survival effect of combinations of factors like prognosis and treatment options?

To answer such questions, we can create a statistical model of the system under study, that matches our understanding about cause and effect, and use available data to estimate parameters of that model. That in turn allows us to estimate the effect of combinations of properties like prognosis and treatment, and to simulate repeated studies.

A basic assumption of a survival model is that the actual lifetime of an individual subject is a random outcome resulting from an underlying, time-dependent hazard function, that can depend on subject / treatment attributes. If the hazard is high, the survival will on average be short. Sometimes the hazard can change over time, e.g. when the disease isn’t lethal until a certain amount of progress.

Our goal, then, is to estimate the hazard function and how it depends on things like:

  • IMDC-prognosis
  • Treatment with Ilixadencel

If we achieve this, we can also statistically simulate the expected outcome of the phase II study, given current data, and / or a hypothetical phase III study with a higher number of participants.

Our model can give us answers such as:

  1. What is the “best guess” for the hazard function, and how it depends on different attributes?
  2. What is our uncertainty about this guess, given our limited current data?

The Kaplan-Meier curve only answers question #1, and only in the form of an average value for a group, instead of revealing the relation between individual properties.

The most common model for the intended purpose is the Cox proportional hazards model. A weakness with that model is that it does not take into account that the different factors affecting survival can vary over time in relative strength, e.g. when a treatment needs a minimum time before taking effect. Instead, we can then use a model called Aalen’s additive hazards model.

The model assumes that the risk of dying over a certain time interval is affected by different factors, and that the relation between these factors can change over time.

We feed all our existing data into the model and get as a result a “best guess” of the interdependencies between different properties and survival, as well as a measure of our uncertainty given the limited quantity of data. One result is a graph that looks like this:

Figur 3: Effect on the hazard function over time of different properties

The plot shows how the different factors affect the hazard over time. Interestingly, treatment with Ilixadencel seems to visibly lower the risk of dying, but the effect isn’t prominent until 20 months.

Update (2012-02-12): Another thing we can check is to complement the adjustment of the model with the information from Phase I/II, where the subjects have been followed up on for a longer period of time, and which includes deaths after 48 months. This could give a more fair view of what happens in the late time intervals, where data is lacking. The difference in those results compared to the graph above, summarized, is that the red and yellow lines rise somewhat in the late parts (due to deaths of subejcts with poor prognosis / sarcomatoid features), and that the hazard-reducing effect of Ilixadencel reaches a plateau at ca. -0.4 hazard, and stays there between 40–66 months. The rest of the results are very similar to what is presented below, where only Phase II data is used.

Now we can use the best guess of the hazard functions (the dark lines in Figure 3) to calculate a theoretical survival curve where we compare Ilixadencel + Sunitinib to only Sunitinib, based on the distribution of the other properties (IMDC-prognosis, sarcomatoid features) that occurs in the studied group:

This is our best guess of the expected survival function (in general, i.e. not specifically for the Phase II study) with, and without, treatment with Ilixadencel, for subject groups with the same composition as that of the Phase II study.

To get a complete picture, we have a few steps left:

  1. We want to perform a “sanity check” of our estimated model against previous information
  2. We want to include our uncertainty about the estimated model in the survival function, to make a judgement about how certain we can be that the treatment has effect
  3. We want to simulate possible outcomes of the Phase II study, including our uncertainty about the effect
  4. We want to simulate possible outcomes of a hypothetical Phase III study with more participants, including our uncertainty about the effect

Let’s begin by simulating a Phase III study and thereafter comparing it to previous data for Sunitinib. Here I perform a simulation of a study with 300 participants (with the same distribution of properties as the Phase II study). I repeat the study a 100 times. NB: To include the uncertainty about our estimate of the effect of Ilixadencel, for each repeat of the study, a new hazard effect curve is randomly generated, based on the uncertainty intervals shown in figure 2. The alternative would have been to always use the “best guess” in figure 2, but now we instead include both sources of randomness:

  1. The randomness in outcome that happens due to random survival of individual subjects
  2. The uncertainty in outcome due to our uncertainty in the effect of Ilixadencel, due to our limited set of available data

Here is presented the outcome of a 100 simulated Phase III studies, that include our uncertainty about the effect. The dark line is the best guess of the outcome, while the shaded areas represent the area between the 5% and 95% percentile (i.e. in 9 out of 10 simulations, the outcome was within the shaded area):

Figur 4: Utfall av 100 simuleringar av en studie med 300 deltagare

Now we can perform a “sanity check” by comparing the red curve to existing data from other studies that use Sunitinib, with a similar distribution of subjects. I’ll just overlay one image on the other:

Figure 5: Same as figure 4 but with overlayed historic data

We can see that the red curve conforms reasonably to previous data.

Another “validation” is to look at figure 2 and judge whether the effect curves are reasonable. For example, is it reasonable, given previous information, that the effect curve of Ilixadencel is close to zero the first 18 months, and decreases the risk mainly after that? You could say yes, there are things that suggest that this is expected when a treatment relies on the activation of the immune system.

Update (2012-02-12): One thing that can seem curious in figure 2 is that the effect curves are “bumpy”, which is due to the same effect as present in K-M-curves, i.e. that individual events affect the model (even though it is more robust to this than K-M). To minimize the effect of this, I have rerun all simulations with a “smoothing penalty” that forces removal of the bumps (and which corresponds to our preconception that hazard shouldn’t change suddenly from one month to another). The results are very similar to the results presented below and therefore not included in the post.

In figure 5 we can also read the estimated median survival. The group treated with Sunitinib is expected to have between 21 and 29 months median survival in 90% of the cases, in a repeated number of hypothetical Phase III studies. The “best guess” of median survival for the Ilixadencel group exceeds 48 months and is potentially unbounded (i.e. at least half of the subjects survive until the end of the study). We can also see that the lower 5% limit of median survival in the Ilixadencel group is about 24 month, which is a result of the combination of:

  1. That we have included a lot of uncertainty about how much effect Ilixadencel has
  2. That the median survival for the group (without Ilixadencel) is very close to the time where Ilixadencel treatment has clear effect

More interestingly, based on the data we have, is actually the difference in long-term survival, e.g. after 48 months, where we can see a very strong effect of Ilixadencel, according to the best guess, and a strong effect even including our uncertainty about the estimates.

It is in the nature of the statistic of median survival that it is very sensitive for exactly at what level a plateau in the survival curve occurs, and when it occurs. The measure is more suitable for groups where the long-term survival is much lower than 50%.

The simulated Phase III results and corresponding hazard curves are really the most interesting parts when judging the effect of Ilixadencel from available information, but it can also be enlightening to review simulations of completed Phase II-studies, given current survival status, to get estimates of the expected median survival effect, since this is presumed to be important for treatment approval.

Here I simulate the completion of the phase II study a 100 times, given current survival data, including our uncertainty about the effect due to limited data:

Figure 6: Outcomes of 1000 simulated completions of the Phase II study, starting from current subject status

This image makes it very clear why there is so much back-and-forths about the median survival: both groups have a plateau at exactly the level of median survival, making the uncertainty intervals very large. Note, however, the strong effect on 48 month survival per the following:

  1. Best guess (dark lines): About 26% more of the total group survive > 4 y
  2. If the group is “unlucky” due to random deaths or that the effect curve is in the “bad” part of the interval: about 10% more of the total group survives > 4 y

Here is an image showing the interval 5%-95% percentile and median, for the median survival (with a ceiling of 48 months, the true maximum is potentially unlimited).

Correction (2012-02-12, 10:15 CET, 12:15 CET):
The median survival below was incorrectly calculated due to a rounding error, which gave somewhat higher median survival for both groups. This is now corrected, and the study repeated 1000 times to reduce the variability in the measures. The result is that the lower 5% for the Ilixadencel group is lowered from ~36 mo to ~35 mo, while the upper 95% of the Sunitinib group is lowered from ~33 mo to ~29 mo. The separation is then higher than before. A note is that the dropouts are here regarded as right censored and included in the simulation and resulting statistic. If both dropouts were to be regarded as deceased, the lower interval of the Ilixadencel group would be reduced with ~1 mo, while if both dropouts were excluded from the calculations, the interval remains the same as shown below.

Figure 7: Estimated outcome of the median survival statistics for 1000 simulated completions of Phase II

It is clear that a median survival effect as outcome of the Phase II study is very probable, including random events and the uncertainty that we have about the effect of Ilixadencel given current data. Even more relevant, however, is the dramatic effect on long-term survival that seems to exist, and which should be clear from this analysis.

Moreover, it should be apparent from the graphs that updates in e.g. 6 months won’t provide much additional information relative to the information that we already have (which is, however, sufficient to statistically judge the existence of an effect). You should expect that at least 12-18 additional months of follow-ups are needed to make the picture significantly clearer than is presented in the above analysis. However, the conclusion of this analysis is that we can already with a strong confidence see the results of the effect of Ilixadencel, so that some conclusions about the eventual success of the Phase II study can already be drawn.

Addendum: It is also worth noting that the above analysis does not rely on the positive information about “Complete Response” (CR) that Immunicum have presented, since information about the exact time intervals of response was not available and thus cannot be easily integrated into the model. The available information on the proportion of complete responses should therefore be seen as an additional contribution to the confidence in the underlying model presented here.