Charles E. McCulloch(生物统计学教授)
Marcio Souza(总裁兼首席执行官)
Douglas Tsao(H.C. Wainwright)
好的。下午好,各位。感谢大家参加今天的会议。我是Doug Tsao,H.C. Wainwright的高级分析师。我们今天非常激动,因为这是一个非常独特的活动。今天与我们一起的有Chuck McCullough教授,他是加州大学旧金山分校的生物统计学教授,在混合模型的应用方面是真正的专家,并且撰写了我认为许多人视为该领域权威教科书的著作。我们还邀请到了Marcio Souza,我想大家对他都很熟悉,他是Praxis的首席执行官。
今天我们重点关注Essential 3项目。
我知道这是一种有点非常规的形式,但我们之所以这样安排,不仅是因为我们可以从Chuck那里获得关于Essential3项目相关问题的观点和见解,还因为有Marcio在场,可以加快问题解答的周期。我还想提前明确,Chuck与Praxis没有任何关联。他是一名独立顾问。因此,我希望Chuck能提供一些见解,帮助大家更好地了解这个项目,同时也提出一些尖锐的问题,让Marcio能够给出一些见解。
Chuck,作为开场,我认为如果你能花两分钟回顾一下为什么使用MMRM模型以及它在这类临床研究中的价值,那将非常有帮助。最终,你认为这是他们使用的正确模型吗?然后,如果你对所看到的数据有一个总体印象,也可以分享一下。
当然。这是纵向数据。我们对同一人群在不同时间重复收集数据。从统计学角度来看,这被称为相关数据,因为同一个人的数据在不同时间点是相似的,与自己的数据比与其他人的数据更相似。因此,这需要一种能够处理这种重复测量、相关数据的统计建模方法。你还需要一种能够进行灵活建模的分析方法。例如,你希望在Braxis使用的模型中调整基线ADL。
他们还调整了诸如震颤家族史等因素。因此,你需要一个灵活的建模框架。这基本上可以归结为两种选择:混合模型重复测量分析(MMRMs)和所谓的广义估计方程。名称并不重要,这只是另一种用于相关数据灵活建模的方法,但任何临床研究的实际情况是,总会有缺失数据,总会有脱落,这需要得到处理。混合模型在处理缺失数据方面比这些广义估计方程方法产生更可靠的结果,这是众所周知的。
在这项研究中,存在易逝性脱落导致的缺失数据。我们没有获得所有人每周的日常生活活动能力(ADL)测量数据。因此,在这种情况下,混合模型显然是更优的选择。所以,如果你完全独立地来找我,说“帮我写一份统计分析计划”,我几乎肯定会推荐这种方法。因此,选择这种分析方法在我看来是最合适的。我的总体反应是,当我开始看结果时……
结果具有高度的统计学显著性。如果我从置信区间反推P值,P值非常小,有很强的统计证据。因此,即使分析方法的假设存在一些违反,这也应该具有稳健性。当然,还有一些我们稍后会讨论的问题,这些问题在我看来也需要通过分析结果的稳健性来解决。但这是我的初步印象。
好的。那么Marcio,在这个背景下,或许可以概述一下Essential 3项目,以及在Essential One研究结果之后,设计中的关键考虑因素是什么。
是的,我想基于Chuck刚才提到的内容展开一下。从这个项目一开始,从我们与FDA的第一次互动开始,讨论中就没有其他模型或方法的选择。我认为,如果你全面了解神经病学领域,甚至神经病学之外的领域,纵向数据几乎总是使用混合模型进行分析。这可能很重要,因为我认为有人质疑在2期、2B期研究中何时开始使用这种模型。但事实是,从一开始就是如此。不过,我相信,如果你的问题不是这个方向,请纠正我,Doug。
当你审视为设计Essential 3而产生的假设时,我们并不是凭空提出Essential 3这个3期项目的。之前有一项研究,一项先前的研究产生了这里的假设。其中有几个关键因素。第一个是人群。我们总是首先定义人群。就像,我们在研究什么?与我们在Essential 3中所做的非常相似,当时的想法是使用病情相当严重的人群。当你看这些患者的基线时,严重程度相当高,实际上在Essential 3中可能更严重一些,但非常相似。
这一点很重要。他们并不是在治疗那些对日常生活没有显著影响的人。第二个极其重要的部分是,FDA在某种意义上领先于我们。他们坚持要求我们以他们要求的方式修改ADL。这就是为什么我们称之为ADL修改版,这是在数据评估后对评分的修改。这是机构的要求。实际上,当你与医生交谈时,他们通常会引用ADL,因为这是他们评估的内容。但实际测量值在数值上略小,因此在统计学上更难达到显著结果。
如前所述,基于这些知识,我们制定了这个项目。你还要记住,回到Essential One,当时MAZL的结果虽然不是主要终点,但却是阳性的,其P值实际上低于当时定义的5%阈值。基于此,Essential 3项目得以创立。当时我们知道,我们需要更多的患者来提高确定性。但总体而言,研究就是这样设计的。
因此,整个项目一直非常一致。
那么,我想快速了解一下Essential One的整体结构,因为有两项研究,对吧?研究一,平行设计,以及研究二。在研究一中,你们在研究中途改变了主要终点,或许可以快速回顾一下这个过程。是什么导致你们做出这个决定,这是你们在中期分析后做出的决定,但直到9月才进行更改。为什么花了这么长时间?
当然,是的。我很高兴你能按顺序提出这些问题。因为如果你回顾Essential One,那是一项为期8周的研究。当我们进行独立数据监查委员会(IDMC)的中期分析并决定继续研究时,我们必须放慢脚步,问一些问题,比如,我们对这个项目了解多少?我们如何知道药物在多长时间内有效?以及,我们对主要终点的预测确定性有多高?
我认为这些都是合理的问题。有一点我们知道,8周是我们设计这项研究的基础,也就是第56天。但还有一点也非常重要,你谈到了Essential 3的设计。我们做出了一个可以说是高标准的决定,一个非常复杂的决定,即将患者随机分配到研究一的平行组或研究二的稳定应答者随机撤药组。这非常困难,而且很多人不会这样做,因为同时招募两项研究的难度更大。
这个决定带来的一个结果是,两项研究的前8周完全相同。在所有可能的方面都相同。患者群体是基于Chuck刚才提到的相同分层因素以及基线协变量或评估进行随机分配的。研究人员和患者全程对分组情况不知情。这种一致性在第8周结束。第8周后,研究二中的应答者被随机分配继续用药或接受安慰剂。之后我们改变了评估方式。
为了进一步完善估计,我们回过头来问,8周的终点在哪里?这当然需要时间。人们总是会回顾,这是一个高风险的决定,我们不应该仓促做出。我们花时间思考、模拟等等。思考需要时间,模拟需要时间,撰写变更文件并提交给机构也需要时间。这就是为什么在整个过程中,我实际上不认为这花了很多时间。
Marcio,确认一下,你们是在锁定研究数据库之前提交的这个变更吗?
绝对是的。如果我们在不知情的情况下做出变更,那将是无效的。在变更记录下来之前,我们不知道研究的分配情况,无论是组水平、个体水平,还是其他任何方面。我们实施了变更,修订了方案修正案、统计分析计划(SAP),提交给了研究性新药申请(IND),给机构发了信函等等。所以所有这些都是在数据库锁定之前完成的。
Marcio,重要的是要记住,在研究中途改变终点并非没有重要先例。例如,最近Donanemab的申请中,机构实际上不同意,但最终并未被认为对疗效评估有重大影响。然后,我想稍后再回到Chuck的问题,但Marcio,我知道你已经提供了很多细节,你说这实际上是高度显著的。主要终点在第56天的实际P值是多少?
是的,我想这就是为什么我之前没有展示这个,现在我可以告诉你。但这涉及到一个问题,我们为什么要讨论这个?我之前形容这有点愚蠢。有些事情我们做得有点愚蠢。但实际P值达到10的负6次方量级。也就是说,小数点后有五个零,然后是第一个非零数字。我认为很难相信有人会认为这接近临界检验。
但还是应该问问Chuck的看法。
Marcio,你说过原始终点也是阳性的。尽管你们做了变更,但在某些方面,这似乎是小题大做。你能提供一些关于原始终点成功程度的细节吗?
是的,值得一提的是,不仅原始终点是阳性的。原始终点是第84天,评估的是第77天和第84天的平均对比,其P值达到10的负3次方量级。而且在每个时间点,包括第14天,评估的结果都是显著的。我认为这很重要。也就是说,在任何时间点都没有出现失去显著性的奇怪波动。
这并不是说波动会是个问题。我们在之前的几项试验中见过波动,但这并没有影响它们获得批准的能力。但我认为在这种情况下,提及这一点也很重要。
Chuck,这非常有帮助。我认为,你谈到的MMRM模型的价值之一是处理缺失数据。这已经成为投资者关注的焦点,他们在思考公司提出的各种敏感性分析。你能给我们简要介绍一下缺失数据以及MMRM模型如何处理它,并帮助我们理解“随机缺失”和“非随机缺失”的实际含义吗?
当然,我认为我们正在转向一个不同的话题,因为我认为这些是不同的问题。选择主要终点与如何处理缺失数据是分开的问题。让我谈谈混合模型和缺失数据。如前所述,在存在缺失数据的情况下,混合模型显然是更优的选择。在任何临床研究中,几乎总是如此。这通常是人们被引导使用这些模型的原因。为什么人们喜欢它们?因为使用混合模型方法分析数据时,无需正式考虑缺失数据。
所以,只是假设数据是不平衡的,但在某些情况下,某些人缺失数据的原因没有真正的偏倚,仍然可以得到有效的结果。这是人们喜欢混合模型的关键原因。这些特定的假设在技术上被称为“随机缺失”。这个术语很糟糕,如果你试图从英语语言的角度去解析它,会得出错误的结论。我更喜欢将其视为“可通过观察数据预测的缺失”。
在这种情况下,这包括模型中的任何因素,如震颤家族史,以及该人之前记录的任何ADL值。因此,这在很大程度上扩展了保护范围。非随机缺失是更有问题的情况,因为混合模型不一定能保护你。这意味着缺失依赖于其他因素,比如如果我们能看到ADL值的话,但我们当然看不到。当数据是非随机缺失时,混合模型分析的结果可能与如果你突然神奇地获得所有缺失数据时的分析结果存在系统性偏差。
这是合理的担忧。同样,这不仅仅是这项研究的问题,任何有缺失数据的研究都存在这个问题,而几乎所有临床纵向研究都有缺失数据。
我想澄清一点,因为我认为有些人存在误解,即患者因观察到的病情恶化而退出并不违反随机缺失(MAR)。随机缺失,以及活性药物组和安慰剂组之间停药的不平衡也不一定自动违反随机缺失。
是的。当人们因为看到患者没有好转而决定退出研究时,这可以通过他们之前的ADL测量模式来预测。因此,这很可能是随机缺失。你说得对,两组之间的停药率或脱落率不同并不一定表明随机缺失假设被违反。我是最近完成的一项治疗抑郁症随机试验的高级统计师,其中一个组使用抗抑郁药物。我们的终点是治疗结束后的抑郁评分,但我们当然有抑郁的中间测量值,服用这些药物的人很快好转并停药。
但这完全可以通过早期的抑郁测量值来预测。因此,这导致了停药率的巨大差异,但随机缺失假设仍然非常合理。
是否可以说,Praxis使用的模型假设随机缺失,但我们确实或应该考虑缺失机制为非随机缺失的可能性,并且需要针对这种可能性对数据进行压力测试?
是的,我不确定我是否会说它“假设”随机缺失。但如前所述,在随机缺失假设下,它仍然能给出有效结果,而在非随机缺失情况下,它不一定能给出有效结果。不幸的是,也许并不奇怪,你无法通过查看数据来判断数据是随机缺失还是非随机缺失,因为这取决于你没有看到的东西和你对没有看到的东西的假设。因此,通过敏感性分析来压力测试这些缺失数据假设几乎总是一个好主意。
你如何评估随机缺失的合理性,我们应该思考哪些问题?
当然,我通过两方面来思考这个问题。首先,情况如何?不幸的是,这取决于数据中不可知的东西。它在很大程度上取决于临床背景以及你对可能导致缺失数据的原因的了解。因此,首先,我试图思考这种情况是可能产生随机缺失数据还是非随机缺失数据?举个例子,在我最近完成的一项研究中,我们使用的量表在研究开始时并未在我们研究的人群中得到验证或证明有用。因此,在招募的数百人中,前100人我们无法使用这个量表,因为它尚未经过验证。但在前100人之后,我们决定它是更好的量表。我们做出了艰难的决定,替换了我们正在使用的量表。因此,我们现在在试验中招募的前100人引入了缺失数据。从背景来看,有充分的理由认为这是随机缺失,因为数据缺失仅仅与他们招募较早有关。
你可以想象一些非随机缺失的情况,但它们非常不合理。因此,在这种情况下,情况让你对随机缺失有信心。另一方面,可能与今天的讨论更相关的是,当停药与不良事件相关并导致活性药物组中断时,我们更怀疑数据可能是非随机缺失的。这时通过敏感性分析进行压力测试就更为重要。
Marcio,你如何看待这个问题?你们是如何解决这些问题的?
当然。首先是我们之前假设的内容。问题应该总是首先是主要模型是什么?我们已经讨论过了,然后如何压力测试模型?如果你考虑可能不是随机缺失的情况,如何进行压力测试?预先指定的敏感性分析——顺便说一下,这与Essential 1中的相同,是每个统计分析计划中都有的,实际上是MMRM常用的一种——是临界点分析,其原理是存在一个点,通过移除获益或增加惩罚,结果会发生转变,变得不显著。
你必须做出的第二个判断是临床合理性。因为你不能只解释数学上的变化,还必须从临床角度解释其合理性。综合这两点,统计分析计划中预先指定并记录的是从0.5分惩罚开始到2.5分的临界点分析。这是实际分析计划中的最大值。之后,正如你所知,结果甚至远未接近变得不显著。
实际上,如果你想知道的话,这个数值比2.5分大得多,因为患者的病情并没有恶化。在这种情况下,我们问自己的另一个问题——你在我们的披露中已经看到了——对于这些我们没有信息的患者,正如Jack刚才谈到的,我们只能假设一些情况,但你可以问,什么可以作为他们数值的合理替代?我们在这里所做的就是替换我们不知道的数值,我们开始假设安慰剂可以作为合理的替代。
参考值是合理的。我们使用了一种不同的方法,这种方法非常明确地不是预先指定的,虽然很常用,但不是。唯一预先指定的是临界点分析。但我们确实进行了测试,尽管方法非常相似。当我们补全数据后,我们再次使用MMRM拟合模型——现在数据不再缺失——以及ANCOVA,结果非常相似。你会看到,这些敏感性分析再次产生了高度显著的结果。因此,我们正在压力测试模型。我们不一定……你举了Donanemab的例子,我要重申一下,因为Chuck也提到了最近的研究。那是相对较新的。如你所知,不仅终点发生了变化,机构实际上也非常有说服力地评论说,这并不重要,因为另一个终点也是阳性的。
这与我们改变时间点有点类似。但有趣的是,他们实际上要求进行临界点分析。机构要求赞助商礼来公司进行,实际上在第一个水平就发生了转变,但这完全没有妨碍药物的批准。顺便说一下,第一个水平非常低,这只是压力测试,我称之为压力测试终点的稳健性。该研究的停药率也相当高,与我们的情况并非不同。
因此,这不仅有监管先例,而且是最近的,同一部门的人员。我们还用其他方法进行了测试,这些方法也产生了非常稳健的结果。
Chuck,我们收到了一位观众的问题,想澄清一下,你刚才提到,如果因不良事件导致停药,这如何影响我们对随机缺失的假设?
当因治疗相关不良事件导致停药时,你认为活性药物组患者在数据缺失时的情况会更糟。因此,我们基本上是说,通常你从预期的轨迹开始,但现在他们产生了缺失数据,我们要将预期轨迹降低一定程度。
通常这些被称为delta调整。所以我们做一个小的下降。例如,我们预期患者的ADL改善3分,现在我们将其改善减少1分,即delta为1,说他们只改善了2分。临界点分析就是这样工作的,你增加delta,直到结果不再显著。此时的delta值就是“临界点”。Marcio提到他们测试到2.5分,P值仍为0.026。
这是在非随机缺失数据的背景下。我们必须假设活性药物组患者在数据缺失时的情况会恶化多少。因此,我们基本上是说,通常你从预期的轨迹开始,但现在他们产生了缺失数据,我们要将预期轨迹降低一定程度。
通常这些被称为delta调整。所以我们做一个小的下降。例如,我们预期患者的ADL改善3分,现在我们将其改善减少1分,即delta为1,说他们只改善了2分。临界点分析就是这样工作的,你增加delta,直到结果不再显著。此时的delta值就是“临界点”。Marcio提到他们测试到2.5分,P值仍为0.026。
基于你到目前为止听到的内容和对数据的评估,你认为随机缺失仍然合理吗?
这取决于我们谈论的是哪种患者。如果是在第56天主要终点前有多个ADL测量值且仍在用药的患者,可能非常合理。如果是很早就退出、没有随访测量值或停药的患者,我认为可能性较小。
Marcio,你提到了你们进行的临界点分析。Chuck,或许你可以解释一下临界点分析的工作原理。Marcio说他们测试到2.5分,0.5个标准差,P值为0.026。你的初步印象是什么?
不,你说得对。
好的。
好的,让我回顾一下临界点分析的工作原理。这是在非随机缺失数据的背景下。我们必须假设活性药物组患者在数据缺失时的情况会恶化多少。因此,我们基本上是说,通常你从预期的轨迹开始,但现在他们产生了缺失数据,我们要将预期轨迹降低一定程度。
通常这些被称为delta调整。所以我们做一个小的下降。例如,我们预期患者的ADL改善3分,现在我们将其改善减少1分,即delta为1,说他们只改善了2分。临界点分析就是这样工作的,你增加delta,直到结果不再显著。此时的delta值就是“临界点”。
我对Marcio方法的一点挑剔是,临界点分析应该一直进行到结果翻转,不再有统计学显著结果。他们在约0.5个标准差处停止了。我稍后会谈到这一点。这就是临界点分析的工作方式。在他们的案例中,他们测试到0.5个标准差,结果仍然显著。因此,他们尚未达到该分析的临界点。有人质疑0.5个标准差是多还是少?0.5个标准差是中等效应量。
ADL量表上的2.5分变化大约是临床重要差异。因此,尽管我挑剔说他们应该继续进行直到临界点,但他们测试到了相当大的效应量,结果仍然显著。
Marcio,我有几个问题。但首先,有人指出我刚才说错了,你的……
你漏了一个零。我正要纠正你。
是的,是2.5分,P值是0.0026,抱歉。
这里多了一个零。但这就是这个项目的开始,多了一个零。
零太多了。你们如何确定2.5分作为0.5个标准差?其理由是什么?你们似乎没有完全披露主要终点的标准差,我记得基线是2.4,但具体是多少?以及,Chuck的问题是,在什么点结果失去显著性?
首先,我同意,如果你合理地假设要继续进行。记住,研究是在5%的alpha水平控制的。在某种意义上,你成败在此一举。这是你宣布研究成功与否的标准。我认为我们现在所说的在某种意义上是额外的。在我们最疯狂的梦想中,我们是否曾想过在敏感性分析中使用超过2.5分的惩罚?没有。
当我们提交2.5作为最大值时,FDA有评论吗?没有,他们也没有批评这一点。现在回想起来,我会预先指定继续进行吗?当然,这没有错。在2.5分时P值为0.0026,这个数值当然要大得多,我认为可以说你必须超过5%的阈值,我们现在是0.26%,你可以想象这个数值要大得多。我们需要更大吗?答案是否定的。我们更大吗?是的。大很多吗?是的。这应该结束这个话题,因为这是敏感性分析,甚至不是主要分析。如果主要分析的P值是0.0026,我们会很高兴。而我们现在谈论的是带有惩罚的敏感性分析。我之前说过有些事情有点愚蠢,这就是其中之一。
Chuck,从你的角度来看,在临界点分析中使用0.5个标准差的惩罚有多标准?这有多稳健?或者你会说,也许应该是0.75个标准差或1个标准差?就Marcio的观点,他们设定了一个数值,并且显然可以超过它。但对那些说“为什么不进一步”的人,从标准实践或你的角度来看,0.5个标准差有多稳健?
再次,吹毛求疵的话,我更希望看到正式的临界点分析,一直进行到结果翻转,然后你可以说,直到1个标准差才翻转,这是不合理的。这就是敏感性分析的作用。但话虽如此,0.5个标准差被广泛接受为中等效应量。你是说你要将活性药物组的效果降低一个中等效应量。而且,正如Marcio所说,P值非常小,这意味着你可以进一步降低而不翻转结果。
因此,我更多的是吹毛求疵,而不是强烈担忧。我看了之后说,为什么不继续进行?但好吧,P值在0.5个标准差时为0.026,0.5个标准差是中等效应量。我对此并不过分担心。
有人可能会说,既然我们正在与FDA积极讨论,我也要小心一点。但在3分时翻转了吗?没有。3.5分呢?没有。4分呢?没有。然后到了我说的“愚蠢”的地步,因为现在我们对整个研究施加的惩罚量在高度异质的患者群体中是不合理的,而且安慰剂的效果很小。你必须将临床背景纳入统计分析。
Marcio,你的观点是,当惩罚达到4分时,你实际上是将患者的情况降到了甚至低于安慰剂的反应水平。
现在我们是在损害患者的利益。说这种药物会让患者恶化,这合理吗?我认为这变得不合理了。
Marcio,所有分析都是基于MIT人群,即至少有一次基线后评估的人群。我知道你们与FDA达成一致,这是主要分析人群。但我们收到了关于ITT人群的问题。你能谈谈这对分析的影响吗?
当然。我可以将两件事分开。ITT对结果有什么影响?没有,因为没有基线后数据,MMRM会直接剔除。但这可能不是你的问题所在。你的问题可能是这些患者发生了什么?这就是“跳转到参考”分析很重要的地方。你说对于这些患者,我们也将其数值替换,假设他们没有反应。
我们知道情况并非如此,我们知道很大比例的患者有反应。我们在“跳转到参考”分析中进行了非常严格的惩罚。我们展示了这些数据。但我还要提一下,因为这是一次投资者电话会议,我们还做了另一种敏感性分析,没有在演示文稿中,但完全用0替换他们的变化值,即基线结转。你说这些患者完全没有变化,而安慰剂实际上有微小的改善,这种情况下结果仍然是阳性的。
因此,如果有人担心主要分析的敏感性,那是没有必要的,因为主要分析的P值为10的负6次方,每个时间点都是阳性的,通过不同的填补方法很难否定零假设。
Chuck,你如何看待将第14天前退出的患者视为随机缺失的合理性,因为我们没有这些患者的观察结果?
如前所述,不幸的是,我们无法仅通过观察数据确定数据是随机缺失还是非随机缺失。有时我们会得到线索。例如,如果你有一系列数值,然后知道患者因不良事件停药,你有临床预期他们会发生某种变化。但对于这些几乎没有任何信息的患者,甚至没有线索来指导我们的假设。
因此,如果你想进行ITT分析,主要分析是改良意向治疗(MITT)。当预先计划的分析是改良意向治疗时,我不会太担心。考虑意向治疗总是好的,但在这种情况下,你肯定需要使用某种非随机缺失数据的敏感性分析方法来进行压力测试,看看会发生什么。
Marcio提到了“跳转到参考”分析,这是他们进行的分析之一。Chuck,或许可以简要介绍一下这种分析的工作原理,以及它如何增加数据的稳健性。
这是另一种被广泛接受的非随机缺失机制评估方法。在许多情况下,这与临床情况相符。它只是说,如果你有一种药物,你认为一旦有人停药,他们的情况会像安慰剂患者一样。我将安慰剂组的数据模式作为参考组。我假设这个人立即变成了对照组患者。我假设这是本研究中使用的参考组。这是一种相当保守的方法,假设他们的情况立即与安慰剂患者完全一样。
Marcio,我想问,次要终点如何帮助我们了解整体人群?然后我也想听听Chuck的看法。
首先从统计学角度谈谈它们的处理方式。主要终点必须是阳性的,然后次要终点按顺序测试。我很高兴你问这个问题。我们评估了多个次要终点,它们都是阳性的,P值都非常小。我们之前没有公开说过,每个时间点的次要终点也都是阳性的。当你看次要终点的结构时,第一个是临床结果评估,即主要终点MADL,由临床医生评估。
然后我们看整体效果,不仅在一个时间点,而是整个轨迹,其P值达到10的负7次方量级。所以在这项研究中,患者的整体状况非常好。然后我们问患者如何看待自己的健康改善(PGI),临床医生如何看待(CGI),所有这些指标。在其他研究中,你通常不会看到所有次要终点都阳性,它们不会相互冲突。但在这项研究中,所有次要终点都显示出获益。
Chuck,你如何看待次要终点对你整体数据评估的影响?
我经常在非监管环境中工作,在那里这一点尤为重要。但即使在监管环境中,我也没有什么要补充Marcio的。我做同样的事情,看次要结局,特别是那些我认为与主要结局高度相关的,如果它们不一致,尤其是方向相反,会发出危险信号。当所有结局都一致,效应大小方向相同,尤其是都有统计学意义时,这对主要分析是很强的支持。
Marcio,你提到“跳转到参考”分析非常成功,稳健性很高。在模型失效之前,你能比安慰剂多推进多少?
你可以回到之前说的,将第14天前退出的患者的变化值替换为0,即完全替换,平均减少1.5到1.7分,因为安慰剂的效果就是这样,结果仍然高度显著。你可以假设患者比基线更糟,从缺失数据的角度来看结果仍然显著。如果有人认为这种药物会让患者恶化,那他们一定是疯了。因此,主要分析的稳健性应该是毋庸置疑的。
Marcio,在我们讨论整合数据之前,我想快速总结一下今天到目前为止的内容。我在通话过程中整理了一个矩阵。请给我一点时间。
好的。我不喜欢惊喜,但请说吧。
我们来过一遍,主要终点如Marcio所述是显著的;所有时间点的MMRM分析仍然显著;PGI、CGI次要终点按观察值分析显著;非随机缺失敏感性分析(惩罚>2.5分)仍然显著;跳转到参考(安慰剂)显著;ANCOVA跳转到安慰剂显著;回到最初的第77-84天MMRM分析也显著。Chuck,当你看到这个矩阵时,对于一个有这样研究体系的项目,你的反应或观点是什么?
我区分两个问题:主要终点的选择,我认为相对次要;证据的强度,即使将终点视为共同主要,结果仍然显著;处理缺失数据的关键是进行多种合理的敏感性分析。因此,我很高兴看到针对缺失数据的多种敏感性分析方法。
时间快到了,我想谈谈整合分析。我们收到了一些观众的问题。Marcio,有一些替代假设和额外的整合有效性分析,比如假设3和假设4,能否简要谈谈你认为这些如何影响机构的观点?Chuck,你如何看待这些分析?
我先从比较这类分析的问题开始。通常我会听到,第二项研究没有对照组,不是同时进行的,没有使用相同的协变量等等。但这里不是这样。这两项研究从一开始就根据相同的参数进行分层。我们想知道研究2的组与研究1的组有多一致。患者不知道自己在哪个研究中。
当然,我们不期望完全相同,但结果非常一致。你看到了整合分析。我可以告诉你,Essential One的安慰剂组和Essential 3的安慰剂组非常相似。研究1的药物组和研究2的维持期药物组也非常一致。然后我们问了一个略有不同的问题——这是另一位杰出的统计学家建议的,我希望能归功于自己——为什么不正式比较研究1的安慰剂组和研究2的药物组,因为患者不知道分组。这是假设4。所有这些都是显著的。当然,当每个单独的比较都是显著的,并且结果在效应大小上一致时,整合后会更显著。P值达到10的负12次方量级。但效应的一致性对于临床决策很重要,而且你在FDA的审查中反复看到他们提到效应的一致性很重要。想听听Chuck的看法。
你说得对。当你用不同方法解决同一个问题,结果相似时,不会有问题。当然,如果你每个单独的比较都是显著的,并且效应大小一致,整合后会更显著。当人们将多个不显著的结果合并来“拯救”时,我会产生怀疑,这时危险信号会响起。
你的意思是,通过扩大人群,你可能会过度强化一个非临床意义的效应?
不,我的意思是,一项研究的P值为0.06,另一项类似效应的P值为0.08,然后合并得到P值0.03,这会引起怀疑。
这完全不是我们的情况。我们每项研究都是阳性的,合并后P值为10的负12次方,这只是逻辑结果。但一致性很重要,无论是临床决策还是FDA审查,他们都强调效应的一致性。
Chuck,观众的一个问题是,公司在3月份进行了无效性分析,投资者难以理解为什么3月份的无效性分析后,完整研究结果不仅阳性,而且具有压倒性的统计显著性。从你的角度,这是否会引起红旗,或者这种情况发生的可能性有多大?
是的,会让我更仔细地审查研究的因素包括:终点变更、较高的缺失数据率,以及无效性分析提示可能停止研究。我不知道无效性分析的具体细节,但通常你会预测完成数据收集后获得统计学显著结果的概率,这需要一定的假设。
如果中期分析在中途进行,还有一半数据未收集,如果后续数据比预测更乐观,那么预测的无效概率可能不准确。事实胜于雄辩,现在我们有令人信服的结果。这种情况会发生,小概率事件也会发生5%或10%的时间。
无效性分析是否可能影响公司改变终点的决定,这会引起问题吗?
这涉及多重检验问题。当时的选择是,如果你进行了无效性分析,你能做些什么来提高成功概率?比如,如果药物起效快,可能将终点提前。这是一个小的调整。但需要考虑多重检验,如果将两个时间点视为共同主要,需要调整alpha。但这里P值非常小,即使调整后仍然显著。
Marcio,事后看来,你们设定的无效性阈值是什么,你认为假设中可能存在什么缺陷吗?
事后诸葛亮很容易。如果结果不好,就说决定错了。决定是基于当时的信息做出的,应该根据结果来判断。我们当时的决定是科学合理的,就像Chuck说的,我们知道药物起效快,浓度高。
我完全同意调整时间点是一个小的改变。现在用已知结果重新计算,无效的概率并不像人们想的那么小。大多数人认为无效性建议意味着成功概率为0.001%,但事实并非如此。当时的假设就是这样,结果发生了。我很高兴我们没有停止,当时研究几乎完全入组,这让我们能够完成。但纠结于“如果”没有帮助,结果是阳性的。
最后一个问题,Marcio,你们是否对原始主要终点进行了诸如“跳转到参考”等敏感性分析,这可以说是最保守的?
是的。你可以想象,原始终点也经过了压力测试。我们还做了Chuck提到的其他事情,比如移除所有协变量重新运行,添加每个协变量运行,试图找到任何可能破坏结果的因素。对我们来说,重要的是我们是否被结果误导了,答案是否定的。这是一个非常强的结果。说实话,Chuck,我知道我们都关心市场和投资者,但这些患者没有其他治疗选择。这就是我们开发这种药物的原因。这是一种非常有效的药物,将为很多人带来缓解。我们很高兴能与FDA进行这样的讨论。
Chuck,最后请你用一两分钟总结一下今天的收获,你对数据集的稳健性有何看法?
总结并略微更新一下,分析策略很强,我不会建议不同的方法。我们没有讨论的一些技术细节选择也相当保守,导致稳健的分析。潜在的小红旗:终点变更、较高的缺失数据率、临界点分析未进行到终点、无效性分析。但我对所有这些都感到放心:进行了多种敏感性分析,有些预先指定,有些没有;即使压力测试,P值仍然很小。
Chuck,非常感谢。Marcio,感谢你抽出时间,接受我和Chuck的提问。今天的会议到此结束。
好的。谢谢。很高兴认识你,Chuck,谢谢Doug。