这种疗法在临床上有用吗?
指导书前面的部分列举了一个标准清单,读者可用它来区分有效研究和无效研究。通常说来,不符合大多数筛选标准的研究最好忽略不计。本章考虑治疗师应如何解释那些符合大多数筛选标准的研究。应该知道,仅仅寻找统计学上有显著意义的疗效证据是不够的。一项试验必须满足以下条件:试验所测量的结果是有意义的,所取得的正面疗效要大到足以使治疗值得进行;其有害作用则必须很少出现或很小,从而益处多于害处;最后,该疗法必须比较节省。
当然,试验要有用,必须先调查疗效是否有意义。这意味着必须对治疗结果进行有效测量。一般而言,由于我们经常根据治疗是否满足了病人的需要来判断治疗的主要价值,所以测量结果对病人要有意义。因此,表明低功率激光减少疼痛的试验,比表明低功率激光降低血清素水平的试验要有用得多。表明运动训练减少痉挛的试验,却不如运动训练强化功能独立性的试验那么有用。
治效的大小显然很重要,但常常被忽略。也许这是因为许多临床实验的读者忽略了 “统计学意义”和“临床意义”之间的差别,或者可能是反映了许多临床试验的作者对“p < 0.05”先入为主的观念。统计学意义(“p < 0.05”)指能否合理地认为疗效大于偶然因素所引起的结果。这一点非常重要(我们需要知道所观察到的疗效不仅仅是偶然因素引起的),但是其本身并不能说明实际疗效有多大。对治疗有效性的最佳估计值是组间平均差。因此,如果一项关于关节松动术疗效的假设试验报告表明:肩部疼痛的视觉类比标度(VAS)为10cm,在治疗组降低了4cm,在对照组降低了1cm,我们对疗效的最佳估计值是视觉类比标度(VAS)降低了3cm (4cm 减去 1cm = 3cm)。另一个运动前肌肉拉伸假设试验报告显示:拉伸组有2%的病人受伤,而对照组有4%的病人受伤。在这种情况下,我们的最佳证据是:拉伸将损伤风险降低了2%(因为4% 减去 2% = 2%)。临床试验读者需要查看所报告疗效的有效性来决定疗效是否足够大而具有临床价值。要记住的是,病人寻求治疗通常是为了治愈疾病(当然这种归纳不一定适用于所有的临床试验领域),大多数人对疗效甚微的治疗不感兴趣。
在查看疗效时,有一个非常重要的细微差异。它适用于测量结果采用二分值的研究。(二分值的结果可以是两个值之中的一个,如死亡或存活,受伤或未受伤,入住养老院或未入住养老院;它与VAS疼痛视觉类比标度之类的变量不同,后者可以是0至10之间的任何数值,包括0和10)。许多测量结果采用二分值的研究报告疗效时采用比率(有时也称为“相对风险”或“胜算比”或“危险比”,同时还有其它名称),而不是采用组间差。如果采用这种表达方式,我们假设的拉伸研究结果报告可以声称受伤危险降低了50%(2%是4%的一半)。通常用比率表达疗效可以使疗效看起来非常大。组间差是一种更好的测量形式。(实际上,最有用的测量值或许是差值的倒数,有时也称“需要治疗的人数”,因为它说明指平均需要治疗多少个病例才能防止一例不良事件。在拉伸例子中需治疗数为1/0.02 = 50,因此每50个受试者进行拉伸,可以防止一例损伤)。
许多研究没有报告治疗的有害作用(如:治疗的“副作用”或“并发症”)。这很让人遗憾,因为不报告有害作用常常被解释为治疗没有害处,但是事实不一定如此。Glaziou 和Irwig (BMJ 311: 1356-1359, 1995)认为,疗效通常在病情最严重的病人身上表现最为显著。(例如,头部受伤病人使用支气管抽吸来降低呼吸停止风险,大量痰积的患者的疗效可能比微量痰积的患者更为明显)。相比之下,治疗的风险(在本病例中,即颅内压升高的风险)趋向于相对不变,跟病情严重程度无关。所以,一种治疗方法用于严重病人时,其有利作用大于毒副作用;如果患者病情较轻,治疗副作用可能很严重,治疗师就不太愿意使用这种方法。
实际上,临床试验通常难以识别有害作用,因为有害作用往往不经常发生,大多数研究的样本数量不足以发现何时发生有害作用。因此,即使对一种疗法进行了非常好的随机控制试验,仍需要进行大量的监测研究:即对大批量的治疗病人进行跟踪访问,以确认没有发生较多的有害事件。在没有完成监测研究之前,治疗师要十分谨慎地使用可能存在有害作用的疗法,尤其对那些治疗时疗效相对不大的病人。
更精细的评论会考虑到临床试验的疗效估计值不精确的程度。试验是对受试者样本进行的,并预期这些受试者能够代表某个特定人群。这就意味着试验至多只能提供疗效的估计值(并非完全精确)。对大量受试者进行临床研究,所获得的疗效估计值比对少量受试者的临床研究更好(更精确)。读者在判断临床试验的意义时,最好应考虑到估计值的不精确度,因为不精确度常常会影响到某项特定试验所得结论的确定性程度。做到这一点的最好办法就是:如果试验报告没有明确提供疗效估计值的可信区间,就应计算出可信区间。Herbert RD (2000)提供了一份教程,教您如何计算、解释常见的疗效测量值的可信区间。“ 如何根据临床实验报告估计疗效I: 连续结果”, 澳大利亚物理治疗期刊46: 229-235 和Herbert RD (2000)“如何根据临床实验报告估计疗效 II: 二分值结果”,澳大利亚物理治疗杂志46: 309-313. 读者如果觉得可信区间太大或太小 PEDro的可信区间计算器。读者如果觉得可信区间太大或太小 PEDro的可信区间计算器。计算器是Excel格式。
要判定一项治疗的效用,最后一步就是判断治疗是否节省。如果由公众的医疗保健系统支付或补贴,这一点就尤其重要。永远都不可能有足够的经费来支持所有的医疗创新(甚至不够支持所有好的医疗创新)。因此,一定金额的医疗费用,一旦用于某项疗法,那么就不能花在其它医疗项目上了。合理分配有限的资金,就是要把钱用于每一元钱的平均疗效最好的疗法。当然,没有疗效的治疗不可能谈得上节省。但是有效的疗法也未必就是节省的。关于判断是否节省的方法,已经超出了本文作者的专长范围,或许最好参阅更权威的资料来源。感兴趣的读者可以阅读以下资料:
- Drummond MF, Richardson WS, O’Brien BJ, Levine M, Heyland D (1997)。医学文献用户使用手册:XIII, 如何使用临床试验经济分析的文章: A. 研究结果是否有效? JAMA 277: 1552-1557。
- O’Brien BJ, Heyland D, Richardson WS, Levine M, Drummond MF (1997)。医学文献用户使用手册: XIII,如何使用临床试验经济分析的文章: B. 结果为何,能帮助我照护我的病人吗 JAMA 277: 1802-1806。
本章小结:
统计意义不等于临床效用。治疗要有临床效用,必须满足下列条件:
- 能影响病人感兴趣的那些结果
- 疗效足够大,值得进行治疗
- 正面疗效大于有害作用
- 节省。
如果您想进一步了解有关评估疗效的信息,可以查阅以下资料:
Guyatt GH, Sackett DL, Cook DJ (1993)。医学文献用户手册》: II. 如何利用有关治疗或预防的文章? B. 结果是什么,它们能帮助我治疗病人吗? JAMA 271: 59-63。



