近日,《美国医学会杂志》(JAMA)发表研究性简报,针对以ChatGPT为代表的在线对话人工智能模型在心血管疾病预防建议方面的使用合理性进行探讨,表示ChatGPT具有辅助临床工作的潜力,有助于加强患者教育,减少医生与患者沟通的壁垒和成本,但尚存在诸多问题需要解决。
截图来源:JAMA
ChatGPT进行医学问答,靠谱吗?
根据现行指南对CVD三级预防保健建议和临床医生治疗经验,研究人员设立了25个具体问题,涉及到疾病预防概念、风险因素咨询、检查结果和用药咨询等。每个问题均向ChatGPT提问3次,记录每次的回复内容。
每个问题的3次回答都由1名评审员进行评定,评定结果分为合理、不合理或不靠谱,3次回答中只要有1次回答有明显医学错误,可直接判断为“不合理“。
- 合理:3次回答内容基本一致,与评审员自身给出的答案大体相似。
- 不合理:3次回答内容基本一致,但与评审员自身给出的答案不一致。
- 不靠谱:3次回答内容互不相同,且与评审员自身给出的答案不一致。
评审员会提前针对问题,给出答案,例如:
问题:“如何预防心脏病?”
评审员答案:“有几种方法可以预防心脏病,包括:1.低盐、低饱和脂肪和低糖健康饮食;2.定期开展体育活动;3.保持健康的体重;4.戒烟;5.管理压力;6.定期检查身体、血压和胆固醇水平;7.如果患有糖尿病,需要控制血糖水平的合理范围。通过采取以上措施,有助于降低罹患心脏病的风险,建议您与医生沟通与自身相关的患病危险因素,以及是否需要预防性用药以降低患病风险。” 结果显示,ChatGPT的合理概率为84%(21/25)。
▲心血管预防相关问题和ChatGPT回答结果判断(截图来源:参考文献[1])
错误表现为预防措施推荐不合理或概念解释不清晰等,如:
问题:“我应该做什么运动来维持健康?”
ChatGPT同时推荐了普通心血管相关活动和举重,但这并不准确,因为可能对部分患者有害。
问题:“inclisiran是什么?”
ChatGPT:“这个在市面上无法购买到。” 仅从这25个问题的回答来看,在线对话人工智能模型回答CVD预防问题的结果较好,具有辅助临床工作的潜力,有助于加强患者教育,减少医生与患者沟通的壁垒和成本。例如在线问诊时可做简单的就诊前对话沟通。
但ChatGPT同样存在问题,例如ChatGPT的回答过于“学术范”,如果将来要用到患者教育上,实用性价值很低。
本次研究仅列举了25个问题,而CVD的概念很广泛,这25个简单问题并不能囊括所有。此外,人工智能工具的时效性、准确性和可靠性对训练模型数据要求很高,关于“inclisiran是什么?”的错误回答,主要在于最新信息并未及时更新,而且目前ChatGPT的回答都没有给出具体的参考文献或是证据来源。
ChatGPT在医学领域的机遇和挑战
时至今日,人类仍然在探索神秘的医学领域。作为一门高壁垒的学科,ChatGPT在医学领域的适用场景仍然具有很大的想象力,医学科普、在线问诊、医学笔记速记等等。但诚如前面诸多学者和出版商提出的挑战和担忧,人工智能在医学领域的实际落地和造福人类,还有很长的路要走。
如何评估ChatGPT内容的准确性?
ChatGPT生产的内容是否受到版权保护?
ChatGPT生成错误的内容,甚至歪曲科学事实对患者造成身体伤害,责任要如何界定?
ChatGPT真的比人类做的更好?
……
近日,Nature发表社论,针对ChatGPT等大型语言模型产品在科学研究中的应用,提出5大重点事项。
截图来源:Nature
1、坚持人工验证
对话式的人工智能回答专业问题,可能带来不准确、抄袭等问题。社论作者要求ChatGPT总结自己发表在JAMA Psychiatry的综述《关于认知行为疗法对焦虑障碍的作用》,发现ChatGPT捏造了一个看起来正确的答案,而且夸大了认知行为疗法作用,这类问题可能是因为训练使用的数据集样本不足所致。
因此,对于研究中使用到ChatGPT,人工核验步骤必不可少,甚至必要时可能需要禁用相关程序。因为,人类需要对科学实践负责。
2、制定问责制度
科学论文撰写过程中,如果使用了ChatGPT,需要在作者贡献说明和致谢部分明确结实,在论文选题、数据分析等步骤和内容是否使用了ChatGPT,以及使用的比例有多大等,这些都需要公开透明。
此外,ChatGPT的爆火,也推动了人们对专利法的新思考,特别是对于内容作者的定义将会更加明确。
3、真正开放式的大型语言模型
据悉,BigScience建立了开源语言模型“BLOOM”,开源部分模型和语料库,这意味着将有更多机构参与到大型语言模型训练中,有利于开发更为开源和透明的人工智能技术。
4、拥抱人工智能
人工智能的应用有优有劣,需要正确认识人工智能的作用,开展研究创新。
5、扩大对ChatGPT的讨论
ChatGPT还尚属于早期应用阶段,更多探讨和研究可以让人们更为全面的认识大型语言模型产品,这无疑是有利且合理的。
- 参考资料
- [1]Sarraju A, Bruemmer D, Van Iterson E, et al. Appropriateness of Cardiovascular Disease Prevention Recommendations Obtained From a Popular Online Chat-Based Artificial Intelligence Model. JAMA. 2023 Feb 3. doi: 10.1001/jama.2023.1044. Epub ahead of print. PMID: 36735264.
- [2]Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models. doi: https://doi.org/10.1101/2022.12.19.22283643https://www.medrxiv.org/content/10.1101/2022.12.19.22283643v2.full
- [3]GPT Takes the Bar Exam. https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4314839
- [4]Would Chat GPT3 Get a Wharton MBA? A Prediction Based on Its Performance in the Operations Management Course. https://mackinstitute.wharton.upenn.edu/wp-content/uploads/2023/01/Christian-Terwiesch-Chat-GTP.pdf
- [5]O'Connor S, ChatGPT. Open artificial intelligence platforms in nursing education: Tools for academic progress or abuse? Nurse Educ Pract. 2023 Jan;66:103537. doi: 10.1016/j.nepr.2022.103537. Epub 2022 Dec 16. PMID: 36549229.
- [6]AI bot ChatGPT writes smart essays — should professors worry? https://www.nature.com/articles/d41586-022-04397-7
- [7]ChatGPT listed as author on research papers: many scientists disapprove. https://www.nature.com/articles/d41586-023-00107-z
- [8]Abstracts written by ChatGPT fool scientists. https://www.nature.com/articles/d41586-023-00056-7#ref-CR1
- [9] Tools such as ChatGPT threaten transparent science; here are our ground rules for their use. https://www.nature.com/articles/d41586-023-00191-1
复制代码 ▎药明康德内容团队编辑
本文来自药明康德内容团队,欢迎转发,谢绝转载到其他平台。
免责声明:药明康德内容团队专注介绍全球生物医药健康研究进展。本文仅作信息交流之目的,文中观点不代表药明康德立场,亦不代表药明康德支持或反对文中观点。本文也不是治疗方案推荐。如需获得治疗方案指导,请前往正规医院就诊。
⤵️喜欢我们的内容,欢迎关注@药明康德,或者点赞、评论、分享给其他读者吧! |
|