五问ChatGPT医学影像新一代的

来源：语言识别时间：2024/12/4

自ChatGPT引爆人工智能领域以来，迅速吸引了来自不同领域的科学家和从业者的目光，期待着这一里程碑式的技术为自己的行业带来新的变革。

近日，上海科技大学生物医学工程学院创始院长、联影智能联席CEO沈定刚教授主持举办了一场线上MICS学术沙龙活动，乔治亚大学计算机科学系终身教授刘天明，美国亚利桑那州梅奥诊所放射肿瘤学教授和医学物理部科研主任、AAPMFellow刘伟，美国伦斯勒理工学院生物医学工程系P.K.Lashmet讲席副教授闫平昆，哈佛大医院讲师李响四位学者，共同探究ChatGPT在医学影像领域中的诸多可能性。

在讨论中，刘天明指出，ChatGPT的效果惊艳，是因为采用了In-contextLearning或者叫做Prompt（提示词）等技术，同时利用具备大量参数的Transformer对转换为向量的文本进行处理。这些技术的发展都需要长期的积累和研究。

然而，在医学等专业性较强的领域内，ChatGPT的表现还不够好，仍需对其进行从常识性知识到生物医学领域知识的迁移和进一步的学习训练，以提升其在专业领域中的表现。

刘伟表示，如果想将ChatGPT应用到医学影像之中，多模态学习必不可少。医学领域中目前存在很多的图像、音频、文本等不同种类的数据，必须利用多模态学习将其进行结合，才能应用在临床工作中。

此外，还要考虑到特定领域数据的限制，针对医学这种专业领域的数据，需要使用更专业的提示词来生成问题。

李响分享了团队的一个新进展，他们尝试利用包含了医学领域专业知识的知识图谱来帮助更好地使用ChatGPT。

知识图谱可以加在整个流程之中，不论是文本的输入、语言的生成还是ChatGPT的效果改善等。

但是，获得一个好的知识图谱很困难，李响团队正在尝试利用ChatGPT从大量的专业语料库中自动发掘知识图谱，为语言模型在临床工作中的部署提供重要的先验知识。

闫平昆则认为，从影像分析的角度来看，ChatGPT之所以如此成功，尤其相较于现在的视觉模型而言，是因为它学习的对象——文字，具有人类表达方式的先天优势。

当前阶段应该考虑的是，如何将图像信息更好地输入进大模型之中。一种方法是通过图像分析模型提取图像中的信息，将其发送给ChatGPT。另一种方法是多模态学习，特别是视觉-语言学习。将图像信息与语言结合在一起后，就可以直接对图像信息进行编码，与文字一起发送到大模型中。

以下是此次研讨会的主要内容，雷峰网《医健AI掘金志》做了不改变原意的编辑和整理（文章末尾可查看此次学术沙龙涉及的文章列表）：

沈定刚：首先来介绍一下我自己对ChatGPT的认识，OpenAI是一家小公司，只有87个年轻的员工，平均年龄为32岁，大部分员工都是90后。

在数据分析领域，年轻人是非常重要的力量，从ChatGPT团队取得的成就也可以看出，我们要支持年轻人的发展，为他们提供成长的机会。

虽然人数不多，但ChatGPT团队的成员都是名校毕业、曾在知名公司工作的经验丰富的人才，如谷歌、Facebook、NVIDIA、Microsoft、DeepMind和Apple等企业。

ChatGPT的团队构成比较均衡，包括本科生、硕士研究生和博士，各个级别的人才都很重要，这样才能把技术做好。这个团队虽然年轻，但经验非常丰富，成员中也有包括顶尖的AI科学家。

这样的成员构成使得他们能够在AI领域取得很好的成绩，也证明了人数并不是唯一的关键，团队的质量更重要。

很多人疑问，为什么ChatGPT出现在美国而非其他国家？

在人工智能领域，中国发表了非常多的论文和专利，但其中的大多数都来自于高校，而美国的论文和专利大多数来自公司。

高校和公司都在做同样的事情，但是很多创新和资源都在公司。因此，高校需要与公司进行紧密的产学研结合，协同创新，才能体现出高校独有的特色和优点。

在科学研究和技术创新方面，美国起步很早。早在年，美国就开始做老化研究，通过测试了解人的身体、认知、情绪等方面的变化，年就开始使用磁共振技术进行研究。

在过去的几十年中，许多重要的研究项目都采集了大量数据，这些数据被保存下来并一直在被研究。这些项目的成功与否与其前瞻性、长期性和理想主义密切相关。

一些早期采集的数据在当时无法得到很好的分析，但现在随着人工智能和深度学习技术的发展，这些数据成为了非常有用的资源，对于了解人类的早期发育、认知、神经系统疾病等方面非常重要。

如今，人工智能已经进入AI2.0时代，大领域模型在数据足够多且模型足够大的情况下可以取得飞跃性的性能提升。

在医学和影像领域中，我们需要一个视觉模型来帮助医生诊断病情。相对于视觉模型来说，语言模型更容易训练，因为前后有逻辑关系，而且可以从互联网和书本中获取数据进行学习。

而视觉模型需要学习的是每个位置与其他位置之间的关系，非常困难。我们可以利用语言模型来帮助视觉模型的学习。

例如，视觉模型从图像中识别出病灶位置，将其告诉语言模型，语言模型根据之前的学习经验指导视觉模型去其他位置检查是否存在病灶。

我们将语言模型与视觉模型结合起来，让二者相互配合，即可提高整个系统的能力。

初期，语言模型与视觉模型的水平可能存在差异，但随着合作的深入，二者可以联合工作，最终达到像AlphaGo下棋一样高效合作的目的。

下面回到我们今天的问题上。

沈定刚：ChatGPT的成功在技术上有哪些要素？这些技术对医学影像的分析有什么样的启发？

刘天明：我认为ChatGPT在技术上是需要长期积累的，可能需要十年到十五年的时间。其中最重要的两个技术是WordEmbedding和Transformer。

WordEmbedding是十多年前出现的技术，它将单词转化为一个向量，放入一个Embedding空间中，这是一个革命性的技术。而Transformer是近年来非常热门的技术，它在语言和视觉领域都有很广泛的应用。

我认为最近出现的ChatGPT能够做得这么好，是因为它采用了In-contextLearning或者Prompt等技术，能够将文本转化为向量，再利用Transformer进行处理。这些技术的发展都需要长期的积累和研究。

李响：ChatGPT的成功是因为它可以同时完成多个任务，这种多任务的方式在医学影像分析中也很重要。

ChatGPT的训练方式相对容易，因为语言是一种顺序的任务，而图像则需要考虑多个方向上的相关性。

“Maskedautoencodersarescalablevisionlearners”等文章探索了图像多任务学习的方法，但目前还没有类似于ChatGPT的大规模，多任务图像模型出现。未来在医学影像和信号处理中，多任务和多模态集成的方法可能会得到更多的应用。

闫平昆：沈定刚老师、刘天明老师和李响老师从不同角度介绍了ChatGPT技术，我从图像的角度介绍一下。

ChatGPT使用的硬件和网络架构都很厉害，它的模型量很大，从小到大分别有兆和亿个参数，下一步要考虑的问题就是如何把视觉模型做得更大。

此外，ChatGPT不仅学习语言，还学习了编程语言和互联网上的代码，这说明对ChatGPT来说，不同的数据代表着不同的价值。

第三，提示技术和高质量数据也对模型性能的提升有很大的作用。强化学习和Humanintheloop等也是重要的因素。

刘伟：我是一个临床医学物理师，专注于放射治疗。

我认为ChatGPT在一般的医学知识方面表现出色，但在更具体和相关性更强的领域，例如放射学，表现并不出色。

这可能是因为ChatGPT是通过强化学习进行训练的，而且专家的介入有限。如果我们想要提高ChatGPT在这些领域的表现，我们需要进行专家介入的强化学习，这可以通过专家的反馈实现。

此外，ChatGPT的数据来源是互联网，其中与医学领域相关的知识相对有限，主要是为了科普性质的知识。

因此，如果我们可以收集大规模的医学图像、文本数据，并通过专家的介入进行训练，我相信ChatGPT在医学领域将有更广泛的应用。

沈定刚：我们应该如何在医学影像领域中应用和集成ChatGPT？

刘天明：我认为刚刚刘伟老师说的话题很好，从人类反馈到专家反馈的强化学习是在医疗影像中应用和集成最关键的因素。

ChatGPT利用公开的常识性知识生成语言和答案时，已经做得非常好了，但我们在和医生、药剂师的一次讨论中发现，ChatGPT在他们的专业领域生成的语言和答案时往往并不合理。

当下人们对ChatGPT的反馈可以分为两类：一类认为它在常识性的知识上做的非常好，另一类则认为它在专业知识领域一本正经地说瞎话。

因此，在ChatGPT的训练中增强专家的反馈非常关键，必须将专家的反馈纳入循环中，才能进一步提高ChatGPT的质量。

一年多前我们发表了一篇有关放射学的文本分析文章（ClinicalRadioBERT:Knowledge-InfusedFewShotLearningforClinicalNotesNamedEntityRecognition），我们将积累的几万篇公开数据应用在文本分析中后，得到的结果比以往的常规分析要好得多。

因此，在ChatGPT的训练中，也需要逐步从常识性知识升级到生物医学领域知识，再升级到放射学领域知识。

当然，放射学是一个非常大的领域，要将这一领域细分到什么程度，才能达到我们想要的效果，仍需各位专家来界定。

闫平昆：刘天明老师提到了强化学习中的人类反馈，是ChatGPT中一个非常重要的技术，我们应该将专业医生的反馈更多地融入其中，让ChatGPT像超人一样从弱小到强大地成长起来。

ChatGPT在进行训练时，使用了大量由人工标注的材料和反馈样本，才能够达到如今的效果。

将来我们在训练自己的图像模型时，也要花费更多地耐心和精力去准备数据，毕竟机器学习的特点就是“GarbageIn，GarbageOut”，如果数据质量不够好，模型的性能也上不去。

另外，刘天明老师刚刚提到PromptEngineering提示工程，也是非常重要的一个技术。

十几年前做机器学习时，人们都在做特征提取，深度学习出现以后大家又改做NetworkEngineering网络工程，而现在进入人工智能2.0时代，每个人都有自己定制的提示服务。

李响：这个发展其实很有意思，越来越多对深度学习或机器学习不够熟悉的人，也能通过自然语言来实现这些技术。

In-ContextLearning解决了pretrain大模型的问题，是一个非常有用的技术。它不仅在技术上有改变，同时也在社会经济上对人类行为上有所改变，使得AI的受众变得更广泛，医生现在也可以自己做NLP相关的AI研究了。

在没有基于In-ContextLearning的ChatGPT之前，医生们根本不可能完成这些事情，这是一个思想意识上的巨大转变。

在利用专业知识方面，ActiveLearning和FederalActiveLearning在这个过程中都起到非常重要的作用，这是最核心的一个步骤，虽然只是一个小数据，但能够撬动整个大模型，使其向更好的方向发展。

这一过程仍有很多设计上的问题需要解决，也许暂时还回答不了，但我们目前已经在进行这方面的研究。

刘伟：如果我们想将ChatGPT应用到医学影像之中，那么多模态学习就是必不可少的。医学领域中目前存在很多的图像、音频、文本等不同种类的数据，必须利用多模态学习将其进行结合，才能应用在临床工作中。

此外，还要考虑到特定领域数据的限制，针对医学这种专业领域的数据，需要使用更专业的提示词来生成问题。

第三，ChatGPT目前使用的是一个很简单的训练奖励模型，回答的结果仅仅由人来进行简单的评估，我认为将来应该进一步提升这一环节的复杂度，利用多模态学习等技术，进行多维度评估。

沈定刚：简单来说，要将ChatGPT技术应用在医学影像或放射学等领域中，需要将相关领域的知识和信息融入到ChatGPT的模型之中，以提高其在该专业领域中的表现。具体而言，可以通过以下方式来实现：

提供大量领域相关的数据来训练模型，包括诊断结果、医学影像、学术论文等；

用领域专家的知识，例如医生、科学家等，对模型进行指导和改进；

将领域特定的语言和术语嵌入到模型中，从而使其能够更好地理解和处理该领域的内容；

将模型应用于特定领域中的具体问题，例如医学影像诊断，并将其与人类专家的表现进行比较和评估。

总之，在特定领域中应用ChatGPT技术，需要一定的领域知识和专业指导，并将其与具体问题相结合，以发挥其最大的作用。

沈定刚：如何利用成像AI和放射学的知识来提高ChatGPT？如何进一步开发面向放射学的大语言模型？

刘天明：我先说几个例子，它们是我们正在进行的项目的实例，我们有第一手的经验和体会，也取得了一些结果。就我目前的观察而言，ChatGPT在临床放射领域的应用会非常广泛。

第一个例子是，ChatGPT的推理能力非常广泛，只需要将临床放射领域的数据提供给它，就可以进行很好的推理。

在我们目前在做的一个项目中，将放射科等各个科室中的文本数据转化为ChatGPT可接受的格式，利用ChatGPT推理对应的疾病产生的原因以及未来的发展趋势。

第二个例子是通过ChatGPT对癌症病人的管理，特别是放疗的临床节点进行预测，这个项目目前已经启动了。

第三个例子是在临床诊断中，通过提示工程将文本和数据嵌入特征空间，利用特征空间对病人进行聚类、分层或者诊断。

这些例子很快就能得到结果，可能会比以前的方法好很多。我认为，这只是ChatGPT在临床中的一小部分应用，在未来，临床上所有我们能想象到的技术、工具，基本都能够通过ChatGPT来实现。

另外，多模态问题也非常重要，我们正在通过多模态的In-ContextLearning将图像特征、文本特征以及医生的眼动数据进行相互联系，实现一键生成诊断报告。

沈定刚：谢谢天明，他刚刚提到的眼动技术很重要，尤其是对于语言模型的训练，因为眼动数据更具规律性。

相比之下，从各个方向都有联系的图像数据中学习规律要困难得多。

在医生进行诊断过程中，记录医生的眼动即可自动记录医生的

转载请注明：http://www.0431gb208.com/sjszlfa/7963.html

上一篇文章：英语写作的苦,AI能帮你尝砍柴网

下一篇文章：人工智能十大算法揭秘背后的神秘力量