音频信息和自然语言处理在医疗领域中的应用

发布日期:2022-08-25

音频信息和自然语言处理在医疗领域中的应用

临床实践中,声学在各类科室中具有重要的意义,能够辅助不同科室筛查病症。而人工智能不仅能在常见的影像、导诊场景中发挥作用,还能结合声学分析,辅助进行智能筛查。总的来说,有两类声音可以用于声学智能辅助筛查的研究:

  • 认知功能、神经性退变引起的语音变化;
  • 器质性改变引起的声音变化。

声学智能辅助筛查的临床应用领域

(来源:吴梦玥,创新+沙龙讲座资料)

本期分享聚焦精神卫生领域,以声学智能辅助筛查抑郁症,来实现帮助医生建立标准、为诊断条件欠缺的患者提供便利的意义。

声音的变化已被纳入抑郁症的诊断标准,语音变化的特征容易被感知、提取,可进行语速变化、节奏和语调等变化的分析。还可以从文本入手进行分析,如把面诊的对话转换为文本,或对人群社交媒体的文本进行分析评估。抑郁症的症状复杂,低维特征可以描述疾病特性,但套用到机器学习的模型中则难以达到很好的监测效果。因而,不少研究人员尝试通过深度神经网络进行分类和检测。

吴教授为我们分享了她和团队在这个领域开展的三项工作:

基于自监督的抑郁症特征提取

自监督学习以数据驱动为主,采集面诊过程中的完整对话,对声学信号进行处理,区分讲话人物,模拟问答过程,并以人物的整段话或整句话为标注单位,进行建模、提取并区分相应特征。

为了让特征提取的方式更耦合抑郁症人群的表达,该模式采用生成式遮掩的特征预训练方法,训练针对抑郁症深度特征的提取器,对长序列音频特征进行提取。在下游任务中,用预训练得到的特征提取器替代传统的手工制定的特征,并结合BiLSTM模型进行分类,可以获得较高的分类准确性。

?

Zhang, Pingyue, Mengyue Wu, Heinrich Dinkel, and Kai Yu. "Depa: Self-supervised audio embedding for depression detection." In Proceedings of the 29th ACM International Conference on Multimedia, 2021.

抑郁症的症状复杂多变,相较于单一词汇分类的方法,长序列特征的模拟,更有利于把握抑郁症患者的综合特征。从回复级别分割的角度来说,句子或整段类型的长分割,分类效果会比短词更好。从遮掩预训练方法角度比较,遮掩中间的预训练效果最好,预测后向次之,预测前向再次之。

此外,以中文的MDD (Major Depressive Disorder) 数据集为例,抑郁症患者的特征分类与其人口信息较为相关,如受教育程度、居住地、生活状态等。用细粒度的层级分类,结合相应的语音特征进行分析,将会是未来的一个研究方向。

融合情绪特征的抑郁症检测

抑郁症影响人的情绪调节,它的识别与传统的语音情绪识别存在一定的关联性:给定一句话(文本或语音),通过算法来识别输出一个状态。抑郁症输出是否有抑郁的判断,情绪识别一般指输出四类情绪的分类结果。

它和语音情绪识别也有一定差异:情绪识别更偏向短时的标注 (one label per sentence),每一句话可以有不同的情绪表达。抑郁症的辅助识别则是长时间的,通过一整段对话 (one lable per interview),来识别人物是抑郁还是健康状态 (depressed or healthy)。抑郁症的患者并不是只表达消极的情绪,他们也会有开心之类的正向情绪表达。

因此,吴教授团队通过预训练情绪识别模型,将embedding layer提取为情绪特征,融合文本特征、声学特征,训练了一个LSTM抑郁症检测模型。

(来源:吴梦玥,创新+沙龙讲座资料)

在这个模型中,有两类情绪数据集:

  • IEMOCAP包括经典的四种情绪分类(开心、悲伤、中性、愤怒);
  • MOSEI是正向/负向的情绪数据集,数据资源通过公开网络获取(如视频网站、社交媒体等)。

(来源:吴梦玥,创新+沙龙讲座资料)

不难发现,加入情绪特征,可以提升抑郁症检测的鲁棒性。基于MOSEI-based特征性能表现较好,它的数据量、样本量更多,且情绪表达更加自然,与面诊情境下的目标表达差异更小(IEMOCAP中的四类情绪表达由专业演员完成)。

抑郁症人群在表达时,语音和文本体现出的情绪不一致,患者的声学表达可能是开心的情绪,文本检测却可能发现消极情绪。一个患者的四种情绪分类在不同的模态中是不一样的。对于所有模态来说,抑郁人群的消极情绪会获得更高的分数,而在单模态的情境中,抑郁症人群会表现出正向的情绪。

(来源:吴梦玥,创新+沙龙讲座资料)

基于此,该模型通过将文本、声音和情绪特征进行融合,提升了检测的效率,融合后的F1接近87%。

(来源:吴梦玥,创新+沙龙讲座资料)

智能抑郁症问诊对话系统

临床上抑郁症诊断主要以精神科医生面对面谈话+量表辅助的方式进行,但我国心理卫生资源严重不足,患者自主进行自评量表来评估又有诸多局限性,如果能采用人机问诊初筛的方式来辅助诊断,对于抑郁症人群来说,是有所助益的。

抑郁症问诊机器人的研发主要面临以下挑战:

 

  • 没有抑郁症问诊的对话数据集,数据匮乏;
  • 人机对话的通用模型不同,抑郁症检测是在医疗领域内,对情绪症状的识别,需要在特定领域进行预训练模型的实现;
  • 真实的问诊过程是混合型的对话,是任务型和闲聊型对话的融合;
  • 需要进行多任务的建模,一是对话任务,二是完成诊断任务。

吴教授团队采取在海量文本数据上做预训练,在小规模对话数据集上微调的基本思路,来研发智能问诊机器人,分阶段来进行数据采集:

  • 与医院合作、从社会公开层面收集人群信息,包括在核心症状上的表达,采集真实用户的数据
  • 建立纯文本形式的问诊对话数据集;
  • 专业医生结合被试人群的画像,对问诊对话进行诊断

分析发现,与传统的人机对话相比,真实的问诊对话的问答回合更多,每句话表达的长度也更长;总体抑郁症严重程度的分布较为均匀,与正态分布相关;对话中的话题由浅入深,且跨对话回合存在,共情也占有较大的比例,且始终存在。

(来源:吴梦玥,创新+沙龙讲座资料)

在此基础上,可以开展4类后续工作,来优化机器对话的理解程度,提供恰当的共情支持,丰富机器人的表达,让测试者明晰自己的状态,也可以通过程序,及时寻求医生的帮助。

回复生成:基于对话上文,生成医生可能的下一句回复。

话题预测:基于对话上文,预测下一句医生的话的话题标签。

对话摘要:基于整个对话,生成病人的症状小结。

风险分类:基于整个对话,对病人进行抑郁风险和自杀风险评估。

(来源:吴梦玥,创新+沙龙讲座资料)

其他声学检测的智能辅助筛查

通过融合不同的特征,人工智能算法可以对其他病症进行辅助检测:

  1. 融合发音特征,可对帕金森进行声学检测,辅助医生判断;
  2. 结合语义、句法复杂度,可以提升认知功能障碍的检测效能,辅助阿尔兹海默症的检测;
  3. 提高特异性及可解释性,在样本不均衡的条件下,优化咳嗽、心音、嗓音的检测。

对话式人工智能可以在理解式交互信息采集、智能信息服务、辅助诊疗等应用场景中发挥越来越大的作用,已有公共卫生研究、流行病学调查、慢病管理等方面的实践落地。以对话式人工智能为核心,声学、语言、知识计算为牵引,交互式、可解释的大健康应用为导向,将成为未来的一大趋势。

嘉宾问答

问:预测不同维度的抑郁症,是否需要应用不同的模型?

吴教授:首先需要明确“不同维度”的定义,比如MDD重症抑郁症算是一个比较特殊的维度,可能还会有轻症或者介于二者之间的界定。对于同一个模型来说建模没有太大的问题,但在最开始输入模型标签的时候,需要给出比较明确的界限,样本a和标签x之间的对应关系仍然需要输入给模型。

问:如何降低模型训练的门槛?

吴教授:可以基于大规模的预训练的中文模型,再针对细分的专门领域,使用相对少量的数据集进行重新训练,降低原始模型的训练门槛。

文中使用的图片及资料或已经过授权,或已标注引用来源,其他机构和个人请勿自用于改编和二次传播