文章目录
引言
- 这篇文章在整个排名中,位列第三,是少有的性能比baseline效果要好的,需要好好阅读一下。
正文
Abstract
模型基本结构
- 这篇文章是介绍根据自发语音实现多语种AD检测,我们的方法主要有两部分构成:
- 使用不同的音频特征和静音相关的信息,进行AD检测和MMSE预测
- 调整wav2vec2.0语言识别模型,将之应用在不同的频段上
模型效果汇总
- 整体性能是好于baseline模型的,主要分两个方面进行介绍
- AD检测方面,准确率是73.9%,通过在 0-1000Hz 频段语音上微调我们的双语 wav2vec2.0 预训练模型
- MMSE回归阶段,RMSE的值为4.610,主要是融合eGeMAPS和静音特征。
Introduction介绍
跨语言任务的独特性
- 目前根本没有任何研究是探索有哪些语音特征,能够转换并且应用在Ad检测上的。ICASSP2023年的信号处理挑战SPGC就是今年就是专门探索这个的,提出了一个基于自发语音的多语言AD检测比赛。
- 这个比赛主要分为两类,分别是分类任务和MMSE回归任务,都是在英语上进行训练,然后使用希腊语进行训练的。
思路启发和变化
- 《Disfluencies and Fine-Tuning Pre-Trained Language Models for Detection of Alzheimer’s Disease》这篇文章已经验证过了,对于单模态AD检测而言,语言不流利和预训练的语言模型是十分有效的。
- 基于此,为了应对这个挑战,我们尝试了两种方法:
- 使用预先定义好的音频特征
- 使用预训练的大语言模型
如何使用预定义好的音频特征
- 第一种方式是使用设计好的音频特征,进行AD检测。静音相关的音频特征和语言是独立的,并且适合别的特征进了融合,在这里,我们是用XGBoost进行Ad分类,使用SVR和XGBoost进行MMSE回归任务。
- XGBoost
- SVR
如何使用预定义好的语言模型——语言模型中获取韵律信息
- 第二种方法是微调预训练的语言模型,用来进行AD检测。我们在原始的英语和希腊语数据集上预训练了wav2vec2.0模型,然后使用低通滤波处理语音信号,保留语言通用韵律信息,这些信息是低频的,然后过滤那些高频的信息,比如说特定于语言的音素信息。
结果说明
- 通过对预训练的wav2vec模型进行微调,使之适应0-1000hz频段的语音,模型在Ad分类的准确率上达到了73.9%
- 通过将静音特征和eGeMAPS信息进行融合,对于MMSE的回归任务的RMSE分数达到了4.610
Dataset数据集
- 数据集使用的是ADReSS-M,包括了希腊语和英语两种语言的语音录音。
- 训练集:237段英语样例,8段希腊语样例
- 测试集:46段希腊语样例
- 训练过程中,37段英语数据作为验证集,200段音频作为训练集
- 8段希腊语作为我们希腊语的验证数据集
- 然后希腊语和英语的验证集会被同时用来进行训练
Mthods方法
使用设计好的特征进行AD检测
使用的特征
-
为了获取跨语言的音频表示,基于**《Multilingual Alzheimer’s Dementia Recognition through Spontaneous Speech: a Signal Processing Grand Challenge》**,我们设计了10种静音特征,具体构成如下
- 每秒钟的静音次数
- 静音时间和语音持续时间的比率
- 静音和语音持续时间的统计特征(最大值、最小值、平均值和标准偏差)
-
使用两个声音活动检测工具来定位静音段落的位置,具体使用的工具如下
- pyannote的递归神经网络
- 查询概率结束分类器:Improved end-of-query detection for streaming speech recognition
其他声音特征
- 使用OpenSmile工具来提取ComParE2016(CPE)和eGeMAPS(eGM)作为低频语音特征
其他语言特征
- 使用Huggingface中的"facebook/wav2vec2-base-960h" model (WB)和"facebook/hubert-base-ls960" model (HB)来提取预训练的语音embedding
- 然后还有其他的人口统计特征
分类和训练方法
- 这里使用XGBoost作为AD检测任务,然后使用SVR和XGBoost进行组合,实现MMSE的回归任务
- 将基于单个特征的分类模型任务进行集成学习,提高模型额准确率。
- 对于特征分类,这里使用了集成学习策略,包括了早期融合、特征拼接还有后期融合,甚至还有权重投票等多种方式进行测试
- 对于MMSE的回归任务,这里是平均多个预测回归模型输出,然后将平均结果作为最终的输出,这些效果要好于特征融合和权重投票的方式
3.2 微调预训练的语言模型实习AD检测
-
看了这个不禁开始感叹,这是什么条件,我靠!他用了8张A100GPU来训练600,000次。
-
为了能够尽快提高跨语言音频表示的学习,我们预训练了一个基于希腊语和英语的双语wav2vec-base模型,主要是引用了Facebook的开源的wav2vec模型。使用100个小时的双语数据进行预训练,英语和希腊语各50个小时
-
现有的(“facebook/wav2vec2-large-xlsr-53”)和我们的双语 wav2vec2-base 模型在 200 个不同频段的英语训练样本上使用序列分类头进一步微调(平均汇集输出上具有 Sigmoid 激活函数的线性层)。这些微调模型的 8 个希腊样本的 AD 检测结果如表 1 所示。我们可以看到,对于大多数频率 epoch 配置,我们的预训练模型的性能与在多语言语音数据但没有希腊语上训练的现有模型相同或更好。两个预训练模型都展示了利用低通滤波语音进行跨语言 AD 分类的优势。最后,采用 0-1kHz 和 epoch30 的配置在 237 个英语和 8 个希腊样本上微调我们的双语预训练模型以生成一组提交的结果。
-
这里没有使用facebook公开的XSLR进行训练,而是自己进行微调的wav2vec模型进行训练
Submission description and results
-
对于AD检测和MMSE回归任务,分别提交了5次。Ad检测是ID从1到5,MMSE回归任务是ID从6到10.
-
关于Ad检测任务的结果如下
-
最终ID5的结果最好,说明基于平衡的双语数据的预训练模型效果最好,能够有效实现跨语言检测。
- 回归任务这里就不细看了,又没有相关的数据集,不值得。
Conclusion
- 通过微调我们预训练的双语模型wav2vec2.0,在0-1000Hz波段的音频数据,我们在分类人中的准确率到达了73.9%,最终的结果表明,使用平衡过后的多语言数据集,并且使用低通率的过滤的语音能够显著调高Ad检测准确性。
- 回归任务使用了eGeMAPS和静音特征,效果比基本的模型要好,说明这两个指标的效果很好。