糖尿病代谢紊乱(DM)是一种以血糖水平异常为特征的代谢性疾病,其表现为高血糖(≥230 mg/dL)或低血糖(<65 mg/dL)。该病导致胰岛素产生或作用受损,胰岛素作为调节葡萄糖稳态的关键激素。长期糖尿病与多种慢性并发症相关,包括心血管疾病、肾病、中风、视力丧失及神经损害。全球糖尿病患病率持续上升,预计到2045年,18至99岁的人群中将有近7亿患者。中国是全球糖尿病患者人数最多的国家,中国的糖尿病患者人数约为1.5亿。糖尿病对患者、医疗服务提供者及雇主造成了巨大的经济负担,包括直接治疗费用和生产力损失、工资减少相关的间接成本。
有效的糖尿病管理需要频繁监测血糖水平,自我监测血糖(SMBG)是目前最准确的血糖测量方法,采用指尖采血技术。然而,这种方法可能令人不适、不便且存在感染风险,因此具有侵入性。
为了克服这些挑战,过去十年中已经开发了几种连续且非侵入性的血糖监测方法。连续血糖监测(CGM)技术已成为改善糖尿病护理的尖端解决方案。与SMBG提供单一读数不同,CGM提供半连续的血糖水平信息,通过专用算法从组织间液葡萄糖水平推断血糖浓度。尽管CGM具有优势,但仍存在局限性,如成本、准确性、半侵入性质及定期校准需求。
本文提出了一个创新的方法,即利用语音分析来预测血糖水平。血糖水平的波动会影响声带和喉部软组织的弹性,进而影响声音的物理特性。通过分析语音信号的变化,可以建立与血糖水平之间的相关性。
1 材料及方法
1.1 数据收集及分类
- 参与者招募: 共招募了 49 名志愿者,包括 6 名 1 型糖尿病患者。参与者年龄在 18-99 岁之间,其中 30 名男性,19 名女性。
- 排除标准: 排除患有影响文本可读性的疾病(如呼吸系统疾病、恶性肿瘤、发热、吸烟习惯或最近接种疫苗)、声音质量受影响的疾病以及无法提供知情同意或发音障碍的个体。
- 数据收集方法:每位参与者提供至少一次,最多两次数据,分别对应高血糖和低血糖水平。血糖水平低于 100 mg/dL 的参与者将接受葡萄糖耐量测试,以将血糖水平提升至 100 mg/dL 以上。使用血糖仪测量参与者血糖水平,并记录语音样本。
- 将收集到的70个语音样本数据集划分为训练集和测试集,比例为7:3。
- 训练集用于训练模型,测试集用于评估模型性能。
1.2 CAPE-V 协议和语音录音
本研究采用 CAPE-V 协议收集语音样本。CAPE-V 协议是一种用于听觉感知声音评估的临床工具,旨在识别与声音问题相关的听觉感知特征。使用手机进行录音,手机距离参与者嘴巴 20-30 厘米,并在安静的环境中录制,以减少背景噪音干扰。 参与者按照 CAPE-V 协议进行语音样本录制,包括:
- 阅读六句不同语音环境的句子。
- 发出持续 5 秒的元音 “a”。
- 发出持续 5 秒的元音 “i”。
- 进行至少两分钟的对话,回答至少两个日常问题。
1.3 数据预处理
1.3.1 特征提取
使用 Python 中的 Disvoice 库从语音样本中提取声学特征,包括:
- 声门特征: 从持续元音中提取,包括平均谐波丰富度因子 (HRF) 等 9 个描述符。
- 发声特征: 从所有语音片段中提取,包括抖动、 shimmer 等七个描述符。
- 韵律特征: 从对话语音片段中提取,包括 F0 轮廓参数等 103 个描述符。
1.3.2 特征选择
- 计算每个声学特征的平均值、标准差、最大值、最小值、偏度和峰度。
- 通过相关系数筛选与目标变量相关性较高的特征,最终保留 124 个特征。
- 使用主成分分析 (PCA) 将特征维度从 124 降至 8 个主成分,以减少过拟合风险并提高模型解释性。
2 模型开发和训练
2.1 模型选择
选择逻辑回归 (LR) 模型进行血糖水平分类,因为它是二分类问题的常用模型。使用 L1 正则化 (Lasso) 和 L2 正则化 (Ridge) 防止模型过拟合。
LR 是一种基于概率的统计学习方法,适用于二分类问题,例如糖尿病诊断或患者风险预测。
- LR 模型首先将输入特征进行线性组合,并引入一个截距项,得到一个称为 “z” 的数值。
- 然后,LR 模型使用逻辑函数(也称为 sigmoid 函数)将 “z” 值转换为概率值,表示样本属于正类(血糖水平 > 100 mg/dL)的概率。
- 最后,LR 模型根据预设的阈值(通常为 0.5)将概率值转换为类别标签,即高血糖或低血糖。
2.2 模型训练
- 使用网格搜索 (GridSearchCV) 确定 LR 模型的最佳超参数,包括正则化强度、正则化类型和优化算法。
- 选择的最佳超参数为:C=0.9, penalty=“L1”, solver=“liblinear”。
2.3 模型评估
使用准确率、精确率、召回率和 F1 分数评估模型性能,并绘制混淆矩阵。
3 结果
3.1 模型表现
- 准确率: 无论是训练集还是测试集,模型的准确率都保持在 85% 以上,甚至在交叉验证中略有提升,达到 86.5%。这表明模型具有较高的预测能力,能够有效区分高血糖和低血糖。
- 混淆矩阵: 从混淆矩阵中可以看出,模型在识别高血糖方面表现较好,准确率达到 95%,而低血糖的识别准确率为 71%。这意味着模型更擅长识别高血糖,但也需要进一步优化以提高对低血糖的识别能力。
- F1 分数: F1 分数综合考虑了准确率和召回率,可以更全面地评估模型性能。模型的 F1 分数在训练集和测试集中都保持在 90% 左右,这表明模型具有较高的整体性能。
3.2 语音特征与血糖水平的相关性
- 声学预测指标: 本文提出了一种名为“声学预测指标”的无量纲指标,它由 8 个主成分组成,能够有效区分高血糖和低血糖。这与相关研究一致,表明语音特征与血糖水平之间存在显著的相关性。
- 颤动: 研究发现,颤动与血糖水平的相关性最强。颤动是指声音基频(音高)的周期性变化,它是衡量声带振动稳定性的指标。血糖水平的波动会影响声带的弹性,从而导致颤动增加。因此,颤动可以作为预测血糖水平的有效指标。