摘要

  本文介绍了 Tencent Ethereal Audio Lab 提交给ICASSP 2022深度噪声抑制(DNS)挑战赛第2赛道的个性化语音增强(TEAPSE)系统。我们的系统结合了双级网络,这是一个卓越的实时语音增强框架和ECAPA-TDNN speaker embedding 网络,实现了最先进的说话人验证性能。双级网络旨在将原始语音增强问题解耦为多个更简单的子问题。具体而言,

  • 在阶段1,只估计目标语音的幅度,并将其与噪声相位合并,得到粗略的复频谱估计
  • 在阶段2,辅助网络作为后处理模块,进一步抑制残余噪声和干扰语音,并有效地修改相位信息

  利用非对称损失函数惩罚过度抑制,保留了更多的目标语音,有利于语音识别性能和主观听觉。我们的系统在挑战盲测试集的总体音频质量(OVRL) MOS达到3.97,单词精度(WAcc)达到0.69,比DNS基线高出0.57 OVRL,在轨道2中排名第一。

指标术语:个性化语音增强,两级网络,ECAPA-TDNN,实时

1  引言

  个性化语音增强(PSE),又称说话人提取,是利用目标说话人的登记语音,从复杂的多说话人噪声和混响观测信号中提取目标说话人的语音。当系统需要对特定的目标说话者作出响应时,PSE非常有用。它可以广泛应用于实时通信(RTC)、说话人分类、自动语音识别等领域。

  最新的ICASSP 2022 DNS挑战赛[1]旨在推动全频段实时语音增强任务。除了感知语音质量要求外,DNS还将单词精度(WAcc)作为后端ASR应用的重要评估指标。针对实时全频带语音通信,挑战非个性化DNS(轨道1)和个性化DNS(轨道2)有两个轨道,本文主要关注轨道2。与非实时PSE方法不同[2,3,4,5,6,7],实时PSE方法需要具体考虑模型大小、推理时间和有限的未来信息的要求。近年来,许多实时PSE方法被提出,如Voicefilter-lite [8], pDCCRN [9], personalized PercepNet[10]等,带来了优越的性能。然而,实际应用环境是复杂多变的。算法不仅需要处理噪音和混响,还必须考虑干扰说话人。尽管有了说话人信息的帮助,但单个实时PSE模型的能力仍然有限,噪声和干扰抑制还不完善。近年来,多阶段方法被引入并在语音增强中取得了巨大成功[11,12]。在多阶段方法中,每个阶段模型只关注一个任务,通常由一个显式损失函数指导。对前一阶段模型进行预处理后,后一阶段模型的增强输入更加清晰简单,在自身任务上分配更准确的计算能力。

  在[11]中,第一级网络用于估计带噪语音幅值,第二级网络用于估计第一级输出的剩余实部和虚部

  spex++[13]中,首先将第一级网络的输出发送到说话人编码器网络,得到另一个新的speaker embedding,然后将增强语音和两个speaker embedding馈送到第二级网络,进一步抑制残留噪声和干扰语音

  受多阶段方法成功的启发,本文研究了该方法在个性化语音增强任务中的可行性。具体来说,在我们的方法中,第一阶段是粗略估计目标语音的幅度,第二阶段是进一步抑制残留噪声和干扰语音,并修改目标语音的相位信息。我们还探讨了功率压缩(PC)[14]对PSE任务的影响。此外,考虑到挑战中的ASR评估指标,我们的TEA-PSE提交系统特别采用了非对称(Asym)损失[9],以缓解过度抑制可能导致更多语音识别错误的影响。我们的TEA-PSE提交系统最终在ICASSP 2022 DNS挑战赛的盲测集上达到了4.19 SIG, 4.55 BAK, 3.97 OVRL和0.69 WAcc,在第二轨道中排名第一。

2  提出的TEA-PSE系统

  本文提出的TEA-PSE系统主要由说话人编码器和语音增强两个模块组成。具体来说,我们采用ECAPA-TDNN网络[15]作为说话人编码器,并研究了一种用于语音增强的双级网络。我们首先训练说话人编码器。训练好后,说话人编码器网络将被冻结,并用于提取语音增强网络的speaker embedding,以进行PSE任务。

2.1 说话人编码器:ECAPA-TDNN

  在PSE系统中,speaker embedding用于识别观测信号中的目标说话人,以将目标语音与所有干扰声音和噪声区分开来。在提出的TEA-PSE系统中,我们采用ECAPA-TDNN作为我们的说话人编码器网络。ECAPA-TDNN被称为最先进的speaker embedding网络之一,这要归功于1D Res2Net[16]上具有挤压激励模块[17]的出色设计。在我们的ECAPA-TDNN中,我们在卷积帧层中采用2048个通道,在通道和上下文相关的统计池层中采用256个维度。SEblock中的瓶颈尺寸设置为128。最后得到256-dim的speaker embedding。关于ECAPA-TDNN的更多细节可以在[15]中找到。

2.2  语音增强:两阶段网络

论文翻译:2022_腾讯DNS 1th TEA-PSE: Tencent-ethereal-audio-lab personalized speech enhancement system for ICASSP 2022 DNS CHALLENGE-LMLPHP

 图1所示。(a):light-weight TCM。(b):用于个性化语音增强的TEA-PSE双阶段框架。

  受多级网络[11,12]在语音增强方面成功的启发,我们在时频域采用双级网络进行PSE任务。在多阶段网络中,每个阶段只关注一个任务,以降低学习复杂度,提高模型的收敛速度。此外,后一阶段的输入被前一阶段预先加强,这有利于明确每个阶段的学习目标。如图1(b)所示,在阶段1中,我们将观测信号的幅值作为输入,目标幅值作为训练目标。该阶段的目的是粗糙地抑制非自然噪声成分和干扰语音。在阶段1 增强幅度后,我们将其与噪声相位耦合在一起,并将其转换为实数谱和虚数谱作为阶段2的输入。我们还将观测到的噪声复谱作为第二阶段的输入,进一步去除剩余噪声和干扰语音,确定目标语音的相位信息。阶段2的输入输出之间采用残差连接,避免梯度消失。简单地说,这个过程如下

$$公式1:\mathbf{E}=\mathcal{F}_{s p k}(\operatorname{fbank}(|\mathbf{A}|) ; \mathbf{\Phi}_{s p k})$$

$$公式2:|\mathbf{S}^1|=\mathcal{F}_1(|\mathbf{Y}^p|, \mathbf{E} ; \mathbf{\Phi}_1)$$

$$公式3:(\mathbf{S}_r^2, \mathbf{S}_i^2)=(\mathbf{S}_r^1, \mathbf{S}_i^1)+\mathcal{F}_2(\mathbf{S}_r^1, \mathbf{S}_i^1, \mathbf{Y}_r^p, \mathbf{Y}_i^p, \mathbf{E} ; \mathbf{\Phi}_2)$$

  其中A为时域登记信号频谱,E为提取出来的说话人 embedding。下标$r$和$i$分别表示复数谱的实部和虚部。$Y^p$为压缩后的观测频谱,$p$为压缩因子。$S^1$和$S^2$分别为阶段1和阶段2的增强复数谱。需要注意的是$S_r^1=R(|S^1|e^{j\theta Y})$和$S_i^1=R(|S^1|e^{j\theta Y})$。阶段1、阶段2和说话人编码器分别定义为$F_1$、$F_2$、$F_{spk}$,参数集分别为$\Phi_1$、$\Phi _2$、$\Phi _{spk}$。

  阶段1和阶段2的网络拓扑结构类似[11,18],包括门控卷积编码器、解码器和堆叠时序卷积模块(称为TCMs)[18]。特别是阶段1网络只有一个解码器来估计幅值,而阶段2网络有两个解码器分别估计实部和虚部。关于说话人embedding到增强网络的融合,我们只在图1(a)中每个TCM组的第一个TCM处,根据[5],将隐藏特征和说话人embedding沿通道轴进行拼接。该算法能有效、渐进地将说话人信息与隐藏特征相结合。

2.2.1  损失函数

  对于网络的目标函数,我们首先应用尺度不变信噪比(SI-SNR)[19]损失,这是一个时域损失函数

$$公式4:\left\{\begin{array}{l}
\mathbf{s}_{\mathrm{target}}=\frac{\langle\hat{\mathbf{s}}, \mathbf{s}\rangle \mathbf{s}}{\|\mathbf{s}\|^2} \\
\mathbf{e}_{\mathrm{noise}}=\hat{\mathbf{s}}-\mathbf{s}_{\mathrm{target}} \\
\mathcal{L}_{\text {si-snr }}=10 \log _{10} \frac{\left\|\mathbf{s}_{\text {target }}\right\|^2}{\left\|\mathbf{e}_{\text {noise }}\right\|^2}
\end{array}\right.$$

式中,$\hat{s} \in R^{1*T}$和$s \in R^{1*T}$分别为估计和原始纯净语音,$||s||^2=<s,s>$为信号功率。

  语音过度抑制是神经去噪器[20]中的一个普遍问题。为了解决语音过度抑制问题,我们在损失函数的幅度部分使用了非对称损失[9],目的是惩罚目标说话人的声音被随意删除的T-F bins。

$$公式5:\begin{aligned}
& h(x)= \begin{cases}0, & \text { if } x \leq 0, \\
x, & \text { if } x>0,\end{cases} \\
& \mathcal{L}_{\text {asym }}=\frac{1}{T} \sum_t^T \sum_f^F\left|h\left(|S(t, f)|^p-|\hat{S}(t, f)|^p\right)\right|^2
\end{aligned}$$

下面的策略应用于训练两阶段网络。首先,我们只训练带有混合loss的阶段1网络

$$公式6:\mathcal{L}_{\mathrm{mag}}=\left.\frac{1}{T} \sum_t^T \sum_f^F|| S(t, f)\right|^p-\left.|\hat{S}(t, f)|^p\right|^2$$

$$公式7:L_1=L_{mag}+L_{si-snr}+L_{asym}$$

然后,加载阶段1的预训练模型,冻结参数,对阶段2的网络进行优化

$$公式8:\mathcal{L}_{\mathrm{RI}}=\frac{1}{T} \sum_t^T \sum_f^F \|\left. S(t, f)\right|^p e^{j \theta_{S(t, f)}}-\left.|\hat{S}(t, f)|^p e^{j \theta_{\hat{S}(t, f)}}\right|^2$$

$$公式9:L_2=L_{RI}+L_{mag}+L_{si-snr}+L_{asym}$$

其中L1和L2表示阶段1和阶段2的损失函数,p是一个谱压缩因子,设为0.5,运算符$\theta $计算一个复数的参数,在[21]中使用。

3  实验步骤

3.1  数据集

  DNS挑战赛向参与者发布了48kHz的培训和开发集。训练集包括大约750小时的干净演讲和181小时的噪音剪辑。具体来说,清洁语音数据集包括六种语言,即英语、法语、德语、意大利语、俄语和西班牙语。英语部分包括阅读语音和歌唱语音,其他语言只有阅读语音。演讲数据来自3230位演讲者。噪声数据主要来自Audioset[22]、Freesound和DEMAND[23]。

  如第2节所述,我们提出的TEA-PSE系统包括两个模块:说话者编码器和语音增强。这两个模块的训练数据不一样。对于说话人编码器,我们使用了VoxCeleb2[24]开发集,其中包含来自5994个不同说话人的超过100万个话语。为了训练语音增强网络,我们使用了675小时的干净语音数据,以及144小时的噪声数据,两者都是从DNS数据集中提取的。开发集从DNS数据集中选取75小时的干净语音数据,从DNS数据集中选取20小时的噪声数据。我们还基于图像方法生成了10万个单通道房间脉冲响应(RIRs)。rrr的RT60范围为0.1s ~ 0.6s。房间面积从3 3 3 m3到8 8 4 m3不等。声源与麦克风的距离为0.3m ~ 6.0m。训练和发展集分别包含85,000和10,000个rir。应该提到的是,训练集和发展集之间没有重叠。

  本文提出的TEA-PSE系统的测试数据可分为三个部分。仿真集旨在测量模型在外设说话人上的性能。我们使用KING-ASR-215数据集作为源语音,来自DNS噪声集的17小时数据作为源噪声,加上5000个rir,生成2000个noisyclean对作为模拟集,包含200个说话人。对于每一对噪声清除对,添加一个SIR范围为[- 5,20]dB的随机干扰说话人,并添加一个信噪比范围为[- 5,20]dB的随机噪声。第二部分是挑战赛主办方提供的官方开发集。它有1443个片段,都是用台式机和笔记本电脑收集的。第三部分是挑战组织者提供的官方盲测集,由859个片段组成,这些片段是通过台式机/笔记本电脑和移动设备收集的。

3.2  说话人编码器网络的训练设置

  在ECAPA-TDNN说话人编码器网络的训练过程中,我们采用了以下数据增强策略

  • 波形丢失: 原始波形的一些随机块被替换为零。
  • SpecAug: 对输入频谱[25]进行时间和频率屏蔽。
  • 加性噪声: 将MUSAN[26]中的三种噪声添加到VoxCeleb 2的原始语音中。
  • 混响: 混响与VoxCeleb 2中的原始演讲混淆,rir来自[27]。
  • 速度摄动: 不改变螺距的速度摄动(0.9,1.1)。
  • 附加噪声&混响: 同时加入附加噪声和混响。

  提取一组80dim FBank特征作为输入,这些特征的窗口大小为25ms,窗口移位为10ms。在训练过程中,批量大小设置为256。使用三角2策略[28],模型训练的学习率在1e-8和1e-3之间变化。训练期间的优化者是Adam。AAM-softmax的超参数scale设置为30,margin设置为0.3。为了防止过度拟合,我们对模型中的所有权重应用了2e-4的权重衰减。

3.2  语音增强网络的训练设置

  我们的训练数据是实时生成的,采样率为48kHz,每批分割为4s块,信噪比范围为[- 5,20]dB, SIR范围为[- 5,20]dB。具体来说,我们采用以下策略进行数据增强

  • 混响:为了模拟远场场景,随机选取50%的干净语音数据与rir进行卷积。
  • 下采样&上采样:我们选择20%的训练数据随机下采样到[12,44]kHz,然后上采样到48kHz。
  • 不同干扰场景:在添加干扰说话人时,20%的训练数据只包含一个干扰说话人,30%的训练数据包含一个干扰说话人和一种噪声,30%的训练数据只包含一种噪声,剩下20%的训练数据包含两种噪声。

  我们使用20ms帧长和10ms帧移,并使用Hanning窗口进行前端处理。STFT点的数量为1024个,导致513个昏暗的光谱特征。该模型由Adam进行优化。这两个阶段是独立训练的。首先训练阶段1的模型,然后将其冻结,作为第二阶段模型的预训练模型。初始学习率为0.001,如果连续两个epoch的验证损失不再减少,则学习率将减半。批大小设置为20。与[11]类似,对于两级网络,编码器和解码器中卷积层的核大小和步长分别沿频率轴和时间轴为(3,2)和(2,1)。对于所有卷积层,通道数量保持80。每个网络中有6个编码器和解码器。在tcm中,压缩后的特征大小设置为1x1-Conv后的80。TCMs总数为4个,核大小为3,膨胀率分别为{1,2,5,9}。近年来,功率压缩谱在语音增强任务中被证明是有效的[12,14]。因此,我们在馈入网络之前对光谱幅度进行了压缩。其中,压缩参数β设为0.5。

4. 实验结果与分析

4.1. 仿真集的性能比较

  我们进行了烧蚀实验,以证明每个提出的模块的有效性,包括a)单级,b)单级PC, c)单级PC和Asym, d)双级,e)双级PC, f)双级PC和Asym。我们还将所提出的模型与voicfilter [3], pDCCRN[9]和GateCRN[29]进行了比较。我们使用上面描述的相同数据实现和训练这些模型。voicfilter和GateCRN属于真实域,只对震级进行建模,而pDCCRN是DCCRN[30]的个性化版本,工作在复杂域,同时对震级和相位进行建模。所有实域模型用L1优化,所有复杂域模型用L2优化。对于开发集和盲测试集,由组织者提供DNS基线的结果。

表1。仿真集的性能比较。PESQWB表示16kHz音频文件的PESQ。

噪声表示不加语音增强的噪声语音。单阶段表示单一的第一阶段模型。

双级表示双级网络。PC代表功率压缩。Asym代表不对称损失。

论文翻译:2022_腾讯DNS 1th TEA-PSE: Tencent-ethereal-audio-lab personalized speech enhancement system for ICASSP 2022 DNS CHALLENGE-LMLPHP

  根据表1的结果,可以得出以下结论。

1. 首先,我们与PC和Asym的双级网络在所有指标上都超过了其他比较方法。PC + Asym双级网络在PESQ-WB、STOI、ESTOI和SI-SNR上的平均性能分别优于voicfilter 0.372、4.16%、6.31%和2.09。其次,对于第一阶段,引入第二阶段时性能得到了提高。一些令人不快的残余噪声成分和不需要的干扰说话人的声音可以进一步抑制。第二阶段网络还能修复目标语音的相位信息,在PESQ-WB、STOI、ESTOI和SI-SNR方面的平均增益分别为0.214、1.95%、3.39%和1.051。

2. 功率压缩采用功率压缩时,性能略有提高。例如,在阶段1中,压缩频谱范围后,对PESQ-WB、STOI、ESTOI和SI-SNR分别有0.07、0.47%、0.58%、0.19个改进。这是因为功率压缩可以降低频谱的动态范围,这提高了低能量区域的意义与更多的信息语音成分。

3.对于单级模型,非对称损失将导致PESQ-WB、STOI、ESTOI和SI-SNR分别下降0.055、0.36%、0.49和0.326。然而,对于双级模型,如果使用不对称损失,PESQ-WB、STOI、ESTOI和SI-SNR分别获得0.071、0.69%、0.89%和0.014的改善。可能的原因是为了保留更多的语音而提出了不对称损失,可能会导致噪声抑制能力的轻微退化。因此,单级非对称损失模型的性能略有下降。但是,双级处理后的语音失真比单级处理后的语音失真更严重,非对称损失有助于双级模型提高语音质量,这可以从表2中的System 6-11中得到证实。

表2。DNSMOS P.835在官方开发集上的性能比较。

DNS challenge使用DNSMOS P.835来测量语音质量(SIG)、背景噪声质量(BAK)和整体音频质量(OVRL)。

论文翻译:2022_腾讯DNS 1th TEA-PSE: Tencent-ethereal-audio-lab personalized speech enhancement system for ICASSP 2022 DNS CHALLENGE-LMLPHP

4.2. 在正式开发和盲测试集上的性能比较

  表2给出了DNSMOS P.835[31]在官方开发集上的主观结果。可以看出,所提出的PC + Asym双级网络优于OVRL上的其他模型。当使用stage 2网络时,SIG会降低,因为对目标语音引入了更多的失真,而BAK会增加,因为去除了更多的噪声和干扰语音。此外,如果我们不使用非对称损失来惩罚过抑制,双级模型的OVRL略低于单级模型。

表3。MOS与ITU-T P.835框架和WAcc结果在官方盲测试集

论文翻译:2022_腾讯DNS 1th TEA-PSE: Tencent-ethereal-audio-lab personalized speech enhancement system for ICASSP 2022 DNS CHALLENGE-LMLPHP

  首先,表3比较了MOS与ITU-T P.835框架[32]和WAcc在官方盲测试集上的结果。本文提出的TEA-PSE系统(Dual-stage+PC+Asym)的性能明显优于DNS基线系统,这与表2的结论一致。此外,与有噪声语音相比,提交系统的WAcc略有降低。这是合理的,因为该模型对提取的语音进行了轻微的失真,可能会导致与ASR引擎的训练数据不匹配。

4.3. 算法延迟和推理时间

  在提交系统中,窗口大小T为20ms,步幅时间Ts为10ms。算法时延Td = T + Ts = 30ms,满足挑战的时延要求。在提交系统中不使用将来的信息。此外,我们的两阶段框架的可训练参数数量为781万个。在2.4G Hz的Intel(R) Xeon(R) CPU E5-2678 v3上,提交系统的平均每帧处理时间为9.66ms。

5. 结论

  本文介绍了我们提交到ICASSP 2022 DNS挑战赛个性化SE赛道。该系统将ECAPATDNN说话人编码器网络和两级语音增强网络相结合,实现个性化语音增强。我们专门研究了双级网络的有效性,将其与单级网络进行了比较,并探讨了功率压缩和不对称损耗对系统的影响。该系统在同行业中达到了一流水平。

6  参考文献

[1] H. Dubey, V. Gopal, R. Cutler, A. Aazami, S. Matusevych, S. Braun, S. E. Eskimez, M. Thakker, T. Yoshioka, H. Gamper, et al., ICASSP 2022 deep noise suppression challenge, .

[2] K. Zmol ıkov a, M. Delcroix, K. Kinoshita, T. Ochiai, T. Nakatani, L. Burget, and J. Cernock`y, SpeakerBeam: Speaker Aware Neural Network for Target Speaker Extraction in Speech Mixtures, IEEE Journal of Selected Topics in Signal Processing, vol. 13, no. 4, pp. 800 814, 2019.

[3] Q. Wang, H. Muckenhirn, K. Wilson, P. Sridhar, Z. Wu, J. R. Hershey, R. A. Saurous, R. J. Weiss, Y. Jia, and I. L. Moreno, VoiceFilter: Targeted Voice Separation by SpeakerConditioned Spectrogram Masking, in Interspeech, 2019, pp. 2728 2732.

[4] C. Xu, W. Rao, E. S. Chng, and H. Li, SpEx: MultiScale Time Domain Speaker Extraction Network, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 1370 1384, 2020.

[5] M. Ge, C. Xu, L. Wang, E. S. Chng, J. Dang, and H. Li, SpEx+: A Complete Time Domain Speaker Extraction Network, in Interspeech, 2020, pp. 1406 1410.

[6] C. Deng, S. Ma, Y. Sha, Y. Zhang, H. Zhang, H. Song, and Wang F, Robust Speaker Extraction Network Based on Iterative Refined Adaptation, in Interspeech, 2021, pp. 3530 3534.

[7] Z. Zhang, B. He, and Z. Zhang, X-TaSNet: Robust and Accurate Time-Domain Speaker Extraction Network, in Interspeech, 2020, pp. 1421 1425.

[8] Q. Wang, I. L. Moreno, M. Saglam, K. Wilson, A. Chiao, R. Liu, Y. He, W. Li, J. Pelecanos, M. Nika, and A. Gruenstein, VoiceFilter-Lite: Streaming Targeted Voice Separation for On-Device Speech Recognition, in Interspeech, 2020, pp.  2677 2681.

[9] S. E. Eskimez, T. Yoshioka, H. Wang, X. Wang, Z. Chen, and X. Huang, Personalized speech enhancement: New models and comprehensive evaluation, arXiv preprint arXiv:2110.09625, 2021.

[10] R. Giri, S. Venkataramani, J. Valin, U. Isik, and A. Krishnaswamy, Personalized PercepNet: Real-Time, LowComplexity Target Voice Separation and Enhancement, in Interspeech, 2021, pp. 1124 1128.

[11] A. Li, W. Liu, X. Luo, C. Zheng, and X. Li, ICASSP 2021 deep noise suppression challenge: Decoupling magnitude and phase optimization with a two-stage deep network, in ICASSP. IEEE, 2021, pp. 6628 6632.

[12] A. Li, W. Liu, X. Luo, G. Yu, C. Zheng, and X. Li, A Simultaneous Denoising and Dereverberation Framework with Target Decoupling, in Interspeech, 2021, pp. 2801 2805.

[13] M. Ge, C. Xu, L. Wang, E. S. Chng, J. Dang, and H. Li, Multistage speaker extraction with utterance and frame-level reference signals, in ICASSP, 2021, pp. 6109 6113.

[14] A. Li, C. Zheng, R. Peng, and X. Li, On the importance of power compression and phase estimation in monaural speech dereverberation, JASA Express Letters, vol. 1, no. 1, pp. 014802, 2021.

[15] B. Desplanques, J. Thienpondt, and K. Demuynck, ECAPATDNN: Emphasized Channel Attention, Propagation and Aggregation in TDNN Based Speaker Verification, in Interspeech, 2020, pp. 3830 3834.

[16] S. Gao, M. M. Cheng, K. Zhao, X. Y. Zhang, M. H. Yang, and P. HS Torr, Res2net: A new multi-scale backbone architecture, IEEE transactions on pattern analysis and machine intelligence, 2019.

[17] J. Hu, L. Shen, and G. Sun, Squeeze-and-excitation networks, in the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 7132 7141.

[18] S. Bai, J Z. Kolter, and V. Koltun, An empirical evaluation of generic convolutional and recurrent networks for sequence modeling, arXiv preprint arXiv:1803.01271, 2018.

[19] Y. Luo and N. Mesgarani, Conv-tasnet: Surpassing ideal time frequency magnitude masking for speech separation, IEEE/ACM transactions on Audio, Speech, and Language Processing, vol. 27, no. 8, pp. 1256 1266, 2019.

[20] S. Lv, Y. Hu, S. Zhang, and L. Xie, DCCRN+: Channel-Wise Subband DCCRN with SNR Estimation for Speech Enhancement, in Interspeech, 2021, pp. 2816 2820.

[21] S. E. Eskimez, X. Wang, M. Tang, H. Yang, Z. Zhu, Z. Chen, H. Wang, and T. Yoshioka, Human Listening and Live Captioning: Multi-Task Training for Speech Enhancement, in Interspeech, 2021, pp. 2686 2690.

[22] J. F. Gemmeke, D. P. Ellis, D. Freedman, A. Jansen, W. Lawrence, R. C. Moore, M. Plakal, and M. Ritter, Audio set: An ontology and human-labeled dataset for audio events, in ICASSP. IEEE, 2017, pp. 776 780.

[23] J. Thiemann, N. Ito, and E. Vincent, The diverse environments multi-channel acoustic noise database (demand): A database of multichannel environmental noise recordings, in Meetings on Acoustics ICA. Acoustical Society of America, 2013, vol. 19, p. 035081.

[24] J. S. Chung, A. Nagrani, and A. Zisserman, VoxCeleb2: Deep Speaker Recognition, in Interspeech, 2018, pp. 1086 1090.

[25] D. S. Park, W. Chan, Y. Zhang, C. Chiu, B. Zoph, E. D. Cubuk, and Q. V. Le, SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition, in Interspeech, 2019, pp. 2613 2617.

[26] D. Snyder, G. Chen, and D. Povey, Musan: A music, speech, and noise corpus, arXiv preprint arXiv:1510.08484, 2015.

[27] E. AP Habets, Room impulse response generator, Technische Universiteit Eindhoven, Tech. Rep, vol. 2, no. 2.4, pp. 1, 2006.

[28] L. N Smith, Cyclical learning rates for training neural networks, in IEEE Winter conference on Applications of Computer Vision (WACV). IEEE, 2017, pp. 464 472.

[29] K. Tan and D. L. Wang, Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement, IEEE/ACM Transactions on Audio, Speech, and Language Processing, vol. 28, pp. 380 390, 2019.

[30] Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, and L. Xie, DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement, in Interspeech, 2020, pp. 2472 2476.

[31] C. K. Reddy, V. Gopal, and R. Cutler, DNSMOS P. 835: A non-intrusive perceptual objective speech quality metric to evaluate noise suppressors, arXiv preprint arXiv:2110.01763, 2021.

[32] B. Naderi and R. Cutler,  Subjective evaluation of noise suppression algorithms in crowdsourcing, arXiv preprint arXiv:2010.13200, 2020.

02-11 13:14