SpeechVerse：一个大规模可泛化的音频语言模型

SpeechVerse是一个由爱可可AI提出的新框架，旨在通过多任务学习和自然语言指令微调，使得大型语言模型（LLM）能够泛化到各种语音处理任务。该框架的核心优势在于其能够使语言模型不仅理解自然语言指令，还能执行与之相关的语音处理任务，这一点在11个不同的任务上已经证明了其有效性，击败了基准模型。

1、技术框架

音频编码器：使用一个大型预训练的自监督语音基础模型来将音频信号编码为特征序列。
1D卷积模块：通过可学习的卷积模块对音频特征序列进行下采样，以减少序列长度，使得音频特征与文本标记的长度分布更加一致。
大型语言模型（LLM）：利用预训练的 LLM 来处理这些音频特征和文本指令，执行所需的任
2、工作方式
SpeechVerse 能够处理包括自动语音识别（ASR）、语音翻译（ST）、意图分类（IC）、槽填充（SF）、关键词提取（KWE）、关键词搜索（KWS）、情绪识别（ER）、音频情感分类（ASC）、说话人计数（SC）和语音/非语音检测（SNS）等多种语音处理任务。

2.1 特征提取

音频编码器是特征提取的核心，通常是一个预训练的自监督模型，它能够将输入的音频信号转换成一系列特征向量。

编码器由多个层组成，每一层接收前一层的输出作为输入，并生成新的特征序列。这些层通常包含卷积层、循环层或注意力机制，用于捕捉音频信号的不同方面，如梅尔频率倒谱系数（MFCCs）或梅尔频谱图。

音频编码器将输入音频通过多个层级转换为特征序列，其中每一层都提取并返回一个特征序列。

2.2 特征统一表示

为了捕获不同层次的语义信息，SpeechVerse 计算音频编码器各中间层的输出，并通过一组可学习的权重（w(1), ..., w(L)w(1),...,w(L)）对这些层的输出进行加权求和，得到最终的音频特征表示。

2.3 卷积下采样

由于音频编码器生成的特征序列通常比文本标记序列长，需要通过下采样来减少特征序列的长度，使其与文本标记的长度分布更加一致。

该模块使用一系列 1-D 卷积层和层归一化层来逐步降低特征序列的采样率。卷积层使用小的卷积核（如 3x1）来保持局部特征信息，并通过步长（stride）来减少序列长度。

2.4 多模态指令微调

利使用连续潜在表示从语音基础模型中提取，通过自然语言指令在多样语音任务上实现最佳零样本性能。

2.5 课程学习与参数高效微调

为了避免过拟合和加快训练收敛，SpeechVerse 采用了基于低秩适应（LoRA）的参数高效方法。在训练过程中，冻结了预训练的音频编码器和 LLM，只训练卷积下采样模块和 LoRA 适配器。

2.6 两阶段训练课程：

第一阶段：仅训练卷积下采样模块和中间层权重，使用自动语音识别（ASR）任务的样本进行训练。

第二阶段：引入 LoRA 适配器进行训练，首先在 ASR 任务上进行预热，然后引入其他任务并继续训练。

2.7 多任务学习

SpeechVerse 通过多任务学习来提高模型在不同但相关任务上的泛化能力，同时使用自然语言指令执行每个任务。

3 评估与测试

在多个数据集和任务上对 SpeechVerse 进行基准测试，包括传统的基线比较，以及对领域外数据集、新颖提示和未见任务的测试。

3.1 自动语音识别 (ASR)

SpeechVerse 在标准的 ASR 基准数据集上进行了测试，包括 Librispeech 的测试集和 Voxpopuli、Mozilla Common Voice 等。与 Whisper ASR 相比，SpeechVerse 的任务特定预训练 ASR 模型在平均性能上略有提升。

3.2 语音翻译 (ST)

在 EuroParl 数据集上，SpeechVerse 训练了英语到德语、法语和罗马尼亚语的翻译任务。在与 SeamlessM4T 等模型的比较中，SpeechVerse 在某些语言对上取得了竞争或更好的性能。

3.3 意图分类 (IC) 和槽填充 (SF)

对于意图分类和槽填充任务，SpeechVerse 通过重新训练以包含所有意图和槽标签，与先前的工作进行了比较。在槽填充任务上，SpeechVerse 达到了与先前状态最先进的模型 (PF-hbt-large) 竞争的性能，但在意图分类任务上则有所落后。

3.4 关键词提取 (KWE) 和关键词搜索 (KWS)

尽管在关键词提取任务上，SpeechVerse 的性能与级联系统有差距，但在关键词搜索任务上，它的准确度比级联系统高出 10%。

3.5 情绪识别 (ER)

在情绪识别任务上，SpeechVerse 的端到端训练模型比先前的状态最先进的模型 (w2v2-L-robust) 在未加权平均召回率 (UAR) 上提高了 8%。

3.6 多任务性能

SpeechVerse 的多任务模型在多个任务上展示了优越的性能，尤其是在使用 Best-RQ 音频编码器进行训练时，在情绪识别、音频情感分类和口音分类等副语言语音处理任务上取得了显著的性能提升。

3.7 未见任务的泛化

SpeechVerse 在未见任务上展现了良好的泛化能力，通过使用约束解码和联合解码策略，进一步提高了在未见任务和类别标签上的性能。

4、优势与不足

4.1 优势

多任务性能：SpeechVerse 在多个语音处理任务上展现了强大的性能，包括自动语音识别（ASR）、语音翻译（ST）、意图分类（IC）等。

零样本泛化：通过监督指令微调和结合预训练模型的表示，SpeechVerse 在未见任务上实现了优秀的零样本性能。

指令遵循能力：SpeechVerse 能够遵循自然语言指令来执行任务，提高了与人类交互的自然性和灵活性。

课程学习和参数高效微调：采用的课程学习策略和参数高效微调方法有助于模型更快收敛，并避免了过拟合。

计算效率：通过冻结预训练的音频编码器和语言模型的参数，SpeechVerse 能够在保持性能的同时减少计算资源的消耗。

通用性：SpeechVerse 的框架设计允许它通过自然语言指令适应新任务，而无需对模型架构进行大量修改或重新训练。

4.2 不足

单一模型架构：SpeechVerse 的研究主要依赖于 FlanT5 LLM 架构，没有探索其他可能更适合指令遵循的模型。

任务特定性能：在多任务学习中，存在一个权衡问题，即在提高对未见任务的泛化能力的同时，可能会牺牲一些在原始训练任务上的专业性能。

5、Flan-T5 大型语言模型

Flan-T5是一种基于编码器-解码器（encoder-decoder）transformer模型的语言理解和生成模型，它是Google推出的一项技术。这种模型通过在超大规模的任务上进行微调，使得单个模型能够在1800多个自然语言处理（NLP）任务上都能有很好的表现。与原始的T5模型相比，Flan-T5在超过1000个额外的任务上进行了微调，这使得它成为一个更高效、开源的大型语言模型（LLM），如GPT-3和GPT-4的有效替代品。

Flan-T5的一个显著特点是它的泛化能力。通过将所有自然语言处理任务重构为文本到文本格式，Flan-T5能够适应各种不同的NLP任务，从而实现了对几乎全部NLP任务的良好表现。这种能力源于其在大量任务上的微调，使其在多任务语言理解（MMLU）基准测试中展现出了与更大模型相比具有很强的竞争力。

公开模型：https://huggingface.co/google/flan-t5-xxl

robinfang2019

SpeechVerse：一个大规模可泛化的音频语言模型

1、技术框架

2、工作方式

2.1 特征提取

2.2 特征统一表示

2.3 卷积下采样

2.4 多模态指令微调

2.5 课程学习与参数高效微调

2.6 两阶段训练课程：

2.7 多任务学习

3 评估与测试

3.1 自动语音识别 (ASR)

3.2 语音翻译 (ST)

3.3 意图分类 (IC) 和槽填充 (SF)

3.4 关键词提取 (KWE) 和关键词搜索 (KWS)

3.5 情绪识别 (ER)

3.6 多任务性能

3.7 未见任务的泛化

4、优势与不足

4.1 优势

4.2 不足

5、Flan-T5 大型语言模型