文章目录

引言

  • 这篇文章是DCASE说明文档之前的一封提议的论文,指出为什么需要开设一个专门针对FoleySound合成的竞赛。这篇文章可以作为我写综述的材料,提供一些具体的应用和创新落脚点。
  • 为了周四的组会,还是需要在一个小时内完成这篇文章的翻译和学习。
  • 这个文章大部分和之前那个DCASE的官方文档相类似,所以我就挑重点来翻译,重复并且不重要,我就简略概括一下。
  • 对FoleySound声音进行了具体的定义,将这个问题划分为四个阶段,给出了合理解释。
  • 对FoleySound的相关研究给出了介绍,并且指明了数据集以及相关的内容。

正文

Abstract

  • “FoleySound”指的是在后期制作中,添加到多媒体中的音效,以增强其声学特征,例如模拟脚步声、环境背景声或者屏幕上可见物体的声音等。
  • 虽然传统上foley是由foley艺术家制作的,但随着声音合成和生成模型的最新进展,对自动或机器辅助技术的兴趣日益增加。为了鼓励更多的人参与这一不断发展的研究领域,我们提议进行一个自动foley合成的挑战。
  • 通过对音频和机器学习中成功的以往挑战的案例研究,我们设定了所提议挑战的目标:对不同的foley合成系统进行严格、统一和高效的评估,总体目标是吸引研究界的积极参与。我们概述了foley声音合成挑战的细节和设计考虑,包括任务定义、数据集要求和评估标准。

Introduction

  • FoleySound音效,指的是为了增强音频质量而添加到多媒体中的日常音效的再现。
  • 在专业的媒体制作中,如电影和电视节目,foley的使用非常普遍;包括声音事件(如脚步声、枪声、汽车、人群)和环境效果(如雨声、风声、雪声)。为了满足各种声学事件的需求,后期制作工作室通常拥有一个大型的音效目录。为了获得完美匹配的音效,通常会编辑现有的音效或录制新的音效。录音过程可能需要有创意甚至具有艺术性。
  • 例如,维基百科中介绍了一个常见的技巧:‘玉米淀粉放在皮袋中会产生雪脆的声音’。尽管这听起来很有趣,但这是一个具有挑战性和繁琐的过程,但对于多媒体内容中的许多声音事件来说,这是必要的。foley音效合成技术的好处是显而易见的;它使工作流程更加高效
  • 最近,研究人员开始应用深度神经网络来生成foley音效,这是受到最近在语音和音乐信号生成方面的成功的激励[2, 3]。然而,这个问题还处于初级阶段 - 在问题定义、数据集和评估方面还没有标准。建立一个挑战是促进集体研究进展的有效方法。在明确挑战时,已经成功地设定了标准的问题定义和评估方案。挑战还通过明确地奖励成功的研究成果来激励研究社区。
  • 本文提出了一个关于Foley声音合成的挑战。Foley声音是在多媒体中用来增强所描述的环境或动作的感知的人工创建的音效。这个挑战的主要目标是激发与DCASE(声音场景和事件的检测和分类)社区相关的讨论和想法,并最终在未来的DCASE工作坊中建立一个官方的挑战。
    • 文章的结构如下:
      • 第2部分:回顾了音频、语音和音乐研究领域的最近挑战。这部分可能会提供关于这些挑战的方法、结果和经验教训的见解,为提议的Foley声音合成挑战奠定基础。
      • 第3部分:概述了与Foley声音合成相关的现有研究和数据集。这部分将提供背景,突出当前的最新技术、研究中的空白和这些任务可用的数据集。
      • 第4部分:Foley声音合成挑战的核心提议。这部分将详细介绍:
        • 问题定义:明确概述挑战的内容、预期结果和约束
        • 数据集:关于将用于挑战的数据集的信息,包括它们的来源、特点和与任务的相关性。
        • 评估指标:评价提交内容的标准。这可能包括准确性、保真度、真实感等相关指标的度量。
      • 第5部分:结论,总结了提议的挑战的重要性、对DCASE社区的潜在影响和预期结果。

问题

  • 语音生成的代表论文
    • Tacotron:-2017:端到端的语音合成系统,直接从字符序列生成语音波形。
    • Tacotron 2:结合Tacotron的改进框架和WaveNet,能够生成十分逼近人声的效果
    • WaveNet:DeepMind开发,专门用于生成原始音频波形,使用因果卷积和膨胀卷积来捕捉音频序列中的长范围模式。

2 Case Study:Research Challenges

  • 本节回顾了五个现有的研究挑战:Blizzard Challenge、CHiME、DCASE、Music Demixing challenge 和 AI Song Contest。
  • Bizzard Challenge:解决在公偶那个数据集上的,不同的语音合成技术。Blizzard Challenge始于2005年,目的是为了更好地了解在公共数据集上的不同语音合成技术。在他们的第一个挑战中,参与者提交了五种文本类型的合成语音,包括小说和新闻。为了专注于语音合成技术而不是文本分析技术,组织者选择了相对简单的文本。结果由三类听众评估:语音专家、志愿者和美国大学生。评估完全是主观的。对于三种简单的文本类型,听众被要求在5点量表上对其进行评分;而对于其他两种,他们被要求转录他们听到的内容,以便可以评估语音的可理解性。至今,它仍然是语音合成研究中的一个重要年度活动。
  • CHiME挑战是关于语音分离和识别的,始于2011年,作为之前类似挑战的一个改进版本。改进包括问题定义的现代化(噪声类型、信号混合模型等)、难度的调整以及更现实的数据集/评估指标的引入。对于研究者来说,CHiME仍然是一个最重要的场所,新方法在这里被介绍并在他们严格创建的数据集上进行测试。
  • DCASE (Detection and Classification of Acoustic Scenes and Events) 是音频研究领域中最活跃和成功的挑战之一。作为IEEE AASP工作坊的一部分,第一届DCASE承办了两项任务:声学场景分类和声音事件检测,并接受了21个系统。后来在2013年的WASPAA上,有六篇论文在DCASE海报环节中被展示。2016年,DCASE开始与挑战一起举办自己的工作坊。到2021年,DCASE为六项任务收到了394份提交,并被认为是声学场景分析中最相关和最突出的学术场所。DCASE的范围已经扩展到一些高度实用的应用(低复杂度的声学场景分类和机器监控的异常检测)、生物声学(哺乳动物和鸟类声音理解)和自然语言理解(音频字幕和自然语言查询)
  • Demixing挑战和AI Song Contest分别在2021年和2020年成立。在Demixing挑战中,参与者提交他们的音乐源分离系统,并指定是否使用了外部数据集。尽管源分离中的客观指标在测量感知质量方面有限制,但由于它被认为可以很好地代表源分离的性能,所以使用了一个客观指标(信号到失真比)来评估系统。相反,在AI Song Contest中,参与者提交最终曲目,然后纯粹由评委和在线投票进行主观评估。考虑到任务的艺术性,这是一个合理的选择,尽管诸如评委和公众投票之间的平衡等细节可能会发生变化。

3 BackGrounds背景

3.1 Previous Works on Foley Sound Synthesis重点!!之前关于伪声合成的相关研究

  • 伪声合成系统(FFS)已经使用很多传统的音频合成技术研究过了,但是只能做很简单的声音合成,比如说奔跑,走动,跳动的声音,别的声音搞不了。而且这些研究主要是应用于虚拟环境,随着人物的移动能够生成与之一致的声音。

  • 在较新的,数据驱动的方法中,很多研究者使用深度生成模型(GANs,Wavenet,Tacotron),扩展了能够生成的目标声音类别。

  • 《Visually Indicated Sounds》这篇文章在2016年第一个提出了基于深度学习的声音合成系统,并用这个系统生成了数据集“The Great Hits“的配音。这个数据集比较特殊,记录的是击打或者剐蹭各种物体表面的视频。对于这个受限的动作类型和声音事件来说,这个系统是一个简化的伪声合成系统。除此之外,这个系统还需要学习视觉事件的类型和时间并生成相关的音频信号。

  • 还有很多别的系统能够生成很多别的伪声,这些声音包括烟花声、狗叫、脚步声、枪声等。这些工作都是基于更加真实的数据集,比如说:AudioSet,VEGAS和VGGSound等。

  • 为了生成和视频同步的FSS系统,很多研究方法都是基于GAN的。他们用的模型概念相似,都是由视觉编码器调节来合成STFTs或者波形。但是他们的输入类型不同。

    • 《Towards an End-to-End Visual-to-Raw-Audio Generation with GAN》和《Generating Visually Aligned Sound From Videos》这两篇论文都是使用输入视频的embedding决定的。《Generating Visually Aligned Sound From Videos》中,他的生成器是由相应音频特征共同训练的视觉特征来调节的,这样模型能够学会关注与音频相关的视觉对象。
    • 《FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos.》使用视觉动作类和视觉动作频谱图来调节声音生成器。
    • 《Taming Visually Guided Sound Generation》使用的是VQ-GAN,这个是VQ-VAE和GAN的损失函数的结合。
  • 上述提到的大部分论文都是基于视频查询,使得系统能够遵循FoleySound艺术家的工作流程。因此,FSS系统一般都是需要一个视觉理解模块。在《AudioCLIP:extending CLIP to Image,Text and Audio》和《Wav2CLIP:Learning Robust Audio Representations From CLIP》中,使用训练好的CLIP编码器将这三种模态进行组合,并且这些编码器可以用于分类、检索等不同的任务。

  • 基于模型和数据集的最新进展,我们可以相信FoleySound合成系统已经在转折点。有很多很厉害的音频生成模型,比如说自回归模型,VAE,GANs还有基于Diffusion的模型。视觉理解模型也足够成熟,能够应用在不同的应用中。除此之外,还有很多音视频数据可以给我们做实验。

问题
  • 还要不要继续从事这方面的研究?

    • 看了一下这个相关背景,忽然间有点不想干了,这个太成熟了,不过既然那么成熟,为什么说这是第一届举办?还是继续往下好好看吧?而且既然已经那么成熟,为什么还要做一个简化版的比赛?难道他是说专门用来做的评价系统的吗?
  • Visually Indicated Sounds 这篇文章那么厉害吗?

    • 这个只能针对特定类型的视频进行配音,主要是针对敲击和刮擦的动作进行配音。而且除了学习这类声音,这个系统还需要学习视频中动作事件类型和事件的相关关系。
    • 这个系统中对于声音的生成不是重点,重点反而是视频信息和声音信息的同步。
  • 视频同步音频生成的四篇论文,需要好好读读!

    • 《Towards an End-to-End Visual-to-Raw-Audio Generation with GAN》:直接根据视频生成与视频相关音频。

    • 《Generating Visually Aligned Sound From Videos》:生成与视频视觉对齐的音频

    • 《FoleyGAN: Visually Guided Generative Adversarial Network-Based Synchronous Sound Generation in Silent Videos》:

    • 《Taming Visually Guided Sound Generation》

3.2 Existing Dataset现存数据集

  • 在这部分,我们首先介绍一下4个视频数据集:AudioSet,VEGAS,VGGSound,The Greatest Hits,这四个数据集再上一节的相关的论文研究中,都使用过了。除了这四个,我们还会介绍一些别的数据集,UrbanSound8k,FSDKaggle2018还有Clotho三个数据集。

  • 视频数据集一直是之前FSS研究的主要数据来源。

    • AudioSet是一个来自YouTube的5800小时视频数据集,包含了10秒的片段,这些片段被手动标记为527种音频事件类别。由于所有视频都是从YouTube采样的,音频和视频的低质量可能是一个问题
    • VEGAS是AudioSet的一个策划子集,总共55小时,平均7秒。其创建者选择了10个类别,并过滤了项目,只包括具有直接音频-视觉关系的视频
    • VGGSound包含超过550小时的10秒视频片段,涵盖310类声音事件。与VEGAS类似,创建者仔细选择了样本,以去除具有弱音频-视觉关系的视频
    • The Greatest Hits是一个由动作-声音配对视频组成的数据集,如第3.1节所述,它描述了在各种表面上敲击和刮擦鼓棒的动作
  • 不带视觉信息的音频数据集也可以为FSS任务提供良好的数据来源

    • Urbansound8k是一个包含8,732个短音频片段的声音数据集,已经成为声学事件分类任务的有用资源。但是,该数据集中的项目是从较长的音频文件中裁剪出来的4秒片段,这降低了数据集的整体声音多样性
    • FSDKaggle2018包含11,073个音频文件,按照AudioSet的本体进行标记,共有41个类别。这些项目是从Freesound采样的,然后在MTurk上手动注释。
    • Clotho是为音频字幕任务创建的数据集。每个音频文件都有5个字幕;即它的4,981个音频文件配有24,905个音频字幕。音频样本的持续时间为15到30秒,字幕为8到20个单词。这可以用来开发一个文本查询的FSS系统
  • 现有的数据集都没有提供所需的清晰音频样本,当使用foley声音时。使用噪声声音生成高质量的foley声音是可能的。但是,在FSS挑战的初始版本中,我们认为最好有一个带有高质量foley声音的数据集,以简化任务。

4. FoleySound Synthesis Challenge伪声合成系统的开发难点

4.1 Consideration on FSS Problem Definition(重点,如何具体的描述这个问题)

  • 一个FSS问题可以通过以下几个方面来定义,这部分,我们首先回顾这几个方面,我们会将这个问题以一个狭隘并且严格的版本进行定义,以便于为后来更加复杂的系统做准备。
  • Type Of Sound声音类型
    • FoleySound生成的声音可以归为两类,一类是单纯的某一个声学事件(枪声等),还有一类是决定场景的环境音或者背景音(下雨的声音或者刮风的声音)
  • Reality of acoustic event声音事件的真实性
    • 一些foley声音与现实中的物体或声音事件相绑定,例如,现有汽车型号的喇叭声、狗叫声、关门声等。而其他声音更多地是人类想象的产物,例如激光枪或恐龙的声音。由于缺乏参考,后者的声音生成更多地是一种艺术,这使得它很难进行客观或主观的评估。
  • Type of input query输入查询的类型
    • 输入视频,这是常用的输入,但是这涉及到多个问题,还有视频理解,不仅仅是音频生成。重点应该是关注生成音频的质量。
    • 输入文字,文字可以是一个场景或者声音的描述,类似口技,生成对应的声音。
    • 本质上,是输入给系统一个声音类别,系统自动生成相应的声音。
  • Final audio format最终的音频格式
    • 生成的foley声音的最简单形式可能是一个无回声的单通道音频信号。人们还可以考虑添加更多的音频处理,如多通道混音和混响。

4.2 Our Suggestion:Progressive Approach(这个是开发思路,可以借鉴一下)

  • 在考虑了上述因素后,我们建议采用以下描述的渐进式方法,从最简单的问题定义开始,随着挑战在未来几年的发展,逐渐向复杂的问题转变
Level 1:Categorical Sound generation特定类别声音生成
  • 这是Foley Sound问题最简化的方式了,直接根据标识符生成特定的类型的声音。生成的声音可以用来扩展Foley Sound Artist所使用的样本库。这部分主要是通过评价生成声音的多样性和音频质量进行判定的。
Level 2:Sequential generation from text description根据文字描述进行序列化生成
  • 基于level 1,我们获取一段场景的文字描述作为输入,然后系统会自动生成相关的音频片段。这部分目标在于利用第一阶段的生成模型生成的单个片段音频组合成一个合理的声音场景。每个文本提示都会包含一个或多个声音事件,系统将根据第一级的标准以及与提示的相关性和覆盖范围进行评估。
Level 3:Sequential generation from video从视频中生成序列音频
  • 更高级的格式**将直接从视频序列开始工作,完全绕过分类和文本描述。**从某种意义上说,这可以被视为一个最小的“全自动”foley系统,因为不需要手动干预来描述或组成场景。系统将根据与第二级类似的标准进行评估。
Level 4:Mixed Soundtrack generation混合音轨合成
  • 这一级在第三级的基础上增加了多通道混音(立体声、5.1等)到生成过程中。除了前几级的评估标准外,还将包括立体声分离和空间沉浸的主观评估标准

4.3 Consideration on the Official Dataset官方数据集的考虑

  • Simulated Sound模拟声音Foley Sound应该是一个经过处理和加工过的声音,通过这个声音,需要反应一个声音印象,而不考虑实际的声音事件。例如,一个好的"身体撞击"的Foley声音会是一个响亮且夸张的低频冲击声,而不是真实的身体撞击声,这在实际中几乎是听不到的。

4.4 Our Suggestion:Official Dataset官方数据集合

  • 在本节中,我们提出了与第4.2节中的第1级FSS问题定义相兼容的数据集规范。在Gaudio实验室,一些作者所在的地方,有内部的Foley艺术家,该公司愿意提供音频文件来创建官方数据集。

  • 类别的数量

    • 为了缩小第1级定义中的问题范围,类别数量将被限制为一个较小的数字。但是,应选择类别以覆盖各种Foley声音类型。例如,可以选择四个类别:脚步声和枪声(脉冲声),狗吠(音调声)和嗖嗖声(带有变化持续时间的空气声)。
  • 项目数量

    • 这可能对FSS系统的性能至关重要。我们假设每个类别的项目数量应该大于一百,但这可能会发生变化,并且将来需要进一步讨论。
  • 音频质量

    • 考虑到Foley声音的用户,即专业内容创建者,所需的是全带宽(44.1 kHz)信号。
  • 视觉提示

    • 根据第4.2节中的第1级问题定义,在官方数据集的第一个版本中,将没有视觉信息。

4.5 Consideration on Evaluation

  • 客观评估捕全面,需要主观评估,但是费时间,这里对两种评估进行一个综合的讨论。
4.5.1 Objective Evaluation Metrics客观评估指标(对于处于第一阶段的我来说,十分重要)
  • Inception Score(IS):Inception得分(IS)在被引入用于评估如GANs这样的隐式生成模型后已经变得很受欢迎。IS是基于辅助分类器模型的后验分布来定义的。IS通常被解释为锐度和多样性的乘积,分别代表分类器对其输出标签的信心和生成样本的类别多样性。换句话说,IS能够敏感地反映类别身份和多样性的质量。然而,它不能捕捉到模式的不一致性,即模式的增加或丢失。

  • Fréchet inception distance (FID) 是用于评估生成模型的另一种广泛使用的指标。与IS不同,FID的计算依赖于辅助模型的隐藏表示。辅助模型不需要是分类器,且FID对表示空间的选择具有鲁棒性。最近,使用音频分类器为音频生成采用了FID,并命名为Fréchet音频距离(FAD)。FID(以及FAD)是根据生成的和真实样本的隐藏表示集合来计算的。每一组表示都适应于多变量高斯分布,这两个分布的Fréchet距离成为生成样本的FID得分。由于它直接建模了隐藏表示的分布,FID对模式变化敏感,包括伪模式的增加或丢失。

  • 似然值也值得讨论,尽管我们不建议使用它。对于密度估计,似然值是一个关键指标,因为它直接显示了模型如何估计目标分布。但是,我们建议不使用似然值,原因有两个。首先,它通常与感知质量不一致。其次,它的适用性有限,因为对于某些生成模型(如GANs、VAEs或扩散概率模型)来说,似然值的计算是不可能的。

  • 总结:
    Fréchet inception distance (FID) 是一个评估生成模型的指标,它依赖于辅助模型的隐藏表示。与此不同,Fréchet音频距离(FAD)是为音频生成而设计的。FID能够敏感地反映隐藏表示的分布变化。另一方面,尽管似然值是一个直接的评估生成模型的指标,但由于与感知质量不一致和其适用性有限,因此不建议使用它。

5 Conclusion

  • 在这篇论文中,我们提出了音频研究中的一个新挑战——Foley声音合成。我们回顾了几个近期的挑战,包括它们的目标、进展和影响。我们还回顾了Foley声音合成的现有研究和数据集。基于这些回顾,我们提出了一个关于Foley声音合成挑战的简要提议,其中包括我们对问题定义、数据集和评估的建议。我们希望这篇论文能引发讨论,从而启动所提议的挑战,并最终在Foley声音合成方面取得进展。

总结

  • 这篇文章,需要知道FoleySound合成系统的具体应用,以及当前拥有那些技术。
  • 同时,这篇文章提到了声音合成技术,那么当前最新的声音生成技术有哪些?又该通过哪些指标来衡量这个声音合成技术?
  • 目前的音频生成技术,主要是关于语音和音乐的生成,并不是常规声音的生成,所以并不能用来做FoleySound合成,所以需要将原来的模型应用到新的领域。
  • 目前的FoleySound主要是关于视频同步声音的生成,并且相关的数据集比较全面,单纯的音频数据集也有,可以用来指导生成FoleySound声音,目前关于视频信息的FoleySound已经有很多了,但是还不是很完全,但是使用音频生成相关的FoleySound暂时还没有。
  • 这篇文章,详细定义了Foley Sound generation的问题,包括问题的输入,输出,以及具体的使用场景。除此之外,也对这个问题的几种阶段进行了总结,第一阶段就是简单的音频生成,第二阶段是按照文字生成对应的音频,第三阶段是按照视频进行配音,第四阶段对声音进行理解处理。
  • 总的来说,还是能够按照这个项目的要求往下做,还是可以有所产出的。
08-22 18:40