智慧城市的重要组成部分之一是部署传感器技术来监控和控制城市的各种服务和功能。城市使用各种传感器来评估城市服务的提供和获取方式,这有助于缓解瓶颈问题,并提前预警潜在的服务中断。了解城市服务需求的时间和空间变化有助于更好的资源利用、更公平的服务提供以及更大的可持续性和弹性。目前,各种传感器已经部署在城市环境中,特别是在交通领域,也用于监测环境条件、能源、水和废物的流动,以及追踪犯罪活动。随着对主动移动性和步行友好性的日益关注,一些城市已经尝试使用各种技术来感知人群。

     行人的检测主要基于视频数据分析或通过红外计数器进行这两者都比音频传感昂贵得多。有时考虑用于行人感知的更复杂的替代方案,如雷达、无线电波束、感应线圈和压电条,部署和维护成本也很高。在本文中,我们探讨将基于麦克风的传感器与为分析高度复杂的音乐音频信号而开发的方法相结合,以适应行人感知的潜力。

1 行人检测技术

早期行人检测主要依靠人工计数或视频监控。随着计算机视觉和机器学习技术的快速发展,行人检测技术取得了巨大进步,从基于传统图像处理方法的特征提取和分类,发展到基于深度学习的端到端检测模型,例如卷积神经网络(CNN)和循环神经网络(RNN)等。

1.1 现有行人检测技术

  • 基于视频的行人检测: 这是最常用的行人检测技术,通过分析视频帧中的图像信息,识别和追踪行人。常见的算法包括:

      目标检测算法: 例如 YOLO、SSD、Faster R-CNN 等,可以识别图像中的行人位置和数量。

      目标跟踪算法: 例如卡尔曼滤波、粒子滤波、深度学习跟踪算法等,可以追踪行人在视频中的运动轨迹。

      行人再识别算法: 例如 Siamese 网络、Triplet 损失等,可以识别和匹配不同摄像头下同一行人。

  • 基于红外线的行人检测: 利用红外线传感器检测人体发出的热量,从而识别行人的存在。常见的红外线传感器包括主动式和被动式红外线传感器。
  • 基于雷达的行人检测: 利用雷达波反射原理检测行人的存在和运动。常见的雷达传感器包括毫米波雷达和超声波雷达。
  • 基于音频的行人检测: 利用麦克风收集声音信息,识别行人的脚步声、说话声等,从而判断行人的存在和位置。近年来,基于音频的行人检测技术逐渐兴起,并展现出巨大的潜力。

1.2 不同行人检测技术的优缺点

1.2.1 基于视频的行人检测

  • 优点:检测精度高,可以识别行人的位置、数量、运动轨迹等信息。
  • 缺点:受光照、遮挡、视角等因素影响较大,需要大量的标注数据,计算量大。

1.2.2 基于红外线的行人检测

  • 优点:不受光照影响,成本较低。
  • 缺点:检测精度较低,容易受到环境温度、湿度等因素的影响。

1.2.3 基于雷达的行人检测

  • 优点:不受光照、遮挡等因素影响,可以穿透部分障碍物。
  • 缺点:成本较高,受天气等因素影响较大。

1.2.4 基于音频的行人检测

  • 优点:成本低,不受光照、遮挡等因素影响,可以捕捉到其他传感器难以检测到的信息。
  • 缺点:检测精度较低,容易受到环境噪声等因素的影响。

2 行人流动预测

行人流动预测是城市规划和管理中的一个关键领域,它涉及使用数据分析和模型来预测在特定时间和地点的行人数量和流向。行人流动预测对于城市规划、交通管理、公共安全等方面具有重要意义。它可以帮助我们:

  • 优化交通规划: 通过预测行人流量,可以更好地设计道路、人行道和公共空间,确保交通流畅,减少拥堵。
  • 提升公共安全: 预测人群聚集的区域,可以提前采取安全措施,防止踩踏事件等安全事故的发生。
  • 改善公共设施: 了解人们在不同时间和地点的活动规律,可以更好地配置公共设施,如垃圾桶、座椅等,提升城市品质。
  • 灾害管理: 在发生地震、火灾等灾害时,预测人群流动方向,可以更好地进行疏散和救援。

2.1 行人流动预测的挑战

  • 数据获取: 获取大规模、高精度的人流数据仍然是一个挑战。传统的数据采集方法,如人工计数、红外传感器等,存在成本高、效率低等问题。
  • 数据复杂性: 行人流动受到多种因素的影响,如天气、时间、地点、活动等,这使得预测模型的设计和训练变得复杂。
  • 模型泛化: 现有的行人流动预测模型大多针对特定场景进行训练,如何提升模型的泛化能力,使其能够适应不同的环境和场景,是一个重要的研究方向。

2.2 基于音频的行人流动预测

城市行人感知新方法:基于音频的行人检测与预测-LMLPHP

城市行人感知新方法:基于音频的行人检测与预测-LMLPHP

基于音频的行人流动预测主要分为以下几个步骤:

  • 音频采集: 使用音频传感器采集周围环境的音频数据。
  • 音频预处理: 对采集到的音频数据进行预处理,例如去除噪声、增强行人声音等。
  • 行人检测: 利用深度学习模型分析音频数据,识别行人的存在。常见的行人检测方法包括:

特征提取: 从音频数据中提取特征,例如梅尔频谱图、倒谱系数等。

模型训练: 使用行人数据训练深度学习模型,例如卷积神经网络 (CNN) 等。

行人识别: 利用训练好的模型对音频数据进行预测,识别行人的存在。

  • 行人行为预测: 根据行人检测的结果,预测行人行为,例如行人数量、行人轨迹等。常见的行人行为预测方法包括:

统计模型: 建立统计模型,例如泊松回归模型,预测行人数量。

深度学习模型: 使用深度学习模型,例如循环神经网络 (RNN) 等,预测行人轨迹。

2.3 数据集ASPED

Audio Sensing for PEdestrian Detection(ASPED)作为一系列实验的基础,这些实验探索了音频传感用于行人检测的可能性。

官网地址:ASPED Dataset

2.3.1 数据集硬件环境

城市行人感知新方法:基于音频的行人检测与预测-LMLPHP

  • 音频数据收集使用Tascam DR-05X录音机和充电宝以延长录音时间,Saramonic SR-XM1麦克风以避免Tascam内置麦克风的射频干扰问题,以及5L OverBoard Dry Flat Bags进行防水处理,同时保持音频渗透性。
  • 视频数据收集:使用GoPro HERO9 Black摄像机,并配有USB直通门。

2.3.2 数据集特点

  • 规模大: 包含超过 2,600 小时的音频数据和 3,406,229 个视频帧。
  • 场景多样: 数据来自校园环境,包含不同的时间段和天气条件。
  • 标注精细: 每个视频帧都标注了行人数量,并且标注了行人是否位于不同半径的缓冲区内。
  • 数据不平衡: 大部分时间没有行人靠近麦克风,导致数据不平衡。

2.3.3 数据集存在的问题

  • 场景单一: 数据主要来自校园环境,缺乏城市环境的复杂性。
  • 数据不平衡: 大部分时间没有行人靠近麦克风,导致数据不平衡

3 结论

3.1 行人检测结果

城市行人感知新方法:基于音频的行人检测与预测-LMLPHP

  • 模型性能: 实验结果表明,使用音频编码器 (CONV 和 AST) 训练的模型在行人检测任务上优于预训练的 VGGish 模型。
  • 距离影响: 行人检测的准确率随着距离的增加而下降,在距离麦克风 3 到 6 米时准确率最高。
  • 信号强度影响: 模型对行人数量阈值较敏感,训练时使用低阈值、测试时使用高阈值可以获得更好的性能,表明模型能够更好地检测到行人信号较强的样本。

3.2 行人流预测结果

在预测四个半径级别(1米、3米、6米和9米)周围的行人数量时,预测准确率如表所示

城市行人感知新方法:基于音频的行人检测与预测-LMLPHP

  • 预测准确率: 使用 CNN 模型可以有效地预测不同半径范围内的行人数量,预测准确率随距离的增加而下降。
  • 滑动窗口方法: 可以使用滑动窗口方法进行短期行人流预测,但该方法的有效性受限于时间范围。

3.3 结果的意义

  • 基于音频的行人预测技术具有可行性,可以用于获取行人行为数据。
  • 需要进一步改进音频处理算法和深度学习模型,提高行人检测和行人流预测的准确率。
  • 需要收集更多城市环境下的数据,提升模型的泛化能力。

3.4 未来的研究方向

  • 开发更精确的特征提取方法,例如使用端到端训练的深度学习模型。
  • 研究数据增强技术,解决数据不平衡问题。
  • 探索更先进的行人流预测模型,例如使用图卷积网络 (GCN)。
06-18 16:27