我正在开发一个在 iPhone/iPad 上使用 CoreAudio 的应用程序。该应用程序既通过扬声器(输出)播放音频,又同时从麦克风(输入)录制音频。对于这个应用程序的目的,我能够比较输入和输出是非常重要的,特别是它们在时域中“对齐”的程度。因此,正确计算输入和输出 channel 之间的总延迟至关重要。

我正在测试 3 种不同的设备。一部 iPhone、一部 iPad 和模拟器。我已经能够凭经验确定 iPhone 的延迟大约为 4050 个样本,iPad 接近 4125 个样本,模拟器大约为 2500 个样本。

经过大量研究(又名谷歌搜索),我在网上发现了一些关于计算 CoreAudio 延迟的讨论,但它们通常与在 OSX 而不是 iOS 上使用 CoreAudio 有关。因此,它们指的是 iOS 上不存在的各种功能。然而,对于 iOS 来说,正确的解决方案似乎是使用 AVAudioSessioninputLatencyoutputLatencyIOBufferDuration 的某种组合。然而,这些值的组合似乎无法与上述经验确定的值相加。此外,当我在调用 AudioUnitInitialize 之前和之后检查每个参数时,我得到了截然不同的值。更令人困惑的是,这些值更接近调用 AudioUnitInitialize 之前的预期延迟,这与我的预期相反。

这是我看到的值(value)观。

  • iPad(之前):输入 0.032375,输出 0.013651,buf 0.023220,总样本 3054
  • iPad(之后):输入 0.000136,输出 0.001633,buf 0.023220,总样本 1102
  • iPhone(之前):输入 0.065125,输出 0.004500,buf 0.021333,总样本数 4011
  • iPhone (after): 0.000354, out 0.000292, buf 0.021333, 总样本 969

  • 模拟器总是为 in 和 out 返回 0.01,但我怀疑这些不是实际/正确的值,并且模拟器不支持此功能。

    另一个可能有趣的注意事项是我使用的是 kAudioUnitSubType_VoiceProcessingIO 而不是 kAudioUnitSubType_RemoteIO,我确实希望它会增加一些额外的延迟。我的假设是这将包含在 inputLatency 值中,但也许我需要查询另一个值以包含它?

    确定 iOS 中输入和输出之间总延迟的正确方法是什么?

    最佳答案

    每个设备都有自己的延迟指标。
    即使型号和操作系统版本相同。
    在模拟器上估计时间没有意义。它不会显示设备的实际延迟。

    无法以高精度计算延迟。因为您没有考虑信号到达麦克风的时间。此外,在每次开始时,流工作的延迟仍然存在。

    选择用于录音的麦克风也会受到影响。从 iPhone 6 开始,至少有三个。默认值较低。

    我处理这些问题已经两年了。最有效的方法是校准(平衡)设备。
    启动音频单元时,您需要发送随机高频信号。在入口处拿到它,评估差异并从它开始。

    我在缓冲区的帮助下调整流本身以始终处理相应的样本。

    最好在每次开始时都做。这需要一瞬间,但您的 I/O 流始终保持同步。

    编辑 1

    如果你要做一个校准器:

  • 请记住,voiprocessing 处理高频声音的效果更差。
  • 18 kHz 以上频率的可听度显着下降。
  • 同时录音和播放时,默认使用顶部扬声器(您很可能已经知道这一点)。
  • 生成信号时,只使用多个频率(不知道英文是怎么写的)。频率必须是 sampleRate / frameSize 的倍数。

  • 例如,对于 44100 的采样频率和 512 的样本大小,您可以使用比 44100/512 = 86.13 倍数的频率。

    频率: 86.13 Hz, 172.27 Hz, 258.40 Hz, 344.53 Hz, 430.66 Hz, 516.80 Hz, 602.93 Hz, 689.06 Hz, 775.20 Hz, 861.33 Hz, 6.3,519 Hz, 7.3,519.6 Hz, 919.59 . 6.3,519 .

    否则,将信号转换为频谱时,您会变得模糊。

    编辑 2

    创建样本并获取样本光谱示例代码。
    import Foundation
    import Accelerate
    import AudioUnit
    import AVFoundation
    
    public class StackExample {
    
    
        //
        // createSample(512, [1, 3, 5])
        // Was create sample with length 512 reports for frequencies: 86.13 Hz (1), 258.40 Hz (3), 430.66 Hz (5).
        // Number of frequency is number of multiplicity 44100/512
        // You can use frequencies from 1 to half of frameSize
        //
        public func createSample(frameSize: Int, frequencies: [Int]) -> [Float] {
            // result sample
            var sample = [Float]()
            // prepare diferent report in sample
            for index in 0..<frameSize {
                var report: Float = 0.0
                for frequencyNumber in frequencies {
                    report += sinf(2.0 * Float.pi * Float(index) * Float(frequencyNumber) / Float(frameSize))
                }
                // report value mast been in range between -1.0 and 1.0
                // if we send more one frequencies we must divide each report by the number of frequencies
                if frequencies.count > 1 { report = report / Float(frequencies.count) }
    
                // with this configuration, the signal will immediately play at maximum volume. It must be smoothed in sinusoin over the entire segment.
                report *= sinf(Float.pi * Float(index) / Float(frameSize - 1))
    
                sample.append(report)
            }
    
            return sample
        }
    
        // spectrum was half of count of reports in sample
        // for sample with length 512 get spectrum with 256 frequencies. Frequency numbers are also multiple like in code of generation of sample.
        public func getSpectrum(frameSize: Int, sample: [Float]) -> [Float] {
            // create fft setup
            let frameLog2Size = UInt(log2(Double(frameSize)))
            let fftSetup = vDSP_create_fftsetup(frameLog2Size, FFTRadix(FFT_RADIX2))!
            let spectrumSize = frameSize / 2
    
            var reals = [Float]()
            var imags = [Float]()
    
            for (idx, element) in sample.enumerated() {
                if idx % 2 == 0 {
                    reals.append(element)
                } else {
                    imags.append(element)
                }
            }
    
            var complexBuffer = DSPSplitComplex(realp: UnsafeMutablePointer(mutating: reals), imagp: UnsafeMutablePointer(mutating: imags))
            // direct fft transform
            vDSP_fft_zrip(fftSetup, &complexBuffer, 1, UInt(frameLog2Size), Int32(FFT_FORWARD))
            var magnitudes = [Float](repeating: 0.0, count: spectrumSize)
            // calculation of magnitudes
            vDSP_zvmags(&complexBuffer, 1, &magnitudes, 1, UInt(spectrumSize))
            return magnitudes
        }
    }
    

    编辑 3

    如何简单地进行校准:
  • 发送信号。
  • 监听输入流并等待信号。
  • 当您找到具有信号上限的样本时,阈值使用上一个当前样本和下一个样本进行二分搜索。
  • 关于ios - CoreAudio : Calculate total latency between input and output with kAudioUnitSubType_VoiceProcessingIO,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59754071/

    10-12 23:50