我正在开发一个在 iPhone/iPad 上使用 CoreAudio 的应用程序。该应用程序既通过扬声器(输出)播放音频,又同时从麦克风(输入)录制音频。对于这个应用程序的目的,我能够比较输入和输出是非常重要的,特别是它们在时域中“对齐”的程度。因此,正确计算输入和输出 channel 之间的总延迟至关重要。
我正在测试 3 种不同的设备。一部 iPhone、一部 iPad 和模拟器。我已经能够凭经验确定 iPhone 的延迟大约为 4050 个样本,iPad 接近 4125 个样本,模拟器大约为 2500 个样本。
经过大量研究(又名谷歌搜索),我在网上发现了一些关于计算 CoreAudio 延迟的讨论,但它们通常与在 OSX 而不是 iOS 上使用 CoreAudio 有关。因此,它们指的是 iOS 上不存在的各种功能。然而,对于 iOS 来说,正确的解决方案似乎是使用 AVAudioSession
和 inputLatency
、 outputLatency
和 IOBufferDuration
的某种组合。然而,这些值的组合似乎无法与上述经验确定的值相加。此外,当我在调用 AudioUnitInitialize
之前和之后检查每个参数时,我得到了截然不同的值。更令人困惑的是,这些值更接近调用 AudioUnitInitialize
之前的预期延迟,这与我的预期相反。
这是我看到的值(value)观。
模拟器总是为 in 和 out 返回 0.01,但我怀疑这些不是实际/正确的值,并且模拟器不支持此功能。
另一个可能有趣的注意事项是我使用的是
kAudioUnitSubType_VoiceProcessingIO
而不是 kAudioUnitSubType_RemoteIO
,我确实希望它会增加一些额外的延迟。我的假设是这将包含在 inputLatency
值中,但也许我需要查询另一个值以包含它?确定 iOS 中输入和输出之间总延迟的正确方法是什么?
最佳答案
每个设备都有自己的延迟指标。
即使型号和操作系统版本相同。
在模拟器上估计时间没有意义。它不会显示设备的实际延迟。
无法以高精度计算延迟。因为您没有考虑信号到达麦克风的时间。此外,在每次开始时,流工作的延迟仍然存在。
选择用于录音的麦克风也会受到影响。从 iPhone 6 开始,至少有三个。默认值较低。
我处理这些问题已经两年了。最有效的方法是校准(平衡)设备。
启动音频单元时,您需要发送随机高频信号。在入口处拿到它,评估差异并从它开始。
我在缓冲区的帮助下调整流本身以始终处理相应的样本。
最好在每次开始时都做。这需要一瞬间,但您的 I/O 流始终保持同步。
编辑 1
如果你要做一个校准器:
例如,对于 44100 的采样频率和 512 的样本大小,您可以使用比 44100/512 = 86.13 倍数的频率。
频率: 86.13 Hz, 172.27 Hz, 258.40 Hz, 344.53 Hz, 430.66 Hz, 516.80 Hz, 602.93 Hz, 689.06 Hz, 775.20 Hz, 861.33 Hz, 6.3,519 Hz, 7.3,519.6 Hz, 919.59 . 6.3,519 .
否则,将信号转换为频谱时,您会变得模糊。
编辑 2
创建样本并获取样本光谱示例代码。
import Foundation
import Accelerate
import AudioUnit
import AVFoundation
public class StackExample {
//
// createSample(512, [1, 3, 5])
// Was create sample with length 512 reports for frequencies: 86.13 Hz (1), 258.40 Hz (3), 430.66 Hz (5).
// Number of frequency is number of multiplicity 44100/512
// You can use frequencies from 1 to half of frameSize
//
public func createSample(frameSize: Int, frequencies: [Int]) -> [Float] {
// result sample
var sample = [Float]()
// prepare diferent report in sample
for index in 0..<frameSize {
var report: Float = 0.0
for frequencyNumber in frequencies {
report += sinf(2.0 * Float.pi * Float(index) * Float(frequencyNumber) / Float(frameSize))
}
// report value mast been in range between -1.0 and 1.0
// if we send more one frequencies we must divide each report by the number of frequencies
if frequencies.count > 1 { report = report / Float(frequencies.count) }
// with this configuration, the signal will immediately play at maximum volume. It must be smoothed in sinusoin over the entire segment.
report *= sinf(Float.pi * Float(index) / Float(frameSize - 1))
sample.append(report)
}
return sample
}
// spectrum was half of count of reports in sample
// for sample with length 512 get spectrum with 256 frequencies. Frequency numbers are also multiple like in code of generation of sample.
public func getSpectrum(frameSize: Int, sample: [Float]) -> [Float] {
// create fft setup
let frameLog2Size = UInt(log2(Double(frameSize)))
let fftSetup = vDSP_create_fftsetup(frameLog2Size, FFTRadix(FFT_RADIX2))!
let spectrumSize = frameSize / 2
var reals = [Float]()
var imags = [Float]()
for (idx, element) in sample.enumerated() {
if idx % 2 == 0 {
reals.append(element)
} else {
imags.append(element)
}
}
var complexBuffer = DSPSplitComplex(realp: UnsafeMutablePointer(mutating: reals), imagp: UnsafeMutablePointer(mutating: imags))
// direct fft transform
vDSP_fft_zrip(fftSetup, &complexBuffer, 1, UInt(frameLog2Size), Int32(FFT_FORWARD))
var magnitudes = [Float](repeating: 0.0, count: spectrumSize)
// calculation of magnitudes
vDSP_zvmags(&complexBuffer, 1, &magnitudes, 1, UInt(spectrumSize))
return magnitudes
}
}
编辑 3
如何简单地进行校准:
关于ios - CoreAudio : Calculate total latency between input and output with kAudioUnitSubType_VoiceProcessingIO,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59754071/