我正在使用iOS 10内置语音识别功能破解一个小项目。使用设备的麦克风可以获得工作结果,我的语音被非常准确地识别。

我的问题是,对于每个可用的部分转录,都会调用识别任务回调,并且我希望它检测有人停止讲话,并使用isFinal属性设置为true来调用回调。这没有发生-应用无限期监听。
SFSpeechRecognizer是否能够检测句子结尾?

这是我的代码-它是基于Internet上的示例,它主要是从麦克风源中识别所需的样板。
我通过添加识别taskHint对其进行了修改。我也将shouldReportPartialResults设置为false,但似乎已被忽略。

    func startRecording() {

    if recognitionTask != nil {
        recognitionTask?.cancel()
        recognitionTask = nil
    }

    let audioSession = AVAudioSession.sharedInstance()
    do {
        try audioSession.setCategory(AVAudioSessionCategoryRecord)
        try audioSession.setMode(AVAudioSessionModeMeasurement)
        try audioSession.setActive(true, with: .notifyOthersOnDeactivation)
    } catch {
        print("audioSession properties weren't set because of an error.")
    }

    recognitionRequest = SFSpeechAudioBufferRecognitionRequest()
    recognitionRequest?.shouldReportPartialResults = false
    recognitionRequest?.taskHint = .search

    guard let inputNode = audioEngine.inputNode else {
        fatalError("Audio engine has no input node")
    }

    guard let recognitionRequest = recognitionRequest else {
        fatalError("Unable to create an SFSpeechAudioBufferRecognitionRequest object")
    }

    recognitionRequest.shouldReportPartialResults = true

    recognitionTask = speechRecognizer?.recognitionTask(with: recognitionRequest, resultHandler: { (result, error) in

        var isFinal = false

        if result != nil {
            print("RECOGNIZED \(result?.bestTranscription.formattedString)")
            self.transcriptLabel.text = result?.bestTranscription.formattedString
            isFinal = (result?.isFinal)!
        }

        if error != nil || isFinal {
            self.state = .Idle

            self.audioEngine.stop()
            inputNode.removeTap(onBus: 0)

            self.recognitionRequest = nil
            self.recognitionTask = nil

            self.micButton.isEnabled = true

            self.say(text: "OK. Let me see.")
        }
    })

    let recordingFormat = inputNode.outputFormat(forBus: 0)
    inputNode.installTap(onBus: 0, bufferSize: 1024, format: recordingFormat) { (buffer, when) in
        self.recognitionRequest?.append(buffer)
    }

    audioEngine.prepare()

    do {
        try audioEngine.start()
    } catch {
        print("audioEngine couldn't start because of an error.")
    }

    transcriptLabel.text = "Say something, I'm listening!"

    state = .Listening
}

最佳答案

当用户停止按预期讲话时,isFinal标志似乎没有变为真。我想这是Apple的通缉行为,因为“用户停止讲话”事件是未定义的事件。

我认为实现目标的最简单方法是执行以下操作:

  • 您必须建立一个“沉默间隔”。这意味着,如果用户不讲话的时间长于您的间隔,则他将停止讲话(即2秒)。
  • audio session的开头创建一个计时器:
  • var timer = NSTimer.scheduledTimerWithTimeInterval(2, target: self, selector: "didFinishTalk", userInfo: nil, repeats: false)
    当您在recognitionTask中获得新转录时,
  • 无效并重新启动计时器
    timer.invalidate()timer = NSTimer.scheduledTimerWithTimeInterval(2, target: self, selector: "didFinishTalk", userInfo: nil, repeats: false)
  • (如果计时器到期),这意味着用户从2秒钟开始不讲话。您可以安全地停止 Audio Session 并退出
  • 关于ios - SFSpeechRecognizer-检测话语结束,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/42530634/

    10-14 22:28
    查看更多