自由、创新、研究、探索

自由、创新、研究、探索

whisper介绍

whisper的核心功能语音识别,对于大部分人来说,可以帮助我们更快捷的将会议、讲座、课堂录音整理成文字稿;对于影视爱好者,可以将无字幕的资源自动生成字幕,不用再苦苦等待各大字幕组的字幕资源;对于外语口语学习者,使用whisper翻译你的发音练习录音,可以很好的检验你的口语发音水平。当然,各大云平台都提供语音识别服务,但是基本都是联网运行,个人隐私安全总是有隐患,而whisper完全不同,whisper完全在本地运行,无需联网,充分保障了个人隐私,且whisper识别准确率相当高。


语言模型文件:https://huggingface.co/ggerganov/whisper.cpp 或者 https://github.com/ggerganov/whisper.cpp

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目-LMLPHP

ggml-*.bin则中英文都可以翻译,根据自己对文字的精确要求选择模型,small、medium基本够用。高要求可以使用large,但耗时会多一点。

这么好的一个模型在.NET 社区有很多封装的项目:


下面我们体验一下这个开箱即用的工具Whisper,从https://github.com/Const-me/Whisper 下周最新的版本:

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目-LMLPHP

运行起来,从Hugging Face 下载模型,

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目-LMLPHP

选择转化的语言、音频路径、文本类型、文本保存位置,运行一段时间后,打开后就可以看到文本内容了


 OpenAI的离线音频转文本模型 Whisper 的.NET封装项目-LMLPHP

实测medium模型:20min音频,大致耗时20~30min,这个效果是很不错了。

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目-LMLPHP

可以很容易将这个模型集成到自己开发的系统里。

04-24 10:14