1. 介绍
Jasper是一款基于树莓派的开源语音控制助理, 使用Python语言开发.
Jasper工作原理主要是设备被动监听麦克风, 当收到唤醒关键字时进入主动监听模式, 此时收到语音指令后进行语音识别, 然后对得到的文本进行语义内容解析并处理, 然后将处理结果通过语音合成并输出给用户.
其中涉及到的技术包括声音的录制和播放; 语音识别(ASR/STT); 语义内容(NLU/NLP); 语音合成(TTS)
2. 音频系统
2.1 硬件
音频系统的硬件设备为声卡, 声卡通过DAC(数模转换)和ADC(模数转换)实现音频的输入和输出.
下面是Linux下查看声卡设备的命令
$ lspci | grep -i audio
00:05.0 Audio device: Intel Corporation 82801FB/FBM/FR/FW/FRW (ICH6 Family) High Definition Audio Controller (rev 01)
2.2 软件
在Linux中音频系统结构如下
在桌面Linux系统中, 音频系统通常包含驱动层、服务层(声音服务器)和应用层.
在嵌入式系统中, 音频系统通过只包含驱动层和应用层.
在Linux下有两套音频驱动系统, 分别是OSS和ALSA.
2.2.1 OSS
OSS(Open Sound System), 是类Unix和POSIX兼容系统上统一的声音架构, 兼容OSS API的应用程序可以方便地进行移植
OSS API 主要提供如下设备文件接口
/dev/mixer: 混音及控制
/dev/dsp: 音频输入输出
现如今大部分Linux系统并不提供OSS驱动, 而使用ALSA, 故在此不详述.
更多信息参考<OSS--跨平台的音频接口简介>
2.2.2 ALSA
ALSA(Advanced Linux Sound Architecture)是OSS的继任者, 目前已经成为Linux下主流音频架构
ALSA包含驱动、函数库以及工具包
alsa-driver: 驱动部分, 集成在内核中, 大多以模块的方式存在
驱动可分为如下三层
驱动程序为用户空间提供了如下抽象接口
/proc/asound: 信息接口
/dev/snd/controlCX: 控制接口
/dev/snd/mixerCXDX: 混音器接口
/dev/snd/pcmCXDX: PCM接口
/dev/snd/midiCXDX: MIDI接口
/dev/snd/seq: 音序器接口
/dev/snd/timer: 定时器接口
alsa-lib: 用户空间函数库, 封装驱动提供的抽象接口, 通过文件libasound.so提供API给应用程序使用
alsa-utils: 实用工具包,通过调用alsa-lib实现播放音频(aplay)、录音(arecord) 等工具
2.2.3 服务层
声音服务器介于ALSA和应用程序之间, 解决了不同应用程序之间独占声卡和混音问题; 当没有声音服务器时, 而已使用dmixer来实现简单的混音.
应用程序调用声音服务器的API来播放声音时, 同时把音频数据送到声音服务器, 声音服务器将一个以上的播放请求混音后, 再发送给底层的声卡驱动(ALSA/OSS), 由ALSA或OSS来驱动声卡播放混音后的数据.
ESD(Enlightened Sound Daemon, or EsounD): 是Gnome桌面环境的的声音服务器, 已被PulseAudio替代.
aRts(Analog Real-Time Synthesizer): 是KDE桌面环境的声音服务器, 已被Phonon替代.
PulseAudio: 新一代声音服务器, 能提供更好的音效, 目前是Gnome桌面的默认声音服务器.
JACK Audio Connection Kit: 专业的声音服务器, 为应用程序之间的音频和MIDI数据提供实时、低延迟的连接.
AudioFlinger: Android上的声音服务器.
2.2.4 其他音频库
除了声音服务器之外, 还有一些常见的音频框架和库
GStreamer: 是用来构建流媒体应用的开源多媒体框架.
Phonon: Qt上跨平台多媒体框架.
PortAudio: 音频I/O库, 提供C和C++接口, 跨平台, 在Linux上支持ALSA、OSS后端.
libsoundio: 轻量级抽象库, 提供C接口, 跨平台, 在Linux上支持JACK、PulseAudio、ALSA后端
RtAudio: 实时音频库, 提供C++接口, 跨平台, 在Linux上支持JACK、PulseAudio、ALSA、OSS后端
更多音频相关内容请参考<Linux音频编程介绍>
2.3 Jasper中的音频处理
2.3.1 基础介绍
Python中音频库众多, 常用的有如下:
Pydub: 一个高级音频接口, 需要ffmpeg或者libav支撑.
sounddevice: PortAudio库的绑定, 并与Numpy兼容的录音以及播放库.
PyAudio: PortAudio库的绑定, 需要PortAudio库支撑, 跨平台.
pyalsaaudio: ALSA API的封装, 需要ALSA库支撑, 只支持Linux.
pymad: 使用MAD(MPEG Audio Decoder)库的高级音频接口, 需要libmad支撑.
2.3.2 音频输入
Jasper的音频输入使用的库为PyAudio, 通过PyAudio录制声音并保存为wav格式文件, 然后送给STT引擎处理.
2.3.3 音频输出
Jasper中音频输出主要是将TTS结果输出给用户, 主要有三种
- 使用eSpeak、Festival等离线引擎则直接与系统交互.
- 调用系统的aplay、play命令直接播放Web API返回的音频文件.
- 使用Python库播放Web API返回的音频文件, 使用pymad进行播放.
3. 语音识别
语音识别(Speech recognition)技术, 被称为自动语音识别, ASR(Automatic Speech Recognition);
也称语音转文字, Speech To Text(STT), 目前有如下方案
开源方案包括
- CMUSphinx、ISIP、Julius、Kaldi、Mozilla DeepSpeech
专有方案包括
- HTK、RWTH ASR
- Google STT、Amazon Alexa、Microsoft Speech API、Nuance Voice Platform
- Baidu STT、Ali STT、iFlyTek STT
另外值得一提工具有:
VoxForge: 一个免费的语音语料库和开源语音识别引擎的声学模型库, 支持的引擎包括CMUSphinx、ISIP、HTK和Julius
Python SpeechRecognition: 支持多个引擎和API(包括在线和离线)用于执行语音识别的Python库
4. 语音合成
语音合成即TTS(Text To Speech), 目前有如下方案
开源方案包括
- eSpeak/eSpeakNG、Ekho、Festival/FestVox/Flite、Tizen TTS、MaryTTS(Java)
专有方案包括
- Google TTS、Amazon Polly(IvonaTTS)、Microsoft Speech API、Voice RSS、Neospeech TTS
- Baidu TTS、Ali TTS、iFlyTek TTS
4.1 eSpeak
eSpeak支持中文输出, 不过效果真心不敢恭维
$ espeak -vzh "我是中国人, 我爱中国"
4.2 Ekho
Ekho是一款免费的开源和多语言文本转语音软件
它支持粤语、普通话等等
4.2 Festival
Festival为爱丁堡大学CSTR开发的通用多语言语音合成系统
FestVox为CMU开发的用来构建合成声音的软件
Flite(Festival-Lite)为CMU开发的基于Festival的精简版语音合成系统
简单来说, Festival和Flite可以进行TTS转换, 然后使用FestVox提供的声音进行输出。
// Festival
# yum install festival
$ echo "Hello, You are using festival" | festival –tts
$ festival --tts myfile
// Flite
# yum install flite
$ flite "Hello, You are using flite" a.wav
$ aplay a.wav
Festival效果比espeak稍好, 不过不支持中文
5. 语义内容
这部分的内容是一个非常复杂的东西, 个人理解可以归为自然语言理解(Natural Language Understanding, 简称NLU)或者自然语言处理(Natural Language Processing, 简称NLP)学科范畴.
NLP通常包含如下内容
- 分词: 只针对中文,英文等西方字母语言已经用空格做好分词了, 将文章按词组分开
- 词法分析: 对于英文,有词头、词根、词尾的拆分,名词、动词、形容词、副词、介词的定性,多种词意的选择
- 语法分析: 通过语法树或其他算法,分析主语、谓语、宾语、定语、状语、补语等句子元素
- 语义分析: 通过选择词的正确含义,在正确句法的指导下,将句子的正确含义表达出来。方法主要有语义文法、格文法
Python自然语言处理库很多, 常见的有:
NLTK: Natural Language Toolkit, 自然语言工具箱.
TextBlob: 提供了一个简单的API来处理文本数据, 用于常见的NLP任务.
Gensim: 用于主题建模、文档索引和大型语料库相似性检索.
jieba: 中文分词组件.
SnowNLP: 可以方便的处理中文文本内容.
Jasper解析语义内容目前采用比较简单的方式, 从STT处理后得到用户的命令文本, 判断文本是否包含已注册的模块关键字中, 如包含则由关键字对应模块进行处理.
其中, 部分模块使用semantic库
参考:
<AlexaPi>
<mycroft>
<Python的webrtc库实现语音端点检测>