语音识别(STT)
技术思想及原理分析
语音识别就是对发出的语音进行一系列的转换,从波形图翻译成对应的文字信息,这个过程中有一个中间的特征来对应两边的语音和文本。简单来说就是先把语音转成某种特征图,然后让特征图对应到文本信息上。由于是从声音转换成文本,也称为STT(speech to text)。语音转文本的具体技术和语音唤醒使用的技术一样,先要把波形图转成频谱图,然后根据梅尔频率倒谱系数进行特征提取,有了特征就可以对应指定的文本信息了。
应用场景及商业价值
语音识别的好处是,可以代替键盘快速输入文本信息。比如在某些聊天软件上和对方沟通时,想要发送给对方的是文字信息,但是又不方便键盘输入,这个时候就可以使用语音识别技术来自动将语音转换成文字后再发送。此外,广义的语音识别包括了所有的语音操作技术,包括语音唤醒、语音命令等一系列和语音相关的技术。