使用机器学习方法来训练模型,使用训练得到的模型来预测语音数据,进而得到识别的结果文本,这是实现语音识别产品的一般思路。
本文着重介绍通用语音识别产品对于数据的诉求。
对数据的要求
训练集
相关要求,如下:
- 地域,需要覆盖使用人群所在的地域,且数据的比例适中。
- 口音,需要覆盖典型的口音。
- 年龄,从18~60,覆盖各年龄段,且数据的比例适中。
- 很多国家对未成年人有非常严格的保护措施,因此收集未成年人的数据比较困难。
- 未成年男性的声音和青年女性的声音,从生理角度存在一定的相似度,这给质量控制增加了复杂度和相应的工作量。
- 性别,男、女,比例适中。对于特定的语种,这个要求很难达成,比如某些严格执行教规的国家,很难采集到女性的声音。
- 录音条件。
- 一般要求静音,近场,10秒以内的短句,前、后静音不超出1秒。
- 假如业务场景要求模型具备一定的搞噪能力,则需要增加对应场景的数据。
- 母语人群提供的数据,其比例不低于某限定值。
测试集
相关要求,如下:
- 数据的特征,接近应用场景。
- 数据量适中,可以支撑功能和性能测试。
获取数据的方法
训练集
可行的方法有:
- 采集开源训练数据集。这类数据通常用于研究,因此数据质量相对可控,唯一的问题在于数量较少,直白的说,用来写论文也许够用,但在工业强度下应用,则远远不满足要求。
- 采购商业数据。数据公司可以通过如下方式收集数据:
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用转包的方式,将任务包交给当地有资质的公司来收集数据。
- 采用众包的方式,收集语音数据。
- 自行采集数据。类似数据公司的操作方式,可以有如下方式:
- 按照要求在指定的地域、寻找符合要求的人来录制语音数据。
- 采用众包的方式,收集语音数据。
难点在于:
- 交付周期长。收集数据的操作,从提出诉求到最终收到数据,中间耗时良久,进度基本不可控。
- 质量不可控。语音数据没有比较好的手段可以实现自动化检查,因此需要花费相当的人力来整理、清洗数据,剔除质量差或者不满足要求的数据。
测试集
可行的方法有:
- 客户提供带有标注的测试集。
- 客户提供测试集的获取方法,交付团队按照要求采集数据用于测试。
- 客户提供测试集的标准,交付团队按照要求自行准备数据。
注意:测试集用于验证模型的有效性,为保证公平性和有效性,测试集中的数据,绝对不允许作为训练集来使用。
参考资料
千百度
© 版权声明
1.本站内容仅供参考,不作为任何法律依据。用户在使用本站内容时,应自行判断其真实性、准确性和完整性,并承担相应风险。
2.本站部分内容来源于互联网,仅用于交流学习研究知识,若侵犯了您的合法权益,请及时邮件或站内私信与本站联系,我们将尽快予以处理。
3.本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”您需知晓本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24个小时之内从您的电脑中彻底删除上述内容,否则后果均由用户承担责任;如果您访问和下载此文件,表示您同意只将此文件用于参考、学习而非其他用途,否则一切后果请您自行承担,如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。
5.本站是非经营性个人站点,所有软件信息均来自网络,所有资源仅供学习参考研究目的,并不贩卖软件,不存在任何商业目的及用途
THE END
暂无评论内容