本文记录,作为项目主要负责人,完整参与语音识别项目的交付历程。
2019年12月中旬
接到项目交付任务,收集基本知识,启动业务分析工作。
2020年1月
完成竞品分析的整理。
梳理合作伙伴的清单,整理项目计划,启动和各合作伙伴的沟通工作。
启动架构方案、设计方案的准备工作。
2020年2月
和合作伙伴A谈好合作方案,基于云云对接的方式,启动项目交付工作。
架构设计、方案设计(文件转写)完成文档的输出和评审。
月底,支持短文件转写(即时长在60秒以内的语音文件)的服务,在生产环境顺利上线。
按照部门要求,后续按照月度版本的方式组织交付,即月初启动交付,月底完成版本发布和生产环境的变更。
本月版本交付的内容:
- 短文件转写(即时长在60秒以内的语音文件)的服务。
- 支持中文的识别。
2020年3月
基于云云对接的方式,支持长文件转写(即时长大于60秒,小于5小时的语音文件)的服务,在生产环境顺利上线。
端侧SDK的第一个版本,完成功能联调。
为支持端侧SDK的瘦身方案,本月启动了一个调测版本的开发工作。
本月版本交付的内容:
- 支持长文件转写(即时长大于60秒,小于5小时的语音文件)的服务。
- 输出运维数据。
2020年4月
支持端侧SDK的瘦身方案的版本,本月月底完成开发和交付,并在生产环境顺利上线。
基于集成模型的方式,在生产环境顺利上线如下服务:
- 支持短文件转写(即时长在60秒以内的语音文件)的服务。
- 支持实时语音识别(即时长在60秒以内的语音文件)的服务。
本月版本交付的内容:
- 短文件转写(即时长在60秒以内的语音文件)的服务。
- 实时语音识别的服务,支持时长在60秒以内。
- 支持中文、英语的识别。
- 集成业务运维系统。
- 集成客户支撑系统。
- 构建业务流量控制方案。
- 完善运维数据。
2020年5月
本月版本交付的内容:
- 例行更新语音识别的模型:
- 更新中文的模型。
- 更新英语的模型。
- 扩充语种,增加对法语的支持。
- 完善前处理阶段:
- 支持重采样。
- 支持多种音频格式,PCM、AAC、AMR。
- 新增后处理阶段:
- 支持数字格式归一化,支持中文、英语。
- 支持标点符号,基于静音时长的规则。
- 支持大小写,基于规则。
- 完善运维数据。
2020年6月
本月版本交付的内容:
- 例行更新语音识别的模型:
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
- 完善后处理阶段:
- 数字格式归一化,完善中文、英语对特定领域比如计算机、物理等词汇的支持。
- 完善短文件转写服务:
- 增加文本的时间偏移的特性。
- 支持基于URL的方式,加载语音数据文件。
2020年7月
本月版本交付的内容:
- 例行更新语音识别的模型:
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
- 完善后处理阶段:
- 数字格式归一化,增加法语的支持。
- 完善运维能力,把一些复杂的配置项,通过运维系统来管理。
基于云云对接的方案,和合作伙伴B启动集成工作。
由于组织架构调整,项目人力有比较重大的调整,开发团队中的骨干开发人员离开项目,我变成了光标司令。
还好算法团队、测试团队仍然完整,并且战斗力很强。
2020年8月
基于集成模型的方式,在生产环境顺利上线如下服务:
- 支持长文件转写(即时长在60秒以上,5小时以内的语音文件)的服务。
- 支持实时语音识别(即时长在60秒以上,5小时以内的语音文件)的服务。
本月版本交付的内容:
- 例行更新语音识别的模型:
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
- 长文件转写服务。
- 实时语音长时间识别服务。
- 完善后处理:
- 基于机器学习模型的方式支持标点符号特性。
- 基于机器学习模型的方式支持大小写特性。
- 基于合作伙伴B的能力,支持实时语音识别(时长小于60秒),支持4个小语种。
2020年9月
本版本的交付内容,合并至10月版本一并上线。
2020年10月
本月版本交付的内容:
- 例行更新语音识别的模型:
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
- 例行标点符号的模型:
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
- 例行更新大小写的模型:
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
- 完善文本时间偏移的实现,解决各种场景下不准确、不对齐的问题。
- 完善系统的可靠性,解决各种奇怪的内存、死锁类的问题。
- 完善运维系统。
- 并发路数的分配和管理。
- 使用逻辑集群的方式支持现有的4款产品,各产品支持独立扩容。
- 优化文件转写的效率,降低端到端处理时延。
2020年11月
本月版本交付的内容:
- 例行更新语音识别的模型:
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
- 例行标点符号的模型:
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
- 例行更新大小写的模型:
- 更新中文的模型。
- 更新英语的模型。
- 更新法语的模型。
- 完善系统的可靠性,解决时序不对齐导致的底层识别会话无法释放的问题。
2020年12月
本月版本交付的内容:
- 扩充语种,支持西班牙语。
- 集成语音识别的模型。
- 集成标点符号的模型。
- 集成大小写的模型。
- 增加数字归一化。
- 完善前处理阶段:
- 扩充支持音频格式,增加speex。
启动项目交接,语音识别的项目进入维护状态。
2021年1月
正式离开项目。
总结
前期需求交付的路标规划不完整,因此对于人力的诉求,没有明确的估计,导致项目整个交付过程中,受限于人力,进度压力很大,加班很多,项目成员均有怨言。这是后续独立负责项目交付时的一个比较大的改进点。
1.本站内容仅供参考,不作为任何法律依据。用户在使用本站内容时,应自行判断其真实性、准确性和完整性,并承担相应风险。
2.本站部分内容来源于互联网,仅用于交流学习研究知识,若侵犯了您的合法权益,请及时邮件或站内私信与本站联系,我们将尽快予以处理。
3.本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
4.根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”您需知晓本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24个小时之内从您的电脑中彻底删除上述内容,否则后果均由用户承担责任;如果您访问和下载此文件,表示您同意只将此文件用于参考、学习而非其他用途,否则一切后果请您自行承担,如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。
5.本站是非经营性个人站点,所有软件信息均来自网络,所有资源仅供学习参考研究目的,并不贩卖软件,不存在任何商业目的及用途
暂无评论内容