项目初期,测试发现使用方言的独居老人因为不会说普通话,对着智能设备说了7遍“心口痛”,设备始终回应“请再说一遍”。当时的设备对方言的识别率不足40%,更别提在嘈杂的环境下识别率变得更低。这样的反应让我们团队不敢将产品批量生产。
我们陷入两难:用标准普通话交互,农村老人听不懂;定制方言模型,研发费用超百万。这个问题在我们测试声网引擎的'混合云架构'时完美解决,我们将通用模型部署在云端,方言模型本地化运行,硬件成本直降60%。
技术突破发生在噪音测试环节。在广场舞音响+蝉鸣的75dB环境里,'选择性注意力锁定'功能成功过滤98%干扰声,精准识别老人咳嗽声触发的SOS求救。更关键的是抗弱网能力:在四川山区4G信号飘红时,设备通过80%丢包补偿算法,把'我心口痛'的求救信息完整传出。
而且使用声网对话式AI引擎的商业化数据超出预期:
●成本:每位用户年均交互成本5.8元,政府补贴后近乎零成本
●覆盖率:支持12种方言,包括温州话、潮汕话等小语种
●转化率:方言版设备复购率达47%,是普通话版的3倍
我们陷入两难:用标准普通话交互,农村老人听不懂;定制方言模型,研发费用超百万。这个问题在我们测试声网引擎的'混合云架构'时完美解决,我们将通用模型部署在云端,方言模型本地化运行,硬件成本直降60%。
技术突破发生在噪音测试环节。在广场舞音响+蝉鸣的75dB环境里,'选择性注意力锁定'功能成功过滤98%干扰声,精准识别老人咳嗽声触发的SOS求救。更关键的是抗弱网能力:在四川山区4G信号飘红时,设备通过80%丢包补偿算法,把'我心口痛'的求救信息完整传出。
而且使用声网对话式AI引擎的商业化数据超出预期:
●成本:每位用户年均交互成本5.8元,政府补贴后近乎零成本
●覆盖率:支持12种方言,包括温州话、潮汕话等小语种
●转化率:方言版设备复购率达47%,是普通话版的3倍