智能语音正在结构数字生产力  第1张

中国智能语音转写市场的快速发展,其驱动力主要在成本和应用场景泛化两大方面。然而智能语音赛道参与者不断入局,使得竞争愈发激烈。

来源 | 经理人传媒旗下《经理人》杂志

■ 文/卫明


智能语音正在结构数字生产力  第2张

来源/公众号


2011年,Siri首次应用到iPhone4s上。通过语音识别等技术,一句“hey Siri”,让用户可以和手机设备进行天气、短信、地图查找等功能的简单交互。如今,智能语音技术已经在互联网、企业服务、政务、教育、传媒、医疗健康等行业持续创造产业经济价值。


作为人工智能中最成熟的核心技术之一,智能语音转写技术通过持续商业化落地和应用场景开发,已经成为人工智能语音产业落地的“先锋军”。通过观察智能语音转写技术和行业的发展现状和趋势,能够看到智能语音技术更多的应用可能。那么,中国智能语音转写市场快速发展的驱动力是什么?现有行业入局者又该如何在头部企业的力压下,寻找属于自己的生存空间?


智能语音正在结构数字生产力  第3张

两大发展驱动力


随着人工智能技术的快速发展,以及市场上迅猛增长的实时与非实时语音转写需求,中国的智能语音转写市场正在快速扩大。据艾瑞研究院统计测算,2021年中国智能语音转写市场规模已约为10亿元。未来,随着智能转写技术的持续突破、应用场景泛化、质量和效率持续提升,智能转写市场还将加速发展。预计2026年中国智能语音转写行业市场规模将达到38亿元,2021~2026年的复合年均增长率为30.7%。


中国智能语音转写市场的快速发展,其驱动力主要在成本和应用场景泛化两大方面。


转移人工转写成本。智能语音转写技术,已经让“出口成章”成为现实。在智能语音技术落地之前,过去的会议记录需求主要依赖人工尤其是专业速录师,人工转写成本较高。而智能语音转写技术兼具价格、质量和效率三大优势,无论是实时语音转写与非实时语音转写,如今国内多家厂商都能够提供长音频的语音转文字服务,且准确度和效率得到了大幅提升。在这样的技术背景下,智能语音转写服务已经不再是辅助优化人工转写的次要选择,而是成为缓解人工价格压力普遍选择。


转写场景泛化拉动丰富用户需求。智能语音转写技术拉低转写成本,不但能够满足更多有具体转写需求的小众市场,同时价格优势还能催生新的市场需求。市场上智能语音转写应用场景的泛化,也在反向丰富智能语音转写的产品形态。不仅如此,在语音识别这个大赛道里,已经走过了最艰难的算法研发阶段,目前正处于如何满足市场上细分需求并不断提升用户体验阶段,而智能语音转写行业也处于这一赛道变化中。


这里,将会从用户接受度较为成熟的在线会议、自媒体、政务会展等领域举例分析。


根据中国互联网络发展统计报告数据,截至2022年6月中国在线办公用户规模已跃升至4.7亿。近几年办公形式的变化,让更多用户逐渐养成在线协同办公习惯,许多企业已经将远程协同办公作为企业常态运营的工具。例如腾讯会议可以通过APP录制音视频,并且提供后续的转写服务。而讯飞听见能够满足日常办公会议、授课演讲、媒体采访等多种工作场景下的转写需求。


在媒体平台中,尤其是抖音哔哩哔哩这两个以自媒体视频创造者见长的两大平台,是语音转写的一大市场。数量庞大的长短视频发布者是这两大平台拥有持续内容产出、高用户活跃度的关键,而视频发布者对视频内容的字幕转写有着很高的硬需求。一方面是国内视频附加字幕已经成为媒体行业内心照不宣的共识,另一方面则源于用户静音观看对内容的需求,以及平台方对于内容管理的审核需 求。


无论是政务会议,还是会展活动,都具备字幕上屏、多语种同传等的现场会议服务需求。落实到具体的技术水平上,讯飞听见已经代替了全国人大用了几十年的常委会会议系统。在2022年的全国两会期间,有34个地方代表团全面使用了讯飞听见。讯飞听见对将近3000个全国人大代表的两会发言进行实时转写,平均准确率达到96%,远超人工速记员。


破局与展望


市场需求加大、转写场景泛化不断拉高行业景气度,然而智能语音赛道参与者不断入局,使得竞争愈发激烈。现阶段,我国智能语音转写产品市场较为集中,讯飞听见和搜狗听写的头部效应明显。其他品牌则存在核心产品功能高度相似、产品应用场景雷同的问题,这种品牌产品差异性不足的现状不断加剧同质化,叠加智能语音赛道愈发明显的马太效应,除了头部企业之外,大部分创业企业难以盈利。


如何在同质化的赛道中,形成自己的差异化优势,已经成为行业中各企业必须思考的问题。


以科大讯飞、搜狗为代表的头部企业利用先发和技术优势,不断拓展自身产业链,构建完整生态结构。但是也有许多创业企业扎根细分行业,找到了属于自己的细分赛道。比如主要服务于字节系产品的火山引擎,其智能字幕生成服务可用于辅助视频字幕创作和外挂字幕生成,主要匹配字节系产品内容生产者的视频处理需求。还有专注语音识别转写的灵云语音,主要面向各行业C端用户,满足多场景个人转写需求的录音转文字助手等。


除此之外,位于智能语音转写第二梯队的百度智能云、阿里云、腾讯云等互联网巨头,依托品牌自有用户生态,积极向C端用户进行运营推广。整体来说,尽管市场的参与者众多,但是除了头部企业积极开展前瞻布局外,其他服务商正在现有市场中的各细分领域进行差异化竞争,努力分得属于自己的一杯羹。


除了从竞争现状中寻得差异化落脚点,入局者还需要思考语音识别技术更大的潜力空间。语音识别技术突破创新方向是什么?还有哪些产品生态是尚未开发的?


从技术来看,如何在现实复杂场景中保障语音识别的质量和效率,正在成为新的突破点。在“混合语种”“嘈杂环境”下的“多人”“交互”等因素交织的复杂语音场景下,科大讯飞已经走在前列。在国际上两年一次的高噪音复杂场景比赛中,科大讯飞通过语音识别和嘴型识别的多种模式识别,在很多领域高噪音环境下做到实用,位列全球第一。而在工业领域,科大讯飞2022年获得了DCASE全球工业声纹挑战赛冠军,机器可以听懂各种设备的运转是否正常,听懂各种产品是否噪音超标或有瑕疵。行业入局者可以基于自身企业特点选择差异化侧重,共同推进转写技术的应用渗透与市场发展。


从产品来看,目前智能转写技术主要是实现语音到文字的转写内容。结合艾瑞咨询发布的《2022年中国智能语音转写行业研究报告》中对于场景价值的描述,未来转写应用可结合自然语言理解、机器学习、知识图谱等AI技术,拓展转写产品的场景边界,深入挖掘转写内容价值,在沉淀文字内容基础上,自主生成优化策略,以更高阶、智能地辅助替代角色,为客户提供问题预警、策略总结、决策分析等功能服务。

智能语音正在结构数字生产力  第4张

如涉及版权请告知删除,我们对文中观点保持中立