
大语言模型对传统语音交互领域的影响
互联网的发展不断地推动着各个领域的更新变换,本篇文章以传统语音交互领域为例,简单讲述大语言模型对传统语音的影响及后期过程的预测,希望能对你有所启发。
(资料图片)
一、垂直领域如何运用LLM?
首先LLM需要巨大的模型参数量,而垂直领域优质数据的获取相当困难,一些在垂类领域已经有积淀的团队更有优势。
其次大规模的数据训练成本非常高昂,垂直行业自己下场做不太现实。
因此我猜测更多的团队会采取 接入大模型API 并继续结合传统模型的方式,结合LLM给出的结果对传统模型进行效果改良。
实现落地应用还要经过增加垂类训练数据、优质数据预处理、模型训练和微调、调整对话策略等过程。
如何训练数据、调整参数这个太专业,这里我们重点看看对设计过程的影响。
二、LLM对语音交互设计的影响
通过上篇对LLM技术的了解,几乎可以确定的是有了LLM后:
LLM在闲聊业务上有明显优势,一些模型回答不上来的内容可以给出更加丰富的兜底回复。 LLM在上下文方面有着超越传统NLP技术的优势,并且能够对回复内容给出前后连续性的回复。对话的自然度也会有明显提升。因此用户可感知的系统智能度会被极大提高。
那么,LLM对于垂类 任务型对话 的语音交互设计流程究竟有着什么影响?
1. 传统语音交互设计
顺着传统NLP研究思路,传统任务型对话设计过程中,用户的指令经过 Domain(领域)-Intent(意图)-Slot(词槽) 的分类过程。
首先设计师会尽量穷举某个Domain(领域)下的高频用户Intent(意图)以及对应的表达方式,这些表达方式会被标注成用户意图、词槽(Slot)、实体(Entity)等用作数据训练,试图让机器理解。(除了这些,还会增加用户数据训练)。
其次,设计师还需设定好 任务型对话的逻辑 (比如用户说了导航到三里屯后希望再增加个途径点),和执行结果。
最后,设计师还需要针对每个用户意图设定好 回复语 ,包括正常的句子结构和关键词槽信息。为了避免回复语过于机械,通常还会扩写多条。
对话模板设计在传统任务型对话中扮演着重要的角色。
2.LLM对语音交互影响预测
以下是我对LLM模型加持下,垂类任务型对话的语音交互设计过程预测:
1. 模型的初期定义仍然重要,需要根据应用场景设定好模型初始性格、回复语风格,根据应用领域控制对话长度。
2. 穷举对话意图的工作会被减少,这些可以由大量用户原始对话数据进行持续训练。
3. 模型基本的判断逻辑设定(模型在某一领域话题范围、对话的逻辑骨架)还是有一定必要的,在上一篇中我们有提到大模型也需要「有监督微调」的过程。有监督微调阶段可以理解为通过给到 GPT 正确的对话模板(包含案例和执行结果)让GPT通过案例来学习,并且形成回答。可以使得 GPT 的能力分化到不同的技能树。
4. 交互结果仍然需要设计或人工干预,包括:不同场景(成功、各种异常)的提示音、引导用户按照预定流程操作,对话轮次的控制、在必要的情况下提出澄清问题或请求更多的信息等。
5. 虽然一定程度降低了前期穷举的设计工作量,短期内的测试工作可能会变得更加重要,在一些安全性要求较高的垂直场景需配合边界回复测试和人工干预,以确保用户实际使用效果不翻车。
6. 模型需要设定好上下文理解的边界,确保用户不同任务指令不会被记忆混淆。如果做不好这点,基于LLM的任务型对话体验将会很灾难。可以通过以下方式实现:
a. 引入时间窗口机制设定时间阈值,超过一定时间后的问题就不再进行上文记忆。
b. 控制对话次数,但这个方式可能会导致效果生硬一刀切。
c. 结合对话策略做判断:结合用户意图检测、对话状态(时间机制、是否遇到状态异常等)对整个对话管理逻辑进行设定,会有一定的设计工作量。
d.通过注意力机制,让模型关注的重点放在主要任务话题上,从而控制上下文理解范围。不过这需要调整模型算法。
7. 需要给到大模型调用频次过多、调用时间过长的基础兜底的方案。因为LLM参数量级大,通常需要更长的调用时间,我们又无法保证用户在特定任务场景的网速,很可能会出现调用失败的情况。(比如高速路段用户需要紧急救援、偏僻地区、拥挤的商场信号差)有时候优先给出传统模型的回复可能更佳。
看到这你可能觉得,怎么初期设计工作并没有因为模型结合了LLM而大量减少呢?
其实这只是模型能力搭建的一小部分,可预见的变化更多在搭建了这样一套基础后,大模型超强的学习和自我迭代能力可以使对话系统的建设更加高效: 模型可通过自我优化来提高对话质量、通过更多数据学习减少Unknown数据的比例,并逐步减少对对话模板的依赖 。
由此可见, 当大家都逐步搭建起垂直领域基于LLM的语音交互系统后,后续的系统维护工作中基础、简单的设计工作会大幅减少,转而需要更加专业的效果测试、对话策略调整、模型应用场景搭建工作,而这些都偏向工程类。
我猜这也就是为什么前阵子国外出现了「提示语工程师」岗位:
找到了一篇zhihu上的回答:https://www.zhihu.com/question/585797590/answer/2908249230
可以从该职位的具体要求中看出,这个角色涵盖大模型效果测试、应用场景和交互式工具探索、模型推广和一定的团队组织职能
而另外一个回答说明了具备Coding能力对标注工作的重要性,其实在模型效果测试方面也同样适用:https://www.zhihu.com/question/571460238/answer/2889630802
所以未来做好语音交互设计需要设计者对模型能力有较多底层知识储备,设计师、产品经理需要对垂直领域知识有足够的理解,甚至具备一定Coding能力、产品搭建能力,以便和工程师团队做更紧密的配合。此外,岗位和岗位之间的界限会被进一步模糊。
这提醒我们,日常工作之余,一定要多点技能树,以应对AI涌现的超能力对现有岗位的冲击。
三、结语
相比当前 ChatGPT、New Bing 已经实现的 CUI 会话式交互(Conversational User Interface 基于对话的计算机用户界面 ),VUI 语音交互要复杂的多。 除了要应对复杂的语音识别中背景音、多语言、方言口音问题,用户在纯语音交互过程中的输入时间、停顿问题、信息量、信息有效性也更加不可控。 加之调用成本高的问题,大模型在VUI领域的大规模落地应用仍然需要时间。
但我相信这值得期待~
相关参考:垂直行业的语言大模型思考 (上)
本文由 @Bay 原创发布于人人都是产品经理,未经作者许可,禁止转载。
题图来自Unsplash,基于CC0协议。
该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。
标签:
-
18
2023-05浙商证券:4月航司运力投放增加、客座率缺口收窄 机场国际线恢复趋势明确
国际客流复苏趋势确定,机场免税销售规模恢复确定性较强,非航收入有望超预期。 -
18
2023-05今日播报!新起点上再出发
今年是中国—中东欧国家合作新十年的起步之年,也是扩大国际合作的关键之年。在此背景下,作为唯一聚焦中国 -
18
2023-05借股票是什么意思
卖空者凭什么借到股票谈到融资融券,估计许多人要么不是很明白,要么就是不搞。这篇文章,主要分享的是我多 -
18
2023-05环球热推荐:三角形面积公式大全_三角形的面积公式是什么
1、S=1 2ah(面积=底×高÷2。2、其中,a是三角形的底,h是底所对应的高)注释:三边均可为底,应理解为: -
18
2023-05热点聚焦:爆破拆除合同范本(推荐23篇)
爆破拆除合同范本第1篇甲方:乙方:根据《_合同法》和《建筑安装工程承包合同条例》等相关规定,为明确双方 -
17
2023-05魏贵玉_关于魏贵玉简述
小伙伴们,你们好,今天小夏来聊聊一篇关于魏贵玉,关于魏贵玉简述的文章,网友们对这件事情都比较关注,那 -
17
2023-05新人快来报名 文昌“520”举办“地久天长”集体婚礼 世界观速讯
文昌市将在5月20日举办“地久天长”集体婚礼,目前正在招募新人。文昌市民政局筹办的这场以青春、浪漫为基 -
17
2023-05每日看点!约基奇34+21+14 浓眉40+10 詹姆斯26+12+9 掘金取胜1-0湖人
随着NBA乐透抽签的开胃菜结束,NBA西部决赛正式打响,西部常规赛冠军掘金坐镇主场迎战湖人,后者通过资格赛 -
17
2023-05全球新资讯:怀柔将发放500万元消费券,首批五月下旬开领
北京日报客户端|实习记者张佳琪通讯员徐宇记者从怀柔区商务局获悉,怀柔区将在5月下旬启动“遇夏之礼·惠享 -
17
2023-05宁德市总商会 每日热门
1、宁德市总商会也就是宁德市工商业联合会,宁德市总商会是宁德市委领导下的我市工商界组成的人们团体和民 -
17
2023-05天天新动态:高顿教育:中级经济师必须几年内通过?
中级经济师必须两年内通过,根据中级经济师考试规定,成绩管理实行滚动式管理方式,考生须在连续两年内通过 -
17
2023-05热点聚焦:2023年红河中考作文题目预测及范文
2023年红河中考作文题目预测及范文:1、激起心中的那股劲;2、推窗风来;3、我用________绘青春;4、跨越;


苹果考虑将iPhone系列进一步延伸 2024年上市?

卷出一块好曲屏 真我10系列新品发布会举行
英国猴痘病例数预计将大幅上升
上海:视情适当延长毕业生在校生身份时间
国家电网确定新型电力系统科技攻关十大重点项目
比亚迪发布CTB电池车身一体化技术
商务部:坚定致力于实现全面、高水平的亚太自贸区
中办国办印发《意见》 推进实施国家文化数字化战略
初夏看市场:“菜篮子”产品生产供应充足 蔬菜在田面积达9877.2万亩
上海浦东重点生产企业复工复产超1100家
-
1
Intel最新处理器Arrow-S曝光 最高可达24核
-
2
配置拉满的电竞神机 雷神ZERO2023大黄蜂发布
-
3
真我10Pro系列发布 首发量产2160Hz超高频调光技术
-
4
阿富汗塔利班组建正规军
-
5
萨赫勒地区反恐形势面临新变数
-
6
北约北扩加剧欧洲安全风险
-
7
贵州毕节七星关区百所学校创办百个“红军班”
-
8
湖北省孝感军分区组织军地联合应急救援研究性演练
-
9
青藏高原等区域将新设一批国家公园
-
10
河北省承德军分区退役军人担纲教练主力