AI大航海时代，对话机器人如何引领交互方式变革

左小木 | 2018-01-16 15:30:24 阅读：33475

自计算机出现以来，人机交互界面经历了命令行到图形化界面的更新迭代，而随着人工智能（AI）在生活中的逐渐普及和应用，例如苹果的Siri、亚马逊的Alex，甚至是京东的JIMI已经纷纷闯入我们的生活，我们现在正在经历从图形化界面向对话式界面的技术变革时刻，而这其中，对话机器人的发展将会是一个关键点。

图形化界面VS对话式界面

比较一下图形化界面和对话式界面，主要有以下四点差异：

1）图形化界面是二维的，更加重视广度；对话式界面是一维的，更加注重深度，用户可以更专注于一件事情上。

2）图形化界面更加注重空间感，主次关系也要通过颜色和距离感来实现差异化，这是图形化界面设计时的一个原则；对话式界面更加强调的是时间感，例如刚刚讨论的话题，过一段时间讨论同样的话题就不太重要了。

3）图形化界面更加强调共性，就用户体验来看，在图形化界面，同一个系统中每个人看到的东西都差不太多；对话式界面则更强调个性，我们每个人的对话内容都是不一样的，对话机器人和我说的话应该和另外一个人说的话不一样，更加偏个性一些。

4）图形化界要求比较稳定，用户希望不要天天改版；对话式界面则是进化的，用户更希望说过的话不需要一遍一遍地再去重复。

由此可见，在更注重个性化和精准度的当下，对话式界面显然更符合用户需求。

对话机器人分类

对话机器人根据应用场景不同主要可以分为三类：个人信息助理、聊天机器人和客服导购机器人。

微信图片_20180116150056.jpg

个人信息助理是用对话形态做人机交互比较好的应用场景，同时由于基本上都是由行业巨头在做的，例如苹果、谷歌、亚马逊等，因而发展速度较快，应用也比较多。爱因互动CTO洪强宁先生介绍称，其实，这一领域也确实应该由巨头来做，因为入口是个人信息助理最核心部分，要想将其做好，就要能够实现快速调动，而最好的入口资源大部分都是掌控在巨头手中的。同时，随着技术飞速发展，也有很多不同技术在个人信息助理中应用来提升其用户体验，预计一两年后，大家会比较习惯用个人信息助理，例如智能手机、智能手表及家里的智能音箱。

聊天机器人相对于另外两类对话机器人较为简单，这类机器人并不能完成具体某项任务，主要用作心理陪伴和娱乐。针对这类对话机器人，对话轮次是一个比较重要的技术指标，能够与用户进行自然对话轮次越多，时间越长，可以说机器人的能力就越好。目前来看，业内最好的聊天机器人能够与人类自然对话二十多轮，再往后聊，你就能够发现它跟不上人类的思维了。目前应用在聊天机器人上比较好的技术是seq2seq算法，为了提高其在聊天中的应对能力，还需要使用诸多增强技术，例如为聊天机器人注入背景信息、个人信息、知识库信息，并引入上下文等。

微信图片_20180116150520.jpg

客服导购机器人是为了完成一件事情与机器人沟通，最后能够达到某种目的。在这种应用场景中，尤其是在做售前应用时，主要有三种主要的对话形态：人主导的形态，即人问一个问题，机器回答一个问题；机器人主导形态，即机器人问人问题，人来回答；交叉主导形态，即人问一个问题，机器人发现不知道该怎么答，会反问一句，人回答了机器人的问题之后，机器人再给出答案。大体上可以分成这三种形态，很多其他复杂的对话则是由这三种形态反复切换来实现。其中人主导的形态是最简单的形态，也是目前在商业应用中最为成熟的形态。

微信图片_20180116150600.jpg

作为AI领域重要重要内容之一，对话机器人有怎样的技术要求？需要怎样的工程团队？初创企业又该怎样入局？近日，《电子产品世界》编辑在“AI时代的移动技术革新”大会上采访了爱因互动CTO洪强宁先生。

微信图片_20180116150710.jpg

语音市场发展趋于成熟，创业公司更应关注语义

电子产品世界：在对话机器人领域，创业公司应该怎样选择切入点？

洪强宁：语音转文本和文本转语音，现在都有比较专业的公司在做，而且很多企业做得已经很好了，对于创业公司而言，我们觉得现在再去做语音就是技术的浪费了，而更应该将资源用到像语义这样发展还不是很完备的方向。

现在在做语义的大概有两种形态：一种形态是做基础语义服务的，并不在乎具体的应用场景，例如情感探测、实体抽取等；另外一种是做应用场景的，像我们是在考虑机器人在具体应用场景下该怎样去回答问题，和场景与行业联系的非常紧密。

在真实的应用场景中，需要用到语音识别的时候，我们会调用第三方的服务来生成文本，例如科大讯飞等厂商的语音识别做得已经很好了，我们可以直接使用他们的技术完成前面语音识别部分，而从文本理解是什么含义的时候则是用到我们自己的技术，因为这项技术还没有一家公司声称做出了一个任何场景都可以使用的平台，针对售前对话机器人，我们的技术效果是更好的；同时，这也是我们的核心竞争力和技术壁垒，我们需要在这上面去深入研究。

机器人服务平台要先做专用领域

电子产品世界：如何理解现在的通用机器人服务平台和专用机器人服务平台？

洪强宁：工程团队的一个非常大的产出是在机器人服务平台上，但是创建对外开发的机器人服务平台目前从商业上看还不是一个好的时机，因为现在对话机器人仍然是和场景紧密结合的，现在还不太可能脱离场景去搭建一个通用的机器人服务平台。

实际上，前两年已有通用的机器人服务平台出现，但是效果都不是很好。因而我们更加倾向于做行业专用的平台，先使机器人服务平台在售前应用中用起来效果非常好，之后再在这个基础上做泛化，做到其他场景中去。

现在我们正在规划一个大的机器人服务平台，这个是一个工程化的事情，需要做云平台、PAAS架构，需要在服务功能飞速增长的时候有一个非常好的、稳定的服务，能够包括像大数据处理等。这个机器人服务平台是我们内部自己用的，是为了加快算法调优的速度，使算法工程师不再需要去关心一些工程上的技术细节，更专注到算法调优本身。

对话设计师将会成为新岗位

电子产品世界：AI创业公司更需要怎样的人才，对工程团队有怎样的要求？

洪强宁：对于AI创业公司来说，更需要的是项目落地人才，即能够把AI的技术应用到具体场景中的人才。如果是纯研究算法的人，对于高校或者是研究院会更小，而对于创业公司则会更关注落地的能力，我们追求的是效果，而不是炫酷的技术，有的时候会发现深度学习的效果还不如一些传统方法的时候，我们也会选择传统的方法。

同时，工程团队也需要懂AI算法。工程团队如果完全不懂算法的话是无法和算法工程师进行配合的，工程团队做的很大一部分是建立机器人服务平台，算法工程师是平台的用户，因而工程团队需要知道算法工程师需要的东西是什么，从而给他们提供好用的工具，也需要了解AI是怎么做的，至少需要知道数据是怎样组织的、训练是怎么一回事、模型是怎么加载的，在这些地方，哪些是性能的瓶颈，这都需要工程团队的工程师完全了解的。

电子产品世界：做对话机器人的公司相对于其他AI行业会有怎样的特别需要？

洪强宁：在对话机器人领域，产品经理有一个很重要的工作职责是做对话设计，这个也可能是未来可能产生的一个新岗位。现在对话机器人的技术还做不到完全像人一样沟通，这个岗位要考虑的是当机器和人对话的时候，如何设计机器人的语言，使整个对话变得更自然，这个技术在真实落地的应用中是一件很重要的事情。

AI人才紧缺现状与高薪资现状

电子产品世界：如何理解AI人才紧缺和高薪资这一现状？

洪强宁：掌握新技术的人就是整个社会的推动力，社会也一定对这种人才的需求是非常旺盛的。其实我们现在身处第四次工业革命的开始阶段，在变革的早期，这样的人才很少，掌握这类技能的人才被市场争抢在所难免。在任何技术早期，你掌握了这项技术，薪资都会相对较高，但是同时也会有这样一个趋势：AI技术越来越成为程序员一个基础技术。例如谷歌在面试程序员的时候，不论你面试的是哪个岗位，都会考察你的AI能力。

这就类似云计算的发展，云计算发展这么多年，现在工程师如果不懂云计算的基础知识就不是一个合格的程序员。未来，十年以后，如果不懂得AI的工程师就不是一个合格的程序员。随着掌握AI技术的人群越来越多，薪资水平也将会逐渐回到一个相对合理的状态。

AI创业公司与大公司竞争的优势

电子产品世界：与大公司相比，创业公司有哪些竞争优势？

洪强宁：相比巨头公司，创业公司动作更快，关注点更超前。创业公司更多专注于场景，而对于单个场景的投入，大公司往往是不足的，只有可能触及到平台利益时，大公司才会投入大量资源与创业公司竞争，而只要创业公司在这之前建立起很好的竞争壁垒，是不害怕这样的竞争。

AI行业其实一个很好的范例，AI行业需要的是数据的积累，而不论是大公司还是小公司都需要时间的积累收集数据和处理数据，例如收集数据、清洗数据、理解数据以及结合应用场景的过程，而这些都需要时间和经验的积累，并不是说大公司会比小公司拥有有更多的竞争优势。

对话机器人的准确率评判指标

电子产品世界：如何评判对话机器人的准确率，现在对话机器人准确率是多少？

洪强宁：对话机器人大概可以分为两类：闲聊机器人和任务导向机器人。对于闲聊机器人，对话轮次是一个评价指标，时间越长，机器人做的就越好；而对于任务导向机器人，主要有两个评价指标：任务完成率和拦截率。

对于任务导向机器人，我们是希望他可以帮我办事的，这个时候，对话轮次就不再是一个很好的指标，相对短的轮次反而会更好；针对此类机器人，单轮对话会有准确率的概念，具体指机器人对用户提问响应是否正确就是准确率，此时任务完成率会作为核心指标。

而有些准确率的数据是不可信的，例如机器人自己对自己作出决策和评价，即拦截率。这是指你说的话，机器人觉得可以回答的比率；而准确率是指我答了，而且还答对的比率。因而准确率是要比拦截率要低一些的。

现在的准确率还是要人来判断的，而为了降低工作量，机器人可以先做一个预判，然后人再做更正。针对对话机器人，具体准确率要分应用场景，越复杂、用户说的话越发散，准确率会越低，大体上应该会在百分之七十多到百分之九十多之间波动。如果是单轮问答，主要还会取决于知识库的建立情况，一般在百分之八十多到百分之九十多之间波动。

对话机器人要达要到人的平均水平，至少还要十年

电子产品世界：当下很多智能产品并不够智能，对话机器人也还处在“低配智能”阶段，还要多久我们才能到达“高配智能”阶段？

洪强宁：现在对话机器人，甚至AI还处在早期大航海时代，大家都在尝试在各种应用场景下使用这个技术，根据反馈去优化和调整。我们会全力以赴地关注用户的反馈，快速更新技术，并不断完善我们的产品。

就智能的程度而言，现在确实是受限的，不光是对话机器人，整个AI行业都存在这个问题，不管是深度学习，还是传统机器学习方法，都面临着准确率不为100%的现状。通过学习大量的现有知识，然后生成一个模型，用这个模型去匹配现有的知识，预测之后的输入可以给出一个怎样的输出，这样的一个模型永远都会与真实模型有一定的误差。虽然可以用深度学习的方法不断增加学习信息，准确率会越来越高，但永远都无法达到100%。

我们并不能够期望机器人不出错，要期望的是机器人出的错要比人少。我觉得现在谈像人一样的机器人还尚早，至少还要两三年，机器人在某些特定场景能够达到人的平均水平；而要谈通用机器人能够达到人的平均水平，甚至在某些特定场景超越人类，至少还要十年之久。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。