聊天机器人

date:2018-06-06
author:刘芳

研究背景

随着科学技术水平的不断提升,互联网技术、大数据 技术、云计算技术等实现了快速的发展,一方面人们在理论上拥有的信息量不断膨胀不断丰富,另一方面人们对信息的需求也与日俱增。互联网的迅猛发展和广泛普及,使人们比以往任何时候都可以更方便地从网络上获取大量的信息,但是人们如何从大量信息中筛选出自己需要或对自己有用的信息,却一直没有得到很好的解决。 现有的搜索引擎,一般都是基于关键字检索,这样的检索有几个方面的不足: (1)相关性信息太多。 (2)用户的检索需求往往是比较复杂的,从而也就无法直接检索出令用户满意的答案; (3)检索结果不尽如人意。 随着技术的进步,人们获取信息的方式也越来越快捷。移动终端的用户希望拥有更便捷的信息获取方式和更人性化的人机交互体验。在传统的键盘式输入的同时,也可以利用最为高效、最为自然的语音方式,甚至是拍照搜索的方式便捷的获得所求。在此背景下,聊天机器人系统和问答系统的研究进入了新的发展阶段。与此同时,人工智能的发展为问答系统提供了强有力的技术支撑。人工智能呈现出很多新的发展特征,人机协同不断加强,跨界融合深入途径,深度学习以及 自主操控不断发展。在大数据技术的支撑下,人工智能发展的着重点开始发生变化。在大数据的支撑下,知识学习水平不断提升,人机协同开始加强,群体集成智能以及自主智能系统开 始形成。进入新时期,人工智能理论研究不断深入,技术创新不断加强,软件以及硬件逐渐升级。人工智能正在促使经济社会各个行业和领域开始朝着数字化、智能化以及网络化的方向发展。 近年来,聊天机器人受到了学术界和工业界的广泛关注。一方面,聊天机器人是图灵测试的一种实现方式,而图灵测试是人工智能领域王冠上的明珠;另一方面,微软推出了基于情感计算的聊天机器人小冰,百度推出了用于交互式搜索的聊天机器人小度,进而推动了聊天机器人产品化的发展。聊天机器人系统可以看作是机器人产业与“互联网+”的结合,符合国家的科研及产业化发展方向。

2聊天机器人研究历史

聊天机器人(chatbot,又称语音助手、聊天助手、对话机器人等)是目前非常热的一个人工智能研发与产品方向。聊天机器人是一种通过自然语言模拟人类进行对话或聊天的程序,它并不是实体的机器人,而是指以聊天界面为基础,可以是文本聊天,也可以是语音聊天,通过聊天解决用户需求的一种服务模式,类似于虚拟助理,通常运行在特定的软件平台上,如PC平台或者移动终端设备平台。 聊天机器人的研究源于图灵(Alan M. Turing)在1950年《Mind》上发表的文章《Computing Machinery and Intelligence》,通过让机器参与一个模仿游戏来验证“机器”能否“思考”,进而提出了经典的图灵测试(Turing Test)。图灵测试被认为是人工智能的终极目标,图灵本人因此也被称作“人工智能之父”。 最早的聊天机器人ELIZA[1]诞生于1966年,由麻省理工学院(MIT)的约瑟夫•魏泽鲍姆(Joseph Weizenbaum)开发,用于在临床治疗中模仿心理医生。1988年,罗伯特•威林斯基(Robert Wilensky)等人开发了名为UC(UNIX Consultant)的聊天机器人系统。UC是一款帮助用户学习怎样使用UNIX操作系统的聊天机器人。为了将图灵测试付诸实践,美国科学家兼慈善家休•勒布纳(Hugh G. Loebner)于1990年设立了人工智能年度比赛——勒布纳奖(Loebner Prize)。在勒布纳奖的推动下,聊天机器人的研究迎来了一个高潮,理查德•华勒斯(Richard S. Wallace)博士在1995年开发了ALICE系统,此外,还有用于查询英国电话黄页的YAP[5]、用于外语学习伴侣的CSIEC、用于哈佛大学数学教学的Sofia等。

3聊天机器人研究现状

近年来,基于聊天机器人系统的应用层出不穷。很多大型互联网公司投入重金研发相关技术,并陆续推出了相关产品。 2016年开始,世界进入“Chatbot时代”,科技行业巨头微软、Facebook、亚马逊、Google和苹果纷纷发布了各自在Chatbot领域的战略和相关产品。 3月,微软在BUILD大会上发布聊天机器人框架BotFarmework; 4月,Facebook在F8大会上展示了Messenger平台; 5月,Google在I/O大会上正式推出GoogleAssistant,同时发布了AlloMessenger以及语音家用音箱; Amazon把智能音箱Echo背后的大脑Alexa开放出来,让用户可以通过浏览器使用; 6月,苹果在WWDC大会上开放iMessage给第三方集成,并且发布了SiriSDK; IBM的第一个法律机器人已经被华尔街雇佣; Yahoo也不甘寂寞在聊天工具中发布了第一款Chatbot―KikMessenger; 2017年4月,Facebook又为单身人士打造了一款名为“Lara”的人工智能聊天机器人; 以下简要介绍几款主流的聊天机器人:

3.1Siri

Siri是苹果公司在其产品iPhone4S,iPad 3及以上版本手机和Mac上应用的一项智能语音控制功能,利用Siri用户可以通过手机读短信、介绍餐厅、询问天气、语音设置闹钟等。三年后,亚马逊的 Alexa 初试啼声,又过了两年,Google Assistant 姗姗来迟。这个最早登场、并被大众所熟知的语音助手正在不断被后来者弯道赶超。仅仅问世 2 年的 Google 在今年年初已经表示,旗下的语音助手 Assistant 将在年底前支持 30 种语言,相比之下,目前 Siri 仅支持 21 种语言。

3.2微软小冰

2014 年 5 月 29 日下午,人工智能机器人“微软小冰”诞生。小冰是微软推出的一款伴侣型 AI 机器 人,目前其在全球拥有超过 1 亿人类用户。作为一种人工智能助手,“微软小冰”集合了七亿网民对外公布的大量的文献资料,依托先进的微软大数据技术、深层次神经网络技术以及自然语义分析技术,把海量的语料进行精心提炼,通过系统来对语义以及语境进行识别和理解,从而实现了深层次的人机交流和互动。初版的小冰除了能够智能对话之外,还能够进行群提醒、百科、天气、笑话、交通指南、餐饮点评等实用技能,在云计算、大数据、深度神经网络等技术的支持下,小冰已经更新到了第五代,并在交流方面具备了能看(识别 图片、视频)、能听(识别语音)和能说(语音聊天) 的感官能力。在听觉符号方面,微软为小冰配置了其 AI 系列中最接近人声的语音技术 (小冰的语音自然度已达到 4.32 分,人类声音自然 度则为 4.76 分),使小冰的话语也像真人一般富有情感。 “小冰”机器人拥有海量的实体知识库,将情感语料充分融于其中,其运行过程是:通过情感语料对大数据进行再加工,在后端形成部分感性的知识库,通过人机对话,对人类所表达的情感语料进行侦测,跟踪并判断人类情感变化,再与知识库进行匹配,从而实现类似的情感对话。

3.3Facebook M

在2015—2018年间,M被内置于Facebook Messenger内,用于和用户聊天并尝试推广一些送花、定餐馆之类的服务,共计有约1万员工享受到了Facebook M的服务。Facebook做虚拟助手的目标是让Messenger成为用户使用手机去发现信息的第一站。 2017年7月,Facebook引起广泛争议的“开发出人类无法理解”的沟通的智能对话机器人项目已经被关闭,因为研究者担心会“失控”,说明人工智能并不完美,而这件事也不是机器主宰世界的初步迹象。

3.4亚马逊智能语音Alexa

亚马逊宣布其将开展Alexa for business业务,也就是将要令智能语音在企业级应用领域落地,允许企业在Alexa集成设置自己的虚拟语音助手。亚马逊希望企业员工通过其虚拟助手Alexa来预定会议室和召集会议,办公室变成语音识别设备的争夺战场。此外,亚马逊再向其风险投资基金AlexaFund投入1亿美元资金,来支持国际扩张。

3.5Account Activity API

近日Twitter 发布了企业版Account Activity API,允许开发者实时接收与账户相关的活动,包括点赞、提及和推送。开发者可将这些数据应用到聊天机器人开发中,例如在客服或市场领域,或创建更多相关内容app。未来,Twitter还将继续拓展该API的可用调用数据模块。

3.6度秘

度秘(英文名:Duer)是百度出品的对话式人工智能秘书,在2015年9月由百度董事长兼首席执行官李彦宏(Robin)在百度世界大会中推出。于DuerOS对话式人工智能系统,通过语音识别、自然语言处理和机器学习,用户可以使用语音、文字或图片,以一对一的形式与度秘进行沟通。依托于百度强大的搜索及智能交互技术,度秘可以在对话中清晰的理解用户的多种需求,进而在广泛索引真实世界的服务和信息的基础上,为用户提供各种优质服务。在技术成熟度方面,度秘的语音识别准确率达到了97%,几乎可以应对任何复杂的场景。智能语音技术涵盖了语音识别、语音合成、声纹识别、声学信号处理,同时采用了深度学习算法,能在24小时内对数亿百亿级的语料库进行实时计算、分析。同时度秘在图像识别技术上也正逐步走向成熟,可准确识别门牌号码、花卉、衣服、人脸等物体,并进入实用阶段。但语音与图像属于认知部分,相比而言,自然语言处理和理解能力的难度更大。这要求度秘拥有像人脑一样的逻辑推理与判断力,并快速响应,进行情感式的表达和对话。 与此同时,日前百度宣布了“百度AI加速器”开营,这是个孵化器性质的机构,通过技术输入和资源倾斜,百度希望以资本的方式构建自己的生态护城河。加速器第一期招募了包括光珀智能、鲲云科技、至真互联在内22个创业团队,涉及智能家居、智慧农业、智慧医疗、智慧司法、智能客服、AI芯片、汽车服务等多个领域。度是希望把技术放出来,让开发者去摸索AI的落地模式。有些技术输出融合在百度云的产品里。

3.7科大讯飞与美团外包合作推出骑手语音助手

美团外卖与科大讯飞、洛可可合作,推出“智能语音助手”。骑手在送餐过程中能用语音交互完成接单、上报等操作,不再需要手动操作手机,同时系统还将根据骑手骑行状态自动唤起交通安全提示,从而减少安全隐患、保障骑手生命安全。硬件部分是结合骑行环境定制的蓝牙耳机,具有防风降噪、充足续航、防水等特性。软件部分则是结合商家、骑手、用户、环境等大数据以及语音识别、基于机器学习的场景精准预测等人工智能技术的语音交互系统。

4聊天机器人的分类

4.1从应用场景的角度

从应用场景的角度来看,可以分为在线客服、娱乐、教育、个人助理和智能问答五个种类。 在线客服聊天机器人系统的主要功能是同用户进行基本沟通并自动回复用户有关产品或服务的问题,以实现降低企业客服运营成本、提升用户体验的目的。其应用场景通常为网站首页和手机终端。在国内,聊天机器人却更偏向于实用主义,国人给聊天机器人的定位还主要在客服工作上。百度推出了虚拟个人助理“度秘”,通过人机互动完成搜索、买票、订餐票等服务;淘宝推出了智能客服机器人小蜜,已经开始分担淘宝对于客服行业的庞大需求了;中国移动推出智能机器人客服“移娃”,太平洋寿险推出针对客户端的“小麦”智能客服机器人,就连网易,去年也开始组建人工智能团队,推出一个叫“网易七鱼”的全智能云客服产品。代表性的商用系统还有小I机器人、京东的JIMI客服机器人等。 娱乐场景下聊天机器人系统的主要功能是同用户进行开放主题的对话,从而实现对用户的精神陪伴、情感慰藉和心理疏导等作用。其应用场景通常为社交媒体、儿童玩具等。代表性的系统如微软“小冰”、微信“小微”、“小黄鸡”、“爱情玩偶”等。 教育聊天机器人系统根据教育的内容不同包括构建交互式的语言使用环境,帮助用户学习某种语言;在学习某项专业技能中,指导用户逐步深入地学习并掌握该技能;在用户的特定年龄阶段,帮助用户进行某种知识的辅助学习等。其应用场景通常为具备人机交互功能的学习、培训类软件以及智能玩具等。代表系统有科大讯飞公司的“开心熊宝”等。 个人助理类应用主要通过语音或文字与聊天机器人系统进行交互,实现个人事务的查询及代办功能,如天气查询、空气质量查询、定位、短信收发、日程提醒、智能搜索等,从而更便捷地辅助用户的日常事务处理。其应用场景通常为便携式移动终端设备。代表性的商业系统有AppleSiri、GoogleNow、微软Cortana、出门问问等。 智能问答类的聊天机器人主要功能包括回答用户以自然语言形式提出的事实型问题和需要计算和逻辑推理型的问题,以达到直接满足用户的信息需求及辅助用户进行决策的目的。其应用场景通常作为问答服务整合到聊天机器人系统中。典型的智能问答系统除了IBMWatson之外,还有WolframAlpha和Magi等。

4.2从表现形式的角度

从表现形式来看,Chatbot又可以分为单轮对话和多轮对话两种类型。 单轮对话其实可以看做是问答系统(QuestionAnsweringSystem)的变形,一般是一问一答的形式,用户提问,机器生成相应答案的文本或者是综合与答案相关的各种信息返回给用户。 多轮对话则更接近我们通常理解的人与人之间的对话模式,通常是有问有答,除了用户提问,机器也会主动向用户询问,并且会根据上下文来判断该给出什么样的答案或提出什么样的问题。 到目前为止,可以说聊天机器人领域才刚刚开始发力,在未来10年内,该领域的市场规模预计将突破十亿美元。许多顶级品牌,包括Uber、Sephora和CNN也正在部署属于自己的聊天机器人,未来还将有更多企业加入聊天机器人热潮中。

4.3从回答模型的角度

从回答模型上来看,分为基于检索的模型和基于生成的模型。 基于检索的模型,回答是提前定义的,使用规则引擎、正则匹配或者深度学习训练好的分类器从数据库中挑选一个最佳的回复。 基于生成的模型,不依赖于提前定义的回答,但是在训练的过程中,需要大量的语料,语料包含了context和response 。当下流行使用LSTM和 RNN训练生成的模型,这种方法最早用来完成机器翻译的任务 - Sequence to Sequence Learning with Neural Networks。 目前,在生产环境下,提供聊天服务的,一般都是基于检索的模型,而Seq2Seq的出现,有可能使基于生成的模型成为主流,因为Seq2Seq在长对话的情况下,依然可以表现的很好。

5聊天机器人研究存在的挑战

当前,聊天机器人的研究存在的挑战包括:对话上下文建模、对话过程中的知识表示、对话策略学习、聊天机器人智能程度的评价等。

5.1对话上下文建模

聊天是一个有特定背景的连续交互过程,在这一过程中经常出现上下文省略和指代的情况。一句话的意义有时要结合对话上下文或者相关的背景才能确定,而现有的自然语言理解主要基于上下文无关假设,因此对话上下文的建模成为聊天机器人系统的主要挑战之一。

5.2对话过程中的知识表示

知识表示一直就是人工智能领域的重要课题,也是聊天机器人提供信息服务的基础。聊天机器人相关的领域任务可能有复杂的组成,牵涉很多的因素,只有了解这些因素的关系和相关的含义,才能与用户做到真正意义上的交流。

5.3对话策略学习

对话策略涉及很多方面,其中最主要的是对话的主导方式。对话主导方式可以分为用户主导、系统主导和混合主导三种方式。在当前的对话管理研究中,系统应答的目标是自然、友好、积极,在不会发生问题的情况下,让用户尽可能自主,实现对话的混合主导。

5.4聊天机器人智能程度的评价

目前聊天机器人智能程度的评价也是一项挑战。虽然可以采用一些通用的客观评价标准,如回答正确率、任务完成率、对话回合数、对话时间、系统平均响应时间、错误信息率等,对聊天机器人进行评价,评价的基本单元是单轮对话。但是,由于人机对话过程是一个连续的过程,而对不同聊天机器人系统的连续对话的评价仅能保证首句输入的一致性,当对话展开后,不同系统的回复不尽相同,因此不能简单地将连续对话切分成单轮对话去评价,于是设计合理的人工主观评价也许能够成为客观评价标准之外,对聊天机器人系统智能程度评价的重要指标。 Facebook 于今年 1 月 19 日关闭了虚拟助理「M」,团队相关成员分散到其他部门任职。「M」是 Facebook Messenger 内的个人的虚拟助理,可以完成一些简单任务并代用户查找信息,由 AI 驱动,接受人们的训练和监督,可以完成购物、送礼、预定餐厅等任务。「M」的关闭,像是压死骆驼的最后一根稻草,现在各大品牌商几乎都对聊天机器人不感兴趣了。

6聊天机器人未来的展望

随着产业融合和下一代技术需求的上升,基于云解决方案的演进以及移动应用的日益增长,预计未来五年聊天机器人市场将会迎来更为迅速的增长。据相关数据统计显示,未来聊天机器人市场规模估计将从2016年的7亿美元增长到2021年的32亿美元,2016年到2021年期间复合年增长率为35.3%。 虽然技术的创新突破十分重要,但就市场经济而言,如何加速实现收益也是市场主体最为关心的问题。所以,基于聊天机器人拥有的广阔市场前景,其在客服、陪护等领域的发展将在应用成熟的基础上,获得提速发展。 随着聊天机器人研究的广泛开展,未来的研究将着眼于以下五个方面:

1、端到端:得益于深度学习技术的发展,已有学者开始着手研究端对端的对话系统,即利用统一的模型代替序列化地执行自然语言理解、对话管理和自然语言生成的步骤,从用户的原始输入直接生成系统回复。 2、从特定域到开放域:随着大数据时代的到来,一方面,使得开放域的聊天机器人系统得以获取丰富的对话数据用于训练,另一方面,在大数据上可以自动聚类或抽取对话行为等信息,避免繁杂的人工定义。 3、更加关注“情商”:如果说传统的聊天机器人关注的是“智商”,即聊天机器人的信息和知识获取能力的话,那么今后的聊天机器人研究则更加注重“情商”,即聊天机器人的个性化情感抚慰、心理疏导和精神陪护等能力。通过情绪分析,增加对聊天机器人的回应如果你想改善聊天机器人的会话技巧,那么情绪分析很重要。它可以帮助机器人对沮丧的用户做出反应,并对敏感的情况进行优先排序。例如,如果用户特别生气或悲伤,你的机器人应该切换到更敏感的语言,并对他们的感受做出反应。如果不这样做,将会让它听起来很冷,而且很机械,可能是你不理解或不关心用户的信号。 4、了解你的用户:改进聊天机器人的用户体验聊天机器人最吸引人的功能之一就是个性化。当聊天机器人知道用户感兴趣的内容时,它们的效率最高,可以在对话中应用一定程度的上下文。这意味着你的机器人需要在整个对话和会话过程中保留关于用户的信息。想象一下,如果你是一家商店或餐厅的常客,但在那里工作的人可能永远不会记得你的名字、你的订单,或者你的任何事情。这可能会让人不安,最坏的情况是令人恼火。没有人想要重复信息,尤其是如果他们在一次谈话中多次回答同一个问题的话。为了让你的机器人更加人性化,确保它能识别重复用户。当机器人需要信息(例如,用户的位置是为了推荐附近的商店),它应该从已经提供的任何数据中提取出来,然后向用户验证它是否被改变了。你还可以通过提醒用户上次对话的内容,来编写聊天机器人来开始对话。 5、改进聊天机器人的用户体验和分析:增强聊天机器人会话技巧的最佳方式是对聊天机器人的使用数据保持警惕。通过分析聊天机器人的回复和与用户对话的对话,你可以发现你的聊天机器人是平的。错误信息可以帮助你发现你的机器人无法理解用户,以及你可以让对话更自然地进行。与此同时,重复的要点可以让你更好地理解你的机器人是如何收集并记住用户提供的数据的。

7参考文献

[1]Weizenbaum J. ELIZA—a computer program for the study of natural language communication between man and machine[J]. Communications of the ACM, 1966, 9(1): 36-45. [2] Wilensky R, Chin D N, Luria M, et al. The Berkeley UNIX consultant project[J]. Computational Linguistics, 1988, 14(4): 35-84. [3] Kruschwitz, U., De Roeck, A., Scott, P., Steel, S., Turner, R., and Webb, N. (1999). Natural language access to yellow pages. In Third International conference on knowledge-based intelligent information engineering systems, pages 34–37. [4] Jia J. CSIEC (Computer Simulator in Educational Communication): A virtual context-adaptive chatting partner for foreign language learners[C]//Advanced Learning Technologies, 2004. Proceedings. IEEE International Conference on. IEEE, 2004: 690-692. [5] Knill O, Carlsson J, Chi A, et al. An artificial intelligence experiment in college math education[J]. http://www. math. harvard. edu/~ knill/preprints/sofia. pdf, 2004. [6] Ginzburg J, Fernandez R. Computational Models of Dialogue[M]// The Handbook of Computational Linguistics and Natural Language Processing. Wiley‐Blackwell, 2010:429-481. [7] L. Shang, Z. Lu, and H. Li. Neural Responding Machine for Short-text Conversation. In Proceedings of ACL, 2015. [8] I.V. Serban., A. Sordoni, Y. Bengio et al. Building End-To-End Dialogue Systems Using Generative Hierarchical Neural Network Models. arXiv:1507.04808v2 [cs.CL] 25 Nov 2015. [9]李枫, 谢鹏飞. AI机器人媒介角色的拟人化现象与思考——以微软小冰为例[J]. 现代视听, 2018(2). [10]冯升. 聊天机器人问答系统现状与发展[J]. 机器人技术与应用, 2016(4):34-36. [11]肖杰. 从“微软小冰”探讨人工智能的前景与未来[J]. 科技创新与应用, 2018(7):10-11. [12]宁长英. 智能聊天机器人的关键技术研究[D]. 杭州电子科技大学, 2011. [13]李斐, 邵晓东, 周力恒,等. 智能客服机器人的现状及发展[J]. 中国传媒科技, 2016(4).