(百度技术委员会主席吴华博士)
作为机器翻译及自然语言处理领域的权威专家,百度技术委员会主席吴华主导和参与多项自然语言处理的研究与开发工作,其丰硕的研究成果得到国际学术界的广泛认可,被《福布斯》专栏文章点评为“AI领域杰出女性”之一。此次出席2017全球人工智能技术大会,吴华通过分享实际案例,深入浅出地介绍了自然语言处理技术的发展目标及突破点,并从四方面分享百度在自然语言处理领域的研发成果。
自然语言处理进入发展繁荣期 知识图谱和深度学习是助推器
自提出至今,人工智能发展已超过六十年。时下,大数据、知识图谱、深度学习技术的发展以及计算能力的极大提升,使得人工智能迎来良好的发展机遇。近年,人机对话成为人工智能的热门课题,进一步推动自然语言处理技术的发展。吴华认为,自然语言处理的目标是让机器像人一样思考,这要求机器可以做到:理解人类语言、用人类语言表达、具有感知和表达情感的能力、可以推理规划决策,并具备学习进化的能力。
吴华在现场为观众举例说明了具有思考能力的机器与传统机器的区别。在机器翻译中,如何正确理解上下文成为翻译是否准确的关键。比如翻译“有困难找警察”,机器将“有困难”和“找警察”作为片段分别翻译,并整合为“找警察很困难”,与原意相差甚远,这主要是没有理解原文导致的。
知识、记忆、推理等技术突破 加速“会思考的机器”到来
正如“黑白颠倒”的机器翻译,缺少“思考”能力的机器“笑料百出”。要想使机器学会思考,在知识图谱、长时记忆、推理等技术上的突破很关键。现场,吴华从理解、推荐、对话、创作四个不同任务,阐述了知识图谱的重要性:基于知识图谱的深度理解与满足、基于意图图谱的对话系统、基于标签图谱的智能推荐和基于主题规划的机器人写诗。
第一,基于知识图谱的深度理解与满足。吴华在现场提问 “窦靖童的妹妹是谁”,和现场观众的思考相比,百度搜索可以实时得到正确答案。这是因为,百度搜索实现了基于知识图谱的理解与满足,机器能够在事实性知识和概念性知识的基础上进行推理,通过人物“窦靖童”和关系“妹妹”得出思考的结果。
第二,基于意图图谱的对话系统。在现实生活中,很多用户需求无法用单一问题描述清楚,多轮对话可以更好理解用户意图。吴华介绍,为更好满足用户需求,百度构建了一套包含理解、生成、对话管理的对话系统,基于用户意图进行关联引导,并将意图图谱与机器学习深度结合,为用户进行精准推荐。目前这一功能已经在对话式人工智能操作系统DuerOS上应用。
第三,基于标签图谱的智能推荐。吴华现场展示了手机百度feed流的新闻推荐功能,围绕用户的搜索习惯,形成用户兴趣网络,并与文档语义网络相互映射形成标签网络,最终得到“不搜即得、千人千面”的智能推荐。
第四,基于主题规划的机器人写诗。基于百度自然语言处理技术的“为你写诗”,运用业界首创的基于知识的主题规划和写诗模型,让机器能够对用户的表达进行深度分析、联想,写出堪比人类诗人的规整诗句。吴华在现场展示了两首五言绝句,现场观众也难以区分哪一首由机器创作。据悉,近日上市的李彦宏新书《智能革命》就刊登了一篇由百度人工智能“亲自创作”的序言。
如今,“大数据+计算能力”正在让技术走上高速发展的快车道,在不久的未来,人工智能技术将像新电力一样,逐渐改变人们的生活。吴华指出,知识与记忆、自然语言处理、机器学习的深度结合将改变人与机器的交互方式,让人们尽享技术创新福利的同时,也促进人工智能产业的创新。