知识图谱竞赛的下半场还有哪些机遇和挑战?
知识图谱技术自2012年在业界被推出以来,已经取得了显著进展。知识图谱技术已经成为大数据时代重要的知识表示之一,同时也是大数据知识工程的典型代表以及认知智能实现的核心基础技术,从多方面有力推动了智能化发展的进程。过去几年,知识图谱技术在大规模简单应用场景中取得了显著的落地效果。但近两年来,随着领域知识图谱需求的增大,知识图谱日益从数据丰富的大规模简单应用场景,转向专家知识密集但数据相对稀缺的小规模复杂应用场景。这一转向过程所呈现出的一系列新形势,诸如繁杂的应用场景、深度的知识应用、密集的专家知识和有限的数据资源等,都为知识图谱落地带来了新的挑战。知识图谱技术的研究与应用日益进入“深水区”,知识图谱研究的“下半场”态势已经十分明显。下面就让小编和大家一起来分析知识图谱下半场可能会出现的各种挑战与机遇。
1. 应用场景的转变
知识图谱技术正在经历应用场景的深刻变化:从以互联网搜索、推荐为代表的大规模简单应用,转向各垂直领域的小规模复杂应用。知识图谱发轫于互联网搜索,并率先在以BAT等互联网公司为代表的与人们的日常生活息息相关的领域成功落地。这些应用多属于大规模简单应用,具有应用模式单一、知识表示简单、知识应用简单、数据体量巨大的特点。比如,淘宝是个典型的电商平台,其应用模式是一种简单的买卖关系,所涉及的知识大都是与商品相关的简单知识(比如西服与领带的搭配关系),其智能应用体现在根据用户购买西服的行为推荐领带等这类简单应用,淘宝这类电商平台拥有海量的用户和商品数据。互联网应用的上述特点,使得以实体为中心、属性与关系为核心的大规模知识图谱成为了实现这些平台认知智能的首选知识表示,使得基于知识图谱的上下位推理、路径推理等成为了主流推理方式,同时使得基于海量用户行为数据的知识图谱自动化构建成为了主流知识获取方式。
但是,来自垂直领域(比如石油、能源、工业、医疗、司法等)的小规模复杂应用场景对知识图谱提出了越来越多的要求。这种场景呈现出鲜明的、与大规模互联网应用完全不同的特点:繁杂的应用模式、深度的知识应用、密集的专家知识和有限的数据资源。这些新特点为知识图谱技术的发展与应用提出了全新挑战,也带来了一些机遇。第一,垂直领域应用繁杂。比如,企业内的智能报销审核涉及很多不同领域的相关业务知识,包括交通工具、人事制度、财务制度、审批流程、出行目的等。繁杂的应用模式对普适的模型与方法提出了巨大挑战。第二,垂直领域知识应用深入。比如,在智能运维、医疗诊断、司法研判等领域,只靠简单地堆砌同质化数据构建数据驱动的统计模型,难以解决这些场景的实际问题。这些应用场景对于知识(特别是业务知识)的深度应用提出了普遍诉求。第三,专家知识密集。领域应用中,如故障排查、病人诊治,所用到的知识都是专业(专家)知识,这与互联网应用中用到的衣食住行这类通用知识明显不同,这对如何获取隐性的专家知识提出了新挑战。第四,领域数据稀疏。和通用领域相比,垂直领域的数据相对稀疏,尤其是针对具体任务时,高质量的标注样本往往极度稀缺。除此之外,领域数据治理困难重重,这加剧了数据稀疏难题。领域任务往往依赖专家才能解决,很多任务难以清晰定义,这些因素使得利用众包等手段难以奏效。
2. 发展机遇
知识图谱场景的变换不仅带来了挑战,也孕育着新的机遇。这些机遇一方面源自机器学习和自然语言处理(NLP)等领域的进展;另一方面源自对领域已有知识资源的重新梳理与利用。
近几年,机器学习领域的发展给我们带来了解决问题的新思路。首先,深度学习在样本丰富的场景中取得显著成效。虽然深度模型的选择、设计、调参仍存在不少问题,但只要灌以足量、高质量的样本,深度模型就能够习得样本中的有效特征表示,就能够以端到端方式解决问题。其次,最近备受关注的小样本学习、无监督学习、弱监督学习发展迅速,为缓解领域样本稀缺带来了新的机会。最后,利用符号知识增强机器学习,融合符号知识与统计学习模型,近期也受到了较多的关注。这一思路,对于充分利用垂直领域相对丰富的专家知识来缓解机器学习的样本依赖具有积极意义。
自然语言处理领域的发展也给知识图谱带来了新机遇。从2018年开始,语言智能在深度学习以及大数据的推动下迅速发展,特别是“无监督的预训练语言模型+特定任务或语料微调”这一解决文本问题的方式,在各种不同的NLP任务上均取得了显著效果。预训练语言模型可以充分捕捉来自通用自然语言语料中的语法与语义信息,微调使通用NLP模型能适应领域语料和领域任务的特性。因此,这种方式有望在面向文本的垂直领域知识获取中大显身手,攻城掠地。需要说明的是,垂直领域虽然缺失高质量数据,但是经年累月的积累却沉淀了一定规模的领域知识资源,比如本体、规则库、叙词表等。此外,发展自20世纪90年代的概率图模型仍是在小数据上推理与决策的有效框架。利用概率图模型表达领域专家的决策知识,利用知识图谱表达领域的简单关联事实,再将二者关联,可能会解决更多的实际问题。
3. 下半场的关键问题
对于上述各种挑战,可以从知识表示、知识获取以及知识应用等三个层面进行解决。
在知识表示层面,首先需要提升知识图谱的语义表达能力。各种垂直应用领域均对复杂知识表示,特别是从过程语义、时空语义以及多模态语义等方面提出了需求。其次,要研究知识图谱与其他知识表示(比如规则系统、概率图模型等)的协同表示与推理方法,单一的知识表示已经难以适应垂直领域的复杂与深度知识应用的需求。再次,要对知识图谱的个性化表示予以关注。知识具有主观性,不同人对于同一事物的看法不同。知识图谱个性化应用的需求日益增多。
在知识获取层面,首先需持续研究低成本的知识获取机制与方法。当前的一些知识获取方法,为了确保知识获取的效果,要么在样本标注、特征工程、结果众包中消耗高昂的人力成本,要么消耗巨大的计算资源。如何降低计算资源的消耗、降低人力成本是大数据知识工程永恒的命题。其次,需要大力研究多粒度知识获取方法。领域应用有着不同的知识粒度需求,这对不同粒度知识的获取方法提出了挑战。再次,需要大力研究常识知识的获取与理解。常识难以精确定义,在数据中鲜有显性提及,这些特性对于常识的获取与理解均提出了巨大挑战。当前机器的常识获取与理解水平已经难以满足各应用领域的实际需求。最后,一些领域应用对复杂知识提出了需求,比如元知识(关于知识的知识)以及跨语言知识。如何有效获取复杂知识仍然是个待讨论的问题。
在知识应用层面,首先应大力研究知识图谱的透明化问题。当前的知识图谱落地应用需要用户或者领域专家定义模式(schema)、标注数据、验证知识等。知识体系的建设与知识获取仍是一个需要用户密集参与的过程。如何发展机器的自主知识获取(比如领域模式的自动归纳)是实现知识图谱透明化的关键问题。其次,进一步发展基于知识图谱的可解释人工智能。知识图谱中的符号知识是解释的重要来源。当前的解释在形式上还很单一(多以特征选择为主),需要发展更加符合人类解释机制的解释模型与方法。最后,进一步发展知识指导下的机器学习。机器学习仍然是当前解决问题的重要方法之一。我们可以利用符号知识突破机器学习(特别是深度学习)在大样本依赖方面的瓶颈与局限,让机器不仅能从数据中学习,也能有效利用人类社会积累的先验知识展开高效学习,比如,利用符号化的知识优化与增强样本,从而提升模型的健壮性与泛化能力。
当前的知识工程仍然处在从大数据中获取知识进而利用知识的阶段。人类社会业已积累的知识几乎没有边界,然而我们目前从数据中抽取出来的知识仍十分有限。人类社会在知识获取和利用方面仍需经历漫长的探索过程。