媒体知识图谱的构建简析

2020-12-18 18:40:01

相关推荐

知识图谱是反映实体间、实体与属性间关系的网络，是它们基于知识的关联，是对于海量数据的一种有效的组织方式和利用手段。

现有代表性的知识网络有Wordnet、DBpedia、Freebase、NELL（Never Ending Language Learning，永不结束语言学习）、YAGO和谷歌知识图谱等。其共同点是均基于单一文本进行构建。根据知识来源与顶层概念设计理念，现有数据驱动的知识图谱构建的研究工作大致分为如下几类。

1.基于维基百科的infoboxes等结构化数据的构建：以百科作为知识的主要来源，抽取百科词条作为实体，利用词条中的infobox来填充实体的属性。主要代表有YAGO、DBpedia和Freebase等。此类构建方法的特点是质量较高，但更新较慢。

2.基于开放文档的构建（schema-less）：以互联网开放网页文档作为知识的主要来源，其假定如果已知两个实体之间存在特定的语义关系，那么包含该实体对的句子在某种程度上就蕴含语义关系。主要代表系统有Reverb、OLLIE、Prismatic等。此类方法可挖掘大量实体与实体间的关系谓词，缺点是所挖掘知识的噪音大。

3.基于固定本体/模式的构建：以少量人工定义的抽象本体/模式（ontology/schema）作为知识图谱的顶层概念设计，以此来充实、汇聚符合顶层概念的实体与实体关系，并在此之上进一步发现新的概念。其代表系统有NELL、PROSPERA、斯坦福大学的DeepDive、谷歌的Knowledge Vault等。

4.基于层次化本体的构建：该方法构建的知识库的代表是Probase。Probase首先从开放域汇聚了约265万个概念；然后针对这些概念计算上下位关系；最后基于概率的方法，从横向与纵向上对这些概念进行合并，形成一个具有丰富层次的概念树。

为了弥补单一类型文本构建知识图谱的不足，出现了一种结合图像和文本等数据来构建的知识图谱，如ImageNet、NEIL和Vispedia等。为了使用深度学习来构建知识图谱，一般需要通过深层模型（如反馈递归神经网络等）来学习实体及其属性，以及实体和实体之间关系的低维向量表示和关系操作矩阵，如张量神经网络。如何在现有知识图谱构建的基础上，从图像和视频等媒体数据中提取视觉实体、视觉关系以及视觉属性，在自然语言和视觉信息之间架构桥梁，使得视觉实体及其关系与文本实体及其关系相互支撑验证（grounded），形成跨越数据类型的媒体知识网络来对客观世界中的概念、实体、属性和关系进行表达，是一个具有巨大潜力的研究方向。有人表达的是利用马科夫逻辑网来学习视觉实体属性及其关系。

在深度学习中有效利用不同类型的媒体数据在不同层次上所具有的耦合特性是学术界高度重视的研究问题。正如谷歌公司首席科学家约翰·普兰特（John Platt）博士指出的，当前智能计算面临的一大挑战是对强耦合（strongly-coupled）输出的整体估计。尽管深度学习进展可喜，但是仍然面临如下挑战。

在线增量深度学习，人脑具有从不断涌现的数据中持续学习以及逐步增长经验知识的能力。现有的生理研究表明：婴幼儿的神经细胞在出生后会持续增多，并且其神经轴突、树状突和突触等复杂度会不断增加。谷歌于2015年2月在《自然》上发表了其结合深度学习和强化学来实现具有“pixels-to-actions”能力以及超越人类玩家的智能游戏算法的研究成果，以此说明从数据中不断学习可逐渐提升算法的性能。虽然现在已有若干在线深度学习方法国，但是还需要将不同深层模型学习算法向在线增量学习方向做进一步拓展。

深度学习的黑盒子问题，深度学习在一定程度上是一个黑盒子问题，其难点在于根据特定任务来对深层模型本身的结构进行优化设计。新加坡国立大学教授颜水成课题组将传统卷积神经网络中的线性函数替换为多层网络，提出了网中网（network in network）的框架。有人提出了将深度学习与条件随机场相结合的神经条件随机场（Conditional Random Fields，CRF）模型；谷歌在GoogLeNet中利用了“神经元之间持续重复经验刺激可导致突触传递效能增加”的赫布理论（Hebbian theory）。因此，如何根据数据本身以及人类的认知机理来设计最优的深层网络结构（如网络层数、每一层中隐含的单元数目以及层与层之间的反馈机制等），并且给出深层网络理论分析，尚需理论的进一步深入和突破。

深度学习与众包计算结合基于数据驱动的深度学习易受数据噪音的影响。YAGO知识库研究者格哈德·维昆（Gerhard Weikum）教授曾指出，只有将数据驱动机器学习方法和众包计算方法紧密结合起来，才能更好地实现知识图谱的构建。虽然现有基于深度学习框架的弱标签学习和半监督学习在某些方面利用了众包数据（如利用微软的点击数据集Clickage来提升图像检索性能），但是如何有效利用众包中的标注数据，来提升单纯依赖数据驱动模式的深度学习方法的性能，是值得投入的研究方向。

阅读剩余内容

媒体知识图谱

媒体知识图谱的构建简析

「2018年全国知识图谱与语义计算大会」开始征文！

从ACL 2022看知识图谱研究进展

百度世界2022公布知识图谱成绩单：世界规模最大日均400亿调用量

推荐文章｜基于知识图谱分析的国内外智慧教育研究热点

药学个人实习鉴定

生活教导：我初二生活800字初二作文

我初作文900字

找到免费的作文软件【600字】

900字中考作文：略有改动

郑燮诗文赏析：潍县署中寄舍弟墨第书

作文家乡的路【1000字】

月亮：篇闲谈散文

大家都在看

媒体知识图谱的构建简析

「2018年全国知识图谱与语义计算大会」开始征文！

从ACL 2022看知识图谱研究进展

百度世界2022公布知识图谱成绩单：世界规模最大 日均400亿调用量

推荐文章｜基于知识图谱分析的国内外智慧教育研究热点

药学个人实习鉴定

生活教导：我初二生活800字初二作文

我初作文900字

找到免费的作文软件【600字】

900字中考作文：略有改动

郑燮诗文赏析：潍县署中寄舍弟墨第书

作文家乡的路【1000字】

月亮：篇闲谈散文

大家都在看

百度世界2022公布知识图谱成绩单：世界规模最大日均400亿调用量