复旦大学:多模态知识图谱最新综述
本文约2500字,建议阅读5分钟
本文梳理了一篇knowledge-based方向的文章,结合了多模态知识的多模态知识图谱。
Title:Multi-Modal Knowledge Graph Construction and Application: A Survey Link:https://arxiv.org/abs/2202.05786v1
知识图谱到多模态知识图谱
对抽象概念的理解。一个符号“dog”应该根植于物理世界,将其和真的狗之间建立联系对理解这些抽象概念是有效的。作者同时也举例了“Hand-in-waistcoat”等词汇。 对特定任务的帮助。在关系提取任务中,额外的图像会以在视觉上帮助区分属性和关系,如partOf (键盘和屏幕是笔记本电脑的一部分),colorOf(香蕉通常是黄色或黄绿色,而无蓝色的)。在文本生成任务中,可以帮助生成一个信息更丰富的实体级句子(例如特朗普正在发表演讲),而不是一个模糊的概念级描述(例如一个金发高个子男人正在发表演讲)。
构建(Construction)。MMKG的构建主要有两种:一种是从图像到符号(from images to symbols),即用KG表示符号来标注图像;另一种是从符号到图像( from symbols to images),即把KG中的符号对应到图像。 应用(Application)。MMKG的应用也可以大致分为两类,一类是In-MMKG应用,目的是解决MMKG本身的质量或集成问题;另一类是 Out-of-MMKG应用,作者指的是如果将MMKG应用到一般的多模态任务中。
多模态知识图谱的好处
MMKG提供了足够的背景知识来丰富实体和概念的表示,特别是对于长尾问题,引入辅助的常识知识可以增强图像和文本的表示能力。 MMKG能够理解图像中不可见的物体。这主要是利用符号知识提供的在视觉上看不见物体的符号信息,或在看不见物体和看不见物体之间建立语义关系。 MMKG支持多模态推理。在外部知识资源的帮助下,VQA任务的推理能力可以得到提升。 MMKG通常提供多模态数据作为附加特性来弥补一些NLP任务中的信息差距。以实体识别为例,一个图像可以提供足够的信息来识别“Rocky”是一只狗的名字还是一个人的名字。
多模态知识图谱构建
从图像到符号:标注图像(labeling images)
视觉实体/概念提取的目的是检测和定位图像中的目标视觉对象,然后用KG中的实体/概念符号标记这些对象,目标检测和视觉定位使用较多; 视觉关系提取的目的是识别图像中检测到的视觉实体/概念之间的语义关系,然后用KG中的关系对其进行标记,其中基于规则、统计或者更细粒度的方法较多; 事件提取任务的目的是预测事件类型。
从符号到图像:符号定位( symbol grounding)
对于找实体图像来说,基于百科或搜索是常见的方式 对于概念来说,该概念是否可以被可视化,和如何从大量图片中选择有代表性、多样性的图片是重要话题; 对于关系定位来说,图文匹配或图匹配会是比较好的选择。
多模态知识图谱应用
Multi-modal Entity Recognition and Linking。图像可以为实体识别提供必要的互补信息。主要通过两种方式利用MMKG中的图像知识:1)提供实体应该链接的目标实体;2)学习每个多模态数据的分布式表示,然后用它来度量相关性。 Visual Question Answering。MMKG可以提供关于问题实体及其在图像中的关系的知识,从而带来更深层次的视觉内容理解,同时MMKG中的结构化符号知识都可以为进行推理过程和预测最终答案的一种更明确的方式。 Image-Text Matching。MMKG可以利用多模态实体之间的关系来扩展更多的视觉和语义概念。此外MMKG还可以帮助构建场景图,引入视觉概念之间的信息相关知识,进一步增强图像表示。 Multi-modal Generation Tasks。包括 image tagging, image captioning, visual storytelling都算,MMKG中的概念知识可以极大地提高图像的表示能力,在解决歧义、看不见的物体、词汇量等方面都表现强大。 Multi-modal Recommender System。利用外部MMKG来获得具有丰富语义的item表示,甚至个性化的表示都完全可以,这一点在KG in Recommendation就很有效,扩展到多模态形式或许能进一步增强效果。
多模态知识图谱开放问题
复杂符号知识定位(Grounding Complex Symbolic Knowledge Grounding)。即除了实体、概念和关系的基础之外,一些下游应用还需要复杂的符号知识的基础,如KG中的一条路径、一个子图等涉及到多重关系。且在许多情况下,多重关系的复合语义是隐式表达的且可能随着时间而改变。 质量控制(Quality Control)。大规模的MMKG可能存在错误、缺少事实或过时的事实,因此精度、完整性、一致性和新鲜度,图像质量等可能都需要被讨论。 效率(Efficiency)。MMKG的构造效率问题较大,如NEIL需要大约350K CPU hours来为2273个对象收集400K的可视化实例,而在一个典型的KG中,这个数量会变成数十亿个实例。而如果继续扩展到视频数据,这个扩展性问题会继续被放大。除了MMKG的构建,MMKG的在线应用的要求也会更高。
评论