Page View:1751
  • TiKG-30K介绍

    藏语知识图谱数据集TiKG-30K,包含了146,679个三元组,30,986个实体和641种关系,可应用于知识图谱的表示学习及下游任务。其中训练集三元组数量为117,051,验证集三元组数量为14,820,测试集三元组数量为14,808。

    本文贡献

    (1)针对现有藏语知识图谱数据量少、数据稀疏的问题,本文利用藏文三元组中实体的同指关系,借助其他语言丰富的知识库和非文本介质对知识库进行了扩充。

    (2)在扩充三元组时,中英文专业词汇有时难以找到对应的藏语专业术语,导致产生歧义或者混淆语义。例如,中文学名“紫苏梗”、“紫草”、“紫花地丁”、“紫花针茅”对应着不同植物,但对应的藏语是相同的“རྒྱ་སྐྱེགས་”。因此,本文采用三元组修正技术,合并同义实体和关系、删除不必要的实体和关系、修正错误的三元组等方式,进行了四个版本的优化更新,进一步构建了一个关系稠密、规模适中且适合用于表示学习任务的藏语知识图谱数据集TiKG-30K。

    (3)采用TransE、DistMult、ComplEx、RotatE、pRotatE、HAKE多种经典表示学习模型在TiKG-30K进行了实验,并与英文数据集FB15k-237,WN18RR以及藏文数据集TD50K进行了对比,为藏文知识图谱表示学习提供了可开放测试的基线数据。




  • 部分实验对比:

    将TiKG-30K与WN18RR、FB15k-237在表示学习模型上的Hits@10指标进行直观对比,如下左图所示,本文提出的TiKG-30K在实验中的指标相较基准数据集有所提高。

    本文构建TiKG-30K时,通过跨语言近义词检索、合并同义实体和关系、修正错误三元组等技术对知识图谱进行多层优化,为了验证优化方式有效,对TiKG-V1、TiKG-V2、TiKG-V3、TiKG-30K四个不断优化的知识图谱进行消融实验,实验结果中Hits@10指标进行对比如下右图所示。


           

    数据集下载

    文件说明:

    (1)藏语知识图谱TiKG-30K,包含了30,986个实体以及641种关系类型,三元组数量为146,679(train:117,051 valid:14,820 test:14,808);数据集中每个三元组按照格式"头实体\t关系\t尾实体"进行存储,同义实体和关系以下划线"_"作为分隔符。

    (2)"entities.dict"和"relations.dict"为一种实体、关系与id的映射,每行为"id\t实体/关系"。

    (3)"entity2id.txt"和"relation2id.txt"为另一种实体、关系与id的映射,每行为"实体/关系\tid"。使用哪一种取决于表示学习模型中的定义,也可根据实际需求自行制作映射表。

    联系方式

    邮箱地址:tracy.yuan.sun@gmail.com

    论文PDF与论文引用格式