从已弃用的freebase中查找所有实体名称

我正在训练一些将单词表示为向量的机器学习模型,使用freebase作为训练数据。 由于API已被弃用,我正在处理原始的freebase转储,它现在是一个包含超过5亿个不同实体(主题/对象)的31亿个三元组的列表,并且我希望减少这个数量。

我想删除所有只包含主题名称的三元组,以便只保留包含MID的三元组。 但是,我发现了多个可能的谓词来定义实体的“名称”。

我)common.notable_for.display_name
ii)type.object.name
iii)/ rdf-schema#标签

我有3个问题:

a)上述谓词之间是否有区别?
b)是否有任何额外的谓词也描述实体的名称?
c)除了定义名称的三元组之外,该名称是否曾出现在其他三元组中,而不是MID?

感谢您的帮助!


您应该只关注type.object.name ,它是包含主题名称的模式属性。

/rdf-schema#label是均衡的,它不是freebase模式的一部分。

common.notable_for.display_name描述是:“显着对象的本地化/性别适当的显示名称”,它也是CVT(复合值类型)中的一个属性,它包含不同类型的信息:“所有类型的话题有,最重要的是什么“重要”,据我所知“拉里佩奇”是一个“企业家”,所以你不需要这个属性,专注于TON type.object.name

链接地址: http://www.djcxy.com/p/64435.html

上一篇: Finding all entity names from deprecated freebase

下一篇: Extract alias from Freebase dump