从已弃用的freebase中查找所有实体名称
我正在训练一些将单词表示为向量的机器学习模型,使用freebase作为训练数据。 由于API已被弃用,我正在处理原始的freebase转储,它现在是一个包含超过5亿个不同实体(主题/对象)的31亿个三元组的列表,并且我希望减少这个数量。
我想删除所有只包含主题名称的三元组,以便只保留包含MID的三元组。 但是,我发现了多个可能的谓词来定义实体的“名称”。
我)common.notable_for.display_name
ii)type.object.name
iii)/ rdf-schema#标签
我有3个问题:
a)上述谓词之间是否有区别?
b)是否有任何额外的谓词也描述实体的名称?
c)除了定义名称的三元组之外,该名称是否曾出现在其他三元组中,而不是MID?
感谢您的帮助!
您应该只关注type.object.name
,它是包含主题名称的模式属性。
/rdf-schema#label
是均衡的,它不是freebase模式的一部分。
common.notable_for.display_name
描述是:“显着对象的本地化/性别适当的显示名称”,它也是CVT(复合值类型)中的一个属性,它包含不同类型的信息:“所有类型的话题有,最重要的是什么“重要”,据我所知“拉里佩奇”是一个“企业家”,所以你不需要这个属性,专注于TON type.object.name
。