产品展示 Categories
联系我们 contact us
- 联系人:
- 陆先生
- 手机:
- 15895595058
- 电话:
- 0512-58628685
- 地址:
- 张家港市南丰镇
方法的命名实体消歧-电动数控滚圆机滚弧机倒角
添加时间:2019-06-20
名实体歧义是机器对自然语言进行理解时经常遇到的问题,为使机器能够正确地分析自然语言文本,对名实体消除歧义亟待解决。近年来,随着Wikipedia等语义知识库的出现,大量基于知识库的消歧方法被提出。命名实体消歧的任务是将文本中具有多个含义的实体指称去除歧义,并将其链接到知识库中的唯一实体。本文采用DBpedia作为知识库,基于图的方法进行实体消歧。 内容为维基百科标题,也就是实体的名称字符串,可以用于和实体指称计算字符串的编辑距离来确定是否被选择为候选实体。知识库中的同一个实体在现实文本中可以有多种不同的字符串表示,比如,实体 Micheal Jordan 字面形式有 等,这些字面形式通常是一些缩写,别名等。redirect_en. nt 即重定向文件,具体作用是将这些别称转化为较为常用或更规范的实体字符串。文本中的实体指称字符串通常会出现实体的多种字面形式,方法的命名实体消歧-电动数控滚圆机滚弧机倒角机张家港倒角机液压倒角机可以利用重定向找到更为规范的形式。例如,将文本中的 His Airness 重定向为 Michael Jordan 就可以获得更为丰富的链接信息,这有利于在接下来的探讨中展开基于图方法的实体消歧过程即消歧文件,本文由公司网站滚圆机网站
采集
转载中国知网整理! http://www.gunyuanjixie.com可以用于不同的实体果在候选生成步骤,实体指称的候选实体数目为 0,或者候选集合中没有覆盖到正确的候选实体,在接下来的消歧阶段就不可能得到正确的结果。所以候选生成步骤要有较高的召回率要求。另一方面,如果候选实体过多,会加重消歧步骤的计算复杂度,影响效率。候选生成需要在覆盖率和候选数目之间进行综合的考量。2. 1 基于实体名称字符串编辑距离的方法首先再用最简单的候选生成方法,即通过字符串与实体名称的编辑距离产生候选。两个字符串的编辑距离是指其中一个字符串通过插入、删除、替换三种操作转化为另外一个字符串的步骤数目。对于生成候选,编辑距离的阈值越大,候选集合覆盖率越高,但是候选数目也会越大。研究随机选择了十个英文人名,所采用的编辑距离和产生总的候选数目如图 方法的命名实体消歧-电动数控滚圆机滚弧机倒角机张家港倒角机液压倒角机本文由公司网站滚圆机网站
采集
转载中国知网整理! http://www.gunyuanjixie.com