(12)发明专利申请
(10)申请公布号 CN 112784049 A(43)申请公布日 2021.05.11
(21)申请号 202110117805.4(22)申请日 2021.01.28
(71)申请人 电子科技大学
地址 611731 四川省成都市高新区(西区)
西源大道2006号
G06F 40/279(2020.01)G06F 40/30(2020.01)G06Q 10/06(2012.01)G06Q 30/06(2012.01)G06Q 50/00(2012.01)
(72)发明人 郑旭 田玲 张栗粽 罗光春
曾翰林 张奔 (74)专利代理机构 成都希盛知识产权代理有限
公司 51226
代理人 陈泽斌 杨冬(51)Int.Cl.
G06F 16/35(2019.01)G06F 16/36(2019.01)G06F 40/194(2020.01)G06F 40/211(2020.01)
权利要求书5页 说明书11页 附图9页
CN 112784049 A()发明名称
一种面向文本数据的在线社交平台多元知识获取方法(57)摘要
其公开本发明涉及知识的表示和获取领域,
了一种面向文本数据的在线社交平台多元知识获取方法,解决传统技术中的知识获取方法存在的缺乏对多元知识的表示能力、获得的知识不完整、不准确的问题。本发明首先构造适合在线社交平台相关知识表示的多元知识的基本组成结构以及知识属性标签,然后从用户发言的文本数据中自动抽取知识实体与关系;并对文本数据进行数据挖掘,从所获得多元知识中,进一步提取蕴含隐藏的知识及关联,最终完成社交平台多元知识的全面获取。本发明提供的方法通过采用多元的知识结构和充分挖掘社交平台上文本数据中潜在的知识及关联,提高了获取的知识完整性和准确性,可以用于社交平台内容和商品等推荐。
CN 112784049 A
权 利 要 求 书
1/5页
1.一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,包括:A、设计多元知识六元组结构,所述六元组包括实体集、关系、时间约束、空间约束、类别和实体属性集;
B、基于所述多元知识六元组结构,获取文本数据的多元知识中的实体信息及其相关属性;
C、基于获取的多元知识中的实体信息及其相关属性,提取实体间的多元关系;D、基于获取的实体间的多元关系,通过时间约束和空间约束抽取出蕴含的隐藏知识。2.如权利要求1所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤A具体包括:
A1、定义多元知识的六元组结构表达形式,包含{实体集,关系,属性集,类别,时间约束,空间约束};
A2、设计多元知识实体集中的实体间关系映射规则;
分别记录关系及实体非时空类的属性及标签;A3、设计多元知识属性集结构,
A4、设计多元知识类别的结构,表示知识的粒度信息,从而将多元知识归类为表示个体关联的原子案例知识、表示多类实体或概念间关联的抽象知识、表示事件及情境间关联的逻辑知识;
A5、设计多元知识的时间约束{[b1,e1],[b2,e2],...,[bm,em]},其中每个时间区间记录多元知识的生效时间段,左端点为起始时间,右端点为结束时间;当约束具体指定一个时间点时,时间约束的区间两端的值相等;
A6、设计多元知识的空间约束{<{s11,s12,...},{s21,s22,...}>,...},其中{si1,si2,...}记录时间段[bi,ei]内知识生效的空间描述序列;若所有空间范围均生效,则对应空间约束为空集。
3.如权利要求2所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤A2中,所述设计多元知识实体集中的实体间关系映射规则,具体包括:
若六元组的实体集中,实体个数为2,则关系表示为{关系名称,<头实体,尾实体>},其中头实体对应实体集中的实体1,尾实体对应实体集中的实体2;
若六元组的实体集中,实体个数多于2,则关系表示为{关系名称,<要素实体1,要素实体2,…,要素实体n>},其中要素实体n对应实体集中的实体n;
当多元关系为并列关系时,采用一条无向超边连接这些实体;当多元关系为非并列逻辑关系时,用一条带方向顺序的超边依次连接要素实体,构成多元关系。
4.如权利要求1所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤B具体包括:
B1、预处理文本数据,完成文本中从代词到实体的替换;B2、针对预处理后的文本数据,通过混合的规则匹配进行实体提取;B3、从预处理后的文本数据中提取时间信息,并对应至实体,获得实体时间约束;B4、结合实体时间约束从预处理后的文本数据中提取相应空间信息,并对应至实体,获得实体空间约束;
B5、基于实体集合和属性信息,结合时间约束和空间约束进行相同实体的消歧,获得新的实体集合;
2
CN 112784049 A
权 利 要 求 书
2/5页
B6、基于所述新的实体集合,从文本数据中抽取实体的属性信息。
5.如权利要求4所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤B2中,所述通过混合的规则匹配进行实体提取,具体包括:
收集社交平台相关规则模版,包括专有名词和类别信息;并通过这些规则模版的匹配,进行面向文本数据的实体获取,若匹配成功则获得对应的实体和类别信息;若匹配失败,再进行普遍规则模版匹配;最后,将得到的实体及其类别信息分别加入到六元组结构中。
6.如权利要求4所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤B3中,所述从预处理后的文本数据中提取时间信息,并对应至实体,获得实体时间约束,具体包括:
B31、提取文本数据中显式的时间信息,初步整合出只包含时间节点的时间序列,然后整理与时间转换有关的词汇和具有划分时间区间意义的词汇集合,按此集合将所述时间序列扩充,扩充结果是包含多段完整的时间区间和若干的无开始或者结束时间的时间区间的时间序列;
B32、按文本数据中实体出现的位置,将实体与时间区间对应起来:针对每个实体获取其对应的时间约束,对出现在多个时间区间的实体,如果这些时间区间没有重叠部分,本实体直接对应多个时间区间,如果这些时间区间有重叠部分,将这些时间区间取并集,去掉时间冗余。
7.如权利要求4所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤B4中,所述结合实体时间约束从预处理后的文本数据中提取相应空间信息,并对应至实体,获得实体空间约束,具体包括:
B41、以文本数据中的时间转换动作词作为标志,对文本数据进行划分;B42、在每一个划分内部,通过规则匹配提取与地点空间相关的名词,并分析句子成分,若该名词不是主语或宾语,则作为空间约束;
B43、对划分内的每一个实体,将该约束加入相应的六元组空间约束中。
8.如权利要求4所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤B5中,所述基于实体集合和属性信息,结合时间约束和空间约束进行相同实体的消歧,具体包括:
B51、针对实体集合中的每一个实体,使用word2Vec方法将当前文本数据中实体指称项的上下文词组转化成N维词向量;
B52、按照{开始时间,结束时间,时间跨度,空间约束}的形式构建时空约束向量,若无开始时间或结束时间,相应位置为0;
B53、对所述N维词向量和时空约束向量进行组合,得到N+4维特征向量,绘制k‑距离曲线图,图中明显拐点的位置参数设为DBSCAN的邻域半径参数,点在邻域内成为核心对象的最小邻域点数设置为大于N+4的数;
B、通过DBSCAN方法进行聚类,聚为一类的实体名称归为一个类别,通过对类别内名称均匀采样,获得新的实体名称,完成实体消歧。
9.如权利要求4所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤B6中,所述基于所述新的实体集合,从文本数据中抽取实体的属性信息,包括:
B61、通过语义角色分析、句法分析及词性分析,从文中实体出现的所有位置的上下文
3
CN 112784049 A
权 利 要 求 书
3/5页
中抽取实体属性;
B62、若实体的一个属性具有多个属性值,则采用层次化的评估方法进行属性值筛选,分为三个层次:第一层通过属性值可靠性评估,第二层通过相似属性值出现频率评估,第三层通过时效性评估,设置一个当前时间的时间标记,越靠近当前时间的属性值时效性指标评分越高;对上述三个指标进行加和,结果进行归一化,得到一个0至1之间的评分,保留评分最高的10个属性值,并将评分最高的属性值设置为主要,其余为次要。
10.如权利要求1所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤C具体包括:
C1、对文本数据进行向量化处理,获得对应的特征向量;C2、通过关系模型学习、概率分析进行关系发现;通过基于关系相似性的分类方法实现关系合并。C3、
11.如权利要求10所述的一种面向文本数据的在线社交平台多元知识获取方法,其特
获得对应的特征向量,包括:征在于,步骤C1中,所述对文本数据进行向量化处理,
C11、针对文本数据中实体的上下文信息,通过word2vec方法完成文字到向量的映射;C12、针对文本数据中空间约束信息,基于地图数据库,将其转换为数字向量表示;C13、针对文本数据中时间约束信息,将其粒度统一为日期向量;C14、通过基于多元信息的向量整合方法,对C11‑C13中的得到的对应向量进行合并得到目标特征向量。
12.如权利要求10所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤C2中,所述通过关系模型学习、概率分析进行关系发现,具体包括:
C21、针对每一个实体子集,基于目标特征向量,通过关系模型学习,从特征向量中提取出不同实体对间关系初值;
C22、基于所述关系初值,通过时间距离、空间距离以及实体间属性值差,逐个进行不同实体对间的关系量化比较,得到关系间值M:
M=αααα1·I+2·t+3·s+4·i其中,αααα时间距离、空间距离以及属性值差的系数,t,s,i分1,2,3,4分别是关系初值、别是时间距离、空间距离以及属性值差;
C23、基于所述关系间值进行关系量化构建,若当前间值大于关系阈值,则构建实体子集内部的关系;其中,阈值设置方法为:根据总体实体数量,动态设定节点最大出入度,调整当前状态平均关系间值作为关系阈值;
C24、基于构建的实体子集内部的关系,若实体连接数大于出入度上限,则剪去最小关系间值一路;
C25、对同一实体子集的多种关系进行概率分析,取最大可能结果作为实体关系,加入到六元组结构中,若子集中的实体个数大于2,则为多元关系。
13.如权利要求10所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤C3中,所述通过基于关系相似性的分类方法实现关系合并,具体包括:
C31、针对每一对相同模式的关系中的实体集合,根据实体的时间约束和空间约束,采用欧氏距离计算方法计算对应实体间的时间距离和空间距离;
C32、根据实体间的关系,通过余弦相似度计算关系间的相似度;
4
CN 112784049 A
权 利 要 求 书
4/5页
C33、基于实体间的时间距离、空间距离以及关系间的相似度,通过归一化方法,结合三个变量得到关系总体相似性Cs:
Cs=βββ1·t+2·s+3·cos其中,βββ空间距离以及余弦相似性的系数,t,s分别是时间距离1,2,3分别是时间距离、以及空间距离;
C34、基于关系总体相似性进行关系分类:将关系相似性大于或等于相似性阈值的关系归于一类,将低于相似性阈值的关系归于一类,直到所有关系分类完成,更新相似度阈值,进行下一轮关系分类;
C35、重复步骤C34,直到类数达到上限,关系分类结束,实现关系初步合并;C36、针对关系初步合并结果,计算类中包含各实体的出现频率,取频率最高的两个实体,将它们之间的关系作为关系合并后的关系表征。
14.如权利要求1所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤D具体包括:
D1、根据知识表示结构以及蕴含知识提取所需元素,设计事件实体结构;D2、通过基于事件实体的分类方法提取事件实体;D3、采用基于相关度判断的事理知识提取方法获得事理知识,实现隐藏知识的提取。15.如权利要求14所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤D1中,所述设计的事件实体结构为“谓词{主语、宾语、宾语补足语、备注}”,定义备注为时空约束信息。
16.如权利要求14所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤D2中,所述通过基于事件实体的分类方法提取事件实体,具体包括:
D21、针对六元组知识集合,按实体进行归类,将带有同一实体的六元组数据归于一类,提取实体集合;
D22、针对每一类六元组数据,基于规则模板方法,提取关系对应的谓词和介词集合;D23、针对每一类六元组数据,判断其实体集合的对应事件成分,并将实体信息作为对应事件成分的属性值;
D24、合并各个实体的时间约束和空间约束,作为时空约束信息填充备注。
17.如权利要求14所述的一种面向文本数据的在线社交平台多元知识获取方法,其特征在于,步骤D3中,所述采用基于相关度判断的事理知识提取方法获得事理知识,实现隐藏知识的提取,具体包括:
D31、针对同一类的事件实体,根据各事件内部实体间的时空约束信息、属性值,对类内事件实体逐个计算与其他事件实体的相关度S:
S=γ1·t+γ2·s+γ3·i其中,γ1,γ2,γ3分别是时间距离、空间距离以及属性差值的系数,t,s,i分别是时间距离、空间距离以及属性差值;
D32、针对每一组事件,若总体相关度高于阈值,则提取两端谓词,宾语以及宾语补足语建立新的事件实体,完成类内蕴含事件实体提取,并保留原有的事件实体;
D33、针对不同类型的事件实体,根据实体的时空约束信息、属性值等条件,估计事件间联系,对类内事件实体逐个计算与其它类内事件实体的类间相关度ST:
5
CN 112784049 A
权 利 要 求 书
5/5页
其中,δSi是第i跳的事件实体相关度;i是第i跳的事件实体相关度的系数,D34、基于类间事件相关度,若类间相关度高于阈值,则提取两端谓词,所填实体为同一实体以外的实体,建立新的事件实体,完成类间事件实体提取。
6
CN 112784049 A
说 明 书
1/11页
一种面向文本数据的在线社交平台多元知识获取方法
技术领域
[0001]本发明涉及知识的表示和获取领域,具体涉及一种可以用于内容推荐的面向文本数据的在线社交平台多元知识获取方法。
背景技术
[0002]随着网络技术和信息技术的飞速发展,全球的数据总量呈现指数级的增长态势,数据浪潮铺面而来。在线社交平台,作为普通用户日常交流的核心途径,其数据反映了客观世界的信息,通过对这些数据的分析,能从中获取到大量的知识信息。因此,为了挖掘社交平台上用户发言中的有价值信息并加以利用,各种知识获取技术不断涌现,并日趋活跃。然而,数据中通常蕴藏着多元知识,例如描述事物的属性、时空位置、逻辑关联等。现有知识获
缺乏对多元知识的表取方法,通常将知识获取的目标限定为RDF三元组<主‑谓‑宾>的方式,
示能力。同时,方法本身也难以支撑多元知识的全面获取,造成所得知识存在不完整的问题,而简单的结合不同抽取方法,会忽略多元知识内部的关联,造成知识获取不准确。发明内容
[0003]本发明所要解决的技术问题是:提出一种面向文本数据的在线社交平台多元知识获取方法,解决传统技术中的知识获取方法存在的缺乏对多元知识的表示能力、获得的知识不完整、不准确的问题。
[0004]本发明解决上述技术问题采用的技术方案是:
[0005]一种面向文本数据的在线社交平台多元知识获取方法,包括:[0006]A、设计多元知识六元组结构,所述六元组包括实体集、关系、时间约束、空间约束、类别和实体属性集;[0007]B、基于所述多元知识六元组结构,获取文本数据的多元知识中的实体信息及其相关属性;[0008]C、基于获取的多元知识中的实体信息及其相关属性,提取实体间的多元关系;[0009]D、基于获取的实体间的多元关系,通过时间约束和空间约束抽取出蕴含的隐藏知识。
[0010]作为进一步优化,步骤A具体包括:[0011]A1、定义多元知识的六元组结构表达形式,包含{实体集,关系,属性集,类别,时间约束,空间约束};[0012]A2、设计多元知识实体集中的实体间关系映射规则;[0013]A3、设计多元知识属性集结构,分别记录关系及实体非时空类的属性及标签;[0014]A4、设计多元知识类别的结构,表示知识的粒度信息,从而将多元知识归类为表示个体关联的原子案例知识、表示多类实体或概念间关联的抽象知识、表示事件及情境间关联的逻辑知识;[0015]A5、设计多元知识的时间约束{[b1,e1],[b2,e2],...,[bm,em]},其中每个时间区间
7
CN 112784049 A
说 明 书
2/11页
记录多元知识的生效时间段,左端点为起始时间,右端点为结束时间;当约束具体指定一个时间点时,时间约束的区间两端的值相等;[0016]A6、设计多元知识的空间约束{<{s11,s12,...},{s21,s22,...}>,...},其中{si1,si2,...}记录时间段[bi,ei]内知识生效的空间描述序列;若所有空间范围均生效,则对应空间约束为空集。[0017]具体的,步骤A2中,所述设计多元知识实体集中的实体间关系映射规则,具体包括:
[0018]若六元组的实体集中,实体个数为2,则关系表示为{关系名称,<头实体,尾实体>},其中头实体对应实体集中的实体1,尾实体对应实体集中的实体2;[0019]若六元组的实体集中,实体个数多于2,则关系表示为{关系名称,<要素实体1,要素实体2,…,要素实体n>},其中要素实体n对应实体集中的实体n;[0020]当多元关系为并列关系时,采用一条无向超边连接这些实体;当多元关系为非并列逻辑关系时,用一条带方向顺序的超边依次连接要素实体,构成多元关系。[0021]作为进一步优化,步骤B具体包括:[0022]B1、预处理文本数据,完成文本中从代词到实体的替换;[0023]B2、针对预处理后的文本数据,通过混合的规则匹配进行实体提取;[0024]B3、并对应至实体,获得实体时间约束;从预处理后的文本数据中提取时间信息,[0025]B4、结合实体时间约束从预处理后的文本数据中提取相应空间信息,并对应至实体,获得实体空间约束;[0026]B5、基于实体集合和属性信息,结合时间约束和空间约束进行相同实体的消歧,获得新的实体集合;[0027]B6、基于所述新的实体集合,从文本数据中抽取实体的属性信息。[0028]具体的,步骤B2中,所述通过混合的规则匹配进行实体提取,具体包括:[0029]收集社交平台相关规则模版,包括专有名词和类别信息;并通过这些规则模版的匹配,进行面向文本数据的实体获取,若匹配成功则获得对应的实体和类别信息;若匹配失败,再进行普遍规则模版匹配;最后,将得到的实体及其类别信息分别加入到六元组结构中。
[0030]具体的,步骤B3中,所述从预处理后的文本数据中提取时间信息,并对应至实体,获得实体时间约束,具体包括:[0031]B31、提取文本数据中显式的时间信息,初步整合出只包含时间节点的时间序列,然后整理与时间转换有关的词汇和具有划分时间区间意义的词汇集合,按此集合将所述时间序列扩充,扩充结果是包含多段完整的时间区间和若干的无开始或者结束时间的时间区间的时间序列;[0032]B32、按文本数据中实体出现的位置,将实体与时间区间对应起来:针对每个实体
如果这些时间区间没有重叠部分,获取其对应的时间约束,对出现在多个时间区间的实体,
本实体直接对应多个时间区间,如果这些时间区间有重叠部分,将这些时间区间取并集,去掉时间冗余。
[0033]具体的,步骤B4中,所述结合实体时间约束从预处理后的文本数据中提取相应空间信息,并对应至实体,获得实体空间约束,具体包括:
8
CN 112784049 A[0034]
说 明 书
3/11页
B41、以文本数据中的时间转换动作词作为标志,对文本数据进行划分;
[0035]B42、在每一个划分内部,通过规则匹配提取与地点空间相关的名词,并分析句子成分,若该名词不是主语或宾语,则作为空间约束;[0036]B43、对划分内的每一个实体,将该约束加入相应的六元组空间约束中。[0037]具体的,步骤B5中,所述基于实体集合和属性信息,结合时间约束和空间约束进行相同实体的消歧,具体包括:[0038]B51、针对实体集合中的每一个实体,使用word2Vec方法将当前文本数据中实体指称项的上下文词组转化成N维词向量;[0039]B52、按照{开始时间,结束时间,时间跨度,空间约束}的形式构建时空约束向量,若无开始时间或结束时间,相应位置为0;[0040]B53、对所述N维词向量和时空约束向量进行组合,得到N+4维特征向量,绘制k‑距离曲线图,图中明显拐点的位置参数设为DBSCAN的邻域半径参数,点在邻域内成为核心对象的最小邻域点数设置为大于N+4的数;[0041]B、通过DBSCAN方法进行聚类,聚为一类的实体名称归为一个类别,通过对类别内名称均匀采样,获得新的实体名称,完成实体消歧。[0042]具体的,步骤B6中,所述基于所述新的实体集合,从文本数据中抽取实体的属性信息,具体包括:[0043]B61、通过语义角色分析、句法分析及词性分析,从文中实体出现的所有位置的上下文中抽取实体属性;[0044]B62、若实体的一个属性具有多个属性值,则采用层次化的评估方法进行属性值筛选,分为三个层次:第一层通过属性值可靠性评估,第二层通过相似属性值出现频率评估,第三层通过时效性评估,设置一个当前时间的时间标记,越靠近当前时间的属性值时效性指标评分越高;对上述三个指标进行加和,结果进行归一化,得到一个0至1之间的评分,保留评分最高的10个属性值,并将评分最高的属性值设置为主要,其余为次要。[0045]作为进一步优化,步骤C具体包括:[0046]C1、获得对应的特征向量;对文本数据进行向量化处理,[0047]C2、概率分析进行关系发现;通过关系模型学习、[0048]C3、通过基于关系相似性的分类方法实现关系合并。[0049]具体的,步骤C1中,所述对文本数据进行向量化处理,获得对应的特征向量,包括:[0050]C11、针对文本数据中实体的上下文信息,通过word2vec方法完成文字到向量的映射;
[0051]C12、针对文本数据中空间约束信息,基于地图数据库,将其转换为数字向量表示;[0052]C13、针对文本数据中时间约束信息,将其粒度统一为日期向量;[0053]C14、通过基于多元信息的向量整合方法,对C11‑C13中的得到的对应向量进行合并得到目标特征向量。[00]具体的,步骤C2中,所述通过关系模型学习、概率分析进行关系发现,具体包括:[0055]C21、针对每一个实体子集,基于目标特征向量,通过关系模型学习,从特征向量中提取出不同实体对间关系初值;[0056]C22、基于所述关系初值,通过时间距离、空间距离以及实体间属性值差,逐个进行
9
CN 112784049 A
说 明 书
4/11页
不同实体对间的关系量化比较,得到关系间值M:[0057]M=αααα1·I+2·t+3·s+4·i[0058]其中,αααα时间距离、空间距离以及属性值差的系数,t,1,2,3,4分别是关系初值、s,i分别是时间距离、空间距离以及属性值差;[0059]C23、基于所述关系间值进行关系量化构建,若当前间值大于关系阈值,则构建实体子集内部的关系;其中,阈值设置方法为:根据总体实体数量,动态设定节点最大出入度,调整当前状态平均关系间值作为关系阈值;[0060]C24、基于构建的实体子集内部的关系,若实体连接数大于出入度上限,则剪去最小关系间值一路;[0061]C25、对同一实体子集的多种关系进行概率分析,取最大可能结果作为实体关系,加入到六元组结构中,若子集中的实体个数大于2,则为多元关系。[0062]具体的,步骤C3中,所述通过基于关系相似性的分类方法实现关系合并,具体包括:
[0063]C31、针对每一对相同模式的关系中的实体集合,根据实体的时间约束和空间约束,采用欧氏距离计算方法计算对应实体间的时间距离和空间距离;[00]C32、根据实体间的关系,通过余弦相似度计算关系间的相似度;[0065]C33、空间距离以及关系间的相似度,通过归一化方法,结基于实体间的时间距离、合三个变量得到关系总体相似性Cs:[0066]Cs=βββ1·t+2·s+3·cos[0067]其中,βββ空间距离以及余弦相似性的系数,t,s分别是时间1,2,3分别是时间距离、距离以及空间距离;[0068]C34、基于关系总体相似性进行关系分类:将关系相似性大于或等于相似性阈值的关系归于一类,将低于相似性阈值的关系归于一类,直到所有关系分类完成,更新相似度阈值,进行下一轮关系分类;[0069]C35、重复步骤C34,直到类数达到上限,关系分类结束,实现关系初步合并;[0070]C36、取频率最高的两针对关系初步合并结果,计算类中包含各实体的出现频率,个实体,将它们之间的关系作为关系合并后的关系表征。[0071]作为进一步优化,步骤D具体包括:[0072]D1、根据知识表示结构以及蕴含知识提取所需元素,设计事件实体结构;[0073]D2、通过基于事件实体的分类方法提取事件实体;[0074]D3、采用基于相关度判断的事理知识提取方法获得事理知识,实现隐藏知识的提取。
[0075]具体的,步骤D1中,所述设计的事件实体结构为“谓词{主语、宾语、宾语补足语、备注}”,定义备注为时空约束信息。[0076]具体的,步骤D2中,所述通过基于事件实体的分类方法提取事件实体,具体包括:[0077]D21、针对六元组知识集合,按实体进行归类,将带有同一实体的六元组数据归于一类,提取实体集合;[0078]D22、针对每一类六元组数据,基于规则模板方法,提取关系对应的谓词和介词集合;
10
CN 112784049 A[0079]
说 明 书
5/11页
D23、针对每一类六元组数据,判断其实体集合的对应事件成分,并将实体信息作
为对应事件成分的属性值;[0080]D24、合并各个实体的时间约束和空间约束,作为时空约束信息填充备注。[0081]具体的,步骤D3中,所述采用基于相关度判断的事理知识提取方法获得事理知识,实现隐藏知识的提取,具体包括:[0082]D31、针对同一类的事件实体,根据各事件内部实体间的时空约束信息、属性值,对类内事件实体逐个计算与其他事件实体的相关度S:[0083]S=γ·t+γ·s+γ·i123[0084]其中,γ1,γ2,γ3分别是时间距离、空间距离以及属性差值的系数,t,s,i分别是时间距离、空间距离以及属性差值;[0085]D32、针对每一组事件,若总体相关度高于阈值,则提取两端谓词,宾语以及宾语补足语建立新的事件实体,完成类内蕴含事件实体提取,并保留原有的事件实体;[0086]D33、针对不同类型的事件实体,根据实体的时空约束信息、属性值等条件,估计事件间联系,对类内事件实体逐个计算与其它类内事件实体的类间相关度ST:
[0087]
S是第i跳的事件实体相关度;其中,δi是第i跳的事件实体相关度的系数,i[00]D34、基于类间事件相关度,若类间相关度高于阈值,则提取两端谓词,所填实体为同一实体以外的实体,建立新的事件实体,完成类间事件实体提取。[0090]本发明的有益效果是:
[0091]该方法能够充分利用在线社交平台上文本数据中蕴含的丰富信息,进行知识的获取,将文本数据中的时空信息、类别属性信息等关联信息同知识三元组一同提取,与传统的对于文本数据进行知识提取相比,能构成更为全面的多元知识;所提出的关系发现方法,能够从文本数据中同时发现二元和多元关系,社交平台的文本数据的复杂性决定了关系的复杂性,而只有多元的形式才能更准确地表达这种关系,从而本发明扩展了多元知识的内涵;所提出的蕴含知识提取方法,能够充分挖掘蕴含在用户发言中的潜在知识和联系,从普通多元知识中,进一步提取事件逻辑知识,从而提升了多元知识获取的信息深度。附图说明
[0092]图1是本发明实施例中的多元知识获取方法主要流程图;[0093]图2是本发明实施例中的多元知识六元组结构示意图;[0094]图3是本发明实施例中的实体提取的主要流程图;
[0095]图4是本发明实施例中的实体提取过程中的时间约束获取流程图;[0096]图5是本发明实施例中的实体提取过程中的实体消歧流程图;[0097]图6是本发明实施例中的实体提取过程中的实体属性获取流程图;[0098]图7是本发明实施例中的关系发现的主要流程图;
[0099]图8是本发明实施例中的关系发现过程的关系模型学习、概率分析流程图;[0100]图9是本发明实施例中的关系发现过程的关系合并流程图;[0101]图10是本发明实施例中的蕴含知识提取的主要流程图。
11
[0088]
CN 112784049 A
说 明 书
6/11页
具体实施方式
[0102]本发明旨在提出一种面向文本数据的在线社交平台多元知识获取方法,解决传统技术中的知识获取方法存在的缺乏对多元知识的表示能力、获得的知识不完整、不准确的问题。本发明首先构造多元知识的基本组成结构以及知识属性标签,然后从文本数据中自动抽取知识实体与关系;并从所获得多元知识中,进一步提取蕴含隐藏的知识及关联,最终完成多元知识的全面获取。[0103]实施例:
[0104]以电商平台商品销售过程为例,采用其中所产生的用户浏览、购买、售后,以及用户交流、用户评论等半结构化、非结构化文本数据进行知识的全面获取。[0105]参见图1,本实施例中的多元知识获取方法包括以下四个大步骤:[0106]S101、设计多元知识的逻辑结构,构建知识提取的六元组;[0107]S102、基于提出的知识六元组,从文本数据中提取实体集、时间约束、空间约束、类别、实体属性集信息;[0108]S103、从文本中分析提取出的实体间的关系,形成完整的多元知识六元组;[0109]S104、从完整的多元知识六元组中,通过时空约束和实体间的关系抽取出事理实体和事理关系。
[0110]步骤S101中,在进行知识抽取之前需要先分析定义我们需要知识的内容,定义出知识的多元表示结构,包括如下步骤:[0111]1.1)根据总的知识表示结构,设计待获取多元知识的六元组结构(实体集、关系、属性集、类别、时间约束、空间约束),定义实体集为{实体1,实体2,…,实体n},如图2所示。
以网上购物为例,实体集中包含的内一个六元组表示一个关系和其包含的所有实体信息,
容有{购买人,购买商品,购买店铺,…}。[0112]1.2)基于1.1中的六元组结构,设计实体集合间的关系映射,包含两个方面:[0113]1)若六元组的实体集中,实体个数为2,则关系表示为{关系名称,<头实体,尾实体>},其中头实体对应实体集中的实体1,尾实体对应实体集中的实体2。[0114]2)若六元组的实体集中,实体个数多于2,则关系表示为{关系名称,<要素实体1,
…,要素实体n>},其中要素实体i分别对应实体集中的实体i;随后,当多元关系要素实体2,
为并列关系时,采用一条无向超边连接这些实体;当多元关系为非并列逻辑关系时,用一条带方向顺序的超边依次连接要素实体,构成多元关系。[0115]1.3)基于1.1中的六元组结构,提取知识的属性集结构{关系属性集,实体1属性集,实体2属性集,…,实体n属性集},其中每个实体属性有多个,分别记录关系及实体的非时空标签。相较于普通知识只能包含单一的属性,多元知识六元组包含实体全部的属性。[0116]1.4)基于1.1中的六元组结构,多元知识的类别结构,表示知识的粒度信息,包含表示个体关联的原子案例知识、表示多类实体或概念间关联的抽象知识、表示事件及情境间关联的逻辑知识。
[0117]1.5)基于1.1中的六元组结构,多元知识的时间约束结构{[b1,e1],[b2,e2],...,[bm,em]},其中每个时间区间记录知识生效时间段,左端点为起始时间,右端点为结束时间。其中,具体指定一个时间点时,时间约束的区间两端的值相等;未知时间点记录为“?”,无时间记录为“‑∞”及“+∞”。“∞”值表示一个持续性意思,以…为例,表示这一个实体的有
12
CN 112784049 A
说 明 书
7/11页
效时间还在持续。
[0118]1.6)基于1.1中的六元组结构,多元知识的空间约束结构{<{s11,s12,...},{s21,s22,...}>,...},其中{si1,si2,...}记录时间段[bi,ei]内,知识生效的空间描述序列,若所有空间范围均生效,空间约束为空集。[0119]步骤S102中,预处理文本数据,并进行实体抽取,之后获取实体的时空约束,借助时空约束进行实体消歧,获取新的实体类别,最后,获取实体属性,完善六元组信息。其主要流程图参见图3,包括以下步骤:[0120]2.1)文本预处理:
[0121]2.1.1)预处理文本数据,从文本中检测是否包含实体,关系,时间空间信息及其他可构成六元组的信息。以推荐为例,{购买时间,购买地点,购买商品的名称,购买商品的信息,购买人}。
[0122]2.1.2)删除文本中的无关符号。[0123]2.1.3)利用上下文,对发现的实体提及进行代词关联,完成从代词到实体的替换。[0124]2.2)给出购买信息通过混合的规则匹配进行实体提取:[0125]首先,收集电商相关规则的模版,其中包括电商的专有名词和类别信息。首先利用相关规则模版进行匹配,若匹配成功则获得对应的实体和类别信息;若匹配失败再进行普遍规则模版匹配。将得到的提取结果加入到六元组结构。[0126]2.3)实体时空属性获取:
[0127]2.3.1)获取实体的时间约束参见图4。具体如下:[0128]2.3.1.1)提取文本数据中显式的时间信息,比如:购买时间,初步整合出只包含时间节点的时间序列。然后整理与时间转换有关的词汇和具有划分时间区间意义的词汇集合,按此集合将上述时间序列扩充,扩充结果是包含多段完整的时间区间和若干的无开始或者结束时间的时间区间的时间序列,对处于只有开始时间或结束时间的时间区间中的实体,实体对应整个半无限的时间区间,对存在于整个文本数据中都没有任何时间有关元素的实体,实体对应整个无限的时间区间,例如{[9:15,10:05],[10:15,+∞),(‑∞,11:00]…}。
[0129]2.3.1.2)按文本数据中实体出现的位置,将实体与时间区间对应起来。针对每个实体获取其对应的时间约束,对出现在多个时间区间的实体,如果这些时间区间没有重叠部分,本实体直接对应多个时间区间,如果这些时间区间有重叠部分,将这些时间区间取并集,去掉时间冗余,例如,一个实体提取到的时间区间是{[4:00,6:00],[5:00,7:00],…},合并结果为{[4:00,7:00],…}。
[0130]2.3.2)接着获取实体的空间约束。具体如下:[0131]在提取文本中寻找时间转换动作词,每有一个时间转换动作,就根据动作在文本中的位置对应到将时间序列上进行切分。例如,用户进入了店铺A,又去了店铺B,用户进行了两次空间转移,用户的六元组{实体,空间约束}就应该为{用户,(店铺A,店铺B)}。[0132]2.4)基于DBSCAN聚类的实体消歧,流程参见图5:
[0133]2.4.1)使用Word2Vec方法将文本数据中实体指称项的上下文词组转化成N维词向量。
[0134]2.4.2)将时间约束按照{开始时间,结束时间,时间跨度,空间约束}的形式构建时
13
CN 112784049 A
说 明 书
8/11页
空约束向量,若无开始时间或结束时间,相应位置为0。
[0135]2.4.3)将时空向量和词向量组合得到N+4维特征向量,绘制k‑距离曲线图,图中明显拐点的位置参数设为DBSCAN的邻域半径参数,点在邻域内成为核心对象的最小邻域点数设置为大于N+4的数。
[0136]2.4.4)通过DBSCAN方法进行聚类,聚为一类的实体名称归为一个类别,通过对类别内名称均匀采样,获得新的实体名称,完成实体消歧。[0137]2.5)基于时间约束的实体属性获取方法,流程参见图6:[0138]2.5.1)通过语义角色分析,句法分析及词性分析,从文中实体出现的所有位置的上下文中抽取实体属性。
[0139]2.5.2)获取实体的时间约束,同一时间约束的实体属性归为一组。[0140]2.5.3)若实体的一个属性具有多个属性值,则采用层次化的评估方法:[0141]2.5.3.1)第一层通过属性值可靠性评估,即文本数据中是否给出属性值的来源。以推荐中的用户反馈情况为例,引用用户自己的身高体重信息作为依据得出的评价可靠性评估更好。
[0142]2.5.3.2)第二层通过相似属性值出现频率评估。以推荐中购买用户对某一属性的看法为例,评论中表明衣服偏大的人数占比最多,那么偏大这个属性值的评估分数也因此最高。
[0143]2.5.3.3)第三层通过时效性评估。设置一个当前时间的时间标记,越靠近当前时间的属性值时效性指标评分越高,以购买用户对商品的反馈为例,当天的评论比一个月前的评论时效性评估分数高,一条评论的追评比首评时效性评估分数高。[0144]2.5.4)对上述三个指标进行加和,保结果进行归一化,得到一个0至1之间的评分,留评分最高的10个属性值,并将评分最高的属性值设置为主要,其余为次要。[0145]步骤S103中,基于文本数据,根据实体信息,通过可信度概率分析以及基于关系相似性的分类方法,实现实体间的关系发现,初步掌握知识,完善六元组实体信息。具体流程参见图7,包含以下步骤:
[0146]3.1)通过对数据进行预处理得到对应的特征向量。特征向量能够有效地表示对应数据所包含的信息特征,从而加强实验结果与信息特征间的联系。该步骤包括如下步骤:[0147]3.1.1)对数据进行向量化处理。分别进行文字信息,空间约束信息,时间约束信息的映射工作;
[0148]3.1.2)通过word2vec方法完成文字映射工作;[0149]3.1.3)基于地图数据库,将空间约束信息转换为形如“(经度,纬度)”数字向量表示方法;
[0150]3.1.4)时间约束信息,精确到日期。如“2020‑01‑01”转化为向量(20200101,1),针对时间约束信息不全的记录,如只有年份信息(“2020”)或只有日期信息(“01‑01”),缺失信息用0来填补,如上例结果为(20200000,1)或(00000101,1)。[0151]3.1.5)通过基于多元信息的向量整合方法,合并得到特征向量,完成映射工作。所述基于多元信息的向量整合方法,即合并提到的三种映射向量,从而得到目标特征向量,如文字映射向量为(a,b),空间约束信息映射向量为(c,d),时间约束信息映射向量为(e,1),则相应的特征向量表示为((a,b),(c,d),(e,1))。
14
CN 112784049 A[0152]
说 明 书
9/11页
3.2)通过关系模型学习、概率分析进行关系发现。关系发现是知识获取的第一步,
直接决定了知识获取的广泛程度以及后期事理知识提取的可靠性。参见图8,包括以下步骤:
[0153]3.2.1)通过关系模型学习,从特征向量中提取出不同实体对间关系初值。所述关系模型即由卷积神经网络以及注意力模型结合而成,用于得到实体对间关系初值的网络模型。经过关系模型处理,两两实体对间存在表征关系紧密度的关系初值I。[01]3.2.2)通过时间距离、空间距离以及实体间属性值差,基于关系初值,逐个进行不同实体对间的关系量化得到关系间值。关于关系间值M的计算方法,遵照下式计算:[0155]M=αααα1·I+2·t+3·s+4·i[0156]其中,αααα时间距离、空间距离以及属性值差的系数,t,1,2,3,4分别是关系初值、s,i分别是时间距离、空间距离以及属性值差。所述时空距离是通过欧式距离计算方法计算实体对的时空约束信息差异得来。
[0157]3.2.3)根据实体数量动态设定节点最大出入度以及调整当前状态平均关系间值作为关系阈值。
[0158]3.2.4)在每次关系量化过程中,当且仅当实体对关系间值大于等于关系阈值,关系形成。
[0159]3.2.5)若实体连接数大于出入度,最后,对单个实体所则剪去最小关系间值一路;得的多种关系进行概率分析,取最大可能结果作为实体关系,实现关系发现。[0160]3.3)通过基于关系相似性的分类方法实现关系合并。关系合并目的在于合并相似关系从而达到减少单实体拥有关系数,简化关系网络的目标。关系合并这项任务难点在于关系相似性计算以及关系表征。流程参见图9,包括以下步骤:[0161]3.3.1)基于实体的时空约束,采用欧氏距离计算方法计算时空距离t和s。[0162]3.3.2)得到关系表示的余弦相似度cos。
[0163]3.3.3)通过基于关系相似度的归一化方法结合三个变量得到关系相似性。所述的基于关系相似度的归一化方法指的是一种无量纲的加权求和方法。关于关系相似度Cs的计算方法,遵照下式计算:[01]Cs=βββ1·t+2·s+3·cos[0165]其中,βββ空间距离以及余弦相似性的系数,t,s分别是时间1,2,3分别是时间距离、距离以及空间距离。
[0166]3.3.4)采用动态阈值的方法,根据当前关系分类的轮数,动态递增、递减地调整相似性阈值。
[0167]3.3.5)在每次关系分类过程中,将关系相似性大于或等于相似性阈值的数据归于一类,将低于相似性阈值的数据归于一类,直到所有数据分类完成,更新相似度阈值,进行下一轮关系分类。
[0168]3.3.6)直到类数达到一固定阈值,关系分类结束,实现关系初步合并。[0169]3.3.7)通过计算类中包含各实体的出现频率,取频率最高的两个实体,将它们之间的关系作为关系合并后的关系表征。
[0170]3.3.8)若该两实体间并不存在联系,则剔除出现频率较差的实体,由频率其次的实体代替,如此往复,直至关系存在,实现最终关系合并。
15
CN 112784049 A[0171]
说 明 书
10/11页
步骤S104中,基于实体信息,构建事件实体,通过基于事件实体的分类方法以及基
于相关度判断的事理知识提取方法,在已有的关系中发现内在潜藏的事理知识,实现蕴含知识的提取。具体流程参见图10,包含以下步骤:
[0172]4.1)根据知识表示结构以及蕴含知识提取所需元素,设计事件实体结构(“谓词{主语、宾语、宾语补足语、备注}”),定义备注为时空约束信息。[0173]4.2)通过基于事件实体的分类方法提取事件实体。事件实体是多元知识表征方式的关键,以事件实体为节点构成的知识图谱是后续实现蕴含知识提取的基础。包括以下步骤:
[0174]4.2.1)按实体进行归类,将带有同一实体的六元组数据归于一类,提取实体集合。如在社交网络商品推荐环境中,将带有相同商品名称的六元组数据归于一类。[0175]4.2.2)根据六元组数据信息,类内构建事件实体内容(如由关系提炼相关谓词,由实体集判断句子成分)。
[0176]4.2.3)对类内包含的六元组数据,基于规则模板方法,由关系提炼相关谓词;[0177]4.2.4)对类内包含的六元组数据,通过实体集判断句子成分(识别主语、宾语、宾语补足语),并结合实体信息获得其属性值;[0178]4.2.5)根据时空约束信息填充备注。[0179]如面对目标六元组形如({小明,YSL小金条,小红}、购买、{名字(倾向男),化妆品(倾向女性用品),名字(倾向女)}、/、2020‑11‑11),能够提取事件实体形如(购买{小明,化妆品,小红,2020‑8‑25(情人节)})。则可大概率推断出小明在2020‑8‑25给小红买了一件化妆品,并可轻易根据时间约束信息进一步推理得到小明和小红关系很好。在社交网络商品推荐环境中,掌握这一关系,可以在未来重要时间点(如公共节日,纪念日等),向小明推荐化妆品类女性使用的,带有礼物属性的物品,同时也可向小红适当推荐适合男性使用的,带有礼物属性的物品。
[0180]4.3)通过基于相关度判断的事理知识提取方法得到事理知识,实现蕴含知识的获取。事理知识即根据事件实体因果关系,建立事件实体间联系,从而挖掘多个事件实体内实体间的关系。包括以下步骤:
[0181]4.3.1)关于类内事理知识提取,根据实体的时空约束信息、属性值等条件建立事件间联系,对类内事件实体逐个计算与其他事件实体的相关度。[0182]关于相关度S的计算方法,遵照下式计算:[0183]S=γ·t+γ·s+γ·i123[0184]其中,γ1,γ2,γ3分别是时间距离、空间距离以及属性差值的系数,t,s,i分别是时间距离、空间距离以及属性差值。[0185]4.3.2)若相关度高于阈值,则提取两端谓词,宾语以及宾语补足语建立新的事件实体,即完成新的事理知识提取。
[0186]如存在两个事件实体(购买{小明,鞋刷,/,/})、(购买{小明,清洁剂,/,/}),提取谓词,宾语后发现“鞋刷”、“清洁剂”都是清洗用品,或可推断出“小明鞋子脏了”的结论,从而通过推荐系统,向小明推荐更多鞋类清洁用品。[0187]4.3.3)关于类间事理知识提取,根据实体的时空约束信息、属性值等条件建立事件间联系,对类内事件实体逐个计算与其他事件实体的类间相关度。
16
CN 112784049 A[0188]
说 明 书
11/11页
4.3.4)若类间相关度高于阈值,则提取两端谓词,所填实体为同一实体以外的实
体。建立新的事件实体,即完成新的事理知识提取。[01]该情况发生在某事件宾语、宾语补足语或备注信息与另一事件主语相关的时候。事理关系提取规则一致,只是在新事理关系构建时,所填实体应是该情况中同一实体以外的实体。
[0190]关于类间相关度S的计算方法,遵照下式计算:T
[0191]
其中,δSi是第i跳的事件实体相关度。i是第i跳的事件实体相关度的系数,[0193]如存在两个事件实体(购买{小明,帽子A,小红,2020‑8‑25})、(购买{小红,帽子B,/,2020‑8‑27}),由于存在“小红”这一共有实体,可以从两事件中获取蕴藏知识。如,双方时间约束信息相近可能推测出“小红不喜欢帽子A,更喜欢帽子B”,并从事件一可能推测出“小明存在某种动机愿意为小红购买一顶帽子”,双方结合,推荐系统可以向“小明”推荐“帽子B”从而达到双赢效果。
[0192]
17
CN 112784049 A
说 明 书 附 图
1/9页
图1
图2
18
CN 112784049 A
说 明 书 附 图
2/9页
图3
19
CN 112784049 A
说 明 书 附 图
3/9页
图4
20
CN 112784049 A
说 明 书 附 图
4/9页
图5
21
CN 112784049 A
说 明 书 附 图
5/9页
图6
22
CN 112784049 A
说 明 书 附 图
6/9页
图7
23
CN 112784049 A
说 明 书 附 图
7/9页
图8
24
CN 112784049 A
说 明 书 附 图
8/9页
图9
25
CN 112784049 A
说 明 书 附 图
9/9页
图10
26
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- stra.cn 版权所有 赣ICP备2024042791号-4
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务