山西大学学报(自然科学版)

访问量:517475


2020年中国粒计算与知识发现学术会议(CGCKD 2020)论文选登

  • 基于核密度估计的区间型数据聚类方法(英文)

    李梦瑶;夏丽云;柳叶;陈姣龙;

    聚类作为区间型数据挖掘的重要任务之一,在度量对象之间的相似度或距离方面面临着极大的困难。传统聚类方法扩展到区间型数据后,在度量对象之间的距离时往往只考虑到了区间型数据的边界,而忽略了区间型数据内部的信息。文章引入区间型数据的概率分布,希望通过相关的区间型数据来估计每一簇的概率密度函数。提出了一种新的基于区间型数据的核密度估计方法,然后利用新方法估计出的概率密度函数重新定义了对象之间的距离,最后提出了一种自适应的区间型数据聚类方法。实验结果显示了该方法是有效的,同时也表明用区间型数据的概率分布定义距离比用区间的端点定义距离更为合理。

    2020年04期 v.43;No.170 685-697页 [查看摘要][在线阅读][下载 1120K]
    [下载次数:204 ] |[网刊下载次数:0 ] |[引用频次:12 ] |[阅读次数:1 ]
  • 联合邻域边界的在线流特征选择算法

    吕彦;林耀进;陈祥焰;李珑珠;王晨曦;

    在许多实际应用领域,特征随时间逐个流进特征空间并需及时进行在线选择,称为在线流特征选择。现有基于邻域粗糙集的在线流特征选择算法,仅考虑条件属性子集正域中包含的信息,而忽视了边界区域中的信息。基于此,文章提出了一种联合邻域边界的在线流特征选择算法(Joint Neighborhood Boundary for Online Streaming Feature Selection,OFS-JNB)。设计了一种新的计算邻域粗糙依赖度方法,同时,定义在线依赖度分析、在线重要度分析和在线冗余度分析等三种策略选择具有辨别能力的在线候选特征。在8个数据集上的实验显示,该算法能够选择出一个较好的特征子集。同时,在KNN、CART和LSVM分类器下,OFS-JNB算法的平均预测精度都是最优的,且精度值相对稳定。

    2020年04期 v.43;No.170 698-705页 [查看摘要][在线阅读][下载 799K]
    [下载次数:207 ] |[网刊下载次数:0 ] |[引用频次:7 ] |[阅读次数:1 ]
  • 基于PCA图像粒化的多粒度图像分类模型研究

    丁晓娜;刘春凤;刘保相;

    随着计算机图像分类技术的广泛应用,传统的图像分类方式已经不能满足人们生活需要。传统的图像分类方式主要是构造单一分类器,这种方式分类效果相对较差,分类准确率相对较低。针对这一问题,文章在Stacking集成思想的基础上,根据多粒度人物画像模型,探索了主成分粒化法与改进多粒度模型在图像分类中的应用,提出了基于PCA图像粒化的多粒度图像分类模型。多粒度图像分类模型选取BP神经网络、KNN和SVM作为基分类器,卷积神经网络作为元分类器,并且采用Kaggle公布的部分图像数据集进行验证。首先利用高斯滤波对图像进行预处理,进而对处理后的图像实现主成分粒化,最终将粒化后的数据用来训练各个分类器。通过实验验证改进的多粒度融合模型对图像的分类误差最低为0.0356。

    2020年04期 v.43;No.170 706-712页 [查看摘要][在线阅读][下载 1886K]
    [下载次数:195 ] |[网刊下载次数:0 ] |[引用频次:4 ] |[阅读次数:0 ]
  • 多哈希表投票样例选择算法

    黄雅婕;翟俊海;周翔;申瑞彩;侯璎真;

    随着数据的海量型增长,如何提高数据处理的效率已经对现有的数据挖掘算法提出了挑战。样例选择是指从初始数据中,依据既定规则选出能够代表初始数据的样例,从而有效地减少后续工作的数据量。局部敏感哈希方法是一种近似近邻查找算法,利用同类型数据间距离近,发生哈希碰撞概率高的特点查找近似近邻,但该方法是基于概率的随机映射方法,精确度不高。为了解决这个问题,本文提出一种多哈希表投票样例选择算法,通过基于P-stable分布的局部敏感哈希技术将数据映射到欧式空间,设计多个随机哈希函数,利用生成的多个独立的哈希表投票选择出最终的样例。实验结果显示本文提出的算法在压缩比方面较基于P-Stable分布的局部敏感哈希方法平均提高了47%。

    2020年04期 v.43;No.170 713-718页 [查看摘要][在线阅读][下载 1032K]
    [下载次数:79 ] |[网刊下载次数:0 ] |[引用频次:2 ] |[阅读次数:0 ]
  • 基于多尺度递归密集网络的单图像超分辨率算法

    徐石;张莉;季家欢;

    深度神经网络可以极大地提高单图像超分辨率的质量,盲目地增加网络的深度不能有效地改善网络。文章针对单图像超分辨率任务提出了一种新颖的深度多尺度递归密集网络(multi-scale recursive dense network,MSRDN),首先构造一个浅层特征提取模块来初步提取粗糙特征,然后将粗糙特征输入到多尺度密集模块(multi-scale dense blocks,MSDBs)群中。每个MSDB都包含一个双旁路子网和一个通道注意力机制,其中前者能通过密集的跳跃连接将不同尺度的特征混合在一起,后者能从通道中提取有效信息。MSDB模块有助于生成信息的前后流动,并在训练过程中促进梯度向后传播。所有MSDB模块的输出将通过重建模块恢复为高分辨率图像,并构成损失函数的不同项。在网络末端使用亚像素卷积层进行上采样,不需要将双三次插值作为预处理步骤,从而大大降低了计算复杂度。在基准数据集上进行的大量定性和定量实验的结果表明,提出的MSRDN具有更好的重构性能和视觉效果。

    2020年04期 v.43;No.170 719-726页 [查看摘要][在线阅读][下载 1460K]
    [下载次数:308 ] |[网刊下载次数:0 ] |[引用频次:7 ] |[阅读次数:0 ]
  • 基于K-近邻的多元时序预测与三支释义

    侯帅;张智恒;温佐承;沈少朋;

    K-近邻技术被广泛用于分类、推荐等热点问题,但针对多元时序数据状态预测问题的解决方案相对较少。文章在三支决策思想的指导下,提出了一种新的状态预测算法及其三支划分策略,从历史数据中寻找合适的、与近期数据足够相似的矩阵邻居集,并用这些邻居对应的下一时刻状态进行预测。首先,求解相似矩阵邻域。考虑数据的时序性,将向量相似度改进为适用于矩阵的指标。其次,所得预测结果会根据历史数据的频率分布被赋予三支语义,即常见、少见以及罕见。最后,在北京市空气质量检测场景下的三个真实数据集上的实验结果表明:(1)对各个数据集都能找到至少六种相似度,其性能优于矩阵范数基准线;(2)基于状态三分策略的结果可解释性得到了加强。

    2020年04期 v.43;No.170 727-734页 [查看摘要][在线阅读][下载 1697K]
    [下载次数:171 ] |[网刊下载次数:0 ] |[引用频次:3 ] |[阅读次数:0 ]
  • 计算覆盖粗糙集最大和最小描述的矩阵新方法

    刘财辉;谢德华;温燕军;凌敏;

    覆盖粗糙集是Pawlak粗糙集的一种推广,在覆盖粗糙集理论中,许多基本问题的研究都涉及最大、最小描述。文章在现有覆盖及覆盖粗糙集的矩阵表示基础上,通过重新定义矩阵中元素的运算规则,提出了一种改进的计算覆盖粗糙集最大和最小描述的方法。为了比较现有算法和改进算法的效率,在6个UCI数据集上进行了求解效率比较实验,实验结果表明:新提出的计算覆盖粗糙集最大、最小描述的矩阵方法可有效地减少计算量,降低算法时间复杂度。

    2020年04期 v.43;No.170 735-745页 [查看摘要][在线阅读][下载 1511K]
    [下载次数:134 ] |[网刊下载次数:0 ] |[引用频次:3 ] |[阅读次数:0 ]
  • 一个新的针对新颖性和多样性推荐的矩阵分解模型(英文)

    赵鹏;彭甫镕;崔志华;荆雪纯;任珂舟;

    为了吸引用户,最新的推荐算法注重于所推荐物品的新颖性和推荐列表的多样性。而传统的基于协同过滤的推荐算法只专注于提高准确性使得推荐的物品列表种类单一,因此在保持准确性的同时寻找新颖多样的物品列表成为研究热点。大多数现有研究提出的模型分为两阶段:先优化准确率后优化多样性。由于优化目标(多样性和准确性)的冲突,两阶段优化模型只能在牺牲准确性的情况下生成多样化的推荐列表。因此,文章提出了一个新的矩阵分解模型,该模型可以同时优化新颖性、多样性和准确性三个目标。此外,还设计了两个新的约束项:第一个约束项使目标用户的隐因子向量接近那些对长尾物品评过分的用户的平均隐因子向量,从而提高了推荐的新颖性;另一个约束项使每个物品的隐因子向量接近所有物品隐因子向量的均值,从而使推荐列表多样化。为了验证所提模型的有效性,我们在Movielens100K,Epinions和Rym数据集上进行了综合实验。实验结果表明,在准确性、系统多样性、个体多样性和新颖性方面,所提模型均具有卓越的性能。

    2020年04期 v.43;No.170 746-755页 [查看摘要][在线阅读][下载 1345K]
    [下载次数:175 ] |[网刊下载次数:0 ] |[引用频次:1 ] |[阅读次数:1 ]
  • 基于GRU-Attention的无监督多变量时间序列异常检测

    郑育靖;何强;张长伦;王恒友;

    时间序列异常检测在数据挖掘领域具有重要地位,且受关注程度越来越高。近年来,异常检测领域取得了较大进步,目前的方法更多利用循环神经网络自发学习数据的性质,少见有效利用特征维度和时间维度两个层面的报道。文章通过带有周期性的门控循环单元捕捉多变量时间序列数据在时间维度上的深层信息,并通过注意力机制找到度量各个特征的权重,之后将两个角度的信息汇总作为多元时序预测结果。量化预测结果与真实结果的差异,以此作为异常评价指标,并运用极值分析选取划分异常的阈值。最后,通过真实数据集的实验验证了文章方法的可行性与有效性。

    2020年04期 v.43;No.170 756-764页 [查看摘要][在线阅读][下载 1544K]
    [下载次数:991 ] |[网刊下载次数:0 ] |[引用频次:37 ] |[阅读次数:2 ]
  • 多尺度集值信息系统及其最优尺度选择(英文)

    陈艳;胡军;张清华;王国胤;

    多尺度信息系统是一种特殊的信息系统,其属性的取值存在多个尺度。现有的研究只讨论了每个对象在一个属性的各个尺度上取一个值的信息系统。但是,在一些实际的数据集中,对象的属性值可能不限于单个值,而是多个值,即集值。为此,文章提出了多尺度集值信息系统的概念。然后,定义了多尺度集值信息系统中对象的相似关系,研究了不同尺度下的粗糙近似及其相关性质。在多尺度集值决策系统中,给出了广义决策、上近似分布、下近似分布和正域的定义,并提出了相应的最优尺度判定准则。最后,从一致性和不一致性的角度分析了不同准则下的最优尺度之间的关系。

    2020年04期 v.43;No.170 765-775页 [查看摘要][在线阅读][下载 1343K]
    [下载次数:130 ] |[网刊下载次数:0 ] |[引用频次:7 ] |[阅读次数:0 ]
  • 面向不平衡数据的三支决策混合采样算法研究

    陈丽芳;代琪;刘洋;刘保相;

    针对不平衡数据采样算法效率低及分类效果不理想等问题,提出一种基于三支决策的三支等价粒混合采样算法(3EG-HS)。利用二元关系粒化不平衡数据集,实现三支等价粒划分,形成正等价粒、不确定等价粒和负等价粒。采用马氏距离(Mahalanobis distance)剔除负等价粒中价值密度低的多数类样本,实现负等价粒欠采样。应用SMOTE算法对不确定等价粒中的少数类样本实施过采样计算,提升价值密度高的少数类样本比例。合并正等价粒、过采样不确定等价粒和欠采样负等价粒,形成新的混合采样数据集,降低数据集的不平衡比。仿真实验结果表明,与其他采样算法相比,该算法总体性能表现优秀,根据模型评价指标,不仅G-mean值在大部分数据集上提升了5%~10%,而且F-measure1在9个数据集上得到了提升,数量上明显多于其他方法。

    2020年04期 v.43;No.170 776-785页 [查看摘要][在线阅读][下载 2264K]
    [下载次数:266 ] |[网刊下载次数:0 ] |[引用频次:6 ] |[阅读次数:1 ]
  • 一种基于区间模糊优势距离的多属性决策方法

    刘悦;姜春茂;郭豆豆;

    多属性决策是考虑多个评价指标下,对待测方案分析、比较并排序的过程。针对对象评价值是区间数的多属性决策问题,通过分析区间数之间的模糊优势关系,提出一种新的决策方法。首先,分析了区间数间的关系,讨论一种比较区间数大小来定义优势类的方法;其次,给出了区间模糊优势概率关系和模糊优势概率矩阵的定义,并把优势概率矩阵集结,将其转化为基于距离的区间模糊优势概率矩阵。最后,利用模糊优势距离矩阵,将决策方案排序问题转换成优势幅度比较,实现了不同候选方案的优劣排序。实例分析表明,新决策方法能够充分利用区间数信息,具有排序客观合理,决策精度高等优点。

    2020年04期 v.43;No.170 786-794页 [查看摘要][在线阅读][下载 1392K]
    [下载次数:353 ] |[网刊下载次数:0 ] |[引用频次:11 ] |[阅读次数:0 ]
  • 基于双属性综合依赖度的属性约简方法研究

    李法朝;任夜星;靳晨霞;

    属性约简是数据挖掘领域中的研究热点,如何获得属性个数较少的约简是学术界广泛关注的研究内容。文章以属性区分能力为背景,针对添加式属性约简集的获取问题,提出了综合依赖度和单属性辨识矩阵的概念,讨论了综合依赖度的性质和作用特征,给出了基于单属性辨识矩阵的综合依赖度的递进式计算方法,设计了一种基于双属性综合依赖度的属性约简算法。进而结合具体算例和几个常用的UCI数据集分析了属性约简算法的特点和性能。实验结果表明,与逐次添加一个属性的约简算法相比,新算法更容易获得属性个数较少的约简集,计算复杂度基本相当。

    2020年04期 v.43;No.170 795-802页 [查看摘要][在线阅读][下载 1370K]
    [下载次数:126 ] |[网刊下载次数:0 ] |[引用频次:4 ] |[阅读次数:0 ]
  • 密度峰值聚类的半监督多示例学习(英文)

    杨梅;张雨轩;闵帆;

    多示例学习(multi-instance learning,MIL)的任务是训练分类器以处理复杂的数据包,其中很多方法重点考虑包之间相似性度量。由于包结构是MIL的固有特性,文章提出了密度峰值聚类的半监督多示例学习(semi-supervised multi-instance learning,SMDP)算法,包含三个步骤:(1)结合高斯核和五种距离度量,使用基于密度峰值聚类的方法寻找代表包;(2)基于包之间的距离将每一个包转换为单实例,其第i个属性为它与第i个代表包的距离;(3)使用转换后的数据训练分类器。实验结果表明SMDP良好的分类性能,在文本和图像数据集上尤为突出。

    2020年04期 v.43;No.170 803-816页 [查看摘要][在线阅读][下载 1885K]
    [下载次数:107 ] |[网刊下载次数:0 ] |[引用频次:2 ] |[阅读次数:1 ]
  • 基于最优化方法的区间直觉模糊三支群决策模型(英文)

    刘久兵;鞠恒荣;李华雄;黄兵;卜祥智;

    基于三种经典区间直觉模糊集结算子及最优化方法,文章提出一种新颖的三支群决策模型与决策方法。首先,论文阐述了具有区间直觉模糊评价信息的三支群决策问题,采用区间直觉模糊加权平均算子、混合加权平均算子及几何平均算子分别集成不同决策者提供的区间直觉模糊评价信息,以便获得区间直觉模糊综合损失函数评价结果,并讨论损失函数之间的大小关系。其次,基于最优化方法建立一种确定三支决策概率阈值及规则的优化模型对。在此基础上,提出基于区间直觉模糊集结算子及最优化方法的三支群决策模型。最后,算例与比较分析表明所提出模型的有效性和优势。

    2020年04期 v.43;No.170 817-827页 [查看摘要][在线阅读][下载 1668K]
    [下载次数:340 ] |[网刊下载次数:0 ] |[引用频次:1 ] |[阅读次数:0 ]
  • 学习空间理论的ACM竞赛关键学习路径算法

    何秋红;孙文;郑文彬;朱月秀;

    学习空间理论是指导设计学生知识评估工具的最重要的理论框架之一。学习路径是其核心概念之一,它表示学生的认知过程和学习规律。根据学习路径以学定教,精准施教。将学习空间中学习路径的概念应用于ACM竞赛的研究,设计贪心算法MaxPath实现了竞赛的三种学习路径。2019ACM-CCPC江西省赛数据集上实验表明:(1)MaxPath快速有效;(2)根据推测关系分七级难度竞赛题,个别题无法严格划分等级,因考查内容不同而难度相似;(3)关键学习路径比个别和一般学习路径更优,源于它更符合推测关系和答对率降序;(4)关键学习路径与OJ平台结合,从生成精准的个性化学习路径及引入类游戏机制两方面支持高效训练。

    2020年04期 v.43;No.170 828-837页 [查看摘要][在线阅读][下载 1786K]
    [下载次数:307 ] |[网刊下载次数:0 ] |[引用频次:9 ] |[阅读次数:1 ]
  • 重叠函数和分组函数的双迁移性(英文)

    谢海;

    主要集中讨论重叠函数、分组函数与一致模或零模之间的双迁移性。首先,利用聚合函数双迁移性的定义研究重叠函数和分组函数的双迁移性。其次,介绍一致模(相应的,零模)基于重叠函数和分组函数的双迁移性的概念和性质。最后,讨论重叠函数(相应的,分组函数)基于一致模和零模的双迁移性的概念和性质。

    2020年04期 v.43;No.170 838-849页 [查看摘要][在线阅读][下载 1554K]
    [下载次数:81 ] |[网刊下载次数:0 ] |[引用频次:2 ] |[阅读次数:0 ]
  • 基于密度聚类和邻域的主动学习方法

    刘志秀;胡峰;邓维斌;于洪;

    主动学习是机器学习的子领域,可以有选择地对样本进行学习,主要解决无法有效使用大量无标签数据的问题。结合密度聚类算法和邻域模型,提出了一种主动学习方法,这是一个交替地执行聚类算法和选择样本进行标注的过程。首先,利用密度峰值聚类算法(DCFSFDP)对数据集进行类簇划分;其次,根据样本邻域信息制定的选择策略选择部分样本进行标记后加入有标签样本集合,并利用已标记的样本在下一次聚类过程中修正聚类结果,使类簇划分更加准确;最后,当有标记样本的数目达到指定的上限后停止聚类过程。实验结果表明,提出的方法能在只有少量有标签样本的情况下主动对大量样本进行标记,证明该算法能有效地应用于处理大量无标签数据。

    2020年04期 v.43;No.170 850-857页 [查看摘要][在线阅读][下载 1575K]
    [下载次数:291 ] |[网刊下载次数:0 ] |[引用频次:11 ] |[阅读次数:0 ]
  • 基于相容关系的局部多粒度粗糙集模型

    周悦丽;林国平;

    基于局部粗糙集的概念,对多粒度相容粗糙集模型进行扩展;在集值信息系统中建立了两种基于相容关系的局部多粒度粗糙集模型,包括乐观和悲观两种形式,并证明了相关性质。接着给出局部乐观多粒度相容粗糙集和全局乐观多粒度相容粗糙集的下近似算法并进行比较。最后,通过具体实例说明所提出模型在处理集值型数据时的有效性。从计算结果可以看出局部多粒度相容粗糙集模型在处理集值型的数据问题时能够提高计算效率,减少计算量。

    2020年04期 v.43;No.170 858-864页 [查看摘要][在线阅读][下载 1484K]
    [下载次数:179 ] |[网刊下载次数:0 ] |[引用频次:5 ] |[阅读次数:0 ]
  • 广义多尺度信息系统的知识获取与矩阵方法

    黄建新;李伟康;张晓萍;李进金;

    文章针对广义多尺度信息系统的知识获取问题,分别研究了协调与不协调广义多尺度决策信息系统的规则提取,阐明了系统协调性与决策规则之间的联系,并给出相关性质。进一步研究了规则提取与特征矩阵之间的联系。并利用矩阵对尺度组合进行刻画,分别给出了协调与不协调的广义多尺度决策信息系统中的最优尺度组合与保持正域不变的最优尺度组合选择的矩阵方法,并且结合实例说明矩阵方法的直观性与简便性。

    2020年04期 v.43;No.170 865-873页 [查看摘要][在线阅读][下载 1523K]
    [下载次数:191 ] |[网刊下载次数:0 ] |[引用频次:4 ] |[阅读次数:0 ]
  • 基于邻域样本稳定性的三支聚类方法

    李洪梅;姜冬勤;王平心;

    文章将样本稳定性和三支聚类结合,给出了一种基于邻域样本稳定性的三支聚类算法。首先使用任意两个样本的邻域中的公共元素个数定义两个样本的共现概率,并在此基础上定义每个样本的稳定性,然后基于阈值将这些样本元素分为稳定样本集和不稳定样本集。对稳定集中的样本,采用传统方法挖掘其类簇结构。对于不稳定集中的样本,通过比较样本到稳定集中聚类中心的距离将它们分到相应类的边界域中。通过以上策略可以得到三支聚类的核心域和边界域。在UCI数据集上的实验结果显示,该方法能够更好地显示出聚类的结构。

    2020年04期 v.43;No.170 874-879页 [查看摘要][在线阅读][下载 1459K]
    [下载次数:155 ] |[网刊下载次数:0 ] |[引用频次:7 ] |[阅读次数:1 ]
  • 高斯噪声特性区间ν-支持向量回归机

    张仕光;周婷;刘超;李源;

    支持向量回归机基于结构风险最小化原理对目标值进行预测,但不能得到目标值的区间值。而在实际应用中,需要预报某个目标值的区间值。结合ν-支持向量回归机的模型结构,利用区间数、统计学习理论建立了基于不等式约束的高斯噪声特性区间ν-支持向量回归机,构造Lagrange泛函得到其对偶问题进行求解,并理论上证明了模型的正确性。最后得出基于Gaussian噪声影响的ν-支持向量回归模型为文章模型特例的结论。

    2020年04期 v.43;No.170 880-884页 [查看摘要][在线阅读][下载 1447K]
    [下载次数:71 ] |[网刊下载次数:0 ] |[引用频次:4 ] |[阅读次数:0 ]
  • 一种扩充粒化的序列邻域分类方法

    亓慧;杨习贝;史颖;

    作为邻域粒化的核心应用之一,邻域分类器因其直观的构造手段、灵活的粒度表示以及不俗的分类性能受到了众多学者的关注与推广。然而,当训练样本数目较少时,测试样本邻域粒所能提供的有限信息无法有效地支持多数投票式的标签预测。鉴于此,提出了一种扩充粒化的序列邻域分类方法。首先,设计得分评估机制对测试样本进行排序;其次,利用传统邻域分类机制对排序最为靠前的待测样本进行标注,并将其加入训练集,扩充待测样本潜在的邻域粒化空间;最终,以此种序列分类方式完成整个训练集的标签预测。对比实验结果表明,序列领域分类方法比其他基于邻域的分类方法更为有效。

    2020年04期 v.43;No.170 885-889页 [查看摘要][在线阅读][下载 1661K]
    [下载次数:95 ] |[网刊下载次数:0 ] |[引用频次:3 ] |[阅读次数:0 ]
  • 多决策形式背景快速规则提取算法

    尚子豪;陈泽华;

    多决策形式背景的规则提取是知识发现领域中一项重要研究内容。针对决策形式背景中决策属性数量为多个时的规则提取问题,文章定义并讨论了形式向量及其性质,提出了一种多决策形式背景规则提取的形式向量算法。算法通过求取不同属性粒度下的条件形式向量和决策形式向量来构建形式向量的树形拓扑图,并按照文章所提的定理计算拓扑图中不同深度下条件形式向量与决策形式向量的关系,进而快速提取最简规则。文章算法可以有效处理不一致决策信息,同时得到非冗余最简规则,并且具备较高的效率。文章通过数学证明、实例分析和对比实验,验证了算法的有效性和快速性。

    2020年04期 v.43;No.170 890-896页 [查看摘要][在线阅读][下载 1758K]
    [下载次数:163 ] |[网刊下载次数:0 ] |[引用频次:2 ] |[阅读次数:0 ]
  • 基于特征粒的序决策系统快速约简研究

    赵立威;张楠;张中喜;

    属性约简又被称为特征选择,可以对给定的知识系统进行有效降维,是粗糙集理论重要的研究方向之一。目前,关于序决策系统的传统启发式属性约简算法,因其在每次迭代过程中选择一个属性重要度最大的属性添加进入特征属性子集,所以当面对高维数据时,算法迭代过程耗时较多造成约简效率较低。针对上述问题,文章通过分析序决策系统边界域的单调性,详细刻画了特征粒的概念,构造了基于特征粒的属性添加策略,进而设计了序决策系统下基于特征粒的快速属性约简算法。由于特征粒中包含多个属性,通过在每次迭代过程中添加特征粒,可以使特征候选子集快速达到与条件属性全集相同的分类能力,从而减少了迭代的次数,提高了启发式属性约简算法的效率。最后,采用6组标准UCI数据集进行实验验证。实验结果表明文章所提算法提高了属性约简的效率,具有较高的分类精度。

    2020年04期 v.43;No.170 897-905页 [查看摘要][在线阅读][下载 1766K]
    [下载次数:97 ] |[网刊下载次数:0 ] |[引用频次:1 ] |[阅读次数:0 ]
  • 区间毕达哥拉斯犹豫模糊集的不确定性研究

    李龙妹;郑婷婷;尹文静;

    区间毕达哥拉斯犹豫模糊环境下的不确定性是值得探究的问题。文章首先提出了度量区间毕达哥拉斯犹豫模糊集不确定信息的模糊因子和直觉因子,并给出了区间毕达哥拉斯犹豫模糊熵的公理化准则。基于香农熵并结合提出的两个因子,提出了一个区间毕达哥拉斯犹豫模糊熵公式。然后根据模糊贴近度引入区间毕达哥拉斯犹豫模糊集的一些相似性度量,考虑到不同元素的权重可能不同,提出了加权相似性度量。最后把熵和相似度应用到多属性决策问题中,结果证明了文章方法的可行性和有效性。

    2020年04期 v.43;No.170 906-913页 [查看摘要][在线阅读][下载 1644K]
    [下载次数:581 ] |[网刊下载次数:0 ] |[引用频次:8 ] |[阅读次数:0 ]
  • 基于多粒度序贯三支决策的代价敏感目标检测方法(英文)

    孙勇;李华雄;

    目标检测方法通常假定所有的误分类代价是相同的,期望获得较低的分类错误率,然而由于代价非均衡性和目标信息非充分性,这个假定在很多现实目标检测中并不适用。不平衡的误分类代价和非充分信息可能引起较高的误分类代价。为解决这个问题,文章提出了一种基于多粒度序贯三支决策的代价敏感目标检测算法。同时考虑多粒度特征,依据最小化误分类风险形成序贯检测策略。在每一步的序贯检测中,优化误分类代价,在目标信息不充分时做出延迟决策。构建了由粗粒度向细粒度转化的目标检测方法,可作出更合理的序贯检测决策。在多个目标检测数据集中的实验验证了代价敏感目标检测方法的有效性。

    2020年04期 v.43;No.170 914-926页 [查看摘要][在线阅读][下载 2256K]
    [下载次数:151 ] |[网刊下载次数:0 ] |[引用频次:3 ] |[阅读次数:2 ]
  • 基于高斯混合模型和EM算法的序贯三支决策方法(英文)

    张华幸;李华雄;黄兵;周献中;

    人脸识别是人工智能领域研究的重要方向。传统人脸识别方法大多考虑降低识别错误率,忽略了不同误分类代价的差异性。此外,训练一个精确的人脸识别分类器需要大量的标记样本,实际问题中标记样本往往很少。为解决这一问题,文章提出了一种基于高斯混合模型和EM算法的增量序贯三支决策方法,用于解决标记样本不足的代价敏感的人脸识别问题。文章针对人脸图像数据建立高斯混合模型,通过EM算法将有标记和未标记的图像数据进行综合识别,充分利用未标记样本可以帮助训练的分类器更好地表示测试样本,并得到更理想的识别效果。设计动态代价敏感识别策略,不仅考虑降低识别错误率,而且实现识别错误率和误分类代价之间的平衡。当标记样本不足时,引入边界域决策。随着序贯分类决策过程中可用信息的增加,边界域决策可以转化为正域决策或负域决策,从而形成增量式序贯三支决策过程,并通过实验验证了其有效性。

    2020年04期 v.43;No.170 927-937页 [查看摘要][在线阅读][下载 2231K]
    [下载次数:334 ] |[网刊下载次数:0 ] |[引用频次:8 ] |[阅读次数:1 ]

第二十六届全国信息检索学术会议(CCIR 2020)论文选登

  • 面向长答案的机器问答研究

    朱运昌;庞亮;兰艳艳;程学旗;

    在新冠疫情期间,将机器问答应用在政策咨询领域有助于各行业及时准确掌握相关政策。现有的抽取式机器阅读理解模型往往更适用于诸如实体类的短答案抽取,当面对长文档长答案的政策型场景时,模型往往会遇到输入长度超越极限、长答案抽取不完整的挑战。然而对于抽取式阅读理解,答案内部冗长的内容相比于答案的边界对于答案的准确抽取并不是那么关键,为此,文章加强对答案边界的理解并忽略答案内部信息,提出了答案边界整合(BoundaryQA)框架,包括局部片段合并、全局边界重选以及结合局部和全局信息的跳跃式重阅读三种边界整合策略。为了验证框架的有效性,文章在真实的疫情政策问答数据上进行了实验,实验结果表明提出的整合策略不仅在总体的ROUGE-L上提升了2.39%,尤其在长答案的ROUGE-L上有了明显的提升,最高达到5.12%。

    2020年04期 v.43;No.170 938-946页 [查看摘要][在线阅读][下载 1789K]
    [下载次数:133 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:5 ]
  • 基于迁移学习和集成学习的医学短文本分类

    张博;孙逸;李孟颖;郑馥琦;张益嘉;王健;林鸿飞;杨志豪;

    医学文本分类对于辅助医疗、构建医学文本结构化数据具有重要的价值和意义。文章提出一种基于迁移学习和集成学习的临床试验筛选标准短文本分类技术。首先,利用目标领域数据集对预训练语言模型进行微调来实现迁移学习得到在目标领域的语义增强语言模型;其次,将上述含有丰富目标领域语义信息语言模型与主流的神经网络模型结合得到医学文本分类器,再针对医学文本分类任务进行模型分类器的微调;最后,通过模型集成并采用beam search ensemble算法提高整个文本分类系统的性能,最终在CHIP2019评测三测试集上F1值达到了0.811 1。

    2020年04期 v.43;No.170 947-954页 [查看摘要][在线阅读][下载 1899K]
    [下载次数:764 ] |[网刊下载次数:0 ] |[引用频次:31 ] |[阅读次数:0 ]
  • 基于预训练语言模型的中文知识图谱问答系统

    王鑫雷;李帅驰;杨志豪;林鸿飞;王健;

    近年来,预训练语言模型在英文知识图谱问答研究中取得了令人瞩目的成绩。文章将预训练语言模型应用到中文知识图谱问答研究中,并通过实验结果分析不同模型及不同预训练语言模型的性能,验证了ERNIE (Enhanced Representation from Knowledge Integration)语言模型更适合完成中文问答任务。同时,文章提出一套高效的流水线方法,在实体提及识别、实体链接、关系匹配子任务上提出新的框架来提升识别匹配结果,并在CCKS2019-CKBQA测试集上达到了69.9%的F1值。最终基于文章方法在web端实现了知识图谱的问答系统展示,可回答大量开放域问题。

    2020年04期 v.43;No.170 955-962页 [查看摘要][在线阅读][下载 1985K]
    [下载次数:1453 ] |[网刊下载次数:0 ] |[引用频次:46 ] |[阅读次数:1 ]