【计算机研究与发展杂志社简介】
《计算机研究与发展》(月刊)创刊于1958年,由中国科学院计算技术研究所、中国计算机学会主办。办刊宗旨: 报道我国计算机领域最高水平的学术论文和最新科研成果。 刊登内容:计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。刊登内容:述评、计算机基础理论、软件技术、信息安全、计算机网络、图形图象、体系结构、人工智能、计算机应用、数据库技术、存储技术及计算机相关领域。《工程索引》Compendex 数据库(核心)收录。
【计算机研究与发展杂志栏目设置】
综述、计算机技术、计算机网络、人工智能、计算机软件、计算机应用
【计算机研究与发展杂志荣誉】
CSCD 中国科学引文数据库来源期刊(含扩展版)EI 工程索引(美)JST 日本科学技术振兴机构数据库(日)Pж(AJ) 文摘杂志(俄)万方收录(中)上海图书馆馆藏剑桥科学文摘北大核心期刊(中国人文社会科学核心期刊)国家图书馆馆藏文摘杂志知网收录(中)统计源核心期刊(中国科技论文核心期刊)维普收录(中)中国期刊方阵双效期刊中国百种杰出学术期刊中国精品科技期刊
【计算机研究与发展最新内容2015年 9 期部分目录】
基于数据源分类可信性的真值发现方法研究
基于频繁项集的海量短文本聚类与主题抽取
一种语义增强的空间关键词搜索方法
基于Nash-Pareto策略的自动数据分布方法及支持工具
基于LCSS的数据流相似性查询处理算法研究
【计算机研究与发展优秀范例】
基于频繁项集的海量短文本聚类与主题抽取
摘要:社交网络短文本规模大、传播快、质量低、模态多样等特性导致现有基于向量空间模型的文本聚类技术在对其进行聚类时面临维度高、特征稀疏和噪声干扰等挑战。对此,提出基于频繁项集的短文本聚类与主题抽取STC‐TE(short text clustering & topic extraction)框架。首先研究短文本的多特征对文本质量的影响,在基于高质量短文本集挖掘出的大量频繁项集基础上,设计基于相似度的频繁项集过滤策略SIF(similarity‐based itemset filtering),可过滤掉85%的非重要频繁项集;然后定义基于相关文本集的频繁项集相似度,并提出聚类个数自适应的频繁项集谱聚类算法CSA_SC (clusters self‐adaptive spectral clustering),实现频繁项集聚类与主题抽取;最后基于主题词将大规模短文本划分到相应的主题簇中,从而实现短文本聚类。基于100万条新浪微博文本的实验结果表明,S T C‐T E框架能够全面准确地抽取主题信息,快速有效地实现海量短文本分类。