2008-03-28

Hierarchical initialization approach for K-Means clustering(基於優化初始類中心的K-means改進算法)

http://www.cnki.com.cn/Article/CJFDTotal-ZKYB200706008.htm


《中国科学院研究生院学报》2007年06期 加入收藏    获取最新 
 基于优化初始类中心点的K-means改进算法
  秦钰;荆继武;向继;张爱华
    K-means算法是一种重要的聚类算法,在网络信息处理领域有着广泛的应用.由于K-means算法终止于一个局部最优状态,所以初始类中心点的选择 会在很大程度上影响其聚类效果.提出了一种K-means算法的改进算法,首先探测数据集中的相对密集区域,再利用这些密集区域生成初始类中心点.该方法 能够很好地排除类边缘点和噪声点的影响,并且能够适应数据集中各个实际类别密度分布不平衡的情况,最终获得较好的聚类效果.
【作者单位】:信息安全国家重点实验室(中国科学院研究生院) 北京100049
【关键词】:聚类;K-means;初始类中心点
【分类号】:TP311.13;TP18
【DOI】:CNKI:SUN:ZKYB.0.2007-06-008
【正文快照】:
   1引言聚类分析是一种重要的数据挖掘技术,在网络信息检索、过滤、分类等方面得到了广泛的应用.现有的聚类算法大致可分为层次聚类、划分聚类、基于密度 的聚类、基于网格的聚类、基于模型的聚类等几种[1],其中层次聚类和划分聚类应用最为广泛.层次聚类依据数据对象之间的相似程�
 推荐 CAJ下载           PDF下载
 CAJViewer7.0阅读器支持所有CNKI文件格式,AdobeReader仅支持PDF格式

 An improved K-means algorithm based on optimizing initial points
 QIN Yu JING Ji-Wu XIANG Ji ZHANG Ai-Hua(The State Key Laboratory of Information Security (Graduate University of Chinese Academy of Sciences);Beijing 100049;China)
  K-means is an important clustering algorithm. It is widely used in Internet information processing technologies. Because the procedure terminates at a local optimum, K-means is sensitive to initial starting condition. An improved algorithm is proposed, which searches for the relative density parts of the database and then generates initial points based on them. The method can achieve higher clustering accuracies by well excluding the effects of edge points and outliers, as well as adapt to databases which have very skewed density distributions.
【Keyword】:clustering, K-means, initial points
 【参考文献】  共(10)篇 





 中国期刊全文数据库找到 1 条
 
1苏金树,张博锋,徐昕; 基于机器学习的文本分类技术研究进展 [J];软件学报; 2006年09期


 西文参考文献找到 9 条
 
1 TDT3Multilanguage Text Corpus,Version2.0 [M];; 2001年
2Pena J, Lozano J, Larranaga P; An Empirical Comparison of Four InitializationMethods for the K-Means A lgorithm [M];Pattern Recognition; 1999年
3He J,Lan M,Tan CL,et al; Initialization of cluster refinement algorithms:Areviewand comparative study [M];Proceedings of2004IEEE International Joint Conference on Neural Networks(IJCNN).; 2004年
4Ankerst M,Breunig MM,Kriegel HP,et al; OPTICS:Ordering points to identify the clustering structure [M];Proceedings of the International Conference on Management of Data(SIGMOD); 1999年
5 [M];http://www.nist.gov/speech/tests/tdt/; 年
6 Bradley PS,Fayyad UM; Refininginitial points forK-means clustering [M];Proceedings of the15thInternational Conference on Machine Learning(ICML); 1998年
7Cutting DR,Karger DR,Pedersen JO,et al; Scatter/Gather:Acluster-based approachto browsinglarge document collections [M];Proceedings of the15thInternational Conference on Research and Development in Information Retrieval(SIGIR); 1992年
8Pantel P,Lin D; Document clustering with committees [M];Proceedings of the25thInternational Conference on Research and Development in Information Retrieval(SIGIR); 2002年
9Steinbach M,Karypis G,Kumar V; Acomparison of document clusteringtechniques [M];Proceedings of KDD Workshop on Text Mining; 2000年
  【共引文献】 共(18)篇 





 中国期刊全文数据库 找到 6 条
 
1李鹏,王晓龙,刘远超,王宝勋; 一种基于混合策略的失衡数据集分类方法 [J];电子学报; 2007年11期
2陈爽,陈福,杜天苍; 一种启发式网络信息采集系统设计与实现 [J];北京石油化工学院学报; 2007年04期
3张博锋,白冰,苏金树; 基于自训练EM算法的半监督文本分类 [J];国防科技大学学报; 2007年06期
4刘洋,张秋余; 基于LSI和SVM相结合的文本分类研究 [J];计算机工程与设计; 2007年23期
5徐燕,李锦涛,王斌,孙春明; 基于区分类别能力的高性能特征选择方法 [J];软件学报; 2008年01期
6吕佳; 文本分类中基于方差的改进特征提取算法 [J];计算机工程与设计; 2007年24期


 中国优秀硕士学位论文全文数据库找到 8 条
 
1江川; 基于AUC的SVM多类分类算法的优化 [D];武汉科技大学; 2007年
2王俊英; 基于科技文献的中文文本分类算法研究 [D];燕山大学; 2007年
3周广城; 粒度计算模型及其应用 [D];浙江师范大学; 2006年
4谷峰; 中文网页层次分类研究 [D];华侨大学; 2007年
5黄臻臻; 基于体裁的中文网页分类 [D];华侨大学; 2007年
6张桂林; 中文文本自动分类系统的研究与实现 [D];吉林大学; 2007年
7吴巧敏; 基于支持向量机的文本分类算法研究 [D];湖南大学; 2007年
8胡发连; 基于概念短语的科技文献知识管理系统的研究与设计 [D];中南大学; 2007年


 中国博士学位论文全文数据库找到 1 条
 
1杨传耀; 中文信息检索索引模型及相关技术研究 [D];复旦大学; 2007年


 中国重要会议论文全文数据库找到 3 条
 
1李文波,孙乐,黄瑞红,冯元勇,张大鲲; 基于Labeled-LDA模型的文本分类新算法 [A];第三届全国信息检索与内容安全学术会议论文集 [C]; 2007年
2王辉,左万利; 利用质心向量构建增量式分类器(英文) [A];第三届全国信息检索与内容安全学术会议论文集 [C]; 2007年
3刘健,张维明; 基于文本概念序列的非线性分析方法初探 [A];第三届全国信息检索与内容安全学术会议论文集 [C]; 2007年
  【二级参考文献】 共(1)篇 





 中国期刊全文数据库 找到 1 条
 
1陈毅松,汪国平,董士海; 基于支持向量机的渐进直推式分类学习算法 [J];软件学报; 2003年03期
 【相似文献】  




 中国期刊全文数据库
 
1谭勇,荣秋生; 一个基于K-means的聚类算法的实现 [J];湖北民族学院学报(自然科学版); 2004年01期; 72-74
2李伟,黄颖; 文本聚类算法的比较 [J];科技情报开发与经济; 2006年22期; 240-242
3芦立华,张恒振; 一种中文文本聚类算法的研究 [J];科技信息(学术版); 2006年12期; 380+382
4陈晓云,王步钰,马友忠,孙辉; 基于LSSWM模型的交并式动态扩展聚类算法 [J];广西师范大学学报(自然科学版); 2007年02期; 141-145
5卢林,吴纪桃,柳重堪; 基于聚类过程的多比例尺GIS空间数据模型设计 [J];海洋测绘; 2006年01期; 15-17


 中国优秀硕士学位论文全文数据库
 
1孙思; 利用遗传思想进行数据划分的DBSCAN算法研究 [D];重庆大学; 2005年
2何春霞; 三角不等式原理对聚类算法的改进 [D];兰州大学; 2006年
3杨占华; 聚类分析研究及其在文本挖掘中的应用 [D];西南交通大学; 2006年
4谢可; 物流配送系统中聚类算法的研究与应用 [D];浙江大学; 2006年
5赵杰; 中国物流中心信息检索系统的算法设计 [D];中国地质大学(北京); 2006年
6李朝娟; 基于聚类技术的客户细分模型研究与实现 [D];哈尔滨工业大学; 2006年
7王强强; 基于PMML标准的数据挖掘平台设计与实现和存储模型研究 [D];吉林大学; 2007年
8孟增辉; 聚类算法研究 [D];河北大学; 2005年
9高玉东; 数据挖掘和小波理论在证券市场上的应用 [D];天津大学; 2006年
10彭崇; 聚类技术在车险业务分析中的应用研究 [D];电子科技大学; 2007年


 中国博士学位论文全文数据库
 
1黄宁; 遥感图象中模式分类技术的研究 [D];中国科学院电子学研究所; 2001年
2张俊林; 基于语言模型的信息检索系统研究 [D];中国科学院研究生院(软件研究所); 2004年


 中国重要会议论文全文数据库
 
1贾彦国,李培德; Web检索结果聚类算法的改进 [A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上) [C]; 2006年
2汪民乐,高晓光,李勇; 新型遗传模糊C-均值聚类算法及其在导弹目标选择中的应用 [A];2007年中国智能自动化会议论文集 [C]; 2007年
3宿太学,吕天阳,张锡哲,王钲旋,徐长青; 一个集成多种聚类技术实验平台的整体设计方案和基本模块实现 [A];第十二届全国图象图形学学术会议论文集 [C]; 2005年
4王晓辉,周越,王永刚,杨杰; 基于Quaternion-Gabor滤波器的彩色纹理分割算法研究 [A];2006中国科协年会——数字成像技术及影像材料科学学术交流会论文集 [C]; 2006年
5王晓辉,周越,王永刚,杨杰; 基于Quaternion-Gabor滤波器的彩色纹理分割算法研究 [A];提高全民科学素质、建设创新型国家——2006中国科协年会论文集(下册) [C]; 2006年
6曹慧; 一种xml文档相似性距离的计算方法 [A];山东省计算机学会2005年信息技术与信息化研讨会论文集(一) [C]; 2005年
7陈晓辉; 最近邻聚类学习算法的改进初探 [A];第二十二届中国控制会议论文集(下) [C]; 2003年
8彭小宏,阳东升,刘忠; 基于聚类算法的组织协作网设计 [A];2006中国控制与决策学术年会论文集 [C]; 2006年
9方莹,杨尔弘; 基于多特征的句子聚类方法研究 [A];全国第八届计算语言学联合学术会议(JSCL-2005)论文集 [C]; 2005年
10朱翚,芮延年,马纲; 基于模糊灰色理论心电图评价可靠性 [A];第十七届全国过路控制会议论文集 [C]; 2006年
http://www.cqvip.com/qk/83379X/200711/index.shtml

本刊为1999年创刊的中国工程院院刊。它立足于30多个工程科技领域,以科学发现,技术创新,科技前沿,研究成果,典型工程设计及经验总结,重大工程咨询调研报告等为主要报道内容,是荟萃专家学者创新精华,融百...

更多简介 >>>

中国工程科学 2007年 第11期目录

超高面板坝的关键技术问题马洪琪 曹克明 (4)

非饱和土的塑性体应变与剪应变的相互作用原理王靖涛 (11)

金属矿床地下自动开采的前沿技术及其发展途径李仲学 李翠平 刘双跃 (16)

基于灰色模糊数的公交线网优化研究邓卫 胡启洲 (21)

论新时代的创新人才甘自恒 金又琳 (26)

鄂尔多斯盆地特低渗透砂岩储层裂缝压力敏感性及其开发意义曾联波 史成恩 王永康 李书恒 万晓龙 崔攀峰 (35)

基于调频电台非合作式双基地雷达试验系统研究王炎 (39)

独头巷道空气年龄及通风有效性评价研究王海桥 田峰 黄俊歆 陈涛 (43)

模糊基函数神经网络在线跟踪自学习算法研究许飞云 钟秉林 黄仁 (48)

单站无源定位可观测性评述邓新蒲 (54)

基于并联机构及MR阻尼器的多维减振平台半主动控制研究朱伟 马履中 陈修祥 吴伟光 谢俊 (63)

基于车辆动力学的轨迹跟踪器设计陈杨 刘大学 贺汉根 戴斌 (68)

基于层次的K—means初始化算法汤九斌 陆建峰 唐振民 杨静宇 (74)

旅客列车硬座车厢内气流模拟与浓度场分析张登春 翁培奋 (80)

《中国工程科学》2007年第12期要目预告

An improved K-means algorithm based on optimizing initial points
 QIN Yu JING Ji-Wu XIANG Ji ZHANG Ai-Hua(The State Key Laboratory of Information Security (Graduate University of Chinese Academy of Sciences);Beijing 100049;China)
  K-means is an important clustering algorithm. It is widely used in Internet information processing technologies. Because the procedure terminates at a local optimum, K-means is sensitive to initial starting condition. An improved algorithm is proposed, which searches for the relative density parts of the database and then generates initial points based on them. The method can achieve higher clustering accuracies by well excluding the effects of edge points and outliers, as well as adapt to databases which have very skewed density distributions.
【Keyword】:clustering, K-means, initial points
 【参考文献】  共(10)篇 





 中国期刊全文数据库找到 1 条
 
1苏金树,张博锋,徐昕; 基于机器学习的文本分类技术研究进展 [J];软件学报; 2006年09期


 西文参考文献找到 9 条
 
1 TDT3Multilanguage Text Corpus,Version2.0 [M];; 2001年
2Pena J, Lozano J, Larranaga P; An Empirical Comparison of Four InitializationMethods for the K-Means A lgorithm [M];Pattern Recognition; 1999年
3He J,Lan M,Tan CL,et al; Initialization of cluster refinement algorithms:Areviewand comparative study [M];Proceedings of2004IEEE International Joint Conference on Neural Networks(IJCNN).; 2004年
4Ankerst M,Breunig MM,Kriegel HP,et al; OPTICS:Ordering points to identify the clustering structure [M];Proceedings of the International Conference on Management of Data(SIGMOD); 1999年
5 [M];http://www.nist.gov/speech/tests/tdt/; 年
6 Bradley PS,Fayyad UM; Refininginitial points forK-means clustering [M];Proceedings of the15thInternational Conference on Machine Learning(ICML); 1998年
7Cutting DR,Karger DR,Pedersen JO,et al; Scatter/Gather:Acluster-based approachto browsinglarge document collections [M];Proceedings of the15thInternational Conference on Research and Development in Information Retrieval(SIGIR); 1992年
8Pantel P,Lin D; Document clustering with committees [M];Proceedings of the25thInternational Conference on Research and Development in Information Retrieval(SIGIR); 2002年
9Steinbach M,Karypis G,Kumar V; Acomparison of document clusteringtechniques [M];Proceedings of KDD Workshop on Text Mining; 2000年
  【共引文献】 共(19)篇 





 中国期刊全文数据库 找到 7 条
 
1李鹏,王晓龙,刘远超,王宝勋; 一种基于混合策略的失衡数据集分类方法 [J];电子学报; 2007年11期
2陈爽,陈福,杜天苍; 一种启发式网络信息采集系统设计与实现 [J];北京石油化工学院学报; 2007年04期
3刘洋; 中文文本分类中特征选择方法的比较研究 [J];科技信息; 2007年03期
4张浩,汪楠; 文本分类技术研究进展 [J];科技信息(科学教研); 2007年23期
5张秋余,刘洋; 使用基于SVM的局部潜在语义索引进行文本分类 [J];计算机应用; 2007年06期
6安增波,张彦; 机器学习方法的应用研究 [J];长治学院学报; 2007年02期
7刘洋,张秋余; 基于LSI和SVM相结合的文本分类研究 [J];计算机工程与设计; 2007年23期


 中国优秀硕士学位论文全文数据库找到 8 条
 
1江川; 基于AUC的SVM多类分类算法的优化 [D];武汉科技大学; 2007年
2王俊英; 基于科技文献的中文文本分类算法研究 [D];燕山大学; 2007年
3周广城; 粒度计算模型及其应用 [D];浙江师范大学; 2006年
4谷峰; 中文网页层次分类研究 [D];华侨大学; 2007年
5黄臻臻; 基于体裁的中文网页分类 [D];华侨大学; 2007年
6张桂林; 中文文本自动分类系统的研究与实现 [D];吉林大学; 2007年
7吴巧敏; 基于支持向量机的文本分类算法研究 [D];湖南大学; 2007年
8胡发连; 基于概念短语的科技文献知识管理系统的研究与设计 [D];中南大学; 2007年


 中国博士学位论文全文数据库找到 1 条
 
1杨传耀; 中文信息检索索引模型及相关技术研究 [D];复旦大学; 2007年


 中国重要会议论文全文数据库找到 3 条
 
1李文波,孙乐,黄瑞红,冯元勇,张大鲲; 基于Labeled-LDA模型的文本分类新算法 [A];第三届全国信息检索与内容安全学术会议论文集 [C]; 2007年
2王辉,左万利; 利用质心向量构建增量式分类器(英文) [A];第三届全国信息检索与内容安全学术会议论文集 [C]; 2007年
3刘健,张维明; 基于文本概念序列的非线性分析方法初探 [A];第三届全国信息检索与内容安全学术会议论文集 [C]; 2007年
  【二级参考文献】 共(3)篇 





 中国期刊全文数据库 找到 3 条
 
1王建会,王洪伟,申展,胡运发; 一种实用高效的文本分类算法 [J];计算机研究与发展; 2005年01期
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发; 使用最大熵模型进行中文文本分类 [J];计算机研究与发展; 2005年01期
3陈毅松,汪国平,董士海; 基于支持向量机的渐进直推式分类学习算法 [J];软件学报; 2003年03期
 【相似文献】  




 中国期刊全文数据库
 
1李伟,黄颖; 文本聚类算法的比较 [J];科技情报开发与经济; 2006年22期; 240-242
2谭勇,荣秋生; 一个基于K-means的聚类算法的实现 [J];湖北民族学院学报(自然科学版); 2004年01期; 72-74
3赵姝,张燕平,张铃,张媛,陈传明; 覆盖聚类算法 [J];安徽大学学报(自然科学版); 2005年02期; 31-35
4吕佳; 可能性C-Means聚类算法的仿真实验 [J];重庆师范大学学报(自然科学版); 2005年03期; 135-138
5周晓云,孙志挥,张柏礼; 一种大规模高维数据集的高效聚类算法 [J];应用科学学报; 2006年04期; 70-74
6王伟东,芦金婵,张讲社; 基于视觉原理的密度聚类算法 [J];工程数学学报; 2005年02期; 163-166
7刘远超,王晓龙,刘秉权; 一种改进的k-means文档聚类初值选择算法 [J];高技术通讯; 2006年01期; 15-19
8马希荣; 有关面向对象数据库聚类技术的研究 [J];宁夏大学学报(自然科学版); 1997年04期; 66-70
9李凡,高雅卿; 一个模糊分割聚类算法 [J];科学通报; 1990年07期; 81-82
10黄永平,王丽珍; 考虑对象方向关系的密度聚类算法 [J];云南大学学报(自然科学版); 2004年03期; 39-42


 中国优秀硕士学位论文全文数据库
 
1谢可; 物流配送系统中聚类算法的研究与应用 [D];浙江大学; 2006年
2何春霞; 三角不等式原理对聚类算法的改进 [D];兰州大学; 2006年
3赵杰; 中国物流中心信息检索系统的算法设计 [D];中国地质大学(北京); 2006年
4彭崇; 聚类技术在车险业务分析中的应用研究 [D];电子科技大学; 2007年
5韩硕; 国航西南公司数据集中备份设计及实现 [D];四川大学; 2004年
6刘赏; 结合密度思想的蚂蚁聚类算法 [D];河北工业大学; 2003年
7杨占华; 聚类分析研究及其在文本挖掘中的应用 [D];西南交通大学; 2006年
8孙思; 利用遗传思想进行数据划分的DBSCAN算法研究 [D];重庆大学; 2005年
9朱晓冬; 基于聚类算法的T-S模糊神经网络模型的研究 [D];哈尔滨理工大学; 2003年
10贾晨科; 基于K-距离的孤立点和聚类算法研究 [D];郑州大学; 2006年


 中国博士学位论文全文数据库
 
1孙焕良; 基于空间划分的优化聚类算法及相关技术研究 [D];东北大学; 2005年
2余卫宇; 几种图像结构语义模型和图像 [D];华南理工大学; 2005年
3郑增威; 基于能量高效的传感器网络路由算法研究 [D];浙江大学; 2005年
4董红斌; 基于混合策略的协同演化算法研究 [D];北京交通大学; 2006年
5李洁; 基于自然计算的模糊聚类新算法研究 [D];西安电子科技大学; 2004年
6缪裕青; 关联规则挖掘及其在基因表达数据中的应用 [D];中国科学技术大学; 2007年
7李成安; 分布式环境下聚类分析新方法的研究 [D];浙江大学; 2006年
8曲建岭; 人工嗅觉系统中的信息处理技术 [D];西北工业大学; 2000年
9陈海霞; 面向数据挖掘的分类器集成研究 [D];吉林大学; 2006年
10刘雪飞; 数据挖掘技术在入侵检测中的应用研究 [D];南京理工大学; 2005年


 中国重要会议论文全文数据库
 
1孙广玲,唐降龙; 一种快速k-均值聚类算法 [A];第六届全国计算机应用联合学术会议论文集 [C]; 2002年
2彭小宏,阳东升,刘忠; 基于聚类算法的组织协作网设计 [A];2006中国控制与决策学术年会论文集 [C]; 2006年
3贾彦国,李培德; Web检索结果聚类算法的改进 [A];2006北京地区高校研究生学术交流会——通信与信息技术会议论文集(上) [C]; 2006年
4李世峰,黄磊,刘昌平; 几种聚类方法的比较 [A];第八届全国汉字识别学术会议论文集 [C]; 2002年
5汪民乐,高晓光,李勇; 新型遗传模糊C-均值聚类算法及其在导弹目标选择中的应用 [A];2007年中国智能自动化会议论文集 [C]; 2007年
6原忠义,唐文忠,许小林; 基于孤立点检测方法对于数据库异常入侵的分析 [A];2006中国控制与决策学术年会论文集 [C]; 2006年
7刘明政,殷建平,张国敏,祝恩; 基于相异增量的聚类算法在彩色图像分割中的应用 [A];2005年全国理论计算机科学学术年会论文集 [C]; 2005年
8宿太学,吕天阳,张锡哲,王钲旋,徐长青; 一个集成多种聚类技术实验平台的整体设计方案和基本模块实现 [A];第十二届全国图象图形学学术会议论文集 [C]; 2005年
9袁里驰,钟义信; 一种新颖的词聚类算法 [A];中国自动化学会、中国仪器仪表学会2004年西南三省一市自动化与仪器仪表学术年会论文集 [C]; 2004年
10黄永光,刘挺,车万翔,胡晓光; 面向变异短文本的快速聚类算法 [A];全国网络与信息安全技术研讨会'2005论文集(下册) [C]; 2005年


 中国重要报纸全文数据库
 
1和鹏; 数据集中该如何分区 [N];中国计算机报; 2003年
2戴智杰; 数据集中 简化管理 [N];中国计算机报; 2002年
3陈思 刘桐; 数据集中行运行分析报表系统简介 [N];中国城乡金融报; 2006年
4民政部信息中心业务系统建设和数据分析部主任 夏洪畅; 分布式应用+数据集中 构建民政救助系统 [N];中国计算机报; 2007年
5北京工业职业技术学院 刘书香; 一箭双雕 建设业务系统同时实现数据集中 [N];中国计算机报; 2004年
6建行河南省分行 赵原 张希威; 数据集中势在必行 [N];计算机世界; 2001年
7大连市计算机学会 段秀华 $$辽宁中行信息科技处处长 朱智明; 由小到大 网络演绎 [N];网络世界; 2002年
8 选择合适的数据挖掘算法 [N];计算机世界; 2007年
9 企业级数据中心市场规模日益增大 [N];人民邮电; 2006年
10华为3Com技术有限公司技术部 马春雷; 电力企业适合选择IP存储 [N];中国计算机报; 2006年

基于层次的K—means初始化算法

汤九斌 陆建峰 唐振民 杨静宇

下载全文
[全文大小:271 K]

南京理工大学计算机系,南京210094


摘  要:

K—means算法是一种常用的聚类算法,但是聚类中心的初始化是其中的一个难点。笔者提出了一个基于层次思 想的初始化方法。一般聚类问题均可看作加权聚类,通过层层抽样减少数据量,然后采用自顶向下的方式,从抽样结束层到原始数据层,每层都进行聚类,其中每层 初始聚类中心均通过对上层聚类中心进行换算得到,重复该过程直到原始数据层,可得原始数据层的初始聚类中心。模拟数据和真实数据的实验结果均显示基于层次 抽样初始化的K—means算法不仅收敛速度快、聚类质量高,而且对噪声不敏感,其性能明显优于现有的相关算法。[著者文摘]

2008)11—0o74—06 1 引言聚类分析在模式识别、数据挖掘等领域,起着非常重要的作用。近些年来,随着数据挖掘研究的深人,聚类分析日益受到重视J。K—means算法是较常用 的聚类算法之一,其中聚类中心的初始化对该算法的性能影响很大。若选取的初始聚类中心不合适,将不仅影响收敛速度,还有可能使算法陷人局部最优,但目前许 多参考文献往往绕开该问题。迄今为止,对聚类算法中聚类中心初始化的研究相对较少,且没有简单通用的好方案,重复不同的随机选择似乎成为了事实上的方法。 Pena等对目前常用的初始化算法从聚类质量(有效性)、聚类方法的敏感性(鲁棒性)和收敛速度(即效率)等方面进行了实验比较研究_3』,结果表明随机 初始化方法和Kaufmma方法(KA)在有效性和鲁棒性方面均优于Forgy方法(FA)和Macqueen方法(MA),其中KA在收敛速度方面优于 随机化方法。最近,Bradly和Fayyad等人对目前的一些初始点选择的方法进行了评述,并指出"在离散数......
Engineering Science

分 类 号:

TP311

文献标识码:

A

文章编号:

10009-1742(2008)11-0074-06

相关文章:


参考文献(10篇)  主题相关



2008)11—0o74—06 1 引言聚类分析在模式识别、数据挖掘等领域,起着非常重要的作用。近些年来,随着数据挖掘研究的深人,聚类分析日益受到重视J。K—means算法是较常用 的聚类算法之一,其中聚类中心的初始化对该算法的性能影响很大。若选取的初始聚类中心不合适,将不仅影响收敛速度,还有可能使算法陷人局部最优,但目前许 多参考文献往往绕开该问题。迄今为止,对聚类算法中聚类中心初始化的研究相对较少,且没有简单通用的好方案,重复不同的随机选择似乎成为了事实上的方法。 Pena等对目前常用的初始化算法从聚类质量(有效性)、聚类方法的敏感性(鲁棒性)和收敛速度(即效率)等方面进行了实验比较研究_3』,结果表明随机 初始化方法和Kaufmma方法(KA)在有效性和鲁棒性方面均优于Forgy方法(FA)和Macqueen方法(MA),其中KA在收敛速度方面优于 随机化方法。最近,Bradly和Fayyad等人对目前的一些初始点选择的方法进行了评述,并指出"在离散数......



[参考文献]

A Hierarchical-Based Initialization Method for K- Means Algorithm

Tang Jiubin, Lu Jianfeng, Tang Zhenmin, Yang Jingyu (Department of Computer, Nanjing University of Science and Technology, Nanjing 210094, China)

Abstract:

K - means algorithm is one of common clustering algorithms, but the cluster center initialization is a hard problem. In this paper, a hierarchical-based initialization approach is proposed for K -Means algorithm. The general clustering problem is treated as weighted clustering problem, the original data is sampled level by level to reduce the data amount. Then clustering is carried out at each level by top-down. The initial center of each level is mapped from the clustering center of upper level and this procedure is repeated until the original data level is reached. As a result, the initial center for the original data is obtained. Both the experimental results on simulated data and real data show that the proposed method has high converging speed, high quality of clustering and is insensitive to noise, which is superior to some existing clustering algorithms.[著者文摘]

Key words:

hierarchical technique; initial cluster centers; weighted data, K- means clustering

收稿日期: 2006-07-14
修订日期: 2006-09-15

作者简介:

汤九斌(1969-),男,湖北黄石市人,南京理工大学博士生,主要研究领域为模式识别、数据挖掘、专家系统






--
[垃圾桶] 裡沒有會話群組。 當您有超過 6423.752806 MB (還在增加中) 的免費儲存空間時,誰還需要刪除郵件?!

沒有留言: