更多“18、K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。”相关问题
  • 第1题:

    简述k-means算法,层次聚类算法的优缺点。


    正确答案:(1)k-means算法:
    优点:算法描述容易,实现简单快速
    不足:
    簇的个数要预先给定
    对初始值的依赖极大
    不适合大量数据的处理
    对噪声点和离群点很敏感
    很难检测到“自然的”簇
    (2)层次聚类算法:
    BIRCH算法:
    优点:利用聚类特征树概括了聚类的有用信息,节省内存空间;具有对象数目呈线性关系,可伸缩性和较好的聚类质量。
    不足:每个节点只能包含有限数目的条目,工作效率受簇的形状的影响大。
    C.URE算法:
    优点:对孤立点的处理能力强;适用于大规模数据处理,伸缩性好,没有牺牲聚类质量。
    缺点:算法在处理大量数据时必须基于抽样,划分等技术。
    R.OCK算法:
    优点:分类恰当,可采用随机抽样处理数据。
    缺点:最坏的情况下时间复杂度级数大。
    基于密度的聚类算法:可识别具有任意形状不同大小的簇,自动确定簇的数目,分离簇和环境噪声,一次扫描即可完成聚类,使用空间索引时间复杂度为O(NlbN)。

  • 第2题:

    在数据挖掘中,常用的聚类算法包括:()、()、()、基于网格的方法和基于模型的方法。


    正确答案:划分方法;层次方法;基于密度的方法

  • 第3题:

    K-means算法的叙述正确的是()

    • A、在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的
    • B、在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化
    • C、对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目的新的聚类心,因此当数据量非常大时,算法的时间开销是非常大的

    正确答案:A,B,D

  • 第4题:

    什么是聚类?简单描述如下的聚类方法:划分方法,层次方法,基于密度的方法,基于模型的方法。为每类方法给出例子。


    正确答案:聚类是将数据划分为相似对象组的过程,使得同一组中对象相似度最大而不同组中对象相似度最小。主要有以下几种类型方法:
    (1)划分方法
    给定一个有N个元组或者记录的数据集,分裂法将构造K个分组,每一个分组就代表一个聚类,K 使用这个基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法。
    (2)层次方法
    这种方法对给定的数据集进行层次似的分解,直到某种条件满足为止。具体又可分为“自底向上”和“自顶向下”两种方案。例如在“自底向上”方案中,初始时每一个数据记录都组成一个单独的组,在接下来的迭代中,它把那些相互邻近的组合并成一个组,直到所有的记录组成一个分组或者某个条件满足为止。
    代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等。
    (3)基于密度的方法
    基于密度的方法与其它方法的一个根本*区别是:它不是基于各种各样的距离,而是基于密度的。这样就能克服基于距离的算法只能发现“类圆形”的聚类的缺点。这个方法的指导思想就是:只要一个区域中的点的密度大过某个阈值,就把它加到与之相近的聚类中去。
    代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等。
    (4)基于模型的方法
    基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在假定就是:目标数据集是由一系列的概率分布所决定的。
    基于模型的方法主要有两类:统计学方法和神经网络方法(SOM)。

  • 第5题:

    BIRCH是一种()。

    • A、分类器
    • B、聚类算法
    • C、关联分析算法
    • D、特征选择算法

    正确答案:B

  • 第6题:

    K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。


    正确答案:错误

  • 第7题:

    以下属于聚类算法的是()

    • A、K均值
    • B、DBSCAN
    • C、Apriori
    • D、Jarvis-Patrick(JP)

    正确答案:A,B,D

  • 第8题:

    下列哪种算法属于聚类算法的范畴().

    • A、Apriori算法
    • B、k-means算法
    • C、kNN算法
    • D、C4.5算法

    正确答案:B

  • 第9题:

    问答题
    按照聚类的原理和方法划分有哪三类聚类算法?各种聚类算法的思想是什么?

    正确答案: 按照聚类的原理和方法来划分聚类算法,分为:
    ①层次聚类;②划分聚类;③基于密度的聚类。
    各种聚类算法的思想如下:
    ①层次聚类:递归的对对象进行合并或者分裂,直到满足某一终止条件。根据二叉树生成的顺序,可以把层次聚类方法分为合并型层次聚类和分解型层次聚类;
    ②划分聚类:给定聚类数目k和目标函数F,划分聚类算法把D划分成k个类,是的目标函数在此划分下达到最优,划分算法把聚类问题转化成一个组合优化问题,从一个初始划分或者一个厨师聚点集合开始,利用迭代控制策略优化目标函数。
    ③基于密度的聚类:根据空间密度的差别,把具有相似密度的点作为聚类。通常只扫描一次数据库。
    解析: 暂无解析

  • 第10题:

    单选题
    以下哪个聚类算法不属于基于网格的聚类算法()。
    A

    STING

    B

    WaveCluster

    C

    MAFIA

    D

    BIRCH


    正确答案: A
    解析: 暂无解析

  • 第11题:

    多选题
    ()都属于分裂的层次聚类算法。
    A

    二分K均值

    B

    MST

    C

    Chameleon

    D

    组平均


    正确答案: D,B
    解析: 暂无解析

  • 第12题:

    多选题
    以下哪个聚类分析的方法是利用统计学定义的距离进行度量()
    A

    层次聚类法

    B

    快速聚类法(K-Mans)

    C

    基于密度的聚类法

    D

    基于网格的聚类法


    正确答案: C,A
    解析: 暂无解析

  • 第13题:

    关于K均值和DBSCAN的比较,以下说法不正确的是()。

    • A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象
    • B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念
    • C、K均值很难处理非球形的簇和不同大小的簇,DBSCAN可以处理不同大小和不同形状的簇
    • D、K均值可以发现不是明显分离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的簇

    正确答案:A

  • 第14题:

    K-means算法叙述正确的是()

    • A、在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的
    • B、在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化
    • C、对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目
    • D、从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的

    正确答案:A,B,D

  • 第15题:

    许多基于内存的聚类算法所常用的两种数据结构是()和()


    正确答案:数据矩阵;相似度矩阵

  • 第16题:

    以下哪个聚类分析的方法是利用统计学定义的距离进行度量()

    • A、层次聚类法
    • B、快速聚类法(K-Mans)
    • C、基于密度的聚类法
    • D、基于网格的聚类法

    正确答案:A,B

  • 第17题:

    以下是哪一个聚类算法的算法流程() ①构造k-最近邻图。 ②使用多层图划分算法划分图。 ③repeat:合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。 ④until:不再有可以合并的簇。

    • A、MST
    • B、OPOSSUM
    • C、Chameleon
    • D、Jarvis-Patrick(JP)

    正确答案:C

  • 第18题:

    ()都属于分裂的层次聚类算法。

    • A、二分K均值
    • B、MST
    • C、Chameleon
    • D、组平均

    正确答案:A,B

  • 第19题:

    以下哪些是监督分类的分类方法()

    • A、K-均值算法
    • B、多级切割分类法
    • C、最大似然比法
    • D、动态聚类法

    正确答案:B,C

  • 第20题:

    问答题
    写出K-均值聚类算法的计算步骤。

    正确答案: 首先根据最终分类的个数k随机地选取k个初始的聚类中心,不断地迭代,知道达到目标函数的最小值,即得到最终的聚类结果。即:
    1、为中心向量{C1,C2,……,CK}初始化K个种子;
    2、分组:
    1)将样本分配给距离其最近的中心向量;
    2)由这些样本构造不相交的聚类;
    3、确定中心:用各个聚类的中心向量作为新的中心;
    4、重复分组和确定中心的步骤,直至算法收敛。
    解析: 暂无解析

  • 第21题:

    单选题
    下面关于Jarvis-Patrick(JP)聚类算法的说法不正确的是()。
    A

    JP聚类擅长处理噪声和离群点,并且能够处理不同大小、形状和密度的簇

    B

    JP算法对高维数据效果良好,尤其擅长发现强相关对象的紧致簇

    C

    JP聚类是基于SNN相似度的概念

    D

    JP聚类的基本时间复杂度为O(m)


    正确答案: C
    解析: 暂无解析

  • 第22题:

    单选题
    以下哪个聚类算法不是属于基于原型的聚类()。
    A

    模糊c均值

    B

    EM算法

    C

    SOM

    D

    CLIQUE


    正确答案: C
    解析: 暂无解析

  • 第23题:

    多选题
    以下属于聚类算法的是()
    A

    K均值

    B

    DBSCAN

    C

    Apriori

    D

    Jarvis-Patrick(JP)


    正确答案: D,C
    解析: 暂无解析

  • 第24题:

    判断题
    K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。
    A

    B


    正确答案:
    解析: 暂无解析