单选题K-Means聚类法要求自变量之间不存在共线性,是因为()A 变量存在多重共线性时无法得到聚类结果B 变量存在多重共线性时无法解释聚类结果C 变量存在多重共线性时,相关变量会在距离计算中占据很高的权重,从而对聚类结果有负面的影响D 变量存在多重共线性时,得到的聚类结果是完全错误的

题目
单选题
K-Means聚类法要求自变量之间不存在共线性,是因为()
A

变量存在多重共线性时无法得到聚类结果

B

变量存在多重共线性时无法解释聚类结果

C

变量存在多重共线性时,相关变量会在距离计算中占据很高的权重,从而对聚类结果有负面的影响

D

变量存在多重共线性时,得到的聚类结果是完全错误的


相似考题
参考答案和解析
正确答案: D
解析: 暂无解析
更多“K-Means聚类法要求自变量之间不存在共线性,是因为()”相关问题
  • 第1题:

    K均值K-Means算法是密度聚类。()

    此题为判断题(对,错)。


    正确答案:错误

  • 第2题:

    下列情况中,可能存在多重共线性的有( )
    Ⅰ.模型中各对自变量之间显著相关
    Ⅱ.模型中各对自变量之间显著不相关
    Ⅲ.同模型中存在自变量的滞后项
    Ⅳ.模型中存在因变量的滞后项

    A.Ⅰ.Ⅱ
    B.Ⅰ.Ⅲ
    C.Ⅲ.Ⅳ
    D.Ⅱ.Ⅲ

    答案:B
    解析:
    当回归模型中两个或者两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。多元线性回归模型涉及多个经济变量时,由于这些变量受相同经济环境的影响,存在共同的变化趋势,他们之间大多存在一定的相关性,这种相关因素是造成多重共线性的主要根源。另外,当模型中存在自变量的滞后项时也容易引起多重共线性。

  • 第3题:

    简述k-means算法,层次聚类算法的优缺点。


    正确答案:(1)k-means算法:
    优点:算法描述容易,实现简单快速
    不足:
    簇的个数要预先给定
    对初始值的依赖极大
    不适合大量数据的处理
    对噪声点和离群点很敏感
    很难检测到“自然的”簇
    (2)层次聚类算法:
    BIRCH算法:
    优点:利用聚类特征树概括了聚类的有用信息,节省内存空间;具有对象数目呈线性关系,可伸缩性和较好的聚类质量。
    不足:每个节点只能包含有限数目的条目,工作效率受簇的形状的影响大。
    C.URE算法:
    优点:对孤立点的处理能力强;适用于大规模数据处理,伸缩性好,没有牺牲聚类质量。
    缺点:算法在处理大量数据时必须基于抽样,划分等技术。
    R.OCK算法:
    优点:分类恰当,可采用随机抽样处理数据。
    缺点:最坏的情况下时间复杂度级数大。
    基于密度的聚类算法:可识别具有任意形状不同大小的簇,自动确定簇的数目,分离簇和环境噪声,一次扫描即可完成聚类,使用空间索引时间复杂度为O(NlbN)。

  • 第4题:

    常用的聚类分析法有()、系统聚类法、模糊聚类法等。

    • A、序贯聚类法
    • B、样品聚类法
    • C、相关聚类法
    • D、时间聚类法

    正确答案:B

  • 第5题:

    下列情况中,可能存在多重共线性的有()。

    • A、模型中各对自变量之间显著相关
    • B、模型中各对自变量之间显著不相关
    • C、模型中存在自变量的滞后项
    • D、模型中存在因变量的滞后项

    正确答案:A,C

  • 第6题:

    K-means算法叙述正确的是()

    • A、在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的
    • B、在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化
    • C、对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目
    • D、从K-means算法框架可以看出,该算法需要不断地进行样本分类调整,不断地计算调整后的新的聚类中心,因此当数据量非常大时,算法的时间开销是非常大的

    正确答案:A,B,D

  • 第7题:

    K-Means聚类法要求自变量之间不存在共线性,是因为()

    • A、变量存在多重共线性时无法得到聚类结果
    • B、变量存在多重共线性时无法解释聚类结果
    • C、变量存在多重共线性时,相关变量会在距离计算中占据很高的权重,从而对聚类结果有负面的影响
    • D、变量存在多重共线性时,得到的聚类结果是完全错误的

    正确答案:C

  • 第8题:

    下列哪种算法属于聚类算法的范畴().

    • A、Apriori算法
    • B、k-means算法
    • C、kNN算法
    • D、C4.5算法

    正确答案:B

  • 第9题:

    单选题
    若数据量较大,下面哪种方式比较适合()
    A

    系统聚类

    B

    快速聚类(k-means)

    C

    A和B都可以

    D

    A和B都不可以


    正确答案: A
    解析: 暂无解析

  • 第10题:

    问答题
    如何考察自变量之间是否存在多重共线性问题?如果存在多重共线性,会有怎样的不良后果?如何在尽量不降低模型解释能力的前提下消除多重共线性问题?

    正确答案: 多重共线性可从以下几个方面识别:
    1)变量的重要性与专业不符
    2)R2高,但各自变量对应的回归系数均不显著
    3)方差膨胀因子(VIF)>10
    4)回归系数的符号与专业知识不符
    不良后果:
    1)参数估计值的标准误差变得很大,从而t值变得很小
    2)回归方程不稳定,增加或减少某几个观察值,估计值可以发生很大变化
    3)t检验不准确,误将应保留在方程中的重要变量舍弃
    4)估计值的客观符号与客观实际不一致
    解决方法:当发现自变量存在严重的多重共线性时,可以通过剔除一些不重要的自变量、增大样本容量、对回归系数做有偏估计(如采用岭回归法、主成分法、偏最小二乘法等)等方法来克服多重共线性。
    解析: 暂无解析

  • 第11题:

    单选题
    多重共线性产生的原因复杂,以下哪一项不属于多重共线性产生的原因?(  )
    A

    自变量之间有相同或者相反的变化趋势

    B

    从总体中取样受到限制

    C

    自变量之间具有某种类型的近似线性关系

    D

    模型中自变量过多


    正确答案: D
    解析:
    如果解释变量之间存在严格或者近似的线性关系,这就产生了多重共线性问题。产生多重共线性的原因包括:①经济变量之间有相同或者相反的变化趋势;②模型中包含有滞后变量;③从总体中取样受到限制等。

  • 第12题:

    单选题
    下列情况中,可能存在多重共线性的有()。 I 模型中各自变量之间显著相关 Ⅱ 模型中各自变量之间显著不相关 Ⅲ 模型中存在自变量的滞后项 Ⅳ 模型中存在因变量的滞后项
    A

    I、Ⅲ

    B

    I、IV

    C

    II、Ⅲ

    D

    II、IV


    正确答案: C
    解析: 当回归模型中两个或者两个以上的自变量彼此相关时,则称回归模型中存在多重共线性。多元线性回归模型涉及多个经济变量时,由于这些变量受相同经济环境的影响,存在共同的变化趋势,它们之间大多存在一定的相关性,这种相关因素是造成多重共线性的主要根源。另外,当模型中存在自变量的滞后项时也容易引起多重共线性。

  • 第13题:

    多重共线性产生的原因复杂,以下哪一项不属于多重共线性产生的原因?(  )

    A.自变量之间有相同或者相反的变化趋势
    B.从总体中取样受到限制
    C.自变量之间具有某种类型的近似线性关系
    D.模型中自变量过多

    答案:D
    解析:
    如果解释变量之间存在严格或者近似的线性关系,这就产生了多重共线性问题。产生多重共线性的原因包括:①经济变量之间有相同或者相反的变化趋势;②模型中包含有滞后变量;③从总体中取样受到限制等。

  • 第14题:

    多重共线性产生的原因复杂,以下哪一项不属于多重共线性产生的原因,( )

    A: 自变量之间有相同或者相应的变化趋势
    B: 所有的自变量对田变量的影响都不显著
    C: 自变量之间具有某种娄型的近似线性关系
    D: 模型巾自变量过多

    答案:D
    解析:
    如果解释变量之间存在严格或者近似的线性关系,这就是多重共线性,本质为解释变量之间高度相关。产生多重共线性的原因复杂,一般常见原田有:①自变量之间有相同或者相反的变化趋势:②数据取样过少,导致所有自变量对因变量的影响部不显著,③自变量之问具有某种类型的近似线性关系等。

  • 第15题:

    若数据量较大,下面哪种方式比较适合()

    • A、系统聚类
    • B、快速聚类(k-means)
    • C、A和B都可以
    • D、A和B都不可以

    正确答案:B

  • 第16题:

    聚类分析包括哪两种类型()。

    • A、指标之间的聚类和变量之间的聚类
    • B、变量之间的聚类和样品之间的聚类
    • C、样品之间的聚类和总体之间的聚类
    • D、指标之间的聚类和总体之间的聚类

    正确答案:B

  • 第17题:

    K-means算法的缺点不包括()

    • A、K必须是事先给定的
    • B、选择初始聚类中心
    • C、对于“噪声”和孤立点数据是敏感的
    • D、可伸缩、高效

    正确答案:D

  • 第18题:

    K-means算法的叙述正确的是()

    • A、在K-means算法中K是事先给定的,这个K值的选定是非常难以估计的
    • B、在K-means算法中,首先需要根据初始聚类中心来确定一个初始划分,然后对初始划分进行优化
    • C、对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目的新的聚类心,因此当数据量非常大时,算法的时间开销是非常大的

    正确答案:A,B,D

  • 第19题:

    多重线性回归分析中,共线性是指(),导致的某一自变量作用可以由其他自变量的线性函数表示。

    • A、自变量相互之间存在高度相关关系
    • B、因变量与各个自变量的相关系数相同
    • C、因变量与自变量间有较高的复相关关系
    • D、因变量与各个自变量之间的回归系数相同

    正确答案:A

  • 第20题:

    在多共线性比较严重的情况下,可以采取下列哪种方法来加以消除?()

    • A、改变导致多共线性的自变量的参数
    • B、延长数据观察的长度
    • C、放弃导致多共线性的自变量
    • D、B或C

    正确答案:D

  • 第21题:

    多选题
    导致多共线性出现的原因主要有()
    A

    模型中的一些自变量是时间的函数

    B

    自变量选取过多

    C

    自变量是事先给定的

    D

    自变量之间存在因果关系

    E

    某个自变量的当前值和滞后值同时作为自变量


    正确答案: C,B
    解析: 暂无解析

  • 第22题:

    单选题
    在多共线性比较严重的情况下,可以采取下列哪种方法来加以消除?()
    A

    改变导致多共线性的自变量的参数

    B

    延长数据观察的长度

    C

    放弃导致多共线性的自变量

    D

    B或C


    正确答案: B
    解析: 暂无解析

  • 第23题:

    问答题
    简述系统聚类与K-means聚类的基本原理。

    正确答案: K.means聚类的基本原理:
    聚类不一定事先确定有多少类;但是K-means聚类却要求先说好要分多少类。看起来有些主观。
    假定分3类,这个方法还进一步要求你事先确定3个点为“聚类种子”(多数软件会自动选种子);也就是说,把这3个点作为三类中每一类的基石。然后根据和这三个点的距离远近,把所有点分成三类。再把这三类的中心(均值)作为新的基石或种子(原来“种子”就没用了),再重新按照距离分类。如此叠代下去,直到达到停止叠代的要求(比如,各类最后变化不大了,或者叠代次数太多了)。显然,前面的聚类种子的选择并不必太认真,它们很可能最后还会分到同一类中。
    解析: 暂无解析