更多“2、2. 缺失值处理 (1)处理年龄(Age)的缺失值,用平均值补全。 (2)删除船舱号(Cabin)、登船港口(Embarked)两列数据。”相关问题
  • 第1题:

    数据清洗的方法不包括()。

    A.重复数据记录处理

    B.缺失值处理

    C.噪声数据清除

    D.一致性检查


    正确答案:A

  • 第2题:

    处理缺失值的方法有()。

    A.人工添加方法

    B.用样本统计量的值去代替缺失值

    C.只排除有缺失值的项目问题,但保留个案

    D.将有缺失值的个案整个删除

    E.用统计模型估计值去代替缺失值


    参考答案:DE

  • 第3题:

    表A有两列A1(主键)A2,表B也有两列B1(主键) B2,用表B列中的B2值去更新表A中的A2值。


    正确答案:
             

  • 第4题:

    回收的问卷调查表中 ,很多表都有一些没有填写的项 。处理缺失值的办法有多种 , 需要根据实际情况选择使用 。对于一般性的缺值项,最常用的有效方法是( )。

    A.删除含有缺失值的调查表B.将缺失的数值以该项己填诸值的平均值代替C.用某种统计模型的计算值来代替D.填入特殊标志 ,凡涉及该项的统计则排除这些项值


    正确答案:D

  • 第5题:

    简述缺失值的处理方法。


    正确答案:(分析时)忽略元组,(分析时)忽略属性列,(估计缺失值)人工填写缺失数据,(估计缺失值)自动填充缺失数据。

  • 第6题:

    在对回收后的调查问卷进行数据处理时,处理缺失值的办法主要是()。

    • A、用一个样本统计量的值代替缺失值
    • B、用从一个统计模型计算出来的值去代替缺失值
    • C、将有缺失值的个案删除
    • D、将有缺失值的个案保留,仅在相应的分析中做必要的删除

    正确答案:A,B,C,D

  • 第7题:

    简述处理缺失值的主要方法。


    正确答案:①找一个中间值代替,如该变量的平均值或量表的中间值;
    ②用一个逻辑答案代替;
    ③删除处理。

  • 第8题:

    数据清洗的方法不包括()。

    • A、缺失值处理
    • B、噪声数据清除
    • C、一致性检查
    • D、重复数据记录处理

    正确答案:D

  • 第9题:

    ()指发现并纠正数据文件中可识别的错误的一道程序,包括检查数据一致性,处理无效值和缺失值等。

    • A、数据治理
    • B、数据建设
    • C、数据分析
    • D、数据清洗

    正确答案:D

  • 第10题:

    多选题
    以下属于数据预处理的是()
    A

    缺失值填充

    B

    噪声数据剔除

    C

    异常值识别

    D

    数据可视化


    正确答案: B,C
    解析: 暂无解析

  • 第11题:

    问答题
    试述处理缺失值的常用方法。

    正确答案: 首先,如缺失值占的比重不大,可考虑删除那些有缺失值的被访者。考虑:一是剩下的数据是否还能满足统计分析的需要;二是否会使样本代表性产生偏差,从而影响到分析结果。
    其次,如果指数有多个指标,可以考虑用已有数据的平均值来代替缺失值。当指标太少时,最好不用平均值方法。
    第三,在大样本和指标较多的情况下,还可以用随机方法给缺失值赋值。如果在统计分析时还要将该指数与其他变量进行相关分析,则最好不要采用随机赋值的方法,因可能会增大相关分析中的误差。
    解析: 暂无解析

  • 第12题:

    单选题
    数据清洗的方法不包括()。
    A

    缺失值处理

    B

    噪声数据清除

    C

    一致性检查

    D

    重复数据记录处理


    正确答案: C
    解析: 暂无解析

  • 第13题:

    在SPSS中,可以用“数据”菜单的“选择个案”命令实现剔除值为0或缺失值的观测值。()

    此题为判断题(对,错)。


    参考答案:对

  • 第14题:

    缺失值处理的方法有( )。

    A. 就近插值

    B. 删除对应记录

    C. 随机插值

    D.分类插值


    参考答案ABCD

  • 第15题:

    数据加工前一般需要做数据清洗。数据清洗工作不包括( )。

    A.删除不必要的、多余的、重复的数据

    B.处理缺失的数据字段,做出特殊标记

    C.检测有逻辑错误的数据,纠正或删除

    D.修改异常数据值,使其落入常识范围


    正确答案:D

  • 第16题:

    按缺失值处理的问卷有可能使数据出现偏差的百分比例是大于()

    A5

    B10

    C15

    D20


    B

  • 第17题:

    以下属于数据预处理的是()

    • A、缺失值填充
    • B、噪声数据剔除
    • C、异常值识别
    • D、数据可视化

    正确答案:A,B,C

  • 第18题:

    缺失值的处理方法有哪些?()

    • A、用平均值填充
    • B、忽略缺失记录
    • C、以任意数据填充
    • D、用默认值填充

    正确答案:A,B,D

  • 第19题:

    dataframe对象a有’Name’和’Age’两列,运行a.drop(’Age’,axis=1)后,a中的’Age’列被删除。


    正确答案:错误

  • 第20题:

    以下对贯入法检测数据处理说法不正确的是()。

    • A、应取16个贯入深度值
    • B、剔除1个较大值和1个较小值
    • C、取12个贯入深度值进行数据处理
    • D、10个贯入深度值取平均值。

    正确答案:B,C

  • 第21题:

    问答题
    假定有三个处理器,分别带有以下不同的cache:cache1:采用直接映射方式,块大小为1个字,指令和数据的缺失率分别为4%和6%;cache2:采用直接映射方式,块大小为4个字,指令和数据的缺失率分别为2%和4%;cache3:采用2-路组相联映射方式,块大小为4个字,指令和数据的缺失率分别为2%和3%。在这些处理器上运行相同的程序,该程序的CPI为2.0,其中有一半是访存指令。若缺失损失为(块大小+6)个时钟周期,处理器1和处理器2的时钟周期都为420ps,带有cache3的处理器3的时钟周期为450ps。请问:哪个处理器因cache缺失而引起的额外开销最大?哪个处理器执行速度最快?

    正确答案: 假设所运行的程序共执行N条指令,每条访存指令仅读写一次内存数据,则在该程序执行过程中各处理器因cache缺失而引起的额外开销和执行时间计算如下。
    对于处理器1:额外开销为:N×4% + 6%×50%)×(1+6)=0.49 N个时钟周期
    执行程序所需时间为:(N×2.0 +0.49N)×420ps = 1045.8N ps
    对于处理器2:额外开销为:N×(2%+4%×50%)×(4+6)=0.40N个时钟周期
    执行程序所需时间为:(N×2.0+0.40N)×420ps=1008N ps
    对于处理器3:额外开销为:N×(2%+3%×50%)×(4+6)=0.35N个时钟周期
    执行程序所需时间为:(N×2.0+0.35N)×450ps=1057.5N ps
    由此可见,处理器1的cache缺失引起的额外开销最大,处理器2的执行速度最快。
    解析: 暂无解析

  • 第22题:

    单选题
    dataframe对象的哪个方法可以直接对含有缺失值的数据进行删除()
    A

    dropna

    B

    fillna

    C

    bfill

    D

    ffill


    正确答案: C
    解析: 暂无解析

  • 第23题:

    多选题
    缺失值的处理方法有哪些?()
    A

    用平均值填充

    B

    忽略缺失记录

    C

    以任意数据填充

    D

    用默认值填充


    正确答案: B,C
    解析: 暂无解析

  • 第24题:

    多选题
    在对回收后的调查问卷进行数据处理时,处理缺失值的办法主要是()。
    A

    用一个样本统计量的值代替缺失值

    B

    用从一个统计模型计算出来的值去代替缺失值

    C

    将有缺失值的个案删除

    D

    将有缺失值的个案保留,仅在相应的分析中做必要的删除


    正确答案: B,A
    解析: 暂无解析