多项选择题
以下描述属于数据准备阶段的是()
A.因数据来自数据仓库中多个数据表,可以经过数据采集、清理和集成,生成个针对数据挖掘目标,确定与交易行为有关的数据项集合
B.考虑样本是否具有代表性
C.为了确保各变量在分析中的地位相同,可以对数据进行中心化和标准化变换
D.检查数据的逻辑性,区分数据缺失"和"0"。根据逻辑推断某些值、寻找反常数据、评估数据是否真实
相关考题
-
单项选择题
以下关于数据挖掘描述不准确的是()
A.大数据挖掘主要基于人工智能、机器学习、模式学习、统计学等。通过对大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的模式
B.通过数据挖掘可以建立起企业整体而不是某个业务过程局部的不同类型的模型
C.目前,在很多领域尤其是在商业领域如银行、电信、电商等,数据挖掘可以解决很多问题,包括市场营销策略制定、背景分析、企业风险规避等
D.大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程 -
多项选择题
以下关于大数据流式架构的相关描述正确的有()
A.对于流式架构来说,不存在批处理,因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析
B.流数据是一组顺序、大量、快速、连续到达的数据序列。应用于网络监控、传感器网络、航空航天、气象测控和金融服务等领域。流式架构在数据接入端没有了ETL,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者,满足了用户对数据的实效性需求
C.大数据流式架构在大数据基础架构上,去掉批处理部分,从而更专注处理流式数据
D.流式架构在数据接入端没有E配,转而替换为数据通道。经过流处理加工后的数据,以消息的形式直接推送给了消费者,满足了用户对数据的实效性需求 -
单项选择题
以下关于大数据Kappa架构描述不正确的是()
A.Kappa架构在Lambda架构的基础上进行了优化,将实时和流部分进行了合并,将数据通道以消息队列进行替代,依旧以流处理为主,但是数据却在数据湖层面进行了存储
B.在Kappa架构中,如果需要进行离线分析或者我次计算的时候,不必像实时分析那样将数据湖的数据再次经过消息队列重播少次
C.Kappa架构的缺点∶实施难度相对较高,第其是在数据重播的部分
D.Kappa架构的优点∶解决了Lambda架构里面的冗余部分,以数据可重播的超凡脱俗的思想进行了设计,整个架构军常简洁
