编写Spark Streaming程序的基本步骤包括:
A、通过创建输入DStream(Input Dstream)来定义输入源
B、通过对DStream应用转换操作和输出操作来定义流计算
C、调用StreamingContext对象的start()方法来开始接收数据和处理流程
D、通过调用StreamingContext对象的awaitTermination()方法来等待流计算进程结束
A、通过创建输入DStream(Input Dstream)来定义输入源
B、通过对DStream应用转换操作和输出操作来定义流计算
C、调用StreamingContext对象的start()方法来开始接收数据和处理流程
D、通过调用StreamingContext对象的awaitTermination()方法来等待流计算进程结束
B.Spark提供的数据集操作类型不仅限于Map和Reduce,大致分为:Transformations和Actions两大类
C.Spark程序由Python语言进行编写,不支持Java语言进行的程序编写
D.Spark把中间数据放到内存中,迭代运算效率高
A、在数据的基础上,通过算法构建出模型并对模型进行评估
B、评估的性能如果达到要求,就用该模型来测试其他的数据
C、评估的性能如果达不到要求,就要调整算法来重新建立模型,再次进行评估
D、通过算法构建出的模型不需要评估就可以用于其他数据的测试
A、流水线将多个工作流阶段(转换器和评估器)连接在一起,形成机器学习的工作流,并获得结果输出
B、要构建一个机器学习流水线,首先需要定义流水线中的各个PipelineStage
C、PipelineStage称为工作流阶段,包括转换器和评估器,比如指标提取和转换模型训练等
D、流水线构建好以后,就是一个转换器(Transformer)
A、评估器是学习算法或在训练数据上的训练方法的概念抽象
B、在机器学习流水线里,评估器通常是被用来操作 DataFrame数据并生成一个转换器
C、评估器实现了方法transfrom(),它接受一个DataFrame并产生一个转换器
D、评估器实现了方法fit(),它接受一个DataFrame并产生一个转换器
A、转换器是一种可以将一个DataFrame转换为另一个DataFrame的算法
B、技术上,转换器实现了一个方法fit(),它通过附加一个或多个列,将一个DataFrame转换为另一个DataFrame
C、一个模型就是一个转换器,它把一个不包含预测标签的测试数据集DataFrame打上标签,转化成另一个包含预测标签的 DataFrame
D、技术上,转换器实现了一个方法transform(),它通过附加一个或多个列,将一个DataFrame转换为另一个DataFrame
A、传统的机器学习算法,由于技术和单机存储的限制,大多只能在少量数据上使用
B、利用MapReduce框架在全量数据上进行机器学习,这在一定程度上解决了统计随机性的问题,提高了机器学习的精度
C、MapReduce可以高效支持迭代计算
D、Spark无法高效支持迭代计算
A、MLlib库从1.2版本以后分为两个包:spark.mllib和spark.ml
B、spark.mllib包含基于DataFrame的原始算法API
C、spark.mllib包含基于RDD的原始算法API
D、spark.ml则提供了基于RDD的、高层次的API
A、DataFrame可容纳各种数据类型,与RDD数据集相比,它包含了模式(schema)信息,类似于传统数据库中的二维表格
B、流水线用DataFrame来存储源数据
C、转换器(Transformer)是一种可以将一个DataFrame转换为另一个DataFrame的算法
D、评估器(Estimator)是一种可以将一个DataFrame转换为另一个DataFrame的算法
为了保护您的账号安全,请在“简答题”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!