判断题
计划执行(Execute),按Operation→Data Source→Result的次序来进行的,在执行过程有时候甚至不需要读取物理表就可以返回结果,比如重新运行刚运行过的SQL语句,可能直接从数据库的缓冲池中获取返回结果。
正确(↓↓↓ 点击‘点击查看答案’看答案解析 ↓↓↓)
判断题 Spark SQL的表数据在内存中存储不是采用原生态的JVM对象存储方式,而是采用内存列存储。
判断题 在对Spark的操作中,定义纯Python方法会降低应用程序的速度,因为Spark需要在Python解释器和JVM之间连续切换。所以要尽可能的使用内置的Spark算子。
判断题 RDD中的批量操作,运行时将根据数据存放的位置来调度任务,可对比与MapReduce中的数据本地化读取特点。