即将发布的 Apache Spark 2.4 都有哪些新功能过往记忆大数据 过往记忆大数据 本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版...

即将发布的 Apache Spark 2.4 都有哪些新功能
过往记忆大数据 过往记忆大数据
本文来自于2018年09月19日在 Adobe Systems Inc 举行的 Apache Spark Meetup。
即将发布的 Apache Spark 2.4 版本是 2.x 系列的第五个版本。 本文对 Apache Spark 2.4 的主要功能和增强功能进行了概述。
- 新的调度模型(Barrier Scheduling),使用户能够将分布式深度学习训练恰当地嵌入到 Spark 的 stage 中,以简化分布式训练工作流程。
- 添加了35个高阶函数,用于在 Spark SQL 中操作数组/map。
- 新增一个新的基于 Databricks 的 spark-avro 模块的原生 AVRO 数据源。
- PySpark 还为教学和可调试性的所有操作引入了热切的评估模式(eager evaluation mode)。
- Spark on K8S 支持 PySpark 和 R ,支持客户端模式(client-mode)。
- Structured Streaming 的各种增强功能。 例如,连续处理(continuous processing)中的有状态操作符。
- 内置数据源的各种性能改进。 例如,Parquet 嵌套模式修剪(schema pruning)。
- 支持 Scala 2.12。
织梦狗教程
本文标题为:即将发布的 Apache Spark 2.4 都有哪些新功能


基础教程推荐
猜你喜欢
- Centos 安装Django2.1 2023-09-24
- Docker容器操作方法详解 2022-11-13
- windows环境下apache-apollo服务器搭建 2023-09-10
- RFO SIG之openEuler AWS AMI 制作详解 2022-12-28
- P3 利用Vulnhub复现漏洞 - Apache SSI 远程命令执行漏洞 2023-09-10
- Apache Kafka 2.5 稳定版发布,新特性抢先看 2023-09-11
- Apache CarbonData 1.0.0发布及其新特性介绍 2023-09-11
- 为Win2003服务器打造铜墙铁壁的方法步骤 2022-09-01
- Centos7 nginx的安装以及开机自启动的设置 2023-09-22
- 通过StatefulSet部署有状态服务应用实现方式 2022-10-01