当前位置：首页>开发>正文

spark分区原则

2023-04-26 21:52:24 互联网未知开发

spark分区原则？

spark分区原则

Spark分区原则及方法

spark分区的一个分区原则：尽可能是得分区的个数等于集群核心数目

下面我们仅讨论Spark默认的分区个数，这里分别就parallelize和textFile具体分析其默认的分区数

无论是本地模式、Standalone模式、YARN模式或Mesos模式，我们都可以通过spark.default.parallelism来配置其默认分区个数，若没有设置该值，则根据不同的集群环境确定该值

本地模式：默认为本地机器的CPU数目，若设置了local[N],则默认为N

Apache Mesos：默认的分区数为8

Standalone或YARN：默认取集群中所有核心数目的总和，或者2，取二者的较大值。对于parallelize来说，没有在方法中的指定分区数，则默认为spark.default.parallelism，对于textFile来说，没有在方法中的指定分区数，则默认为min(defaultParallelism,2)，而defaultParallelism对应的就是spark.default.parallelism。如果是从hdfs上面读取文件，其分区数为文件分片数(128MB/片)

最新文章

我的电脑为什么总是显示连接服务器超时 2024-09-14 10:54:56
usb传输超时 2024-09-14 10:54:51
华为手表接口调用超时，请重试 2024-09-14 10:54:45
python接单需要哪些知识 2024-09-14 10:54:40
怎样解决服务器链接超时 2024-09-14 10:54:34
特岗身份验证接口连接超时怎么处理 2024-09-14 10:54:29
如何解决eclipse项目名称更改导致项目无法启动 2024-08-02 07:40:43
如何解决Eclipse出现错误提示的方法呢 2024-08-02 07:40:38
Eclipse怎么导入文件夹 2024-08-02 07:40:30
2021云计算工程师必备技能 2024-08-02 07:26:19

随便看看

微信地址写冰岛 2023-05-31 22:26:01
纬度高的地方经济不发达吗 2023-05-31 22:26:18
欧洲发达国家人口排名 2023-05-31 22:26:27
主体结构为框架剪力墙的世界著名建筑 2023-05-31 22:43:23
帝国大厦是干什么用的 2023-05-31 22:43:38
昨天晚上9点多是台湾花莲地震吧台湾912地震 2023-05-31 22:44:03
大阪心斋桥公寓旅馆怎么样心斋桥哈尔顿酒店怎么样 2023-05-31 23:02:01
各国货币符号印度的常用货币是什么 2023-05-31 23:04:05
西欧建筑风格 2023-05-31 23:15:20
问谁能介绍下法国的（兰斯大教堂）的历史呢~~ 2023-05-31 23:15:28

版权声明

本站仅提供信息存储空间服务，旨在传递更多信息，不拥有所有权，不承担相关法律责任，不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请发送邮件至举报，一经查实，本站将立刻删除。

联系我

玲珑百科
QQ:
Email:

特别鸣谢

玲珑百科

Copyright © 2010-2025 玲珑百科版权所有 |