博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
【Big Data 每日一题20180831】Spark 的 task 数据 locality?
阅读量:4216 次
发布时间:2019-05-26

本文共 425 字,大约阅读时间需要 1 分钟。

在Spark Application Web UI的 Stages tag 上,tasks 的一些信息,其中 Locality Level 一栏的值可以有

  • PROCESS_LOCAL: 数据在同一个 JVM 中,即同一个 executor 上。这是最佳数据 locality。

  • NODE_LOCAL: 数据在同一个节点上。比如数据在同一个节点的另一个 executor上;或在 HDFS 上,恰好有 block 在同一个节点上。速度比 PROCESS_LOCAL 稍慢,因为数据需要在不同进程之间传递或从文件中读取

  • NO_PREF: 数据从哪里访问都一样快,不需要位置优先

  • RACK_LOCAL: 数据在同一机架的不同节点上。需要通过网络传输数据及文件 IO,比 NODE_LOCAL 慢

  • ANY: 数据在非同一机架的网络上,速度最慢

locality 说明:https://www.jianshu.com/p/05034a9c8cae/
源码解读:

转载地址:http://tyvmi.baihongyu.com/

你可能感兴趣的文章
关于MySQL 通用查询日志和慢查询日志分析
查看>>
关于性能测试几个重要知识点
查看>>
如何用JMeter对MySQL数据库进行压测?
查看>>
Linux 性能瓶颈阈值分析
查看>>
Windows gnuplot 画图教程
查看>>
为何再次强调JDK的安装?
查看>>
集群间多台机器SSH免密码登录(两种方法实现)
查看>>
JMeter中引入外部的JAR包给bean shell 使用(提供三种方法)
查看>>
Linux下JMeter脚本如何运行?
查看>>
JMeter的堆大小如何设置?
查看>>
性能分析、调优的概念及手段
查看>>
如何完成一个严谨的权限管理系统
查看>>
Java 代码中如何获取JVM相关的信息?
查看>>
Eclipse Memory Analyzee Java内存分析工具安装教程和使用
查看>>
如何判断JVM是运行在Client模式还是Server模式?
查看>>
关于JVM 的GC收集器
查看>>
JVM 中的内存如何分配及相应的命令设置
查看>>
如何利用tcpdump来确定外部设备是否连接到服务器?
查看>>
Linux 中ps 和 top命令详解
查看>>
Linux中如何防止一个Shell脚本被重复执行?
查看>>