组件 (149) 查找 相同
在Standalone模式中即为Master主节点,控制整个集群,监控worker,在YARN模式中为资源管理器。

工作节点(从节点),负责控制计算节点,启动Executor或者Driver。 在YARN模式中为NodeManager,负责计算节点的控制。

负责运行Application的main()函数并创建SparkContext。

执行器,在worker node上执行任务的组件、用于启动线程池运行任务。 每个Application拥有独立的一组Executor来执行任务。

整个应用的上下文环境,控制应用的生命周期。

RDD(Resillient Distributed Dataset):弹性分布式数据集。 Spark的核心,主要是数据抽象,是Spark的基本计算单元。

根据作业(Task)构建基于Stage的DAG,并提交Stage给TaskScheduler。

将任务(Task)分发给Executor执行。

SparkEnv是Spark的执行环境对象,其中包括与众多Executor执行相关的对象。 Spark对任务的计算都依托于Executor的能力,所有的Executor都有自己的Spark的执行环境SparkEnv。