(25)大数据之spark01

xiaoxiao2023-10-03 144

1，spark的概述

1.1什么是Spark（官网：http://spark.apache.org）

***Spark是一种快速、通用、可扩展的大数据分析引擎。相对于Hadoop的Mapreduce，计算效果大大提升。并且可以将数据存储到内存中 *Spark的编写 Scala>Java>Python,R *spark可以简单地使用。。。。 *你可以使用交互式的命令行。如Scala python r shells *可实现的计算模型 *离线计算 sparksql *实时计算sparksteaming *图计算graphx *机器学习mlib *可以运行在很多模型上。

2，Spark集群的安装

1，机器部署准备两台以上的linux服务器安装好jdk

2，下载spark安装包

上传spark-安装包到Linux上解压安装包

关于安装机器配置情况。五台机器和三台机器

注意：虽然spark是scala编写的，但是并不需要在虚拟机上安装scala，因为spark已经把scala打包进去了。但是java必须安装，因为要在jvm上运行。

mv spark-env.sh.template spark-env.sh vi spark-env.sh

在该配置文件中添加如下配置 export JAVA_HOME=/usr/java/jdk1.8.0_111 export SPARK_MASTER_IP=192.168.174.129

保存退出重命名并修改slaves.template文件

mv slaves.template slaves vi slaves

在该文件中添加子节点所在的位置（Worker节点） node2 node3

保存退出将配置好的Spark拷贝到其他节点上

Spark集群配置完毕，目前是1个Master，2个Work，在node01上启动Spark集群

/usr/local/spark-2.1.0-bin-hadoop2.6/sbin/start-all.sh 或者 ./start-all.sh

启动后执行jps命令，主节点上有Master进程，其他子节点上有Work进行，登录Spark管理界面查看集群状态（主节点）：http://node01:8080/

最新回复(0)