(25)大数据之spark01

    xiaoxiao2023-10-03  138

    1,spark的概述

    1.1什么是Spark(官网:http://spark.apache.org)

    ***Spark是一种快速、通用、可扩展的大数据分析引擎。 相对于Hadoop的Mapreduce,计算效果大大提升。 并且可以将数据存储到内存中 *Spark的编写 Scala>Java>Python,R *spark可以简单地使用。。。。 *你可以使用交互式的命令行。如Scala python r shells *可实现的计算模型 *离线计算 sparksql *实时计算sparksteaming *图计算graphx *机器学习mlib *可以运行在很多模型上。

    2,Spark集群的安装

    1,机器部署 准备两台以上的linux服务器 安装好jdk

    2,下载spark安装包

    上传spark-安装包到Linux上 解压安装包

    关于安装机器配置情况。 五台机器和三台机器

    注意:虽然spark是scala编写的,但是并不需要在虚拟机上安装scala,因为spark已经把scala打包进去了。但是java必须安装,因为要在jvm上运行。

    mv spark-env.sh.template spark-env.sh vi spark-env.sh

    在该配置文件中添加如下配置 export JAVA_HOME=/usr/java/jdk1.8.0_111 export SPARK_MASTER_IP=192.168.174.129

    保存退出 重命名并修改slaves.template文件

    mv slaves.template slaves vi slaves

    在该文件中添加子节点所在的位置(Worker节点) node2 node3

    保存退出 将配置好的Spark拷贝到其他节点上

    Spark集群配置完毕,目前是1个Master,2个Work,在node01上启动Spark集群

    /usr/local/spark-2.1.0-bin-hadoop2.6/sbin/start-all.sh 或者 ./start-all.sh

    启动后执行jps命令,主节点上有Master进程,其他子节点上有Work进行,登录Spark管理界面查看集群状态(主节点):http://node01:8080/

    最新回复(0)