linux学习笔记

xiaoxiao2024-12-15 97

Spark的安装以及配置

1、官网下载安装Scala：scala-2.12.8.tgz https://www.scala-lang.org/download/ tar -zxvf scala-2.12.8.tgz -C /opt/module mv scala-2.12.8 scala 测试：scala -version 启动：scala

2、官网下载安装Spark：spark-2.4.2-bin-hadoop2.7.tgz https://www.apache.org/dyn/closer.lua/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.7.tgz 解压、重命名启动spark ①先启动hadoop 环境 start-all.sh ②启动spark环境进入到SPARK_HOME/sbin下运行start-all.sh /opt/module/spark/sbin/start-all.sh [注] 如果使用start-all.sh时候会重复启动hadoop配置，需要./在当前工作目录下执行命令 jps 观察进程多出 worker 和 mater 两个进程。查看spark的web控制页面：http://bigdata128:8080/ 显示spark的端口是7070

Spark-shell 此模式用于interactive programming，先进入bin文件夹后运行：spark-shell spark界面如下图： 3、spark与wordcount 在以上都做好的情况下 Ctrl-c退出 1、在spark下建立一个mycode文件夹，并创建word.txt，在里面编写内容 cd /opt/module/spark mkdir mycode cd mycode mkdir wordcount cd wordcount vim word.txt hello，world，hello hello，world welcome (新建word.txt文件并编写内容，中间必须用逗号隔开)

2.进入spark运行代码 scala> val file = spark.sparkContext.textFile(“file:///opt/module/spark/mycode/wordcount/word.txt”) #文件路径

scala> val WordCounts = file.flatMap(line => line.split(",")).map((word => (word, 1))).reduceByKey(_ + _)

scala> WordCounts.collect //将计算结果保存到本地 scala> WordCounts.saveAsTextFile(“file:///opt/module/spark/mycode/wordcount/result”) //ps：再次保存不能覆盖，会报错。 3、运行结果

4、可以看出计算结果为： (hello,3) (welcome,1) (world,2) 5、退出 scala> :quit

最新回复(0)