spark报告

    xiaoxiao2024-12-29  74

    二、官网下载安装Scala:scala-2.12.8.tgz https://www.scala-lang.org/download/ tar -zxvf scala-2.12.8.tgz -C /opt/module mv scala-2.12.8 scala 测试:scala -version 启动:scala

    三、官网下载安装Spark:spark-2.4.2-bin-hadoop2.7.tgz https://www.apache.org/dyn/closer.lua/spark/spark-2.4.2/spark-2.4.2-bin-hadoop2.7.tgz 解压、重命名 启动spark ①先启动hadoop 环境 start-all.sh ②启动spark环境 进入到SPARK_HOME/sbin下运行start-all.sh /opt/module/spark/sbin/start-all.sh [注] 如果使用start-all.sh时候会重复启动hadoop配置,需要./在当前工作目录下执行命令 jps 观察进程 多出 worker 和 mater 两个进程。 查看spark的web控制页面:http://bigdata128:8080/ 显示spark的端口是7070 ③启动Spark Shell 首先,请登录Linux系统(要注意记住登录采用的用户名,本教程统一采用hadoop用户名进行登录),打开“终端”(可以在Linux系统中使用Ctrl+Alt+T组合键开启终端),进入shell命令提示符状态,然后执行以下命令进入spark-shell: cd /usr/local/spark ./bin/spark-shell …//这里省略启动过程显示的一大堆信息 scala> 此模 启动进入spark-shell需要一点时间,在进入spark-shell后,我们可能还需要到Linux文件系统中对相关目录下的文件进行编辑和操作(比如要查看spark程序执行过程生成的文件),这个无法在park-shell中完成,因此,这里再打开第二个终端,用来在Linux系统的Shell命令提示符下操作。 式用于interactive programming,先进入bin文件夹后运行:spark-shell

    ④退出Spark Shell scala> :quit

    四、使用Spark Shell编写代码 读取本地文件 cat命令会把word.txt文件的内容全部显示到屏幕上。 现有让我们切换回到第一个终端,也就是spark-shell,然后输入下面命令: 显示第一行内容 val后面的是变量textFile,而sc.textFile()中的这个textFile是sc的一个方法名称,这个方法用来加载文件数据。这两个textFile不是一个东西,不要混淆。实际上,val后面的是变量textFile,你完全可以换个变量名称,比如,val lines = sc.textFile(“file:///usr/local/spark/mycode/wordcount/word.txt”)。这里使用相同名称,就是有意强调二者的区别。 注意,要加载本地文件,必须采用“file:///”开头的这种格式。执行上上面这条命令以后,并不会马上显示结果,因为,Spark采用惰性机制,只有遇到“行动”类型的操作,才会从头到尾执行所有操作。所以,下面我们执行一条“行动”类型的语句,就可以看到结果: 读取HDFS文件 对上述hdfs根目录下f1.txt文件进行词频统计 查看结果

    五、用Scala语言编写Spark独立应用程序 见参考资料:Spark2.1.0入门:第一个Spark应用程序:WordCount 任务:编写一个Spark应用程序,对某个文件中的单词进行词频统计。 准备工作:请进入Linux系统,打开“终端”,进入Shell命令提示符状态,然后,执行如下命令新建目录: cd /usr/local/spark mkdir mycode cd mycode mkdir wordcount cd wordcount 然后,在“/usr/local/spark/mycode/wordcount”目录下新建一个包含了一些语句的文本文件word.txt,命令如下: vim word.txt 你可以在文本文件中随意输入一些单词,用空格隔开,我们会编写Spark程序对该文件进行单词词频统计。然后,按键盘Esc键退出vim编辑状态,输入“:wq”保存文件并退出vim编辑器。 六、用Java语言编写Spark独立应用程序

    最新回复(0)