启动Apache Spark
运行下面的命令启动Apache Spark
start-master.sh
接下来,通过运行下面的命令来启动Spark工作进程。
start-slave.sh spark://localhost:7077
浏览器打开:
http://localhost:8080
如果要通过其命令shell连接到spark,请运行以下命令:
spark-shell
上面的命令将启动Spark shell。
Spark session available as 'spark'. Welcome to ____ __ /__/__ ___ _____//__ _\ \/_ \/_ `/__/'_/ /___/.__/_,_/_//_/_\ version 2.4.6 /_/ Using Scala version 2.11.12 (OpenJDK 64-Bit Server VM, Java 11.0.10) Type in expressions to have them evaluated. Type :help for more information. scala>
安装Apache Spark
运行以下命令下载最新版本的Apache Spark。
cd /tmp wget https://archive.apache.org/dist/spark/spark-2.4.6/spark-2.4.6-bin-hadoop2.7.tgz
接下来,提取下载的文件并将其移动到/opt目录。
tar -xvzf spark-2.4.6-bin-hadoop2.7.tgz sudo mv spark-2.4.6-bin-hadoop2.7 /opt/spark
创建环境变量
nano ~/.bashrc
然后在文件底部添加下面行并保存。
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
运行以下命令使环境变量更改生效。
source ~/.bashrc
安装Java JDK.
Apache Spark需要Java JDK。
在Ubuntu中,下面的命令可以安装最新版本。
sudo apt update sudo apt install default-jdk
安装后,运行以下命令以验证已安装的Java 版本。
java --version
输出:
openjdk 11.0.10 2021-01-19 OpenJDK Runtime Environment (build 11.0.10+9-Ubuntu-0ubuntu1.20.04) OpenJDK 64-Bit Server VM (build 11.0.10+9-Ubuntu-0ubuntu1.20.04, mixed mode, sharing)
安装scala
我们还需要运行Apache Spark的一个包是Scala。
要在Ubuntu中安装,只需运行以下命令:
sudo apt install scala
要验证安装Scala的版本,请运行以下命令:
scala -version
输出:
Scala code runner version 2.11.12 -- Copyright 2002-2015, LAMP/EPFL
日期:2020-07-07 20:57:21 来源:oir作者:oir