启动Apache Spark

运行下面的命令启动Apache Spark

start-master.sh

接下来,通过运行下面的命令来启动Spark工作进程。

start-slave.sh spark://localhost:7077

浏览器打开:

http://localhost:8080

如果要通过其命令shell连接到spark,请运行以下命令:

spark-shell

上面的命令将启动Spark shell。

Spark session available as 'spark'.
Welcome to
      ____              __
    /__/__  ___ _____//__
    _\ \/_ \/_ `/__/'_/
   /___/.__/_,_/_//_/_\   version 2.4.6
      /_/

Using Scala version 2.11.12 (OpenJDK 64-Bit Server VM, Java 11.0.10)
Type in expressions to have them evaluated.
Type :help for more information.
scala>

安装Apache Spark

运行以下命令下载最新版本的Apache Spark。

cd /tmp
wget https://archive.apache.org/dist/spark/spark-2.4.6/spark-2.4.6-bin-hadoop2.7.tgz

接下来,提取下载的文件并将其移动到/opt目录。

tar -xvzf spark-2.4.6-bin-hadoop2.7.tgz
sudo mv spark-2.4.6-bin-hadoop2.7 /opt/spark

创建环境变量

nano ~/.bashrc

然后在文件底部添加下面行并保存。

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

运行以下命令使环境变量更改生效。

source ~/.bashrc
如何在Ubuntu上安装Apache Spark

安装Java JDK.

Apache Spark需要Java JDK。
在Ubuntu中,下面的命令可以安装最新版本。

sudo apt update
sudo apt install default-jdk

安装后,运行以下命令以验证已安装的Java 版本。

java --version

输出:

openjdk 11.0.10 2021-01-19
OpenJDK Runtime Environment (build 11.0.10+9-Ubuntu-0ubuntu1.20.04)
OpenJDK 64-Bit Server VM (build 11.0.10+9-Ubuntu-0ubuntu1.20.04, mixed mode, sharing)

安装scala

我们还需要运行Apache Spark的一个包是Scala。
要在Ubuntu中安装,只需运行以下命令:

sudo apt install scala

要验证安装Scala的版本,请运行以下命令:

scala -version

输出:

Scala code runner version 2.11.12 -- Copyright 2002-2015, LAMP/EPFL
日期:2020-07-07 20:57:21 来源:oir作者:oir