当前位置:首页 > 主机教程 > 正文内容

在 Ubuntu 20.04 上安装 Apache Spark 教程

2个月前 (04-19)主机教程129
locvps.jpg

本文介绍一下如何在 Ubuntu 20.04 Linux 操作系统上安装 Apache Spark 教程,包括安装 Java、安装 Apache Spark、以及通过 Apache Spark Web 界面访问的教程。Apache Spark 是一个用于大规模数据处理的开源、通用、多语言分析引擎。通过利用集群中的 RAM 对大量数据执行快速数据查询,它可以在单个和多个节点上工作。它提供批处理数据处理和实时流式传输,并支持 Python、SQL、Scala、Java 或 R 等语言的高级 API。该框架提供内存技术,使其能够将查询和数据直接存储在集群节点的主存储器。

Apache Spark 前几年在学术界是非常火的,最近几年可能不是那么火了,因为能研究的问题似乎都已经被研究的差不多了,最近都开始研究新的分布式框架了。

一、安装 Java

更新系统包:

$ sudo apt update

安装 Java:

$ sudo apt install default-jdk -y

确认 Java 安装:

$ java -version

二、安装 Apache Spark

安装必要的包:

$ sudo apt install curl mlocate git scala -y

下载 Apache Spark,最新版可以在这里下载:https://spark.apache.org/downloads.html

$ curl -O https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz

解压 Spark 安装包:

$ sudo tar xvf spark-3.2.0-bin-hadoop3.2.tgz

创建安装目录:

$ sudo mkdir /opt/spark

移动文件到安装目录:

$ sudo mv spark-3.2.0-bin-hadoop3.2/* /opt/spark

修改目录权限:

$ sudo chmod -R 777 /opt/spark

编辑 bashrc 配置文件,将 Apache Spark 安装目录添加到系统路径:

$ sudo nano ~/.bashrc

将下面两行代码添加到文件最后:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存文件并使之生效:

$ source ~/.bashrc

启动独立主服务器:

$ start-master.sh

通过访问 http://ServerIPaddress:8080 从仪表板中查找您的服务器主机名。它可能看起来像这样:

URL: spark://my-server-development:7077

启动 Apache Spark 工作进程。使用您的服务器主机名更改 spark://ubuntu:7077

$ start-slave.sh spark://ubuntu:7077

三、访问 Apache Spark Web 界面

转到浏览器地址栏以访问 Web 界面并输入 http://ServerIPaddress:8080 以访问 Web 安装向导。例如:

http://192.0.2.10:8080

至此,您已在服务器上安装了 Apache Spark。您现在可以访问主仪表板,开始管理您的集群。

四、搬瓦工新手教程和优惠套餐

搬瓦工推荐方案

温馨提醒 如果您有选择困难症,直接选中间的 CN2 GIA-E方案,季付 $49.99,多达 12 个机房任意切换
方案 内存 CPU 硬盘 流量/月 带宽 机房 价格 购买
CN2
(最便宜)
1GB 1核 20GB 1TB 1Gbps DC3 CN2
DC8 ZNET
$49.99/年 购买
CN2 2GB 1核 40GB 2TB 1Gbps $52.99/半年
$99.99/年
购买
CN2 GIA-E
(最推荐)
1GB 2核 20GB 1TB 2.5Gbps DC6 CN2 GIA-E
DC9 CN2 GIA
日本软银 JPOS_1
荷兰 EUNL_9
$49.99/季度
$169.99/年
购买
CN2 GIA-E 2GB 3核 40GB 2TB 2.5Gbps $89.99/季度
$299.99/年
购买
HK 2GB 2核 40GB 0.5TB 1Gbps 中国香港 CN2 GIA $89.99/月
$899.99/年
购买
HK 4GB 4核 80GB 1TB 1Gbps $155.99/月
$1559.99/年
购买
TOKYO 2GB 2核 40GB 0.5TB 1.2Gbps 日本东京 CN2 GIA $89.99/月
$899.99/年
购买
TOKYO 4GB 4核 80GB 1TB 1.2Gbps $155.99/月
$1559.99/年
购买

选择建议:

  • 入门:洛杉矶 CN2 套餐,目前最便宜,可选 CN2 GT 机房,入门之选。
  • 推荐:洛杉矶 CN2 GIA-E 套餐,速度超快,可选机房多(DC6、DC9、日本软银、荷兰联通等),性价比最高。
  • 高端:香港 CN2 GIA 套餐,价格较高,但是无可挑剔。东京 CN2 GIA 套餐也是非常不错的高端选择。
rak740.jpg

免责声明:本站发布的内容(图片、视频和文字)本网站内容采集于网络互联网转载等其它媒体和分享为主,内容观点不代表本网站立场,如侵犯了原作者的版权,请告知一经查实,将立刻删除涉嫌侵权内容。

本文链接:https://www.teword.com/news/60.html

“在 Ubuntu 20.04 上安装 Apache Spark 教程” 的相关文章

翼龙云YilongCloud:腾讯云国际版注册开户流程详解

翼龙云YilongCloud:腾讯云国际版注册开户流程详解

作为国内三大云厂商之一的腾讯云,相信很多人都不会陌生,我们使用的微信、QQ等都是依托于腾讯云的服务器,实力自然是不容小觑,而腾讯云近年来也是在海外市场不断布局,影响力显著增长,不管是个人建站还是企业建...

linux:41合1的一键DD脚本

linux:41合1的一键DD脚本

请完整阅读脚本说明,不同厂商服务器需要使用不同的安装镜像。 相关链接 作者网站:https://git.beta.gs/ GitHub:https://github.com/fcurrk/r...

Ubuntu Linxu设置及删除SWAP虚拟内存详细教程

Ubuntu Linxu设置及删除SWAP虚拟内存详细教程

设置SWAP 使用free -m命令查看当前系统Swap设置情况; root@SunPma ~ # free -m // 查看当前Swap设置情况(可以看到当前系统并没有虚拟内存)...

Linux一键安装可视化桌面,支持浏览器及RDP访问

Linux一键安装可视化桌面,支持浏览器及RDP访问

说明 支持:Ubuntu 18.04/20.04 Debian 10 CentOS 7/8; 内存:Ubuntu/Debian 1G以上 CentO...

解决Centos7的SSH登录慢问题

解决Centos7的SSH登录慢问题

Centos7的ssh登录很慢怎么回事?OpenSSH在用户登录的时候会验证IP,它根据用户的IP使用反向DNS找到主机名,再使用DNS找到IP地址,最后匹配一下登录的IP是否合法。如果客户机的IP没...

#免费DirectAdmin授权#EtherNetservers:美国独立服务器,E3-1240 v2/16G内存/256 GB SSD硬盘/不限流量/1Gbps带宽,$79.95/月起

#免费DirectAdmin授权#EtherNetservers:美国独立服务器,E3-1240 v2/16G内存/256 GB SSD硬盘/不限流量/1Gbps带宽,$79.95/月起

EtherNetservers怎么样,EtherNetservers是一家成立于2013年9月的国外主机商,提供虚拟主机、VPS和独立服务器租用的产品,数据中心包括美国洛杉矶、新泽西和杰克逊维尔,其中...