如何在Windows 10上安装Apache Spark？操作步骤指南

2021年11月20日19:55:25 发表评论 1,697 次浏览

Windows 10 Apache Spark安装教程介绍

Apache Spark 是一个开源框架，可处理来自多个源的大量流数据。Spark 用于具有机器学习应用程序、数据分析和图形并行处理的分布式计算。

如何在Windows上安装Apache Spark？本指南将向你展示如何在 Windows 10 上安装 Apache Spark并测试安装。

先决条件

运行 Windows 10 的系统
具有管理员权限的用户帐户（安装软件、修改文件权限和修改系统路径所需）
命令提示符或 Powershell
提取 .tar 文件的工具，例如 7-Zip

在 Windows 上安装 Apache Spark

Windows 10如何安装Apache Spark？对于新手用户来说，在 Windows 10 上安装 Apache Spark 似乎很复杂，但是这个简单的教程会让你开始使用。如果你已经安装了 Java 8 和 Python 3，则可以跳过前两步。

第 1 步：安装 Java 8

Apache Spark 需要 Java 8。你可以使用命令提示符检查是否安装了 Java。

通过单击开始> 键入cmd > 单击命令提示符打开命令行。

在命令提示符中键入以下命令：

java -version

如果安装了 Java，它将响应以下输出：

你的版本可能有所不同。第二个数字是 Java 版本——在本例中是 Java 8。

如果你没有安装 Java：

1. 打开浏览器窗口，并导航到https://java.com/en/download/。

2. 单击Java 下载按钮并将文件保存到你选择的位置。

3. 下载完成后双击该文件以安装 Java。

注意：在撰写本文时，最新的 Java 版本为 1.8.0_251。安装更高版本仍然有效。此过程只需要 Java 运行时环境 (JRE) – 不需要完整的开发工具包 (JDK)。JDK 的下载链接是https://www.oracle.com/java/technologies/javase-downloads.html。

第 2 步：安装 Python

1. 要安装 Python 包管理器，请在 Web 浏览器中导航到https://www.python.org/。

2. 将鼠标悬停在下载菜单选项上，然后单击Python 3.8.3。3.8.3 是撰写本文时的最新版本。

3. 下载完成后，运行该文件。

4. 在第一个设置对话框底部附近，勾选Add Python 3.8 to PATH。选中另一个框。

5. 接下来，单击自定义安装。

6. 你可以在此步骤中选中所有复选框，也可以取消选中你不想要的选项。

7. 单击下一步。

8. 选择为所有用户安装框，其他框保持原样。

9. 在自定义安装位置下，单击浏览并导航到 C 盘。添加一个新文件夹并将其命名为Python。

10. 选择该文件夹并单击确定。

11. 点击安装，让安装完成。

12. 安装完成后，单击底部的禁用路径长度限制选项，然后单击关闭。

13. 如果你打开了命令提示符，请重新启动它。通过检查 Python 版本来验证安装：

python --version

输出应该打印Python 3.8.3。

注意：有关如何在 Windows 上安装 Python 3 或如何解决潜在问题的详细说明，请参阅我们的在 Windows 上安装 Python 3指南。

第 3 步：Windows 10如何安装Apache Spark - 下载安装包

1. 打开浏览器并导航到https://spark.apache.org/downloads.html。

2. 在下载 Apache Spark标题下，有两个下拉菜单。使用当前的非预览版本。

在我们的例子中，在选择 Spark 版本下拉菜单中选择2.4.5 (Feb 05 2020)。
在第二个下拉选择包类型中，保留选择Pre-built for Apache Hadoop 2.7。

3. 点击spark-2.4.5-bin-hadoop2.7.tgz 链接。

4. 加载镜像列表的页面，你可以在其中查看要下载的不同服务器。从列表中选择任何一个并将文件保存到你的下载文件夹。

步骤 4：验证 Spark 软件文件 - Windows 10 Apache Spark安装教程

1. 通过检查文件的校验和来验证下载的完整性。这可确保你使用未更改、未损坏的软件。

2. 导航回Spark 下载页面并打开校验和链接，最好在新选项卡中。

3.接下来，打开命令行并输入以下命令：

certutil -hashfile c:\users\username\Downloads\spark-2.4.5-bin-hadoop2.7.tgz SHA512

4.将用户名更改为你的用户名。系统会显示一个长字母数字代码以及消息Certutil: -hashfile completed successfully。

5. 将代码与你在新浏览器选项卡中打开的代码进行比较。如果它们匹配，则你的下载文件未损坏。

第 5 步：安装 Apache Spark

如何在Windows上安装Apache Spark？安装 Apache Spark 涉及将下载的文件解压缩到所需位置。

1.在 C: 驱动器的根目录中创建一个名为Spark的新文件夹。从命令行，输入以下内容：

cd \

mkdir Spark

2. 在资源管理器中，找到你下载的 Spark 文件。

3. 右键单击该文件并使用系统上的工具（例如 7-Zip）将其解压缩到C:\Spark。

4. 现在，你的C:\Spark文件夹中有一个新文件夹spark-2.4.5-bin-hadoop2.7，其中包含必要的文件。

第 6 步：添加 winutils.exe 文件

为你下载的 Spark 安装的底层 Hadoop 版本下载winutils.exe文件。

1. 导航到此 URL https://github.com/cdarlint/winutils并在bin文件夹中找到winutils.exe并单击它。

2. 找到右侧的下载按钮下载文件。

3. 现在，使用 Windows 资源管理器或命令提示符在 C 上创建新文件夹Hadoop 和bin。

4. 将 winutils.exe 文件从 Downloads 文件夹复制到C:\hadoop\bin。

步骤 7：配置环境变量

Windows 10如何安装Apache Spark？在 Windows 中配置环境变量会将 Spark 和 Hadoop 位置添加到你的系统 PATH。它允许你直接从命令提示符窗口运行 Spark shell。

1. 单击开始并键入environment。

2. 选择标记为Edit the system environment variables的结果。

3. 系统属性对话框出现。在右下角，单击环境变量，然后在下一个窗口中单击新建。

4. 对于变量名称，输入SPARK_HOME。

5. 对于变量值，键入C:\Spark\spark-2.4.5-bin-hadoop2.7，然后单击确定。如果你更改了文件夹路径，请改用该路径。

6. 在顶部框中，单击路径条目，然后单击编辑。编辑系统路径时要小心。避免删除列表中已有的任何条目。

7. 你应该会在左侧看到一个带有条目的框。在右侧，单击新建。

8. 系统高亮显示新行。输入 Spark 文件夹的路径C:\Spark\spark-2.4.5-bin-hadoop2.7\bin。我们建议使用%SPARK_HOME%\bin以避免路径可能出现的问题。

9. 对 Hadoop 和 Java 重复此过程。

对于 Hadoop，变量名是HADOOP_HOME ，值使用你之前创建的文件夹的路径：C:\hadoop。将C:\hadoop\bin添加到Path 变量字段，但我们建议使用%HADOOP_HOME%\bin。
对于 Java，变量名是JAVA_HOME，值使用 Java JDK 目录的路径（在我们的例子中是C:\Program Files\Java\jdk1.8.0_251）。

10. 单击确定关闭所有打开的窗口。

注意：通过重新启动命令提示符来应用更改。如果这不起作用，你将需要重新启动系统。

第 8 步：启动 Spark

1. 如何在Windows上安装Apache Spark？使用右键单击并以管理员身份运行打开一个新的命令提示符窗口：

2. 要启动 Spark，请输入：

C:\Spark\spark-2.4.5-bin-hadoop2.7\bin\spark-shell

如果正确设置环境路径，则可以键入spark-shell以启动 Spark。

3. 系统应显示多行指示应用程序的状态。你可能会看到 Java 弹出窗口。选择允许访问以继续。

最后，会出现 Spark 徽标，并且提示会显示Scala shell。

4., 打开网页浏览器并导航到http://localhost:4040/。

5. 你可以将localhost替换为你的系统名称。

6. 你应该会看到一个 Apache Spark shell Web UI。下面的示例显示了Executors页面。

7. 要退出 Spark 并关闭 Scala shell，请ctrl-d 在命令提示符窗口中按。

注意：如果你安装了 Python，则可以使用 Python 使用以下命令运行 Spark：

pyspark

使用 quit() 退出。

Windows 10 Apache Spark安装教程：测试Spark

Windows 10如何安装Apache Spark？在本例中，我们将启动 Spark shell 并使用 Scala 读取文件的内容。你可以使用现有文件，例如Spark 目录中的README文件，也可以创建自己的文件。我们用一些文本创建了pnaptest。

1. 打开命令提示符窗口并导航到要使用的文件所在的文件夹，然后启动 Spark shell。

2. 首先，用文件名声明一个在 Spark 上下文中使用的变量。如果有，请记住添加文件扩展名。

val x =sc.textFile("pnaptest")

3. 输出显示已创建 RDD。然后，我们可以通过使用此命令调用操作来查看文件内容：

x.take(11).foreach(println)

如何在Windows上安装Apache Spark？此命令指示 Spark 从你指定的文件中打印 11 行。要对该文件执行操作（值 x），请添加另一个值y，并进行映射转换。

4. 例如，你可以使用以下命令反向打印字符：

val y = x.map(_.reverse)

5. 系统创建与第一个相关的子 RDD。然后，指定要从值y打印多少行：

y.take(11).foreach(println)

输出以相反的顺序打印pnaptest文件的11 行。

完成后，使用ctrl-d.

Windows 10 Apache Spark安装教程结论

Windows 10如何安装Apache Spark？你现在应该在 Windows 10 上安装了 Apache Spark，并安装了所有依赖项。开始在你的 Windows 环境中运行 Spark 实例。

我们的建议是还可以了解更多有关Spark DataFrame是什么、其功能以及在收集数据时如何使用 Spark DataFrame 的信息。