Wie man das Apache Spark Cluster Computing Framework unter Debian 10 installiert

Apache Spark ist ein kostenloses und quelloffenes Cluster-Computing-Framework für die Analyse, das maschinelle Lernen und die Graphenverarbeitung großer Datenmengen. Spark wird mit mehr als 80 High-Level-Operatoren geliefert, mit denen Sie parallele Anwendungen erstellen und interaktiv aus der Scala-, Python-, R- und SQL-Shell verwenden können. Es handelt sich um eine blitzschnelle, speicherinterne Datenverarbeitungsmaschine, die speziell für die Datenwissenschaft entwickelt wurde. Sie bietet eine Vielzahl von Funktionen, darunter Geschwindigkeit, Fehlertoleranz, Echtzeit-Datenstromverarbeitung, In-Memory-Computing, erweiterte Analysefunktionen und vieles mehr.

In diesem Tutorial werden wir Ihnen zeigen, wie Sie Apache Spark auf einem Debian-10-Server installieren.

Voraussetzungen

  • Ein Server, auf dem Debian 10 mit 2 GB RAM läuft.
  • Auf Ihrem Server ist ein Root-Passwort konfiguriert.

Erste Schritte

Bevor Sie beginnen, wird empfohlen, Ihren Server mit der neuesten Version zu aktualisieren. Sie können ihn mit folgendem Befehl aktualisieren:

apt-get update -y
 apt-get upgrade -y

Sobald Ihr Server aktualisiert ist, starten Sie ihn neu, um die Änderungen zu implementieren.

Java installieren

Apache Spark ist in der Sprache Java geschrieben. Sie müssen also Java in Ihrem System installieren. Standardmäßig ist die neueste Version von Java im Standard-Repository von Debian 10 verfügbar. Sie können sie mit dem folgenden Befehl installieren:

apt-get install default-jdk -y

Nachdem Sie Java installiert haben, überprüfen Sie die installierte Version von Java mit dem folgenden Befehl:

java --version

Sie sollten die folgende Ausgabe erhalten:

openjdk 11.0.5 2019-10-15
OpenJDK Runtime Environment (build 11.0.5+10-post-Debian-1deb10u1)
OpenJDK 64-Bit Server VM (build 11.0.5+10-post-Debian-1deb10u1, mixed mode, sharing)

Apache Spark herunterladen

Zuerst mÃ?ssen Sie die neueste Version des Apache Spark von seiner offiziellen Website herunterladen. Zum Zeitpunkt des Verfassens dieses Artikels ist die neueste Version von Apache Spark 3.0. Sie können sie mit dem folgenden Befehl in das Verzeichnis /opt herunterladen:

cd /opt
 wget http://apachemirror.wuchna.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz

Sobald der Download abgeschlossen ist, extrahieren Sie die heruntergeladene Datei mit dem folgenden Befehl:

tar -xvzf spark-3.0.0-preview2-bin-hadoop2.7.tgz

Als nächstes benennen Sie das extrahierte Verzeichnis wie unten gezeigt in Spark um:

mv spark-3.0.0-preview2-bin-hadoop2.7 spark

Als Nächstes müssen Sie die Umgebung für Spark festlegen. Sie können dies tun, indem Sie die Datei ~/.bashrc bearbeiten:

nano ~/.bashrc

Fügen Sie die folgenden Zeilen am Ende der Datei hinzu:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Speichern und schließen Sie die Datei, wenn Sie fertig sind. Aktivieren Sie dann die Umgebung mit dem folgenden Befehl:

source ~/.bashrc

Starten Sie den Master-Server

Sie können jetzt den Master-Server mit dem folgenden Befehl starten:

start-master.sh

Sie sollten die folgende Ausgabe erhalten:

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out

Standardmäßig hört Apache Spark auf dem Port 8080. Sie können dies mit dem folgenden Befehl überprüfen:

netstat -ant | grep 8080

Ausgabe:

tcp6       0      0 :::8080                 :::*                    LISTEN

Öffnen Sie nun Ihren Webbrowser und geben Sie die URL http://server-ip-address:8080 ein. Sie sollten die folgende Seite sehen:

Apache Spark

Bitte notieren Sie sich die Spark URL „spark://debian10:7077“ aus dem obigen Bild. Dies wird verwendet, um den Spark-Worker-Prozess zu starten.

Spark-Worker-Prozess starten

Jetzt können Sie den Spark-Worker-Prozess mit dem folgenden Befehl starten:

start-slave.sh spark://debian10:7077

Sie sollten die folgende Ausgabe erhalten:

starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out

Zugriff auf Spark Shell

Spark Shell ist eine interaktive Umgebung, die eine einfache Möglichkeit bietet, die API zu erlernen und Daten interaktiv zu analysieren. Sie können mit dem folgenden Befehl auf die Spark-Shell zugreifen:

spark-shell

Sie sollten die folgende Ausgabe sehen:

WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/opt/spark/jars/spark-unsafe_2.12-3.0.0-preview2.jar) to constructor java.nio.DirectByteBuffer(long,int)
WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
19/12/29 15:53:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://debian10:4040
Spark context available as 'sc' (master = local[*], app id = local-1577634806690).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.0-preview2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.5)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

Von hier aus können Sie lernen, wie Sie Apache Spark schnell und bequem optimal nutzen können.

Wenn Sie Spark Master- und Slave-Server stoppen möchten, führen Sie die folgenden Befehle aus:

stop-slave.sh
 stop-master.sh

Das war’s fürs Erste, Sie haben Apache Spark erfolgreich auf einem Debian-10-Server installiert. Für weitere Informationen können Sie die offizielle Spark-Dokumentation unter Spark Doc.

Das könnte Dich auch interessieren …