... gegen Computerkopfschmerzen

httrack: komplette Webseite herunterladen

Wie man eine komplette Webseite aus dem Internet herunterladen kann

Zum Download ganzer Webseiten eignet sich das Programm httrack.

Zur Installation von httrack auf macOS benötigt man homebrew oder MacPorts, deshalb nutze ich das Programm in einer Linux-VM in VirtualBox.

Vor Beginn sollte man sich vergewissern, daß man die heruntergeladenen Dateien von der virtuellen Maschine schmerzfrei auf seinen Rechner transferieren kann. Eine Möglichkeit hierzu ist im Beitrag VirtualBox: USB-Stick mit Windows 7 nutzen beschrieben.

Installation von httrack

  • VirtualBox aufrufen und die virtuelle Maschine (Ubuntu oder Debian) starten
  • httrack im Terminal mit apt-get installieren
    $ sudo apt-get install webhttrack
    [sudo] Passwort:
    Paketlisten werden gelesen... Fertig
    Abhängigkeitsbaum wird aufgebaut.
    Statusinformationen werden eingelesen.... Fertig
    Die folgenden zusätzlichen Pakete werden installiert:
    libhttrack2 webhttrack-common
    Vorgeschlagene Pakete:
    httrack httrack-doc
    Die folgenden NEUEN Pakete werden installiert:
    libhttrack2 webhttrack webhttrack-common
    0 aktualisiert, 3 neu installiert, 0 zu entfernen und 307 nicht aktualisiert.
    Es müssen 497 kB an Archiven heruntergeladen werden.
    Nach dieser Operation werden 2.172 kB Plattenplatz zusätzlich benutzt.
    Möchten Sie fortfahren? [J/n] J
    Holen:1 http://de.archive.ubuntu.com/ubuntu focal/universe amd64 libhttrack2 amd64 3.49.2-1build1 [238 kB]
    Holen:2 http://de.archive.ubuntu.com/ubuntu focal/universe amd64 webhttrack-common all 3.49.2-1build1 [218 kB]
    Holen:3 http://de.archive.ubuntu.com/ubuntu focal/universe amd64 webhttrack amd64 3.49.2-1build1 [40,5 kB]
    Es wurden 497 kB in 2 s geholt (222 kB/s).
    Vormals nicht ausgewähltes Paket libhttrack2 wird gewählt.
    (Lese Datenbank ... 183435 Dateien und Verzeichnisse sind derzeit installiert.)
    Vorbereitung zum Entpacken von .../libhttrack2_3.49.2-1build1_amd64.deb ...
    Entpacken von libhttrack2 (3.49.2-1build1) ...
    Vormals nicht ausgewähltes Paket webhttrack-common wird gewählt.
    Vorbereitung zum Entpacken von .../webhttrack-common_3.49.2-1build1_all.deb ...
    Entpacken von webhttrack-common (3.49.2-1build1) ...
    Vormals nicht ausgewähltes Paket webhttrack wird gewählt.
    Vorbereitung zum Entpacken von .../webhttrack_3.49.2-1build1_amd64.deb ...
    Entpacken von webhttrack (3.49.2-1build1) ...
    libhttrack2 (3.49.2-1build1) wird eingerichtet ...
    webhttrack-common (3.49.2-1build1) wird eingerichtet ...
    webhttrack (3.49.2-1build1) wird eingerichtet ...
    Trigger für man-db (2.9.1-1) werden verarbeitet ...
    Trigger für desktop-file-utils (0.24-1ubuntu3) werden verarbeitet ...
    Trigger für mime-support (3.64ubuntu1) werden verarbeitet ...
    Trigger für hicolor-icon-theme (0.17-2) werden verarbeitet ...
    Trigger für gnome-menus (3.36.0-1ubuntu1) werden verarbeitet ...
    Trigger für libc-bin (2.31-0ubuntu9.2) werden verarbeitet …

Das Programm verfügt über ein GUI, welches im Terminal mit webhttrack aufgerufen wird. Alternativ verwendet man httrack auf Kommandozeilenebene. Die Optionen sind sehr umfangreich, eine gute Übersicht gibt diese Dokumentation zu httrack.

Download der Webseite

In diesem Beispiel wird gezeigt, wie man eine komplette Webseite herunterladen kann (hier: wiggelis.de).
Zuerst wird im Terminal ein Zielordner, in dem die Dateien gespeichert werden sollen, angelegt:
$ mkdir ~/wiggelis

Nun kann die Webseite heruntergeladen werden.
Syntax:
httrack <URL> -O <Pfad zum Download-Ordner> -v

Beispiel:
$ httrack http://wiggelis.de -O ~/wiggelis -v


Am Ende des Downloads befinden sich die folgenden Dateien im Zielordner wiggelis:
Inhalt des Zielordners

Die Dateien der Webseite befinden sich im Unterordner wiggelis.de.



Betriebssystem macOS High Sierra
Oracle VM VirtualBox 6.1
Ubuntu 20.04.4 LTS