Beispiel: mit wget eine lokale Kopie einer Webseite anlegen

Begonnen von Barista, 30.09.2022, 02:08

Vorheriges Thema - Nächstes Thema

Barista

Um sich eine lokale Kopie einer Webseite anzulegen, kann der wget Befehl unter Linux benutzt werden. Verschiedene Parameter beeinflussen dabei die Art, Tiefe und Ort usw. der Kopie.
Als Beispiel hier der Befehl im sich das Kuketz-Forum abzuspeichern:
wget -P kuketz -np -r -k -E -l 8 https://forum.kuketz-blog.de/index.php
Damit wird im Verzeichnis kuketz ein Unterverzeichnis angelegt, in dem alle Dateien sind. Darin kann entweder die index.html Datei aufgerufen werden (öffnet dann meinen Standardbrowser), oder alles in einem Webserver integriert werden, was für mich bequemer ist, da ich sowieso einen für mich im eigenen Netz betreibe. Von der index.html kann ich mich dann durch die Beiträge klicken.

Neo


GLenk

Auch von mir vielen Dank. :TOP
wget läuft, einige Inhalte konnte ich schon prima aufrufen!

member

Zitat von: Barista am 30.09.2022, 02:08
wget -P kuketz -np -r -k -E -l 8 https://forum.kuketz-blog.de/index.php

Mit dem obigen Befehl erhalte ich folgende Meldung:
--2022-10-13 20:49:18--  https://forum.kuketz-blog.de/index.php
Auflösen des Hostnamens forum.kuketz-blog.de (forum.kuketz-blog.de) ... 185.163.119.132, 2a03:4000:3b:3cc:5480:6fff:fec0:ad9f
Verbindungsaufbau zu forum.kuketz-blog.de (forum.kuketz-blog.de)|185.163.119.132|:443 ... verbunden.
HTTP-Anforderung gesendet, auf Antwort wird gewartet ... 404 Not Found
2022-10-13 20:49:25 FEHLER 404: Not Found.

Links in 0 Dateien in 0 Sekunden umgewandelt.

Weiß jemand, wie das Problem zu beheben ist?

Garstedter

Der Link führt mittlerweile ins leere, aber genau das sagt ja auch die Fehlermeldung aus.

Barista

Wird an der Umstellung für das neue Forum liegen. Wget kann nur das laden, was da ist und mit einem Browser zu sehen ist.

com

Zitat von: member am 13.10.2022, 21:10Weiß jemand, wie das Problem zu beheben ist?
Die URL passt nicht mehr. Ohne /index.php sollte es funzen:
wget -P kuketz -np -r -k -E -l 8 https://forum.kuketz-blog.de

Fjellrev

Sollte man den Befehl oben für andere Webseiten verwenden, ist --page-requisites beziehungsweise -p übrigens auch eine gute Option, die man eigentlich immer setzen könnte.

Für PHPBB Foren habe Ich irgendwann mal diese Option gefunden, die eventuell leicht veraltet ist, und die letzten 2 Punkte hinzugefügt.
Wäre sinnvoll, wenn das Forum noch im Original online ist, für das genannte Beispiel also leider nicht mehr so.
Bewirkt, dass einige sinnlose Links nicht verfolgt werden, und nicht jeder Beitrag zusätzlich einzeln gesichert.
--reject-regex='(\?p=|&p=|mode=reply|view=|mode=post|mode=email|mode=quote|mode=newtopic|login.php|search.php|feed.php|ucp.php|memberlist.php)'
Aber ganz allgemein lassen sich Foren so leider ziemlich schlecht archivieren.  :DOWN