Weitere Methoden um lokale Kopien von Webseiten anzulegen

Begonnen von Norbert, 30.07.2023, 13:41

Vorheriges Thema - Nächstes Thema

Norbert

Hallo ihr Lieben.

In Anlehnung von den hier schon vorhandenen Threads:
Beispiel: mit wget eine lokale Kopie einer Webseite anlegen
und
Archivierung des alten Kuketz Forums
möchte ich hier noch weitere Möglichkeiten aufzeigen.

Im alten Kuketz-Forum wurde das Tool "wkhtmltopdf" beschrieben um eine Website direkt als PDF zu
speichern.
Mit der Option "toc" (Table of Contents) wird ein Inhaltsverzeichnis generiert.
Beispiel:
wkhtmltopdf toc "WEBSEITE" Webseite.pdf
Was mich daran stört ist, das die PDF's, je nach Webseite, teilweise "abgeschnitten" werden. Bei
Bildern sieht das natürlich mehr als bescheiden aus.
Sicher könnte man da noch mit weiteren Optionen rumspielen, aber...

Das nächste Tool was ich seit 1 Jahr benutze heißt Zim-Wiki.
Ist zwar primar ein Desktop-Wiki, aber man kann für sich alle wichtigen Informationen einer Webseite
einfach per copy & paste ins Wiki übertragen.
Alles ist sehr durchdacht aufgebaut und die Suche ist sehr schnell.
Da ich hier keine Romane darüber schreiben will:
ZimWiki
https://wiki.ubuntuusers.de/Zim/
Dieses Tool ist/sollte in den Paketquellen ehalten sein.

Und ein Tool hab ich noch, was ich allerdings selber erst seit ein paar Tagen teste:
HTTrack Website Copier
Es gibt sowohl eine CLI-Version als auch eine GUI-Version (WebHTTrack)
Sollte ebenfalls in den Paketquellen ehalten sein.

Dieses Tool erstellt eine gespiegelte Kopie einer Webseite.
Je nach Einstellungen und Filter werden bei Bedarf auch alle Links zu externen Seiten
gespeichert, was bei Webseiten mit vielen Links durchaus schonmal Stunden dauern kann.

Es kann auch passieren, das die Webseite oder Forum danach erstmal "down" geht.

Das Tool startet sich im Webbrowser mit:
http://*hostname*:8080/server/index.html(Inwiefern Sicherheitsrelavant das ist, vermag ich nicht zu beurteilen, das ich es momentan
in einer VM teste)

Dort werden alle Einstellungen vorgenommen und die zu speichernde Webseite eingetragen und danach
werden die Daten runtergeladen und im zuvor angegebenen Ordner gespeichert.
Danach, im Ordner, die index.html öffnen und so könnte das dann aussehen:
https://abload.de/image.php?img=index9qft7.png

EDIT: Besonders bei HTTrack bzw. Webhttrack wäre noch zu erwähnen, daß es evtl. "Probleme" geben könnte was das Copyright
angeht.

Lisema

Zitat von: Norbert am 30.07.2023, 13:41Das nächste Tool was ich seit 1 Jahr benutze heißt Zim-Wiki. Ist zwar primar ein Desktop-Wiki, aber man kann für sich alle wichtigen Informationen einer Webseite einfach per copy & paste ins Wiki übertragen. Alles ist sehr durchdacht aufgebaut und die Suche ist sehr schnell.

Ist das nicht zu viel Aufwand? Wie viel benötigt eine Web auf der Festplatte? Ich hatte die Software aber irgendwie habe mich nicht angefreundet. Bin auch nicht auf deine Idee gekommen.

Ich sammeln die Webs in Textmodus mit Emacs. Aber würde gern diese oder diese probieren, wenn ich die Kenntnisse und Zeit hätte.

Norbert

#2
Zitat von: Lisema am 31.07.2023, 17:54Ist das nicht zu viel Aufwand? Wie viel benötigt eine Web auf der Festplatte? Ich hatte die Software aber irgendwie habe mich nicht angefreundet. Bin auch nicht auf deine Idee gekommen.
Viel Aufwand ist immer relativ. Für mich zählt das Ergebnis  ;)
Und um Platz auf der Platte zu sparen ging es mir nicht, sondern um strukturiertes ablegen der
für mich wichtigen Informationen.

Zitat von: Lisema am 31.07.2023, 17:54Ich sammeln die Webs in Textmodus mit Emacs. Aber würde gern diese oder diese probieren, wenn ich die Kenntnisse und Zeit hätte.
Wenn ich alles in Textdateien speichern würde, was ich früher mal getan habe, kam ich schon teilweise
ins schleudern wenn ich etwas gesucht habe.
Effektivität sieht anders aus, wenn ich erstmal alle vorhandenen Textdateien öffnen muss um was suchen, selbst wenn diese in Ordnern sortiert sind.

Beim Zim-Wiki ist alles zentral, strukturiert und schneller duchsuchbar.

Lisema

Zitat von: Norbert am 01.08.2023, 15:01... kam ich schon teilweise ins schleudern wenn ich etwas gesucht habe. Effektivität sieht anders aus,

Gehe davon aus, dass du Emacs nicht auskennst. Effektivität ist genau Emacs bzw. Org Mode + rgrep. Bei Org Mode gibt es alle: Tags, unterstreichen, hierarchischen Strukturen usw. Meine Methode hat sicher Luft nach oben, da ich kein großer Kenner von Emacs bin.

Zitat von: Norbert am 01.08.2023, 15:01Beim Zim-Wiki ist alles zentral, strukturiert und schneller duchsuchbar.

Genau wie bei Emacs. Aber ein Ziel von mir ist auch die Webs-Inhalte editieren zu können oder die Suche mit Webs, Podcast-Sammlung und Bücher zu mischen. Je nach dem suche ich alles oder gezielt.

Aber Hauptsache beide Methoden funktionieren.