Κατεβάζοντας μόνο τα pdf από ένα site

mindreader · 4 Δεκεμβρίου 2017

Θελω να μου προτεινετε τροπους, συγκεκριμενους, για να κατεβασω οποιοδηποτε pdf file υπαρχει σε ενα συγκεκριμενο site, και ειναι διαθεσιμο (ελευθερο) για κατεβασμα.

Οι κλασικοι offline download managers που κατεβαζουν ολοκληρα sites, δεν βλεπω να καταφερνουν και πολυ καλα. Βεβαια, δεν τους εχω ψαξει ολους, ουτε μπορω να ξερω και ολες τις δυνατοτητες.

Μεχρι ωρα παντως, δεν τα καταφερα. Και εψαξα και σε ρυθμισεις κλπ, βαθος λινκς, κλπ

Ο ενας κατεβασε λιγα αρχειακια μονο, καμια σχεση.

Ο αλλος, το εβαλα να κατεβασει τα παντα ολα, αλλα εφτασε μισο giga, κι ακομη αρχεια pdf δεν βρηκα να εχει κατεβασει, ενω στο site κανονικα υπαρχουν.

Ο απλος-χειροκινητος τροπος, ειναι να πηγαινω εγω σε μια μια τις σελιδες, δεξι κλικ, save target as, κλπ.

Αλλα μιλαμε για χιλιαδες λινκαρισμενα pdf, σε μια δομη ενος υπο-site.

Υπαρχει ευκολος τροπος να κατεβασω μονο αρχεια pdf?

becoming_I · 4 Δεκεμβρίου 2017

Με Jdownloader 2 βάζεις το site και στη δεξιά στήλη ξετικάρεις αυτά που δε θες και μένουν μόνο τα pdf

isay · 4 Δεκεμβρίου 2017

Ναι αλλα δεν λες ποια προγράμματα χρησιμοποιησες και τι προβληματα αντιμετώπισες.

Θες ενα προγραμμα που να κάνει crawl ένα ιστοτοπο και μετα να κατεβάζει τα filetypes που θες (πχ pdf). Δες παρακάτω για τετοια προγράμματα και μονο με δοκιμές θα βρεις τι σου δουλευει γιατί το αποτελεσμα εξαρτάται και απο την ιστοσελιδα (βάθος linnks, εξωτερικά links, κλπ)

https://dynomapper.com/blog/11-content-inventory/287-how-to-download-an-entire-website-for-offline-viewing

Εχε επισης υποψη οτι πολλοί servers εχουν λογισμικο που απαγορευει/αποτρεπει το μαζικο download. Αν δηλαδη ανιχνευτεί οτι κάνεις mirror σου κλειδώνει την ip για κάποιες ωρες οποτε την πάτησες. Η λύση ειναι να ρυθμίσεις το προγραμμα να καθυστερει αναμεσα στα downloads.

Εννοειται δώσε feedback για το ποιο προγραμμα εκανε τη δουλεια που θες

mindreader · 4 Δεκεμβρίου 2017

Με Jdownloader 2 βάζεις το site και στη δεξιά στήλη ξετικάρεις αυτά που δε θες και μένουν μόνο τα pdf

Μακαρι να δουλευε!

Το δοκιμασα και μου φερνει μονο εικονες...pdf πουθενα.

Ναι αλλα δεν λες ποια προγράμματα χρησιμοποιησες και τι προβληματα αντιμετώπισες.

Θες ενα προγραμμα που να κάνει crawl ένα ιστοτοπο και μετα να κατεβάζει τα filetypes που θες (πχ pdf). Δες παρακάτω για τετοια προγράμματα και μονο με δοκιμές θα βρεις τι σου δουλευει γιατί το αποτελεσμα εξαρτάται και απο την ιστοσελιδα (βάθος linnks, εξωτερικά links, κλπ)

https://dynomapper.com/blog/11-content-inventory/287-how-to-download-an-entire-website-for-offline-viewing

Εχε επισης υποψη οτι πολλοί servers εχουν λογισμικο που απαγορευει/αποτρεπει το μαζικο download. Αν δηλαδη ανιχνευτεί οτι κάνεις mirror σου κλειδώνει την ip για κάποιες ωρες οποτε την πάτησες. Η λύση ειναι να ρυθμίσεις το προγραμμα να καθυστερει αναμεσα στα downloads.

Εννοειται δώσε feedback για το ποιο προγραμμα εκανε τη δουλεια που θες

Δοκιμασα το WinHTTrack, και το Cyotek Webcopy.

Το πρωτο, κατεβασε μονο λιγα αρχειακια.

Το δευτερο, κατεβαζε απιστευτο υλικο. Βρηκα και καποια pdfs μεσα, τωρα που ξανακοιταξα. Απλα θεωρω λιγο κριμα και ασκοπο, να κατεβασω πχ 5gb (λεω τωρα) ενος site, για να μπορεσω να εχω και 200mb απο καποια pdf. Μαλλον, δεν υπαρχουν περιορισμοι οπως ανεφερες, αλλα οντως σε πολλα sites μπορει να παιζουν περιορισμοι.

Αν μπορουσα να επιλεξω ειδος αρχειων προς κατεβασμα απο συγκεκριμενο url, θα ηταν το καλυτερο νομιζω.

becoming_I · 4 Δεκεμβρίου 2017

Βασικά δε μας λες το site (αν θες) να κάνουμε μια προσπάθεια;

mindreader · 4 Δεκεμβρίου 2017

Έιναι intranet και δεν μπορω να το πω.

Εσωτερικα εχω και εγω κανονικη-επισημη προσβαση, εκτος δεν εχω.

Am015 · 9 Δεκεμβρίου 2017

Μπορείς να κατεβάσεις επιλεκτικά τα pdf με beautiful soup .

http://www.pythonforbeginners.com/python-on-the-web/web-scraping-with-beautifulsoup/

Εγώ το χρησιμοποιώ για link harvesting και δουλεύει σχετικά καλά.

Οπότε ακολουθείς τα βήματα, τραβας τα links και μετά με jdownloader2 ξεσκαρταρειςτα pdf.

Loftgr · 17 Ιανουαρίου 2018

Στο browser σου πατα CTRL+SHIFT+J, επικόλλησε το παρακάτω string:

var pdflinks =[]; Array.prototype.map. call(document.querySelectorAll("a[href$=\".pdf\"]"), function(e, i){if((pdflinks||[]).indexOf(e.href)==-1){ pdflinks.push( e.href);} }); console.log(pdflinks.join(" "));

και πάτα enter.

Ενημέρωσε αν σου δουλεύει.

Σύνδεση

Κατεβάζοντας μόνο τα pdf από ένα site

Προτεινόμενες αναρτήσεις

mindreader

becoming_I

isay

mindreader

becoming_I

mindreader

Am015

Loftgr

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση