'Εχουν καθόλου πέραση τα web scraping skills στην (ελληνική) αγορά? Σκέφτομαι να μάθω Python Scrapy αλλά δεν ξέρω αν αξίζει

Τhanasis · 12 Μαρτίου 2021

Λοιπόν είμαι φοιτητής και κοιτάζω διάφορα πράγματα... 'Εκανα ένα scriptάκι με BeautifulSoup και μου άρεσε η όλη φάση οπότε είναι κάτι που θέλω να ξέρω αν έχει μελλον σε επαγγελματικό επίπεδο (είδα βέβαια πως το BSoup είναι κυρίως για fun projects και πως το πιο επαγγελματικό είναι το Scrapy, εξ 'ου και ο τίτλος)

Papakaliati · 12 Μαρτίου 2021

Πολύ πιθανό να σου χρειαστεί, αλλά δεν νομίζω να θέλεις να κανείς μόνο scriptakia και web scrapping στο επαγγελματικο σου μελλον. Ειναι και αυτο ειναι χρησιμο εργαλειο, οπως πολλα αλλα skills που θα αποχτησεις.

Επεξ/σία 12 Μαρτίου 2021 από Papakaliati

mad-proffessor · 13 Μαρτίου 2021

Καλό είναι να γνωρίζεις αρχικά τα βασικά που μαθαίνουν στη σχολή για data structures/αλγορίθμους/αντικειμενοστρεφεια πολύ καλά και κατόπιν εγώ βλέπω ότι η python έχει πέραση στο data science πολύ, στο sysadminstration κομμάτι τείνει να αντικαταστήσει την perl, στο web development μπαίνει δυνατά σε restful api κλπ. Στο gui desktop application κομμάτι κυριαρχούν άλλες γλώσσες όπως η java.

Πρέπει να δεις με ποιο κομμάτι θες να ασχοληθείς π.χ στην Ελληνική αγορά ζητάνε web developers κυρίως php και asp.net, web designers με frontend γνώσεις στυλ js,css,html κ τα διάφορα frameworks/libs.

Πέραση έχουν επίσης η java, C++.

Στο εξωτερικό πουλάει το data science/statistics, ai, machine learning που η python είναι πολύ δυνατή.

Επίσης ( έξω κυρίως αλλά κ λιγότερο Ελλάδα) θα βρεις κ θέσεις sysadminstration/devops όπου μπορεί να ασχοληθείς με python αρκετά.

Προφανώς όμως αν σου αρέσει μόνο η python κ θες να προγραμματιζεις θα πρέπει να μάθεις σχεδόν τα πάντα, δεν φτάνει να ξέρεις μόνο μια βιβλιοθήκη.

Επεξ/σία 13 Μαρτίου 2021 από mad-proffessor

Papakaliati · 13 Μαρτίου 2021

6 ώρες πριν, mad-proffessor είπε

Καλό είναι να γνωρίζεις αρχικά τα βασικά που μαθαίνουν στη σχολή για data structures/αλγορίθμους/αντικειμενοστρεφεια πολύ καλά και κατόπιν εγώ βλέπω ότι η python έχει πέραση στο data science πολύ, στο sysadminstration κομμάτι τείνει να αντικαταστήσει την perl, στο web development μπαίνει δυνατά σε restful api κλπ. Στο gui desktop application κομμάτι κυριαρχούν άλλες γλώσσες όπως η java.

Πρέπει να δεις με ποιο κομμάτι θες να ασχοληθείς π.χ στην Ελληνική αγορά ζητάνε web developers κυρίως php και asp.net, web designers με frontend γνώσεις στυλ js,css,html κ τα διάφορα frameworks/libs.

Πέραση έχουν επίσης η java, C++.

Στο εξωτερικό πουλάει το data science/statistics, ai, machine learning που η python είναι πολύ δυνατή.

Επίσης ( έξω κυρίως αλλά κ λιγότερο Ελλάδα) θα βρεις κ θέσεις sysadminstration/devops όπου μπορεί να ασχοληθείς με python αρκετά.

Προφανώς όμως αν σου αρέσει μόνο η python κ θες να προγραμματιζεις θα πρέπει να μάθεις σχεδόν τα πάντα, δεν φτάνει να ξέρεις μόνο μια βιβλιοθήκη.

Η Java ναι, η c++ γιατί; GUI desktop είναι αστείο να συζητάμε, δεν υπάρχει πια.

thewindwaker · 13 Μαρτίου 2021

Το web scraping μπορεί να χρησιμοποιηθεί ως testing για το front end, αν μιλάμε για web development. Δηλαδή, να αυτοματοποιήσεις μιά διαδικασία που σε άλλη περίπτωση θα την έκανες με το χέρι (πχ. να συμπληρώσεις μια φόρμα και να πατήσεις submit). Η ερώτησή σου μου φαίνεται λιγάκι άκυρη. Φτιάχνοντας σκριπτάκια με BS ή scrapy η selenium κτλ θα σε βοηθήσει 1) στο να δείξεις σε αυτόν που σου παίρνει συνέντευξη ότι το ψάχνεις και ασχολείσαι και μόνος σου και 2) στο να κάνεις εξάσκηση στην python. Δηλαδή δε θα σε βοηθήσει τόσο το library αυτό καθ' αύτο αλλά η ενασχόληση με κάτι. Οτιδήποτε. Οπότε συνέχισε έτσι :)

Η γνώμη μου είναι να ασχολείσαι με ό,τι σου αρέσει (χωρίς να αφήνεις πίσω τα βασικά). Ούτως ή άλλως, ο προγραμματισμός στα πλαίσια του πανεπιστημίου ή ως χόμπυ, δεν έχει καμία σχέση με τον προγραμματισμό σε μία εταιρεία. Δηλαδή η σχολή δε σε προετοιμάζει για αυτό που θα αντιμετωπίσεις σε κάποιο εργασιακό περιβάλλον. Επομένως, ως αρχάριος, intern, junior κτλ, φτιάξει όοοο,τι project γουστάρεις. Και όταν με το καλό έρθει η πρώτη συνέντευξη (δεδομένου ότι θα το ακολουθήσεις επαγγελματικά), θα δείξεις αυτά τα πρότζεκτς και θα έχεις ένα "προβάδισμα" έναντι σε κάποιον που απλά τελείωσε τη σχολή και δεν ασχολήθηκε μόνος του.

Σε περίπτωση που δεν γνωρίζεις το παρακάτω σάιτ: https://realpython.com/learning-paths/python-web-scraping/

Καλό λιώσιμο!

kaliakman · 14 Μαρτίου 2021

8 ώρες πριν, Papakaliati είπε

Η Java ναι, η c++ γιατί; GUI desktop είναι αστείο να συζητάμε, δεν υπάρχει πια.

Υπάρχουν τομείς που χρησιμοποιούν de facto C++.

mad-proffessor · 14 Μαρτίου 2021

Στις 13/3/2021 στις 6:11 ΜΜ, Papakaliati είπε

GUI desktop είναι αστείο να συζητάμε, δεν υπάρχει πια.

Έχεις ένα δίκιο αλλά:

- θα ήταν καλό να ξέρει ένας φοιτητής, θα δει κ το mvc pattern.

- ποτέ δεν ξέρεις, μπορεί να πάει σε εταιρεία και να του ζητήσουν κάτι τέτοιο (αν κ οκ λίγο δύσκολο).

15 Μαρτίου 2021

package com.crawler;

import java.awt.*;
import java.awt.event.*;
import java.io.*;
import java.net.*;
import java.util.*;
import java.util.regex.*;
import javax.swing.*;
import javax.swing.table.*;


@SuppressWarnings("serial")
public class SearchCrawler extends JFrame{
	
	// Maximum number of URLs in drop-down list
	private static final String[] MAX ={"40", "200", "1000", "5000"};
	
	// Robot protocol disallow lists
	private HashMap<String, ArrayList<String>> disallowListCache = new HashMap<String, ArrayList<String>>();
	
	// GUI search controls
	private JTextField startTextField;
	@SuppressWarnings("rawtypes")
	private JComboBox maxComboBox;
	private JCheckBox limitCheckBox;
	private JTextField logTextField;
	private JTextField searchTextField;
	private JCheckBox caseCheckBox;
	private JButton searchButton;
	private JLabel crawlingLabel2;
	private JLabel crawledLabel2;
	private JLabel toCrawlLabel2;
	private JProgressBar progressBar;
	private JLabel matchesLabel2;
	
	// Table listing search matches
	private JTable table;
	// Flag for crawling 
	private boolean crawling;
	// Log file print writer
	private PrintWriter logFileWriter;
	
	@SuppressWarnings({ "unchecked", "rawtypes" })
	public SearchCrawler(){
		
		// Application title
		setTitle("Search Crawler");	
		// Window size
		setSize(600, 600);
		
		// Window closing events
		addWindowListener(new WindowAdapter() {
			public void windowClosing(WindowEvent e) {
				actionExit();
				}
			});		
		
		// File menu
		JMenuBar menuBar = new JMenuBar();
		JMenu fileMenu = new JMenu("File");
		fileMenu.setMnemonic(KeyEvent.VK_F);
		JMenuItem fileExitMenuItem = new JMenuItem("Exit", KeyEvent.VK_X);
		fileExitMenuItem.addActionListener(new ActionListener() {
			public void actionPerformed(ActionEvent e) {
				actionExit();
				}
			});
		fileMenu.add(fileExitMenuItem);
		menuBar.add(fileMenu);
		setJMenuBar(menuBar);
		
		// Search panel
		JPanel searchPanel = new JPanel();
		GridBagConstraints constraints;
		GridBagLayout layout = new GridBagLayout();
		searchPanel.setLayout(layout);
		
		JLabel startLabel = new JLabel("Start URL:");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.EAST;
		constraints.insets = new Insets(5, 5, 0, 0);
		layout.setConstraints(startLabel, constraints);
		searchPanel.add(startLabel);
		
		startTextField = new JTextField();
		constraints = new GridBagConstraints();
		constraints.fill = GridBagConstraints.HORIZONTAL;
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		constraints.insets = new Insets(5, 5, 0, 5);
		layout.setConstraints(startTextField, constraints);
		searchPanel.add(startTextField);
		
		JLabel maxLabel = new JLabel("Max URLs to Crawl:");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.EAST;
		constraints.insets = new Insets(5, 5, 0, 0);
		layout.setConstraints(maxLabel, constraints);
		searchPanel.add(maxLabel);
		
		maxComboBox = new JComboBox(MAX);
		maxComboBox.setEditable(true);
		constraints = new GridBagConstraints();
		constraints.insets = new Insets(5, 5, 0, 0);
		layout.setConstraints(maxComboBox, constraints);
		searchPanel.add(maxComboBox);
		
		limitCheckBox = new JCheckBox("Limit crawling to Start URL site");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.WEST;
		constraints.insets = new Insets(0, 10, 0, 0);
		layout.setConstraints(limitCheckBox, constraints);
		searchPanel.add(limitCheckBox);
		
		JLabel blankLabel = new JLabel();
		constraints = new GridBagConstraints();
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		layout.setConstraints(blankLabel, constraints);
		searchPanel.add(blankLabel);
		
		JLabel logLabel = new JLabel("Matches Log File:");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.EAST;
		constraints.insets = new Insets(5, 5, 0, 0);
		layout.setConstraints(logLabel, constraints);
		searchPanel.add(logLabel);
		
		String file = System.getProperty("user.dir") + System.getProperty("file.separator") + "crawler.log";
		logTextField = new JTextField(file);
		constraints = new GridBagConstraints();
		constraints.fill = GridBagConstraints.HORIZONTAL;
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		constraints.insets = new Insets(5, 5, 0, 5);
		layout.setConstraints(logTextField, constraints);
		searchPanel.add(logTextField);
		
		JLabel searchLabel = new JLabel("Search String:");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.EAST;
		constraints.insets = new Insets(5, 5, 0, 0);
		layout.setConstraints(searchLabel, constraints);
		searchPanel.add(searchLabel);
		
		searchTextField = new JTextField();
		constraints = new GridBagConstraints();
		constraints.fill = GridBagConstraints.HORIZONTAL;
		constraints.insets = new Insets(5, 5, 0, 0);constraints.gridwidth= 2;
		constraints.weightx = 1.0d;
		layout.setConstraints(searchTextField, constraints);
		searchPanel.add(searchTextField);
		
		caseCheckBox = new JCheckBox("Case Sensitive");
		constraints = new GridBagConstraints();
		constraints.insets = new Insets(5, 5, 0, 5);
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		layout.setConstraints(caseCheckBox, constraints);
		searchPanel.add(caseCheckBox);
		
		searchButton = new JButton("Search");
		searchButton.addActionListener(new ActionListener() {
			public void actionPerformed(ActionEvent e) {
				actionSearch();
				}
			});
		constraints = new GridBagConstraints();
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		constraints.insets = new Insets(5, 5, 5, 5);
		layout.setConstraints(searchButton, constraints);
		searchPanel.add(searchButton);
		
		JSeparator separator = new JSeparator();
		constraints = new GridBagConstraints();
		constraints.fill = GridBagConstraints.HORIZONTAL;
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		constraints.insets = new Insets(5, 5, 5, 5);
		layout.setConstraints(separator, constraints);
		searchPanel.add(separator);
		
		JLabel crawlingLabel1 = new JLabel("Crawling:");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.EAST;
		constraints.insets = new Insets(5, 5, 0, 0);
		layout.setConstraints(crawlingLabel1, constraints);
		searchPanel.add(crawlingLabel1);
		
		crawlingLabel2 = new JLabel();
		crawlingLabel2.setFont(crawlingLabel2.getFont().deriveFont(Font.PLAIN));
		constraints = new GridBagConstraints();
		constraints.fill = GridBagConstraints.HORIZONTAL;
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		constraints.insets = new Insets(5, 5, 0, 5);
		layout.setConstraints(crawlingLabel2, constraints);
		searchPanel.add(crawlingLabel2);
		
		JLabel crawledLabel1 = new JLabel("Crawled URLs:");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.EAST;
		constraints.insets = new Insets(5, 5, 0, 0);
		layout.setConstraints(crawledLabel1, constraints);
		searchPanel.add(crawledLabel1);
		
		crawledLabel2 = new JLabel();
		crawledLabel2.setFont(crawledLabel2.getFont().deriveFont(Font.PLAIN));
		constraints = new GridBagConstraints();
		constraints.fill = GridBagConstraints.HORIZONTAL;
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		constraints.insets = new Insets(5, 5, 0, 5);
		layout.setConstraints(crawledLabel2, constraints);
		searchPanel.add(crawledLabel2);
		
		JLabel toCrawlLabel1 = new JLabel("URLs to Crawl:");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.EAST;
		constraints.insets = new Insets(5, 5, 0, 0);
		layout.setConstraints(toCrawlLabel1, constraints);
		searchPanel.add(toCrawlLabel1);
		
		toCrawlLabel2 = new JLabel();
		toCrawlLabel2.setFont(toCrawlLabel2.getFont().deriveFont(Font.PLAIN));
		constraints = new GridBagConstraints();
		constraints.fill = GridBagConstraints.HORIZONTAL;
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		constraints.insets = new Insets(5, 5, 0, 5);
		layout.setConstraints(toCrawlLabel2, constraints);
		searchPanel.add(toCrawlLabel2);
		
		JLabel progressLabel = new JLabel("Crawling Progress:");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.EAST;
		constraints.insets = new Insets(5, 5, 0, 0);
		layout.setConstraints(progressLabel, constraints);
		searchPanel.add(progressLabel);
		
		progressBar = new JProgressBar();
		progressBar.setMinimum(0);
		progressBar.setStringPainted(true);
		constraints = new GridBagConstraints();
		constraints.fill = GridBagConstraints.HORIZONTAL;
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		constraints.insets = new Insets(5, 5, 0, 5);
		layout.setConstraints(progressBar, constraints);
		searchPanel.add(progressBar);
		
		JLabel matchesLabel1 = new JLabel("Search Matches:");
		constraints = new GridBagConstraints();
		constraints.anchor = GridBagConstraints.EAST;
		constraints.insets = new Insets(5, 5, 10, 0);
		layout.setConstraints(matchesLabel1, constraints);
		searchPanel.add(matchesLabel1);
		
		matchesLabel2 = new JLabel();		
		matchesLabel2.setFont(matchesLabel2.getFont().deriveFont(Font.PLAIN));
		constraints = new GridBagConstraints();
		constraints.fill = GridBagConstraints.HORIZONTAL;
		constraints.gridwidth = GridBagConstraints.REMAINDER;
		constraints.insets = new Insets(5, 5, 10, 5);
		layout.setConstraints(matchesLabel2, constraints);
		searchPanel.add(matchesLabel2);
		
		// Matches table
		table = new JTable(new DefaultTableModel(new Object[][]{}, new String[]{"URL"}) {
			public boolean isCellEditable(int row, int column){
				return false;
				}
			});
		
		// Matches panel
		JPanel matchesPanel = new JPanel();
		matchesPanel.setBorder(BorderFactory.createTitledBorder("Matches"));
		matchesPanel.setLayout(new BorderLayout());
		matchesPanel.add(new JScrollPane(table), BorderLayout.CENTER);
		
		// Add panels to display
		getContentPane().setLayout(new BorderLayout());
		getContentPane().add(searchPanel, BorderLayout.NORTH);
		getContentPane().add(matchesPanel, BorderLayout.CENTER);
		}
	
	// Exit program
	private void actionExit() {
		System.exit(0);
		}
	
	// Search/Stop button clicked
	private void actionSearch() {
		// If stop button clicked, turn crawling flag off
		if (crawling) {
			crawling = false;
			return;
			}
		ArrayList<String> errorList = new ArrayList<String>();
		// Validate that start URL has been entered
		String startUrl = startTextField.getText().trim();
		if (startUrl.length() < 1) {
			errorList.add("Missing Start URL.");
			}
		else if (verifyUrl(startUrl) == null) {
			errorList.add("Invalid Start URL.");
			}
		
		// Max URLs is either empty or a number
		int maxUrls = 0;
		String max = ((String) maxComboBox.getSelectedItem()).trim();
		if (max.length() > 0) {
			try {
				maxUrls = Integer.parseInt(max);
				} 
			catch (NumberFormatException e) {}
			if (maxUrls < 1) {
				errorList.add("Invalid Max URLs value.");
				}
			}
		
		// Matches log file has been entered
		String logFile = logTextField.getText().trim();
		if (logFile.length() < 1) {
			errorList.add("Missing Matches Log File.");
			}
		
		// Search string has been entered
		String searchString = searchTextField.getText().trim();
		if (searchString.length() < 1) {
			errorList.add("Missing Search String.");
			}
		
		// Show errors if any and return
		if (errorList.size() > 0) {
			StringBuffer message = new StringBuffer();
			// Concatenate errors into single message
			for (int i = 0; i < errorList.size(); i++) {
				message.append(errorList.get(i));
				if (i + 1 < errorList.size()) {
					message.append("\n");
					}
				}
			showError(message.toString());
			return;
			}
		
		// Remove "www" from start URL if present
		startUrl = removeWwwFromUrl(startUrl);
		
		// Start the Search Crawler
		search(logFile, startUrl, maxUrls, searchString);
		}
	
	private void search(final String logFile, final String startUrl, final int maxUrls, final String searchString){
		// Start the search in a new thread
		Thread thread = new Thread(new Runnable() {
			public void run() {
				// Show hour glass cursor while crawling is under way
				setCursor(Cursor.getPredefinedCursor(Cursor.WAIT_CURSOR));
				// Disable search controls
				startTextField.setEnabled(false);
				maxComboBox.setEnabled(false);
				limitCheckBox.setEnabled(false);
				logTextField.setEnabled(false);
				searchTextField.setEnabled(false);
				caseCheckBox.setEnabled(false);
				
				// Switch Search button to "Stop"
				searchButton.setText("Stop");
				
				// Reset stats
				table.setModel(new DefaultTableModel(new Object[][]{}, new String[]{"URL"}) {
					public boolean isCellEditable(int row, int column){
						return false;
						}
					});
				updateStats(startUrl, 0, 0, maxUrls);
				
				// Open matches log file
				try {
					logFileWriter = new PrintWriter(new FileWriter(logFile));
					} 
				catch (Exception e) {
					showError("Unable to open matches log file.");
					return;
					}
				
				// Turn crawling flag on
				crawling = true;				
				
				// Perform the actual crawling
				crawl(startUrl, maxUrls, limitCheckBox.isSelected(), searchString, caseCheckBox.isSelected());
				
				// Turn crawling flag off
				crawling = false;
				
				// Close matches log file
				try {
					logFileWriter.close();
					} 
				catch (Exception e) {
					showError("Unable to close matches log file.");
					}
				// Mark search as done
				crawlingLabel2.setText("Done");
				
				// Enable search controls
				startTextField.setEnabled(true);
				maxComboBox.setEnabled(true);
				limitCheckBox.setEnabled(true);
				logTextField.setEnabled(true);
				searchTextField.setEnabled(true);
				caseCheckBox.setEnabled(true);
				
				// Switch search button back to "Search"
				searchButton.setText("Search");
				
				// Return to default cursor
				setCursor(Cursor.getDefaultCursor());
				
				// Show message if search string not found
				if (table.getRowCount() == 0) {
					JOptionPane.showMessageDialog(SearchCrawler.this, "Your Search String was not found. "
							+ "Please try another.", "Search String Not Found", JOptionPane.WARNING_MESSAGE);
					}
				}
			});
		thread.start();
		}
	
	// Show dialog box with error message
	private void showError(String message) {
		JOptionPane.showMessageDialog(this, message, "Error", JOptionPane.ERROR_MESSAGE);
		}
	
	// Update crawling stats
	private void updateStats(String crawling, int crawled, int toCrawl, int maxUrls){
		crawlingLabel2.setText(crawling);
		crawledLabel2.setText("" + crawled);
		toCrawlLabel2.setText("" + toCrawl);
		// Update progress bar
		if (maxUrls == -1) {
			progressBar.setMaximum(crawled + toCrawl);
			} 
		else {
			progressBar.setMaximum(maxUrls);
			}
		progressBar.setValue(crawled);
		matchesLabel2.setText("" + table.getRowCount());
		}
	
	// Add match to matches table and log file
	private void addMatch(String url) {
		// Add URL to matches table
		DefaultTableModel model = (DefaultTableModel) table.getModel();
		model.addRow(new Object[]{url});
		// Add URL to matches log file
		try {
			logFileWriter.println(url);
			} 
		catch (Exception e) {
			showError("Unable to log match");
			}
		}
	
	// Verify URL format
	private URL verifyUrl(String url) {
		// Only allow HTTP URLs
		if (!url.toLowerCase().startsWith("http://")){
			return null;
		}
		
		URL verifiedUrl = null;
		try {
			verifiedUrl = new URL(url);
			} 
		catch (Exception e) {
			return null;
			}
		return verifiedUrl;
		}
	
	// Check if robot is allowed to access the given URL
	private boolean isRobotAllowed(URL urlToCheck) {
		String host = urlToCheck.getHost().toLowerCase();
		
		// Retrieve host's disallow list from cache
		ArrayList<String> disallowList = (ArrayList<String>) disallowListCache.get(host);
		
		// If list is not in the cache, download and cache it
		if (disallowList == null) {
			disallowList = new ArrayList<String>();
			try {
				URL robotsFileUrl = new URL("http://" + host + "/robots.txt");
				
				// Open connection to robot file URL for reading
				BufferedReader reader = new BufferedReader(new InputStreamReader(robotsFileUrl.openStream()));
				
				// Read robot file, creating list of disallowed paths
				String line;
				while ((line = reader.readLine()) != null) {
					if (line.indexOf("Disallow:") == 0) {
						String disallowPath = line.substring("Disallow:".length());
						
						// Check disallow path for comments and remove if present
						int commentIndex = disallowPath.indexOf("#");
						if (commentIndex != - 1) {
							disallowPath = disallowPath.substring(0, commentIndex);
							}
						
						// Remove leading or trailing spaces from disallow path
						disallowPath = disallowPath.trim();
						
						// Add disallow path to list
						disallowList.add(disallowPath);
						}
					}
				
				// Add new disallow list to cache
				disallowListCache.put(host, disallowList);
				}
			catch (Exception e) {
				// Assume robot is allowed since an exception is thrown if the robot file doesn't exist
				return true;
				}
			}
		// Loop through disallow list to see if crawling is allowed for the given URL
		String file = urlToCheck.getFile();
		for (int i = 0; i < disallowList.size(); i++) {
			String disallow = (String) disallowList.get(i);
			if (file.startsWith(disallow)) {
				return false;
				}
			}
		return true;
		}
	
	// Download page at given URL
	private String downloadPage(URL pageUrl) {
		try {
			// Open connection to URL for reading
			BufferedReader reader = new BufferedReader(new InputStreamReader(pageUrl.openStream()));			
			// Read page into buffer
			String line;
			StringBuffer pageBuffer = new StringBuffer();
			while ((line = reader.readLine()) != null) {
				pageBuffer.append(line);
				}
			return pageBuffer.toString();
			} 
		catch (Exception e) {}
		return null;
		}
	
	// Remove leading "www" from a URL's host if present
	private String removeWwwFromUrl(String url) {
		int index = url.indexOf("://www.");
		if (index != -1) {
			return url.substring(0, index + 3) + url.substring(index + 7);
			}
		return (url);
		}
	
	// Parse through page contents and retrieve links
	private ArrayList<String> retrieveLinks(URL pageUrl, String pageContents, HashSet<String> crawledList, 
			boolean limitHost){
		// Compile link matching pattern
		Pattern p = Pattern.compile("<a\\s+href\\s*=\\s*\"?(.*?)[\"|>]", Pattern.CASE_INSENSITIVE);
		Matcher m = p.matcher(pageContents);
		
		// Create list of link matches
		ArrayList<String> linkList = new ArrayList<String>();
		while (m.find()) { 
			String link = m.group(1).trim();
			
			// Skip empty links
			if (link.length() < 1) {
				continue;
				}
			
			// Skip links that are page anchors
			if (link.charAt(0) == '#') {
				continue;
				}
			
			// Skip mailto links
			if (link.indexOf("mailto:") != -1) {
				continue;
				}
			
			// Skip JavaScript links
			if (link.toLowerCase().indexOf("javascript") != -1) {
				continue;
				}
			
			// Prefix absolute and relative URLs if necessary
			if (link.indexOf("://") == -1) {
				// Handle absolute URLs
				if (link.charAt(0) == '/') {
					link = "http://" + pageUrl.getHost() + link;					
					} 
				// Handle relative URLs
				else {
					String file = pageUrl.getFile();
					if (file.indexOf('/') == -1) {
						link = "http://" + pageUrl.getHost() + "/" + link;
						}
					else {
						String path = file.substring(0, file.lastIndexOf('/') + 1);
						link = "http://" + pageUrl.getHost() + path + link;
						}
					}
				}
			
			// Remove anchors from link
			int index = link.indexOf('#');
			if (index != -1) {
				link = link.substring(0, index);
				}
			
			// Remove "www" from URL's host if present
			link = removeWwwFromUrl(link);
			
			// Verify link and skip if invalid
			URL verifiedLink = verifyUrl(link);
			if (verifiedLink == null) {
				continue;
				}
			
			// If specified, limit links to those having the same host as the start URL
			if (limitHost && !pageUrl.getHost().toLowerCase().equals(verifiedLink.getHost().toLowerCase())){
				continue;
				}
			
			// Skip link if it has already been crawled
			if (crawledList.contains(link)) {
				continue;
				}
			
			// Add link to list
			linkList.add(link);
			}
		return (linkList);
		}
	
	// Determine whether or not search string is matched in the given page contents
	private boolean searchStringMatches(String pageContents, String searchString,boolean caseSensitive){
		String searchContents = pageContents;
		// If case-sensitive search, lowercase page contents for comparison
		if (!caseSensitive) {
			searchContents = pageContents.toLowerCase();
			}
		
		// Split search string into individual terms
		Pattern p = Pattern.compile("[\\s]+");
		String[] terms = p.split(searchString);
	
		// Check to see if each term matches
		for (int i = 0; i < terms.length; i++) {
			if (caseSensitive) {
				if (searchContents.indexOf(terms[i]) == -1) {
					return false;
					}
				} 
			else {
				if (searchContents.indexOf(terms[i].toLowerCase()) == -1) {
					return false;
					}
				}
			}
		return true;
		}
	
	// Perform the actual crawling, searching for the search string
	public void crawl(String startUrl, int maxUrls, boolean limitHost, String searchString, boolean caseSensitive){
		
		// Set up crawl lists
		HashSet<String> crawledList = new HashSet<String>();
		LinkedHashSet<String> toCrawlList = new LinkedHashSet<String>();
		// Add start URL to the to crawl list
		toCrawlList.add(startUrl);
		// Perform actual crawling by looping through the To Crawl list
		while (crawling && toCrawlList.size() > 0){
			// Check to see if the max URL count has been reached, if it was specified
			if (maxUrls != -1) {
				if (crawledList.size() == maxUrls) {
					break;
					}
				}
			
			// Get URL at bottom of the list
			String url = (String) toCrawlList.iterator().next();
			
			// Remove URL from the To Crawl list
			toCrawlList.remove(url);
			
			// Convert string url to URL object
			URL verifiedUrl = verifyUrl(url);
			
			// Skip URL if robots are not allowed to access it
			if (!isRobotAllowed(verifiedUrl)) {
				continue;
				}
			
			// Update crawling stats
			updateStats(url, crawledList.size(), toCrawlList.size(),maxUrls);
			
			// Add page to the crawled list
			crawledList.add(url);
			
			// Download the page at the given URL
			String pageContents = downloadPage(verifiedUrl);
			
			// If page downloaded successfully, retrieve all its links and then see if it contains the search string
			if (pageContents != null && pageContents.length() > 0){
				// Retrieve list of valid links from page
				ArrayList<String> links = retrieveLinks(verifiedUrl, pageContents, crawledList, limitHost);
				// Add links to the To Crawl list
				toCrawlList.addAll(links);
				// Check if search string is present in page and if so record a match
				if (searchStringMatches(pageContents, searchString, caseSensitive)){
					addMatch(url);
					}
				}
			// Update crawling stats
			updateStats(url, crawledList.size(), toCrawlList.size(), maxUrls);
			}
		}	

	public static void main(String[] args) { 
		SearchCrawler crawler = new SearchCrawler();
		crawler.setVisible(true);
		}
	}

denz · 15 Μαρτίου 2021

Σιγά μην κάτσω να γράψω AWT και Swing στο χέρι. Αν θες desktop GUI χρησιμοποίησε κάποιο GUI builder plugin π.χ. από Netbeans ή IntelliJ (αν πας σε Java). Λογικά και η Python θα έχει κάτι αντίστοιχο. Σε επαγγελματικό επίπεδο desktop παίζει μόνο η C# με WPF και ελάχιστα JavaFX. Πάντως η τάση είναι Web και αυτό είναι το σωστό.

kaliakman · 15 Μαρτίου 2021

Ο Χριστός και η Παναγία. Με πόνεσαν τα μάτια μου με τα μακρυνάρια.

dimitrisz123 · 15 Μαρτίου 2021

Στις 13/3/2021 στις 12:08 ΜΜ, mad-proffessor είπε

web designers με frontend γνώσεις στυλ js,css,html κ τα διάφορα frameworks/libs.

Που το ειδες αυτο, ο designer να πρεπει να ξερει js, και οχι μονο αυτο αλλα να ξερει και frameworks.

judge_manos · 16 Μαρτίου 2021

Στις 12/3/2021 στις 12:41 ΜΜ, Τhanasis είπε

Λοιπόν είμαι φοιτητής και κοιτάζω διάφορα πράγματα... 'Εκανα ένα scriptάκι με BeautifulSoup και μου άρεσε η όλη φάση οπότε είναι κάτι που θέλω να ξέρω αν έχει μελλον σε επαγγελματικό επίπεδο (είδα βέβαια πως το BSoup είναι κυρίως για fun projects και πως το πιο επαγγελματικό είναι το Scrapy, εξ 'ου και ο τίτλος)

Έχοντας δουλέψει αρκετά χρόνια σε scraping development με python (προφανώς και με Scrapy) και σαν freelancer αλλά και σε εταιρία θα σου πω ότι αξίζει να ασχοληθείς, ειδικά τώρα που είσαι φοιτητής. Μπορεί στην Ελλάδα να μην έχει καθόλου ζήτηση, αλλά είναι μια καλή ευκαιρία να μπεις στον χώρο του freelancing, όπου είναι από τα top skills.
Από πλευράς γνώσεων, μπορείς να το συνδυάσεις με databases, για να πάρεις κάτι και από εκεί :P

skiabox · 16 Μαρτίου 2021

Υπάρχει κάποιος ιδιάιτερος λόγος παιδιά που έχει συνδυαστεί η Python με το web scraping και γιατί;

Papakaliati · 16 Μαρτίου 2021

9 ώρες πριν, skiabox είπε

Υπάρχει κάποιος ιδιάιτερος λόγος παιδιά που έχει συνδυαστεί η Python με το web scraping και γιατί;

easy to use. Σε 10 γραμμες κανεις οσα σε αλλες γλωσσες δεν κανεις με 30 .

skiabox · 16 Μαρτίου 2021

26 λεπτά πριν, Papakaliati είπε

easy to use. Σε 10 γραμμες κανεις οσα σε αλλες γλωσσες δεν κανεις με 30 .

Perl like!

Ξέρεις ότι η perl έχει τη φήμη ότι είναι write only language!

Σύνδεση

'Εχουν καθόλου πέραση τα web scraping skills στην (ελληνική) αγορά? Σκέφτομαι να μάθω Python Scrapy αλλά δεν ξέρω αν αξίζει

Προτεινόμενες αναρτήσεις

Τhanasis

Papakaliati

mad-proffessor

Papakaliati

thewindwaker

kaliakman

mad-proffessor

Επισκέπτης

denz

kaliakman

dimitrisz123

judge_manos

skiabox

Papakaliati

skiabox

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση