makisgiasena Δημοσ. 8 Φεβρουαρίου 2018 Δημοσ. 8 Φεβρουαρίου 2018 Καλημέρα, ψάχνω να βρω ελληνικές βάσεις δεδομένων με όλες τις ελληνικές λέξεις, ψηφιοποιημενες σε xt, cvs, excel για να μπορώ να τις χειριστώ με κώδικα. Εκτός του greeklex που την έχω βρει υπάρχει κάποια αλλη;
ajaxmonkey4hire Δημοσ. 15 Φεβρουαρίου 2018 Δημοσ. 15 Φεβρουαρίου 2018 ορίστε: http://104.236.83.163/greekwords.csv αυτή είναι μια συλλογή λέξεων από 8000 ελληνικές ιστοσελίδες. Αν έχεις κάποιο text editor που υποστηρίζει utf-8 (NotePad++) μπορείς να το διάβασης ειδάλλως μπορώ να κάνω ένα export σε html και να σου δώσω το link. 2
makisgiasena Δημοσ. 16 Φεβρουαρίου 2018 Μέλος Δημοσ. 16 Φεβρουαρίου 2018 Φιλε μου αρχικα, σε ευχαριστω πολυ. Εχω τρεις ερωτησεις: 1) ειδα οτι καποιες λεξεις δεν ειναι τονισμενες, αυτο εγινε επειδη εγιναν σκραπινγκ απο τα σαιτ ; 2) Ειναι ελεγμενα σωστες ; 3) Το νουμερο δεξια ειναι η συχνοτητα ; Ευχαριστω !
ajaxmonkey4hire Δημοσ. 16 Φεβρουαρίου 2018 Δημοσ. 16 Φεβρουαρίου 2018 @makisgiasena αυτή η λίστα έγινε με το protoype wordcollector που φτιάχνω. Έχω μια βάση δεδομένων με 280.000 (98%) από όλα τα .gr domains και απλός έβαλα το πρόγραμμα να διάβαση τα πρωτοσέλιδα από της 8000 πρώτες domains κατά alexa rank χωρίς να λάβω υπόψη google, facebook κτλ. Η λίστα περιέχει δυο ειδών λάθη: 1. REGEX mismatches οπού το πρόγραμμα δεν αποστραγγίζει την λέξη σωστά από το HTML και διαβάζει δυο η περισσότερες λέξεις σαν μια. 2. Ορθογραφικά λάθη στο κείμενο της σελίδας. Έχω μια ανανεωμένη μορφή του προγράμματος με σωστά REGEX που λύνει το nr1. Όσο για το 2 ετοιμάζω μια στατιστική ανάλυση η οποία βρίσκει και μαρκάρει ανορθογραφίες και χωρίζει πολυτονική από μονοτονική γραφή. Όταν αυτό θα είναι έτοιμο θα κάνω άλλο ένα testrun. Και ναι. Το νούμερο είναι η συχνότητα της λέξης.
makisgiasena Δημοσ. 16 Φεβρουαρίου 2018 Μέλος Δημοσ. 16 Φεβρουαρίου 2018 1 ώρα πριν, ajaxmonkey4hire είπε @makisgiasena αυτή η λίστα έγινε με το protoype wordcollector που φτιάχνω. Έχω μια βάση δεδομένων με 280.000 (98%) από όλα τα .gr domains και απλός έβαλα το πρόγραμμα να διάβαση τα πρωτοσέλιδα από της 8000 πρώτες domains κατά alexa rank χωρίς να λάβω υπόψη google, facebook κτλ. Η λίστα περιέχει δυο ειδών λάθη: 1. REGEX mismatches οπού το πρόγραμμα δεν αποστραγγίζει την λέξη σωστά από το HTML και διαβάζει δυο η περισσότερες λέξεις σαν μια. 2. Ορθογραφικά λάθη στο κείμενο της σελίδας. Έχω μια ανανεωμένη μορφή του προγράμματος με σωστά REGEX που λύνει το nr1. Όσο για το 2 ετοιμάζω μια στατιστική ανάλυση η οποία βρίσκει και μαρκάρει ανορθογραφίες και χωρίζει πολυτονική από μονοτονική γραφή. Όταν αυτό θα είναι έτοιμο θα κάνω άλλο ένα testrun. Και ναι. Το νούμερο είναι η συχνότητα της λέξης. Το προγραμμα που στηνεις ειναι σκραπερ; απο σαιτ ; Το κανεις σαν πτυχιακη, θες να το πουλησεις ή το εχεις open source ;
ajaxmonkey4hire Δημοσ. 16 Φεβρουαρίου 2018 Δημοσ. 16 Φεβρουαρίου 2018 (επεξεργασμένο) 57 λεπτά πριν, makisgiasena είπε Το προγραμμα που στηνεις ειναι σκραπερ; απο σαιτ ; Το κανεις σαν πτυχιακη, θες να το πουλησεις ή το εχεις open source ; φτιάχνω ένα search robot το οποίο διαφέρει από scraper μιας και το τελευταίο απλώς δημιουργεί αντιγραφές σελίδων ενώ το πρώτο διαβάζει ιστοσελίδες, αναλύει το περιεχόμενο και αποθηκεύει στατιστικά στοιχεία (vocabulary, links, meta tags, link texts, path patterns, distinct wordcounts etc...) και indices. Το ξεκίνησα σαν recreational coding αλλά έχει μεταλλαχθεί σε μια προσπάθεια δημιουργίας μιας "Διαφορετικής" μηχανής αναζήτησης. Σκοπεύω να χρησιμοποιήσω τα στοιχεία πρωτίστως για seo αλλά και για άλλους σκοπούς. Τα βασικά θα είναι διαθέσιμα δωρεάν, άλλα μέσω paid subscriptions Επεξ/σία 16 Φεβρουαρίου 2018 από ajaxmonkey4hire 1
makisgiasena Δημοσ. 16 Φεβρουαρίου 2018 Μέλος Δημοσ. 16 Φεβρουαρίου 2018 1 ώρα πριν, ajaxmonkey4hire είπε φτιάχνω ένα search robot το οποίο διαφέρει από scraper μιας και το τελευταίο απλώς δημιουργεί αντιγραφές σελίδων ενώ το πρώτο διαβάζει ιστοσελίδες, αναλύει το περιεχόμενο και αποθηκεύει στατιστικά στοιχεία (vocabulary, links, meta tags, link texts, path patterns, distinct wordcounts etc...) και indices. Το ξεκίνησα σαν recreational coding αλλά έχει μεταλλαχθεί σε μια προσπάθεια δημιουργίας μιας "Διαφορετικής" μηχανής αναζήτησης. Σκοπεύω να χρησιμοποιήσω τα στοιχεία πρωτίστως για seo αλλά και για άλλους σκοπούς. Τα βασικά θα είναι διαθέσιμα δωρεάν, άλλα μέσω paid subscriptions Τρελος ! οταν παιξεις και το λασαρεις στειλε μου πμ να ειμαι ο μπετα τεστερ σου !
ajaxmonkey4hire Δημοσ. 17 Φεβρουαρίου 2018 Δημοσ. 17 Φεβρουαρίου 2018 είναι πολύ ποιο απλό απ ότι ακούγεται. Διαβάζεις μια σελίδα εκτελείς κάποιο regex και φτιάχνεις ένα index. Πες πως η σελίδα περιέχει Ελληνικά σε μονοτονικό και πολυτονικό, αγγλικά, hiragana, katakana, kanji. το μόνο που θα σου δημιουργήσει πρόβλημα στην extraction είναι τα αγγλικά μιας και λατινικοί χαρακτήρες χρησιμοποιούνται και στα html tags. Για παράδειγμα: var str = '<div>'+ 'Αυτοί που μπαίνουν στα ίδια ποτάμια δέχονται συνέχεια άλλα κι άλλα νερά<br />'+ 'ποταμοῖσι τοῖσιν αὐτοῖσιν ἐμβαίνουσιν, ἕτερα καὶ ἕτερα ὕδατα ἐπιρρεῖ<br />'+ 'Japanese otakuおたくnihongo日本語otakuオタク<br />'+ '</div>'; console.log('Ελληνικά: '+str.match(/([\u03AC-\u03CE\u1F00-\u1Fff]+)/gi).join(', ')); console.log('Kanji: '+str.match(/([\u4e00-\u9faf]+)/gi).join(', ')); console.log('Hiragana: '+str.match(/([\u3040-\u309F]+)/gi).join(', ')); console.log('Katakana: '+str.match(/([\u30A0-\u30FF]+)/gi).join(', ')); console.log('English: '+str.match(/([a-z]+)/gi).join(', ')); θα σου δώσει: Ελληνικά: Αυτοί, που, μπαίνουν, στα, ίδια, ποτάμια, δέχονται, συνέχεια, άλλα, κι, άλλα, νερά, ποταμοῖσι, τοῖσιν, αὐτοῖσιν, ἐμβαίνουσιν, ἕτερα, καὶ, ἕτερα, ὕδατα, ἐπιρρεῖ Kanji: 日本語 Hiragana: おたく Katakana: オタク English: div, br, br, Japanese, otaku, nihongo, otaku, br, div Όπως βλέπεις τα αγγλικά θέλουν επιπλέον επεξεργασία.
tsofras Δημοσ. 17 Φεβρουαρίου 2018 Δημοσ. 17 Φεβρουαρίου 2018 Οπότε με τα αγγλικά θα έχεις μεγάλο πρόβλημα , πως κανείς parse την σελίδα αν επιτρέπεται?
ajaxmonkey4hire Δημοσ. 17 Φεβρουαρίου 2018 Δημοσ. 17 Φεβρουαρίου 2018 δεν έχω πρόβλημα απλά δίνω ένα παράδειγμα για regex. Στην εφαρμογή χρησιμοποιώ ένα DOM parser το οποίο μου δίνει κάθε DOM node με attributes και text content έναντι του οποίου εκτελώ regex.
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα