Προς το περιεχόμενο

Ελληνικές βάσεις δεδομένων


makisgiasena

Προτεινόμενες αναρτήσεις

Καλημέρα, ψάχνω να βρω ελληνικές βάσεις δεδομένων με όλες τις ελληνικές λέξεις, ψηφιοποιημενες σε xt, cvs, excel για να μπορώ να τις χειριστώ με κώδικα. 

 

Εκτός του greeklex που την έχω βρει υπάρχει κάποια αλλη; 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

ορίστε:  http://104.236.83.163/greekwords.csv

αυτή είναι μια συλλογή λέξεων από 8000 ελληνικές ιστοσελίδες. Αν έχεις κάποιο text editor που υποστηρίζει utf-8 (NotePad++) μπορείς να το διάβασης ειδάλλως μπορώ να κάνω ένα export σε html και να σου δώσω το link.

 

  • Like 2
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Φιλε μου αρχικα, σε ευχαριστω πολυ.

Εχω τρεις ερωτησεις:

1)  ειδα οτι καποιες λεξεις δεν ειναι τονισμενες,  αυτο εγινε επειδη εγιναν σκραπινγκ απο τα σαιτ ;

2) Ειναι ελεγμενα σωστες ;

3) Το νουμερο δεξια ειναι η συχνοτητα ;

 

Ευχαριστω !

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

@makisgiasena

αυτή η λίστα έγινε με το protoype wordcollector που φτιάχνω. Έχω μια βάση δεδομένων με 280.000 (98%) από όλα τα .gr domains και απλός έβαλα το πρόγραμμα να διάβαση τα πρωτοσέλιδα από της 8000 πρώτες domains κατά alexa rank χωρίς να λάβω υπόψη google, facebook κτλ.

Η λίστα περιέχει δυο ειδών λάθη:

1. REGEX mismatches οπού το πρόγραμμα δεν αποστραγγίζει την λέξη σωστά από το HTML και διαβάζει δυο η περισσότερες λέξεις σαν μια. 

2. Ορθογραφικά λάθη στο κείμενο της σελίδας.

Έχω μια ανανεωμένη μορφή του προγράμματος με σωστά REGEX που λύνει το nr1.

Όσο για το 2 ετοιμάζω μια στατιστική ανάλυση η οποία βρίσκει και μαρκάρει ανορθογραφίες και χωρίζει πολυτονική από μονοτονική γραφή. Όταν αυτό θα είναι έτοιμο θα κάνω άλλο ένα testrun.

Και ναι. Το νούμερο είναι η συχνότητα της λέξης.

 

 

 

 

 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

1 ώρα πριν, ajaxmonkey4hire είπε

@makisgiasena

αυτή η λίστα έγινε με το protoype wordcollector που φτιάχνω. Έχω μια βάση δεδομένων με 280.000 (98%) από όλα τα .gr domains και απλός έβαλα το πρόγραμμα να διάβαση τα πρωτοσέλιδα από της 8000 πρώτες domains κατά alexa rank χωρίς να λάβω υπόψη google, facebook κτλ.

Η λίστα περιέχει δυο ειδών λάθη:

1. REGEX mismatches οπού το πρόγραμμα δεν αποστραγγίζει την λέξη σωστά από το HTML και διαβάζει δυο η περισσότερες λέξεις σαν μια. 

2. Ορθογραφικά λάθη στο κείμενο της σελίδας.

Έχω μια ανανεωμένη μορφή του προγράμματος με σωστά REGEX που λύνει το nr1.

Όσο για το 2 ετοιμάζω μια στατιστική ανάλυση η οποία βρίσκει και μαρκάρει ανορθογραφίες και χωρίζει πολυτονική από μονοτονική γραφή. Όταν αυτό θα είναι έτοιμο θα κάνω άλλο ένα testrun.

Και ναι. Το νούμερο είναι η συχνότητα της λέξης.

Το προγραμμα που στηνεις ειναι σκραπερ; απο σαιτ ; 

Το κανεις σαν πτυχιακη, θες να το πουλησεις ή το εχεις open source ;

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημοσ. (επεξεργασμένο)
57 λεπτά πριν, makisgiasena είπε

Το προγραμμα που στηνεις ειναι σκραπερ; απο σαιτ ; 

Το κανεις σαν πτυχιακη, θες να το πουλησεις ή το εχεις open source ;

φτιάχνω ένα search robot το οποίο διαφέρει από scraper μιας και το τελευταίο απλώς δημιουργεί αντιγραφές σελίδων ενώ το πρώτο διαβάζει ιστοσελίδες, αναλύει το περιεχόμενο και αποθηκεύει στατιστικά στοιχεία (vocabulary, links, meta tags, link texts, path patterns, distinct wordcounts etc...) και indices.

Το ξεκίνησα σαν recreational coding αλλά έχει μεταλλαχθεί σε μια προσπάθεια δημιουργίας μιας "Διαφορετικής" μηχανής αναζήτησης.  Σκοπεύω να χρησιμοποιήσω τα στοιχεία πρωτίστως για seo αλλά και για άλλους σκοπούς.  Τα βασικά θα είναι διαθέσιμα δωρεάν, άλλα μέσω paid subscriptions

Επεξ/σία από ajaxmonkey4hire
  • Like 1
Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

1 ώρα πριν, ajaxmonkey4hire είπε

φτιάχνω ένα search robot το οποίο διαφέρει από scraper μιας και το τελευταίο απλώς δημιουργεί αντιγραφές σελίδων ενώ το πρώτο διαβάζει ιστοσελίδες, αναλύει το περιεχόμενο και αποθηκεύει στατιστικά στοιχεία (vocabulary, links, meta tags, link texts, path patterns, distinct wordcounts etc...) και indices.

Το ξεκίνησα σαν recreational coding αλλά έχει μεταλλαχθεί σε μια προσπάθεια δημιουργίας μιας "Διαφορετικής" μηχανής αναζήτησης.  Σκοπεύω να χρησιμοποιήσω τα στοιχεία πρωτίστως για seo αλλά και για άλλους σκοπούς.  Τα βασικά θα είναι διαθέσιμα δωρεάν, άλλα μέσω paid subscriptions

Τρελος ! οταν παιξεις και το λασαρεις στειλε μου πμ να ειμαι ο μπετα τεστερ σου !

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

είναι πολύ ποιο απλό απ ότι ακούγεται. Διαβάζεις μια σελίδα εκτελείς κάποιο regex και φτιάχνεις ένα index. Πες πως η σελίδα περιέχει Ελληνικά σε μονοτονικό και πολυτονικό, αγγλικά, hiragana, katakana, kanji. το μόνο που θα σου δημιουργήσει πρόβλημα στην extraction είναι τα αγγλικά μιας και λατινικοί χαρακτήρες χρησιμοποιούνται και στα html tags. Για παράδειγμα:

var str = '<div>'+
		  'Αυτοί που μπαίνουν στα ίδια ποτάμια δέχονται συνέχεια άλλα κι άλλα νερά<br />'+ 
		  'ποταμοῖσι τοῖσιν αὐτοῖσιν ἐμβαίνουσιν, ἕτερα καὶ ἕτερα ὕδατα ἐπιρρεῖ<br />'+
		  'Japanese otakuおたくnihongo日本語otakuオタク<br />'+
		  '</div>';
		  
console.log('Ελληνικά: '+str.match(/([\u03AC-\u03CE\u1F00-\u1Fff]+)/gi).join(', '));
console.log('Kanji: '+str.match(/([\u4e00-\u9faf]+)/gi).join(', '));
console.log('Hiragana: '+str.match(/([\u3040-\u309F]+)/gi).join(', '));
console.log('Katakana: '+str.match(/([\u30A0-\u30FF]+)/gi).join(', '));
console.log('English: '+str.match(/([a-z]+)/gi).join(', '));

θα σου δώσει:

Ελληνικά: Αυτοί, που, μπαίνουν, στα, ίδια, ποτάμια, δέχονται, συνέχεια, άλλα, κι, άλλα, νερά, ποταμοῖσι, τοῖσιν, αὐτοῖσιν, ἐμβαίνουσιν, ἕτερα, καὶ, ἕτερα, ὕδατα, ἐπιρρεῖ
Kanji: 日本語
Hiragana: おたく
Katakana: オタク
English: div, br, br, Japanese, otaku, nihongo, otaku, br, div

Όπως βλέπεις τα αγγλικά θέλουν επιπλέον επεξεργασία.
 

 

 

 

 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

δεν έχω πρόβλημα απλά δίνω ένα παράδειγμα για regex. Στην εφαρμογή χρησιμοποιώ ένα  DOM parser το οποίο μου δίνει κάθε DOM node με attributes και text content έναντι του οποίου εκτελώ regex. 

Συνδέστε για να σχολιάσετε
Κοινοποίηση σε άλλες σελίδες

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...