Ελληνικές βάσεις δεδομένων

makisgiasena · 8 Φεβρουαρίου 2018

Καλημέρα, ψάχνω να βρω ελληνικές βάσεις δεδομένων με όλες τις ελληνικές λέξεις, ψηφιοποιημενες σε xt, cvs, excel για να μπορώ να τις χειριστώ με κώδικα.

Εκτός του greeklex που την έχω βρει υπάρχει κάποια αλλη;

ajaxmonkey4hire · 15 Φεβρουαρίου 2018

ορίστε: http://104.236.83.163/greekwords.csv

αυτή είναι μια συλλογή λέξεων από 8000 ελληνικές ιστοσελίδες. Αν έχεις κάποιο text editor που υποστηρίζει utf-8 (NotePad++) μπορείς να το διάβασης ειδάλλως μπορώ να κάνω ένα export σε html και να σου δώσω το link.

makisgiasena · 16 Φεβρουαρίου 2018

Φιλε μου αρχικα, σε ευχαριστω πολυ.

Εχω τρεις ερωτησεις:

1) ειδα οτι καποιες λεξεις δεν ειναι τονισμενες, αυτο εγινε επειδη εγιναν σκραπινγκ απο τα σαιτ ;

2) Ειναι ελεγμενα σωστες ;

3) Το νουμερο δεξια ειναι η συχνοτητα ;

Ευχαριστω !

ajaxmonkey4hire · 16 Φεβρουαρίου 2018

@makisgiasena

αυτή η λίστα έγινε με το protoype wordcollector που φτιάχνω. Έχω μια βάση δεδομένων με 280.000 (98%) από όλα τα .gr domains και απλός έβαλα το πρόγραμμα να διάβαση τα πρωτοσέλιδα από της 8000 πρώτες domains κατά alexa rank χωρίς να λάβω υπόψη google, facebook κτλ.

Η λίστα περιέχει δυο ειδών λάθη:

1. REGEX mismatches οπού το πρόγραμμα δεν αποστραγγίζει την λέξη σωστά από το HTML και διαβάζει δυο η περισσότερες λέξεις σαν μια.

2. Ορθογραφικά λάθη στο κείμενο της σελίδας.

Έχω μια ανανεωμένη μορφή του προγράμματος με σωστά REGEX που λύνει το nr1.

Όσο για το 2 ετοιμάζω μια στατιστική ανάλυση η οποία βρίσκει και μαρκάρει ανορθογραφίες και χωρίζει πολυτονική από μονοτονική γραφή. Όταν αυτό θα είναι έτοιμο θα κάνω άλλο ένα testrun.

Και ναι. Το νούμερο είναι η συχνότητα της λέξης.

makisgiasena · 16 Φεβρουαρίου 2018

1 ώρα πριν, ajaxmonkey4hire είπε

@makisgiasena

αυτή η λίστα έγινε με το protoype wordcollector που φτιάχνω. Έχω μια βάση δεδομένων με 280.000 (98%) από όλα τα .gr domains και απλός έβαλα το πρόγραμμα να διάβαση τα πρωτοσέλιδα από της 8000 πρώτες domains κατά alexa rank χωρίς να λάβω υπόψη google, facebook κτλ.

Η λίστα περιέχει δυο ειδών λάθη:

1. REGEX mismatches οπού το πρόγραμμα δεν αποστραγγίζει την λέξη σωστά από το HTML και διαβάζει δυο η περισσότερες λέξεις σαν μια.

2. Ορθογραφικά λάθη στο κείμενο της σελίδας.

Έχω μια ανανεωμένη μορφή του προγράμματος με σωστά REGEX που λύνει το nr1.

Όσο για το 2 ετοιμάζω μια στατιστική ανάλυση η οποία βρίσκει και μαρκάρει ανορθογραφίες και χωρίζει πολυτονική από μονοτονική γραφή. Όταν αυτό θα είναι έτοιμο θα κάνω άλλο ένα testrun.

Και ναι. Το νούμερο είναι η συχνότητα της λέξης.

Το προγραμμα που στηνεις ειναι σκραπερ; απο σαιτ ;

Το κανεις σαν πτυχιακη, θες να το πουλησεις ή το εχεις open source ;

ajaxmonkey4hire · 16 Φεβρουαρίου 2018

57 λεπτά πριν, makisgiasena είπε

Το προγραμμα που στηνεις ειναι σκραπερ; απο σαιτ ;

Το κανεις σαν πτυχιακη, θες να το πουλησεις ή το εχεις open source ;

φτιάχνω ένα search robot το οποίο διαφέρει από scraper μιας και το τελευταίο απλώς δημιουργεί αντιγραφές σελίδων ενώ το πρώτο διαβάζει ιστοσελίδες, αναλύει το περιεχόμενο και αποθηκεύει στατιστικά στοιχεία (vocabulary, links, meta tags, link texts, path patterns, distinct wordcounts etc...) και indices.

Το ξεκίνησα σαν recreational coding αλλά έχει μεταλλαχθεί σε μια προσπάθεια δημιουργίας μιας "Διαφορετικής" μηχανής αναζήτησης. Σκοπεύω να χρησιμοποιήσω τα στοιχεία πρωτίστως για seo αλλά και για άλλους σκοπούς. Τα βασικά θα είναι διαθέσιμα δωρεάν, άλλα μέσω paid subscriptions

Επεξ/σία 16 Φεβρουαρίου 2018 από ajaxmonkey4hire

makisgiasena · 16 Φεβρουαρίου 2018

1 ώρα πριν, ajaxmonkey4hire είπε

φτιάχνω ένα search robot το οποίο διαφέρει από scraper μιας και το τελευταίο απλώς δημιουργεί αντιγραφές σελίδων ενώ το πρώτο διαβάζει ιστοσελίδες, αναλύει το περιεχόμενο και αποθηκεύει στατιστικά στοιχεία (vocabulary, links, meta tags, link texts, path patterns, distinct wordcounts etc...) και indices.

Το ξεκίνησα σαν recreational coding αλλά έχει μεταλλαχθεί σε μια προσπάθεια δημιουργίας μιας "Διαφορετικής" μηχανής αναζήτησης. Σκοπεύω να χρησιμοποιήσω τα στοιχεία πρωτίστως για seo αλλά και για άλλους σκοπούς. Τα βασικά θα είναι διαθέσιμα δωρεάν, άλλα μέσω paid subscriptions

Τρελος ! οταν παιξεις και το λασαρεις στειλε μου πμ να ειμαι ο μπετα τεστερ σου !

ajaxmonkey4hire · 17 Φεβρουαρίου 2018

είναι πολύ ποιο απλό απ ότι ακούγεται. Διαβάζεις μια σελίδα εκτελείς κάποιο regex και φτιάχνεις ένα index. Πες πως η σελίδα περιέχει Ελληνικά σε μονοτονικό και πολυτονικό, αγγλικά, hiragana, katakana, kanji. το μόνο που θα σου δημιουργήσει πρόβλημα στην extraction είναι τα αγγλικά μιας και λατινικοί χαρακτήρες χρησιμοποιούνται και στα html tags. Για παράδειγμα:

var str = '<div>'+
		  'Αυτοί που μπαίνουν στα ίδια ποτάμια δέχονται συνέχεια άλλα κι άλλα νερά<br />'+ 
		  'ποταμοῖσι τοῖσιν αὐτοῖσιν ἐμβαίνουσιν, ἕτερα καὶ ἕτερα ὕδατα ἐπιρρεῖ<br />'+
		  'Japanese otakuおたくnihongo日本語otakuオタク<br />'+
		  '</div>';
		  
console.log('Ελληνικά: '+str.match(/([\u03AC-\u03CE\u1F00-\u1Fff]+)/gi).join(', '));
console.log('Kanji: '+str.match(/([\u4e00-\u9faf]+)/gi).join(', '));
console.log('Hiragana: '+str.match(/([\u3040-\u309F]+)/gi).join(', '));
console.log('Katakana: '+str.match(/([\u30A0-\u30FF]+)/gi).join(', '));
console.log('English: '+str.match(/([a-z]+)/gi).join(', '));

θα σου δώσει:

Ελληνικά: Αυτοί, που, μπαίνουν, στα, ίδια, ποτάμια, δέχονται, συνέχεια, άλλα, κι, άλλα, νερά, ποταμοῖσι, τοῖσιν, αὐτοῖσιν, ἐμβαίνουσιν, ἕτερα, καὶ, ἕτερα, ὕδατα, ἐπιρρεῖ
Kanji: 日本語
Hiragana: おたく
Katakana: オタク
English: div, br, br, Japanese, otaku, nihongo, otaku, br, div

Όπως βλέπεις τα αγγλικά θέλουν επιπλέον επεξεργασία.

tsofras · 17 Φεβρουαρίου 2018

Οπότε με τα αγγλικά θα έχεις μεγάλο πρόβλημα , πως κανείς parse την σελίδα αν επιτρέπεται?

ajaxmonkey4hire · 17 Φεβρουαρίου 2018

δεν έχω πρόβλημα απλά δίνω ένα παράδειγμα για regex. Στην εφαρμογή χρησιμοποιώ ένα DOM parser το οποίο μου δίνει κάθε DOM node με attributes και text content έναντι του οποίου εκτελώ regex.

Σύνδεση

Ελληνικές βάσεις δεδομένων

Προτεινόμενες αναρτήσεις

makisgiasena

ajaxmonkey4hire

makisgiasena

ajaxmonkey4hire

makisgiasena

ajaxmonkey4hire

makisgiasena

ajaxmonkey4hire

tsofras

ajaxmonkey4hire

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση