ελληνικές κοινές λέξεις (common words)

Seldimi · 12 Μαΐου 2010

Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)

Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει

Seldimi · 12 Μαΐου 2010

Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)

Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει

Directx · 12 Μαΐου 2010

Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)
Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει

Δες εδώ (ξεκίνησε από τους συνδέσμους και τις προθέσεις).

Directx · 12 Μαΐου 2010

Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)
Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει

Δες εδώ (ξεκίνησε από τους συνδέσμους και τις προθέσεις).

Seldimi · 12 Μαΐου 2010

ευχαριστώ αλλα ξέρω ελληνικά... αν υπάρχει καμια έτοιμη κλάση ή μεθοδος θα με βοηθούσε... αλλιώς θα τα κάνω μόνος

Seldimi · 12 Μαΐου 2010

ευχαριστώ αλλα ξέρω ελληνικά... αν υπάρχει καμια έτοιμη κλάση ή μεθοδος θα με βοηθούσε... αλλιώς θα τα κάνω μόνος

poscaman · 13 Μαΐου 2010

Μπορείς να βρεις κάμποσα corpus για την Ελληνική γλώσσα, το θέμα είναι ότι αυτό που ζητάς είναι περίεργο. Common Words, δεν υπάρχουν, αλλά πάνε ανάλογα το κείμενο, σε τι αναφέρεται, απο ποιον είναι γραμμένο κλπ.

Ρίξε μιο ματιά κι εδώ

Απο την άλλη, θα μπορούσες να το φτιάξεις μόνος σου, σχετικά εύκολα, με την βοήθεια κάποιου tokenizer. Φτιαχνεις tokens, τσιμπας αυτα με το μεγαλύτερο ποσοστο εμφανισης, και φτιαχνεις το array. Δεν κάθεσαι να περνας χειροκίνητα, μια μια λέξη στο array. Έτσι περνάς πρώτα το κείμενο απο tokenizer, και το array που γεμίζεις κάθε φορά, είναι διαφορετικό, προσαρμοσμένο στο κείμενο σου

Directx · 13 Μαΐου 2010

[..]αλλιώς θα τα κάνω μόνος

.. ξεκίνα

[..]Common Words, δεν υπάρχουν[..]

Όταν ζητάν κάτι τέτοιο, συνήθως εννοούν την αφαίρεση από την πρόταση των συνδέσμων, των προθέσεων ή των άρθρων κτλ. ώστε να είναι ευκολότερη η ανάλυση της από κάποιον parser ή να βελτιώνεται το ποσοστό επιτυχίας κάποιας αναζήτησης κτλ (φυσικά βρίσκει εφαρμογή και στην Ελληνική γλώσσα). Για την ιστορία, αυτό το τρικ το χρησιμοποιούν εδώ και πολλά χρόνια οι parsers των text & text graphics, adventures (πχ. τα παλία παιχνίδια της Sierra ή της αλλοτινής βασίλισσας InfoCom). Το ίδιο τρικ χρησιμοποιούν και οι περισσότερες μηχανές αναζήτησης κειμένου ώστε να αυξάνουν την ευστοχία των αποτελεσμάτων τους.

Seldimi · 13 Μαΐου 2010

Ναι αυτό προσπαθώ αλλα επειδή είναι μερος του μέρους ενός στοιχείου της πτυχιακής είπα να γλυτώσω χρόνο

Δίνω ένα παράδειγμα μήπως και κάποιοος δεν κατάλαβε τι θέλω ή έχει την καλοσύνη-χρόνο να μου προσθέσει και άλλα

PHP αλλα όποιο array μας κάνει

>
$commonWords = array (' και ',' για ',' ο ',' του ',' τον ',' η ',' της ',' την ',' από ',' μία ',' μια ',' είναι ',' σε ',' ή ',' με ',' οι ',' των ',' τους ',' οι ',' τις ',' τα ',' στο ',' στα ',' στις ',' να ',' μας ',' σας ',' τους ',' θα ',' που ',' ενός ',' ένας ',' έναν ',' περισσότερος ',' περισσότερη ',' περισσότερο ',' περισσότερα ',' ανάγνωση ',' ως ',' όσο ',' σαν ',' επομένως ',' επόμενος ',' επόμενη ',' προηγούμενη ',' προηγούμενος ',' αν ',' εαν ',' αρχή ',' αρχική ',' στη ',' στην ',' ό,τι ',' ότι ',' οτι ',' ένα ');

$string=str_replace($commonWords, '', $string);

poscaman · 13 Μαΐου 2010

Στο είπα και πριν, αλλά δεν το κατάλαβες. ΔΕΝ υπάρχουν common words. ΠΧ στο δικό σου array, εχεις προσθέσει το "αρχή" ή το "προηγούμενη". Αυτες μπορεί να είναι common words για κάποιο συγκεκριμένο κείμενο, όχι για οποιοδήποτε κείμενο σου δωθεί.

Πές μας λίγο τι θέλεις να επιτύχεις με αυτό το replace, μήπως υπάρχει κι άλλος τρόπος...

Seldimi · 13 Μαΐου 2010

Να φτιάχνω ένα keyword cloud από μια ιστοσελίδα (η γενικά κείμενο) χωρίς να επιρρεάζεται από common words...

Υ.Γ : το αρχή, προηγούμενη κτλ το βαλα γιατί είναι common σε πλοήγηση από ιστοσελίδες

poscaman · 13 Μαΐου 2010

Επιμένω στον tokenizer. Βγάζεις (εξαιρεις) τα Ν πρώτα σε συχνότητα tokens, και προσθέτεις και κάποια δικά σου.

Ακόμα πιο μακριά βέβαια, θα μπορούσες (επειδή είναι και στα πλαίσια διπλωματικής) να κάνεις πειραματικές μετρήσεις σε σελίδες, και να βγάλεις common keywords τα οποιά θα τα εξαιρέσεις κι αυτά απο το keyword cloud σου

Σύνδεση

ελληνικές κοινές λέξεις (common words)

Προτεινόμενες αναρτήσεις

Seldimi

Seldimi

Directx

Directx

Seldimi

Seldimi

poscaman

Directx

Seldimi

poscaman

Seldimi

poscaman

Αρχειοθετημένο

Σύνδεση