Προς το περιεχόμενο

ελληνικές κοινές λέξεις (common words)


Seldimi

Προτεινόμενες αναρτήσεις

Δημοσ.

Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)

Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει :)

Δημοσ.

Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)

Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει :)

Δημοσ.
Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)

Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει :)

 

Δες εδώ (ξεκίνησε από τους συνδέσμους και τις προθέσεις).

Δημοσ.
Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)

Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει :)

 

Δες εδώ (ξεκίνησε από τους συνδέσμους και τις προθέσεις).

Δημοσ.
:-D ευχαριστώ αλλα ξέρω ελληνικά... αν υπάρχει καμια έτοιμη κλάση ή μεθοδος θα με βοηθούσε... αλλιώς θα τα κάνω μόνος :-(
Δημοσ.
:-D ευχαριστώ αλλα ξέρω ελληνικά... αν υπάρχει καμια έτοιμη κλάση ή μεθοδος θα με βοηθούσε... αλλιώς θα τα κάνω μόνος :-(
Δημοσ.

Μπορείς να βρεις κάμποσα corpus για την Ελληνική γλώσσα, το θέμα είναι ότι αυτό που ζητάς είναι περίεργο. Common Words, δεν υπάρχουν, αλλά πάνε ανάλογα το κείμενο, σε τι αναφέρεται, απο ποιον είναι γραμμένο κλπ.

 

Ρίξε μιο ματιά κι εδώ

 

 

Απο την άλλη, θα μπορούσες να το φτιάξεις μόνος σου, σχετικά εύκολα, με την βοήθεια κάποιου tokenizer. Φτιαχνεις tokens, τσιμπας αυτα με το μεγαλύτερο ποσοστο εμφανισης, και φτιαχνεις το array. Δεν κάθεσαι να περνας χειροκίνητα, μια μια λέξη στο array. Έτσι περνάς πρώτα το κείμενο απο tokenizer, και το array που γεμίζεις κάθε φορά, είναι διαφορετικό, προσαρμοσμένο στο κείμενο σου

Δημοσ.
[..]αλλιώς θα τα κάνω μόνος :-(

 

.. ξεκίνα :-)

 

[..]Common Words, δεν υπάρχουν[..]

 

Όταν ζητάν κάτι τέτοιο, συνήθως εννοούν την αφαίρεση από την πρόταση των συνδέσμων, των προθέσεων ή των άρθρων κτλ. ώστε να είναι ευκολότερη η ανάλυση της από κάποιον parser ή να βελτιώνεται το ποσοστό επιτυχίας κάποιας αναζήτησης κτλ (φυσικά βρίσκει εφαρμογή και στην Ελληνική γλώσσα). Για την ιστορία, αυτό το τρικ το χρησιμοποιούν εδώ και πολλά χρόνια οι parsers των text & text graphics, adventures (πχ. τα παλία παιχνίδια της Sierra ή της αλλοτινής βασίλισσας InfoCom). Το ίδιο τρικ χρησιμοποιούν και οι περισσότερες μηχανές αναζήτησης κειμένου ώστε να αυξάνουν την ευστοχία των αποτελεσμάτων τους.

Δημοσ.

Ναι αυτό προσπαθώ αλλα επειδή είναι μερος του μέρους ενός στοιχείου της πτυχιακής είπα να γλυτώσω χρόνο

 

Δίνω ένα παράδειγμα μήπως και κάποιοος δεν κατάλαβε τι θέλω ή έχει την καλοσύνη-χρόνο να μου προσθέσει και άλλα :-D

 

PHP αλλα όποιο array μας κάνει

>
$commonWords = array (' και ',' για ',' ο ',' του ',' τον ',' η ',' της ',' την ',' από ',' μία ',' μια ',' είναι ',' σε ',' ή ',' με ',' οι ',' των ',' τους ',' οι ',' τις ',' τα ',' στο ',' στα ',' στις ',' να ',' μας ',' σας ',' τους ',' θα ',' που ',' ενός ',' ένας ',' έναν ',' περισσότερος ',' περισσότερη ',' περισσότερο ',' περισσότερα ',' ανάγνωση ',' ως ',' όσο ',' σαν ',' επομένως ',' επόμενος ',' επόμενη ',' προηγούμενη ',' προηγούμενος ',' αν ',' εαν ',' αρχή ',' αρχική ',' στη ',' στην ',' ό,τι ',' ότι ',' οτι ',' ένα ');

$string=str_replace($commonWords, '', $string);

Δημοσ.

Στο είπα και πριν, αλλά δεν το κατάλαβες. ΔΕΝ υπάρχουν common words. ΠΧ στο δικό σου array, εχεις προσθέσει το "αρχή" ή το "προηγούμενη". Αυτες μπορεί να είναι common words για κάποιο συγκεκριμένο κείμενο, όχι για οποιοδήποτε κείμενο σου δωθεί.

 

Πές μας λίγο τι θέλεις να επιτύχεις με αυτό το replace, μήπως υπάρχει κι άλλος τρόπος...

Δημοσ.

Να φτιάχνω ένα keyword cloud από μια ιστοσελίδα (η γενικά κείμενο) χωρίς να επιρρεάζεται από common words...

 

Υ.Γ : το αρχή, προηγούμενη κτλ το βαλα γιατί είναι common σε πλοήγηση από ιστοσελίδες

Δημοσ.

Επιμένω στον tokenizer. Βγάζεις (εξαιρεις) τα Ν πρώτα σε συχνότητα tokens, και προσθέτεις και κάποια δικά σου.

 

Ακόμα πιο μακριά βέβαια, θα μπορούσες (επειδή είναι και στα πλαίσια διπλωματικής) να κάνεις πειραματικές μετρήσεις σε σελίδες, και να βγάλεις common keywords τα οποιά θα τα εξαιρέσεις κι αυτά απο το keyword cloud σου

Αρχειοθετημένο

Αυτό το θέμα έχει αρχειοθετηθεί και είναι κλειστό για περαιτέρω απαντήσεις.

  • Δημιουργία νέου...