Seldimi Δημοσ. 12 Μαΐου 2010 Δημοσ. 12 Μαΐου 2010 Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ) Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει
Seldimi Δημοσ. 12 Μαΐου 2010 Μέλος Δημοσ. 12 Μαΐου 2010 Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ) Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει
Directx Δημοσ. 12 Μαΐου 2010 Δημοσ. 12 Μαΐου 2010 Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει Δες εδώ (ξεκίνησε από τους συνδέσμους και τις προθέσεις).
Directx Δημοσ. 12 Μαΐου 2010 Δημοσ. 12 Μαΐου 2010 Μήπως έχει κάποιος ή γνωρίζει ένα έτοιμο array με αρκετές common words (ή, και, με, σε κτλ)Θέλω να καθαρίσω ένα string από αυτές με το regural expressions, οπότε αν έχει κάποιος σε όποια γλώσσα προγραμματισμού... ευχαρίστως να το postάρει Δες εδώ (ξεκίνησε από τους συνδέσμους και τις προθέσεις).
Seldimi Δημοσ. 12 Μαΐου 2010 Μέλος Δημοσ. 12 Μαΐου 2010 ευχαριστώ αλλα ξέρω ελληνικά... αν υπάρχει καμια έτοιμη κλάση ή μεθοδος θα με βοηθούσε... αλλιώς θα τα κάνω μόνος
Seldimi Δημοσ. 12 Μαΐου 2010 Μέλος Δημοσ. 12 Μαΐου 2010 ευχαριστώ αλλα ξέρω ελληνικά... αν υπάρχει καμια έτοιμη κλάση ή μεθοδος θα με βοηθούσε... αλλιώς θα τα κάνω μόνος
poscaman Δημοσ. 13 Μαΐου 2010 Δημοσ. 13 Μαΐου 2010 Μπορείς να βρεις κάμποσα corpus για την Ελληνική γλώσσα, το θέμα είναι ότι αυτό που ζητάς είναι περίεργο. Common Words, δεν υπάρχουν, αλλά πάνε ανάλογα το κείμενο, σε τι αναφέρεται, απο ποιον είναι γραμμένο κλπ. Ρίξε μιο ματιά κι εδώ Απο την άλλη, θα μπορούσες να το φτιάξεις μόνος σου, σχετικά εύκολα, με την βοήθεια κάποιου tokenizer. Φτιαχνεις tokens, τσιμπας αυτα με το μεγαλύτερο ποσοστο εμφανισης, και φτιαχνεις το array. Δεν κάθεσαι να περνας χειροκίνητα, μια μια λέξη στο array. Έτσι περνάς πρώτα το κείμενο απο tokenizer, και το array που γεμίζεις κάθε φορά, είναι διαφορετικό, προσαρμοσμένο στο κείμενο σου
Directx Δημοσ. 13 Μαΐου 2010 Δημοσ. 13 Μαΐου 2010 [..]αλλιώς θα τα κάνω μόνος .. ξεκίνα [..]Common Words, δεν υπάρχουν[..] Όταν ζητάν κάτι τέτοιο, συνήθως εννοούν την αφαίρεση από την πρόταση των συνδέσμων, των προθέσεων ή των άρθρων κτλ. ώστε να είναι ευκολότερη η ανάλυση της από κάποιον parser ή να βελτιώνεται το ποσοστό επιτυχίας κάποιας αναζήτησης κτλ (φυσικά βρίσκει εφαρμογή και στην Ελληνική γλώσσα). Για την ιστορία, αυτό το τρικ το χρησιμοποιούν εδώ και πολλά χρόνια οι parsers των text & text graphics, adventures (πχ. τα παλία παιχνίδια της Sierra ή της αλλοτινής βασίλισσας InfoCom). Το ίδιο τρικ χρησιμοποιούν και οι περισσότερες μηχανές αναζήτησης κειμένου ώστε να αυξάνουν την ευστοχία των αποτελεσμάτων τους.
Seldimi Δημοσ. 13 Μαΐου 2010 Μέλος Δημοσ. 13 Μαΐου 2010 Ναι αυτό προσπαθώ αλλα επειδή είναι μερος του μέρους ενός στοιχείου της πτυχιακής είπα να γλυτώσω χρόνο Δίνω ένα παράδειγμα μήπως και κάποιοος δεν κατάλαβε τι θέλω ή έχει την καλοσύνη-χρόνο να μου προσθέσει και άλλα PHP αλλα όποιο array μας κάνει > $commonWords = array (' και ',' για ',' ο ',' του ',' τον ',' η ',' της ',' την ',' από ',' μία ',' μια ',' είναι ',' σε ',' ή ',' με ',' οι ',' των ',' τους ',' οι ',' τις ',' τα ',' στο ',' στα ',' στις ',' να ',' μας ',' σας ',' τους ',' θα ',' που ',' ενός ',' ένας ',' έναν ',' περισσότερος ',' περισσότερη ',' περισσότερο ',' περισσότερα ',' ανάγνωση ',' ως ',' όσο ',' σαν ',' επομένως ',' επόμενος ',' επόμενη ',' προηγούμενη ',' προηγούμενος ',' αν ',' εαν ',' αρχή ',' αρχική ',' στη ',' στην ',' ό,τι ',' ότι ',' οτι ',' ένα '); $string=str_replace($commonWords, '', $string);
poscaman Δημοσ. 13 Μαΐου 2010 Δημοσ. 13 Μαΐου 2010 Στο είπα και πριν, αλλά δεν το κατάλαβες. ΔΕΝ υπάρχουν common words. ΠΧ στο δικό σου array, εχεις προσθέσει το "αρχή" ή το "προηγούμενη". Αυτες μπορεί να είναι common words για κάποιο συγκεκριμένο κείμενο, όχι για οποιοδήποτε κείμενο σου δωθεί. Πές μας λίγο τι θέλεις να επιτύχεις με αυτό το replace, μήπως υπάρχει κι άλλος τρόπος...
Seldimi Δημοσ. 13 Μαΐου 2010 Μέλος Δημοσ. 13 Μαΐου 2010 Να φτιάχνω ένα keyword cloud από μια ιστοσελίδα (η γενικά κείμενο) χωρίς να επιρρεάζεται από common words... Υ.Γ : το αρχή, προηγούμενη κτλ το βαλα γιατί είναι common σε πλοήγηση από ιστοσελίδες
poscaman Δημοσ. 13 Μαΐου 2010 Δημοσ. 13 Μαΐου 2010 Επιμένω στον tokenizer. Βγάζεις (εξαιρεις) τα Ν πρώτα σε συχνότητα tokens, και προσθέτεις και κάποια δικά σου. Ακόμα πιο μακριά βέβαια, θα μπορούσες (επειδή είναι και στα πλαίσια διπλωματικής) να κάνεις πειραματικές μετρήσεις σε σελίδες, και να βγάλεις common keywords τα οποιά θα τα εξαιρέσεις κι αυτά απο το keyword cloud σου
Προτεινόμενες αναρτήσεις
Αρχειοθετημένο
Αυτό το θέμα έχει αρχειοθετηθεί και είναι κλειστό για περαιτέρω απαντήσεις.