Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.

Καλησπέρα θα ήθελα να ξέρω προγραμματιστικά εάν μια λέξη είναι ουσιαστικό η επίθετο. Γι αυτό θα ήθελα εάν ξέρετε ένα API Λεξικού ή που μπορώ να βρώ μια wordlist προκειμένου να μπορώ να παίξω μπαλίτσα.

 

Το χρειάζομαι για ένα project.

 

Ουσιαστικά θέλω σε μια Ελληνική η Αγγλική πρόταση αν μια λέξη είναι επίθετο ή ουσιαστικό (και σαφώς όχι ρήμα επίρρημα, αντονυμία κλπ. κλπ.)

Δημοσ.

Μία λέξη, μόνη της, είναι αρκετά πιθανό να είναι και ουσιαστικό, και ρήμα, και επίθετο.

 

Το πως χρησιμοποιείται μέσα στην πρόταση κάνει την διαφορά. Εάν θέλεις να βρεις corpus με annotations για το part of speech τότε θα πρέπει να κινηθείς σε συγκεκριμένα data sets. Εάν θέλεις να βλέπεις γενικά τι είναι μία λέξη (όλα μαζί όμως) σου κάνει το wordnet.

 

Εσύ τι θέλεις να κάνεις;

Δημοσ.

Για ελληνικά μπορείς να δεις εδώ αλλά δεν νομίζω να δίνουν κώδικα. Αν οι ανάγκες σου είναι πχ 5-10 λέξεις τότε μπορείς απλά να κάνεις μερικά requests και parse την απάντηση.

http://www.lexigram.gr/lex/newg/

 

Αν βρεις κάτι άλλο πες γιατί με ψιλοενδιαφέρει και εμένα.


edit

Υπάρχει και αυτό το οποίο ίσως να σε βοηθήσει αν κάνεις κάτι δικό σου:

http://synagonism.net/otenet/grammar/wordforms.html#download

Δημοσ.

Θέλω να εξάγω λέξεις-κλειδιά από μια πρόταση.

 

Πχ. Εάν έχω την πρόταση: Big offers at Mcdonalds θέλω να εξάγω το "Big offers". Ομοίως στην πρόταση Ο παππάς ο παχύς έφαγε παχία φακή. Θέλω να εξάγω το "παππάς", "παχύς", "παχιά φακή".

 

Συν ότι θέλω να το κάνω από php website.

Δημοσ. (επεξεργασμένο)

Δύσκολα θα βρεις έτοιμο αυτό που θες, ιδίως για τα ελληνικά.

 

Αν θες να το υλοποιήσεις, δεν είναι άσχημο θέμα για διδακτορικό στην γλωσσολογία :P

Επεξ/σία από pmav99
  • Like 1
Δημοσ.

Ουσιαστικά θέλω:

Εαν μια λέξη είναι ουσιαστικό (από μια λίστα με ουσιαστικά) τότε κράτα την

Εάν είναι επίθετο (από μια λίστα με επίθετα) τότε τράβα και την επόμενη μέχρι να βρεις ουσιαστικό και μετά κράτα την.

Δημοσ.

Αυτό που θέλεις προϋποθέτει:

 

1) Γνώσεις από machine learning

2) Σωστά (i.e. με part of speech) annotated corpus

 

Γνώμη μου... ξέχασέ το. Όχι γιατί είναι δύσκολο... αλλά γιατί αφενός τέτοια corpus δεν υπάρχουν για ελληνικά και αφετέρου δεν μου φαίνεται ότι έχεις το background για να ασχοληθείς με αυτό το task.

Δημοσ.
Σωστά (i.e. με part of speech) annotated corpus

 

Το πιο κοντινό σε αυτό (βασικά κάτι σαν το αντίστροφο) είναι o ΕΘΕΓ, αλλά δεν δίνουν API, σιγά μη δίνουν κώδικα, και χωρίς συνδρομή σου επιστρέφει μόνο 5 αποτελέσματα.

Δημοσ.

Το πιο κοντινό σε αυτό (βασικά κάτι σαν το αντίστροφο) είναι o ΕΘΕΓ, αλλά δεν δίνουν API, σιγά μη δίνουν κώδικα, και χωρίς συνδρομή σου επιστρέφει μόνο 5 αποτελέσματα.

 

Καμία σχέση.

 

 

Εάν δεις κείμενο από αυτά που αναφέρω, δεν μπορείς να το διαβάσεις (εάν δεν ξέρεις αρκετά καλά τους συμβολισμούς) και είναι κυρίως για επεξεργασία από parsers.

 

 

Για αγγλικά υπάρχουν. Μικρά, μεγάλα, μεσαία... Για ελληνικά δεν θυμάμαι κάτι.

 

 

Π.χ.

 

 

Και αυτό (i.e. POS annotation) είναι από τα απλά ήδη από annotations που μπορεί να κάνει κανείς για τέτοια tasks αλλά κάνει για αυτό που λέει ότι θέλει να κάνει ο TS.

 

 

Αυτό που σίγουρα δεν μπορεί να κάνει (επειδή, προφανώς, δεν έχει την τεχνογνωσία) είναι να φτιάξει το σύστημα που θα μπορεί να πραγματοποιεί την δουλειά που (λέει ότι) θέλει να κάνει ο TS.

Δημοσ.

το ξέρο ότι ίσως να θέλει και machine learning απλά ήθελα να το κάνω όσο ποιο "χασάπικα" γίνεται. Γιατί θα εφαρμόσω τον αλγόριθμο σε scrapped html.

Δημοσ.

 

 

Π.χ.

 

Βλέπει την λέξη "συγγενής". Τι είναι; "Ο συγγενής"; "Η συγγενής (ιδιότητα)" ; Τι;

 

Και αυτό είναι ένα παράδειγμα που μου ήρθε... Πόσα τέτοια στα ελληνικά και στα αγγλικά ακόμα χειρότερα (π.χ. slam. Είναι και ρήμα και ουσιαστικό. Τι επιλέγεις; Crack; Τι; )

το ξέρο ότι ίσως να θέλει και machine learning απλά ήθελα να το κάνω όσο ποιο "χασάπικα" γίνεται. Γιατί θα εφαρμόσω τον αλγόριθμο σε scrapped html.

Όχι ίσως... θέλει.

Επισκέπτης
Δημοσ.

Ουσιαστικά θέλω:

Εαν μια λέξη είναι ουσιαστικό (από μια λίστα με ουσιαστικά) τότε κράτα την

Εάν είναι επίθετο (από μια λίστα με επίθετα) τότε τράβα και την επόμενη μέχρι να βρεις ουσιαστικό και μετά κράτα την.

 

Δεν ξέρω γιατί το θες αυτό οπότε όσα γράφω μπορεί να μην ισχύουν. Η αίσθηση μου είναι ότι αυτό που περιγράφεις δεν αρκεί για να σου κάνει τη δουλειά. Ουσιαστικά μιλάς για information retrieval και σε αυτές τις περιπτώσεις έχει πολύ μεγάλη σημασία η βαρύτητα μιας λέξης μέσα στο κείμενο. Έτσι για παράδειγμα βγάζει το Google keywords.

 

Γι αρχή μπορείς να δεις το παρακάτω:

https://en.wikipedia.org/wiki/Tf%E2%80%93idf

Δημοσ.

Καμία σχέση.

 

 

Εάν δεις κείμενο από αυτά που αναφέρω, δεν μπορείς να το διαβάσεις (εάν δεν ξέρεις αρκετά καλά τους συμβολισμούς) και είναι κυρίως για επεξεργασία από parsers.

 

 

Για αγγλικά υπάρχουν. Μικρά, μεγάλα, μεσαία... Για ελληνικά δεν θυμάμαι κάτι.

 

Δεν είπα ότι είναι το ίδιο. Με το «αντίστροφο» εννοούσα ότι δεν σου δίνουν πρόσβαση στο corpus αλλά δυνατότητα αναζήτησης σε αυτό.

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...