Weka και data preprocessing

groot · 25 Μαΐου 2016

ΟΚ, σύνδεσα.

Αυτό που δεν κατάλαβα είναι τι θες να κάνεις. Θέλεις να δημιουργήσεις instances για να ισομοιράσεις τα attributes;

Τι ακριβώς θες να κάνεις; Το συγκεκριμένο φίλτρο δεν το έχω χρησιμοποιήσει.

giorgos147 · 25 Μαΐου 2016

Θα προσπαθήσω να δώσω ένα απλοϊκό παράδειγμα.

Έχουμε 100 άτομα. Και τα 100 χρησιμοποιούσαν το ίδιο φάρμακο για μία περίοδο. Οι 90 τελείωσαν την αγωγή και δεν χρειάστηκε να το χρησιμοποιούν ξανά. Οι άλλοι 10, έπρεπε να ξεκινήσουν πάλι την αγωγή. Αν εγώ έχω 90/10, τότε στο μοντέλο που θα βγάλω θα δίνω μεγαλύτερη βαρύτητα σε αυτούς που δεν έχουν πρόβλημα, και δε θα μπορώ να τσεκάρω σωστά τους λόγους για τους οποίους οι άλλοι 10 έπρεπε να συνεχίσουν την αγωγή;

Δε ξέρω αν ήμουν κατανοητός. Ίσως και να είμαι λάθος. Απλά νομίζω πρέπει να φέρω ισορροπία αρχικά στα δεδομένα, "πετώντας" (ή αν θέλεις διαλέγοντας) ένα ποσοστό από τους 90 για να κρατήσω.

groot · 25 Μαΐου 2016

Ναι...

Γενικά αυτό που λες, αν και σαν "ιδέα"/"σκέψη" μπορεί να σου φαίνεται ΟΚ, μπάζει εντελώς σε θέμα υλοποίησης. Είναι αρκετά τα θέματα που πρέπει να λύσεις πριν καν πιάσεις το πουλί (της Ν. Ζηλανδίας).

Αφού λύσεις αυτά τα ζητήματα, και εάν θέλεις κάτι πιο εξελιγμένο από απλό διαχωρισμό του σετ σου βάσει της KL divergence, θα πρέπει να λύσεις άλλα τα οποία είναι η γνώση του τι αλγόριθμο χρησιμοποίησες, τι σημαίνουν τα νουμεράκια και πώς, τελικά, κάνεις interpret το αποτέλεσμα.

Δεν ξέρω εάν κανείς σε βοηθήσει, εγώ πάντως δεν έχω το κουράγιο.

Lanike71 · 25 Μαΐου 2016

Να σου δώσω μία ιδέα (κλεμμένη από kaggle είναι που ασχολούμαι τώρα τελευταία) :

Χώρισε τα δεδομένα σου με τους 90 σε 9 τυχαία σετς και σύνδεσέ τα ανά ένα κάθε φορά με το σετ των 10 που συνεχίζουν την αγωγή.Άρα θα έχεις σετάκια των 10-10 ισομοιρασμένα.

Τρέξε τον αλγόριθμο που θα επιλέξεις με διαφορετικό σετ κάθε φορά και πάρε το μέσο όρο τους.

Αν θες να δεις πάντως προκοπή, ξέχνα το weka. Πολύ αργό και χωρίς πολλές επιλογές.Πήγαινε σε R και θα με θυμηθείς.

giorgos147 · 25 Μαΐου 2016

Θα το ξανακοιτάξω αύριο γιατί τώρα δεν, και αν είναι θα επιστρέψω. Αλλιώς θαλλαξω data set.

Ευχαριστώ και τους δυο σας.

groot · 25 Μαΐου 2016

Αυτό με το τους 90 σε 9 σετάκια, θα παράξει ένα biased μοντέλο. Το σύστημα βλέπει αρκετές διαφορετικές παρατηρήσεις από την κλάση Α (έστω αυτή με τους 90) ενώ από την Β μόνο τους ίδιους.

Εν τέλει, θα δώσει (σχεδόν) το ίδιο αποτέλεσμα με το να χρησιμοποιηθεί το αρχικό dataset.

giorgos147 · 27 Μαΐου 2016

Τελικά άλλαξα dataset. Πάλι βέβαια έχω θέμα. Από τα π.χ. 10 attributes, ύστερα από καθαρισμό κ.λπ., θέλω να κρατήσω τα 5 που.... εγώ βλέπω ότι δίνουν πιο σωστή πληροφορία. Όμως, αν τρέξω από το πουλί αλγόριθμους όπως CfsSubsetEval κ.λπ., δίνουν εντελώς διαφορετικές επιλογές.

Βέβαια, με αυτά που κρατάω εγώ, αν δοκιμάσω μετά με J48 π.χ., έχω Correctly classified: ~91% kai roc area 0.86

Τά'χω κάνει πτανα στο μυαλό μου, αλλά στέκουν όλα τα παραπάνω; Είμαι διστακτικός και έτσι δε μπορώ να συνεχίσω. Δε ξέρω τι είναι σωστό και τι λάθος.

Όπως και άλλο ερώτημα: το να αλλάξω ένα attribute από numeric σε nominal, έχει παραπάνω σημασία πέρα από το ότι κάποιοι αλγόριθμοι απλά δεν δέχονται numeric;

M2000 · 28 Μαΐου 2016

Μήπως βοηθάει αυτό http://www.excel-easy.com/examples/anova.html

Και εδώ

http://www.excel-easy.com/examples/t-test.html

groot · 28 Μαΐου 2016

Τελικά άλλαξα dataset. Πάλι βέβαια έχω θέμα. Από τα π.χ. 10 attributes, ύστερα από καθαρισμό κ.λπ., θέλω να κρατήσω τα 5 που.... εγώ βλέπω ότι δίνουν πιο σωστή πληροφορία. Όμως, αν τρέξω από το πουλί αλγόριθμους όπως CfsSubsetEval κ.λπ., δίνουν εντελώς διαφορετικές επιλογές.

Βέβαια, με αυτά που κρατάω εγώ, αν δοκιμάσω μετά με J48 π.χ., έχω Correctly classified: ~91% kai roc area 0.86

Τά'χω κάνει πτανα στο μυαλό μου, αλλά στέκουν όλα τα παραπάνω; Είμαι διστακτικός και έτσι δε μπορώ να συνεχίσω. Δε ξέρω τι είναι σωστό και τι λάθος.

Όπως και άλλο ερώτημα: το να αλλάξω ένα attribute από numeric σε nominal, έχει παραπάνω σημασία πέρα από το ότι κάποιοι αλγόριθμοι απλά δεν δέχονται numeric;

1) Δοκίμασε infogain και chi

2) Δεν δέχονται numeric ως attribute κατηγοριοποίησης. Αυτό γιατί είναι classifiers. Ποιον θα ήθελες και συναντάς πρόβλημα;

Σύνδεση

Weka και data preprocessing

Προτεινόμενες αναρτήσεις

groot

giorgos147

groot

Lanike71

giorgos147

groot

giorgos147

M2000

groot

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση