groot Δημοσ. 25 Μαΐου 2016 Δημοσ. 25 Μαΐου 2016 ΟΚ, σύνδεσα. Αυτό που δεν κατάλαβα είναι τι θες να κάνεις. Θέλεις να δημιουργήσεις instances για να ισομοιράσεις τα attributes; Τι ακριβώς θες να κάνεις; Το συγκεκριμένο φίλτρο δεν το έχω χρησιμοποιήσει.
giorgos147 Δημοσ. 25 Μαΐου 2016 Δημοσ. 25 Μαΐου 2016 Θα προσπαθήσω να δώσω ένα απλοϊκό παράδειγμα. Έχουμε 100 άτομα. Και τα 100 χρησιμοποιούσαν το ίδιο φάρμακο για μία περίοδο. Οι 90 τελείωσαν την αγωγή και δεν χρειάστηκε να το χρησιμοποιούν ξανά. Οι άλλοι 10, έπρεπε να ξεκινήσουν πάλι την αγωγή. Αν εγώ έχω 90/10, τότε στο μοντέλο που θα βγάλω θα δίνω μεγαλύτερη βαρύτητα σε αυτούς που δεν έχουν πρόβλημα, και δε θα μπορώ να τσεκάρω σωστά τους λόγους για τους οποίους οι άλλοι 10 έπρεπε να συνεχίσουν την αγωγή; Δε ξέρω αν ήμουν κατανοητός. Ίσως και να είμαι λάθος. Απλά νομίζω πρέπει να φέρω ισορροπία αρχικά στα δεδομένα, "πετώντας" (ή αν θέλεις διαλέγοντας) ένα ποσοστό από τους 90 για να κρατήσω.
groot Δημοσ. 25 Μαΐου 2016 Δημοσ. 25 Μαΐου 2016 Ναι... Γενικά αυτό που λες, αν και σαν "ιδέα"/"σκέψη" μπορεί να σου φαίνεται ΟΚ, μπάζει εντελώς σε θέμα υλοποίησης. Είναι αρκετά τα θέματα που πρέπει να λύσεις πριν καν πιάσεις το πουλί (της Ν. Ζηλανδίας). Αφού λύσεις αυτά τα ζητήματα, και εάν θέλεις κάτι πιο εξελιγμένο από απλό διαχωρισμό του σετ σου βάσει της KL divergence, θα πρέπει να λύσεις άλλα τα οποία είναι η γνώση του τι αλγόριθμο χρησιμοποίησες, τι σημαίνουν τα νουμεράκια και πώς, τελικά, κάνεις interpret το αποτέλεσμα. Δεν ξέρω εάν κανείς σε βοηθήσει, εγώ πάντως δεν έχω το κουράγιο. 1
Lanike71 Δημοσ. 25 Μαΐου 2016 Μέλος Δημοσ. 25 Μαΐου 2016 Να σου δώσω μία ιδέα (κλεμμένη από kaggle είναι που ασχολούμαι τώρα τελευταία) : Χώρισε τα δεδομένα σου με τους 90 σε 9 τυχαία σετς και σύνδεσέ τα ανά ένα κάθε φορά με το σετ των 10 που συνεχίζουν την αγωγή.Άρα θα έχεις σετάκια των 10-10 ισομοιρασμένα. Τρέξε τον αλγόριθμο που θα επιλέξεις με διαφορετικό σετ κάθε φορά και πάρε το μέσο όρο τους. Αν θες να δεις πάντως προκοπή, ξέχνα το weka. Πολύ αργό και χωρίς πολλές επιλογές.Πήγαινε σε R και θα με θυμηθείς. 1
giorgos147 Δημοσ. 26 Μαΐου 2016 Δημοσ. 26 Μαΐου 2016 Θα το ξανακοιτάξω αύριο γιατί τώρα δεν, και αν είναι θα επιστρέψω. Αλλιώς θαλλαξω data set. Ευχαριστώ και τους δυο σας.
groot Δημοσ. 26 Μαΐου 2016 Δημοσ. 26 Μαΐου 2016 Αυτό με το τους 90 σε 9 σετάκια, θα παράξει ένα biased μοντέλο. Το σύστημα βλέπει αρκετές διαφορετικές παρατηρήσεις από την κλάση Α (έστω αυτή με τους 90) ενώ από την Β μόνο τους ίδιους. Εν τέλει, θα δώσει (σχεδόν) το ίδιο αποτέλεσμα με το να χρησιμοποιηθεί το αρχικό dataset. 1
giorgos147 Δημοσ. 28 Μαΐου 2016 Δημοσ. 28 Μαΐου 2016 Τελικά άλλαξα dataset. Πάλι βέβαια έχω θέμα. Από τα π.χ. 10 attributes, ύστερα από καθαρισμό κ.λπ., θέλω να κρατήσω τα 5 που.... εγώ βλέπω ότι δίνουν πιο σωστή πληροφορία. Όμως, αν τρέξω από το πουλί αλγόριθμους όπως CfsSubsetEval κ.λπ., δίνουν εντελώς διαφορετικές επιλογές. Βέβαια, με αυτά που κρατάω εγώ, αν δοκιμάσω μετά με J48 π.χ., έχω Correctly classified: ~91% kai roc area 0.86 Τά'χω κάνει πτανα στο μυαλό μου, αλλά στέκουν όλα τα παραπάνω; Είμαι διστακτικός και έτσι δε μπορώ να συνεχίσω. Δε ξέρω τι είναι σωστό και τι λάθος. Όπως και άλλο ερώτημα: το να αλλάξω ένα attribute από numeric σε nominal, έχει παραπάνω σημασία πέρα από το ότι κάποιοι αλγόριθμοι απλά δεν δέχονται numeric;
M2000 Δημοσ. 28 Μαΐου 2016 Δημοσ. 28 Μαΐου 2016 Μήπως βοηθάει αυτό http://www.excel-easy.com/examples/anova.html Και εδώ http://www.excel-easy.com/examples/t-test.html
groot Δημοσ. 28 Μαΐου 2016 Δημοσ. 28 Μαΐου 2016 Στις 27/5/2016 στις 11:38 ΜΜ, giorgos147 είπε Τελικά άλλαξα dataset. Πάλι βέβαια έχω θέμα. Από τα π.χ. 10 attributes, ύστερα από καθαρισμό κ.λπ., θέλω να κρατήσω τα 5 που.... εγώ βλέπω ότι δίνουν πιο σωστή πληροφορία. Όμως, αν τρέξω από το πουλί αλγόριθμους όπως CfsSubsetEval κ.λπ., δίνουν εντελώς διαφορετικές επιλογές. Βέβαια, με αυτά που κρατάω εγώ, αν δοκιμάσω μετά με J48 π.χ., έχω Correctly classified: ~91% kai roc area 0.86 Τά'χω κάνει πτανα στο μυαλό μου, αλλά στέκουν όλα τα παραπάνω; Είμαι διστακτικός και έτσι δε μπορώ να συνεχίσω. Δε ξέρω τι είναι σωστό και τι λάθος. Όπως και άλλο ερώτημα: το να αλλάξω ένα attribute από numeric σε nominal, έχει παραπάνω σημασία πέρα από το ότι κάποιοι αλγόριθμοι απλά δεν δέχονται numeric; 1) Δοκίμασε infogain και chi 2) Δεν δέχονται numeric ως attribute κατηγοριοποίησης. Αυτό γιατί είναι classifiers. Ποιον θα ήθελες και συναντάς πρόβλημα;
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα