Επισκέπτης Δημοσ. 9 Μαρτίου 2022 Δημοσ. 9 Μαρτίου 2022 (επεξεργασμένο) Καλησπέρα παιδιά, Έχω μια εργασία και θέλω την γνώμη σας. Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y. Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους. Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y). Το train set έχει 6 μεταβλητές id - Κωδικός νοσοκομείου obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων std - τυπική απόκλιση; median - mean - skew - y - απάτη (0 - όχι, 1 - ναι). Το metric αξιολογείται σε AUC. Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+ Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω; Επεξ/σία 9 Μαρτίου 2022 από cchrm97
DrKo Δημοσ. 9 Μαρτίου 2022 Δημοσ. 9 Μαρτίου 2022 40 λεπτά πριν, cchrm97 είπε Καλησπέρα παιδιά, Έχω μια εργασία και θέλω την γνώμη σας. Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y. Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους. Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y). Το train set έχει 6 μεταβλητές id - Κωδικός νοσοκομείου obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων std - τυπική απόκλιση; median - mean - skew - y - απάτη (0 - όχι, 1 - ναι). Το metric αξιολογείται σε AUC. Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+ Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω; Είναι πολύ γενική η ερώτηση σου. Τι έχεις κάνει; Για να λες ότι έχεις απόδοση λίγο πιο πάνω από τυχαία μαντεψιά, μάλλον δεν έχεις κάνει πολλά. Επίσης, τα στοιχεία που παράθεσες, δεν βγάζουν και πολύ νόημα. Για παράδειγμα, τίνος είναι τα statistics που έχει κάθε νοσοκομείο; Δηλαδή, από τι ακριβώς υπολογίζεται το mean για παράδειγμα;
Επισκέπτης Δημοσ. 9 Μαρτίου 2022 Δημοσ. 9 Μαρτίου 2022 (επεξεργασμένο) 1 ώρα πριν, DrKo είπε Είναι πολύ γενική η ερώτηση σου. Τι έχεις κάνει; Για να λες ότι έχεις απόδοση λίγο πιο πάνω από τυχαία μαντεψιά, μάλλον δεν έχεις κάνει πολλά. Επίσης, τα στοιχεία που παράθεσες, δεν βγάζουν και πολύ νόημα. Για παράδειγμα, τίνος είναι τα statistics που έχει κάθε νοσοκομείο; Δηλαδή, από τι ακριβώς υπολογίζεται το mean για παράδειγμα; Ναι δεν έχω κάνει πολλά παρά μόνο έχω κάνει προβλέψεις μοντέλων από το test data. Τα στοιχεία που παρέθεσα είναι ακριβώς αυτά που μου δόθηκαν. Επίσης, το ιστορικό προσφορών νοσοκομείων 2012-2018 χρησιμοποιήθηκε για τη δημιουργία συνόλων δεδομένων για αυτήν την εργασία. Επεξ/σία 9 Μαρτίου 2022 από cchrm97
DrKo Δημοσ. 9 Μαρτίου 2022 Δημοσ. 9 Μαρτίου 2022 27 λεπτά πριν, cchrm97 είπε Ναι δεν έχω κάνει πολλά παρά μόνο έχω κάνει προβλέψεις μοντέλων από το test data. Τα στοιχεία που παρέθεσα είναι ακριβώς αυτά που μου δόθηκαν. Επίσης, το ιστορικό προσφορών νοσοκομείων 2012-2018 χρησιμοποιήθηκε για τη δημιουργία συνόλων δεδομένων για αυτήν την εργασία. Παραθέτω κ τα γραφήματα των μεταβλητών μου από το train set. Σόρρυ, δεν καταλαβαίνω. Τι εννοείς έχεις κάνει προβλέψεις μοντέλων από τα test data; Έχεις καμία ιδέα τι ακριβώς είναι τα δεδομένα σου;
Επισκέπτης Δημοσ. 9 Μαρτίου 2022 Δημοσ. 9 Μαρτίου 2022 10 λεπτά πριν, DrKo είπε Σόρρυ, δεν καταλαβαίνω. Τι εννοείς έχεις κάνει προβλέψεις μοντέλων από τα test data; Έχεις καμία ιδέα τι ακριβώς είναι τα δεδομένα σου; εννοώ ότι έχω προσαρμόσει ένα μοντέλο με την μεταβλητή 'y' (απάτη ή όχι) χρησιμοποιώντας όλες τις άλλες μεταβλητές στο σύνολο δεδομένων ως προγνωστικούς παράγοντες όπως 'obs', 'std' , 'mean', 'median': Ούτε εγώ δεν μπορώ να καταλάβω τι ακριβώς είναι τα δεδομένα μου
DrKo Δημοσ. 9 Μαρτίου 2022 Δημοσ. 9 Μαρτίου 2022 10 λεπτά πριν, cchrm97 είπε εννοώ ότι έχω προσαρμόσει ένα μοντέλο με την μεταβλητή 'y' (απάτη ή όχι) χρησιμοποιώντας όλες τις άλλες μεταβλητές στο σύνολο δεδομένων ως προγνωστικούς παράγοντες όπως 'obs', 'std' , 'mean', 'median': Ούτε εγώ δεν μπορώ να καταλάβω τι ακριβώς είναι τα δεδομένα μου Ναι, δεν βοηθάς όμως. Τι μοντέλο/αλγόριθμο χρησιμοποιείς; Πώς ακριβώς χρησιμοποιείς τα δεδομένα σου; Τι εννοείς με το «στο σύνολο των δεδομένων», χρησιμοποιείς και τα training και τα testing δεδομένα για να προσαρμόσεις το μοντέλο σου; Ποια πολιτική training χρησιμοποιείς; Ποια συνάρτηση χρησιμοποιείς για το error κατά το for/training; Δηλαδή, προσπαθεί κάποιος να σε βοηθήσει και στα βγάζει με το τσιγκέλι.
archer100 Δημοσ. 9 Μαρτίου 2022 Δημοσ. 9 Μαρτίου 2022 4 ώρες πριν, cchrm97 είπε Καλησπέρα παιδιά, Έχω μια εργασία και θέλω την γνώμη σας. Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y. Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους. Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y). Το train set έχει 6 μεταβλητές id - Κωδικός νοσοκομείου obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων std - τυπική απόκλιση; median - mean - skew - y - απάτη (0 - όχι, 1 - ναι). Το metric αξιολογείται σε AUC. Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+ Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω; Με τι μοντελο προβλεψες; πχ regression η κατι αλλο;
DrKo Δημοσ. 9 Μαρτίου 2022 Δημοσ. 9 Μαρτίου 2022 5 λεπτά πριν, archer100 είπε Με τι μοντελο προβλεψες; πχ regression η κατι αλλο; Το «regression» δεν είναι μοντέλο. Με target values 0 και 1, το να λες για regression είναι λίγο εκτός τόπου. Ίσως λιγότερο από το να αποκαλείς το regression μοντέλο.
Επισκέπτης Δημοσ. 9 Μαρτίου 2022 Δημοσ. 9 Μαρτίου 2022 (επεξεργασμένο) 10 λεπτά πριν, DrKo είπε Το «regression» δεν είναι μοντέλο. Με target values 0 και 1, το να λες για regression είναι λίγο εκτός τόπου. Ίσως λιγότερο από το να αποκαλείς το regression μοντέλο. Καλησπέρα. Κατάλαβα το νόημα πάντως. Το train set εχει 7 μεταβλητές , ενώ το test set 6 ( δεν εχει δηλαδη την y που θελουμε να προβλεψουμε). Αρα αφου η y παιρνει μονο τιμες 0 και 1 , θα χρησιμοποιησω λογιστικη παλινδρομηση. Ευχομαι να βγει ετσι. Επεξ/σία 9 Μαρτίου 2022 από cchrm97
basilis5 Δημοσ. 11 Μαρτίου 2022 Δημοσ. 11 Μαρτίου 2022 Δοκιμασε επιπλεον μεθοδους classification, πχ svm, decision trees, xgboost ή random forests. Το youtube ειναι γεματο βιβτεακια αν δεν εχεις ασχοληθει. επισης παιξε με το οριο του prediction στην λογιστικη. Πχ μην φλαγκαρεις true οτι ειναι πανω απο 0.50 μπορει να βγαζει νοημα στο προβλημα σου το 0.6 πχ Κανε δοκιμες και δες auc/confusion matrix with
Lanike71 Δημοσ. 12 Μαρτίου 2022 Δημοσ. 12 Μαρτίου 2022 (επεξεργασμένο) Στις 11/3/2022 στις 9:32 ΜΜ, basilis5 είπε Δοκιμασε επιπλεον μεθοδους classification, πχ svm, decision trees, xgboost ή random forests. Το youtube ειναι γεματο βιβτεακια αν δεν εχεις ασχοληθει. επισης παιξε με το οριο του prediction στην λογιστικη. Πχ μην φλαγκαρεις true οτι ειναι πανω απο 0.50 μπορει να βγαζει νοημα στο προβλημα σου το 0.6 πχ Κανε δοκιμες και δες auc/confusion matrix with Αν τα δεδομένα από μόνα τους δε δίνουν πληροφορία, δε νομίζω ο αλγόριθμος να κάνει τη διαφορά. Επίσης δε γίνεται κατανοητό τι είδους δεδομένα είναι αυτά...Mean, skew κλπ από τι ακριβώς; Επεξ/σία 12 Μαρτίου 2022 από Lanike71
basilis5 Δημοσ. 12 Μαρτίου 2022 Δημοσ. 12 Μαρτίου 2022 7 λεπτά πριν, Lanike71 είπε Αν τα δεδομένα από μόνα τους δε δίνουν πληροφορία, δε νομίζω ο αλγόριθμος να κάνει τη διαφορά. Επίσης δε γίνεται κατανοητό τι είδους δεδομένα είναι αυτά...Mean, skew κλπ από τι ακριβώς; Δεν εχει να κανει αυτο που λες. Αν ηταν ετσι για καθε προβλημα θα δοκιμαζαμε μονο μια μεθοδο. Αλλα στην πραξη δοκιμαζουμε πολλες, ενω καποιες στην συνεχεια τις κανουμε και fine tune
Lanike71 Δημοσ. 12 Μαρτίου 2022 Δημοσ. 12 Μαρτίου 2022 4 λεπτά πριν, basilis5 είπε Δεν εχει να κανει αυτο που λες. Αν ηταν ετσι για καθε προβλημα θα δοκιμαζαμε μονο μια μεθοδο. Αλλα στην πραξη δοκιμαζουμε πολλες, ενω καποιες στην συνεχεια τις κανουμε και fine tune Και όμως έχει να κάνει. Τα σωστά δεδομένα είναι το 90% της επιτυχίας. Οι αλγόριθμοι μπορεί να δώσουν μία διαφορά του 1-2%, όχι 15% που ζητάει ο OP. Δεν ξέρω αν παίρνουν feauture engineering τα δεδομένα του OP. Μου φαίνεται λιγάκι δύσκολο ο ένας φοιτητής να πέτυχε 80% και ο άλλος 65% με ίδια δεδομένα αλλά άλλο αλγόριθμο. 1
vs_skg Δημοσ. 13 Μαρτίου 2022 Δημοσ. 13 Μαρτίου 2022 Χωρίς Στις 9/3/2022 στις 2:06 ΜΜ, cchrm97 είπε obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων std - τυπική απόκλιση; median - mean - skew δεν γραφεις ΤΙ ειναι οι παρατηρησεις. Επειδη μας τα λες μισα, και πιστευω δεν καταλαβαίνεις και πολυ τι κανεις, ελπίζω να βγαλεις ακρη με αυτο που θα πω: μαλλον decision tree θελει ο καθηγητης να φτιαξετε. https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html
DrKo Δημοσ. 13 Μαρτίου 2022 Δημοσ. 13 Μαρτίου 2022 6 ώρες πριν, Lanike71 είπε Μου φαίνεται λιγάκι δύσκολο ο ένας φοιτητής να πέτυχε 80% και ο άλλος 65% με ίδια δεδομένα αλλά άλλο αλγόριθμο. Καθόλου δύσκολο. Γίνεται πολύ άνετα. Αυτό δεν αναιρεί την αξία καλών δεδομένων, αλλά με τις σύγχρονες μεθόδους η αξία των καλών δεδομένων δεν είναι τόση όση λες. 7 ώρες πριν, basilis5 είπε Αν ηταν ετσι για καθε προβλημα θα δοκιμαζαμε μονο μια μεθοδο. Αλλα στην πραξη δοκιμαζουμε πολλες, ενω καποιες στην συνεχεια τις κανουμε και fine tune Συνήθως κάποιος που γνωρίζει τι κάνει κάθε μέθοδος, δοκιμάζει μία, το πολύ δύο μεθόδους. Το «πέτα τα δεδομένα σε κάθε function του sklearn/weka και δες τι βγαίνει» είναι εντελώς κακή πρακτική και δείχνει πως δεν υπάρχει καμία γνώση του τι γίνεται.
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα