TzafTzaf Δημοσ. 12 Ιουλίου 2022 Δημοσ. 12 Ιουλίου 2022 Στις 9/3/2022 στις 4:06 ΜΜ, Επισκέπτης είπε Καλησπέρα παιδιά, Έχω μια εργασία και θέλω την γνώμη σας. Στόχος της είναι η πρόβλεψη απάτης σε διαγωνισμούς φαρμάκων από νοσοκομεία. Για κάθε αναγνωριστικό στο δοκιμαστικό σύνολο, πρέπει να προβλέψω μια τιμή 0 (χωρίς απάτη) ή 1 (απάτη) για τη μεταβλητή y. Δηλαδή πρέπει να εντοπίσω δόλια νοσοκομεία, που παρουσιάζουν κάποια ανωμαλία στο ιστορικό των προσφορών τους. Τα δεδομένα μου είναι ένα train set, test set και ένα sample_submission(με δύο μεταβλητές id , y). Το train set έχει 6 μεταβλητές id - Κωδικός νοσοκομείου obs - αριθμός παρατηρήσεων για το νοσοκομείο στο αρχικό σύνολο δεδομένων std - τυπική απόκλιση; median - mean - skew - y - απάτη (0 - όχι, 1 - ναι). Το metric αξιολογείται σε AUC. Στην εργασία αυτή μπόρεσα να προβλέψω σωστά μόνο με 0.65, ενώ θέλω πάνω από 0.8+ Πως πιστεύετε μπορώ να αυξήσω την ακρίβεια της πρόβλεψης μου με δεδομένα αυτές τις μεταβλητές που έχω; Αυτό όπως το λες είναι ένα classification problem! Δηλαδή δε σου ζητάει να βρεις μια συνεχή τιμή κάποιας μετάβλητης από το dataset αλλά το αν κάτι ισχύει η όχι! Regression μπορείς να χρησιμοποιήσεις ωστόσο σε καμία περίπτωση linear! Λογιστική παλινδρόμηση και άλλους πολλούς αλγόριθμους μηχανικής μάθησης όπως K-NN,Random Forest,κλπ! Ωστόσο ούτε και εγώ κατάλαβα πολύ φόντο θες να κάνεις! Γενικά είναι πολύ πιο δύσκολο το να φέρεις τα δεδομένα σε μια μορφή που θα μπορεί να τα διαβάσει ο αλγόριθμος παρά το κομμάτι της μηχανικής μάθησης αυτό καθ' αυτό!
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα