pi314 Δημοσ. 17 Ιανουαρίου 2022 Μέλος Δημοσ. 17 Ιανουαρίου 2022 (επεξεργασμένο) . Επεξ/σία 20 Ιανουαρίου 2022 από pi314
DrKo Δημοσ. 17 Ιανουαρίου 2022 Δημοσ. 17 Ιανουαρίου 2022 22 λεπτά πριν, pi314 είπε Thanx, το κοιτάω..! Τί άλλα λάθη βλέπεις? Απλά να καταλάβω και εγώ τι φταίει... Είναι αρκετά. Δεν έχω τον χρόνο να σου κάνω μία ανάλυση σωστή. Εν γένει, είναι στα bullet points: data leakage, χρήση των RNN, modeling.
masteripper Δημοσ. 17 Ιανουαρίου 2022 Δημοσ. 17 Ιανουαρίου 2022 (επεξεργασμένο) Πάντως συγκρίνοντας το MachineLearnigMaster και τον "ανταγωνιστή" ...ΔΕΝ αναφέρεται πουθενά το Leakage στα 1349 comments του MLM(!!!) ενώ στα 2 comments του "ανταγωνιστή" υπάρχει σαφής αναφορά για Leakage(??)... ο νοών νοείτο. Επεξ/σία 17 Ιανουαρίου 2022 από masteripper
pi314 Δημοσ. 17 Ιανουαρίου 2022 Μέλος Δημοσ. 17 Ιανουαρίου 2022 (επεξεργασμένο) . Επεξ/σία 20 Ιανουαρίου 2022 από pi314
DrKo Δημοσ. 17 Ιανουαρίου 2022 Δημοσ. 17 Ιανουαρίου 2022 1 ώρα πριν, pi314 είπε Με ένα πρόχειρο ψάξιμο, βλέπω αρκετά papers, ok στο δικό του site ως επί των πλείστων, αλλά έχει κάμποσα citation και paper σε IEEE που γενικά ΙΕΕΕ είναι δύσκολο να βγάλει κάποιος αν δεν έχει ιδέα. https://scholar.google.com/citations?hl=en&user=hVaJhRYAAAAJ&view_op=list_works&sortby=pubdate Δεν αμφισβητώ κάνενα από τους 2 σας..., απλά το ψάχνω λίγο... Ό,τι νομίζεις. Σου έστειλα ακριβείς λόγους, με σαφείς μαθηματικές εξηγήσεις γιατί και πού είναι το λάθος. Στην περίπτωση του κώδικα που έχει στο σημείο που θέλεις, είναι εντελώς gray area γιατί υπάρχει η ίδια γεννήτρια από κάτω που παράγει του αριθμούς. Το οποίο σημαίνει πως τα statistics θα είναι τα ίδια στα data splits. Αυτό δεν αναιρεί το γεγονός πως είναι βασικότατο λάθος αυτό που κάνει. Εσύ πιστεύεις ότι είναι ΟΚ πρώτα να κάνεις scaling και μετά να κάνεις splitting. Κάνε το. Εγώ φταίω που ασχολήθηκα. Υπάρχουν τύποι σαν τον από πάνω να σε βοηθήσουν. Όσο για τα citations, εάν παρατηρήσεις τα πιο πολλά τα έχει από το website. Τα ΙΕΕΕ δεν τα είδα πάνω πάνω.
pi314 Δημοσ. 17 Ιανουαρίου 2022 Μέλος Δημοσ. 17 Ιανουαρίου 2022 (επεξεργασμένο) . Επεξ/σία 20 Ιανουαρίου 2022 από pi314
DrKo Δημοσ. 17 Ιανουαρίου 2022 Δημοσ. 17 Ιανουαρίου 2022 Μόλις τώρα, pi314 είπε Φίλε μου με παρεξήγησες! Από το πρωί διαβάζω τα λινκς που μου έστειλες και σε ευχαριστώ! Αυτό που μου κάνει εντύπωση, είναι πως ένας τύπος με PhD, όπως λέει, να κάνει τόσο κραυγαλέα λάθη και να παίρνει και άλλους στον λαιμό του... Ξαναλέω, το κάνει πάνω σε αποτέλεσμα από το random generator, το οποίο σημαίνει ότι τα underlying statistics θα είναι τα ίδια στο set των αριθμών που έχει. Δηλαδή, σαν πρακτική είναι κραυγαλέο λάθος, σαν ουσιαστικό αποτέλεσμα και ΑΚΡΙΒΩΣ ΕΠΕΙΔΗ έχει το αποτέλεσμα από το ίδο random generator να κάνει split, δεν έχει σημασία. Αυτό όμως οδηγεί τυπάκια σαν εσένα και άλλους, που θα αναπαράξουν τον ίδιο κώδικα σε dataset που δεν είναι από το ίδιο random generator, να κάνουν ένα από τα βασικότερα λάθη. Όμως, εφόσον "το αμφισβιτείς", συνέχισε έτσι. Αυτό ήταν και το τελευταίο μου post σε αυτό το θέμα. Καλή τύχη.
masteripper Δημοσ. 17 Ιανουαρίου 2022 Δημοσ. 17 Ιανουαρίου 2022 Το ανέκδοτο της εβδομάδος, αν είσαι τόσο μάγκας κοντραρισε τον Jason για να δούμε πόσα ψάρια πιάνεις...εγώ τουλάχιστον όσες φορές έχουμε διασταυρώσει απόψεις το μόνο που βλέπω είναι παχιά λογια, παπαγαλιστικη ακαδημαϊκού τύπου παράθεση όρων χωρίς αντίκρυσμα και αυτό είναι όλο... ουσία πάντα 0. Οπότε ιδού η πρόκληση ....ή ξέρεις ή δεν ξέρεις. Κατά τα άλλα @pi314 σε τέτοιες περιπτώσεις πάντα πας στην αρχή...κοπιαρεις τον κώδικα επακριβώς και ακολουθείς τυφλά. Αν κάτι πάει στραβά αν και με Phd και συγγραφέας ο άνθρωπος απαντάει και μοιράζει γνώση μετά χαράς...παρόλο που δεν το κόβω ότι τον βοηθάει να κολυμπάει στο χρήμα. Οχι σαν κάποιους άλλους φωστήρες
Επισκέπτης Δημοσ. 17 Ιανουαρίου 2022 Δημοσ. 17 Ιανουαρίου 2022 Δεν είμαι ειδικός σε machine learning. Αλλά νομίζω ότι αυτό που προσπαθεί να σας πει ο DrKo είναι ότι το data leakage οδηγεί σε overfitting: https://en.wikipedia.org/wiki/Overfitting Δηλαδή, η ακρίβεια είναι "μαγειρεμένη" επειδή υπάρχει σχέση ανάμεσα στα δεδομένα του training και του prediction. Αν πάρεις το μοντέλο και δοκιμάσεις άλλα δεδομένα, τότε η ακρίβεια θα είναι πολύ χειρότερη.
pi314 Δημοσ. 17 Ιανουαρίου 2022 Μέλος Δημοσ. 17 Ιανουαρίου 2022 (επεξεργασμένο) . Επεξ/σία 20 Ιανουαρίου 2022 από pi314
DrKo Δημοσ. 17 Ιανουαρίου 2022 Δημοσ. 17 Ιανουαρίου 2022 7 λεπτά πριν, pi314 είπε To έχω δοκιμάσει με τα εξής dataset: 1) επισκεψιμότητα σε σαιτ, 2) επιβάτες αεροπλάνων, 3)επιβάτες μετρό και οι προβλέψεις που κάνει (σε unseen, πάντα, data) είναι απίστευτα καλές.... Επισης σε αυτά τα δίκτυα δεν μπορείς να μετρήσεις accuracy, δηλαδή δεν είναι όπως τα CNN που του πετάς 100 εικόνες, πετυχαίνει τις 99 σωστές και λες έχω ακρίβεια 99%... Αχ αχ αχ! Τα πετάτε το ένα μετά το άλλο! Το μετρικό, π.χ. accuracy, δεν έχει καμία μα καμία σχέση με τον αλγόριθμο που θα χρησιμοποιήσεις, δηλαδή CNN, RNN, ή ό,τι άλλο. Άλλο σου είπε ο από πάνω, άλλα αντ’ άλλων λες εσύ. Πφφφ. Ό,τι και να πεις, έχεις δίκιο. Είχα πει ότι δεν θα ξανά απαντήσω εδώ. Αλλά με τέτοια διαμάντια, δεν κρατιέμαι.
pi314 Δημοσ. 17 Ιανουαρίου 2022 Μέλος Δημοσ. 17 Ιανουαρίου 2022 (επεξεργασμένο) . Επεξ/σία 20 Ιανουαρίου 2022 από pi314
DrKo Δημοσ. 17 Ιανουαρίου 2022 Δημοσ. 17 Ιανουαρίου 2022 (επεξεργασμένο) 21 λεπτά πριν, bdarla είπε Δεν είμαι ειδικός σε machine learning. Αλλά νομίζω ότι αυτό που προσπαθεί να σας πει ο DrKo είναι ότι το data leakage οδηγεί σε overfitting: https://en.wikipedia.org/wiki/Overfitting Δηλαδή, η ακρίβεια είναι "μαγειρεμένη" επειδή υπάρχει σχέση ανάμεσα στα δεδομένα του training και του prediction. Αν πάρεις το μοντέλο και δοκιμάσεις άλλα δεδομένα, τότε η ακρίβεια θα είναι πολύ χειρότερη. Περίπου. Το scaling των δεδομένων γίνεται κάνοντας την παραδοχή πως «αυτά έχω, με αυτά θα μάθω». Οπότε, δέχεσαι ότι έχεις ένα υποσύνολο του πληθυσμού και υπολογίζεις μέσες τιμές και διακυμάνσεις. Τις χρησιμοποιείς για να αλλάξεις την κατανομή των δεδομένων, ώστε να βοηθήσει τον αλγόριθμο να μάθει καλύτερα τα underlying causes/variables που γεννούν τα δεδομένα που έχεις ή/και εκφράζουν την σχέση και συσχέτιση εισόδου εξόδου. Αφού το κάνεις αυτό, τότε μετράς πόσο καλά τα πάει το μοντέλο που δημιούργησες σε δεδομένα που ΔΕΝ ΓΝΩΡΙΖΕΙΣ. Αφού δεν τα γνωρίζεις, τότε δεν μπορείς να ξέρεις και στατιστικά των δεδομένων, όπως τα πρώτα moments τους (μέση τιμή κτλ). Στο παράδειγμα που έγινε ο λόγος, το scaling των δεδομένων γίνεται χρησιμοποιώντας και τα άγνωστα δεδομένα. Βέβαια, όπως ήδη έγραψα, επειδή τα δεδομένα έρχονται από την ίδια γεννήτρια ψευδοτυχαίων αριθμών, τα στατιστικά τους θα είναι ίδια. Δηλαδή, θα γίνει leakage μεταξύ training και testing data, αλλά αυτό που θα γίνει leak θα είναι ήδη γνωστό. Σε κάθε περίπτωση, δεν αλλάζει το λάθος. Αλλά, τι λέω τώρα εγώ; Τεσ’πα. Επεξ/σία 17 Ιανουαρίου 2022 από DrKo
pi314 Δημοσ. 17 Ιανουαρίου 2022 Μέλος Δημοσ. 17 Ιανουαρίου 2022 (επεξεργασμένο) . Επεξ/σία 20 Ιανουαρίου 2022 από pi314
DrKo Δημοσ. 17 Ιανουαρίου 2022 Δημοσ. 17 Ιανουαρίου 2022 8 λεπτά πριν, pi314 είπε αναφέρεσαι σε αυτό?: # fix random seed for reproducibility numpy.random.seed(7) Πραγματικά, ό,τι να ‘ναι. Είναι τόσα πολλά αυτά που φαίνεται ότι έχεις άγνοια, που (με κάθε καλή διάθεση) παράτα τα νευρωνικά και κάτσε δες τα βασικά.
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα