Torasu Δημοσ. 29 Νοεμβρίου 2018 Δημοσ. 29 Νοεμβρίου 2018 Μιας και έχω σκοπό να ασχοληθώ με Data Science και να εμπλουτίσω γνώσεις σε skills/γνώση στον τομέα, θα ήθελα να δω τις απόψεις σας στο παρόν θέμα. Γνωρίζω κάποια πράγματα όσον αφορά Python καθώς είχα ασχοληθεί με αυτήν σε πανεπιστημιακή εργασία' εύκολη γλώσσα, βατή και ωραία δομημένη. Η R πάντως μοιάζει πιο εξειδικευμένη σε μαθηματικούς τύπους και απεικονήσεις(;).
tasanton Δημοσ. 29 Νοεμβρίου 2018 Δημοσ. 29 Νοεμβρίου 2018 Χωρίς να είμαι γνωστης, προτεινω python. Πιο mainstream, μπορείς να κανεις και αλλα πράγματα, μεγάλο community και libraries. Αλλα περί ορέξεως... 1
pmav99 Δημοσ. 30 Νοεμβρίου 2018 Δημοσ. 30 Νοεμβρίου 2018 Πρακτικά χρειάζεσαι και τις 2 Η R έχει πολύ περισσότερες εξιδεικευμενες βιβλιοθήκες για στατιστική + visualization: https://cran.r-project.org/ H Python έχει πολύ πιο μεγάλο εύρος εφαρμογής. Καθώς πλέον υπάρχει κοινό format για τα dataframes (feather) τους δεν είναι δυσκολο να ξεκινήσεις την ανάλυση σε Python και να την τελειώσεις με R. Επίπρόσθετα, μπορείς να καλέσεις R μέσω της Python (πχ rpy2). Κατά τη γνωμη μου ξεκίνα με Python και μάθε βασική R (εγκατάσταση πακέτων, imports, κτλ). Στην πορεία, ανάλογα με τις ανάγκες σου το ξαναβλέπεις. 1 1
basilis5 Δημοσ. 30 Νοεμβρίου 2018 Δημοσ. 30 Νοεμβρίου 2018 Προσωπικα προτιμω να γραφω r, αλλα η python ειναι πιο γλωσσα. Σε καθε περιπτωση το θεμα ειναι να μαθεις τις εννοιες και τους αλγοριθμους, τονπου θα τους υλοποιησεις θα το δεις στην συνεχεια. δες ποια σου καθεται καλυτερα στο ματι και ξεκινα εκει. 2
leonidas1979 Δημοσ. 30 Νοεμβρίου 2018 Δημοσ. 30 Νοεμβρίου 2018 Και οι δύο είναι πολύ καλές και αξίζει να επενδύσεις και στις δύο. Δες και το πακέτο reticulate που μπορείς να καλέσεις python scripts από την R. Μαθαίνοντας Python βέβαια έχεις και το πλεονέκτημα να εκμεταλλευτείς την γλώσσα και σε άλλες περιπτώσεις εκτός Data Science. H R από την άλλη έχει συσσωρευμένη εμπειρία στην στατιστική ανάλυση και ποικιλία πακέτων και έχει τις καταβολές της στην S. Έχει λίγο περίεργη σύνταξη αλλά όλα είναι θέμα εξάσκησης. 1
tr3quart1sta Δημοσ. 2 Δεκεμβρίου 2018 Δημοσ. 2 Δεκεμβρίου 2018 (επεξεργασμένο) Να σημειωσω οτι στατιστικες μεθοδοι στην R συνηθως συνοδευονται απο καποιο ακαδημαικο paper: Αναφορά σε κείμενο I think one of the main differences people overlook is that R's analytics libraries often have a single owner who is usually a statistical researcher -- which is usually reflected by the library being associated with a JStatSoft publication and inclusion of citations for the methods used in the documentation and code -- whereas the main analysis libraries for python (scikit-learn) are authored by the open source community, don't have citations for their methods, and may even be authored by people who don't really know what they're doing. πηγή Στην περιπτωση μου τα περισσοτερα εργαλεια που χρειαζομαι για το pipeline μου τα καλω ετοιμα μεσω Bash. Οταν δεν βρισκω κατι που κανει αυτο που θελω φτιαχνω ενα scriptακι στην Python. Στο τελος συνηθως χρειαζεται καποιο στατιστικο τεστ και διαγραμματα τα οποια τα εκτελω/φτιαχνω στην R. Επισης η R μου φαινεται πιο βολικη για Data exploration, οπου φτιαχνω μερικα διαγραμματα στα γρηγορα για να δω "τι παιζει" με τα δεδομενα που εχω. Αλλα αυτο ειναι κατι προσωρινο για να δω πως πρεπει να συνεχισω, δλδ δεν το μετραω σαν αναπτυξη εφαρμογης (ειναι το πολυ 5 γραμμες). Επεξ/σία 2 Δεκεμβρίου 2018 από tr3quart1sta 1
Pkap Δημοσ. 2 Δεκεμβρίου 2018 Δημοσ. 2 Δεκεμβρίου 2018 Στις 30/11/2018 στις 10:08 ΠΜ, pmav99 είπε Πρακτικά χρειάζεσαι και τις 2 Η R έχει πολύ περισσότερες εξιδεικευμενες βιβλιοθήκες για στατιστική + visualization: https://cran.r-project.org/ H Python έχει πολύ πιο μεγάλο εύρος εφαρμογής. Καθώς πλέον υπάρχει κοινό format για τα dataframes (feather) τους δεν είναι δυσκολο να ξεκινήσεις την ανάλυση σε Python και να την τελειώσεις με R. Επίπρόσθετα, μπορείς να καλέσεις R μέσω της Python (πχ rpy2). Κατά τη γνωμη μου ξεκίνα με Python και μάθε βασική R (εγκατάσταση πακέτων, imports, κτλ). Στην πορεία, ανάλογα με τις ανάγκες σου το ξαναβλέπεις. αυτό ακριβώς 1
pmav99 Δημοσ. 2 Δεκεμβρίου 2018 Δημοσ. 2 Δεκεμβρίου 2018 (επεξεργασμένο) Αναφορά σε κείμενο I think one of the main differences people overlook is that R's analytics libraries often have a single owner who is usually a statistical researcher -- which is usually reflected by the library being associated with a JStatSoft publication and inclusion of citations for the methods used in the documentation and code -- whereas the main analysis libraries for python (scikit-learn) are authored by the open source community, don't have citations for their methods, and may even be authored by people who don't really know what they're doing. Disclaimer: H γνώση μου του R ecosystem είναι σαφώς μικρότερη σε σχέση με το αντίστοιχο της Python, επίσης όσον αφορά την «κλασική στατιστική», σπάνια έχω να κάνω κάτι πιο περίπλοκο από το να τρέξω μερικά στατιστικά tests. Δεν έχω στοιχεία για να μπορώ να μιλησω με νούμερα αλλά νομίζω ότι το συγκεκριμένο claim αφενός είναι μάλλον υπερβολικό όσον αφορά την R, και αφετέρου κινείται, αν δεν τα ξεπερνάει κιόλας, στα όρια του FUD όσον αφορά την Python... Το CRAN περιέχει πάνω από 10k πακέτα. Τι ποσοστό αυτών είναι published στο Journal of Statistical Software δεν το ξέρω αλλά αντικειμενικά μιλώντας, πόσο υψηλό να είναι πια το ποσοστό ώστε να παίζει ρόλο στην επιλογή; Αυτό δεν σημαίνει ότι η κοινότητα των στατιστικολόγων δεν χρησιμοποιεί R και ότι δεν κάνει publish τον κώδικα στο CRAN, γιατί το κάνει. Αλλά εκτός και αν είσαι και εσύ του «συναφιού» δύσκολα θα σε ενδιαφέρει η νέα μέθοδος που ανέπτυξε κάποιος στο διδακτορικό του. Όταν η μέθοδος αυτή γίνει mainstream το ξανασυζητάμε... Όσον αφορά τώρα τα references των μεθόδων στο scikit-learn αυτά υπάρχουν ή ξεκίνησαν να μπαίνουν τουλάχιστον από το 2014 (τυχαίο παράδειγμα από τη σημερινή μορφή των docs εδώ και εδώ η νέα μορφή του FAQ) ενώ, εν γένει, αντίστοιχη είναι η κατάσταση σε numpy-scipy. Τώρα γιατί ο άλλος στο reddit φέρνει παράδειγμα του 2012 και το αναφέρει σαν να ισχύει σήμερα, δεν το ξέρω, εξού και ο ισχυρισμός για FUD... BTW, σίγουρα όλο και κάποια μέθοδος, κάπου, δεν θα έχει reference, αλλά αν δεν έχει ούτε στα docs, ούτε στο source, τότε βρήκατε bug! Ανοίξτε το Αυτό δεν αλλάζει το γεγονός ότι το R ecosystem όσον αφορά εξειδικευμένη στατιστική ανάλυση σου δίνει δυνατότητες που σε Python δεν υπάρχουν, γιατί στις δίνει. Αλλά τελικά, νομίζω ότι δεν πρέπει να ξεχνάμε ότι το focus στις major βιβλιοθήκες της Python είναι οι mainstream αλγόριθμοι και το κατά το δυνατόν ενοποιημένο API, ενώ η πλειοψηφία των πακέτων του CRAN είναι υλοποιήσεις εξειδικευμένων αλγορίθμων. Αν κάποιος χρειάζεται αυτούς τους αλγορίθμους, τότε η R είναι μονόδρομος. Όσον αφορά το interactive usage και το data exploration, νομίζω ότι ο καθοριστικός παράγοντας είναι ποια γλώσσα/βιβλιοθήκη ξέρεις καλύτερα (αν και στο visualization η R είναι μάλλον καλύτερη. Βέβαια για να πετύχεις πραγματικό publication quality επίπεδο θέλει χεράκι και στις 2). ΥΓ. το επιχείρημα ότι ο single non-programmer dev είναι de facto καλύτερος από το "open source community" είναι κάτι που με ξεπερνάει... Επεξ/σία 3 Δεκεμβρίου 2018 από pmav99 1 2
Torasu Δημοσ. 3 Δεκεμβρίου 2018 Μέλος Δημοσ. 3 Δεκεμβρίου 2018 18 hours ago, pmav99 said: Disclaimer: H γνώση μου του R ecosystem είναι σαφώς μικρότερη σε σχέση με το αντίστοιχο της Python, επίσης όσον αφορά την «κλασική στατιστική», σπάνια έχω να κάνω κάτι πιο περίπλοκο από το να τρέξω μερικά στατιστικά tests. Δεν έχω στοιχεία για να μπορώ να μιλησω με νούμερα αλλά νομίζω ότι το συγκεκριμένο claim αφενός είναι μάλλον υπερβολικό όσον αφορά την R, και αφετέρου κινείται, αν δεν τα ξεπερνάει κιόλας, στα όρια του FUD όσον αφορά την Python... Το CRAN περιέχει πάνω από 10k πακέτα. Τι ποσοστό αυτών είναι published στο Journal of Statistical Software δεν το ξέρω αλλά αντικειμενικά μιλώντας, πόσο υψηλό να είναι πια το ποσοστό ώστε να παίζει ρόλο στην επιλογή; Αυτό δεν σημαίνει ότι η κοινότητα των στατιστικολόγων δεν χρησιμοποιεί R και ότι δεν κάνει publish τον κώδικα στο CRAN, γιατί το κάνει. Αλλά εκτός και αν είσαι και εσύ του «συναφιού» δύσκολα θα σε ενδιαφέρει η νέα μέθοδος που ανέπτυξε κάποιος στο διδακτορικό του. Όταν η μέθοδος αυτή γίνει mainstream το ξανασυζητάμε... Όσον αφορά τώρα τα references των μεθόδων στο scikit-learn αυτά υπάρχουν ή ξεκίνησαν να μπαίνουν τουλάχιστον από το 2014 (τυχαίο παράδειγμα από τη σημερινή μορφή των docs εδώ και εδώ η νέα μορφή του FAQ) ενώ, εν γένει, αντίστοιχη είναι η κατάσταση σε numpy-scipy. Τώρα γιατί ο άλλος στο reddit φέρνει παράδειγμα του 2012 και το αναφέρει σαν να ισχύει σήμερα, δεν το ξέρω, εξού και ο ισχυρισμός για FUD... BTW, σίγουρα όλο και κάποια μέθοδος, κάπου, δεν θα έχει reference, αλλά αν δεν έχει ούτε στα docs, ούτε στο source, τότε βρήκατε bug! Ανοίξτε το Αυτό δεν αλλάζει το γεγονός ότι το R ecosystem όσον αφορά εξειδικευμένη στατιστική ανάλυση σου δίνει δυνατότητες που σε Python δεν υπάρχουν, γιατί στις δίνει. Αλλά τελικά, νομίζω ότι δεν πρέπει να ξεχνάμε ότι το focus στις major βιβλιοθήκες της Python είναι οι mainstream αλγόριθμοι και το κατά το δυνατόν ενοποιημένο API, ενώ η πλειοψηφία των πακέτων του CRAN είναι υλοποιήσεις εξειδικευμένων αλγορίθμων. Αν κάποιος χρειάζεται αυτούς τους αλγορίθμους, τότε η R είναι μονόδρομος. Όσον αφορά το interactive usage και το data exploration, νομίζω ότι ο καθοριστικός παράγοντας είναι ποια γλώσσα/βιβλιοθήκη ξέρεις καλύτερα (αν και στο visualization η R είναι μάλλον καλύτερη. Βέβαια για να πετύχεις πραγματικό publication quality επίπεδο θέλει χεράκι και στις 2). ΥΓ. το επιχείρημα ότι ο single non-programmer dev είναι de facto καλύτερος από το "open source community" είναι κάτι που με ξεπερνάει... Με κάλυψες απόλυτα φίλε μου εσύ και οι υπόλοιποι σας ευχαριστώ
gkastros Δημοσ. 19 Ιανουαρίου 2019 Δημοσ. 19 Ιανουαρίου 2019 Είναι σαν να ρωτας να παρω μια BMW ή ένα AUDI για να γινω οδηγος αγωνων?? Δεν εχει ιδιαιτερη σημασια. Σημασια εχει να μαθεις να οδηγεις που είναι το ιδιο ειτε με την BMW eite με το AUDI. 1
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα