Προσέγγιση προβλήματος. Στατιστική;

Lanike71 · 15 Μαΐου 2016

Τη βοήθειά σας παιδιά.

Θα γράψω για ένα πρόβλημα και θέλω γνώμες για το πώς πρέπει να αντιμετωπιστεί.

Ας υποθέσουμε ότι έχουμε μία αριθμογραμμή.Πάνω στην αριθμογραμμή, θα εμφανιστούν κάποια σημεία, έστω Α και Β (άρα και τιμές).

Και τα 2 σημεία είναι γνωστά εκ των προτέρων.

Το πρόβλημα είναι το εξής : Μόνο ένα εκ των 2 σημείων είναι το "σωστό" και πρέπει κάπως να το προβλέψω.

Ας υποθέσουμε οτι φτιάχνω ένα αλγόριθμο ο οποίος κινείται κοντά στο σωστό σημείο και τοποθετεί ένα σημείο Γ. Με βάση κάποια χιλιάδες πειράματα, βλέπω ότι κινούμαι σε απόσταση 3 μονάδων κατά μέσο όρο από το σωστό σημείο.Με βάση τα ίδια πειράματα, βλέπω ότι η απόσταση από το Α στο Β είναι 9 μονάδες κατά μέσο όρο.

Αυτό που θέλω να υπολογίσω είναι ποιά είναι η πιθανότητα να βρεθώ κοντύτερα στο σωστό σημείο απ ' ότι στο λάθος.Θα δώσω κάποιο παραδειγμα για να καταλάβετε:

Σημείο Α στο 10, σημείο Β στο 20. Αν υποθέσουμε ότι το σωστό είναι το Β, ο αλγόριθμος πρέπει να δείξει τιμή από 17-23 (σύμφωνα με το πείραμα).Πρακτικά όμως με ενδιαφέρει ο αλγόριθμος να τοποθετηθεί κοντύτερα στο σημείο που είναι σωστό (εδώ το Β).Δηλαδή θα πρέπει να ισχύει Γ > Α + (abs(A-B)/2. Πχ για Α = 10, Β=20, οποιαδήποτε τιμή για Γ>15 είναι ΟΚ για μένα.

Παράδειγμα 2, Α στο 10, Β στο 11 και Γ στο 9. Ο αλγόριθμος συνεχίζει με απόσταση 2 αλλά δεν είναι ΟΚ, γιατί το Γ είναι πιο κοντά στο Α παρά στο Β.

Με βάση αυτά, μπορώ να υπολογίσω την πιθανότητα ή πρέπει να μπω στα χωράφια της στατιστικής με t.test,διακυμάνσεις κλπ;

paparovic · 16 Μαΐου 2016

Αν δεν υπάρχει κάποια άλλη "γνώση" για το ποιό από τα Α,Β είναι πιθανότερα το σωστό, το μόνο που μπορείς να κάνεις είναι ο μέσος όρος.

Αν αυτό που εννοείς είναι ότι θες να χρησιμοποιήσεις τα ιστορικά στοιχεία για να κάνεις πρόβλεψη, τότε θα μετρήσεις τα Α, Β και θα κάνεις: #Β/#Α * (Β-Α)/2, όπου #Χ = πλήθος εμφανίσεων σημείου Χ - αν υποθέσουμε ότι το Β είναι μεγαλύτερο του Α, αλλιώς #Β/#Α * (Α-Β)/2.

groot · 16 Μαΐου 2016

Εάν το resolution της μεθόδου σου είναι 3 και έχεις αποστάσεις μεταξύ Α και Β μικρότερες από 3, τότε η μέθοδός σου θέλει refining.

Εκτός και εάν έχεις και άλλα attributes, πέρα της απόστασης, οπότε πρέπει να κοιτάξεις αυτά.

Lanike71 · 18 Μαΐου 2016

Εάν το resolution της μεθόδου σου είναι 3 και έχεις αποστάσεις μεταξύ Α και Β μικρότερες από 3, τότε η μέθοδός σου θέλει refining.

Εκτός και εάν έχεις και άλλα attributes, πέρα της απόστασης, οπότε πρέπει να κοιτάξεις αυτά.

Νομίζω έχεις δίκιο.Ή θα υπάρχει ποινή αν ξεφεύγει από το διάστημα, ή θα προσπαθήσω να φτιάξω νέες μεταβλητές που θα έχουν απόσταση τουλάχιστον 9 που είναι ο ΜΟ του abs(A-Β)

groot · 18 Μαΐου 2016

Τι πρόβλημα έχεις (regression εικάζω) και με τι μηχανή πας να το λύσεις;

Lanike71 · 18 Μαΐου 2016

Τι πρόβλημα έχεις (regression εικάζω) και με τι μηχανή πας να το λύσεις;

Σωστός και το παλεύω με svm σε R (αυτό μου έδωσε το καλύτερο αποτέλεσμα ως τώρα).

groot · 18 Μαΐου 2016

kernel function?

Και τι dimensionality έχει το representation σου;

Lanike71 · 18 Μαΐου 2016

kernel function?

Και τι dimensionality έχει το representation σου;

Linear με epsilon.

120 περίπου variables.Κι όμως αυτό απέδωσε καλύτερα απ' όσα δοκίμασα ως τώρα (αν έχεις να προτείνεις κάτι, ελεύθερα).

groot · 18 Μαΐου 2016

Linear δεν είναι too simple;

Θα μπορούσα να σου προτείνω να δεις κάτι πιο περίπλοκο αλλά να έχεις τον νου σου στα training curves (δεν ξέρω από R και πως γίνονται αυτά εκεί). Δες τι σου προσφέρει η R για επιλογές και πειραματίσου.

Επίσης, έχεις δει για redundancy στα attributes; Από όσο ξέρω, το redundancy δεν αποδίδει καλά με το συγκεκριμένο approach. Ίσως ένα dimensionality reduction αφού κάνεις κάποιο information evaluation (ή απλό PCA) θαρρώ πως θα σε βοηθούσε.

Lanike71 · 18 Μαΐου 2016

Linear δεν είναι too simple;

Θα μπορούσα να σου προτείνω να δεις κάτι πιο περίπλοκο αλλά να έχεις τον νου σου στα training curves (δεν ξέρω από R και πως γίνονται αυτά εκεί). Δες τι σου προσφέρει η R για επιλογές και πειραματίσου.

Επίσης, έχεις δει για redundancy στα attributes; Από όσο ξέρω, το redundancy δεν αποδίδει καλά με το συγκεκριμένο approach. Ίσως ένα dimensionality reduction αφού κάνεις κάποιο information evaluation (ή απλό PCA) θαρρώ πως θα σε βοηθούσε.

Δοκίμασα και radial, sigmoid, polynomial αλλά (παραδόξως) απέδωσαν χειρότερα.

Θα κοιτάξω αυτό που γράφεις στην τελευταία παράγραφο για μείωση μεταβλητών, πιθανό να βοηθήσει.

groot · 18 Μαΐου 2016

Όντως παραδόξως!

Lanike71 · 19 Μαΐου 2016

Ευχαριστώ τον groot που πρότεινε refining της μεθόδου δείχνοντας το πρόβλημα στα πολύ στενά όρια μεταξύ Α και Β (ή πιο σωστά, στο ότι ο αλγόριθμος έπρεπε να δουλέψει το ίδιο καλά σε όρια Α-Β από 3 ως και 20).

Τελικά άνοιξα τεχνητά τα όρια και ο αλγόριθμος "βλέπει" καλύτερα πλέον. Πήγα από τις 9 ,στις 14 μονάδες μ.ο. και το μέσο λάθος είναι περίπου στις 1.1 μονάδες με πολύ καλύτερα αποτελέσματα.

Το θετικό είναι ότι ανταποκρίνεται πολύ καλά και σε άγνωστα δεδομένα, κάτι που έψαχνα εξ αρχής.

groot · 19 Μαΐου 2016

Τι ευχαριστείς βρε; Αφού, τελικά, εσύ βρήκες την λύση.

Σύνδεση

Προσέγγιση προβλήματος. Στατιστική;

Προτεινόμενες αναρτήσεις

Lanike71

paparovic

groot

Lanike71

groot

Lanike71

groot

Lanike71

groot

Lanike71

groot

Lanike71

groot

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Δημιουργία λογαριασμού

Σύνδεση

Σύνδεση