Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.
 
 

Τη βοήθειά σας παιδιά.

 

Θα γράψω για ένα πρόβλημα και θέλω γνώμες για το πώς πρέπει να αντιμετωπιστεί.

Ας υποθέσουμε ότι έχουμε μία αριθμογραμμή.Πάνω στην αριθμογραμμή, θα εμφανιστούν κάποια σημεία, έστω Α και Β (άρα και τιμές).

Και τα 2 σημεία είναι γνωστά εκ των προτέρων.

Το πρόβλημα είναι το εξής : Μόνο ένα εκ των 2 σημείων είναι το "σωστό" και πρέπει κάπως να το προβλέψω.

Ας υποθέσουμε οτι φτιάχνω ένα αλγόριθμο ο οποίος κινείται κοντά στο σωστό σημείο και τοποθετεί ένα σημείο Γ. Με βάση κάποια χιλιάδες πειράματα, βλέπω ότι κινούμαι σε απόσταση 3 μονάδων κατά μέσο όρο από το σωστό σημείο.Με βάση τα ίδια πειράματα, βλέπω ότι η απόσταση από το Α στο Β είναι 9 μονάδες κατά μέσο όρο.

Αυτό που θέλω να υπολογίσω είναι ποιά είναι η πιθανότητα να βρεθώ κοντύτερα στο σωστό σημείο απ ' ότι στο λάθος.Θα δώσω κάποιο παραδειγμα για να καταλάβετε:

Σημείο Α στο 10, σημείο Β στο 20. Αν υποθέσουμε ότι το σωστό είναι το Β, ο αλγόριθμος πρέπει να δείξει τιμή από 17-23 (σύμφωνα με το πείραμα).Πρακτικά όμως με ενδιαφέρει ο αλγόριθμος να τοποθετηθεί κοντύτερα στο σημείο που είναι σωστό (εδώ το Β).Δηλαδή θα πρέπει να ισχύει Γ > Α + (abs(A-B)/2. Πχ για Α = 10, Β=20, οποιαδήποτε τιμή για Γ>15 είναι ΟΚ για μένα.

Παράδειγμα 2, Α στο 10, Β στο 11 και Γ στο 9. Ο αλγόριθμος συνεχίζει με απόσταση 2 αλλά δεν είναι ΟΚ, γιατί το Γ είναι πιο κοντά στο Α παρά στο Β.

 

Με βάση αυτά, μπορώ να υπολογίσω την πιθανότητα ή πρέπει να μπω στα χωράφια της στατιστικής με t.test,διακυμάνσεις κλπ;

Δημοσ.

Αν δεν υπάρχει κάποια άλλη "γνώση" για το ποιό από τα Α,Β είναι πιθανότερα το σωστό, το μόνο που μπορείς να κάνεις είναι ο μέσος όρος.

 

Αν αυτό που εννοείς είναι ότι θες να χρησιμοποιήσεις τα ιστορικά στοιχεία για να κάνεις πρόβλεψη, τότε θα μετρήσεις τα Α, Β και θα κάνεις: #Β/#Α * (Β-Α)/2, όπου #Χ = πλήθος εμφανίσεων σημείου Χ - αν υποθέσουμε ότι το Β είναι μεγαλύτερο του Α, αλλιώς #Β/#Α * (Α-Β)/2.

Δημοσ.

Εάν το resolution της μεθόδου σου είναι 3 και έχεις αποστάσεις μεταξύ Α και Β μικρότερες από 3, τότε η μέθοδός σου θέλει refining.

 

Εκτός και εάν έχεις και άλλα attributes, πέρα της απόστασης, οπότε πρέπει να κοιτάξεις αυτά.

Δημοσ.

Εάν το resolution της μεθόδου σου είναι 3 και έχεις αποστάσεις μεταξύ Α και Β μικρότερες από 3, τότε η μέθοδός σου θέλει refining.

 

Εκτός και εάν έχεις και άλλα attributes, πέρα της απόστασης, οπότε πρέπει να κοιτάξεις αυτά.

 

Νομίζω έχεις δίκιο.Ή θα υπάρχει ποινή αν ξεφεύγει από το διάστημα, ή  θα προσπαθήσω να φτιάξω νέες μεταβλητές που θα έχουν απόσταση τουλάχιστον 9 που είναι ο ΜΟ του abs(A-Β)

Δημοσ.

Τι πρόβλημα έχεις (regression εικάζω) και με τι μηχανή πας να το λύσεις;

 

Σωστός και το παλεύω με svm σε R (αυτό μου έδωσε το καλύτερο αποτέλεσμα ως τώρα).

Δημοσ.

kernel function?

 

Και τι dimensionality έχει το representation σου;

 

Linear με epsilon.

 

120 περίπου variables.Κι όμως αυτό απέδωσε καλύτερα απ' όσα δοκίμασα ως τώρα (αν έχεις να προτείνεις κάτι, ελεύθερα).

Δημοσ.

Linear δεν είναι too simple;

 

 

Θα μπορούσα να σου προτείνω να δεις κάτι πιο περίπλοκο αλλά να έχεις τον νου σου στα training curves (δεν ξέρω από R και πως γίνονται αυτά εκεί). Δες τι σου προσφέρει η R για επιλογές και πειραματίσου.

 

Επίσης, έχεις δει για redundancy στα attributes; Από όσο ξέρω, το redundancy δεν αποδίδει καλά με το συγκεκριμένο approach. Ίσως ένα dimensionality reduction αφού κάνεις κάποιο information evaluation (ή απλό PCA) θαρρώ πως θα σε βοηθούσε.

Δημοσ.

Linear δεν είναι too simple;

 

 

Θα μπορούσα να σου προτείνω να δεις κάτι πιο περίπλοκο αλλά να έχεις τον νου σου στα training curves (δεν ξέρω από R και πως γίνονται αυτά εκεί). Δες τι σου προσφέρει η R για επιλογές και πειραματίσου.

 

Επίσης, έχεις δει για redundancy στα attributes; Από όσο ξέρω, το redundancy δεν αποδίδει καλά με το συγκεκριμένο approach. Ίσως ένα dimensionality reduction αφού κάνεις κάποιο information evaluation (ή απλό PCA) θαρρώ πως θα σε βοηθούσε.

 

Δοκίμασα και radial, sigmoid, polynomial αλλά (παραδόξως) απέδωσαν χειρότερα.

 

Θα κοιτάξω αυτό που γράφεις στην τελευταία παράγραφο για μείωση μεταβλητών, πιθανό να βοηθήσει.

Δημοσ.

Ευχαριστώ τον groot που πρότεινε refining της μεθόδου δείχνοντας το πρόβλημα στα πολύ στενά όρια μεταξύ Α και Β (ή πιο σωστά, στο ότι ο αλγόριθμος έπρεπε να δουλέψει το ίδιο καλά σε όρια Α-Β από 3 ως και 20).

 

Τελικά άνοιξα τεχνητά τα όρια και ο αλγόριθμος "βλέπει" καλύτερα πλέον. Πήγα από τις 9 ,στις 14 μονάδες μ.ο. και το μέσο λάθος είναι περίπου στις 1.1 μονάδες με πολύ καλύτερα αποτελέσματα.

Το θετικό είναι ότι ανταποκρίνεται πολύ καλά και σε άγνωστα δεδομένα, κάτι που έψαχνα εξ αρχής.

  • Like 1

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα
  • Δημιουργία νέου...