tr3quart1sta Δημοσ. 18 Απριλίου 2015 Μέλος Δημοσ. 18 Απριλίου 2015 Βασικα δεν ειναι vector με 500 διαστασεις. Αλλα vector με "μεσο ορο" 3.5 διαστασεις Οχι, και τα μηδενικα ειναι σημαντικη πληροφορια. Στο μονο που βοηθανε ειναι οτι τα δεδομενα μπορουν να γραφτουν με πιο συντομο τροπο (δες Sparse ARFF Files)
Lanike71 Δημοσ. 18 Απριλίου 2015 Δημοσ. 18 Απριλίου 2015 Χωρίς να είμαι ειδικός, με λίγο που έχω ασχοληθεί, θεωρώ ότι θα πρέπει να μειώσεις τις διαστάσεις τρέχοντας ένα αλγόριθμο για να αποφασίσει ποιά είναι τα πιο σημαντικά attributes του σετ που έχεις και να τα κρατήσεις. Αφού έχεις 500 φρούτα και χρησιμοποιείς περίπου τα 3,5 , άρα μένουν άλλα 496 αχρησιμοποίητα.Που σημαίνει ότι ένας πολύ μεγάλος αριθμός από τις 86.000 γραμμές σου έχουν έχουν κοινά μηδενικά και τα οποία επηρεάζουν λιγότερο το πρότυπο που θα εξάγεις.
παπι Δημοσ. 19 Απριλίου 2015 Δημοσ. 19 Απριλίου 2015 Οχι, και τα μηδενικα ειναι σημαντικη πληροφορια. Στο μονο που βοηθανε ειναι οτι τα δεδομενα μπορουν να γραφτουν με πιο συντομο τροπο (δες Sparse ARFF Files)Αλλο εννοουσα, αλλα δεν βγαινει anyway. Το να πετας φρουτα σε ενα cluster, και μετα να τσεκαρεις υπαρχουν σου κανει; Ή θελουν διανυσματικη λυση;
chaos686 Δημοσ. 20 Απριλίου 2015 Δημοσ. 20 Απριλίου 2015 ...Αυτο που θελω να κανω ειναι ενα clustering των 86'000 καλαθιων, ωστε να σχηματιστουν ομαδες απο παρομοια καλαθια. Ο αριθμος των clusters ειναι ομως αγνωστος... Έχεις δει καθόλου το Apache Mahout και συγκεκριμενα αυτόν τον αλγόριθμο Site: canopy ? Μάλιστα στο βιβλίο Mahout in Action υπάρχει ένα υποκεφάλαιο με τίτλο "Finding the perfect k using canopy clustering" (για kmeans). Αν ενδιαφέρεσαι νομίζω ότι θα το βρεις εύκολα από τον θείο..αλλιώς πες μου να σου το "δανείσω"..
tr3quart1sta Δημοσ. 7 Ιουλίου 2015 Μέλος Δημοσ. 7 Ιουλίου 2015 Θελω τωρα να κανω dimensionality reduction στα input data (καλαθια) και να συγκρινω τα αποτελεσματα, δλδ να δω εαν ειναι καλυτερα με ή χωρις dimensionality reduction.Εχουμε π.χ. μονο 5 καλαθια (αντι για 86'000): basket1 = [1,0,0,0,0,1,0,0] basket2 = [0,1,0,0,0,1,1,0] basket3 = [0,1,0,0,0,0,0,0] basket4 = [0,0,0,0,0,0,0,1] basket5 = [1,0,0,0,0,0,0,1] και βγαινει αυτο το Clustering: Cluster1 = {basket1, basket5} Cluster2 = {basket2} Cluster3 = {basket3, basket4} Μετα ξανα το ιδιο, αλλα με dimensionality reduction πριν το clustering: basket1 = [1,0,0,0,0,1,0,0] [0.5, -0.6] basket2 = [0,1,0,0,0,1,1,0] [0.2, 0.9] basket3 = [0,1,0,0,0,0,0,0] => [-0.1, 0.8] basket4 = [0,0,0,0,0,0,0,1] [0.33, 0.7] basket5 = [1,0,0,0,0,0,0,1] [0.77, -0.55] Clustering: Cluster1 = {basket2, basket3, basket5} Cluster2 = {basket1, basket4} Προσεξτε οτι πιθανοτατα θα βγαλει διαφορετικο αριθμο Clusters! (π.χ. εδω 2 αντι για 3)Τωρα πως μπορω να μετρησω την "ποιοτητα" των Clusters με στατιστικα δικαιο τροπο (κυριως λογω των διαφορετικων αριθμων Clusters)?Μερικες ιδεες:1) Μετρηση "διακυμανσης" των φρουτων. Θελουμε τα φρουτα να ειναι οσο το δυνατον συγκεντρωμενα σε λιγα Clusters, αρα θελουμε μεγαλη διακυμανση. Π.χ. για την μπανανα εχουμε την ακολουθη διακυμανση (τυχαια νουμερα):- Χωρις dimensionality reduction: Cluster1 = 85% Cluster2 = 5% Cluster3 = 10% - Με dimensionality reduction: Cluster1 = 55% Cluster2 = 45% Αρα προτιμαμε την πρωτη περιπτωση (χωρις). Αλλα αυτος δεν ειναι δικαιος τροπος συγκρισης, διοτι οσο μεγαλωνει ο αριθμος Clusters αναγκαζεται η διακυμανση να ελαττωθει (φανταστειτε να ειχαμε 86'000 Clusters (καθε καλαθι σε ξεχωριστο Cluster), τοτε η διακυμανση θα ηταν πολυ μικρη). Αλλα αυτο που ισως μπορει να γινει, ειναι να μετρηθει η διακυμανση σε ενα range απο αριθμο Clusters (π.χ. απο 2 εως 1000) για της δυο περιπτωσεις (με και χωρις dimensionality reduction) και να συγκριθουνε μετα οι δυο γραμμες που θα προκυψουν σε αυτο το range. 2) Μετρηση αριθμων καλαθιων σε ενα Cluster που περιεχουν καποια απο τα top 3 φρουτα σε αυτο το Cluster. Για καθε Cluster βρισκουμε ποια ειναι τα πιο συχνα εμφανιζομενα φρουτα. Π.χ. η φραουλα περιεχεται στο 93% των καλαθιων του Cluster1, η μπανανα 75% και το μηλο 70%. Μετα μετραμε σε ποσα απο τα καλαθια σε αυτο το Cluster εμφανιζεται η φραουλα ή η μπανανα ή το μήλο ή η φραουλα ΚΑΙ η μπανανα ή ολα μαζι κλπ κλπ.. και στο τελος συνδυαζουμε "καπως" αυτες τις μετρησεις σε εναν αριθμο (αθροισμα? γινομενο?).. Εαν διαραισουμε στο τελος αυτην την τιμη με τον αριθμο Clusters θα ειναι δικαια συγκριση?Καποιοι αλλοι τροποι για να γινει αυτη η συγκριση??
zynif Δημοσ. 7 Ιουλίου 2015 Δημοσ. 7 Ιουλίου 2015 Για δες τα παρακάτω https://en.wikipedia.org/wiki/Cluster_analysis#Evaluation_and_assessment http://cs.utsa.edu/~qitian/seminar/Spring11/03_11_11/IR2009.pdf 1
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα