Intel: Μόνο 14 φορές ταχύτερη η GPU από τη CPU

linuxovios · 12 Ιουλίου 2010

1o δεδομένο : χ86 (64) μπορούν να κατασκευάσουν μόνο η Intel και η AMD

2o δεδομένο : Επεξεργαστές και αρχιτεκτονικές επεξεργαστών υπάρχουν πολλές. Υπάρχουν και κάποιες απόλυτες μετρήσεις που μπορούν να γίνουν για να μετρηθεί η ταχύτητά τους. Όμως αυτό δε λέει τίποτα γιατί το επικρατέστερο OS είναι τα win, όλες οι εφαρμογές τρέχουν σε win και χ86 πλατφόρμα. Και μια formula1 να βάλεις στους δρόμους της Αθήνας δίπλα στο corolla μου, το πιθανότερο είναι ότι εγώ θα φτάσω πρώτος στον προορισμό μου (η formula1 θα πάρει φωτιά κάπου στα μισά της διαδρομής)

Υπόθεση : Αν η nvidia έχει τα @ και τα $ μπορεί σε συνεργασία με την κοινότητα linux να κατασκευάσει cpu που να τρέχει linux (το linux τρέχει και σε πλατφόρμες εκτός x86) και να χώσει και μερικά εκ. $$ στους tier1 game developers για να υποστηρίξουν τη νέα πλατφόρμα. Συνολικά όμως για το R&D και την τελική πλατφόρμα θα χρειαζόταν κάποια δισ. $$ χωρίς να έχει καμία εγγύηση ότι το αγοραστικό κοινό θα ανταποκριθεί. Ίδού η Ρόδος...

tmjuju · 12 Ιουλίου 2010

1o δεδομένο : χ86 (64) μπορούν να κατασκευάσουν μόνο η Intel και η AMD

2o δεδομένο : Επεξεργαστές και αρχιτεκτονικές επεξεργαστών υπάρχουν πολλές. Υπάρχουν και κάποιες απόλυτες μετρήσεις που μπορούν να γίνουν για να μετρηθεί η ταχύτητά τους. Όμως αυτό δε λέει τίποτα γιατί το επικρατέστερο OS είναι τα win, όλες οι εφαρμογές τρέχουν σε win και χ86 πλατφόρμα. Και μια formula1 να βάλεις στους δρόμους της Αθήνας δίπλα στο corolla μου, το πιθανότερο είναι ότι εγώ θα φτάσω πρώτος στον προορισμό μου (η formula1 θα πάρει φωτιά κάπου στα μισά της διαδρομής)

Υπόθεση : Αν η nvidia έχει τα @ και τα $ μπορεί σε συνεργασία με την κοινότητα linux να κατασκευάσει cpu που να τρέχει linux (το linux τρέχει και σε πλατφόρμες εκτός x86) και να χώσει και μερικά εκ. $$ στους tier1 game developers για να υποστηρίξουν τη νέα πλατφόρμα. Συνολικά όμως για το R&D και την τελική πλατφόρμα θα χρειαζόταν κάποια δισ. $$ χωρίς να έχει καμία εγγύηση ότι το αγοραστικό κοινό θα ανταποκριθεί. Ίδού η Ρόδος...

1o via πεντάγωνο και άλλοι

2ο Εξαρτάται από το ‘πρόβλημα’

capitan · 12 Ιουλίου 2010

Το x86 δεν πρόκειται να αλλάξει εύκολα. Και η Intel έχει εγκλωβιστεί σε αυτό. Με τόσο μεγάλο user base μια αλλαγή στο instruction set ενός νέου επεξεργαστή, αυτομάτως θα τον καθιστούσε άχρηστο (όσο γρήγορος και super dupper να είναι) καθώς δεν θα τρέχει τίποτα πάνω του. Θα πρέπει να γραφτούν νέα προγράμματα/λειτουργικά/drivers/τα πάντα αποκλειστικά γι αυτόν. Η μόνη λύση θα ήταν να πάμε προς RISC instruction sets.

Παρόλ' αυτά το instruction set δεν είναι το πρόβλημα, δεν είναι αυτό που μας περιορίζει την απόδοση. Εσωτερικά και οι Intel x86 CPUs, RISC instruction set υποστηρίζουν. Από την άλλη και 10 τρις πυρήνες να έχεις δεν πρόκειται να τρέξουν γρηγορότερα 1 σειριακό πρόγραμμα. Η απόδοση του επεξεργαστή σε σειριακά προγράμματα έχει φτάσει σε τέλμα. Ότι κολπάκια ξέραμε τα κάναμε και νέα κόλπα βρίσκουμε δύσκολα. Εκεί περιμένουμε ένα breakthrough σε τεχνολογία υλικού για να δούμε τη νέα επανάσταση.

Σε παράλληλα προγράμματα (τα οποία πόσα ποια να είναι?) έχουμε το πάνω χέρι καθώς η τεχνολογία μέχρι στιγμής μας επιτρέπει να κοπιάρουμε πολλές φορές τα μηχανάκια μας και να τα βάζουμε να τρέχουν παράλληλα, αξιοποιώντας τον παραλληλισμό που υπήρχε ήδη.

Και BTW, GPU και CPU δεν είναι ίδιες ούτε ισοδύναμες. Το να λες ότι "η GeForce GTX 280 GPU είναι μόνο 14 φορές ταχύτερη από τον Core i7 960" ή 100 φορές ή δε ξέρω και γω πόσες, δεν στέκει. Αν ήταν τόσο μάγκας η nVidia, ας έβγαζε GPU που να υποστηρίζει χ86 και να είναι 14 φορές ταχύτερη σε κώδικα πλούσιο σε ifs.

V.I.Smirnov · 12 Ιουλίου 2010

Επειδή αναφέρθηκε η Cuda, θέλω να πω κάτι που διαπίστωσα.

Η Cuda δεν είναι πανάκεια και γενικά ως προγραμματιστικό μοντέλο είναι κατώτερη από το openMP που επίσης βασίζεται στα νήματα.

Τα μειονεκτήματά της είναι

α) το πρόβλημα πρέπει να περιοριστεί στην μνήμη της κάρτας, δηλ. περίπου 4 GB max προς το παρόν.

Μεγαλύτερα προβλήματα πρέπει να προγραμματιστούν τμηματικά δυσκολεύοντας σημαντικά την γραφή του προγράμματος

και καταστρέφοντας την σαφήνεια του αλγορίθμου.

β) Δεν επιτρέπει παραλληλισμό ελέγχου παρά μόνον υποτυπωδώς.

Π.χ. δεν επιτρέπονται πολλά if-then σε ένα τμήμα cuda κώδικα.

γ) Οι υπολογισμοί γίνονται σε απλή ακρίβεια, επομένως για σοβαρά προβλήματα (αριθμητική ανάλυση, υπολογιστική φυσική κλπ) δεν εξυπηρετεί.

Μελλοντικά κάποιοι από αυτούς τους περιορισμούς θα αρθούν αλλά προς το παρόν η cuda είναι καλή κυρίως για γραφικά.

Για γενική χρήση συνεπώς oι gpus προς το παρόν δεν ενδείκνυνται παρά μόνον σε ορισμένες περιπτώσεις.

parsifal · 13 Ιουλίου 2010

γ) Οι υπολογισμοί γίνονται σε απλή ακρίβεια, επομένως για σοβαρά προβλήματα (αριθμητική ανάλυση, υπολογιστική φυσική κλπ) δεν εξυπηρετεί.

Μήπως προσπάθησες με παλιά κάρτα; Νεότερες σειρές καρτών, δηλαδή GTX2xx και πάνω και φυσικά και τα Quadro και Tesla μοντέλα που βασίζονται στα ίδια ολοκληρωμένα, έχουν Compute Capability 1.3+ και υποστηρίζουν στο hardware τους τέτοιους υπολογισμούς.

V.I.Smirnov · 13 Ιουλίου 2010

Μήπως προσπάθησες με παλιά κάρτα; Νεότερες σειρές καρτών, δηλαδή GTX2xx και πάνω και φυσικά και τα Quadro και Tesla μοντέλα που βασίζονται στα ίδια ολοκληρωμένα, έχουν Compute Capability 1.3+ και υποστηρίζουν στο hardware τους τέτοιους υπολογισμούς.

Δεν έχω ασχοληθεί προσωπικά πριν μερικό καιρό.

Τα παραπάνω τα συμπέρανα από μια παρουσίαση που παρακολούθησα.

Η διπλή ακρίβεια ήταν αναμενόμενο να ενσωματωθεί σύντομα διότι χωρίς αυτή scientific programming δεν υφίσταται.

Και το μειονέκτημα της μνήμης νομίζω ότι μπορεί έμμεσα να αρθεί συνδέονοντας πολλές τέτοιες κάρτες.

Αλλά όσο ο παραλληλισμός ελέγχου είναι υποτυπώδης δεν είναι κατάλληλη για γενική χρήση.

Δεν είναι δυνατόν πχ. να μην μπορείς να χρησιμοποιησεις όσα if-then ή select case θέλεις στον κώδικα.

Πέραν αυτού, η κλιμακωσιμότητα είναι απογοητευτική παρά το φαινομενικά θεαματικό αποτέλεσμα.

Αν υπάρχουν πχ. 200 πυρήνες και η επιτάχυση είναι 100 (που θα είναι αρκετά λιγότερη), τότε η μισή ισχύς χάνεται.

Με το OpenMP θυμάμαι παράδειγμα όπου γράφοντας σωστά το πρόγραμμα έχει επιτευχθεί σε 512 πυρήνες 450 φορές επιτάχυνση, δηλ. πολύ καλύτερη.

Για το MPI ούτε λόγος βέβαια.

Το πλεονέκτημα με τις gpus είναι ότι κοστίζουν ασύγκριτα λιγότερο από clusters ή από συστήματα κοινής μνήμης με μεγάλο πλήθος επεξεργαστών.

Βάζεις μερικές κάρτες και, ακόμα και αν δεν αποδίδουν πλήρως, το σχετικά χαμηλό κόστος αντισταθμίζει την χαμηλή απόδοση.

NT1G · 13 Ιουλίου 2010

Όταν λέτε απλή και διπλή ακρίβεια αναφέρεστε στο πλήθος των δεκαδικών ψηφίων ;

tmjuju · 13 Ιουλίου 2010

http://en.wikipedia.org/wiki/Double_precision_floating-point_format

V.I.Smirnov · 13 Ιουλίου 2010

Όταν λέτε απλή και διπλή ακρίβεια αναφέρεστε στο πλήθος των δεκαδικών ψηφίων ;

Xονδρικά ναι.

Ορισμένοι compilers υποστηρίζουν και τετραπλή.

grimpr · 13 Ιουλίου 2010

Single Precision

Double Precision

V.I.Smirnov · 13 Ιουλίου 2010

Το παραπάνω είναι ένα fractal γραφικό (μάλλον το σύνολο Μandelbrot ή κάποιο σύνολο Julia) που παράγεται με επαναληπτικό τρόπο από μια μιγαδική παράσταση.

Τέτοιοι υπολογισμοί παραλληλίζονται εύκολα και με cuda (παραλληλισμός ελέγχου).

Η επίδραση της διπλής ακρίβειας είναι φανερή.

Σε κοινά γραφικά (παιχνίδια κλπ) η διπλή ακρίβεια είναι πολύ λιγότερο σημαντική.

ahristos · 13 Ιουλίου 2010

Μήπως προσπάθησες με παλιά κάρτα; Νεότερες σειρές καρτών, δηλαδή GTX2xx και πάνω και φυσικά και τα Quadro και Tesla μοντέλα που βασίζονται στα ίδια ολοκληρωμένα, έχουν Compute Capability 1.3+ και υποστηρίζουν στο hardware τους τέτοιους υπολογισμούς.

Η προηγούμενη γενιά της NVIDIA έπασχε σοβαρά στο τμήμα Double precision floating-point λόγω αδυναμίας στη σχεδίαση, αλλά και ηθελημένου περιορισμού της απόδοσης. Μια μέτρια ATI HD4850 ξεπερνούσε άνετα τη ναυαρχίδα της NVIDIA (αυτή περίπου που δοκίμασε η intel δηλαδή για να βγάλει τα συμπεράσματά της).

Οι καινούριες FERMI πολλαπλασίασαν τις επιδόσεις σε αυτόν τον τομέα, αλλά ω έκπληξη... η ίδια η NVIDIA περιορίζει εσκεμμένα την απόδοση περίπου στο 1/4 για να έχουν λόγο να πουλήσουν τις επαγγελματικές τους κάρτες. Αποτέλεσμα; Εκείνη η καταραμένη ATI HD4850 πάλι πιο γρήγορη είναι από την GTX 480 που φυσικά δεν έχει καμιά ελπίδα στο project που συζητήσαμε εδώ.

Δεν είναι κάτι τραγικό βέβαια, και η ATI το έδειξε έμπρακτα: Στοιχίζει πολύ χωρίς να έχει αξιόλογο όφελος για τον μέσο χρήστη, κι έτσι κόπηκε κάθε υποστήριξη Double precision floating-point σε όλα τα chip της εκτός της κορυφαίας σειράς 58ΧΧ.

Σύνδεση

Intel: Μόνο 14 φορές ταχύτερη η GPU από τη CPU

Προτεινόμενες αναρτήσεις

linuxovios

tmjuju

capitan

V.I.Smirnov

parsifal

V.I.Smirnov

NT1G

tmjuju

V.I.Smirnov

grimpr

V.I.Smirnov

ahristos

Αρχειοθετημένο

Σύνδεση