Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

  • Super Moderators
Δημοσ.

οφείλεται και στην τεράστια πτώση της μετοχής της και στο ότι έχει τεράστια χρέη...

  • Απαντ. 71
  • Δημ.
  • Τελ. απάντηση

Συχνή συμμετοχή στο θέμα

Συχνή συμμετοχή στο θέμα

Δημοσ.
Χμμ, ίσως να οφείλεται στο split της AMD σε δύο εταιρίες. Από την άλλη η nVidia δεν έχει άδεια κατασκευής x86...

 

 

εκτος αν αγοράσει license από την intel...all δε νομίζω ότι θέλει να μπλέξει με cpu...είναι έξω από τα νερά τις.

 

 

πάντως καθόλου hype δεν είναι δες εδώ από παλιότερη είδηση

 

http://news.softpedia.com/news/First-NVIDIA-Tesla-Based-Supercomputer-in-TOP500-98136.shtml

 

B)

 

 

Tokyo Tech is the first to achieve Top500 ranking with an NVIDIA Tesla based GPU cluster, while also being one of the hundreds of distinguished universities and supercomputing centers to consider adopting GPU based solutions for their research. The list of similar centers includes the National Center of Supercomputing Applications (NCSA) at the University of Illinois, Rice University, University of Heidelberg, University of Maryland, Max Planck Institute and the University of North Carolina.
Δημοσ.

Για δες καλύτερα ποια μηχανήματα είναι πιο πάνω όμως: http://top500.org/list/2008/11/100

 

Οι λύσεις τύπου Tesla δουλεύουν σε κάποιες περιπτώσεις μόνον πολύ καλά: coarse grained αλγορίθμους που επιπλέον να κάνουν και scaling στο μεγάλο αριθμό των cores που παρέχονται. Δυστυχώς, είναι λίγοι αυτοί οι αλγόριθμοι και κάποια στιγμή απλά θα χτυπήσουν και αυτοί το brick wall...

 

Καλές όλες οι τεχνολογίες, αλλά έχει δοκιμάσει κανείς να χρησιμοποιήσει το CUDA; Θα ήθελα να ακούσω εντυπώσεις, γιατί οι δικές μου είναι οι χειρότερες...

Δημοσ.

Η δικιά μου εμπειρία:

 

1) ο compiler δεν είναι ό,τι καλύτερο. Δουλεύω με C++ και θέλει πολλές μαγγανείες για να παίξει σωστά. Υπάρχουν τουλάχιστον δύο projects για να κάνουν port το cuda σε C++ και τα δύο έχουν σοβαρές ελλείψεις.

2) δεν υποστηρίζονται recursive functions

3) τα προγράμματα πρέπει να είναι SIMD με τουλάχιστον 32 threads assigned στο καθένα για βέλτιστη απόδοση

4) το API δεν είναι αρκετά καθαρό - θυμίζει κάτι μεταξύ βιβλιοθήκης και γλώσσας προγραμματισμού, κάνοντας τα απλά πράματα αρκετά περίπλοκα (σαν αντιπαράθεση, αξίζει να δει κανείς την OpenCL που δεν είναι το τέλειο, αλλά είναι αρκετά καλύτερο)

5) από όσο ξέρω δεν έχει εργαλεία για να σου δείχνει πιθανά bottlenecks, race conditions.

6) άπαξ και γράψεις τον κώδικά σου σε CUDA δεν είναι μεταφέρσιμος.

Δημοσ.
poscaman εννοείς ότι το matlab είναι CUDA optimized? γιατί κάτι από αυτά που τρέχω είναι σε matlab...

 

ναι έχει κυκλοφορήσει ένα engine για Matlab που λέγετε Jacket (http://www.accelereyes.com/overview.php)

και μπορείς να μεταφέρεις την εκτέλεση αρκετών (όχι όλων) εντολών της Matlab από

την CPU στην GPU... η ταχύτητα εκτέλεσης, ανάλογα το πρόγραμμα που τρέχεις, φτάνει

μέχρι και 40x... αν δείτε το videακι στην παραπάνω σελίδα, η cpu φτάνει τα 2 fps max

ενώ με το jacket ξεπερνάει τα 80... το καλύτερο από όλα είναι οτι δεν χρειάζεται να

ξαναγράψεις τον κώδικα σε matlab... απλά προσθέτεις ένα g (προφανώς από το gpu)

μπροστά από την (υποστηριζόμενη) συνάρτηση της matlab... π.χ. single > gsingle,

zeros > gzeros, κλπ...

 

πρακτικά τώρα, τα αποτελέσματα γουρλώνουν μάτια... ένα πρόγραμμα σε matlab που

πήρε 10 μέρες να ολοκληρωθεί (σε dual xeon E5410, 16GB ram, 2x160gb sata 10,000rpm

σε raid1), με το jacket ολοκληρώθηκε σε 13 ώρες... 18 φορές πιο γρήγορη εκτέλεση...

α και ο υπολογιστής ήτανε αεράτος, χωρίς να έχει 14 από τα 16GB κατειλημμένα όλη

την ώρα... χωρίς καν Tesla gpu (Quadro NVS 290)... μόλις το jacket βγει από την beta

φάση το 2009 και αρχίσει να χρεώνει για την v1.0, θα προχωρήσουμε σε αγορά καλύτερης gpu...

 

προσωπική μου άποψη είναι πως όσο οι software developers υιοθετούνε το CUDA, η

ζωή μας στους υπολογιστές και ειδικά η δουλειά, μπορεί να γίνει πολύ πιο αποδοτική...

π.χ. στο http://www.nvidia.com/object/cuda_home.html βλέπουμε το TMPGEnc 4.0

Xpress το οποίο εδώ και λίγο καιρό υποστηρίζει CUDA... XviD encoding 40 φορές πιο

γρήγορα από τις τωρινές cpu... not bad :lol:

Δημοσ.

Η σύγκριση που κάνεις δεν είναι ευθεία. Συγκρίνεις 1 πυρήνα (υπάρχει η parfor στο matlab για multicore επεξεργαστές και MPI για clusters) με τους 128 (?) της κάρτας γραφικών. Μια σωστή σύγκριση θα ήταν μία από τις παρακάτω μόνον (υποθέτουμε ότι οι υλοιποιήσεις είναι οι βέλτιστες δυνατές):

 

1) με βάση το κόστος της λύσης: κρατάς σταθερό το πόσο κοστίζει το σύστημα και δίνεις την απόδοση.

2) με βάση την κατανάλωση: κρατάς σταθερή την απόδοση και δίνεις πόσο καταναλώνει το κάθε ένα.

3) με βάση τον αριθμό των πυρήνων: προσπαθείς και τα δύο να έχουν παρόμοιο αριθμό πυρήνων.

Δημοσ.
Η σύγκριση που κάνεις δεν είναι ευθεία. Συγκρίνεις 1 πυρήνα (υπάρχει η parfor στο matlab για multicore επεξεργαστές και MPI για clusters) με τους 128 (?) της κάρτας γραφικών. Μια σωστή σύγκριση θα ήταν μία από τις παρακάτω μόνον (υποθέτουμε ότι οι υλοιποιήσεις είναι οι βέλτιστες δυνατές):

 

1) με βάση το κόστος της λύσης: κρατάς σταθερό το πόσο κοστίζει το σύστημα και δίνεις την απόδοση.

2) με βάση την κατανάλωση: κρατάς σταθερή την απόδοση και δίνεις πόσο καταναλώνει το κάθε ένα.

3) με βάση τον αριθμό των πυρήνων: προσπαθείς και τα δύο να έχουν παρόμοιο αριθμό πυρήνων.

 

1) το κόστος παραμένει ίδιο καθώς ο Τ5400 της Dell ήρθε όπως τον περιέγραψα με την

nvs 290 μέσα, κοστίζοντας (τότε) 2.300 ευρώ... το μόνο που άλλαξε λοιπόν είναι ο

driver της nvidia (cuda)... 20x απόδοση

2) παίρνω την κατανάλωση όπως ανακοινώνουνε οι εταιρείες (intel & nvidia):

2 x e5410 = 160watt // 1 x nvs 290 = 21watt... δεν νομίζω πως έχει νόημα η σύγκριση,

ειδικά αν υπολογίσεις 160watt επί 10 συνεχόμενες μέρες, σε σύγκριση με 21watt επί 13

ώρες...

3) δεν είχα την ευτυχία να έχουμε 4 intel e5410 καθώς το κόστος πήγαινε στα ουράνια :P

πάντως οι 2 x e5410 έχουνε 8 "cores" έναντι των 16 της nvs 290...

 

bottom line, ακόμα κι αν κάναμε ευθεία σύγκριση, πιστεύω πως και πάλι η gpu θα

έβγαινε μπροστά από την cpu... αλλά ΔΕΝ είναι εκεί το θέμα και δεν έχει και νόημα...

επειδή σε ότι κάνεις μετράει το αποτέλεσμα, κάποιος που καταφέρνει στη δουλειά του

να επιτυγχάνει τουλάχιστον 20 φορές πιο γρήγορα το επιθυμητό αποτέλεσμα, δεν τον

απασχολούνε άλλες συγκρίσεις... π.χ. αν κάνεις ray tracing και σου παίρνει 2-3 ώρες

για rendering, με cuda μπορείς να το κάνεις real-time... nuff said...

Δημοσ.

Σίγουρα δεν προβλέπεται για οικιακή χρήση :P Θα βοηθήσει πολύ πάντως ερευνητικά κέντρα και ιατρεία. Btw δεν είναι σούπερ υπολογιστής αλλά υπερυπολογιστής :P

Δημοσ.

και για να μιλήσουμε για real life στοιχεία (Quantitative Risk Analysis & Algorithmic Trading Systems):

 

Using GPU technology, in 2007 Hanweck Associates' Hanweck developed VoleraFeed, a real-time, low-latency data feed for options analytics. According to Hanweck, he built VoleraFeed using three Nvidia server-based Tesla units (3 rack space units) to value the entire U.S. equities options market. It calculates real-time implied volatility surfaces and Greeks on the full OPRA universe and 2.5 million volatility calculations per second, with average latency under 10 milliseconds, he contends.

 

To do the same thing with conventional hardware, Hanweck says, he'd need 600 CPUs and 54 units of rack space. While the GPU hardware cost $42,000, Hanweck estimates that CPUs would have cost $262,000, so he's saving six times the hardware cost.

 

στην τρίτη σελίδα ενός ενδιφέροντος άρθρου:

http://www.wallstreetandtech.com/data-management/showArticle.jhtml?articleID=208700219&pgno=3

 

Σίγουρα δεν προβλέπεται για οικιακή χρήση :P Θα βοηθήσει πολύ πάντως ερευνητικά κέντρα και ιατρεία. Btw δεν είναι σούπερ υπολογιστής αλλά υπερυπολογιστής :P

 

όχι ακόμα... αλλά σύντομα θα αρχίσουνε να ξεπηδάνε και εφαρμογές για οικιακή

χρήση που να εκμεταλλεύοντε την gpu για να κάνουνε πιο γρήγορα τη δουλειά...

άσε που ξέρω τουλάχιστον 3 άτομα εδώ μέσα που χρησιμοποιούνε το TMPGEnc

Express για encode... αν έχουνε μια συμβατή κάρτα nvidia και βάλουνε το cuda

ας κάνουνε κάποιο test να μας πούνε... από τον Νοέμβριο υποστηρίζει cuda το

tmpgenc...

Δημοσ.

Μα για να λες ότι τα αποτελέσματα "γουρλώνουν τα μάτια" και πως "όσο οι software developers υιοθετούνε το CUDA, η ζωή μας στους υπολογιστές και ειδικά η δουλειά, μπορεί να γίνει πολύ πιο αποδοτική", πρέπει να το κάνεις back-up με αντίστοιχη πληροφορία. Γιατί οποιοσδήποτε μπορεί να αντιπαραβάλλει "να καθίσουν οι developers και να γράψουν σοβαρό data και task parallel code και όχι αλχημείες με threads".

 

Νομίζω ότι είναι λογικό αν πας από μία CPU σε μία CPU + 16 cores σε GPU θα δεις επιπλέον ταχύτητα. Αυτό δε σημαίνει όμως ότι είναι η καλύτερη λύση συνολικά και ότι όλοι πρέπει να αρχίσουν να μεταφέρουν τον κώδικα τους εκεί.

 

Συμφωνώ ότι στο τέλος είναι το τι περνάει στον χρήστη από άποψη ταχύτητας. Απλά πρέπει να φροντίζουμε και για λίγο παραπέρα από το σήμερα και να μην ακολουθούμε τη φοβερή και τρομερή λύση που προσπαθεί να περάσει παντού μία εταιρία.

 

Σημείωση: το ray tracing είναι embarrassingly parallel, άμα έχεις N cores, θα βλέπεις Nx speedup.

Δημοσ.

φίλε dop ένα ενδιαφέρον άρθρο (αν και 2 χρόνων):

http://www.codinghorror.com/blog/archives/000732.html

κρατάω αυτό που λέει στο τέλος:

 

I expect the relationship between CPU and GPU to largely be a symbiotic one: they're good at different things. But I also expect quite a few computing problems to make the jump from CPU to GPU in the next 5 years. The potential order-of-magnitude performance improvements are just too large to ignore.

 

αν θέλουμε να κάνουμε σχεδόν ευθείες συγκρίσεις για parallel δουλειές, η CPU δεν μπορεί να

έρχεται απέναντι από την GPU λόγω χαοτικής διαφοράς στην τελική υπολογιστική δύναμη, έστω

και αν μιλάμε για απόλυτα νούμερα... αυτό που θα μπορούσε λοιπόν να έρθει σχεδόν αντιμέτωπο

με τις GPU είναι ο Cell... η σύγκριση όμως του κόστους είναι επίσης χαοτική... μια pci-x με Cell

είναι κοντά στα 3.000 ευρώ αν δεν κάνω λάθος... δες και ένα thread στο forum της nvidia για

λόγους σύγκρισης: http://forums.nvidia.com/index.php?showtopic=58846

 

Well, for those people, here are the salient details:

Intel Core2Quad @ 3.4 Ghz (using 1 of 4 cores) = 376.87 million permutations/second.

nVidia GTS-8800 (320Mb) @ 1.2 Ghz/1.6 Ghz DDR (using 96/96 cores) = 4.66 billion permutations/second.

nVidia GTX-8800 (768Mb) @ 1.35 Ghz/1.8 Ghz DDR (using 128/128 cores) = 6.65 billion permutations/second.

I now will rewrite the CELL engine to incorporate a number of new optimizations I hve discovered whilst writing the CUDA version, but for the sake of reference, the previous CELL version running on 6 SPU's @ 3.2 Ghz ran at about 5.25 billion permutations/second.

 

"να καθίσουν οι developers και να γράψουν σοβαρό data και task parallel code και όχι αλχημείες με threads"...

από την πλευρά του software developer τα πράγματα νομίζω είναι κάπως έτσι:

 

1) έστω οτι κάθομαι και γράφω σοβαρό data και task parallel code... ποια είναι η υπολογιστική

μου δύναμη; 4 cores x 376.87 million = 1.5 billion permutations/second...

2) έστω οτι χρησιμοποιώ το cuda... ποια είναι η υπολογιστική μου δύναμη; 6.65 billion...

 

The potential order-of-magnitude performance improvements are just too large to ignore. :rolleyes:

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

  • Δημιουργία νέου...