Προς το περιεχόμενο

Προτεινόμενες αναρτήσεις

Δημοσ.
1 λεπτό πριν, Πέτρος είπε

Επειδή έχουμε αρκετή ώρα να αρπαχτούμε...

48ΜΒ με 192bit δίαυλο η 4070Ti (504GB/s), 80ΜΒ με 320bit η 7900ΧΤ (800GB/s), 128ΜΒ με 256bit η 6950ΧΤ (576GB/s...κι εδώ φαίνεται το ζόρι σε 4Κ).

Οχι υπαρχει λαθος εδω.

Μιλαμε για την L2 Cache στην οποια η 7900xtx εχει 6MB και η 4070ti εχει 48 και η 3090 εχει επισης 6mb L2 cache. Ειναι δηλαδη 6 φορες πανω στην L2 cache και απο τις 2 καρτες. Για αυτο βλεπουμε τετοιες επιδοσεις με τοσο χαμηλο διαυλο. Σε 4Κ παλι παρολο τον χαμηλο διαυλο δεν ειναι τοσο πιο κατω αναλογικα απο οτι σε 1440p. Δηλαδη αυτο που βλεπουμε ειναι οτι ναι μεν υπαρχει μια πτωση σε 4Κ αναλυση λογο του ευρους μνημης[το οποιο ανεβαινει αρκετα με ενα overclock στα 1000-1500mhz πανω που οπως ειπες ειναι στα 504GB σε stock αλλα παει στα 600GB με ενα OC εδω η δικη μου με +2000 στη μνημη ειναι στα 600GB ευρος απο 504 100GB πανω το οποιο τη δινει αρκετο αερα και σε 4Κ. 

Για την cache λοιπον βλεπουμε οτι παρολο το μεγαλυτερο ευρος της 7900xt στα 800 σε 1440p ειναι μολις 8% μπροστα απο την 4070ti και μολις 10% πανω σε 4Κ το οποιο πιστεψε με αντισταθμιζετε με τα 600GB ευρους που εκει χωλαινει ας πουμε αν και λογο τεραστιας L2 cache μενει ενα 2% περισσοτερο απο οτι σε 1440p στα 4Κ. 

Screenshot-3.png

Screenshot-1.png

  • Απαντ. 2,5k
  • Δημ.
  • Τελ. απάντηση

Συχνή συμμετοχή στο θέμα

Δημοσ.
19 λεπτά πριν, Arkin είπε

Οχι υπαρχει λαθος εδω.

Μιλαμε για την L2 Cache στην οποια η 7900xtx εχει 6MB και η 4070ti εχει 48 και η 3090 εχει επισης 6mb L2 cache. Ειναι δηλαδη 6 φορες πανω στην L2 cache και απο τις 2 καρτες. Για αυτο βλεπουμε τετοιες επιδοσεις με τοσο χαμηλο διαυλο. Σε 4Κ παλι παρολο τον χαμηλο διαυλο δεν ειναι τοσο πιο κατω αναλογικα απο οτι σε 1440p. Δηλαδη αυτο που βλεπουμε ειναι οτι ναι μεν υπαρχει μια πτωση σε 4Κ αναλυση λογο του ευρους μνημης[το οποιο ανεβαινει αρκετα με ενα overclock στα 1000-1500mhz πανω που οπως ειπες ειναι στα 504GB σε stock αλλα παει στα 600GB με ενα OC εδω η δικη μου με +2000 στη μνημη ειναι στα 600GB ευρος απο 504 100GB πανω το οποιο τη δινει αρκετο αερα και σε 4Κ. 

Για την cache λοιπον βλεπουμε οτι παρολο το μεγαλυτερο ευρος της 7900xt στα 800 σε 1440p ειναι μολις 8% μπροστα απο την 4070ti και μολις 10% πανω σε 4Κ το οποιο πιστεψε με αντισταθμιζετε με τα 600GB ευρους που εκει χωλαινει ας πουμε αν και λογο τεραστιας L2 cache μενει ενα 2% περισσοτερο απο οτι σε 1440p στα 4Κ. 

Screenshot-3.png

Screenshot-1.png

Βιάζεσαι.

Δεν μας ενδιαφέρει η L2 στις αμδ, την IC αναφέρω, που μπήκε για να αντισταθμίσει τον στενό δίαυλο στις 6ρες.

Ο Herald ανέφερε την αύξηση ως αντιστοιχία, για αυτό τα έβαλα έτσι.

Δημοσ.
Μόλις τώρα, Πέτρος είπε

Βιάζεσαι.

Δεν μας ενδιαφέρει η L2 στις αμδ, την IC αναφέρω, που μπήκε για να αντισταθμίσει τον στενό δίαυλο στις 6ρες.

Ο Herald ανέφερε την αύξηση ως αντιστοιχία, για αυτό τα έβαλα έτσι.

Ναι μας ενδιαφερει στις 4000 ομως δηλαδη μην βλεπουμε μονο το bus. Για αυτο η 3090 με 384bus ειναι κατω απο 4070ti ας εχει το μισο ευρος. Δηλαδη σε ατοφια specs βλεπεις 7900xt 20gb vram μεγαλο διαυλο ευρος κτλ κτλ βλεπεις 4070ti και τελικα σε 4Κ που ολοι κραζουν την 4070ti λογο του διαυλου ειναι μολις 2% πιο κατω απο οτι σε 1440p. Δεν βλεπει κανεις την τεραστια και πολυ γρηγορη L2 cache που μπηκε στις 4000. Παντως για το ευρος ειδες οτι με ενα απλο oc περνει 100GB τα οποια βοηθανε αρκετα σε πιο BN καταστασεις λογο ευρους. 

Δημοσ.
6 λεπτά πριν, Arkin είπε

Ναι μας ενδιαφερει στις 4000 ομως δηλαδη μην βλεπουμε μονο το bus. Για αυτο η 3090 με 384bus ειναι κατω απο 4070ti ας εχει το μισο ευρος. Δηλαδη σε ατοφια specs βλεπεις 7900xt 20gb vram μεγαλο διαυλο ευρος κτλ κτλ βλεπεις 4070ti και τελικα σε 4Κ που ολοι κραζουν την 4070ti λογο του διαυλου ειναι μολις 2% πιο κατω απο οτι σε 1440p. Δεν βλεπει κανεις την τεραστια και πολυ γρηγορη L2 cache που μπηκε στις 4000. Παντως για το ευρος ειδες οτι με ενα απλο oc περνει 100GB τα οποια βοηθανε αρκετα σε πιο BN καταστασεις λογο ευρους. 

Βρε μας ενδιαφέρει στις πράσινες, στις κόκκινες όχι.

Δεν ξέρω τα "τεχνικά" για να συζητήσουμε αν είναι 1:1 η σχέση στη λειτουργία τους, ελπίζω κάποιος να μας διαφωτίσει σχετικά.

Εννοείται ότι το vram oc θα δώσει πόντους,τί συζητάμε?

Δημοσ.
4 λεπτά πριν, Πέτρος είπε

Βρε μας ενδιαφέρει στις πράσινες, στις κόκκινες όχι.

Δεν ξέρω τα "τεχνικά" για να συζητήσουμε αν είναι 1:1 η σχέση στη λειτουργία τους, ελπίζω κάποιος να μας διαφωτίσει σχετικά.

Εννοείται ότι το vram oc θα δώσει πόντους,τί συζητάμε?

Οι κοκκινες αν ειχαν πιο μεγαλη L2 cache δεν θα ειχαν διαφορα προς τα πανω? Βασιζονται αποκλειστικα σε IF? Το vram OC στη συγκεκριμενη περιπτωση δινει αερα στην καρτα σε μεγαλες αναλυσεις ενω πχ σε μια καρτα που ηδη εχει τεραστιο ευρος το να την κανεις OC δεν θα παρει εκει θελω να σταθω. 

Στο οτι αν το ευρος μνημης την κανει BN σε μεγαλες αναλυσεις οπως γραφουν καποιοι ισοσταθμιζεται απο το OC που της δινει 100gb ακομα. Γιατι πιο πανω ειδα αναφερθηκατε καθαρα σε διαυλο-ευρος και ξεχασαμε L2 που δεν βλεπω να αναφερετε απο κανεναν στο εδω θεμα και ειναι ενας απο τους λογους που δεν χρειαζεται τεραστιο διαυλο για να ειναι καλες σε μεγαλες αναλυσεις. 

7900xt 320bus 800gb ευρος 10% πανω σε 4Κ σε μια καρτα που για πολλους ειναι ηδη 1080p λογο 192bus και 500gb ευρους. Κοιτανε δηλαδη απλα τα νουμερα στα χαρτια απο εκει και περα δεν τους νοιαζει τιποτα ωστε να κρατησουν την αποψη τους. 

Ειναι κατι αντιστοιχο με οτι τα 8gb vram ειναι αχρηστα για 1440p αρκετοι λενε και για 1080p ενω εβαλα βιντεο που τα παει περιφημα μια 3070 σε 1440p με ultra textures στα νεα παιχνιδια. 

Υπαρχει μια συγχυση στο εδω θεμα για ανθρωπους που απλα κοιτανε ξερα τα νουμερα και specs ενω η πραγματικοτητα ειναι τελειως μα τελειως διαφορετικη. 

Δημοσ. (επεξεργασμένο)
10 hours ago, Arkin said:

Οι κοκκινες αν ειχαν πιο μεγαλη L2 cache δεν θα ειχαν διαφορα προς τα πανω? Βασιζονται αποκλειστικα σε IF? Το vram OC στη συγκεκριμενη περιπτωση δινει αερα στην καρτα σε μεγαλες αναλυσεις ενω πχ σε μια καρτα που ηδη εχει τεραστιο ευρος το να την κανεις OC δεν θα παρει εκει θελω να σταθω. 

Στο οτι αν το ευρος μνημης την κανει BN σε μεγαλες αναλυσεις οπως γραφουν καποιοι ισοσταθμιζεται απο το OC που της δινει 100gb ακομα. Γιατι πιο πανω ειδα αναφερθηκατε καθαρα σε διαυλο-ευρος και ξεχασαμε L2 που δεν βλεπω να αναφερετε απο κανεναν στο εδω θεμα και ειναι ενας απο τους λογους που δεν χρειαζεται τεραστιο διαυλο για να ειναι καλες σε μεγαλες αναλυσεις. 

7900xt 320bus 800gb ευρος 10% πανω σε 4Κ σε μια καρτα που για πολλους ειναι ηδη 1080p λογο 192bus και 500gb ευρους. Κοιτανε δηλαδη απλα τα νουμερα στα χαρτια απο εκει και περα δεν τους νοιαζει τιποτα ωστε να κρατησουν την αποψη τους. 

Ειναι κατι αντιστοιχο με οτι τα 8gb vram ειναι αχρηστα για 1440p αρκετοι λενε και για 1080p ενω εβαλα βιντεο που τα παει περιφημα μια 3070 σε 1440p με ultra textures στα νεα παιχνιδια. 

Υπαρχει μια συγχυση στο εδω θεμα για ανθρωπους που απλα κοιτανε ξερα τα νουμερα και specs ενω η πραγματικοτητα ειναι τελειως μα τελειως διαφορετικη. 

Διαφορετικές αρχιτεκτονικές οι RDNA3 με τις ADA, η πρώτη έχει 3x Level Cache ενώ η δεύτερη έχει 2x Level Cache όποτε δεν μπορείς να συγκρίνεις απευθείας τις L2 μεταξύ τους. Στην RDNA3 η L2 είναι μικρότερη αλλά έχει μικρότερο latency και πολύ μεγάλο Bandwidth και έτσι μπορεί και διαχειρίζεται παραπάνω DATA ώστε να μην χρειάζεται να πηγαίνουν στην Infinity Cache.

Από την άλλη μεριά η L2 στην ADA παίζει και ρόλο Infinity Cache και έχει μεγάλο size αλλά και εξαιρετικά μεγάλο Bandwidth σε σχέση με το Infinity Cache στην RDNA3.

Αν μεγαλώσεις την L2 στην RDNA3 μπορεί και να έχεις χειρότερο αποτέλεσμα γιατί θα ανεβάσεις το Latency και ισως χάσεις και Bandwidth και έτσι θα πρέπει να στέλνεις παραπάνω DATA στην Infinity Cache  από ότι πριν με αποτέλεσμα να μεγαλώσεις το Latency και να χάσεις επιδόσεις αλλά και να ανεβάσεις την κατανάλωση γιατί θα πρέπει να μεταφέρεις DATA έκτος Chip στα Chiplets όπου είναι η Infinity Cache.

Μια ακόμα διαφορά στην Vram μεταξύ των δυο είναι ότι η ADA χρειάζεται ποιο γρήγορες GDDR6X γιατί έχει μικρότερο δίαυλο (256bit)  και έτσι είναι και ακριβότερες αλλά και έχουν παραπάνω κατανάλωση από ότι οι απλές GDDDR6  που χρησιμοποιούν οι RDNA3. Βέβαια επειδή ο Memory Controller στις ADA είναι μέσα στο Chip στα 4nm , έχει μικρότερη κατανάλωση  από ότι οι Memory Controllers στην RDNA3 που είναι κατασκευασμένοι στα 6nm και είναι μέσα στα Chiplets μαζί με την Infinity Cache.

Επεξ/σία από Aten-Ra
  • Like 3
Δημοσ.
12 ώρες πριν, Πέτρος είπε

Επειδή έχουμε αρκετή ώρα να αρπαχτούμε...

48ΜΒ με 192bit δίαυλο η 4070Ti (504GB/s), 80ΜΒ με 320bit η 7900ΧΤ (800GB/s), 128ΜΒ με 256bit η 6950ΧΤ (576GB/s...κι εδώ φαίνεται το ζόρι σε 4Κ).

Άσε την σύγκριση μεταξύ τους. Εγω λέω ότι έπεσε γκρίνια για την 4080 12 επειδή είναι και καλά 4060 λόγω διαύλου, αλλά κανείς δεν ασχολήθηκε με το ότι έχει 30.φορες μεγαλύτερη cache από ότι είχε η 3060 ας πούμε,και 8 φορές μεγαλύτερη από την 3090. 

Βέβαια το θεωρώ ποντιο να βάζεις τόση cache για να καλύψεις την έλλειψη σε bandwidth, μιας και είναι πιο ακριβή - Πιάνει ΤΕΡΑΣΤΙΟ μέρος του Chip. Θέλω να πιστεύω κάποιος άλλος λόγος υπάρχει, κάτι κάπου κάπως επωφελείται το rt από τόση cache. 

  • Like 2
Δημοσ.
42 minutes ago, Herald said:

Άσε την σύγκριση μεταξύ τους. Εγω λέω ότι έπεσε γκρίνια για την 4080 12 επειδή είναι και καλά 4060 λόγω διαύλου, αλλά κανείς δεν ασχολήθηκε με το ότι έχει 30.φορες μεγαλύτερη cache από ότι είχε η 3060 ας πούμε,και 8 φορές μεγαλύτερη από την 3090. 

Βέβαια το θεωρώ ποντιο να βάζεις τόση cache για να καλύψεις την έλλειψη σε bandwidth, μιας και είναι πιο ακριβή - Πιάνει ΤΕΡΑΣΤΙΟ μέρος του Chip. Θέλω να πιστεύω κάποιος άλλος λόγος υπάρχει, κάτι κάπου κάπως επωφελείται το rt από τόση cache. 

 

38 minutes ago, Psycho_Warhead said:

Ανέλυσε ο Alex στο βίντεο με το path-tracing στο CP 2077 ότι η cache βοηθάει πολύ σε RT καταστάσεις..

Δεν επωφελείται μόνο το RT αλλά όλα ακόμα και η κατανάλωση, όσο μπορείς να χρησιμοποιείς την L1/L2 και δεν στέλνεις DATA σε L3/IF/Vram τόσο ρίχνεις την κατανάλωση και αυξάνεις τις επιδόσεις σε όλους τους τομείς μαζί και στο RT.

Όσο μπορείς και κρατάς τα DATA κοντά στα execution units (WGP/SM) τόσο έχεις μικρότερο latency και μικρότερη κατανάλωση. Μικρότερο latency γιατί οι L1/L2 έχουν μικρότερο latency από μόνες τους σε σχέση με τις L3/IF/Vram αλλά και μικρότερο latency από την μεταφορά μεταξύ των Cache/Vram. Μικρότερη κατανάλωση έχεις και γιατί επεξεργάζεσαι τα DATA ποιο γρήγορα (μικρότερες διαδρομές) αλλά και γιατί είναι πολύ ενεργοβόρο να μεταφέρεις DATA μέσα και έξω από το Chip.

Για αυτό ανεβάζουν τις Cache σε κάθε αρχιτεκτονική για να μην έχουν Cache miss και πρέπει να μεταφέρουν τα DATA από Cache σε Cache και από Cache στην Vram , όσο μικρότερες μεταφορές τόσο καλύτερα.

Βέβαια όσο μεγαλώνουν τα Chip και όσο μεγαλώνουν τα DATA στα παιχνίδια τόσο παραπάνω θα πρέπει να ανεβαίνει και το Memory Hierarchy και σε μέγεθος και σε Bandwidth και να έχουν χαμηλά latency.

  • Like 4
Δημοσ.

Εμένα δεν μου λένε τίποτα όλα αυτά..Φτάσαμε να έχουμε cache μπόλικες/γρήγορες, NVMe δίσκους γρήγορους, RAM πολύ γρήγορες, VRAM αρκετή(Στα μεγάλα μοντέλα) κλπ..Και το traversal stuttering πάει σύννεφο..Άρα φούσκες..

Η υλοποίηση στο software έχει μείνει πίσω. Άντε να βγει το επόμενο Gears απ' τους μάγους της Unreal να κουνηθεί λίγο το Μιλάνο..

  • Like 4
Δημοσ.
21 λεπτά πριν, Psycho_Warhead είπε

Εμένα δεν μου λένε τίποτα όλα αυτά..Φτάσαμε να έχουμε cache μπόλικες/γρήγορες, NVMe δίσκους γρήγορους, RAM πολύ γρήγορες, VRAM αρκετή(Στα μεγάλα μοντέλα) κλπ..Και το traversal stuttering πάει σύννεφο..Άρα φούσκες..

Η υλοποίηση στο software έχει μείνει πίσω. Άντε να βγει το επόμενο Gears απ' τους μάγους της Unreal να κουνηθεί λίγο το Μιλάνο..

Ναι αλλά γιατί είναι κοινό στοιχείο σε κάποιους μόνο τίτλους και όχι σε άλλους;

Δημοσ. (επεξεργασμένο)
2 ώρες πριν, Herald είπε

Άσε την σύγκριση μεταξύ τους. Εγω λέω ότι έπεσε γκρίνια για την 4080 12 επειδή είναι και καλά 4060 λόγω διαύλου, αλλά κανείς δεν ασχολήθηκε με το ότι έχει 30.φορες μεγαλύτερη cache από ότι είχε η 3060 ας πούμε,και 8 φορές μεγαλύτερη από την 3090. 

Βέβαια το θεωρώ ποντιο να βάζεις τόση cache για να καλύψεις την έλλειψη σε bandwidth, μιας και είναι πιο ακριβή - Πιάνει ΤΕΡΑΣΤΙΟ μέρος του Chip. Θέλω να πιστεύω κάποιος άλλος λόγος υπάρχει, κάτι κάπου κάπως επωφελείται το rt από τόση cache. 

Ωραία όλα τα points σου, θα επικεντρωθώ στο,

2 ώρες πριν, Herald είπε

το θεωρώ ποντιο να βάζεις τόση cache για να καλύψεις την έλλειψη σε bandwidth

μιας και το διαβάζω τακτικά και η απάντηση είναι σε presentation της nvidia.

Ένα μίνι transcript που έραψα:

Getting that kind of speed out of a neural network lies in our fully fused implementation. The entire neural network is implemented in a single Cuda kernel.
Store intermediate results, evaluating the network, in the fast on chip memory instead of slow GPU Ram. Fully fused pays off in terms of inference, we're much faster than an equivalent implementation in tensorflow.

image.png.56821c01ff167e5c1d08facecd609c47.png

 

Όλο το βίντεο έχει ενδιαφέρον. Στο 11:14 ξεκινάει η περιγραφή (έβαλα timestamp).

Επεξ/σία από aki
  • Like 3
Δημοσ.
2 λεπτά πριν, aki είπε

 

Ωραία όλα τα points σου, θα επικεντρωθώ στο,

μιας και το διαβάζω τακτικά και η απάντηση είναι σε presentation της nvidia.

Ένα μίνι transcript που έραψα:

Getting that kind of speed out of a neural network lies in our fully fused implementation.
The entire neural network is implemented in a single Cuda kernel.
Store intermediate results, evaluating the network, in the fast on chip memory instead of slow GPU Ram.
Fully fused pays off in terms of inference, we're much faster than an equivalent implementation in tensorflow.

image.png.56821c01ff167e5c1d08facecd609c47.png

 

Όλο το βίντεο έχει ενδιαφέρον. Στο 11:14 ξεκινάει η περιγραφή (έβαλα timestamp).

 

 

 

Άρα όντως κάπου κάτι κάπως επωφελείται 😁

Δημοσ. (επεξεργασμένο)
32 λεπτά πριν, Herald είπε

Άρα όντως κάπου κάτι κάπως επωφελείται 😁

Ναι, αλλά μάλλον φτάσαμε στο όριο που η περισσότερη cache βοηθάει ουσιαστικά.
Αν κατάλαβα σωστά το επόμενο στάδιο επιτάχυνσης (για Path Tracing) θα είναι συνδυαστικό και ένα από αυτά είναι να ενσωματωθεί συγκεκριμένος Denoising Αλγόριθμος σε Hardware επίπεδο (όχι γενικευμένος μόνο) και να αυξήσουν τον αριθμό των Cuda Cores (ίσως να μειώσουν την cache;). Δε νομίζω να δούμε στην 5000 τέτοιο άλμα.

Είναι εντυπωσιακό πως η nvidia δουλεύει Hardware και Software παράλληλα τόσο καλά, το CP77 overdrive που παίζει σε 4K με dlss-3 είναι απόδειξη αυτού. Είναι software/hardware tricks.

Επεξ/σία από aki

Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε

Πρέπει να είστε μέλος για να αφήσετε σχόλιο

Δημιουργία λογαριασμού

Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!

Δημιουργία νέου λογαριασμού

Σύνδεση

Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.

Συνδεθείτε τώρα

  • Δημιουργία νέου...