To CXL IP της Panmnesia φέρεται να περιορίζει τους χρόνους απόκρισης σε διψήφιο αριθμό νανοδευτερολέπτων.

Οι σύγχρονες GPU που προορίζονται για εφαρμογές ΑΙ και HPC εξαρτώνται από την ενσωματωμένη μνήμη HBM (υψηλού εύρους ζώνης), με αποτέλεσμα να περιορίζονται οι επιδόσεις τους στη διαχείριση λειτουργιών τεχνητής νοημοσύνης και άλλων φορτίων. Όμως, μια νέα τεχνολογία θα επιτρέψει στις εταιρίες να επεκτείνουν τη χωρητικότητα μνήμης των GPU, αξιοποιώντας επιπλέον μνήμη μέσω συσκευών συνδεδεμένων στη θύρα PCIe, αντί να περιορίζονται στην ενσωματωμένη μνήμη της GPU, ενώ υπάρχει και η δυνατότητα αξιοποίησης SSD για την επέκταση της μνήμης. Η Panmnesia, εταιρία που υποστηρίζεται από το περίφημο ερευνητικό ινστιτούτο KAIST της Νότιας Κορέας, ανέπτυξε μια CXL IP χαμηλής υστέρησης απόκρισης, η οποία θα μπορούσε να χρησιμοποιηθεί για την επέκταση της μνήμης μιας GPU, μέσω καρτών επέκτασης μνήμης CXL.

Οι απαιτήσεις σε επίπεδο μνήμης για τα πλέον εξελιγμένα σύνολα δεδομένων, τα οποία χρησιμοποιούνται για την εκπαίδευση μοντέλων τεχνητής νοημοσύνης, αυξάνονται με ταχύτητα, πράγμα που σημαίνει ότι οι εταιρίες που δραστηριοποιούνται στο χώρο είναι υποχρεωμένες να αγοράζουν νέες GPU, να χρησιμοποιούν λιγότερο εξελιγμένα σύνολα δεδομένων ή εναλλακτικά να αξιοποιούν τη μνήμη της CPU, περιορίζοντας τις επιδόσεις των συστημάτων. Παρότι το CXL είναι ένα πρωτόκολλο το οποίο κανονικά λειτουργεί πάνω σε ένα σύνδεσμο PCIe, επιτρέποντας στους χρήστες να συνδέουν περισσότερη μνήμη σε ένα σύστημα μέσω της θύρας PCIe, η τεχνολογία αυτή πρέπει να αναγνωρίζεται από ένα ASIC και το υποσύστημά του, επομένως η προσθήκη ενός CXL controller από μόνη της δεν επαρκεί για να λειτουργήσει η τεχνολογία, ειδικά στην περίπτωση μιας GPU.

Η Panmnesia αντιμετώπισε διάφορες προκλήσεις προκειμένου να ενσωματώσει το πρωτόκολλο CXL για την επέκταση της μνήμης μιας GPU, εξαιτίας της απουσίας ενός λογικού υποστρώματος CXL και των ανάλογων υποσυστημάτων που υποστηρίζουν τη χρήση τελικών σημείων DRAM και/ή SSD σε GPU. Εκτός αυτού, η cahce μιας GPU και τα υποσυστήματα μνήμης δεν αναγνωρίζουν καμία επέκταση, πλην της ενοποιημένης εικονικής μνήμης (UVM), η οποία τείνει να είναι αργή.

Προκειμένου να αντιμετωπίσει αυτό το ζήτημα, η Panmnesia ανέπτυξε ένα RC (root complex) συμβατό με το CXL 3.1, εφοδιασμένο με πολλαπλές root ports (RP) που υποστηρίζουν εξωτερική μνήμη μέσω PCIe, καθώς και γέφυρα υποδοχής με αποκωδικοποιητή HDM που επικοινωνεί με το δίαυλο συστήματος μιας GPU. Ο αποκωδικοποιητής HDM, υπεύθυνος για τη διαχείριση του εύρους διευθύνσεων στη μνήμη του συστήματος, ουσιαστικά ωθεί το υποσύστημα μνήμης της GPU να "νομίσει" ότι καλείται να διαχειριστεί τη μνήμη του συστήματος, όμως στην πραγματικότητα το υποσύστημα αξιοποιεί κάποια DRAM ή NAND συνδεδεμένη μέσω PCIe. Αυτό σημαίνει ότι μπορούν να χρησιμοποιηθούν μνήμης DDR5 ή δίσκοι SSD για την επέκταση της συνολικής διαθέσιμης μνήμης μιας GPU.

H λύση (βασισμένη σε custom GPU, εμφανίζεται ως CXL-Opt στο γράφημα παρακάτω) ελέγχθηκε διεξοδικά και κατέγραψε διψήφια υστέρηση απόκρισης σε νανοδευτερόλεπτα (σε σύγκριση με μια υστέρηση της τάξης των 250ns στην περίπτωση πρωτοτύπων που ανέπτυξαν οι Samsung και Meta, εμφανίζονται ως CXL-Proto), συμπεριλαμβανομένου του χρόνου που χρειάζεται για τη μετάβαση του πρωτοκόλλου μεταξύ των συνήθων λειτουργιών μνήμης και της αξιοποίησης του CXL, σύμφωνα με την Panmnesia. Το σύστημα ενσωματώθηκε με επιτυχία τόσο σε επεκτάσεις μνήμης όσο και πρωτότυπα GPU/CPU, καταδεικνύοντας τη συμβατότητά του με διάφορες μορφές υλικού εξοπλισμού.

dvP3kSM7nj2S28RifknWJm-1200-80.jpg.3f287a7ab56f31253aff0f0059648ff8.jpg

Στις δοκιμές της Panmnesia, η UVM αποδίδει χειρότερα από όλους τους πυρήνες GPU που ελέγχθηκαν, εξαιτίας των καθυστερήσεων που προκύπτουν από σφάλματα σελίδας και τη μεταφορά δεδομένων στο επίπεδο σελίδας, που συχνά υπερβαίνουν τις ανάγκες της GPU. Αντίθετα, το CXL επιτρέπει απευθείας πρόσβαση στα διευρυμένα αποθηκευτικά μέσα, μέσω εντολών φόρτωσης/αποθήκευσης, εξαλείφοντας τα παραπάνω ζητήματα.

Έτσι, οι χρόνοι εκτέλεσης του CXL-Proto είναι 1,94 φορές συντομότεροι από ό,τι της UVM. Η CXL-Opt που ανέπτυξε η Panmnesia περιορίζει ακόμη περισσότερο το χρόνο εκτέλεσης κατά 1,66 φορές, με ένα βελτιστοποιημένο ελεγκτή να επιτυγχάνει υστέρηση που μετριέται σε διψήφιο αριθμό νανοδευτερολέπτων, ενώ παράλληλα ελαχιστοποιεί την υστέρηση σε επίπεδο ανάγνωσης/εγγραφής. Το μοτίβο αυτό αποτυπώνεται επίσης σε μία ακόμη σειρά στοιχείων, που αποδίδουν τις τιμές IPC που καταγράφηκαν κατά την εκτέλεση των πυρήνων των GPU. Προκύπτει ότι το CXL-Opt της Panmnesia επιτυγχάνει ταχύτητες 3,22 φορές και 1,65 φορές ανώτερες των UVM και CΧL-Proto, αντίστοιχα.

Γενικά, η υποστήριξη του πρωτοκόλλου CXL μπορεί να βοηθήσει πολύ τις GPU που αναλαμβάνουν εργασίες ΑΙ και HPC, όμως οι επιδόσεις παραμένουν σημαντικό ζήτημα. Εκτός αυτού, πρέπει να φανεί στην πορεία αν εταιρίες όπως η AMD και η Nvidia αποφασίσουν να συμπεριλάβουν την υποστήριξη του CXL για τις GPU τους. Κι αν η τεχνολογία αυτή αποκτήσει δυναμική, δεν είναι βέβαιο αν οι κολοσσοί της αγοράς θα χρησιμοποιήσουν IP blocks από εταιρίες όπως η Panmnesia ή απλά θα αναπτύξουν δική τους τεχνολογία. 

  • Like 3
  • Haha 1