StavrosD Δημοσ. 21 Μαρτίου Δημοσ. 21 Μαρτίου (επεξεργασμένο) Σχετικά με την εκτέλεση των LLM μοντέλων τοπικά, δεν είναι δύσκολο να φορτώσει κάποιος ακόμα και το llama2 70b τοπικά. Θα πηγαίνει αρκετά αργά αλλά κάποια στιγμή θα τρέξει. Έτρεξα το παρακάτω στο CodeLLAma-34b.Q8_0. Η ταχύτητα που μου έγραψε την απάντηση ήταν 14.34 tokens/s. You Write me a "Hello world!" progam in at least 10 programming languages. Before each example write a comment with the programming language. AI [writes code] # python print("Hello world!") # python 3 print("Hello world!") // java System.out.println("Hello world!"); // C# Console.WriteLine("Hello world!"); // C++ cout << "Hello world!"; // php echo "Hello world!"; // javascript console.log("Hello world!"); # perl print "Hello world!"; // C printf("Hello world!"); // Go fmt.Println("Hello world!") // Swift print("Hello world!") // Kotlin println("Hello world!") -- Haskell putStrLn "Hello world!" ; Clojure (println "Hello world!") # Ruby puts "Hello world!" # R cat("Hello world!") -- Lua print("Hello world!") ; Racket (println "Hello world!") "Hello world!" print -- Factor % Prolog write('Hello world!'). // Rust println!("Hello world!"); @elpenor Επεξ/σία 21 Μαρτίου από StavrosD 1
MikeKata Δημοσ. 21 Μαρτίου Δημοσ. 21 Μαρτίου 14 hours ago, StavrosD said: Αν κάποιος ασχολείται με ΑΙ και ειδικότερα με LLM είναι πιο οικονομικό να πάρει ένα Mac παρά να πάρει PC με Nvidia GPU, ήδη βλέπω να το προτείνουν σε κάποια forum. Η ισχύς του Mac είναι ικανοποιητική για inference και fine tuning. Ανάλογα τι χρειάζεσαι, φυσικά. Όπως είπες, για inference και fine tuning, ναι. Το καλό με τις GPU, όμως, είναι, πρώτον ότι είναι general purpose πέρα από ML (gaming, CAD κλπ) και, κυρίως, ότι είναι drop-in και upgradable. Προσωπικά, ήθελα μία CUDA GPU για να φτιάξω ένα U-Net για το thesis μου, να το κάνω train κλπ. Τσίμπησα μια 3060 12GB στα 100€ και είναι "κλοπή" για τις δυνατότητες που μου δίνει. Ένα Macbook ακόμα και με M1 θα μου πήγαινε 7-8 φορές πάνω το κόστος και δε θα πλησίαζε καν τις δυνατότητες της 3060 (το φθηνότερο M1 με 8 GB). Αν ανεβαίνουμε τιμολογιακές κλίμακες, ναι, υπάρχουν, πλέον, περιστάσεις όπου τα M-series αξίζουν αντί για μια τεράστια GPU. Αλλά εκεί πρέπει να σκεφτείς πόσο δέχεσαι το ανελέητο swapping στον SSD. 1
StavrosD Δημοσ. 21 Μαρτίου Δημοσ. 21 Μαρτίου @MikeKata Αν η μνήμη του M-series είναι πολύ μεγαλύτερη από το μέγεθος του μοντέλου τότε δεν θα γίνεται swapping. Σχετικά με το swapping στα Mac είναι πονεμένη ιστορία, είμαι από αυτούς που τα έφτυσε το MacBook Pro επειδή τα έφτυσε ο δίσκος αλλά ας τα πούμε σε άλλο θέμα. Το επόμενο Mac που θα πάρω θα έχει τουλάχιστον 36GB RAM ή αν πάρω Mac Studio θα πάω στα 196GB (Η διαφορά από το base Mac Studio Ultra είναι κάτω από το κόστος μιας 4090).
jimex Δημοσ. 21 Μαρτίου Δημοσ. 21 Μαρτίου (επεξεργασμένο) 18 hours ago, StavrosD said: Έτσι ακριβώς και αυτός μάλιστα είναι ένας λόγος για τον οποίο θα αυξηθούν φέτος τα κέρδη της Apple. Μια Nvidia A6000 RTX με 48GB RAM κοστίζει περισσότερο από ένα Mac Studio M2 Ultra με 192GB unified memory. Αν κάποιος ασχολείται με ΑΙ και ειδικότερα με LLM είναι πιο οικονομικό να πάρει ένα Mac παρά να πάρει PC με Nvidia GPU, ήδη βλέπω να το προτείνουν σε κάποια forum. Η ισχύς του Mac είναι ικανοποιητική για inference και fine tuning. Πολλές εταιρείες έχουν φθηνότερους accelerators αυτή τη στιγμή σε σχέση με τις GPUs της nvidia. Και η AMD έχει, και η intel έχει και η Google προσφέρει τα TPUs. Απλά δεν τους αγοράζει σχεδόν κανείς για training μοντέλων. Τα TPUs, που στα χαρτιά είναι πολύ δυνατά, τα χρησιμοποιεί κυρίως η Google εσωτερικά γιατί έχει δημιουργήσει ένα τεράστιο εσωτερικό codebase που βασίζεται σε αυτά. Ελάχιστες ερευνητικές δημοσιεύσεις στις οποίες δε συμμετέχει η Google χρησιμοποιούν TPUs. Το οικοσύστημα που έχει χτιστεί γύρω από την CUDA δε συγκρίνεται με τίποτα άλλο. Μέχρι και η τελευταία βιβλιοθήκη που θα βρει κάποιος έχει φτιαχτεί για να τρέχει σε cuda. Οι accelerators των υπολοίπων έχουν νόημα αυτή τη στιγμή μονάχα για deployment μοντέλων για inference. Δηλαδή, όταν έχεις εκπαιδεύσει ήδη ένα μοντέλο και έχει φτάσει σε επίπεδο να αξίζει να χρησιμοποιηθεί από αρκετό κόσμο, να το μετατρέψεις για να εκτελείται σε hardware διαφορετικό από cuda gpus, προκειμένου να βγαίνει πιο φθηνά. Επεξ/σία 21 Μαρτίου από jimex 2
MikeKata Δημοσ. 21 Μαρτίου Δημοσ. 21 Μαρτίου 1 hour ago, StavrosD said: Αν η μνήμη του M-series είναι πολύ μεγαλύτερη από το μέγεθος του μοντέλου τότε δεν θα γίνεται swapping. Εννοείται, αλλά, για να φθάσεις σε τέτοια επίπεδα μνήμης σε Mac, θες 3800€ για M1 με 32 GB RAM ή Mac Studio στα 2300€ (για παραπάνω ή M3 ξεφεύγουμε). Σε τέτοιες τιμές, θεωρώ ότι πάει κανείς σε πολλαπλές 4090 (ή 3090 με NVlink) με κλειστά μάτια. Δεν έχω τέτοια ανάγκη προς το παρόν, αλλά, πιστεύω ότι κάποιος που δίνει 5K+ για ML rig, δε θα κάνει απλό inferencing, θα κάνει training. Και εκεί μπορείς να "σπάσεις" το μοντέλο ώστε να γίνεται training σε πολλές GPUs. Φυσικά πρέπει να το γράψεις ώστε να υποστηρίζει parallelization, να στέλνεις τα batches αναλόγως κλπ (δεν είναι τρελά δύσκολο, απλά το κάνεις wrap σε nn.DataParallel αν γράφεις σε PyTorch ή χρησιμοποιείς tf.distribute σε Tensorflow). BTW, πολλά μοντέλα όπως π.χ το llama.cpp έχουν multi-gpu support. Υ.Γ. Είδα και κάτι Α6000 (48GB) στο γνωστό μαγαζί με όνομα χαρακτήρα της Disney στα 5K...
StavrosD Δημοσ. 22 Μαρτίου Δημοσ. 22 Μαρτίου (επεξεργασμένο) Mac Studio M2 Ultra 192GB κοστίζει κάτω από 7000€ με το ΦΠΑ. Η τιμή περιλαμβάνει επεξεργαστή,μητρική ,τροφοδοτικό ,κλπ. Πόσο κοστίζει ένα PC με 192GB VRAM; ΥΓ Και εγώ Nvidiaάκιας είμαι, έχω 2GPU και θέλω να πάρω και άλλες αλλά το κόστος είναι απαγορευτικό. Και μεταχειρισμένες 3090 να πάρει κάποιος για να φτάσει τα 192GB θα πρέπει να πάρει 8 κάρτες. Με 650€/τεμάχιο πάμε στα 5200€ με το ρίσκο να τα φτύσει κάποια καθώς πολλοί είχαν κάνει mining για χρόνια. Η ενιαία μνήμη στον M2 έχει και ένα ακόμα πλεονέκτημα. Όταν φορτώνουν τα Layers του μοντέλου στις GPU, δεν μπορεί να σπάσει ένα layer σε 2 GPU οπότε μένει ανεκμετάλλευτο μέρος της μνήμης. Αν π.χ. το επόμενο layer έχει μέγεθος 3GB αλλά έχουν μείνει μόνο 2.8GΒ διαθέσιμα τότε θα πρέπει να φορτωθεί στην επόμενη GPU και τα 2.8GB θα μείνουν ανεκμετάλλευτα. Επεξ/σία 22 Μαρτίου από StavrosD
Προτεινόμενες αναρτήσεις
Δημιουργήστε ένα λογαριασμό ή συνδεθείτε για να σχολιάσετε
Πρέπει να είστε μέλος για να αφήσετε σχόλιο
Δημιουργία λογαριασμού
Εγγραφείτε με νέο λογαριασμό στην κοινότητα μας. Είναι πανεύκολο!
Δημιουργία νέου λογαριασμούΣύνδεση
Έχετε ήδη λογαριασμό; Συνδεθείτε εδώ.
Συνδεθείτε τώρα