Εισαγωγή

Πιστεύετε ότι το Grok3 θα είναι το "τελικό σημείο" των προ-εκπαιδευμένων μοντέλων;

Ο Elon Musk και η ομάδα xAI παρουσίασαν επίσημα την τελευταία έκδοση του Grok, το Grok3, κατά τη διάρκεια μιας ζωντανής μετάδοσης. Πριν από αυτήν την εκδήλωση, ένας σημαντικός όγκος σχετικών πληροφοριών, σε συνδυασμό με την 24ωρη διαφημιστική εκστρατεία του Musk, αύξησαν τις παγκόσμιες προσδοκίες για το Grok3 σε πρωτοφανή επίπεδα. Μόλις πριν από μια εβδομάδα, ο Musk δήλωσε με σιγουριά κατά τη διάρκεια μιας ζωντανής μετάδοσης, σχολιάζοντας το DeepSeek R1, "το xAI πρόκειται να λανσάρει ένα καλύτερο μοντέλο AI". Από τα δεδομένα που παρουσιάστηκαν ζωντανά, το Grok3 φέρεται να έχει ξεπεράσει όλα τα τρέχοντα mainstream μοντέλα σε σημεία αναφοράς για τα μαθηματικά, την επιστήμη και τον προγραμματισμό, με τον Musk να ισχυρίζεται ακόμη και ότι το Grok3 θα χρησιμοποιηθεί για υπολογιστικές εργασίες που σχετίζονται με τις αποστολές της SpaceX στον Άρη, προβλέποντας "ανακαλύψεις στο επίπεδο του βραβείου Νόμπελ μέσα σε τρία χρόνια". Ωστόσο, αυτές είναι προς το παρόν μόνο οι ισχυρισμοί του Musk. Μετά την κυκλοφορία, δοκίμασα την τελευταία beta έκδοση του Grok3 και έθεσα την κλασική ερώτηση-παγίδα για μεγάλα μοντέλα: "Ποιο είναι μεγαλύτερο, το 9.11 ή το 9.9;" Δυστυχώς, χωρίς κανένα προσδιορισμό ή βαθμολογία, το λεγόμενο πιο έξυπνο Grok3 δεν μπόρεσε να απαντήσει σωστά σε αυτήν την ερώτηση. Το Grok3 απέτυχε να προσδιορίσει με ακρίβεια το νόημα της ερώτησης.

Αυτό το τεστ τράβηξε γρήγορα την προσοχή πολλών φίλων και, συμπτωματικά, διάφορα παρόμοια τεστ στο εξωτερικό έδειξαν ότι ο Grok3 δυσκολευόταν με βασικές ερωτήσεις φυσικής/μαθηματικών όπως «Ποια μπάλα πέφτει πρώτη από τον Πύργο της Πίζας;» Έτσι, έχει χαρακτηριστεί χιουμοριστικά ως «μια ιδιοφυΐα απρόθυμη να απαντήσει σε απλές ερωτήσεις».

Το Grok3 είναι καλό, αλλά δεν είναι καλύτερο από το R1 ή το o1-Pro.

Το Grok3 αντιμετώπισε «αποτυχίες» σε πολλά τεστ κοινής γνώσης στην πράξη. Κατά τη διάρκεια της εκδήλωσης κυκλοφορίας του xAI, ο Musk επέδειξε τη χρήση του Grok3 για την ανάλυση των κλάσεων χαρακτήρων και των εφέ από το παιχνίδι Path of Exile 2, το οποίο ισχυρίστηκε ότι έπαιζε συχνά, αλλά οι περισσότερες από τις απαντήσεις που έδωσε το Grok3 ήταν λανθασμένες. Ο Musk κατά τη διάρκεια της ζωντανής μετάδοσης δεν παρατήρησε αυτό το προφανές πρόβλημα.

Αυτό το λάθος όχι μόνο παρείχε περαιτέρω στοιχεία για τους χρήστες του διαδικτύου στο εξωτερικό ώστε να χλευάσουν τον Μασκ επειδή «βρήκε ένα υποκατάστατο» στα παιχνίδια, αλλά έθεσε επίσης σημαντικές ανησυχίες σχετικά με την αξιοπιστία του Grok3 σε πρακτικές εφαρμογές. Για μια τέτοια «ιδιοφυΐα», ανεξάρτητα από τις πραγματικές του δυνατότητες, η αξιοπιστία του σε εξαιρετικά πολύπλοκα σενάρια εφαρμογών, όπως οι εργασίες εξερεύνησης του Άρη, παραμένει αμφίβολη.

Αυτή τη στιγμή, πολλοί δοκιμαστές που απέκτησαν πρόσβαση στο Grok3 πριν από εβδομάδες, και όσοι δοκίμασαν τις δυνατότητες του μοντέλου για λίγες ώρες χθες, καταλήγουν όλοι σε ένα κοινό συμπέρασμα: «Το Grok3 είναι καλό, αλλά δεν είναι καλύτερο από το R1 ή το o1-Pro».

Μια κριτική οπτική για την «διατάραξη της Nvidia»

Στο επίσημα παρουσιασμένο PPT κατά την κυκλοφορία, το Grok3 αποδείχθηκε ότι ήταν «πολύ μπροστά» στο Chatbot Arena, αλλά αυτό χρησιμοποίησε έξυπνα γραφικές τεχνικές: ο κάθετος άξονας στον πίνακα κατάταξης απαριθμούσε μόνο αποτελέσματα στο εύρος βαθμολογίας 1400-1300, κάνοντας την αρχική διαφορά 1% στα αποτελέσματα των δοκιμών να φαίνεται εξαιρετικά σημαντική σε αυτήν την παρουσίαση.

Στα πραγματικά αποτελέσματα βαθμολόγησης μοντέλων, το Grok3 είναι μόλις 1-2% μπροστά από το DeepSeek R1 και το GPT-4.0, κάτι που αντιστοιχεί στις εμπειρίες πολλών χρηστών σε πρακτικές δοκιμές που δεν βρήκαν «καμία αισθητή διαφορά». Το Grok3 ξεπερνά τους διαδόχους του μόνο κατά 1%-2%.

Παρόλο που το Grok3 έχει σημειώσει υψηλότερη βαθμολογία από όλα τα μοντέλα που δοκιμάζονται δημόσια, πολλά δεν το λαμβάνουν αυτό σοβαρά υπόψη: άλλωστε, το xAI έχει προηγουμένως επικριθεί για «χειραγώγηση βαθμολογίας» στην εποχή του Grok2. Καθώς ο πίνακας κατάταξης τιμωρούσε το στυλ μήκους απάντησης, οι βαθμολογίες μειώθηκαν σημαντικά, οδηγώντας τους ειδικούς του κλάδου να επικρίνουν συχνά το φαινόμενο της «υψηλής βαθμολογίας αλλά χαμηλής ικανότητας».

Είτε μέσω «χειραγώγησης» του leaderboard είτε μέσω σχεδιαστικών κόλπων σε εικονογραφήσεις, αποκαλύπτουν την xAI και την εμμονή του Musk με την έννοια του «ηγετικού» στις δυνατότητες των μοντέλων. Ο Musk πλήρωσε ένα ακριβό τίμημα για αυτά τα περιθώρια: κατά την κυκλοφορία, καυχήθηκε ότι χρησιμοποίησε 200.000 GPU H100 (ισχυριζόμενος «πάνω από 100.000» κατά τη διάρκεια της ζωντανής μετάδοσης) και ότι πέτυχε συνολικό χρόνο εκπαίδευσης 200 εκατομμυρίων ωρών. Αυτό οδήγησε ορισμένους να πιστέψουν ότι αποτελεί ένα ακόμη σημαντικό πλεονέκτημα για τη βιομηχανία GPU και να θεωρήσουν την επίδραση του DeepSeek στον τομέα ως «ανόητη». Αξίζει να σημειωθεί ότι ορισμένοι πιστεύουν ότι η καθαρή υπολογιστική ισχύς θα είναι το μέλλον της εκπαίδευσης μοντέλων.

Ωστόσο, ορισμένοι χρήστες του Διαδικτύου συνέκριναν την κατανάλωση 2000 GPU H800 σε διάστημα δύο μηνών για την παραγωγή του DeepSeek V3, υπολογίζοντας ότι η πραγματική κατανάλωση ενέργειας εκπαίδευσης του Grok3 είναι 263 φορές μεγαλύτερη από αυτή του V3. Το χάσμα μεταξύ του DeepSeek V3, το οποίο σημείωσε 1402 βαθμούς, και του Grok3 είναι λίγο κάτω από 100 βαθμούς. Μετά την κυκλοφορία αυτών των δεδομένων, πολλοί γρήγορα συνειδητοποίησαν ότι πίσω από τον τίτλο του Grok3 ως του «ισχυρότερου στον κόσμο» κρύβεται ένα σαφές οριακό φαινόμενο χρησιμότητας - η λογική των μεγαλύτερων μοντέλων που παράγουν ισχυρότερη απόδοση έχει αρχίσει να δείχνει μειούμενες αποδόσεις.

Ακόμα και με «υψηλή βαθμολογία αλλά χαμηλή ικανότητα», το Grok2 διέθετε τεράστιες ποσότητες δεδομένων υψηλής ποιότητας από την πλατφόρμα X (Twitter) για την υποστήριξη της χρήσης. Ωστόσο, κατά την εκπαίδευση του Grok3, το xAI αντιμετώπισε φυσικά το «οροφή» που αντιμετωπίζει σήμερα το OpenAI—η έλλειψη δεδομένων εκπαίδευσης υψηλής ποιότητας εκθέτει γρήγορα την οριακή χρησιμότητα των δυνατοτήτων του μοντέλου.

Οι προγραμματιστές του Grok3 και ο Musk είναι πιθανώς οι πρώτοι που κατανοούν και εντοπίζουν αυτά τα γεγονότα σε βάθος, γι' αυτό και ο Musk αναφέρει συνεχώς στα μέσα κοινωνικής δικτύωσης ότι η έκδοση που βιώνουν τώρα οι χρήστες είναι «ακόμα η beta» και ότι «η πλήρης έκδοση θα κυκλοφορήσει τους επόμενους μήνες». Ο Musk έχει αναλάβει τον ρόλο του product manager του Grok3, προτείνοντας στους χρήστες να παρέχουν σχόλια για διάφορα προβλήματα που αντιμετωπίζουν στην ενότητα σχολίων. Ίσως είναι ο product manager με τους περισσότερους ακόλουθους στον κόσμο.

Ωστόσο, μέσα σε μια μέρα, η απόδοση του Grok3 αναμφίβολα προκάλεσε ανησυχία σε όσους ήλπιζαν να βασιστούν σε «τεράστια υπολογιστική δύναμη» για να εκπαιδεύσουν ισχυρότερα μεγάλα μοντέλα: με βάση τις δημόσια διαθέσιμες πληροφορίες της Microsoft, το GPT-4 της OpenAI έχει μέγεθος παραμέτρων 1,8 τρισεκατομμυρίων παραμέτρων, πάνω από δέκα φορές μεγαλύτερο από το GPT-3. Φήμες υποδηλώνουν ότι το μέγεθος παραμέτρων του GPT-4.5 μπορεί να είναι ακόμη μεγαλύτερο.

Καθώς τα μεγέθη των παραμέτρων του μοντέλου αυξάνονται, το κόστος εκπαίδευσης εκτοξεύεται επίσης. Με την παρουσία του Grok3, υποψήφιοι όπως το GPT-4.5 και άλλοι που επιθυμούν να συνεχίσουν να «ξοδεύουν χρήματα» για να επιτύχουν καλύτερη απόδοση του μοντέλου μέσω του μεγέθους των παραμέτρων πρέπει να λάβουν υπόψη το όριο που είναι πλέον σαφώς ορατό και να σκεφτούν πώς να το ξεπεράσουν. Αυτή τη στιγμή, ο Ilya Sutskever, πρώην επικεφαλής επιστήμονας στην OpenAI, είχε δηλώσει προηγουμένως τον περασμένο Δεκέμβριο: «Η προ-εκπαίδευση με την οποία είμαστε εξοικειωμένοι θα φτάσει στο τέλος της», κάτι που έχει επανεμφανιστεί στις συζητήσεις, προκαλώντας προσπάθειες για την εύρεση της πραγματικής οδού για την εκπαίδευση μεγάλων μοντέλων.

Η άποψη του Ilya έχει σημάνει συναγερμό στον κλάδο. Προέβλεψε με ακρίβεια την επικείμενη εξάντληση των προσβάσιμων νέων δεδομένων, η οποία οδήγησε σε μια κατάσταση όπου η απόδοση δεν μπορεί να συνεχίσει να βελτιώνεται μέσω της συλλογής δεδομένων, παρομοιάζοντάς την με την εξάντληση των ορυκτών καυσίμων. Υποστήριξε ότι «όπως το πετρέλαιο, το περιεχόμενο που δημιουργείται από τον άνθρωπο στο διαδίκτυο είναι ένας περιορισμένος πόρος». Στις προβλέψεις του Sutskever, η επόμενη γενιά μοντέλων, μετά την προ-εκπαίδευση, θα διαθέτει «πραγματική αυτονομία» και ικανότητες συλλογισμού «παρόμοιες με τον ανθρώπινο εγκέφαλο».

Σε αντίθεση με τα σημερινά προ-εκπαιδευμένα μοντέλα που βασίζονται κυρίως στην αντιστοίχιση περιεχομένου (με βάση το προηγουμένως μαθημένο περιεχόμενο του μοντέλου), τα μελλοντικά συστήματα Τεχνητής Νοημοσύνης θα είναι σε θέση να μαθαίνουν και να καθιερώνουν μεθοδολογίες για την επίλυση προβλημάτων με τρόπο παρόμοιο με τη «σκέψη» του ανθρώπινου εγκεφάλου. Ένας άνθρωπος μπορεί να επιτύχει θεμελιώδη επάρκεια σε ένα θέμα μόνο με βασική επαγγελματική βιβλιογραφία, ενώ ένα μεγάλο μοντέλο Τεχνητής Νοημοσύνης απαιτεί εκατομμύρια σημεία δεδομένων για να επιτύχει μόνο την πιο βασική αποτελεσματικότητα εισαγωγικού επιπέδου. Ακόμα και όταν η διατύπωση αλλάξει ελαφρώς, αυτά τα θεμελιώδη ερωτήματα ενδέχεται να μην γίνουν σωστά κατανοητά, γεγονός που καταδεικνύει ότι το μοντέλο δεν έχει πραγματικά βελτιωθεί σε νοημοσύνη: τα βασικά αλλά άλυτα ερωτήματα που αναφέρθηκαν στην αρχή του άρθρου αποτελούν ένα σαφές παράδειγμα αυτού του φαινομένου.

Σύναψη

Ωστόσο, πέρα από την ωμή βία, εάν το Grok3 πράγματι καταφέρει να αποκαλύψει στον κλάδο ότι «τα προ-εκπαιδευμένα μοντέλα πλησιάζουν στο τέλος τους», αυτό θα έχει σημαντικές επιπτώσεις για τον τομέα.

Ίσως αφού υποχωρήσει σταδιακά η φρενίτιδα γύρω από το Grok3, θα δούμε περισσότερες περιπτώσεις όπως το παράδειγμα του Fei-Fei Li για τη «ρύθμιση μοντέλων υψηλής απόδοσης σε ένα συγκεκριμένο σύνολο δεδομένων για μόλις 50 δολάρια», ανακαλύπτοντας τελικά την πραγματική πορεία προς την AGI.

Βρείτε λύση για καλώδια ELV

Καλώδια ελέγχου

Για BMS, BUS, βιομηχανικό, καλώδιο οργάνων.

Κάντε κλικ εδώ

Σύστημα Δομημένης Καλωδίωσης

Δίκτυο & Δεδομένα, Καλώδιο Οπτικών Ινών, Σκοινί Patch, Ενότητες, Πρόσοψη

Κάντε κλικ εδώ

Ανασκόπηση Εκθέσεων & Εκδηλώσεων 2024

Ώρα δημοσίευσης: 19 Φεβρουαρίου 2025

Δοκιμάζοντας το «Πιο Έξυπνο στον Κόσμο» Grok3

Εισαγωγή

Το Grok3 είναι καλό, αλλά δεν είναι καλύτερο από το R1 ή το o1-Pro.

Μια κριτική οπτική για την «διατάραξη της Nvidia»

Σύναψη

Καλώδια ελέγχου

Σύστημα Δομημένης Καλωδίωσης

16-18 Απριλίου 2024 Ενέργεια στη Μέση Ανατολή στο Ντουμπάι

16-18 Απριλίου 2024, Securika στη Μόσχα

9 Μαΐου 2024, ΕΚΔΗΛΩΣΗ ΕΝΤΥΠΩΣΗΣ ΝΕΩΝ ΠΡΟΪΟΝΤΩΝ & ΤΕΧΝΟΛΟΓΙΩΝ στη Σαγκάη

22-25 Οκτωβρίου 2024 SECURITY CHINA στο Πεκίνο

19-20 Νοεμβρίου 2024 CONNECTED WORLD, Σαουδική Αραβία