Sarrera

Uste duzu Grok3 aurrez entrenatutako modeloen "amaiera" izango dela?

Elon Muskek eta xAI taldeak Grok-en azken bertsioa, Grok3, ofizialki aurkeztu zuten zuzeneko emankizun batean. Ekitaldi honen aurretik, informazio ugari zabaldu zen, Musk-en 24/7ko sustapen-zalapartaz gain, Grok3-rekiko mundu mailako itxaropenak inoiz baino maila altuagoetara igo zituen. Duela astebete eskas, Musk-ek konfiantzaz adierazi zuen zuzeneko emankizun batean DeepSeek R1-i buruzko iruzkinak egiten ari zela: "xAI-k IA eredu hobea abiaraztear dago". Zuzenean aurkeztutako datuen arabera, Grok3-k egungo eredu nagusi guztiak gainditu ditu matematika, zientzia eta programazioko erreferentzietan, Musk-ek Grok3 SpaceX-en Marteko misioekin lotutako zeregin konputazionaletarako erabiliko dela esanez, "hiru urteko epean Nobel Sariaren mailako aurrerapenak" iragarriz. Hala ere, hauek oraingoz Musk-en baieztapenak besterik ez dira. Abiarazi ondoren, Grok3-ren azken beta bertsioa probatu nuen eta eredu handientzako galdera klasikoa egin nuen: "Zein da handiagoa, 9,11 ala 9,9?". Zoritxarrez, inolako kalifikatzailerik edo markarik gabe, ustezko Grok3 adimentsuenak ezin izan zuen galdera honi behar bezala erantzun. Grok3-k ez zuen galderaren esanahia zehatz-mehatz identifikatu.

Proba honek lagun askoren arreta erakarri zuen azkar, eta kasualitatez, atzerriko antzeko hainbat probek Grok3-k oinarrizko fisika/matematika galderekin arazoak dituela erakutsi dute, hala nola "Zein bola erortzen da lehenengo Pisako dorretik?". Horrela, umoretsu esanda, "galdera sinpleei erantzuteko prest ez dagoen jenio" gisa etiketatu da.

Grok3 ona da, baina ez da R1 edo o1-Pro baino hobea.

Grok3-k "hutsak" izan zituen praktikan ezagutza arrunteko proba askotan. xAI aurkezpen ekitaldian, Musk-ek Grok3 erabiltzen erakutsi zuen Path of Exile 2 jokoko pertsonaien klaseak eta efektuak aztertzeko, askotan jokatzen zuela esan baitzuen, baina Grok3-k emandako erantzun gehienak okerrak ziren. Zuzeneko emankizunean Musk-ek ez zuen arazo nabarmen hau nabaritu.

Akats honek ez bakarrik atzerriko internautei Musk-i jokoetan "ordezko bat aurkitzeagatik" iseka egiteko froga gehiago eman zien, baizik eta kezka handiak sortu zituen Grok3-ren fidagarritasunari buruz aplikazio praktikoetan. Halako "jenio" batentzat, bere benetako gaitasunak gorabehera, aplikazio-eszenatoki oso konplexuetan duen fidagarritasuna zalantzan dago oraindik, hala nola Marte esploratzeko zereginetan.

Gaur egun, duela aste batzuk Grok3rako sarbidea jaso zuten probatzaile askok, eta atzo ordu batzuetan modeloaren gaitasunak probatu zituztenek, ondorio komun batera iristen dira: "Grok3 ona da, baina ez da R1 edo o1-Pro baino hobea".

"Nvidia iraultzeari" buruzko ikuspegi kritikoa

Aurkezpenean ofizialki aurkeztutako PPTan, Grok3 "asko aurreratuta" zegoela erakutsi zen Chatbot Arenan, baina honek teknika grafikoak erabili zituen modu adimentsuan: sailkapeneko ardatz bertikalak 1400-1300 puntuazio-tarteko emaitzak soilik zerrendatzen zituen, eta horrek proben emaitzen % 1eko jatorrizko aldea oso esanguratsua agerrarazi zuen aurkezpen honetan.

Benetako modeloen puntuazio emaitzetan, Grok3 DeepSeek R1 eta GPT-4.0 baino % 1-2 gehiago dago, eta hori bat dator erabiltzaile askoren esperientziekin proba praktikoetan, non "ez zen alde nabarmenik aurkitu". Grok3-k bere ondorengoak % 1-2 baino ez ditu gainditzen.

Grok3-k gaur egun publikoki probatu diren modelo guztiek baino puntuazio altuagoa lortu duen arren, askok ez dute hau serio hartzen: azken finean, xAI-k lehenago kritikatu izan da Grok2 aroan "puntuazioen manipulazioagatik". Sailkapenak erantzunen luzeraren estiloa zigortzen zuenez, puntuazioak asko jaitsi ziren, eta industriako adituek askotan "puntuazio altua baina gaitasun baxua" fenomenoa kritikatzera eraman zituen.

Sailkapen-taularen "manipulazioaren" edo ilustrazioetako diseinu-trikimailuen bidez izan, xAI eta Musk-en obsesioa agerian uzten dute modeloen gaitasunetan "taldearen buru izatearen" ideiarekin. Musk-ek prezio altua ordaindu zuen marjina horien truke: abiaraztean, 200.000 H100 GPU erabili zituela harrotu zen (zuzeneko emankizunean "100.000 baino gehiago" esanez) eta 200 milioi orduko entrenamendu-denbora osoa lortu zuela. Horrek batzuk GPU industriarentzat beste bedeinkapen garrantzitsu bat dela pentsarazi zuen eta DeepSeek-ek sektorean duen eragina "ergelkeria"tzat jotzera eraman zituen. Garrantzitsua da batzuek uste izatea konputazio-ahalmen hutsa izango dela modeloen entrenamenduaren etorkizuna.

Hala ere, internauta batzuek 2000 H800 GPUren kontsumoa alderatu zuten bi hilabetetan zehar DeepSeek V3 ekoizteko, eta kalkulatu zuten Grok3ren benetako entrenamendu-energia kontsumoa V3rena baino 263 aldiz handiagoa dela. DeepSeek V3ren (1402 puntu lortu zituen) eta Grok3ren arteko aldea 100 puntutik beherakoa da. Datu hauek argitaratu ondoren, askok azkar konturatu ziren Grok3ren "munduko indartsuena" titulua izatearen atzean erabilgarritasun marjinalaren efektu argi bat ezkutatzen zela: modelo handiagoek errendimendu hobea sortzen duten logikak etekin gero eta txikiagoak erakusten hasi da.

"Puntuazio altua baina gaitasun txikia" izan arren, Grok2-k X (Twitter) plataformako lehen mailako datu kopuru handiak zituen erabilera laguntzeko. Hala ere, Grok3-ren entrenamenduan, xAI-k OpenAI-k gaur egun duen "muga" aurkitu zuen: entrenamendu-datu premium faltak azkar agerian uzten du modeloaren gaitasunen erabilgarritasun marjinala.

Grok3-ren garatzaileak eta Musk-ek ziurrenik lehenak izango dira gertakari hauek sakon ulertzen eta identifikatzen, eta horregatik Musk-ek etengabe aipatu du sare sozialetan erabiltzaileek orain erabiltzen duten bertsioa "oraindik beta bertsioa" dela eta "bertsio osoa datozen hilabeteetan kaleratuko dela". Musk-ek Grok3-ren produktu-kudeatzailearen rola hartu du, erabiltzaileei iruzkinen atalean aurkitutako arazoei buruzko iritzia emateko iradokiz. Munduan gehien jarraitzen duen produktu-kudeatzailea izan liteke.

Hala ere, egun bakarrean, Grok3-ren errendimenduak, zalantzarik gabe, alarma piztu zuen "konputazio-gihar erraldoian" oinarritu nahi zutenen artean eredu handiak eta indartsuagoak entrenatzeko: Microsoft-en informazio publikoan oinarrituta, OpenAI-ren GPT-4-k 1,8 bilioi parametroko parametro-tamaina du, GPT-3-rena hamar aldiz gehiago. Zurrumurruek diote GPT-4.5-en parametro-tamaina are handiagoa izan daitekeela.

Modeloen parametroen tamaina handitzen den heinean, prestakuntza-kostuak ere izugarri igotzen ari dira. Grok3-ren presentziarekin, GPT-4.5 bezalako lehiakideek eta parametroen tamainaren bidez modeloen errendimendu hobea lortzeko "dirua erretzen" jarraitu nahi duten beste batzuek kontuan hartu behar dute orain argi ikusten den muga, eta nola gainditu pentsatu. Une honetan, Ilya Sutskever OpenAI-ko zientzialari buru ohiak joan den abenduan adierazi zuen: "Ezagutzen dugun aurre-prestakuntza amaituko da", eta eztabaidetan berriro agertu da, modelo handiak entrenatzeko benetako bidea aurkitzeko ahaleginak bultzatuz.

Ilyaren ikuspuntuak alarma piztu du industrian. Zehaztasunez aurreikusi zuen eskuragarri dauden datu berrien agortzea hurbil zegoela, eta horrek datuen eskuratzearen bidez errendimendua hobetzen jarraitu ezin izango zuen egoera batera eramango zuela, erregai fosilen agortzearekin alderatuz. Adierazi zuen "petrolioa bezala, Interneten gizakiek sortutako edukia baliabide mugatua dela". Sutskeverren iragarpenetan, hurrengo belaunaldiko modeloek, aurre-prestakuntzaren ondoren, "benetako autonomia" eta "giza garunaren antzeko" arrazoitzeko gaitasunak izango dituzte.

Gaur egungo aurrez entrenatutako ereduek ez bezala, edukien parekatzean oinarritzen direnak (aurretik ikasitako ereduaren edukian oinarrituta), etorkizuneko IA sistemek gai izango dira arazoak konpontzeko metodologiak ikasi eta ezartzeko, giza garunaren "pentsamenduaren" antzeko moduan. Gizaki batek oinarrizko trebetasuna lor dezake gai batean oinarrizko literatura profesionalarekin, IA eredu handi batek milioika datu-puntu behar dituen bitartean, oinarrizko hasierako eraginkortasuna lortzeko. Hitzak apur bat aldatzen direnean ere, oinarrizko galdera hauek agian ez dira behar bezala ulertzen, eta horrek erakusten du ereduak ez duela benetan hobetu adimenean: artikuluaren hasieran aipatutako oinarrizko baina konpondu ezin diren galderak fenomeno honen adibide argia dira.

Ondorioa

Hala ere, indar gordinaren gainetik, Grok3-k industriari "aurrez entrenatutako ereduak amaierara iristen ari direla" agerian uztea lortzen badu, ondorio garrantzitsuak izango lituzke arloarentzat.

Agian Grok3 inguratzen duen sukarra pixkanaka baretzen denean, Fei-Fei Liren "errendimendu handiko ereduak datu-multzo espezifiko batean 50 dolarren truke doitzeko" adibidearen antzeko kasu gehiago ikusiko ditugu, eta, azken finean, AGIrako benetako bidea aurkituko dugu.