DeepSeek: IAren paisaia iraultzen ari den iraultzailea

AIPU WATON TALDEA

Sarrera

Lehiakide diren modelo handien, merkatu-kuotaren alde lehiatzen diren hodei-hornitzaileen eta txip-fabrikatzaile langileen artean etengabeko antsietatea: DeepSeek efektuak jarraitzen du.

Udaberriko Jaialdia amaitzear dagoen heinean, DeepSeek-en inguruko zirrara sendoa izaten jarraitzen du. Azken oporrek lehia handia nabarmendu zuten teknologiaren industrian, eta askok "katu-arrain" hau eztabaidatu eta aztertu dute. Silicon Valley-k aurrekaririk gabeko krisi bat jasaten ari da: kode irekiko aldekoek berriro ere beren iritziak ematen ari dira, eta OpenAI-k ere berriro ebaluatzen ari da bere kode itxiko estrategia aukerarik onena izan zen ala ez. Konputazio-kostu txikiagoen paradigma berriak erreakzio-kate bat eragin du Nvidia bezalako txip erraldoien artean, eta horrek AEBetako burtsaren historian egun bakarreko merkatu-balioen galera errekorrak eragin ditu, gobernu-agentziek DeepSeek-ek erabiltzen dituen txipen egokitasuna ikertzen ari diren bitartean. Atzerrian DeepSeek-i buruzko iritzi nahasiak izan arren, barne mailan, hazkunde izugarria izaten ari da. R1 eredua abiarazi ondoren, lotutako aplikazioak trafikoaren gorakada izan du, eta horrek adierazten du aplikazio-sektoreen hazkundeak AI ekosistema orokorra aurrera bultzatuko duela. Alderdi positiboa da DeepSeek-ek aplikazioen aukerak zabalduko dituela, eta horrek iradokitzen du ChatGPT-n fidatzea ez dela etorkizunean hain garestia izango. Aldaketa hau OpenAIren azken jardueretan islatu da, besteak beste, o3-mini izeneko arrazoiketa-eredua erabiltzaile libreei eskaintzea DeepSeek R1-i erantzunez, baita o3-miniren pentsamendu-katea publiko egin zuten ondorengo hobekuntzetan ere. Atzerriko erabiltzaile askok eskerrak eman dizkiote DeepSeek-i garapen hauengatik, nahiz eta pentsamendu-kate hau laburpen gisa balio duen.

Baikorki, agerikoa da DeepSeek-ek bertako jokalariak batzen ari dela. Prestakuntza-kostuak murriztea helburu duela, hainbat txip-fabrikatzaile, hodei-hornitzaile bitarteko eta hainbat startup aktiboki batzen ari dira ekosistemara, DeepSeek eredua erabiltzeko kostu-eraginkortasuna hobetuz. DeepSeek-en artikuluen arabera, V3 ereduaren prestakuntza osoak 2,788 milioi H800 GPU ordu baino ez ditu behar, eta prestakuntza-prozesua oso egonkorra da. MoE (Mixture of Experts) arkitektura funtsezkoa da aurre-prestakuntza-kostuak hamar aldiz murrizteko, 405.000 milioi parametro dituen Llama 3-rekin alderatuta. Gaur egun, V3 da MoE-n hain urritasun handia erakusten duen lehen eredu publikoki onartua. Gainera, MLA (Multi Layer Attention) sinergikoki funtzionatzen du, batez ere arrazoiketa-alderdietan. "Zenbat eta urriagoa izan MoE, orduan eta handiagoa izango da lote-tamaina behar arrazoiketan konputazio-ahalmena guztiz erabiltzeko, KVCache-aren tamaina izanik mugatzaile nagusia; MLA-k nabarmen murrizten du KVCache-aren tamaina", adierazi zuen Chuanjing Technology-ko ikertzaile batek AI Technology Review-erako egindako analisi batean. Oro har, DeepSeek-en arrakasta hainbat teknologiaren konbinazioan datza, ez teknologia bakar batean bakarrik. Industriako adituek DeepSeek taldearen ingeniaritza gaitasunak goraipatzen dituzte, prestakuntza paraleloan eta operadoreen optimizazioan duten bikaintasuna azpimarratuz, emaitza berritzaileak lortuz xehetasun guztiak finduz. DeepSeek-en kode irekiko ikuspegiak modelo handien garapen orokorra bultzatzen du, eta aurreikusten da antzeko modeloak irudietan, bideoetan eta gehiagotan zabaltzen badira, horrek industria osoko eskaria nabarmen estimulatuko duela.

Hirugarrenen Arrazoiketa Zerbitzuetarako Aukerak

Datuen arabera, DeepSeek-ek kaleratu zenetik, 22,15 milioi erabiltzaile aktibo (DAU) lortu ditu egunero 21 egunetan, ChatGPT-ren erabiltzaile-basearen % 41,6 lortuz eta Doubao-ren 16,95 milioi erabiltzaile aktibo gaindituz. Horrela, mundu mailan hazten ari den aplikazio azkarrena bihurtu da, Apple App Store-ren buruan 157 herrialde/eskualdetan. Hala ere, erabiltzaileak ugaritu diren bitartean, ziberhackerrek etengabe erasotzen ari dira DeepSeek aplikazioa, zerbitzarietan tentsio handia eraginez. Industriako analistek uste dute hori neurri batean DeepSeek-ek entrenamendurako txartelak erabiltzen dituelako dela, arrazoitzeko nahikoa potentzia konputazional ez duelako. Industriako aditu batek AI Technology Review-i jakinarazi dionez, "Zerbitzarien arazo ohikoak erraz konpondu daitezke makina gehiago erosteko tasak edo finantzaketa kobratuz; azken finean, DeepSeek-en erabakien araberakoa da". Horrek teknologian eta produktibizazioan zentratzearen arteko oreka dakar. DeepSeek-ek neurri handi batean kuantizazio kuantikoan oinarritu da bere burua mantentzeko, kanpoko finantzaketa gutxi jaso baitu, eta horrek diru-fluxuaren presio nahiko baxua eta ingurune teknologiko puruagoa ekarri ditu. Gaur egun, aipatutako arazoen harira, erabiltzaile batzuek DeepSeek-i sare sozialetan eskatzen diote erabilera-atalaseak igotzeko edo ordainpeko funtzioak sartzeko erabiltzaileen erosotasuna hobetzeko. Horrez gain, garatzaileek API ofiziala edo hirugarrenen APIak erabiltzen hasi dira optimizaziorako. Hala ere, DeepSeek-en plataforma irekiak duela gutxi iragarri zuen: "Gaur egungo zerbitzariaren baliabideak urriak dira, eta API zerbitzuaren kargak eten egin dira".

 

Zalantzarik gabe, honek aukera gehiago irekitzen dizkie hirugarrenen saltzaileei AI azpiegituren sektorean. Duela gutxi, hainbat hodei erraldoi nazional eta internazionalek DeepSeek-en modeloen APIak abiarazi dituzte; atzerriko erraldoiak, Microsoft eta Amazon, izan ziren urtarrilaren amaieran batu ziren lehenengoen artean. Huawei Cloud lider nazionalak eman zuen lehen urratsa, DeepSeek R1 eta V3 arrazoiketa zerbitzuak kaleratuz Silicon-based Flow-ekin lankidetzan otsailaren 1ean. AI Technology Review-en txostenek adierazten dute Silicon-based Flow-en zerbitzuek erabiltzaileen etorrera handia izan dutela, plataforma "erabat txikituz". Hiru teknologia-enpresa handiek —BAT (Baidu, Alibaba, Tencent) eta ByteDance— kostu baxuko eta denbora mugatuko eskaintzak ere kaleratu zituzten otsailaren 3tik aurrera, iazko hodei-saltzaileen prezioen gerrak gogoraraziz, DeepSeek-en V2 modeloaren aurkezpenak piztu baitzituen, non DeepSeek "prezioen harategia" deitzen hasi baitzen. Hodeiko saltzaileen ekintza frenetikoek Microsoft Azure eta OpenAIren arteko lehenagoko lotura sendoak islatzen dituzte, non 2019an Microsoftek mila milioi dolarreko inbertsio handia egin zuen OpenAIn eta onurak jaso zituen ChatGPT 2023an abian jarri ondoren. Hala ere, harreman estu hori hausten hasi zen Metak Llama kode irekiko bihurtu ondoren, Microsoft Azure ekosistematik kanpoko beste saltzaile batzuei beren modelo handiekin lehiatzeko aukera emanez. Kasu honetan, DeepSeekek-ek ez du ChatGPT gainditu produktuaren beroari dagokionez bakarrik, baita kode irekiko modeloak ere aurkeztu ditu o1 kaleratzearen ondoren, Llamak GPT-3 berpiztearen inguruan sortu den ilusioaren antzekoa.

 

Egia esan, hodeiko hornitzaileak IA aplikazioetarako trafiko-atebide gisa kokatzen ari dira, eta horrek esan nahi du garatzaileekiko harremanak sendotzeak abantaila preemptiboak ekartzen dituela. Txostenek adierazten dute Baidu Smart Cloud-ek 15.000 bezero baino gehiago zituela DeepSeek eredua Qianfan plataformaren bidez erabiltzen, eredua abiarazi zen egunean. Horrez gain, hainbat enpresa txikiagok eskaintzen dituzte irtenbideak, besteak beste, Silicon-based Flow, Luchen Technology, Chuanjing Technology eta DeepSeek ereduetarako laguntza abiarazi duten hainbat IA azpiegitura hornitzailek. AI Technology Review-ek jakin du DeepSeek-en tokiko hedapenetarako optimizazio aukerak bi arlotan daudela batez ere: bata MoE ereduaren urritasun ezaugarriak optimizatzea da, arrazoiketa mistoko ikuspegi bat erabiliz 671.000 milioi parametroko MoE eredua lokalki zabaltzeko, GPU/CPU inferentzia hibridoa erabiliz. Gainera, MLAren optimizazioa ezinbestekoa da. Hala ere, DeepSeek-en bi ereduek oraindik erronka batzuk dituzte hedapenaren optimizazioan. "Modeloaren tamaina eta parametro ugari direla eta, optimizazioa oso konplexua da, batez ere errendimenduaren eta kostuaren arteko oreka optimoa lortzea zaila izango den tokiko inplementazioetarako", adierazi du Chuanjing Technology-ko ikertzaile batek. Oztopo handiena memoria-ahalmenaren mugak gainditzean datza. "Lankidetza heterogeneoaren ikuspegia hartzen dugu CPUak eta beste baliabide konputazional batzuk guztiz erabiltzeko, MoE matrizearen zati ez-partekatuak soilik CPU/DRAM-ean jarriz, errendimendu handiko CPU operadoreak erabiliz prozesatzeko, eta zati trinkoak GPU-an geratzen dira", azaldu du. Txostenek adierazten dute Chuanjing-en KTransformers kode irekiko esparruak estrategia eta operadore desberdinak txertatzen dituela jatorrizko Transformers inplementazioan txantiloi baten bidez, CUDAGraph bezalako metodoak erabiliz inferentzia-abiadura nabarmen hobetuz. DeepSeek-ek aukerak sortu ditu startup hauentzat, hazkunde-onurak agerikoak bihurtzen ari baitira; enpresa askok bezeroen hazkunde nabarmena jakinarazi dute DeepSeek APIa abiarazi ondoren, optimizazioen bila dabiltzan aurreko bezeroen kontsultak jasoz. Industriako adituek adierazi dutenez, "Iraganean, bezero-talde finkatu samarrak askotan enpresa handiagoen zerbitzu estandarizatuetara lotuta egoten ziren, eskalagatik zituzten kostu-abantailek estu lotuta. Hala ere, DeepSeek-R1/V3ren hedapena Udaberriko Jaialdiaren aurretik amaitu ondoren, bat-batean hainbat bezero ezagunen lankidetza-eskaerak jaso genituen, eta lehenago inaktibo zeuden bezeroek ere harremanetan jarri ziren gure DeepSeek zerbitzuak aurkezteko". Gaur egun, badirudi DeepSeekek gero eta kritikoagoa egiten ari dela modeloen inferentziaren errendimendua, eta modelo handien adopzio zabalagoarekin, horrek IA azpiegituren industriaren garapenean eragina izango duela nabarmen. DeepSeek mailako modelo bat tokiko kostu baxuan zabaldu ahal izango balitz, asko lagunduko lieke gobernuari eta enpresei eraldaketa digitaleko ahaleginei. Hala ere, erronkak hor daude oraindik, bezero batzuek modelo handien gaitasunei buruzko itxaropen handiak izan baititzakete, eta horrek are agerikoagoa egiten du errendimendua eta kostua orekatzea ezinbestekoa dela hedapen praktikoan. 

DeepSeek ChatGPT baino hobea den ebaluatzeko, ezinbestekoa da haien desberdintasun nagusiak, indarguneak eta erabilera kasuak ulertzea. Hona hemen konparazio osoa:

Ezaugarria/Alderdia Bilaketa sakona TxatGPT
Jabetza Txinako enpresa batek garatua OpenAI-k garatua
Iturburu-eredua Kode irekikoa Jabeduna
Kostua Doakoa da erabiltzeko; API sarbide aukera merkeagoak Harpidetza edo erabilera bakoitzeko ordainketa prezioak
Pertsonalizazioa Oso pertsonalizagarria, erabiltzaileek doikuntzak egin eta eraikitzeko aukera emanez Pertsonalizazio mugatua eskuragarri
Zeregin Espezifikoetan Errendimendua Datuen analisi eta informazioa berreskuratzeko arlo batzuetan bikaina da Idazketa sortzailean eta elkarrizketa-zereginetan errendimendu bikainarekin moldakorra
Hizkuntzaren laguntza Txinako hizkuntza eta kulturari arreta handia eman Hizkuntza-laguntza zabala baina AEBetan zentratutakoa
Prestakuntza Kostua Prestakuntza-kostu txikiagoak, eraginkortasunerako optimizatuta Prestakuntza-kostu handiagoak, baliabide konputazional handiak behar dituztenak
Erantzunaren aldakuntza Erantzun desberdinak eman ditzake, testuinguru geopolitikoak eraginda egon daitekeena Entrenamendu datuetan oinarritutako erantzun koherenteak
Helburu-publikoa Malgutasuna nahi duten garatzaile eta ikertzaileei zuzenduta Elkarrizketa gaitasunak bilatzen dituzten erabiltzaile orokorrei zuzenduta
Erabilera kasuak Kodea sortzeko eta zeregin azkarretarako eraginkorragoa Testua sortzeko, galderei erantzuteko eta elkarrizketan parte hartzeko aproposa

"Nvidia iraultzeari" buruzko ikuspegi kritikoa

Gaur egun, Huaweiz gain, hainbat txip fabrikatzaile nazional ere ari dira DeepSeeken bi ereduetara egokitzen, hala nola Moore Threads, Muxi, Biran Technology eta Tianxu Zhixin. Txip fabrikatzaile batek AI Technology Review-i esan zion: "DeepSeeken egiturak berrikuntza erakusten du, baina LLM bat izaten jarraitzen du. DeepSeekerako gure egokitzapena batez ere arrazoiketa aplikazioetan oinarritzen da, inplementazio teknikoa nahiko erraza eta azkarra bihurtuz". Hala ere, MoE ikuspegiak eskakizun handiagoak eskatzen ditu biltegiratze eta banaketa aldetik, eta bateragarritasuna bermatzea etxeko txipekin zabaltzean, egokitzapenean konpondu beharreko ingeniaritza erronka ugari sortzen ditu. "Gaur egun, etxeko konputazio potentzia ez da Nvidiaren parekoa erabilgarritasunean eta egonkortasunean, jatorrizko fabrikaren parte-hartzea beharrezkoa da software ingurunea konfiguratzeko, arazoak konpontzeko eta oinarrizko errendimenduaren optimizaziorako", esan zuen industriako profesional batek esperientzia praktikoan oinarrituta. Aldi berean, "DeepSeek R1-en parametro eskala handia dela eta, etxeko konputazio potentzia nodo gehiago behar ditu paralelizaziorako. Gainera, etxeko hardware zehaztapenak oraindik atzeratuta daude; adibidez, Huawei 910B-k ezin du DeepSeekek aurkeztutako FP8 inferentzia onartu". DeepSeek V3 ereduaren ezaugarri nagusietako bat FP8 zehaztasun mistoko entrenamendu-esparru baten sarrera da, oso eredu handi batean eraginkortasunez balioztatu dena, lorpen esanguratsua markatuz. Aurretik, Microsoft eta Nvidia bezalako jokalari handiek antzeko lana iradoki zuten, baina zalantzak daude bideragarritasunari dagokionez industrian. Ulertzen da INT8rekin alderatuta, FP8ren abantaila nagusia entrenamendu osteko kuantizazioak ia galerarik gabeko zehaztasuna lor dezakeela, inferentzia-abiadura nabarmen hobetuz. FP16rekin alderatuta, FP8k Nvidiaren H20aren bikoitza den azelerazioa eta H100aren 1,5 aldiz baino gehiagoko azelerazioa lor dezake. Aipagarria da, etxeko konputazio-ahalmenaren eta etxeko ereduen joeraren inguruko eztabaidak indarra hartzen ari diren heinean, Nvidia eten daitekeen ala ez eta CUDAren lubakia saihestu daitekeen ala ez espekulazioa gero eta ohikoagoa dela. Ukaezina den egitate bat da DeepSeekek Nvidiaren merkatu-balioaren jaitsiera nabarmena eragin duela, baina aldaketa honek Nvidiaren goi-mailako konputazio-ahalmenaren osotasunari buruzko galderak sortzen ditu. Aurretik onartutako kapital-metaketa konputazionalari buruzko kontakizunak zalantzan jartzen ari dira, baina zaila da oraindik Nvidia entrenamendu-eszenatokietan guztiz ordezkatzea. DeepSeek-ek CUDAren erabilera sakonaren analisiak erakusten du malgutasuna —adibidez, SM komunikaziorako erabiltzea edo sare-txartelak zuzenean manipulatzea— ez dela bideragarria ohiko GPUentzat. Industriaren ikuspuntuek azpimarratzen dute Nvidiaren babesak CUDA ekosistema osoa hartzen duela barne, eta ez CUDA bera bakarrik, eta DeepSeek-ek erabiltzen dituen PTX (Parallel Thread Execution) argibideak CUDA ekosistemaren parte direla oraindik. "Epe laburrean, Nvidiaren potentzia konputazionala ezin da saihestu —hau bereziki argi ikusten da entrenamenduan; hala ere, etxeko txartelak arrazoitzeko erabiltzea nahiko errazagoa izango da, beraz, aurrerapena azkarragoa izango da ziurrenik. Etxeko txartelen egokitzapena batez ere inferentzian oinarritzen da; inork ez du oraindik lortu DeepSeek-en errendimenduaren eredu bat eskala handian etxeko txarteletan entrenatzea", adierazi zion industriako analista batek AI Technology Review-i. Oro har, inferentziaren ikuspuntutik, egoera itxaropentsua da etxeko modelo handiko txipentzat. Inferentziaren arloan, txip fabrikatzaile nazionalek dituzten aukerak nabarmenagoak dira prestakuntzaren eskakizun gehiegizkoen ondorioz, eta horrek sarrera oztopatzen du. Analistek diotenez, nahikoa da inferentzia txartelak erabiltzea; beharrezkoa bada, makina gehigarri bat eskuratzea bideragarria da, eta prestakuntza ereduek erronka bereziak dituzte: makina kopuru handiagoa kudeatzea zama bihur daiteke, eta errore-tasa altuagoek eragin negatiboa izan dezakete prestakuntzaren emaitzetan. Prestakuntzak kluster eskala eskakizun espezifikoak ere baditu, eta inferentziarako klusterren eskakizunak ez dira hain zorrotzak, eta horrek GPU eskakizunak arindu egiten ditu. Gaur egun, Nvidiaren H20 txartel bakarraren errendimendua ez da Huawei edo Cambrianena baino handiagoa; bere indarra klusterizazioan datza. Konputazio-potentziaren merkatuan duen eragin orokorraren arabera, Luchen Technology-ren sortzaileak, You Yangek, AI Technology Review-i emandako elkarrizketa batean adierazi zuen: "DeepSeek-ek aldi baterako ahuldu dezake prestakuntza-konputazio-kluster ultra-handien ezarpena eta alokairua. Epe luzera, eredu handiko prestakuntzarekin, arrazoiketarekin eta aplikazioekin lotutako kostuak nabarmen murriztuz, merkatuaren eskaria handitzea litekeena da. Beraz, honetan oinarritutako IAren ondorengo iterazioek etengabe bultzatuko dute eskaera eutsia konputazio-potentziaren merkatuan". Gainera, "DeepSeek-en arrazoiketa eta doikuntza zerbitzuen eskaria gero eta handiagoa da etxeko konputazio-paisaiarekin bateragarriagoa, non tokiko gaitasunak nahiko ahulak diren, eta horrek baliabide alferren xahuketa arintzen laguntzen du klusterrak ezarri ondoren; horrek aukera bideragarriak sortzen ditu etxeko konputazio-ekosistemaren maila desberdinetako fabrikatzaileentzat". Luchen Technology-k Huawei Cloud-ekin lankidetzan aritu da DeepSeek R1 serieko arrazoiketa APIak eta hodeiko irudi zerbitzuak abiarazteko, etxeko konputazio-ahalmenean oinarrituta. You Yang-ek baikortasuna adierazi du etorkizunari buruz: "DeepSeek-ek konfiantza sortzen du etxean ekoitzitako irtenbideetan, eta horrek ilusio eta inbertsio handiagoa sustatu du etxeko konputazio-gaitasunetan aurrera egiteko".

微信图片_20240614024031.jpg1

Ondorioa

DeepSeek ChatGPT baino "hobea" den ala ez erabiltzailearen behar eta helburu espezifikoen araberakoa da. Malgutasuna, kostu baxua eta pertsonalizazioa behar duten zereginetarako, DeepSeek hobea izan daiteke. Idazketa sortzailerako, kontsulta orokorrerako eta erabiltzaileentzako elkarrizketa-interfaze atseginetarako, ChatGPTk aurrea har dezake. Tresna bakoitzak helburu desberdinak ditu, beraz, aukera erabiltzen diren testuinguruaren araberakoa izango da neurri handi batean.

Aurkitu ELV kable irtenbidea

Kontrol kableak

BMS, BUS, Industria eta Instrumentazio Kableetarako.

Kableatu egituratuaren sistema

Sarea eta datuak, zuntz optikoko kablea, adabaki-kablea, moduluak, aurrealdeko plaka

2024ko Erakusketa eta Ekitaldien Berrikuspena

2024ko apirilaren 16tik 18ra Ekialde Hurbileko Energia Dubain

2024ko apirilaren 16tik 18ra Securika Moskun

2024ko maiatzaren 9a, PRODUKTU ETA TEKNOLOGIA BERRIEN AURKEZPEN EKITALDIA Shanghain

2024ko urriaren 22tik 25era SECURITY CHINA Pekinen

2024ko azaroaren 19-20a CONNECTED WORLD KSA


Argitaratze data: 2025eko otsailaren 10a