„DeepSeek-V3.2“: kiniškas modelis, norintis konkuruoti su „GPT-5“ ir „Gemini-3 Pro“.

  • „DeepSeek“ pristato „DeepSeek-V3.2“ ir „V3.2-Speciale“, siekdama konkuruoti su „GPT-5“ ir „Gemini-3 Pro“ pažangių samprotavimų srityje.
  • Modelis tiesiogiai integruoja „mąstymo“ režimą į išorinių įrankių naudojimą ir palaiko iki 128 000 žetonų kontekstus.
  • V3.2-Speciale puikiai sekasi matematikos ir informatikos srityse, tarptautinėse olimpiadose iškovodamas aukso medalio lygio rezultatus.
  • Bendrovė skelbia svorius ir techninę ataskaitą, dar labiau sustiprindama Kinijos, Europos ir JAV kovą dėl lyderystės atvirojo dirbtinio intelekto srityje.

DeepSeek-V3.2

Kinijos bendrovė „DeepSeek“ žengė dar vieną žingsnį pasaulinėse dirbtinio intelekto lenktynėse kai skelbia DeepSeek-V3.2 ir jo variantas V3.2-SpecialeŠie du atvirojo kodo modeliai yra skirti aukščiausios klasės rinkos dalyviams. Bendrovė teigia, kad jos samprotavimo sistema yra panaši į tokius pirmaujančius etalonus kaip „GPT-5“ ir „Gemini-3 Pro“, todėl daro spaudimą Amerikos milžinams intensyvios technologinės konkurencijos metu.

Europoje, kur vyksta diskusijos apie Atsakingas dirbtinis intelektas, reguliavimas ir technologinis suverenitetas Šios tendencijos yra įprastos, ir „DeepSeek“ žingsnis neliko nepastebėtas. Tai, kad Kinijos laboratorija paskelbė atvirojo kodo svorius, išsamią techninę dokumentaciją ir pažangų samprotavimo modelį, sustiprina jausmą, kad atvirojo kodo ekosistema atgauna jėgą prieš visiškai patentuotus sprendimus, o tai galėtų būti ypač įdomu Europos universitetams, tyrimų centrams ir technologijų MVĮ.

„DeepSeek-V3.2“: samprotavimas pirmaujančių modelių lygmeniu

Hangdžou įsikūręs startuolis pristatė DeepSeek-V3.2 kaip galutinę ir stabilią savo samprotavimo modelių versiją, pakeičiančią prieš kelias savaites išleistą eksperimentinę versiją. Pasak pačios bendrovės, V3.2 pasiekia panašų našumą kaip ir GPT-5 įvairiose gairės daugiapakopio mąstymo ir samprotavimo auditorijoms ir yra šiek tiek žemiau Gemini-3.0 Pro kai kuriuose lyginamuosiuose testuose.

Šis modelis sujungia Žmogaus tipo samprotavimas su galimybe naudoti išorinius įrankiuspavyzdžiui, žiniatinklio paieškos sistemos, skaičiuotuvai, kodo vykdymo aplinkos arba trečiųjų šalių sistemos, tokios kaip „Claude Code“. Idėja yra ta, kad sistema ne tik generuoja tekstą, bet ir gali planuoti, teikti užklausas ištekliams, vykdyti funkcijas ir tada integruoti šiuos rezultatus į išsamesnį atsakymą, nereikalaujant nuolatinės priežiūros.

„DeepSeek“ pabrėžė, kad modelis siūlo du sąveikos su įrankiais režimaiVienas su matomu samprotavimu, kur vartotojas gali sekti tarpinius veiksmus, o kitas – nerodant mąstymo proceso. Abiem atvejais „Samprotavimo atmintis“ išlieka ir kreipiantis į įrankius tame pačiame pokalbyje ir paleidžiamas iš naujo tik gavus naują vartotojo pranešimą, o tai ypač naudinga ilgoms užduotims arba agento tipo srautams.

„Mąstymo“ režimas, integruotas į įrankių naudojimą

Viena ryškiausių „DeepSeek-V3.2“ funkcijų yra Tiesioginis mąstymo režimo integravimas į įrankių naudojimąNors ir samprotauja, modelis gali siųsti užklausas paieškos sistemai, iškviesti skaičiuotuvą, vykdyti kodą arba sąveikauti su kitomis paslaugomis, derindamas vidinės analizės ir išorinių iškvietimų ciklus, kad bandytų pateikti atsakymus. išsamesnis ir tikslesnis kai to reikalauja užduotis.

Pasak bendrovės, šis metodas paverčia V3.2 jos pirmasis modelis, gebantis logiškai mąstyti ir naudoti įrankius natūraliaitiek standartiniu, tiek intensyvaus mąstymo režimu. Tai aiškus įsipareigojimas vadinamiesiems agentais pagrįsti darbo eigosTokiais atvejais dirbtinis intelektas ne tik atsako į vieną klausimą, bet veikia kaip autonominis agentas, kuris išskaido problemą, ieško informacijos, apskaičiuoja ir viską sujungia į darnų sprendimą.

„DeepSeek“ taip pat pabrėžia, kad modelis yra plačiai prieinamas: „DeepSeek-V3.2“ galima naudoti per žiniatinklį, programėlę ir APITai palengvina jo integraciją į produktus, virtualius asistentus ar verslo įrankius, įskaitant Europoje sukurtus projektus. Europos kūrėjų bendruomenėms ir įmonėms, ieškančioms atvirų alternatyvų, galimybė tyrinėti ir pritaikyti modelį nepasikliaujant viena pagrindine platforma yra didelis privalumas.

„DeepSeek Sparse Attention“ (DSA) architektūra ir skaičiavimo efektyvumas

Techniniu lygmeniu „DeepSeek-V3.2“ branduolys yra „DeepSeek“ retas dėmesys (DSA), dėmesio mechanizmas, skirtas apdoroti labai ilgas sekas, tuo pačiu sumažinant skaičiavimo sąnaudas. „DeepSeek“ pristatė lygiagrečią failų sistemą, optimizuotą dirbtiniam intelektui kuri papildo jos pastangas efektyvumo ir diegimo srityse. Modelis turi apie 671.000 milijardas iš viso parametrųbet kiekviename išvados etape jie aktyvuojami tik aplink 37.000 milijardai parametrų vienam žetonuiTai leidžia išlaikyti pajėgumus nedidinant išteklių suvartojimo.

Ši paskirstyta architektūra leidžia dirbti su kontekstiniai langai iki 128 000 žetonų Gamyboje toks dydis ypač naudingas analizuojant didelius dokumentus, atliekant akademinius tyrimus arba peržiūrint didelius teisinės ir techninės informacijos kiekius – sritis, kurios labai domina Europos institucijas. Remiantis bendrovės pateiktais duomenimis, DSA sumažina išvadų darymo kainą maždaug perpus palyginti su ankstesne tankia architektūra ilguose kontekstuose.

Ispanijos ir likusios ES organizacijoms, susiduriančioms su skaičiavimo biudžeto apribojimais, tai efektyvumo gerinimas Tai atveria duris eksperimentuoti su itin pažangiais modeliais, nereikalaujant brangios infrastruktūros, kurią naudoja didžiosios JAV technologijų įmonės. Nepaisant to, „DeepSeek“ pripažįsta, kad, palyginti su konkurentais, vis dar turi kur tobulėti. simbolinis efektyvumas ir pasaulinio pažinimo platumas, dvi pagrindinės didelio masto diegimo sritys.

„DeepSeek-V3.2“ su intensyviu sustiprinimu, naudojant RL ir sintetinius duomenis agentams

Be architektūros, „DeepSeek“ tvirtina, kad didelė dalis mąstymo šuolio kyla iš a masinis poapmokymas pasitelkiant sustiprintą mokymąsi (RL)Bendrovė skyrė daugiau nei 10 % nuo bendros sumos prieš treniruotę tik šiame etape, neįprastas procentas sektoriuje, siekiant sustiprinti modelio pajėgumą ištaisyti klaidas, nuodugniai samprotauti, naudoti įrankius ir veikti interaktyvioje aplinkoje.

Komanda sukūrė sudėtinga sintetinių duomenų ekosistema kuris apima daugiau nei 1.800 mokymo aplinkų ir aplink 85 000 išplėstinių instrukcijų būdinga agentams. Šios užduotys apima realaus pasaulio paieškas, dinaminius modeliavimus, kodo vykdymą, grandinines problemas ir automatiškai generuojamus bei patikrintus scenarijus, siekiant sumažinti klaidas duomenų rinkinyje.

Šis metodas skirtas kurti Dirbtinio intelekto agentai, galintys veikti tam tikru autonomijos lygiuInformacijos analizė, sprendimų priėmimas ir veikimas daugiapakopėse darbo eigose. Europos įmonėms, tyrinėjančioms sudėtingų procesų – nuo ​​finansinės analizės iki pažangios techninės pagalbos – automatizavimą, ši pažanga gali būti ypač patraukli, nors dar reikia pamatyti, kaip modeliai veiks už kontroliuojamos testavimo aplinkos ribų.

„DeepSeek-V3.2-Speciale“: matematika, informatika ir išplėstinis mąstymas

Kartu su generalistiniu modeliu „DeepSeek“ pristatė „DeepSeek-V3.2-Speciale“, variantas, orientuotas į pažangus skaičiavimas, matematiniai įrodymai ir užsitęsę mąstymo procesaiBendrovė teigia, kad ši versija yra lygiavertė Gemini-3 Pro „Google“ rezultatai sudėtingose ​​samprotavimo užduotyse ir kad jos rezultatai tarptautiniuose konkursuose artėja prie aukso medalio.

Tiksliau, Speciale būtų pasiekęs lygių, prilygstančių aukso medaliams Tarptautinėje matematikos olimpiadoje (IMO), Tarptautinė informatikos olimpiada (IOI), ICPC pasaulio finalas ir Kinijos matematikos olimpiadą. Be to, ji integruoja iš modelio gautas galimybes DeepSeek-Math-V2, specializuojasi teoremų įrodyme ir labai sudėtingų problemų sprendime, o tai sustiprina jos pozicijas mokslinių ir techninių tyrimų modelių segmente.

Skirtingai nuo standartinės versijos, „DeepSeek-V3.2-Speciale“ nėra pritaikytas kasdienėms užduotims nei bendroms integracijoms su įrankiais. Bendrovė pabrėžia, kad šis modelis pirmiausia skirtas mokslinis ir akademinis darbas, vartojant žetonų pranašesnis, tad kol kas Tai siūloma tik per API o ne per bendrosios paskirties programas.

„DeepSeek-V3.2“ prieinamumas, diafragma ir kontrastas su Amerikos gigantais

„DeepSeek“ paskelbė pilni „DeepSeek-V3.2“ svoriai ir išsami techninė ataskaita dėl jų mokymo, o tai prieštarauja vis griežtesnei kai kurių didelių JAV technologijų bendrovių politikai, kuri dažnai riboja prieigą prie kodo arba pažangiausių modelių dydį. Net ir tais atvejais, kai atviro kodo Dalinis, kaip ir kai kuriose „Lamos“ versijose, atidarymas turi specifinių sąlygų ir niuansų.

Europos kontekste toks laipsnis skaidrumas ir atvirumas Tai gali būti labai svarbu projektams, kuriems reikalingas audituojamumas, atitiktis reglamentams arba galimybė pritaikyti modelius prie reguliavimo sistemų, tokių kaip Europos Sąjungos dirbtinio intelekto įstatymasUniversitetai, tyrimų centrai ir viešojo administravimo įstaigos gali išsamiau išstudijuoti modelį, pakartoti eksperimentus ar net pritaikyti kai kurias jo dalis savo poreikiams, visiškai nepriklausydami nuo uždaros išorinės API.

Bendrovė įdėjo „DeepSeek-V3.2“ bendruomenei prieinama tokiose platformose kaip „Hugging Face“ ir „ModelScope“.Kita vertus, „Speciale“ variantas ne tik siūlo prieigą per API, bet ir šiuo metu gali būti naudojamas tik per programinę sąsają dėl savo... didesnis skaičiavimo poreikis ir kaina vienam žetonuiŠi mišri platinimo strategija atitinka daugelio Europos dalyvių interesą turėti patikimus tyrimų modelius, nors jų komercinis diegimas gali pareikalauti kruopštesnio planavimo.

Kinijos vaidmuo pasaulinėse dirbtinio intelekto lenktynėse

„DeepSeek-V3.2“ išleidimas vyksta tuo metu, kai Kinija siekia sustiprinti savo lyderystę dirbtinio intelekto srityje Nepaisant apribojimų dėl prieigos prie pažangių puslaidininkių ir didėjančios geopolitinės įtampos, „DeepSeek“ tapo vienu labiausiai aptariamų vardų Kinijos ekosistemoje, kai anksčiau šiais metais pasirodė su modeliu, kuris visus nustebino savo galios ir kainos santykiu, o dabar padvigubina savo galimybes su aukšto lygio agento ir samprotavimo galimybėmis.

Europoje, kur diskusijos sutelktos į tai, kaip subalansuoti inovacijos, duomenų apsauga ir saugumasToks vystymasis suteikia ir galimybių, ir iššūkių. Viena vertus, didelio našumo atvirųjų modelių iš Kinijos egzistavimas išplečia Europos laboratorijoms ir įmonėms prieinamų įrankių asortimentą. Kita vertus, kyla klausimų dėl... suderinamumas su vietos taisyklėmis, tarpvalstybiniai duomenų srautai ir jų poveikis turinio reglamentai Kinijoje, kurį kai kurie ekspertai laiko galima kliūtimi visapusiškai tarptautinei šių sistemų plėtrai.

„DeepSeek“ taip pat įgijo žinomumą už savo vidaus rinkos ribų po to, kai jos V3.1 modelis dalyvavo automatizuoti investavimo eksperimentai palyginti su tokiomis sistemomis kaip GPT-5 ir „Gemini 2.5 Pro“, kur jis parodė konkurencingus rezultatus. Šią strategiją papildo kitų modelių, tokių kaip „DeepSeek“ OCR, kuria siekiama suspausti tekstą vizualiniu suvokimu ir apdoroti jį naudojant mažiau išteklių, taip sustiprinant įmonės, kaip į vartotoją orientuotos veikėjos, įvaizdį. efektyvumas ir atvirojo kodo.

Lūkesčiai, apribojimai ir tolesni žingsniai

Nepaisant bendrovės teiginių, „DeepSeek“ pripažįsta, kad V3.2 vis dar atsilieka nuo kai kurių savo JAV analogų. tokiais aspektais kaip bendros žinios apie pasaulį, plačių kultūrinių kontekstų supratimas ar žetonų naudojimo efektyvumas. Be to, patys projekto vadovai pripažįsta, kad palyginimai, pagrįsti viešais lyginamaisiais rodikliais Jie ne visada atspindi realų našumą gamybinėje aplinkoje, ypač atliekant atviras užduotis ir dirbant su galutiniais vartotojais.

Kitas aspektas, į kurį reikia atsižvelgti, yra tai, kad įrankių integravimas samprotavimo režime Jį vis dar reikia nuodugniai patvirtinti sudėtingais, realaus pasaulio naudojimo atvejais – nuo ​​sveikatos priežiūros iki finansinių ar teisinių sprendimų priėmimo. DSA siūlomos skaičiavimo sąnaudų santaupos yra didelės, tačiau jos gali būti nustelbtos, jei atsakymų kokybė nėra nuosekliai palaikoma, kai užduotys tampa dviprasmiškesnės arba joms reikia labai specifinių kontekstų.

Atsiradus „DeepSeek-V3.2“ ir jo „Speciale“ variantui, pažangiojo mąstymo dirbtinio intelekto srityje atsirado naujas žaidėjas, siekiantis pasaulinių tikslų. atviri modeliai, integruoti įrankiai ir ribotos išlaidosŠie pokyčiai praplečia mokslinių tyrimų, verslo ir viešojo administravimo sričių galimybių spektrą, kartu versdami permąstyti, kaip sparčią dirbtinio intelekto evoliuciją pritaikyti prie sudėtingos reguliavimo sistemos ir vis ryškėjančios konkurencijos tarp technologinių blokų.

DeepSeek
Susijęs straipsnis:
„DeepSeek“, „ChatGPT“ turi kitą konkurentą, kilusį iš Kinijos ir galintį jį net pranokti