
Foto: Matheus Bertelli op Pexels.
1. Inleiding
DeepSeek, ’n Chinese KI-maatskappy met ’n gelyknamige groottaalmodel en slimfoontoepassing, het vinnig as ’n beduidende rolspeler in die globale KI-landskap na vore getree, gevestigde opvattings uitgedaag en ’n herevaluering van KI-ontwikkelingstrategieë aangespoor. Dit is in Mei 2023 deur Liang Wenfeng, ’n skansfondsbestuurder, gestig, en die ontwikkeling daarvan van ’n handelsonderneming na ’n KI-rolspeler is indrukwekkend. Die maatskappy se oopbronbenadering, tesame met sy vermoë om hoëprestasiemodelle teen ’n breukdeel van die koste van sy mededingers te vervaardig, het die bedryf ontwrig en vrae oor die toekoms van KI-ontwikkeling laat ontstaan.
Hierdie artikel verken die agtergrond van DeepSeek, die redes agter die belangrikheid daarvan, en hoe dit die KI-landskap hervorm.
2. Agtergrond
DeepSeek het ontstaan uit High-Flyer, ’n Chinese skansfonds wat in 2015 gestig is en wat gevorderde rekenaars gebruik het om finansiële data te ontleed (Dickerson 2025; Greenberg 2025; Mukherjee 2025; O’Brien 2025; Picchi 2025; Uren en Walsh 2025). Liang Wenfeng, High-Flyer se medestigter, het in 2023 hulpbronne herlei vir die skep van DeepSeek, gemotiveer deur wetenskaplike nuuskierigheid eerder as onmiddellike finansiële winste (Barlow 2025; Mukherjee 2025; O’Brien 2025; Picchi 2025; Uren en Walsh 2025). Anders as baie Chinese KI-firmas, werk DeepSeek onafhanklik van groot tegnologiereuse soos Baidu en Alibaba (Mukherjee 2025). Hierdie onafhanklikheid, tesame met ’n fokus op langtermynnavorsing, het DeepSeek in staat gestel om ambisieuse KI-projekte na te streef sonder die beperkings van eksterne druk. Die maatskappy se vinnige groei is aangevuur deur sy vermoë om jong KI-navorsers van top Chinese universiteite en ook individue van ander velde te lok om hul modelle se kennis te diversifiseer (Mukherjee 2025; Uren en Walsh 2025).
3. DeepSeek-modelle
Sedert 2023 het DeepSeek ’n reeks modelle ontwikkel, elk met spesifieke vermoëns. Hierdie die onderafdeling verskaf ’n kort oorsig oor DeepSeek-modelle.
– DeepSeek Coder, wat in November 2023 vrygestel is, is ’n oopbronmodel wat vir koderingstake ontwerp is (Barlow 2025; Uren en Walsh 2025). Dit is in verskillende groottes beskikbaar, met parameters wat wissel van 1,3 miljard tot 33 miljard. DeepSeek Coder is opgelei op ’n groot korpus kode en kodeverwante Engels en Chinees.
– DeepSeek LLM (Large Language Model oftewel groottaalmodel), wat ook in November 2023 vrygestel is, gebruik tussen 7 miljard en 67 miljard parameters, en is ’n taalmodel wat ontwerp is om mee te ding met ander groottaalmodelle soos Llama 2 (DeepSeek-AI ea 2024; Uren en Walsh 2025). Dit het resultate getoon wat dié van die meeste oopbron- groottaalmodelle oortref (DeepSeek-AI ea 2024).
– DeepSeek-V2, wat in Mei 2024 vrygestel is, gebruik tussen 21 miljard en 236 miljard parameters (DeepSeek-AI 2024; Uren en Walsh 2025). DeepSeek-V2 het ’n kontekslengte van tot 128 000 merkers (tokens) en is op 8,1 triljoen merkers opgelei (DeepSeek-AI 2024; Uren en Walsh 2025). Dit is bekend vir sy lae pryspunt (DeepSeek-AI 2024), wat veroorsaak het dat ander Chinese tegnologiemaatskappye die gebruik van hul KI-modelpryse verlaag het (Greenberg 2025).
– DeepSeek-Coder-V2 ding mee met OpenAI se GPT4-Turbo se koderingsprestasie (DeepSeek-AI e.a. 2024). Dit is gebou op DeepSeek-V2 met uitgebreide verdere vooropleiding, wat sy kodering- en wiskundevaardighede ’n hupstoot gee, terwyl algemene taalvermoëns behoue bly. Hierdie nuwe weergawe ondersteun 338 programmeertale en het ook ’n kontekslengte van 128 000 merkers (DeepSeek-AI e.a. 2024). Toetse wys dat DeepSeek-Coder-V2 beter vaar as modelle soos GPT4-Turbo, Claude 3 Opus en Gemini 1.5 Pro in kodering en wiskundige redenasie (DeepSeek-AI ea 2024).
– DeepSeek-V3, wat in Desember 2024 vrygestel is, is ’n groot Mixture-of-Experts- (MoE-) taalmodel1 met 671 miljard totale parameters en 37 miljard geaktiveerde parameters (DeepSeek-AI ea 2024; Barlow 2025; Uren en Walsh 2025). Dit is op 14,8 triljoen merkers opgelei en het weer eens ’n kontekslengte van tot 128 000 merkers (DeepSeek-AI ea 2024). DeepSeek-V3 gebruik tegnieke soos veelvuldige-kop- latente aandag (Multi-head Latent Attention of MLA)2 en DeepSeek MoE-argitektuur vir doeltreffende afleiding en ekonomiese opleiding (DeepSeek-AI ea 2024; Barlow 2025; Mukherjee 2025).
– DeepSeek-R1, wat in Januarie 2025 vrygestel is, is ’n gevorderderedenasiemodel wat gefokus is op take soos wiskunde, kodering en natuurlike taalbegrip (DeepSeek-AI ea 2025; Mukherjee 2025; Uren en Walsh 2025). Dit is opgelei deur gebruik te maak van versterkingsleertegnieke en verskeie stadiums van opleiding (Mukherjee 2025). DeepSeek-R1 en DeepSeek-R1-Zero is gegrond op DeepSeek-V3-Base, en DeepSeek het ook gedistilleerde weergawes van R1 vrygestel wat verfyn is op sintetiese data wat deur die oorspronklike R1-model geskep is (DeepSeek-AI ea 2025). DeepSeek-R1 is bekend vir sy vermoë om komplekse probleme in verstaanbare stappe af te breek en om sy denkproses te wys (Barlow 2025). Die model presteer indrukwekkend, met 90,8% (DeepSeek-AI ea 2025) op die MMLU- (Massive Multitask Language Understanding-) maatstaf van Hendrycks ea (2020). Dit moet egter genoem word dat DeepSeek-R1 nie in alle opsigte die voorpunt van groottaalmodelontwikkeling verteenwoordig nie. Alhoewel DeepSeek (2025) beweer: “While its performance is slightly below that of OpenAI-o1-1217 on these benchmarks, DeepSeek-R1 surpasses other closed-source models, demonstrating its competitive edge in educational tasks”, het Google se Gemini 1.5 Pro (Google se vorige model wat in 2024 vrygestel is) 91,7% op die MMLU-maatstaf behaal (Reid ea 2024). ’n Gedetailleerde vergelyking van groottaalmodelle val buite die fokus van hierdie artikel, maar dit moet genoem word dat verskillende groottaalmodelle verskillende sterk en swak punte het.
4. Betekenis van DeepSeek
........
DeepSeek se belangrikheid spruit uit verskeie faktore wat die gevestigde KI-industrienorme uitdaag, insluitend lae ontwikkelingskoste, ’n oopbronbenadering, ’n uitdaging vir Amerikaanse KI-oorheersing, ’n fokus op langtermynvernuwing en ontwrigtende tegnologie.
........
DeepSeek se belangrikheid spruit uit verskeie faktore wat die gevestigde KI-industrienorme uitdaag, insluitend lae ontwikkelingskoste, ’n oopbronbenadering, ’n uitdaging vir Amerikaanse KI-oorheersing, ’n fokus op langtermynvernuwing en ontwrigtende tegnologie.
DeepSeek demonstreer dat hoëprestasie-KI-modelle met minder hulpbronne en minder kragtige hardeware ontwikkel kan word (Greenberg 2025; O’Brien 2025; Picchi 2025). Hierdeur het DeepSeek getoon dat dit moontlik is om hoëprestasie-KI-modelle te ontwikkel teen ’n breukdeel van die koste van sy mededingers (Barlow 2025). Die DeepSeek-V3-model is byvoorbeeld opgelei met slegs 2 788 miljoen H800 GPU-ure, wat baie minder is as die hulpbronne wat deur ander maatskappye gebruik word (DeepSeek-AI ea 2024). DeepSeek se jongste model is glo in net twee maande teen minder as $6 miljoen (Greenberg 2025; Picchi 2025) ontwikkel. Hierteenoor word verwag dat groot Amerikaanse maatskappye in die komende jare triljoene in KI sal belê (Picchi 2025). Hierdie kostedoeltreffendheid daag die aanname uit dat die mees gevorderde verwerkers en massiewe datasentrums vir KI-vernuwing nodig is (Greenberg 2025). Dit bevraagteken ook die aanname dat Amerikaanse tegnologiefirmas vanweë hul grootte en hulpbronne ’n kritieke voorsprong in KI het (Greenberg 2025).
DeepSeek het ’n oopbronmodel aangeneem, wat sy algoritmes, modelle en opleidingsbesonderhede vrylik beskikbaar stel (Mukherjee 2025; O’Brien 2025). Deur sy modelle oopbron en vrylik beskikbaar te maak, demokratiseer DeepSeek toegang tot gevorderde KI-tegnologie (Dickerson 2025; Mukherjee 2025; Uren en Walsh 2025). Dit stel kleiner maatskappye, navorsers en individue in staat om toegang tot KI te verkry en vir vernuwing te gebruik, wat tot meer wydverspreide toepassing van KI kan lei (Mukherjee 2025). Deur hul deurbrake met die wêreldwye KI-navorsingsgemeenskap te deel, fasiliteer DeepSeek dan die vinnige ontwikkeling van nuwe KI-toepassings en -tegnologie (Mukherjee 2025), en hulle sien self DeepSeek as ’n belangrike stap na Kunsmatige Algemene Intelligensie (DeepSeek-AI ea 2024). Daarteenoor het baie toonaangewende KI-maatskappye, soos OpenAI en Google, ’n geslote benadering aangeneem wat toegang tot hul tegnologie beperk, en daardeur word vooruitgang binne die grense van ’n enkele organisasie gehou (Uren en Walsh 2025). DeepSeek se oopbronmodelle kan ook plaaslik bestuur word, wat gebruikers groter dataprivaatheid en beheer oor hul inligting gee (Dickerson 2025).
........
DeepSeek se prestasies het beduidende geopolitieke implikasies, wat die Amerikaanse oorheersing in die KI-bedryf uitdaag en die beperkings van Amerikaanse sanksies op China se KI-ontwikkeling beklemtoon.
........
DeepSeek is hoofsaaklik op navorsing gefokus en het geen gedetailleerde planne vir kommersialisering nie (Uren en Walsh 2025). Dit stel die maatskappy in staat om op langtermynvernuwing en fundamentele KI-navorsing eerder as korttermyn- finansiële winste te fokus (Mukherjee 2025). Dit is ’n ander benadering as Amerikaanse KI-maatskappye, wat op kommersiële produkte en winste gefokus is (Uren en Walsh 2025).
DeepSeek se modelle het prestasie getoon op gelyke voet met dié van gevestigde modelle soos OpenAI se GPT-modelle en hulle in sommige gevalle selfs oortref (Barlow 2025; Greenberg 2025; O’Brien 2025; Uren en Walsh 2025). Die maatskappy se R1-model is veral geprys vir sy redenasievermoë op gebiede soos wiskunde en kodering (Barlow 2025; Dickerson 2025). Dit het gelei tot aansienlike markontwrigting, wat veroorsaak het dat groot tegnologiemaatskappye, insluitend Nvidia en Microsoft, aansienlike aandelemarkdalings ervaar het (Barlow 2025; Dickerson 2025; Greenberg 2025; Picchi 2025; Uren en Walsh 2025).
DeepSeek se prestasies het beduidende geopolitieke implikasies, wat die Amerikaanse oorheersing in die KI-bedryf uitdaag en die beperkings van Amerikaanse sanksies op China se KI-ontwikkeling beklemtoon (Dickerson 2025; Greenberg 2025; O’Brien 2025; Uren en Walsh 2025). Die maatskappy se sukses wys dat lande gevorderde KI-stelsels kan ontwikkel met die tegnologie wat hulle het (O’Brien 2025; Picchi 2025). Die sukses van DeepSeek het daartoe gelei dat sommige die situasie beskryf as “KI se Spoetnik-oomblik”, wat daarop dui dat ’n wêreldwye KI-ruimtewedren begin het (Dickerson 2025; O’Brien 2025; Yang en Cui 2025).
Die vraag ontstaan of die Chinese regering nie ook hierdie tegnologie sal misbruik soos die geval is met TikTok nie (Barlow 2025; Picchi 2025; Uren en Walsh 2025). Ross Burley, medestigter van die Sentrum vir Inligtingsveerkragtigheid, voer byvoorbeeld aan:
We’ve seen time and again how Beijing weaponises its tech dominance for surveillance, control, and coercion, both domestically and abroad. Whether it’s through spyware-laden devices, state-sponsored cyber campaigns, or the misuse of AI to suppress dissent, China’s track record demonstrates that its technology is an extension of its geopolitical strategy. (Aangehaal in Uren en Walsh 2025; my vertaling)
........
In my eie toetse op 3 Februarie 2025 het DeepSeek vinnige antwoorde op die meeste vrae verskaf, maar wanneer ek gevra het vir inligting oor Tiananmenplein, was die bediener telkens – en heel toevallig – besig.
........
Om hierdie rede is DeepSeek al ’n Trojaanse perd genoem (Dickerson 2025). Daar is ook al daarop gelet dat sensuur toegepas word wanneer onderwerpe ter sprake is wat die Chinese regering in ’n swak lig plaas, byvoorbeeld Tiananmenplein of Taiwan (Steinschaden 2025; Yang en Cui 2025). In my eie toetse op 3 Februarie 2025 het DeepSeek vinnige antwoorde op die meeste vrae verskaf, maar wanneer ek gevra het vir inligting oor Tiananmenplein, was die bediener telkens – en heel toevallig – besig. ’n Latere toets het ’n antwoord opgelewer wat, soos in Steinschaden (2025) se eksperimente, vinnig uitgevee en vervang is met: “Sorry, that's beyond my current scope. Let's talk about something else.” Hierdie sensuur suggereer dat DeepSeek nie onafhanklik van die Chinese regering funksioneer nie.
5. Gevolgtrekking
DeepSeek is meer as net ’n nuwe KI-maatskappy; dit verteenwoordig ’n paradigmaskuif in hoe KI ontwikkel en ontplooi en hoe toegang verkry word. Sy oopbronbenadering, laekostemodelle en fokus op vernuwing ontwrig die gevestigde KI-landskap. Deur die aannames oor die koste en hulpbronne wat benodig word vir KI-ontwikkeling uit te daag, het DeepSeek KI gedemokratiseer en vernuwing versnel, en ook Amerikaanse firmas aangemoedig om ontwikkeling vinniger te dryf. Net die tyd sal leer of ’n stroomversnelling ’n goeie ding is, en wat China met hierdie gereedskap sal doen.
Bibliografie
Barlow, G. 2025. What is DeepSeek? Everything you need to know about the new ChatGPT rival that’s taken the App Store by storm. https://www.techradar.com/computing/social-media/what-is-deepseek-everything-you-need-to-know-about-the-new-chatgpt-rival-thats-taken-the-app-store-by-storm (3 Februarie 2025 geraadpleeg).
DeepSeek-AI, Bi, X, D Chen, G Chen, S Chen ea. 2024. DeepSeek LLM: Scaling open-source language models with longtermism. arXiv. DOI: 10.48550/arxiv.2401.02954.
DeepSeek-AI, Guo, D, D Yang, H Zhang ea. 2025. DeepSeek-R1: Incentivizing reasoning capability in LLMs via reinforcement learning. arXiv. DOI: 10.48550/arxiv.2501.12948.
DeepSeek-AI, Liu, A, B Feng, B Xue ea. 2024. DeepSeek-V3 Technical Report. arXiv. DOI: 10.48550/arxiv.2412.19437.
DeepSeek-AI, Zhu, Q, D Guo, Z Shao ea. 2024. DeepSeek-Coder-V2: Breaking the barrier of closed-source models in code intelligence. arXiv. DOI: 10.48550/arxiv.2406.11931.
DeepSeek-AI. 2024. DeepSeek-V2: A strong, economical, and efficient Mixture-of-Experts language model. arXiv. DOI: 10.48550/arxiv.2405.04434.
Dickerson, CG. 2025. What is DeepSeek? The low-cost Chinese AI firm that has turned the tech world upside down. https://news.sky.com/story/what-is-deepseek-the-low-cost-chinese-ai-firm-that-has-turned-the-tech-world-upside-down-13298039 (3 Februarie 2025 geraadpleeg).
Greenberg, K. 2025. What is DeepSeek? What to know about the Chinese AI startup that spurred a stock selloff. https://www.investopedia.com/what-is-deepseek-chinese-ai-startup-that-spurred-a-stock-selloff-nvidia-update-8780896 (3 Februarie 2025 geraadpleeg).
Hendrycks, D, C Burns, S Basart, A Zou ea. 2020. Measuring massive multitask language understanding. arXiv. DOI: 10.48550/arxiv.2009.03300.
Mukherjee, V. 2025. What is DeepSeek: China’s open-source AI research lab which rivals OpenAI. https://www.business-standard.com/world-news/deepseek-r1-chinese-ai-research-breakthrough-challenging-openai-explained-125012700327_1.html (3 Februarie 2025 geraadpleeg.
O’Brien, M. 2025. What is DeepSeek, the Chinese AI company upending the stock market? https://apnews.com/article/deepseek-ai-china-f4908eaca221d601e31e7e3368778030 (3 Februarie 2025 geraadpleeg.
Picchi, A. 2025. What is DeepSeek, and why is it causing Nvidia and other stocks to slump? https://www.cbsnews.com/news/what-is-deepseek-ai-china-stock-nvidia-nvda-asml (3 Februarie 2025 geraadpleeg.
Reid, M, N Savinov, D Teplyashin ea. 2024. Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context. arXiv. DOI: 10.48550/arxiv.2403.05530.
Steinschaden, J. 2025. DeepSeek: This is what live censorship looks like in the Chinese AI chatbot. https://www.trendingtopics.eu/deepseek-this-is-what-live-censorship-looks-like-in-the-chinese-ai-chatbot (3 Februarie 2025 geraadpleeg).
Uren, C. en D Walsh. 2025. What is DeepSeek, the AI chatbot from China that is sending shockwaves through the tech world? https://www.euronews.com/next/2025/01/28/what-is-deepseek-the-ai-chatbot-from-china-that-is-sending-shockwaves-through-the-tech-wor (3 Februarie 2025 geraadpleeg).
Yang, A. en J Cui. 2025. A new AI assistant from China has Silicon Valley talking. https://www.nbcnews.com/tech/tech-news/china-ai-assistant-deepseek-rcna189385 (3 Februarie 2025 geraadpleeg).
Eindnotas
1 ’n MoE-model kombineer verskeie gespesialiseerde submodelle (“kenners”) met ’n poortnetwerk wat leer om insette na die mees toepaslike kenner(s) te stuur.
2 Veelvuldige-kop- latente aandag gebruik verskeie “koppe” om aandag te vestig op verskillende latente (versteekte) aspekte van die data, wat die model in staat stel om meer komplekse verhoudings te leer.
Lees ook:
SteedsDink met LitNet Akademies: Burgert Senekal oor sy akademiese navorsing
Kollig op akademikus Burgert Senekal: Afrikaans, netwerke en tegnologie
Tien etiese en praktiese gebruike van ChatGPT vir akademiese skryfwerk in Afrikaans