DeepSeek on kiinalainen tekoälyhaastaja joka mullistaa alaa avoimilla malleilla
Kiinalainen tekoälyyritys DeepSeek on noussut otsikoihin kehittämällä huippuluokan suuria kielimalleja avoimella lähdekoodilla. Yhtiön Hangzhoussa sijaitseva tiimi on luonut tekoälymalleja, jotka kilpailevat suorituskyvyssä amerikkalaisten teknologiajättien tuotosten kanssa murto-osalla kustannuksista.
DeepSeekin tuorein R1-malli on kerännyt runsaasti huomiota: sen sanotaan yltävän samalle tasolle OpenAI:n ja Metan edistyneimpien mallien kanssa ja olevan jopa 20–50 kertaa edullisempi käyttää kuin OpenAI:n vastaava järjestelmä. DeepSeek on kiihdyttänyt kilpailua, globaalia keskustelua tekoälyn kehityksestä, avoimuudesta ja vaikutuksista eri aloilla.
Tausta ja perustaminen
DeepSeek on perustettu vuonna 2023 Hangzhoussa, Kiinassa, tekoälytutkimukseen suuntautuneena startup-yrityksenä. Sen taustalla on Liang Wenfeng, joka tunnetaan myös menestyneen High-Flyer-hedgerahaston perustajana. High-Flyer ilmoitti maaliskuussa 2023 suuntaavansa resursseja “uuteen itsenäiseen tutkimusryhmään AGI:n olemuksen tutkimiseksi” (AGI, Artificial General Intelligence) – ja DeepSeek syntyi myöhemmin samana vuonna tämän vision pohjalta.
Wenfeng on korostanut, että yhtiö perustettiin tieteellisestä uteliaisuudesta, ei nopean voiton tavoittelusta. DeepSeek toimii edelleen itsenäisenä tutkimuslaboratoriona High-Flyerin alaisuudessa, ilman perinteisten teknologiayritysten rahoitusta. Yhtiön pitkän aikavälin tavoitteena on saavuttaa tekoälyn yleisäly (AGI) ja viedä tekoälytutkimusta uusille tasoille.
Tekoälymallit ja niiden käyttötarkoitukset
DeepSeek on erikoistunut avoimen lähdekoodin suuriin kielimalleihin. Ensimmäinen julkaisu oli DeepSeek Coder marraskuussa 2023 – koodin generointiin ja ohjelmointitehtäviin suunnattu malli. Tämän jälkeen yhtiö esitteli joulukuussa 2023 yleiskäyttöisen kielimallinsa ensimmäisen version, ja toukokuussa 2024 parannetun DeepSeek-V2-mallin, jossa panostettiin parempaan suorituskykyyn ja alhaisempiin koulutuskuluihin.
Heinäkuussa 2024 julkaistiin puolestaan DeepSeek-Coder-V2, 236 miljardin parametrin malli, joka pystyy käsittelemään erittäin pitkiä koodisyötteitä (jopa 128 000 tokenia) ja on tarkoitettu vaativiin ohjelmointiongelmiin.
Merkittävin harppaus tapahtui DeepSeek-V3-mallin myötä joulukuussa 2024. Tämä 671 miljardin parametrin malli hyödynsi uutta Mixture-of-Experts -arkkitehtuuria, jossa vain kulloinkin relevantit aliverkostot “herätetään” vastaamaan käyttäjän kysymykseen, mikä vähentää laskentatehoa huomattavasti verrattuna siihen, että kaikki mallin osat olisivat jatkuvasti aktiivisina.
DeepSeek-V3 kykeni laajaan kirjoon tehtäviä ja asetti pohjan seuraavalle kehitysaskeleelle. Tammikuussa 2025 julkaistu DeepSeek-R1 pohjautuu V3-malliin ja on hienosäädetty erityisesti kehittyneisiin päättelytehtäviin – se on suunniteltu haastamaan suoraan OpenAI:n omat huippumallit suorituskyvyssä, mutta huomattavasti kevyemmällä kustannusrakenteella.
Sekä V3 että R1 pystyvät käsittelemään erittäin laajoja tekstisyötteitä (konteksti-ikkuna jopa noin 128 000 sanaa) ja tarjoavat huippuluokan suorituskykyä monilla osa-alueilla.
DeepSeek on laajentanut tekoälymallinsa myös erikoisaloille. Esimerkiksi tammikuussa 2025 yhtiö esitteli Janus-Pro-7B -vision, 7 miljardin parametrin mallin, joka ymmärtää ja generoi kuvia. Tämä viittaa siihen, että DeepSeek tähtää tekstin lisäksi myös kuvantunnistuksen ja -tuottamisen alueelle kilpaillen esimerkiksi OpenAI:n ja muiden kansainvälisten toimijoiden kuvamalleja vastaan.
Myös koodaamiseen keskittyvää malliperhettä on jatkokehitetty: DeepSeek Coder -mallit helpottavat ohjelmistokehittäjien työtä generoimalla koodia ja auttamalla ongelmanratkaisussa luonnollisella kielellä.
Yhtiön kaikki keskeiset mallit on julkaistu avoimena lähdekoodina, mikä tarkoittaa, että niiden mallipainot ja lähdekoodi ovat vapaasti kenen tahansa hyödynnettävissä. DeepSeek tarjoaa mallejaan käyttöön selainpohjaisen käyttöliittymän, mobiilisovelluksen ja ohjelmointirajapintojen (API) kautta.
Avoimuuden ansiosta kehittäjät ja organisaatiot voivat integroida DeepSeekin tekoälyn omiin sovelluksiinsa ilman lisenssimaksuja tai erillisiä lupia. Tämä erottaa DeepSeekin monista länsimaisista kilpailijoista, joiden mallit ovat suljettuja ja käyttö maksullista.
Esimerkiksi OpenAI:n GPT-4 ja Googlen Gemini ovat täysin suljettuja malleja, joiden sisäinen toiminta ja koulutusdata pidetään piilossa, kun taas Meta on tarjonnut osittain avoimen Llama 2 -mallin tietyin rajoituksin. DeepSeek menee tätäkin pidemmälle julkaisemalla mallinsa täysin ilman käyttörajoituksia.
Viimeisimmät kehitykset
DeepSeek nousi maailmanlaajuiseen tunnettuuteen tammikuussa 2025, kun sen DeepSeek-R1-kielimalli julkaistiin laajasti saataville. Malli julkistettiin 20. tammikuuta 2025, ja se herätti välittömästi huomiota teknologia-alalla. Yhtiön oman tutkimusjulkaisun mukaan R1 päihittää alan johtavat tekoälymallit – kuten OpenAI:n vastaavan o1-mallin – useissa matemaattisissa ja loogista päättelyä mittaavissa testeissä.
Oleellista on, että DeepSeek väittää kehittäneensä R1-mallinsa murto-osalla siitä rahamäärästä, mitä länsimaiset kilpailijat ovat malleihinsa käyttäneet: yhtiön mukaan R1:n opettaminen maksoi alle 6 miljoonaa dollaria. Vertailun vuoksi OpenAI:n huippumallien kehityskulut liikkuvat sadoissa miljoonissa dollareissa.
R1:n käyttö on myös käyttäjille huomattavan halpaa – arviolta vain noin viideskymmenesosa OpenAI:n vastaavan palvelun hinnasta tehtävästä riippuen. Nämä tekijät yhdessä saivat monet asiantuntijat kuvailemaan DeepSeekin julkaisua merkittäväksi käännekohdaksi tekoälyn historiassa.
Muutamassa päivässä DeepSeekin suosio näkyi myös tavallisten käyttäjien parissa. Yhtiön julkaisema mobiilichat-sovellus, joka hyödyntää R1-mallia, nousi Applen App Storen ilmaissovellusten latauslistan kärkeen Yhdysvalloissa, ohittaen jopa OpenAI:n oman ChatGPT-sovelluksen.
Tämä yllätti monet, sillä alaa hallinneet länsimaiset toimijat eivät olleet osanneet odottaa kiinalaisen startupin saavuttavan näin laajaa käyttäjäkuntaa niin nopeasti. DeepSeekin äkillinen menestys hermostutti sijoittajia: 27. tammikuuta 2025 nähtiin teknologiayhtiöiden osakkeissa voimakas lasku, kun markkinat arvioivat uudelleen suurten tekoälytoimijoiden tulevaisuuden näkymiä.
Esimerkiksi Nvidia, Microsoft, Meta Platforms ja muut alan jättiläiset kokivat osakekurssiensa merkittäviä pudotuksia sijoittajien pohtiessa, onko heidän miljardien investoinneilleen vastinetta tilanteessa, jossa uusi tulokas tarjoaa kilpailevan mallin ilmaiseksi.
DeepSeekin nousu ei ole tapahtunut ilman haasteita. Juuri samaan aikaan kun yhtiön suosio räjähti, sen palveluihin kohdistui laaja kyberhyökkäys. 27. tammikuuta DeepSeek raportoi massiivisista haitallisista hyökkäyksistä, todennäköisesti palvelunestohyökkäyksistä (DDoS), jotka häiritsivät palvelun toimintaa ja pakottivat yhtiön rajoittamaan uusien käyttäjien rekisteröitymistä tilapäisesti.
Vaikka olemassa olevat käyttäjät pystyivät jatkamaan palvelun käyttöä, hyökkäys aiheutti katkoksia vielä seuraavana päivänä ennen kuin DeepSeek ilmoitti paikantaneensa ongelman ja korjanneensa tilanteen. Vain pari päivää myöhemmin tietoturvatutkijat paljastivat toisen ongelman: DeepSeekin taustajärjestelmästä oli löytynyt julkisesti avoin tietokanta, josta vuosi arkaluontoista tietoa.
Wiz Inc -yhtiön tutkijat kertoivat 29. tammikuuta 2025 havainneensa, että suojaamattomaan tietokantaan oli päätynyt muun muassa käyttäjien chat-historiaa, sisäisiä lokitietoja, API-avaimia ja muita luottamuksellisia tietoja. DeepSeek reagoi nopeasti ja sulki vuotavan tietokannan saatuaan asiasta tiedon. Tapauksen arvioidaan olleen niin kutsuttu “aloittelijan virhe” tietoturvassa, joka kuitenkin nosti esiin kysymyksiä yhtiön valmiuksista suojata käyttäjätietoja.
Myös poliittiset reaktiot ovat seuranneet DeepSeekin esiinmarssia. Useat organisaatiot ja valtiot ovat asettaneet rajoituksia DeepSeekin käytölle tietoturvaan ja yksityisyydensuojaan vedoten. Esimerkiksi Yhdysvaltain laivasto kielsi ensimmäisten joukossa DeepSeekin käytön, peläten Kiinan hallituksen mahdollisesti pääsevän käsiksi dataan avoimen mallin kautta.
Sittemmin Italian hallitus, Taiwanin viranomaiset sekä Teksasin osavaltio Yhdysvalloissa ovat niin ikään kieltäneet tai rajoittaneet DeepSeekin käyttöä julkishallinnossa. Myös muun muassa Etelä-Korea, Ranska, Irlanti ja Alankomaat tutkivat tapausta ja pohtivat toimia, mikä kertoo laajemmasta huolesta avoimen kiinalaisen tekoälyn mahdollisista riskeistä kansalliselle turvallisuudelle.
Kiinan johdossa sen sijaan DeepSeekin menestys on huomioitu positiivisessa valossa: heti R1-julkaisun aikaan yhtiön perustaja Liang Wenfeng kutsuttiin maan pääministerin isännöimään asiantuntijatapaamiseen, mikä viittaa siihen, että Peking näkee DeepSeekin saavutukset tärkeänä askeleena kohti omavaraisuutta strategisella tekoälyalalla.
DeepSeekin merkitys ja vaikutukset
DeepSeekin esiinmarssi on käännekohta tekoälyalalla. Se osoittaa, että huipputason tekoälymalleja voidaan kehittää myös ilman valtavia taloudellisia resursseja ja suljettuja ekosysteemejä. Yhtiö on todistanut, että ohjelmisto- ja laiteoptimoinnilla voidaan saavuttaa samaa suorituskykyä, mihin aiemmin on luultu tarvittavan pelkästään enemmän laskentatehoa ja kalliimpia komponentteja.
DeepSeek muun muassa hyödynsi Yhdysvaltain vientirajoitusten vuoksi tarjolla olleita edullisempia Nvidia H800 -grafiikkapiirejä ja ohjelmoi niitä matalan tason PTX-kielellä puristaakseen niistä maksimaalisen suorituskyvyn. Samalla se sovelsi vahvistusoppimista vähentääkseen kallista ihmistyötä mallin koulutuksessa. Nämä innovaatiot haastavat perinteisen “brute force” -lähestymistavan, jossa ratkaisuina ovat olleet yhä suuremmat mallit ja enemmän laskentakapasiteettia.
DeepSeek on herättänyt laajempaa keskustelua tekoälyn avoimuudesta ja demokratisoitumisesta. Koska DeepSeek julkaisi mallinsa avoimena lähdekoodina, kuka tahansa tutkija, kehittäjä tai yritys voi hyödyntää huippuluokan tekoälyä ilman lisenssimaksuja. Tämä madaltaa merkittävästi kynnystä kehittää uusia tekoälysovelluksia ja innovaatioita – pienillä startup-yrityksillä ja akateemisilla tutkimusryhmillä on nyt pääsy samaan teknologiaan, joka aiemmin oli vain miljardiluokan toimijoiden ulottuvilla.
Asiantuntijoiden mukaan DeepSeekin avoimuus voi johtaa nopeampiin läpimurtoihin useilla aloilla: esimerkiksi tieteessä, terveydenhuollossa ja liike-elämässä, kun huippumallit ovat vapaasti hyödynnettävissä tutkimukseen ja tuotekehitykseen. DeepSeekin tehokkuuslähtöinen lähestymistapa haastaa myös oletuksen, että vain valtavilla laskentaklustereilla varustetut toimijat voivat rakentaa parhaita malleja.
Toisaalta rajaton avoimuus tuo mukanaan uudenlaisia riskejä. Koska DeepSeekin malli on kenen tahansa saatavilla, myös pahantahtoiset tahot voivat hyödyntää sitä väärin. Tämä on nostanut esiin huolia muun muassa disinformaation levittämisestä, deepfake-väärennöksistä ja tekoälyn käytöstä kyberrikollisuudessa.
Ilman keskitettyä valvontaa avoimen mallin leviäminen vaikeuttaa tekoälyn haitallisen käytön ehkäisyä. Juuri nämä seikat saivat useat hallitukset varpailleen ja pohtimaan kieltoja DeepSeekin suhteen, kuten edellä todettiin.
DeepSeekin tapaus onkin kiihdyttänyt kansainvälistä keskustelua siitä, kuinka avoimia tekoälymallien tulisi olla ja tarvitaanko tiukempaa sääntelyä väärinkäytösten estämiseksi. Yksi keskeinen kysymys kuuluu: voiko tekoäly olla yhtä aikaa laajasti saatavilla ja vastuullisesti hallittu, vai suljetaanko osa sen potentiaalista, jos käyttöön asetetaan tiukkoja rajoitteita?
Globaali tekoälykilpa on DeepSeekin myötä saanut uuden ulottuvuuden. Yhtiön menestystä on luonnehdittu tekoälyn “Sputnik-hetkeksi” – viittauksena siihen, kuinka Neuvostoliiton satelliitin laukaisu herätti aikoinaan Yhdysvallat avaruuskilpailuun. Samoin DeepSeek on havahduttanut länsimaat tunnustamaan, että merkittäviä innovaatioita voi nousta myös uusilta suunnilta.
Kiinan hallinto näkee DeepSeekin edesauttavan maan pyrkimyksiä vähentää riippuvuutta Yhdysvaltain teknologiasta ja kiihdyttää omaa tekoälykehitystään. Samaan aikaan Yhdysvalloissa tapaus lisää painetta pohtia, miten turvata oma johtoasema ja hallita avointen mallien leviämistä.
DeepSeekin vaikutukset eri aloilla alkavat vasta hahmottua, mutta suunta on selvä. Sen avoin malli antaa työkalun yrityksille ja yhteisöille kehittää ratkaisuja aina lääketieteellisestä diagnostiikasta asiakaspalveluchatteihin ja luovista sisällöntuotannon sovelluksista koodin automaattiseen tuottamiseen.
Samalla se pakottaa alan suuret toimijat arvioimaan strategioitaan uudelleen – vastauksena on nähty esimerkiksi perinteisten yhtiöiden pyrkimyksiä tehostaa omia mallejaan ja jopa harkita avointen julkaisujen lisäämistä.
DeepSeek on lyhyessä ajassa tuonut esiin keskeisen kysymyksen: muovaako tekoälyn tulevaisuutta vain harvojen suuryritysten suljettu kehitys vai laajempi, avoin innovaatioekosysteemi – valinta, joka ratkaisee kenellä on pääsy tekoälyyn ja miten se lopulta muokkaa yhteiskuntaa.