Mistral, francúzsky startup AI podporovaný spoločnosťou Microsoft a údajne v hodnote 6 miliárd dolárov, má prepustený svoj prvý generatívny model AI pre kódovanie s názvom Codestral.
Codestral – ktorý je navrhnutý tak, aby pomáhal vývojárom písať a interagovať s kódom, podobne ako mnohé iné modely generujúce kód, bol vyškolený na súbore údajov viac ako 80 programovacích jazykov vrátane Pythonu, Java, C++ a JavaScript, vysvetľuje Mistral v príspevok v blogu. Codestral môže dokončiť funkcie kódovania, písať testy a „vypĺňať“ čiastočný kód, ako aj odpovedať na otázky o kódovej základni v angličtine.
Mistral opisuje model ako „otvorený“, ale to je na diskusiu. Licencia startupu zakazuje používanie Codestralu a jeho výstupov pre akýkoľvek komerčné aktivity. Existuje určitá rezerva pre „vývoj“, ale aj to je výrazne odmietnuté – licencia ďalej výslovne zakazuje „akékoľvek interné použitie zamestnancami v kontexte obchodných aktivít spoločnosti“.
Dôvodom môže byť, že Codestral bol čiastočne vyškolený na obsah chránený autorskými právami. Mistral v blogovom príspevku nepotvrdil ani nevyvrátil, ale nebolo by to prekvapujúce presne – je dôkazy že predchádzajúce množiny tréningových údajov startupu obsahovali údaje chránené autorskými právami.
Codestral v každom prípade nemusí stáť za problémy. Model s hmotnosťou 22 GB vyžaduje výkonný počítač, aby mohol fungovať. A to je sotva vpredu Meta’s Llama 3 model na populárnych testoch kódovania.
Aj keď je Codestral pre väčšinu vývojárov nepraktický a z hľadiska zlepšenia výkonu postupný, určite podnieti diskusiu o múdrosti spoliehať sa na modely generujúce kód ako na programovacích asistentov.
Vývojári využívajú generatívne nástroje AI pre aspoň niektoré úlohy kódovania. V pretečení zásobníka anketa od júna 2023 44 % vývojárov uviedlo, že nástroje AI používajú vo svojom procese vývoja už teraz, zatiaľ čo 26 % to plánuje čoskoro. Tieto nástroje však majú zjavné nedostatky.
Analýza viac ako 150 miliónov riadkov kódu zapojených do repozitárov projektov za posledných niekoľko rokov spoločnosťou GitClear zistila, že generatívne nástroje AI dev vedú k chybnejšiemu kódu tlačené do kódových základní. Na inom mieste bezpečnostní výskumníci varovali, že takéto nástroje môžu zosilniť existujúce chyby a bezpečnostné problémy v softvérových projektoch; viac ako polovica odpovedí ChatGPT od OpenAI dáva na programovanie otázky sú nesprávne, podľa štúdia z Purdue.
To nezabráni spoločnostiam ako Mistral a iným v tom, aby sa pokúsili speňažiť svoje modely – a získať s nimi zdieľanie názorov. Dnes ráno Mistral spustil hosťovanú verziu Codestral na svojej konverzačnej AI platforme Le Chat, ako aj na svojom platenom rozhraní API. Mistral hovorí, že sa tiež podarilo zabudovať Codestral do aplikačných rámcov a vývojových prostredí, ako sú LlamaIndex, LangChain, Continue.dev a Tabnine.