Doteraz dokonca Spoločnosti s umelou inteligenciou mali problém prísť s nástrojmi, ktoré dokážu spoľahlivo rozpoznať, kedy bol daný text generované pomocou veľkého jazykového modelu. Teraz skupina výskumníkov vytvorila novú metódu na odhadovanie využitia LLM v rámci veľkého súboru vedeckých textov meraním toho, ktoré „nadbytočné slová“ sa začali objavovať oveľa častejšie počas éry LLM (tj 2023 a 2024). Výsledky „naznačujú, že najmenej 10 percent abstraktov z roku 2024 bolo spracovaných pomocou LLM,“ uvádzajú vedci.
In predtlačový papier zverejnený začiatkom tohto mesiacaŠtyria vedci z nemeckej univerzity v Tübingene a Northwestern University uviedli, že sa inšpirovali štúdiami, ktoré merali vplyv pandémie Covid-19. pri pohľade na nadmerné úmrtia v porovnaní s nedávnou minulosťou. Podobným pohľadom na „nadmerné používanie slov“ po nástrojoch na písanie LLM sa stal široko dostupným koncom roka 2022vedci zistili, že „výskyt LLM viedol k náhlemu zvýšeniu frekvencie určitých štýlových slov“, ktoré bolo „bezprecedentné v kvalite aj kvantite“.
Ponoriť sa
Na meranie týchto zmien slovnej zásoby výskumníci analyzovali 14 miliónov abstraktov uverejnených na PubMed v rokoch 2010 až 2024 sledovaním relatívnej frekvencie každého slova, ako sa objavovalo v každom roku. Potom porovnali očakávanú frekvenciu týchto slov (na základe trendovej línie pred rokom 2023) so skutočnou frekvenciou týchto slov v abstraktoch z rokov 2023 a 2024, keď boli LLM rozšírené.
Výsledky našli množstvo slov, ktoré boli v týchto vedeckých abstraktoch pred rokom 2023 mimoriadne nezvyčajné a ktoré po zavedení LLM náhle vzrástli na popularite. Napríklad slovo „potápať sa“ sa v roku 2024 objavuje v 25-krát väčšom počte dokumentov, ako by očakával trend pred LLM; používanie slov ako „predvádzanie“ a „podčiarkovníky“ sa tiež zvýšilo deväťkrát. Ďalšie predtým bežné slová sa stali výrazne bežnejšími v abstraktoch po ukončení LLM: napríklad frekvencia „potenciálu“ sa zvýšila o 4,1 percentuálneho bodu, „nálezov“ o 2,7 percentuálneho bodu a „rozhodujúci“ o 2,6 percentuálneho bodu.
K takýmto zmenám v používaní slov môže dôjsť, samozrejme, nezávisle od používania LLM – prirodzený vývoj jazyka znamená, že slová niekedy zachádzajú a vychádzajú zo štýlu. Vedci však zistili, že v ére pred LLM boli takéto masívne a náhle medziročné nárasty zaznamenané iba pri slovách súvisiacich s významnými svetovými zdravotnými udalosťami: „ebola“ v roku 2015; „zika“ v roku 2017; a slová ako „koronavírus“, „uzamknutie“ a „pandémia“ v období rokov 2020 až 2022.
V období po LLM však výskumníci našli stovky slov s náhlym, výrazným nárastom vedeckého používania, ktoré nemali žiadnu spoločnú súvislosť so svetovými udalosťami. V skutočnosti, zatiaľ čo prebytočné slová počas pandémie Covid boli v drvivej väčšine podstatné mená, výskumníci zistili, že slová s nárastom frekvencie po LLM boli v drvivej väčšine „štýlové slová“, ako sú slovesá, prídavné mená a príslovky (malá vzorka: „napr. , komplexný, zásadný, zlepšujúci, vystavený, náhľady, najmä, najmä, v rámci“).
Toto nie je úplne nové zistenie – zvýšená prevalencia „potápania“ vo vedeckých prácach bol široko známy v nedávnej minulosti, napríklad. Predchádzajúce štúdie sa však vo všeobecnosti spoliehali na porovnania so vzorkami ľudského písania „základnej pravdy“ alebo zoznamami preddefinovaných markerov LLM získaných mimo štúdie. Súbor abstraktov spred roku 2023 tu funguje ako vlastná efektívna kontrolná skupina, ktorá ukazuje, ako sa celkovo zmenil výber slovnej zásoby v ére po LLM.
Zložitá súhra
Zvýraznením stoviek takzvaných „označovacích slov“, ktoré sa v ére po LLM stali výrazne bežnejšími, možno niekedy ľahko rozoznať náznaky používania LLM. Vezmime si tento príklad abstraktnej línie vyvolanej výskumníkmi so zvýraznenými značkami: „A obsiahly pochopenie spletitá súhra medzi (…) a (…) je kľúčový pre účinné terapeutické stratégie“.
Po vykonaní niektorých štatistických meraní vzhľadu značkového slova v jednotlivých dokumentoch výskumníci odhadujú, že najmenej 10 percent dokumentov po roku 2022 v korpuse PubMed bolo napísaných s aspoň nejakou pomocou LLM. Vedci tvrdia, že toto číslo by mohlo byť ešte vyššie, pretože v ich súbore môžu chýbať abstrakty podporované LLM, ktoré neobsahujú žiadne zo značkovacích slov, ktoré identifikovali.