Zakladatelia spoločnosti Reworkd sa minulý rok stali virálnymi na GitHub s AgentGPT, bezplatným nástrojom na vytváranie agentov AI, ktorí za týždeň získali viac ako 100 000 denných používateľov. To im vynieslo miesto v kohorte Y Combinator v lete 2023, ale spoluzakladatelia si rýchlo uvedomili, že budovanie všeobecných agentov AI je príliš široké. Takže teraz je spoločnosť Reworkd web scraping spoločnosť, ktorá konkrétne vytvára agentov AI na extrahovanie štruktúrovaných údajov z verejného webu.
AgentGPT poskytoval jednoduché rozhranie v prehliadači, v ktorom mohli používatelia vytvárať autonómnych agentov AI. Čoskoro všetci bláznili o tom, ako sú agenti budúcnosťou výpočtovej techniky.
Keď sa nástroj rozbehol, Asim Shrestha, Adam Watkins a Srijan Subedi stále žili v Kanade a Reworkd neexistoval. Masívny prílev používateľov ich zaskočil; Subedi, teraz COO spoločnosti Reworkd, uviedol, že tento nástroj ich stojí 2 000 dolárov denne vo volaniach API. Z tohto dôvodu museli vytvoriť Reworkd a rýchlo získať financie. Jedným z najpopulárnejších prípadov použitia pre AgentGPT bolo vytváranie webových škrabiek, relatívne jednoduchá, ale objemná úloha, takže Reworkd sa na to zameral.
Webové škrabky sa v ére AI stali neoceniteľnými. Podľa Bright Data je hlavným dôvodom, prečo organizácie v roku 2024 využívajú verejné webové údaje, vytváranie modelov AI. najnovšia správa. Problém je v tom, že webové škrabky sú tradične postavené ľuďmi a musia byť prispôsobené pre konkrétne webové stránky, čo ich robí drahými. Ale agenti AI spoločnosti Reworkd dokážu zoškrabať väčšiu časť webu s menším počtom ľudí v slučke.
Zákazníci môžu spoločnosti Reworkd poskytnúť zoznam stoviek alebo dokonca tisícok webových stránok na zoškrabanie a potom špecifikovať typy údajov, o ktoré majú záujem. Potom agenti AI spoločnosti Reworkd použijú generovanie multimodálneho kódu na premenu týchto údajov na štruktúrované údaje. Agenti generujú jedinečný kód na zoškrabanie každej webovej stránky a extrahujú tieto údaje pre zákazníkov, aby ich mohli použiť podľa vlastného uváženia.
Povedzme napríklad, že chcete štatistiky o každom hráčovi NFL, ale webová stránka každého tímu má iné rozloženie. Namiesto vytvárania škrabáka pre každú webovú stránku to za vás urobia agenti Reworkd, ktorí dostanú len odkazy a popis údajov, ktoré chcete extrahovať. S 32 tímami by vám to mohlo ušetriť hodiny – ale ak by tam bolo 1 000 tímov, mohli by ste ušetriť týždne.
Spoločnosť Reworkd získala nové počiatočné financovanie vo výške 2,75 milióna dolárov od Paula Grahama, AI Granta (spúšťací akcelerátor Nata Friedmana a Daniela Grossa), SV Angel, General Catalyst a Panache Ventures, okrem iného, startup exkluzívne uviedol pre TechCrunch. V kombinácii s predbežnou investíciou 1,25 milióna dolárov v minulom roku od spoločností Panache Ventures a Y Combinator to zvyšuje celkové financovanie spoločnosti Reworkd k dnešnému dňu na 4 milióny dolárov.
AI, ktorá môže používať internet
Krátko po vytvorení Reworkd a presťahovaní sa do San Francisca tím najal Rohana Pandeyho ako zakladajúceho výskumného inžiniera. V súčasnosti žije v AGI House SF, jednom z najpopulárnejších hackerských domov v Bay Area pre éru AI. Jeden investor opísal Pandey ako „výskumné laboratórium jednej osoby v rámci Reworkd“.
„Sami seba vnímame ako vyvrcholenie tohto 30-ročného sna o sémantickom webe,“ povedal Pandey v rozhovore pre TechCrunch s odkazom na víziu vynálezcu world wide webu Tima Bernersa-Leeho, v ktorej počítače dokážu čítať celý internet. „Aj keď niektoré webové stránky nemajú značkovanie, LLM dokážu porozumieť webovým stránkam rovnakým spôsobom ako ľudia, a to tak, že ako API môžeme odhaliť v podstate akúkoľvek webovú stránku. Takže v určitom zmysle je Reworkd ako univerzálna vrstva API pre internet.
Spoločnosť Reworkd tvrdí, že dokáže zachytiť najhlbšiu časť potrieb zákazníckych údajov, čo znamená, že jej agenti AI sú špecificky dobrí na zoškrabovanie tisícok menších verejných webových stránok, ktoré veľkí konkurenti často preskakujú. Iné, ako napríklad Bright Data, už majú škrabky pre veľké webové stránky, ako sú LinkedIn alebo Amazon, zabudované, ale človeku nemusí stáť za námahu vytvoriť škrabku pre každú malú webovú stránku. Reworkd rieši tento problém, ale potenciálne vyvoláva ďalšie.
Čo presne sú „verejné“ webové údaje?
Hoci webové škrabky existujú už desaťročia, v ére AI priťahujú kontroverziu. Prinieslo nespútané zoškrabovanie obrovských množstiev údajov OpenAI a Zmätenosť do právnych problémov: Spravodajské a mediálne organizácie tvrdia, že spoločnosti s umelou inteligenciou vyťažili duševné vlastníctvo spoza platenej steny a vo veľkej miere ho reprodukovali bez platenia. Spoločnosť Reworkd prijíma preventívne opatrenia, aby sa týmto problémom vyhla.
„Pozeráme sa na to ako na zlepšenie dostupnosti verejne dostupných informácií,“ povedal Shrestha, spoluzakladateľ a generálny riaditeľ spoločnosti Reworkd, v rozhovore pre TechCrunch. „Povoľujeme len informácie, ktoré sú verejne dostupné; neprechádzame cez prihlasovacie steny ani nič podobné.“
Aby sme išli ešte o krok ďalej, Reworkd hovorí, že sa úplne vyhýba škrabaniu správ a je selektívny, s kým spolupracujú. Watkins, technický riaditeľ spoločnosti, hovorí, že inde existujú lepšie nástroje na agregáciu spravodajského obsahu a nie je to ich zameranie.
Ako príklad toho, čo je, Reworkd opísal svoju prácu so spoločnosťou Axis, ktorá pomáha tímom pre politiku dodržiavať vládne nariadenia. Axis používa AI spoločnosti Reworkd na extrakciu údajov z tisícok dokumentov vládnych nariadení pre mnohé krajiny v celej Európskej únii. Axis potom na základe týchto údajov trénuje a dolaďuje model AI a ponúka ho klientom ako produkt.
Podľa Aarona Fiskeho, partnera právnickej firmy Gunderson Dettmer so sídlom v Silicon-Valley, by sa založenie spoločnosti zaoberajúcej sa škrabaním webov v týchto dňoch dalo považovať za brodenie sa do nebezpečného územia. Krajina je momentálne trochu premenlivá a porota stále nevie, aké „verejné“ webové údaje sú v skutočnosti pre modely AI. Fiske však tvrdí, že prístup spoločnosti Reworkd, kde sa zákazníci rozhodujú, aké webové stránky zoškrabú, ich môže izolovať od právnej zodpovednosti.
„Je to, ako keby vynašli kopírovací stroj, a je tu jeden prípad použitia na vytváranie kópií, ktorý sa ukázal ako mimoriadne ekonomicky hodnotný, ale aj právne, skutočne sporný,“ povedal Fiske v rozhovore pre TechCrunch. „Nie je to tak, že webové škrabky, ktoré obsluhujú spoločnosti AI, sú nevyhnutne riskantné, ale práca so spoločnosťami AI, ktoré majú skutočný záujem o získavanie obsahu chráneného autorskými právami, môže byť problém.“
Preto si Reworkd dáva pozor na to, s kým pracuje. Webové škrabky doteraz zatemnili veľkú časť viny v potenciálnych prípadoch porušenia autorských práv súvisiacich s AI. V prípade OpenAI Fiske poukazuje na to, že The New York Times nezažaloval webový škrabák, ktorý zbieral jeho články, ale skôr spoločnosť, ktorá údajne reprodukovala jeho prácu. Ale aj tam sa ešte musí rozhodnúť, či to, čo OpenAI urobil, bolo skutočne porušením autorských práv.
Existuje viac dôkazov o tom, že webové škrabky sú počas boomu AI legálne jasné. Nedávno súd rozhodol v prospech Bright Data po tom, čo zoškrabala cez web profily na Facebooku a Instagrame. Jedným príkladom v súdnom prípade bol súbor údajov 615 miliónov záznamov používateľských údajov Instagramu, ktoré spoločnosť Bright Data predáva za 860 000 dolárov. Meta zažalovala spoločnosť a tvrdila, že tým porušila jej podmienky služby. Ale súd rozhodol, že tieto údaje sú verejné, a preto je možné ich zoškrabať.
Investori si myslia, že Reworkd sa radí medzi veľkých ľudí
Reworkd prilákal veľké mená ako prvých investorov, od Y Combinator a Paul Graham až po Daniela Grossa a Nata Friedmana. Niektorí investori tvrdia, že je to preto, že technológia spoločnosti Reworkd sa popri nových modeloch zlepšuje a zlacňuje. Startup tvrdí, že GPT-4o od OpenAI je v súčasnosti najlepší na generovanie multimodálneho kódu a že veľa technológií Reworkd nebolo možné ešte pred niekoľkými mesiacmi.
„Ak sa pokúsite konkurovať rýchlosti technologického pokroku – nie stavať na ňom – potom si myslím, že ako zakladateľ to budete mať ťažké,“ povedal Viet Le z General Catalyst pre TechCrunch. „Reworkd má zmýšľanie, že svoje riešenie zakladá na rýchlosti pokroku.“
Reworkd vytvára agentov AI, ktorí riešia konkrétnu medzeru na trhu; spoločnosti potrebujú viac údajov, pretože AI rýchlo napreduje. Keďže stále viac spoločností vytvára vlastné modely AI špecifické pre ich podnikanie, Reworkd bude môcť získať viac zákazníkov. Doladenie modelov si vyžaduje kvalitu, štruktúrované dáta a ich množstvo.
Reworkd hovorí, že jeho prístup je „samoliečivý“, čo znamená, že jeho webové škrabky sa nepokazia kvôli aktualizácii webovej stránky. Startup tvrdí, že sa vyhýba problémom s halucináciami, ktoré sa tradične spájajú s modelmi AI, pretože agenti Reworkdu generujú kód na zoškrabanie webovej stránky. Je možné, že AI urobí chybu a získa nesprávne údaje z webovej stránky, ale tím spoločnosti Reworkd vytvoril Banana-lyzéropen source hodnotiaci rámec, na pravidelné hodnotenie jeho presnosti.
Reworkd nemá veľkú výplatnú pásku – tím tvoria iba štyria ľudia – ale musí znášať značné náklady na riadenie svojich agentov AI. Startup očakáva, že jeho ceny budú čoraz konkurencieschopnejšie, keďže tieto náklady majú klesajúci trend. OpenAI práve vydala GPT-4o mini, menšia verzia svojho špičkového modelu s konkurenčnými benchmarkmi. Inovácie ako tieto by mohli urobiť Reworkd konkurencieschopnejším.
Paul Graham a AI Grant nereagovali na žiadosť TechCrunch o komentár.