Sigurno znate onu staru izreku da "čovjeku s čekićem u ruci svaki problem izgleda kao čavao"?! Ne čini li vas se ponekad da je to sada slučaj sa svim tim vrlim AI rješenjima? Možda ponekad treba uzeti i drugi alat iz kutije koji će bolje riješiti vaš problem?
Lokalna samouprava je obavezna jednom godišnje objaviti izvješće o tržištu nekretnina. Iako već odavno postoje naputci da bi podatke trebalo objavljivati u strojno obradivim formatima to malo tko poštuje, a neki smatraju da je PDF strojno obradivi format. Da, računala ga mogu obraditi, ali pitanje je hoće li potpuno i sigurno odvojiti podatke? Zanemarimo sad one koji slikaju ispisane dokumente i podatke objavljuju kao sliku.
Izvješće Grada Velike Gorice je objavljeno u PDF dokumentu od 76 stranica s cijelim nizom podataka u tablicama. Udario sam AI čekićem po njima tražeći od agenata da mi izvuku sve podatke iz tablica u JSON strukturu. Nijedan agent od kojeg sam to tražio nije izvršio zadatak. Prepoznali su dio podataka, ali nijedan agent nije obradio više od par tablica.
Netko tko ne ispušta AI čekić iz ruke će reći da ne znam napisati naputak za agenta, da njihov agent to može i tko mi je kriv što koristim nesposobnog agenta. Ja sam ipak odlučio da zavirim u kutiju s alatima i odaberem neki drugi alat.
Python ima cijeli niz paketa za rješavanje različitih problema, naročito su zanimljivi oni koji u podnaslovu imaju "for Humans" jer vas u pravilu riješe nekih tehničkih gnjavatorskih detalja pa se možete usredotočiti na problem. U spomenutom slučaju rješenje se zove Camelot: PDF Table Extraction for Humans. Skripta od par redova koda uspješno je izvukla podatke iz svih tablica.
Kad se čavao počne savijati, možda je vrijeme da odložite AI čekić — prije nego vam ostali alati zahrđaju.

PHOTO: