Hogyan kaphatunk pontos válaszokat, amikor az AI-nek fotóink elemzését kérjük
Képzeljük el, hogy épp most készítettünk egy fotót egy furcsa műszerfaljelzésről az autónkban, vagy feltöltöttünk egy komplex grafikont egy munkahelyi prezentációhoz, csupán azért, hogy az AI biztosan mondjon valami teljesen helytelenet. Míg az AI rendkívül jó lett abban, hogy "látja" a fotóinkat, még mindig meglepően egyszerűen összezavarható, ha nem tesszük fel a kérdéseinket a megfelelő módon.
Annak megértése, hogy ezek a vizuális eszközök hogyan dolgozzák fel az információkat, segíthet abban, hogy elkerüljük a gyakori hibákat és minden alkalommal nagyon pontos eredményeket kapjunk.
Hogyan "lát" és gondolkodik az AI
Annak megértéséhez, hogy miért értelmezi félre az AI egy fotót, érdemes tudni, hogyan működik egy VLM (vision language model — egy olyan AI, amely egyszerre dolgozhat fel képeket és szöveget).
Amikor feltöltünk egy képet, az AI egy vizuális alapozás (a képben lévő spécifikus szavakhoz vagy területekhez való hozzárendelés képessége) néven ismert folyamatot használ. Próbálja a felismert vizuális alakzatokat a szókincséhez rendelni.
Ugyanakkor a modern modellek többsége megerősítési tanulás (egy olyan tanulási módszer, amelyben az AI jutalmat kap, ha hasznosnak tűnő válaszokat ad, hasonlóan ahhoz, ahogyan egy kutyát jutalmazunk, ha leül) segítségével kerülnek tanításra. Bár ez teszi az AI-t rendkívül udvariasnak és nagyszerűvé a magyarázatokban, néha fontosabbnak tartja a meggyőző, hasznosnak tűnő szöveges válasz generálását, mint a fotón lévő valós vizuális tények ellenőrzését.
A "javaslat" csapdája
Az egyik legnagyobb akadály a látásra képes AI-nak az, hogy rendkívül érzékeny a javaslatokra.
Ha feltöltünk egy elmosott növény fotóját és megkérdezzük, "Ez egy ritka békélliliom?", az AI megnézi a promptot (az írott utasítást, amelyet az AI-nak adunk) és érzi, hogy egyet kell értenie velünk. Ez hallucináció (amikor az AI biztosan kitalál tényeket, amelyek valójában nincsenek jelen a valóságban) kiváltásához vezethet.
Mivel az AI megpróbálja felépíteni egy logikus gondolatláncot (a lépésről lépésre történő logikai folyamatot, amely az AI azért, hogy eljusson egy válaszig), egy félrevezető utalás a kérdésünkben képes lerontani az egész logikáját. Elkezdi keresni a nyomokat, hogy bebizonyítsa a feltételezésünket, ahelyett, hogy objektiv módon vizsgálná a képet.
Három lépés a jobb képpromptokhoz
Hogy a legpontosabb elemzést kaphassuk a kedvenc AI segítőnktől, próbáljuk ki ezeket a három egyszerű szokást:
- Tartsuk az első kérdéseinket semlegesnek: Ahelyett, hogy megkérdeznénk, "Miért hal el ez a növény?", kérdezzük meg, "Írja le ennek a növénynek az egészségi állapotát, csupán a fotón látható alapján."
- Kérjük meg, hogy keressen bizonyítékot először: Utasítsuk az AI-t, hogy írja le a kép kulcsfontosságú vizuális elemeit mielőtt egy végső következtetést adna. Ez kényszeríti a szoftvert, hogy a szavait a valós vizuális részletekhez rögzítse.
- Kérdőjelezzük meg a bizalmát: Ha gyanítjuk, hogy egy válasz helytelen, kérdezzük meg, "Mik azon három más dolog, amelyek lehetnek, és miért?" Ezzel késztetjük az AI-t, hogy újra vizsgálja a képet különböző szögekből.
Mit jelent ez nekünk
- A mindennapi életben: Amikor az AI-t használjuk háztartási tárgyak, kerti kártevők vagy furcsa alapanyagok azonosítására, kerüljük el
