Kölcsönkérjük a természet tervrajzát
Éltető Noémi 2016. augusztus 19. 15:30, utolsó frissítés: 15:30Hogyan „tanulhat tanulni” a természetes intelligenciától a mesterséges intelligencia?
Az elmúlt évtizedek során a számítógépek minden elképzelést felülmúlva formálták át hétköznapjainkat és tettek szert „mesterséges intelligenciára”: képesek emberi beavatkozás nélkül válaszolni környezeti hatásokra; képesek egy természetes intelligenciával rendelkező élőlény egyes viselkedéseit utánozni; de képesek lehetnek akár a viselkedésüket célszerűen és megismételhető módon változtatni, azaz tanulni, fejlődni is. A tanulási stratégiáikat pedig részben tőlünk, a természetes intelligencia hordozóitól kapták. A fejlesztést ugyanis gyakran az inspirálja, hogy megfigyeljük, hogy az emberek hogyan oldanak meg egy problémát vagy hogyan tanulnak. Ha a stratégia számukra beválik, akkor bizonyára a gépek számára is használható. Így tulajdonképpen átadjuk saját elménk tervrajzát a gépeknek. Nem veszélyes ez? Hol vannak a határok? Rengeteg beszélgetés és sci-fi témája a technológiai szingularitás: túlhaladhatják-e az emberiséget fejlettségben az általunk létrehozott gépek?
Európa legnagyobb tudományos fórumán, a kétévente megrendezett Euroscience Open Forumon (ESOF) a világ vezető tudósai, politikusai, döntéshozói tárgyalják meg az ilyen jellegű kérdéseket. Ugyanakkor fiatal kutatók is eljuthatnak az ESOF-ra. Jómagam az ELTE Tehetséggondozási Tanácsa és a Euroscience jóvoltából létrejött Science Plane program keretében vehettem részt. Az ESOF-on olyan izgalmas témák kerülnek terítékre mint a robotok és emberek együttműködése, a mesterséges intelligencia kreativitása,és az, hogy vajon tudatára ébredhet-e egy mesterséges intelligencia. De mégis hogyan tanulnak a gépek? Miben hasonlítanak ránk, és miben nem?
A mesterséges intelligencia nem más, mint a gépek intelligens viselkedése. Akkor beszélünk mesterséges intelligenciáról, amikor egy gép az ember (vagy fejlett emlős) mentális működését tudja utánozni, vagyis „problémát old”, „tanul” és hasonlók. Néhány fontos szempontból nagy hátrányban vagyunk mi, a természetes intelligencia tulajdonosai a mesterséges intelligenciával működő rendszerekkel szemben. Ugyanis a mesterséges intelligenciát tudatosan tervezik, és a tervek – legyenek azok akár nagyon újszerűek –azonnal gyakorlatba ültethetőek, ha az anyagi feltételek megvannak hozzá. A természetes evolúció során nem történhetnek ilyen gyors, ugrásszerű innovációk.
Az IBM első személyi számítógépét 1981-ben dobták piacra. Ebben a gépben 5-10 MHz-es processzor működött, vagyis 5-10 millió alapműveletet volt képes elvégezni másodpercenként. Lenyűgöző. Ehhez képest azonban a laptop, amelyről ezt a szöveget írom, 2,6 GHz-es processzorral működik, tehát 2,6 milliárd (!) műveletet képes elvégezni egyetlen másodperc alatt. Körülbelül ezerszeres teljesítménynövekedés 35 év alatt! Mi a helyzet az idegrendszerünk sebességével? Az idegsejtjeim tipikus frekvenciája mindössze 1-5 Hz, hiszen minden kisülés után „meg kell pihenniük”, míg a kémiai egyensúlyuk visszaáll. A keletkezett elektromos potenciál vezetése is sokkal lassúbb az agyban, mint például egy fém vezetékben: a tipikus vezetési sebesség 1-2 méter másodpercenként. Noha sok milliárd idegsejtünk van, az idegsejtek működésmódja által vetett gátakon túl az agyunk nem gyorsítható.
Az, ahogyan az információ áramlik, még a sebességnél is fontosabb, a számítógépek és az agyunk szempontjából egyaránt. Az információáramlás módját az határozza meg, hogy vagyunk „bedrótozva”, milyen szerkezetű a processzorunk. A számítógépekhez sikerül egyre optimálisabb szerkezetű processzorokat tervezni, idegrendszerünk struktúráját azonban nem tudjuk átépíteni. Ezért a mesterséges intelligencia feldolgozási hatékonysága sokkal magasabb lehet, mint a természetesé. A számítógépek memóriája pedig szinte igény szerint bővíthető, így nagyságrendekkel nagyobb tárhelyet használhat, mint az ember. Arról nem is beszélve, hogy az emberi emléknyomok minél nagyobb igénybevételnek vannak kitéve, annál törékenyebbek – vagyis egy emléket minél többször hívunk elő, annál nagyobb mértékben fogjuk torzítani azt.
Mérnöknek sem kell hozzá lenni, hogy a fentiek alapján belássuk: lényeges hátránnyal indul az ember – vagy más élőlények – a mesterséges intelligenciához képest. Vannak versenyek, ahol vereséget szenvedünk: nem érdemes győzelemben reménykedni, ha a sakk vagy go-partin az ellenfeled mesterséges intelligenciát vet be. Olyan pályák is vannak, ahol többnyire döntetlenre állunk – ilyen a kézírás-olvasás.
A versenyek túlnyomó többségén azonban játszi könnyedséggel megverjük a gépeket – már ahol egyáltalán sikerült az adott feladatra mesterséges intelligenciát fejleszteni. Olyan hétköznapi feladatokra kell itt gondolni, amelyeket senki nem érez nagy erőfeszítésnek: felismerni a tárgyakat a minket körülvelő környezetben vagy megérteni a vicceket. Ezeket a feladatokat – noha rettentő bonyolultak – azért érezzük könnyűnek, mert az idegrendszerünk ezekre lett optimalizálva: nem mérnökök, hanem az evolúció által.
A tudósok arra gondoltak, hogy egyes esetekben az evolúció segíthet a mérnöki problémák megoldásában. Ha belegondolunk, a természetes evolúciót nem nehéz „lekoppintani”, hiszen a legfőbb összetevői mesterséges formában is létrehozhatóak. Szükség van egyedekre, amelyek képesek szaporodni, és saját „információ állományukról” egy másolatot átadni az utód(ok)nak. Szükség van mutációra, azaz arra, hogy az új egyedek információ állományában véletlenszerű változások következzenek be. És végül szükség van a kiválasztódásra, ami eldönti, mely egyedek tudják majd a legtöbb versenyképes utódot maguk után hagyni. Az evolúció lényege ilyen „egyszerű”, a benne résztvevő egyedek pedig lehetnek egysejtűek, emberek, de akár számítógépes programok is: miért is ne hozhatnánk tehát létre a „mesterséges evolúciót”?
A mesterséges evolúció azonban egy fontos szempontból eltér a természetes evolúciótól: ezt a folyamatot ugyanis az ember tervezi meg. Mégpedig úgy, hogy a jobb problémamegoldó programok kiválasztását preferálja. A természetes evolúcióban ezzel szemben nincs egy tudatos tervező, és egy egyed sikerességét nem csupán egy-két jól meghatározott külső feltétel dönti el. A mesterséges evolúció forradalmasította a mérnöki munkát, hiszen ma már olyan bonyolult rendszerek tervezését, mint az áramkörök és csőrendszerek, ilyen mesterséges evolúciós algoritmusokra bízzák.
Egyfajta evolúció a tanulás is, amikor a viselkedésünket a környezeti visszajelzések alapján módosítjuk. Ezt hívjuk megerősítéses tanulásnak: ha valamire jutalmat kapunk, akkor azt a viselkedést nagyobb eséllyel fogjuk megismételni a jövőben – vagyis az adott viselkedés „túlélési esélyei” nőnek. Miért történik ez? Azok az idegpályák, amelyek egy viselkedés során aktiválódnak, például amikor beleharapunk egy szendvicsbe, erősebb összeköttetésbe kerülnek az agy jutalmazó központjával, ha a viselkedés kellemes érzéssel jár. Ha ez gyakran megismétlődik, akkor egy idő után már nincs is szükség jutalomra, ugyanis az agy „előrevetíti” a jutalmazást, így a viselkedést vezérlő idegpálya automatikusan aktiválódik – azaz szinte automatikusan nyúlunk a szendvicsért és harapunk bele. De ugyanígy a rendszeres testedzésre vagy a fókuszált munkára is „rá tudjuk nevelni” az agyat, ezért olyan sikeres pedagógiai módszer. A megerősítéses tanulás nem csak a jó gyereknevelés titka: ezt szintén használhatjuk a „gépek tanítására”, a mesterséges intelligencia fejlesztésére is.
De hogyan lehet a „természetes minta” alapján „gondolkodásra tanítani” egy gépet? Szükség van hozzá egy mesterséges „ideghálózatra”, ahol az egymással erősebben vagy lazábban összekötött „idegsejtek” az alapegységek. Ezek egy dolgot tudnak: aktiválódnak vagy nem. Mit kell tenni, ha például egy ilyen szintről induló mesterséges intelligenciának szeretnénk megtanítani, hogy egy adott virágfajtát felismerjen? Először viszonyításként adni kell neki egy ingert (meg kell „mutatni” neki a virág képét) és kezdődhet a tanulás! Kezdetben a rendszer találgatni fog, ezért valószínűleg sokat téved. Minden tévedésért „büntetést” kap, ilyenkor csökkentjük azoknak az összeköttetéseknek az erejét, amelyek mentén a hibás válasz érkezett. A jó találatot viszont jutalmazzuk, az összekötetések erősítésével. Így a mesterséges „ideghálózat” elkezd tanulni, és a végén valószínűleg „föl tudja ismerni” az egyes virágfajtákat. Ez az úgynevezett gépi tanulás egyik típusa. Ezzel a természettől „lopott” mechanizmussal a mesterséges intelligencia megtanítható a kézírás olvasására, beszédfelismerésre, Tetrisezésre, pókerezésre, robotok esetében a fizikai akadályok kikerülésére. Sőt, ma már arra is tanítanak mesterséges intelligenciát, hogy röntgenkép alapján megállapítsa egy rákos daganat kialakulásának valószínűségét, vagy egy már kialakult daganat veszélyességét.
Az ember viszont nem csak megerősítés alapján tanul, hanem például statisztikai tanulással is: a környezet gyakori mintázatainak kiszűrésével. Így tanulunk meg például egy nyelvet, egy dallamot vagy egy táncot, akár csak figyelés útján, mindenféle irányítás vagy jutalmazás nélkül. Az olvasó már sejtheti, hogy a mesterséges intelligenciánál is használhatjuk a statisztikai tanulást: főleg olyankor, amikor magunk sem tudjuk, hogy milyen mintázatot keresünk egy adathalmazban. Ahogyan az idegen egy más nyelvet beszélő országban lassan kitapasztalja a nyelvtan szabályait, a mesterséges statisztikai tanulás is egy adathalmazból szűri ki lassanként a mintázatokat. Például, egy áruháznak rengeteg adata lehet arról, hogy a vásárlók miket szoktak vásárolni, és az ő érdekük, hogy az áruikat úgy helyezzék el, hogy a vásárlók könnyen megtalálják őket, és többet vásároljanak. Egy statisztikai tanulást alkalmazó mesterséges intelligencia megtanulhatja, hogy amikor a vásárló tojást vesz, akkor általában tejet is – ami értékes információ az áruház számára.
A statisztikai tanulás a látásban is nagyon fontos. A kisbabáknak semmilyen előzetes tudása nincsen arról, hogy mik azok a színfoltok, amelyek a szemük előtt vannak. Azonban nagyon hamar megtanulják azt, hogy a környezetben tárgyak vannak, mégpedig annak alapján, hogy ha egyes pontok mindig együtt mozognak, akkor azok biztosan ugyanannak a tárgynak a részei. Ezzel a mechanizmussal már a mesterséges intelligenciák is el tudják különíteni, hogy mi a háttér és mik a tárgyak.
Azonban nincsen még olyan mesterséges intelligencia, amely fel is ismerné a tárgyakat változatos és „zajos” környezetekben. Pedig a gépi látás idő- és térbeli felbontása sokkal jobb, mint az emberé. Az emberi látás időbeli felbontása alkalmas arra, hogy azonosítsunk és kövessünk viszonylag lassú mozgásokat, például egy lovat futás közben. De arra például már nem vagyunk képesek, hogy megállapítsuk, van-e olyan pillanat, amikor a ló egyik lába sem éri el a földet. Ezt a régi kérdést egy Eadweard Muybridge nevű fényképész fotója döntötte el a a tizenkilencedik század végén. Az emberi látást tehát a fotótechnika már nagyon korán megelőzte az időbeli felbontásban. A térbeli felbontás csak később fejlődött olyan szintre, hogy az emberivel vetekedjen. Egyes kamerák az emberi látáshoz hasonló mechanizmust alkalmaznak, hogy élesebb és gazdagabb képminőséget kapjanak. S hogy ez hogyan működik? A szemünk állandóan mikro-mozgásokat végez, és a másodperc nagyon kis töredéke alatt alkalmazkodik a környezet eltérő fényerősségeihez. Emiatt fizikailag soha nincsen álló kép előttünk. Mégis, ha nem végzünk nagy mozgásokat, akkor egy álló képet észlelünk. Ez azért van, mert az agyban egy képsor egyes képei egymásra helyeződnek, mégpedig jellegzetes pontok mentén illesztve. Amit észlelünk, az már az az illesztett és éles kép. Az iPhone-ok HDR kamera-funkciója hasonlóan működik: nagyon gyors egymásutánban készít képeket úgy, hogy közben változtatja az expozíciót (vagyis több-kevesebb fényt fogad), és végül ezeket a képeket egymásra illeszti, így egy magasabb képminőséget érve el.
A mai kamerák a felvételek minősége szempontjából rávernek az emberi vizuális rendszerre. Viszont nincsen még olyan mesterséges intelligencia, amely úgy „értené” a környezetét, mint mi. Mi ugyanis nem csak érzékeljük, hanem automatikusan értelmezzük is a környezetünket. Nem egy nagy piros foltot látunk felénk közeledni az úton, hanem azt automatikusan lefordítjuk azzá az információvá, hogy jön egy tűzoltó autó. És noha a tűzoltóautó egy más alakú és felületű tárgy, ha a másik oldalát nézzük, minden bizonnyal akkor is fel fogjuk ismerni. Ez nem azért könnyű számunkra, mert maga a probléma egyszerű, hanem azért, mert van egy nagyon fejlett „szuperfegyverünk”: egy vizuális reprezentációs rendszerünk. A vizuális reprezentáció egy olyan emléknyom, amelyben egy tárgy látható jellemzőit összekapcsoljuk. Ha elég tapasztalatunk gyűlik össze egy tárgyról, akkor a tárgy felismeréséhez elég lehet annyi is, ha csak egy kis sarkát látjuk meg, vagy csak a körvonalát a hajnali sötétben. Ez azért van, mert a tárgy jellemzőit – az alakja, a textúrája, a színe, stb. - egymással összekapcsolva kialakítunk az agyunkban a tárgyról egy képzetet, amit a tárgy hiányában is bármikor felidézhetünk. Sőt: akár fejben elforgathatjuk, „megnézegethetjük”, kiegészíthetjük. Például egy ajtó tipikus ábrázolása egy téglalap, rajta egy vonalkával (kilincs). Ha viszont egy tágra nyitott ajtó felé megyünk, akkor amit látunk, az inkább egy pálcika, hiszen nem szemből, hanem oldalból látjuk. A felismerés mégsem jelent problémát, hiszen a látott képet (ajtófélfa pálcikával) az ajtó fejünkben összerakott ábrázolása alapján azonnal tudjuk értelmezni.
Bár nekünk ez nem tűnik nehéznek, a környezet változatossága miatt a tárgyak felismerése egy nagyon is bonyolult feladat. Ezért nincs még olyan mesterséges intelligencia, amely e téren igazán jó teljesítményt nyújtana. Jó irány lehet olyan mesterséges intelligenciát fejleszteni, amely vizuális reprezentációkban dolgozza fel a „látottakat”, vagyis a szenzoros bemenetet. Viszont az, hogy a vizuális reprezentációk hogyan működnek az agyunkban, egyelőre korántsem annyira világos, mint például a megerősítéses tanulás. Azért nem, mert sokkal magasabb rendű folyamat. Nincsen ajtó-neuron. Egyelőre nem tudjuk, hogy a vizuális rendszerben hogyan kódolódik az ajtó mint képzet. Olyan kutatásokban próbálják meg ezt kideríteni, amelyekben az agyi látókéreg sok száz idegsejtjének aktivitását mérik egyszerre, hogy feltérképezzék ezeknek az idegsejteknek a hálózatát – hiszen „sejthetően” a magasrendű képzetek egyfajta aktivációs mintázatban rejlenek. Ha sikerül a természetes reprezentációk működését feltárni, akkor a mesterséges vizuális reprezentációk fejlesztése is nagy lendületet kap majd. Lehetővé válhat például az intelligens térfigyelő rendszerek kialakítása. Az MIT-n egy olyan mesterséges intelligenciát fejlesztenek, amely képeről feltett kérdésekre válaszol (ki lehet próbálni!). De a mesterséges látás azok életét változtathatja meg legjobban, akik látássérültek, hiszen például ez az app gyorsan megválaszol kérdéseket a környezetről feltett kérdésekre.
Az emberi intelligencia egyes összetevőit mindenhol megtalálhatjuk magunk körül, hiszen sok probléma megoldására ezeket használják a mesterséges intelligenciák. A keresőrobotok, a helyesírás-ellenőrzők, a beszédfelismerők mind „tőlünk csent” tanulási stratégiák által sikeresek, és ezért lehetnek nagy segítségünkre. Egyesek szerint nem csak segítséget, de veszélyforrást is jelentenek. A jelenlegi mesterséges intelligencia algoritmusok azonban még roppant távol állnak az emberi intelligenciától. Éppen azért, mert az egyes gépek külön-külön csak jól behatárolható területeken képesek elérni vagy fölülmúlni az emberi teljesítményt. Hiába tud megverni a Deep Blue számítógép sakkban, az intelligenciája semmit nem ér egyéb területeken. Egyelőre a gépek nem képesek arra, hogy a képességeiket más területeken is alkalmazzák, mint amire kifejlesztették őket. Az ember (és más fejlett állatok) rugalmas, különféle problémákhoz jól alkalmazkodó intelligenciája egyelőre páratlan a Földön, és még mindig rengeteg megértenivalót tartogat. Ha ennek a természetes intelligenciának a működését teljes mértékben megértettük, akkor azt mint tervrajzot használhatjuk arra, hogy a mesterséges intelligenciák bonyolultabb és változatosabb problémáinak megoldásában is a segítségükre lehessen.