Bolyai Kollégium

Prószéky Gábor előadása (2018-02-22)

A számítógépes szövegértés felé – néhány meglepetéssel

Az írott szövegek megértésére irányuló gépi megoldásoknak minden olyan nyelvi szerkezetre fel kell készülniük, melyeket ember egy adott nyelven leírhat(ott). Mivel ezek olykor eltérnek a normától, azaz nem mindig jól formáltak, az ideális beszélő készségeinek leírását célzó generatív grammatikai modellek sokszor nem adnak elég támpontot a szövegek gépi elemzéséhez. A gépi értelmezésnek tehát fel kell tudnia használni a jelentést, sőt a világnak valamilyen egyszerű szintű ismeretét is, hogy hatékony és az aktuális kommunikációs helyzetnek megfelelő elemzést tudjon adni. Ehhez szükség lenne az ember által ismert jelentésbeli és világismereti információkra, ám ilyen tudásbázisok nemcsak a magyar nyelvhez, de még a jobban feldolgozott nyelvekhez sem állnak rendelkezésre. Az utóbbi években azonban a gépi tanulás újonnan megjelent módszerei, különösen a vektoros reprezentációk felhasználásával segíteni lehet ezen a hiányon. Az előadásban végig követhetjük, ahogy a nagyméretű szövegkorpuszok először annotálatlanul, aztán néhány nyelvtechnológiai eszközzel megelemezve milyen módon tudnak hozzájárulni ennek a hiánynak a csökkentéséhez, azaz ahhoz, hogy a gép „fejében” a szöveg olvasásakor hasonló asszociációk jelenhessenek meg, mint az emberében.

Vissza az előadásokhoz