Universalioji gramatika. 2 dalis

Antroji dalis. Tikiuosi, kad kai kurie praeitoje dalyje link pabaigos miglotai pridėstyti dalykai dabar taps aiškesni. Ir turbūt, kai bus visos trys-ar-kiek-ten-jų dalys, tai reikės išdistiliuoti esmę ir žymiai sutrumpinti. Dabar čia tik tokia eksperimentinė impromptu rašliava.

Šis įrašas dar nėra redaguotas, tačiau pirmąją ir antrąją šio įrašo dalis ketinama sujungti ir perpublikuoti naujai. Plačiau apie tai čia.

Analizės lygmenys

Kadangi labai galimas daiktas, kad skaitys ne tik šimtaprocentiniai lingvistai, pradėsiu nuo tokio patikslinimo.

Praeitoje dalyje į kalbą siūliau laikinai pažiūrėti pro tokius “akinius”, kur visas prasmių pasaulis ir kiti subtilūs jos reiškiniai tampa nematomi, o išryškėja viena tokia grubi ir besielė jos pusė, žinoma kaip gramatiškumas.

Yra žodžiai. Iš jų dėliojasi sekos. Kai kurios iš jų yra įmanomi sakiniai (gramatiškos sekos), kai kurios yra viso labo žodžių mišrainės (negramatiškos sekos). Tai buvo sintaksinis lygmuo:

{the, old, man, men, play, plays} → {the man plays, the old man plays, old men play, the old men play, the old man plays the old man, the old man plays the old man [that] the old man plays, …} + {the man play, the men plays, man play, old the play, plays plays old, …}

Dabar šiek tiek pakomplikuosiu situaciją, kad galėčiau įnešti žymiai daugiau pavyzdžių.

Morfologinis lygmuo. Konstruojame ne sakinius (ir non-sakinius) iš žodžių, bet žodžius (ir non-žodžius) iš morfemų, t.y. reikšminių žodžių dalių (šaknų, priesagų, priešdėlių ir panašiai):

{nam, as, el, is} → {nam-as, nam-el-is} + {nam-el, nam-is, nam-el-as, nam-nam, …}

Fonologinis lygmuo. Konstruojame vėlgi žodžius (ir non-žodžius), tik šįkart iš atskirų garsų/raidžių:

{s, t, r, a} → {tars, ars, art, rast, sart, tras, atras, satras, statras, …} + {st, rtras, tarrra, satststa, …}

Fonotaktika

Šitas paskutinis pavyzdys yra kiek kitoks. Aš žaliai nuspalvinau ir saujelę žodžių, kurie nėra žodžiai, bent jau lietuviški. Kita vertus, jie yra puikūs kandidatai tapti žodžiais, skirtingai nei raudonieji.

Sakoma, kad šie paskutiniai žalieji žodžiai (ir pseudožodžiai) atitinka kalbos fonotaktiką. Kalbos turi skirtingas fonotaktikas; čia pasirinktas lietuviškas pavyzdys.

Gali būti patrauklu manyti, kad nefonotaktiški žodžiai yra (visada) tiesiog kažkaip fiziologiškai nepatogūs ir “neištariami”, tačiau dar pasikartosiu, kad kas yra fonotaktiška vienoje kalboje, gali būti “uždrausta” kitoje.

Subreguliarioji hierarchija

Dabar pamėginkime įsivaizduoti įvairias fonotaktikas – įvairius padalijimus tarp leidžiamų ir uždraustų garsų sekų.

Visą debesį skirtingų fonotaktikų.

Susidursime su tokiu įdomiu reikalu, kad fonotaktikos yra, tam tikra prasme, nevienodai sudėtingos.

Kai kurių kalbų fonotaktikas galima redukuoti iki baigtinio sąrašo, kokie gretimų garsų susidūrimai neįmanomi. Kai kurių – neįmanoma.

Tarkime, lietuvių kalboje draustume tio, tiu, tiū, dio, diu, diū. (Brolis, brolio, broliui; medis, medio, mediui… taip?) Na, bent jau tam tikru kalbos gyvavimo laikotarpiu jie iš tiesų nepasitaikydavo, ir jei užeidavo koks skolinys, skambėdavo labai nenatūraliai. Bet dabar yra visokie tiūbingenai, butiokai ir kitkas. Kartais praktinis poreikis įsileisti skolinius nugali fonotaktikos draudimus, ir tolimesnė karta jų jau neįsisavina.

Na, bent jau galime būti tikri dėl kokių ds, bs, gs ir panašiai. Jie yra draudžiami. Žinoma, rašomi, tačiau tariant draudimas patenkinamas ir būna ts, ps, ks.

Tad lietuvių kalbos fonotaktika, turbūt galiausiai pasirodytų, yra “strictly local”, kaip kad jos yra vadinamos. Draudžiamų gretimų garsų susidūrimų sąrašas (baigtinis), iš kurio pilnai išplaukia visų fonotaktiškai draudžiamų non-žodžių sąrašas (begalinis).

Fonotaktiką, kuri bus nelokali, pavyzdžiui, rasime suomių ar turkų kalboje, kur yra balsių harmonija.

O šiaip fonotaktikos, bendrai paėmus, tolyn nelabai sudėtingėja.

Suomių ir turkų yra “tier-based strictly local”, kurios veikia visai kaip tiesiog “strictly local”, bet žiūrima tik į balsius, ar į kokį kitokį garsų poaibį. Žodžiu, paimame žodį, nurašome jo balsius į tokį naują keistą iš balsių sudarytą “žodį”, ir jam pritaikome tradicinę “strictly local” fonotaktiką.

Išmokstamumo savybės

Bet labai daug fonotaktikų, kurias galėtume išsigalvoti, mes nerasime.

Niekur nėra taip, kad kažkaip suderintas turėtų būti antras ir priešpaskutinis garsas, niekur nėra taip, kad griežtai kas trečias garsas turėtų būti balsis, ir panašiai.

(Plačiau, jei sudomino, pas šitą šviesų žmogų.)

Ir tai, kad fonotaktikos sukrenta į tokias grupes, kurių loginio kaprizingumo laipsnis ribotas, yra svarbu.

Praeitą kartą minėjau, kad reguliariosios žodžių sekų aibės (= iš finite-state modelių) yra daugmaž automatiškai išmokstamos su tam tikrais algoritmais.

Žinoma, tai neprivalo būti žodžių sekos, gali būti garsų sekos, ir tada jau kalbėsime apie fonotaktiką.

Na, bet išmokstama ten tik taip labai daugmaž. Kita vertus, tier-based strictly local fonotaktikos išmokstamos puikiai.

Kas iš to? Tai, kad kažką gali ar negali išmokti algoritmas, kaip ir neturi daug ko bendra su tuo, ką gali ar negali išmokti žmogus. Na, bent iš konservatyvokų įsitikinimų perspektyvos.

Tačiau tai jau nuteikia drąsiau; nuteikia, kad turime veikiantį modelį, kaip gali būti išmokstamos žmogiškos fonotaktikos.

Turingo mašinos

Sakinių (iš žodžių) “taktikos” sudėtingesnės nei fonotaktikos. Žymiai.

Tačiau pasižiūrėkime taip: fonotaktikų srityje yra labai stiprių universalijų. Fonotaktikos nėra visiškai elementarios, tačiau pasistengus atrandama riba, virš kurios jos jau nebesikaprizija. Ir visa tai apimama į griežtą, formalų modelį.

Sintaksinio gramatiškumo, arba sakinių “taktikų” srityje mūsų traukinukas sustoja ne tier-based strictly local stotelėje, bet context-free.

Kažkur toli nuo jos, tolyn, yra Turing-complete stotelė. Tai – galinė stotelė. Yra tikima, kad bet kokiais dėsningumais grįstos “taktikos”, t.y. draudžiamų sekų atribojimai nuo leidžiamų yra būtinai Turing-complete.

Kaip kad anąkart rodžiau tuos finite-state modelius, taip Turing-complete “taktikoms” yra Turingo mašinos.

Ir yra manoma, kad Turingo mašinos yra aukščiausias įmanomas algoritminės sofistikacijos laipsnis. Nesugalvota jokių “galvosūkių”, jokių dėsningumų, kurie būtų išsprendžiami kažkokiu mašinišku būdu, tačiau neišsprendžiami Turingo mašina.

Beje, šiandienos kompiuteriai yra Turingo mašinos su ribota atmintimi.

Jei dirbtinis intelektas įmanomas (tyčia palikta miglota formuluotė), tai jį įmanoma įgyvendinti su Turingo mašina.

Bekontekstės gramatikos

Na, o sintaksė sustoja tarpinėje stotelėje. Jei kada braižėte sintaksės medžius, tai va, context-free yra tos “taktikos”, kurių absoliučiai visoms leistinoms sekoms (jų be galo) galima nubraižyti po medį, ir visa tai padaryti pasitelkiant tik baigtinį šakojimo taisyklių rinkinį. Tokių taisyklių, kaip S → NP VP.

Tokia yra ta universalija.

Ji, tiesa, yra paneigta, bet ne tame esmė, nes vietoje context-free iškart sugalvota kiek platesnė mildly context-sensitive klasė, tik ją apibūdinti ne taip paprasta. Pakeitus porą žodžių universalija lieka galioti, nes mildly context-sensitive dar anaiptol nėra Turing-complete.

Paskelbta 2018-01-14