11 févr. 2011

Pri komputika lingvistiko

Ekzistas mistera manuskripto kies enhavojn ĝis nun neniu kapablis malĉifri. Ĝi nomiĝas la manuskripto Voynich. Mi legis pri ĝi kelktempe antaŭ sed pli lastatempe kiam mi serĉis por artikolo rilata al mia laboro mi hazarde trovis tiun alian artikolon (ĝi estas senpage elŝutebla) kiu priskribas kiel oni uzas iujn fizikrilatajn matematikajn metodojn (nome hazardpaŝa evoluo - en. random walk) por studi la manuskripton Voynich kaj kompari ĝin kun tekstoj de aliaj lingvoj. Tiaj studoj de iu teksto aŭ tekstaro de iu lingvo apartenas al komputika lingvistiko.

Feliĉe pri la manuskripto Voynich en Vikipedio ekzistas sufiĉe bona esperantlingva artikolo. Mi ne deziras ripeti ĝian enhavon. Ĉi tie mi mencias kelkajn aferojn pri tiu ĉi manuskripto. Datumi per la radioaktiva izotopo karbono-14 estas montrinta, ke la folioj de la manuskripto estas faritaj inter 1404 kaj 1438 p.k. Alia studo estas elmontrinta, ke inko estas uzita sur la paperoj ne longtempe post tiu tempo. Tiel oni estas certa, ke la manuskripto vere estas skribita dum la mezepoko. Malgraŭ tio ĉio, oni ankoraŭ ne scias pri skribinto (aŭ skribintoj), lingvo kaj temo (aŭ temoj) de la manuskripto. Por mi estis interesa lerni, ke kiel komputika lingvistiko (kiu estas forte ligita al la informadika scienco) helpas kompari la tekston de la manuskripto Voynich kun tiuj de ordinaraj lingvoj. Tiu branĉo de la lingvistiko komenciĝas per simplaj statistikoj pri lingvo. Ekzemplo estas ofto de literoj en tekstoj en iu lingvo. La plej oftaj literoj de la anglaj tekstoj estas “etaoin shrdlu“ kun oftecoj inter (13% por la litero e ĝis 2.76% por la litero u). Feliĉe ofteco de literoj en Esperanto ankaŭ estas menciita en Vikipedio. Ĝi estas “aieon lsrtk“. Ankaŭ eblas trovi ofton de literparoj de iu lingvo aŭ ofton de vortoj (tamen mi ne trovis tiajn statistikojn pri Esperanto).

Post simplaj statistikaj studoj mian atenton precipe kaptis la nocio de entropio por iu lingvo. En fiziko la nocio entropio aludas al grado de malordo kiu estas inter komponantoj de iu sistemo. Tiel ekzemple kristalo en kiu atomoj estas situaciitaj en orda latiso havas pli malgrandan entropion kompare al gaso en kiu loko de molekuloj (en ĉiu donita momento) estas senorda. La nocio entropio ankaŭ estas indiko pri kvanto da informo kiun oni povas atingi rilate al iu sistemo. Ekzemple pri iu kristalo sufiĉas scii lokon de unu aŭ tre malgranda nombro de atomoj por diveni lokojn de aliaj atomoj. En gaso eĉ sciante lokojn de multaj atomoj aŭ molekuloj ankoraŭ ne eblas precize konkludi lokojn de aliaj atomoj. Tiu koncepto ankaŭ eniras la informadikon kaj lingvistikon. En iu lingvo literoj ne povas situacii tute hazarde. Gramatikaj kaj aliaj reguloj de lingvo diktas, ke kiuj ordoj de literoj estas permesataj. Imagu lingvon en kiu ĉenoj de nur unu litero (ekzemple ’a’) estas permesataj. Kompreneble oni povas facile antaŭdiri la venontan literon en tiu lingvo (ĝi estas ’a’). Entropio de tiu imagita lingvo estas nul (0). Kompreneble pere de tiu lingvo ne eblas komuniki multajn informojn. Nun imagu lingvon en kiu ĉenoj formitaj de ĉiaj kombinaĵoj de literoj estas permesataj. En tiu lingvo oni ne povas diveni kaŝitan literon eĉ sciante ĉiujn aliaj literojn de vortoj en iu frazo. Tia lingvo havas maksimuman entropion. Kompreneble tiuj du ekstremaj ekzemploj ne estas uzeblaj lingvoj. La nombro de permesataj ĉenoj da literoj (kiuj formas sencohavajn vortojn) en veraj lingvoj estas limigita. Tial eblas ekzemple diveni kaj kompreni enhavojn de komunikaĵoj kiuj uzas verajn lingvojn eĉ kiam parto de informoj estas forprenita.

La usona matematikisto Claude E. Shannon proponis metodon por kalkuli entropion de literoj en iu lingvo. Ankaŭ eblas kalkuli entropion de vortoj en iu lingvo. Shannon mem kalkulis entropion de la angla lingvo (lia artikolo estas ĉi-tie). Rilate al la entropio de lingvoj por vortoj (kiu estas malsame de ilia entropio por literoj) en tiu ĉi artikolo oni donas valorojn 1.65 por la angla, 3.02 por la franca, 1.08 por la germana kaj 1.97 por la hispana. Por entropio de la lingvo Esperanto mi trovis nur tiun ĉi artikolon en kiu oni donas entropion de Esperanto sed ne ĝian entropion por vortoj.

P.S: Eblas uzi entropion de ĉiu aro da signoj por klasifiki tiun aron. Ekzemple en tiu ĉi artikolo oni komparas trovitajn signojn kun lingvoj kiel la angla, tamilia kaj ankaŭ ne lingvoj sed konsekvencoj de informeroj kiel DNA-o. Oni konkludas, ke la pristudita aro da signoj estas komponantoj de lingvo.

Aucun commentaire: