Tas ir Slimi! Teksta ieguve un vārdi ar vairākām definīcijām:

By | maijs 29, 2022

Izlasot šī raksta nosaukumu, jums noteikti jābrīnās, par ko es runāju, sakot: “Tas ir slimi!”

Ir jēga, ja es tikko biju liecinieks tik šausmīgai autoavārijai, ka man kļuva slikta dūša. Tomēr ir arī jēga, ja es tikko redzēju, kā Sidnijs Krosbijs guva uzvaras vārtus spēlē par zelta medaļu 2014. gada Soči olimpiskajās spēlēs. Valodniecības grūtības ir tādas, ka vienam un tam pašam vārdam var būt vairākas nozīmes.

Angļu valodā vārdu “slims” Oksfordas vārdnīca definē šādi: “skārusi fiziska vai garīga slimība”. Tas, ko jūs neatradīsit Oksfordas vārdnīcā, ir slenga nozīme vārdam “slims”, ko pilsētas vārdnīca definē šādi: “traks; forši; ārprātīgs”.

Labs vai slikts?

Kā mašīna var atšifrēt, vai mēs runājam par “labajiem slimajiem” vai “sliktajiem slimajiem”? To sauc par sentimenta analīzi, bet vispirms spersim soli atpakaļ.

Kā cilvēki var noteikt, par kuru “slimību” mēs runājam? Cilvēki saņem palīdzību no tādām lietām kā: ķermeņa valoda, komunikatora balss tonis, acu kontakts, sejas izteiksme, kā arī kultūras simboli, piemēram, apģērbs, matu stils un atrašanās vieta.

Dabiskās valodas apstrādes tehnoloģija, piemēram, teksta ieguve, nevar izmantot iepriekš minētās saziņas metodes. Tas vienkārši nav iespējams… Pagaidām. Apmēram pēc 5–10 gadiem, kad attēlu atpazīšana un emociju analīze kļūs daudz progresīvāka, mēs varam sākt iegūt norādes no ķermeņa valodas un balss toņa.

Teksta ieguvei ir jāpaļaujas uz teikuma kontekstuālo izpratni, lai noteiktu atšķirību starp viena vārda divām nozīmēm.

Teksta ieguves programma:

Vārdi, kas ieskauj vārdu “slims”, un šo citu vārdu secība attiecas uz teikuma kontekstuālo izpratni. Apskatīsim pāris piemērus:

1. piemērs — “Skatoties uz šo autoavāriju, man kļuva slikti”

Teksta ieguves dzinējs zina, ka tad, kad vārds “jūtas” tiek ievietots pirms vārda “slims”, “slims” tiek atzīmēts ar negatīvu noskaņojumu. Dzinējs zina, ka slikta pašsajūta ir slikta.

2. piemērs – “Oho, Krosbija vārti bija slimi!”

Teksta ieguves dzinējs zinās, ka “mērķis” nevar būt “slims” pēc definīcijas. Mērķis nav dzīva būtne, to nevar ietekmēt slimība, tāpēc mērķis nevar būt slims. (Lielākā daļa teksta ieguves programmu atsaucas uz savām zināšanām no kaut kādas semantiskās ontoloģijas. Šeit ir Lexalytics teksta ieguves koncepcijas matricas piemērs.)

Tomēr, ja strādājat ar datu kopu par sportu, varat apmācīt dzinēju pozitīvi noskaņot vārdu “slims” ikreiz, kad tas parādās teikumā blakus vārdam “mērķis”.

Šis nav risinājums “be-viss – viss. Vārdi ar vairākām nozīmēm, divkāršie vārdi un sarkasms ir ļoti sarežģītas lietas, kas jārisina saistībā ar teksta ieguvi. Kādu dienu mums būs nevainojama mašīna, kurā ir ieprogrammēts katrs zināmais dialekts, valoda, slengs; burtiski viss, kas sevī ietver valodu!

Bet pagaidām ir ļoti forši, ka mums ir iespēja apmācīt mašīnu, lai tā saprastu kontekstu kā cilvēks.

Atbildēt

Jūsu e-pasta adrese netiks publicēta.