Tábiyiy tildi qayta islew

Tábiyiy tildi qayta islew (ingl. Natural language processing, NLP)kompyuter ilimi hám jasalma intellekttiń pánaralıq ishki tarawı bolıp tabıladı. Ol tiykarınan kompyuterlerge tábiyiy tilde kodlanǵan maǵlıwmatlardı qayta islew qábiletin támiyinlewge qaratılǵan hám usılayınsha maǵlıwmat alıw, bilimlerdi kórsetiw hám lingvistikanıń ishki tarawı bolǵan esaplaw lingvistikası menen tıǵız baylanıslı. Ádettе maǵlıwmatlar tekst korpuslarında jıynaladı, mashinalıq oqıtıw hám terеń oqıtıwda qaǵıydaǵa tiykarlanǵan, statistikalıq yamasa neyron tarmaqqa tiykarlanǵan usıllardan paydalanıladı.

Tábiyiy tildi qayta islewdiń tiykarǵı wazıypaları sózdi tanıw, tekstti klassifikaciyalaw, tábiyiy tildi túsiniw hám tábiyiy tildi qáliplestiriw bolıp tabıladı.

Tariyxı

Tábiyiy tildi qayta islew óziniń tamırların 1950-jıllardan baslaydı.[1] 1950-jılı Alan Tyuring “Esaplaw mashinaları hám intellekt” dep atalǵan maqalasın járiyaladı, bunda házirgi waqıtta Tyuring testi dep atalatuǵın intellekttiń kriteriyası usınıldı, biraq sol waqıtta bul jasalma intellektten bólek máselesi retinde anıqlanbaǵan edi. Usınılǵan test tábiyiy tildi avtomatlastırılǵan túsiniw hám payda etiw menen baylanıslı tapsırmanı óz ishine aladı.

Simvolikalıq (NLP) (1950-jıllardan 1990-jıllardıń basına shekem)

Simvolikalıq NLP-niń tiykarǵı ideyası Jon Sirdiń qıtay bólmesi eksperimentinde jaqsı juwmaqlanǵan: Qaǵıydalar toplamı berilgende (mısalı, sáwbet hám oǵan sáykes juwaplar menen qıtay sóz kitapshası), kompyuter usı qaǵıydalardı ózi ushırasatuǵın maǵlıwmatlarǵa qollanıw arqalı tábiyiy tildi túsiniwdi (yamasa basqa da NLP wazıypaların) emulyaciya etedi.

  • 1950-jıllar: 1954-jılı Djordjtawn tájiriybesi alpıstan aslam orıs gáplerin inglis tiline tolıq avtomatlastırılǵan awdarmanı óz ishine alǵan. Avtorlar úsh yamasa bes jıl ishinde mashinalıq awdarma máselesi sheshiletuǵının málimledi. Degen menen, haqıyqıy rawajlanıw álleqayda áste boldı, hám 1966-jılı ALPAC esabatı on jıllıq izertlewler kútilgenlerdi orınlay almaǵanın anıqlaǵannan keyin, mashinalıq awdarmaǵa qarjılandırıw ádewir qısqartıldı. Amerika Qurama Shtatlarında mashinalıq awdarma boyınsha keyingi izertlewler az ámelge asırıldı (biraq Yaponiya hám Evropa sıyaqlı basqa jerlerde izertlewler dawam etti) 1980-jıllardıń aqırına deyin, birinshi statistikalıq mashinalıq awdarma sistemaları rawajlanǵanǵa shekem.
  • 1960-jıllar: 1960-jıllarda rawajlanǵan ayırım áhmiyetli tabıslı tábiyiy tildi qayta islew sistemalarına SHRDLU, sheklengen "bloklar dúnyasında" sheklengen sózlik qorı menen isleytuǵın tábiyiy til sisteması, hám ELIZA, 1964-jıldan 1966-jılǵa shekem Djozef Veyzenbaum tárepinen jazılǵan Rodjerlik psixoterapevttiń simulyaciyası kiredi. Adam oyı yamasa sezimi haqqında derlik hesh qanday maǵlıwmat paydalanbay, ELIZA geyde tańqalarlıq dárejede adamǵa uqsas ózara tásir kórsetken. "Pacient" júdá kishi bilim bazasınan asıp ketken waqıtta, ELIZA ulıwma juwap bere alatuǵın edi, mısalı, "Meniń basım awırıp atır" degen sózge "Ne ushın basıńız awırıp atır dep aytasız?" dep juwap beriwi múmkin. Ross Kvilliannıń tábiyiy til boyınsha tabıslı jumısı tek jigirma sózden ibarat sózlik qorı menen kórsetilgen, sebebi sol waqıtta kompyuter yadına tek sonday sóz sıyatuǵın edi.
  • 1970-jıllar: 1970-jıllar dawamında, kóplegen baǵdarlamashılar "konceptual ontologiyalar" jazıwdı basladı, olar haqıyqıy dúnya haqqındaǵı maǵlıwmatlardı kompyuter túsinetuǵın maǵlıwmatlarǵa strukturaladı. Mısallar: MARGIE (Shank, 1975), SAM (Kallingford, 1978), PAM (Vilenskiy, 1978), TaleSpin (Mihan, 1976), QUALM (Lenert, 1977), Politics (Karbonel, 1979), hám Plot Units (Lenert 1981). Usı waqıtta birinshi chatterbotlar jazıldı (mısalı, PARRY).
  • 1980-jıllar: 1980-jıllar hám 1990-jıllardıń basları TQI-daǵı (Tábiyiy tildi qayta islew) simvolikalıq usıllardıń gúllep-jasnaǵan dáwiri bolıp esaplanadı. Sol waqıttaǵı tiykarǵı izertlew tarawlarına qaǵıyda tiykarındaǵı sintaksislik analiz (mısalı, HPSG-niń generativ grammatikanıń esaplaw operacionalizaciyası sıpatında rawajlanıwı), morfologiya (mısalı, eki dárejeli morfologiya[2]), semantika (mısalı, Lesk algoritmi), referens (mısalı, Oray teoriyası sheńberinde) hám tábiyiy tildi túsiniwdiń basqa da tarawları (mısalı, Ritorikalıq struktura teoriyasında) kiredi. Basqa izertlew baǵdarları da dawam ettirildi, mısalı, Racter hám Jabberwacky menen chatterbotlardı rawajlandırıw. Bul dáwirde áhmiyetli rawajlanıw (keyin  1990-jıllarda statistikalıq burılısqa alıp kelgen) sanlıq bahalawdıń áhmiyetiniń artıwı boldı.

Statistikalıq NLP (1990-2010-jıllar)

1980-jıllardıń aqırına shekem, kópshilik tábiyiy tildi qayta islew sistemaları qoldan jazılǵan qaǵıydalardıń quramalı toplamlarına tiykarlanǵan edi. Biraq, 1980-jıllardıń aqırınan baslap, til qayta islew ushın mashinalıq oqıtıw algoritmleriniń engiziliwi menen tábiyiy tildi qayta islewde revolyuciya júz berdi. Bul esaplaw quwatınıń turaqlı ósiwine (Mur nızamın qara) hám Xomskiy lingvistika teoriyalarınıń (mısalı, transformaciyalıq grammatika) ústemligi áste-aqırın kemeyiwine baylanıslı edi. Bul teoriyalardıń teoretikalıq tiykarları til qayta islewge mashinalıq oqıtıw usılın tiykarlaǵan korpus lingvistikasın qollap-quwatlamaǵan edi.

  • 1990-jıllar: NLP-daǵı statistikalıq usıllardıń kóplegen áhmiyetli dáslepki tabısları mashinalıq awdarma tarawında júz berdi, ásirese IBM Research jumısları, mısalı IBM dúziliw modelleri arqasında. Bul sistemalar Kanada Parlamenti hám Evropa Awqamı tárepinen barlıq húkimet proceduraların barlıq rásmiy tillerde awdarıwdı talap etetuǵın nızamlar nátiyjesinde jaratılǵan bar kóp tilli tekst korpusların paydalana aldı. Biraq, basqa kóplegen sistemalar usı sistemalar tárepinen ámelge asırılǵan wazıypalar ushın arnawlı islep shıǵılǵan korpuslarǵa baylanıslı boldı, bul usı sistemalardıń tabısında tiykarǵı sheklew bolǵan (hám kóbinese ele de solay). Nátiyjede, sheklengen kólemdegi maǵlıwmatlardan nátiyjeli úyreniw usılların izertlewge úlken kúsh jumsaldı.
  • 2000-jıllar: Internettiń ósiwi menen 1990-jıllardıń ortasınan baslap qayta islenbegen (annotaciyalanbaǵan) til maǵlıwmatları payda boldı. Sonlıqtan izertlew barǵan sayın baqlawsız hám yarım-basqarılatuǵın oqıtıw algoritmlerine kóbirek itibar qarata basladı. Bunday algoritmler qoldan belgilengen juwaplar menen belgilenbegen maǵlıwmatlardan yamasa belgilengen hám belgilenbegen maǵlıwmatlardıń kombinaciyasınan úyrene aladı. Ulıwma alǵanda, bul wazıypa baqlanatuǵın oqıtıwǵa qaraǵanda ádewir qıyın hám ádette berilgen kiriw maǵlıwmatları ushın kem dál nátiyje beredi. Biraq, belgilenbegen maǵlıwmatlardıń úlken kólemi bar (sonıń ishinde, basqa nárseler qatarında, pútkil Dúnyajúzilik tor mazmunı), eger qollanılǵan algoritm jetkilikli dárejede tómen waqıt quramalılıǵına iye bolsa, bul kóbinese tómengi nátiyjelerdıń ornın toltıra aladı.

Neyronlıq NLP (házirgi waqıtta)

2003-jılı, sol waqıttaǵı eń jaqsı statistikalıq algoritm bolǵan sóz n-gram modeli Yoshua Bengio hám onıń avtorlas joldasları tárepinen kóp qatlamlı perceptron (bir jasırın qatlam hám bir neshe sózden ibarat kontekst uzınlıǵı menen, til modellestirwinde CPU klasterinde 14 millionǵa shekem sózler menen úyretilgen) tárepinen basım boldı.[3]

2010-jılı Tomash Mikolov (sol waqıtta Brno Texnologiya Universitetiniń PhD doktorantı) birlesken avtorlar menen birge ápiwayı qaytalanatuǵın neyron torın bir jasırın qatlam menen til modellestiriwge qollandı,[4] hám keyingi jılları ol Word2vec-ti rawajlandırdı. 2010-jıllarda kórsetpe oqıtıw hám tereń neyron tor stilindegi (kóp jasırın qatlamlar menen) mashinalıq oqıtıw usılları tábiyiy tildi qayta islewde keń tarqaldı. Bul keń tarqalıwdıń sebepleriniń biri usınday usıllar[5][6] kóplegen tábiyiy til wazıypalarında, mısalı, til modellestiriw[7] hám sintaksislik analiz [8][9] sıyaqlı tarawlarda eń joqarı nátiyje kórsete alıwı boldı. Bul medicina hám densawlıqtı saqlaw tarawında barǵan sayın áhmiyetli bolıp atır, sebebi NLP xızmet kórsetiw sapasın jaqsılaw[10] yamasa nawqas qupıyalılıǵın qorǵaw[11] maqsetinde izertlew ushın basqa jaǵdayda qoljetimsiz bolǵan elektronlıq densawlıq jazbalardaǵı eskertiw hám tekstlerdi tallaw jumıslarında járdem beredi.

Usıllar: Simvolikalıq, statistikalıq, neyron tarmaqlar

Simvolikalıq usıl, yaǵnıy, simvollar menen manipulyaciya jasawdıń qaǵıydalar toplamın qoldan kodlaw, sózlik izlew menen birge, tariyxıy jaqtan ulıwma JI hám ásirese NLP tárepinen qollanılǵan birinshi usıl boldı:[12] mısalı, grammatika jazıw yamasa stemping ushın evristikalıq qaǵıydalar oylap tabıw arqalı.

Eki tárepten, statistikalıq hám neyron torların óz ishine alatuǵın mashinalıq oqıtıw usıllarınıń simvolikalıq usılǵa qaraǵanda kóplegen artıqmashlıqları bar:

  • statistikalıq hám neyron torları usıllarınıń ekewi de tekst korpusınan alınǵan eń kóp ushırasatuǵın jaǵdaylarda kóbirek itibar qarata aladı, al qaǵıyda tiykarındaǵı usıl siyrek ushırasatuǵın jaǵdaylar hám kóp ushırasatuǵın jaǵdaylar ushın birdey qaǵıydalar beriwi kerek.
  • statistikalıq yamasa neyron torları usılları menen jaratılǵan til modelleri qaǵıyda tiykarındaǵı sistemalarǵa qaraǵanda hám tanıs emes (mısalı, aldın kórilmegen sózler yamasa strukturalardı óz ishine alatuǵın), hám qátelik kiriw maǵlıwmatlarına (mısalı, qáte jazılǵan yamasa tosınnan qaldırıp ketilgen sózler menen) qarata bekkem boladı, qaǵıyda tiykarındaǵı sistemalardı jaratıw qımbatıraq boladı.
  • bunday (itimallıq) til modeli qansha úlken bolsa, ol sonsha anıq boladı, al qaǵıyda tiykarındaǵı sistemalar tek qaǵıydalar sanı hám quramalılıǵın arttırıw arqalı ǵana anıqlıqtı arttıra aladı, bul sheshilmeytuǵın máselelerge alıp keledi.

2020-jılı simvollar menen manipulyaciya etiwdiń qaǵıyda tiykarındaǵı sistemaları ele qollanılıp atırǵan bolsa da, olar 2023-jılı LLM-lerdiń rawajlanıwı menen tiykarınan gónergen bolıp qaldı.

Olardan aldın olar kóbinese tómendegi jaǵdaylarda qollanılǵan:

  • oqıtıw maǵlıwmatlarınıń muǵdarı mashinalıq oqıtıw usılların tabıslı qollanıw ushın jetkilikli bolmaǵan jaǵdaylarda, mısalı, Apertium sisteması tárepinen berilgen resursı az tillerdi mashinalıq awdarma ushın,
  • NLP qubırlarında aldınnan qayta islew ushın, mısalı, tokenizaciya, yamasa
  • NLP qubırlarınıń nátiyjelerin qayta islew hám ózgertiw ushın, mısalı, sintaksislik analizden bilim alıw ushın.

Statistikalıq usıl

1980-jıllardıń aqırı hám 1990-jıllardıń ortalarında statistikalıq usıl qaǵıyda tiykarındaǵı usıllardıń nátiyjesizsizligi sebepli payda bolǵan JI qısı dáwirin juwmaqladı.

Qatań bolsa, onda qaǵıydalar sistemasın payda etetuǵın eń dáslepki sheshim aǵashları burınǵı qaǵıyda tiykarındaǵı usıllarǵa júdá uqsas edi. Tek jasırın Markov modellerin sóz sózliklerge belgi qoyıwǵa qollanıw eski qaǵıyda tiykarındaǵı usıldıń juwmaqlanǵanın xabarladı.

Neyron torları

Statistikalıq usıllardıń tiykarǵı kemshiligi - olar quramalı belgi injenerligin talap etedi. 2015-jıldan baslap,[13] statistikalıq usıl neyron torları usılı menen almastırıldı, sózlerdiń semantikalıq qásiyetlerin túsiriw ushın semantikalıq torlar[14] hám sóz engiziwlerin qollanıw arqalı.

Aralıq wazıypalar (mısalı, sóz sózliklerge belgi qoyıw hám ǵárezlilik tallaw) endi kerek emes.

Sol waqıtta jańadan oylap tabılǵan izbe-izlik izbe-izlikke ózgertiw tiykarında jaratılǵan neyronlıq mashinalıq awdarma, sózlerdi dúziw sıyaqlı, aldın statistikalıq mashinalıq awdarma ushın zárúr bolǵan aralıq basqıshlarǵa zárúrligin esapqa alǵan.

Kóp ushırasatuǵın NLP wazıypaları

Tómende tábiyiy tildi qayta islewde eń kóp izertlenetuǵın wazıypalardıń ayırımlarınıń dizimi berilgen. Bul wazıypalardıń ayırımları tikkeley real dúnyadaǵı qollanıwlarǵa iye, al basqaları kóbirek úlken wazıypalardı sheshiwge járdem beretuǵın kishi wazıypalar sıpatında xızmet etedi.

Tábiyiy tildi qayta islew wazıypaları bir-biri menen tıǵız baylanısqan bolsa da, qolaylıq ushın olardı kategoriyalarǵa bóliwge boladı. Tómende qopal bóliw berilgen.

Tekst hám sóylewdi qayta islew

Simvollardı optikalıq tanıw (OCR)
Baspa tekstti kórsetiwshi súwret berilgende, oǵan sáykes kelgen tekstti anıqlaw.
Sóylewdi tanıw
Adam yamasa adamlar sóylep atırǵan dawıs úzindisi berilgende, sóylewdiń tekstlik kórinisin anıqlaw. Bul teksten sóylewge qarama-qarsı hám kóbinese "AI-complete" dep atalatuǵın júdá qıyın máselelerdiń biri (joqarıǵa qara). Tábiyiy sóylewde izbe-iz kelgen sózler arasında derlik úzilisler bolmaydı, sonlıqtan sóylew segmentaciyası sóylewdi tanıwdıń zárúrli kishi wazıypası bolıp tabıladı (tómenge qara). Kóp sóylew tillerinde izbe-iz kelgen háriplerdi bildiretuǵın sesler koartikulyaciya dep atalatuǵın proceste bir-birine aralasıp ketedi, sonlıqtan analog signaldı diskret simvollarǵa aylandırıw júdá qıyın process bolıwı múmkin. Sonıń menen birge, bir tildegi sózler hár qıylı akcent penen sóyleytuǵın adamlar tárepinen aytılatuǵınlıǵın esapqa alǵanda, sóylewdi tanıw baǵdarlaması kiriw maǵlıwmatlarınıń keń túrin onıń tekstlik ekvivalenti jaǵınan bir-birine birdey dep tanıy alıwı kerek.
Sóylew segmentaciyası
Adam yamasa adamlar sóylep atırǵan dawıs klipi berilgende, onı sózlerge ajıratıw. Bul sóylewdi tanıwdıń kishi wazıypası hám ádette onıń menen birge toparlanadı.
Tekstten sóylewge
Tekst berilgende, usı birliklerdi ózgertip, sóylew kórinisin payda etiw. Tekstten sóylewge kóriw qábileti sheklengen adamlarǵa járdem beriw ushın paydalanıwǵa boladı.[15]
Sóz segmentaciyası (Tokenizaciya)
Tokenizaciya - bul tekstti ayırım sózlerge yamasa sóz bóleklerine bóletuǵın tekst analizinde qollanılatuǵın process. Bul texnika eki tiykarǵı komponentke alıp keledi: sóz indeksi hám tokenizaciya qılınǵan tekst. Sóz indeksi - bul unikal sózlerdi belgili sanlı identifikatorlarǵa sáykeslendiretuǵın dizim, al tokenizaciya qılınǵan tekst hár bir sózdi oǵan sáykes keletuǵın sanlı token menen almastıradı. Bul sanlı tokenler keyin hár qıylı tereń oqıtıw usıllarında qollanıladı.[16]
Inglis tili sıyaqlı til ushın bul ádewir ápiwayı, sebebi sózler ádetde bos orınlar menen ajıratılǵan boladı. Biraq, qıtay, yapon hám tay tilleri sıyaqlı ayırım jazba tillerde sóz shegaraları bunday usılda belgilenbeydi, hám bul tillerde tekst segmentaciyası tildegi sózlerdiń sózligi hám morfologiyası haqqında bilimdi talap etetuǵın áhmiyetli wazıypa bolıp tabıladı. Geyde bul process maǵlıwmatlar maydanında sózler paketin (BOW) jaratıw sıyaqlı jaǵdaylarda da qollanıladı.

Morfologiyalıq analiz

Lemmatizaciya
Tek flektivlik qosımtaların alıp taslaw hám sózdiń tiykarǵı sózlik formasın qaytarıw wazıypası, ol sonday-aq lemma dep te ataladı. Lemmatizaciya - sózlerdi olardıń normallastırılǵan formasına keltiriwdiń basqa bir usılı. Biraq bul jaǵdayda, transformaciya haqıyqatında sózlerdi olardıń haqıyqıy formasına sáykeslestiriw ushın sózlikti qollanadı.[17]
Morfologiyalıq segmentaciya
Sózlerdi ayırım morfemalarǵa ajıratıw hám morfemalar klasın anıqlaw. Bul wazıypanıń qıyınlıǵı kóp tárepten qarap atırǵan tildiń morfologiyasınıń (yaǵnıy, sózler strukturasınıń) quramalılıǵına baylanıslı. Inglis tilinde ádewir ápiwayı morfologiya bar, ásirese flektivlik morfologiya, sonlıqtan kóbinese bul wazıypanı tolıǵı menen esapqa almastan, sózdiń barlıq múmkin formaların (mısalı, "open, opens, opened, opening") ayırım sózler sıpatında modellestiriw múmkin. Biraq, túrk tili yamasa Meytey sıyaqlı joqarı agglutinativ hind tilinde bunday usıl múmkin emes, sebebi hár bir sózlik maqalasında sózdiń mıńlaǵan múmkin formaları bar.[18]
Sóylew bólegin belgilew
Gáp berilgende, hár bir sóz ushın sóylew (POS) bólimin anıqlaw. Kóplegen sózler, ásirese kóp qollanılatuǵınları, sóylewdiń bir neshe bólimi sıpatında xızmet ete aladı. Mısalı, "kitap" atlıq ("stoldaǵı kitap") yamasa feyil ("ushıwǵa bilet alıw") bolıwı múmkin; "qoyıw" atlıq, feyil yamasa kelbetlik bolıwı múmkin; al "sırtqa" keminde bes hár qıylı sózdiń bólimi bolıwı múmkin.
Stemming
Flektivlik (yamasa geyde derivaciyalıq) sózlerdi tiykarǵı formaǵa keltiriw processi (mısalı, "jaqın" sózi "jaqınlastı", "jaqınlasıw", "jaqın", "jaqınıraq" h.t.b. ushın tiykar boladı). Stemming lemmatizaciyaǵa uqsas nátiyje beredi, biraq bunı sózlik emes, al qaǵıydalar tiykarında isleydi.

Sintaksislik analiz

Grammatika indukciyası[19]
Tildiń sintaksisin súwretleytuǵın formal grammatikanı payda etiw.
Gáplerge bóliw (sonday-aq "gáp shegarasın anıqlaw" dep te ataladı)
Tekst bólegi berilgende, gáp shegaraların tabıw. Gáp shegaraları kóbinese noqatalar yamasa basqa punktuaciya belgileri menen belgilenedi, biraq usı belgilerdıń ózi basqa maqsetler ushın da xızmet ete aladı (mısalı, qısqartıwlardı belgilew).
Tallaw (Parsing)
Berilgen gáptiń parse aǵashın (grammatikalıq analiz) anıqlaw. Tábiyiy tiller grammatikası anıq emes hám kópshilik gáplerdiń bir neshe múmkin analizi bar: bálkim tańqalarlıq, ádettegi gáp ushın mıńlaǵan potencial parseler bolıwı múmkin (olardıń kópshiligi adam ushın tolıǵı menen mánissiz bolıp kórinedi). Parsingniń eki tiykarǵı túri bar: ǵárezlilik parsing hám quramlas parsing. Ǵárezlilik parsing gáptegi sózler arasındaǵı qatnaslarǵa itibar qaratadı (tiykarǵı obyektler hám predikatlar sıyaqlı nárselerdi belgilew), al quramlas parsing bolsa itimallıq kontekstsiz grammatikanı (PCFG) qollanıp parse aǵashın qurıwǵa itibar qaratadı (sonday-aq stoxastikalıq grammatikanı qara).

Leksikalıq semantika (konteksttegi ayırım sózlerdiń)

Leksikalıq semantika
Konteksttegi ayırım sózlerdiń esaplaw mánisi neden ibarat?
Distribuciyalıq (tarqatıw) semantika
Maǵlıwmatlardan semantikalıq kórsetpelerdi qalay úyreniwimiz múmkin?
Atawlı obyektti tanıw (NER)
Tekst aǵımı berilgende, teksttegi qaysı elementler adam yamasa orın sıyaqlı jeke atlarǵa sáykes keletuǵının hám hár bir bunday attıń tipi qanday ekenligin (mısalı, adam, orın, shólkem) anıqlaw. Inglis tili sıyaqlı tillerde bas hárip qollanıw atawlı birliklerdi tanıwǵa járdem bere alsa da, bul maǵlıwmat atawlı birliktiń túrin anıqlaw ushın járdem bere almaydı hám hár qanday jaǵdayda da kóbinese nadurıs yamasa jetkiliksiz boladı. Mısalı, gáptiń birinshi háribi de bas hárip penen jazıladı, al atawlı birlikler kóbinese bir neshe sózdi qamtıydı, olardıń tek ayırımları ǵana bas hárip penen jazıladı. Bunnan tısqarı, batıs emes jazıwlardaǵı basqa kóplegen tillerde (mısalı, qıtay yamasa arab) hesh qanday bas hárip qollanılmaydı, hám háttе bas hárip qollanılatuǵın tiller de onı atlardan parıqlaw ushın izbe-iz qollanbawı múmkin. Mısalı, nemis tilinde barlıq atlıqlar, olar at bolıw-bolmawına qaramastan, bas hárip penen jazıladı, al francuz hám ispan tillerinde kelbetlik sıpatında qollanılatuǵın atlar bas hárip penen jazılmaydı. Bul wazıypanıń basqa atı - token klassifikaciyası.[20]
Sezim analizi (sonday-aq multimodallı sezim analizin qara)
Sezim analizi - bul teksttiń artındaǵı emocional maqsetti anıqlaw hám klassifikaciyalaw ushın qollanılatuǵın esaplaw usılı. Bul texnika tekstti analizlep, bildirilgen sezimniń unamlı, unamsız yamasa neytral ekenligin anıqlaw ushın qollanıladı. Sezim klassifikaciyası ushın modeller ádettе sóz n-gramları, Term jiyiligi-Keri dokument jiyiligi (TF-IDF) belgileri, qoldan jaratılǵan belgiler sıyaqlı kiriwlerdi paydalanadı yamasa tekst izbe-izliklerindegi uzaq múddetli hám qısqa múddetli ǵárezliliklerdi tanıw ushın islep shıǵılǵan tereń oqıtıw modellerin qollanadı. Sezim analiziniń qollanıwları hár qıylı, hár túrli onlayn platformalardaǵı tutınıwshı pikirlerin kategoriyalarǵa bóliw sıyaqlı wazıypalarǵa shekem keńeyedi.[16]
Terminologiyanı shıǵarıw
Terminologiya shıǵarıwdıń maqseti - berilgen korpustan tiyisli terminlerdi avtomatik túrde shıǵarıp alıw.
Sóz mánisin anıqlaw (WSD)
Kóplegen sózlerdiń birden artıq mánisi bar; bizge kontekstte eń kóp mániske iye bolǵan mánisti tańlaw kerek. Bul máseleni sheshiw ushın bizge ádettе sózler dizimi hám olardıń baylanıslı mánisleri beriledi, mısalı, sózlikten yamasa WordNet sıyaqlı onlayn derekten.
Birliklerdi baylanıstırıw
Kóplegen sózler - ádettе jeke atlar - atawlı birliklerdi bildiredi; bul jerde bizge kontekstte aytılıp atırǵan birlikti (belgili bir tulǵa, orın, kompaniya h.t.b.) tańlaw kerek.

Relyaciyalıq semantika (ayırım gáplerdiń semantikası)

Qarım-qatnastı shıǵarıw
Tekst bólegi berilgende, atawlı birlikler arasındaǵı qatnastı anıqlaw (mısalı, kim kimge úylengen).
Semantikalıq tallaw (parsing)
Tekst bólegi berilgende (ádetте gáp), onıń semantikasınıń formal kórinisin payda etiw, ya graf túrinde (mısalı, AMR parsinginde) yamasa logikalıq formalizm boyınsha (mısalı, DRT parsinginde). Bul máselege ádettе semantikadan bir neshe elementar NLP wazıypaları aspektleri kiredi (mısalı, semantikalıq rol belgilew, sóz mánisin anıqlaw) hám tolıq diskurs analizin óz ishine alıw ushın keńeytiliw múmkin (mısalı, diskurs analizi, koreferenciya; tómendegi Tábiyiy tildi túsiniwdi qara).
Semantikalıq rol belgilew (sonday-aq tómendegi jasırın semantikalıq rol belgilewdi qara)
Bir gáp berilgende, semantikalıq predikatları anıqlaw hám olardı anıqlaw (mısalı, feyil freymler), keyin freym elementlerin (semantikalıq roller) anıqlaw hám klassifikaciyalaw.

Diskurs (ayırım gáplerden tıs semantika)

Koreferenciya sheshimi
Gáp yamasa úlken tekst bólegi berilgende, qaysı sózler ("esletiwler") bir obyektlerge ("birlikler") tiyisli ekenligin anıqlaw. Anafora sheshimi - bul wazıypanıń anıq mısalı bolıp, ol tikkeley almasıqlardı olar tiyisli bolǵan atlıqlar yamasa atlar menen sáykeslestiriwge qaratılǵan. Koreferenciya sheshiminiń ulıwmalıq wazıypası sonday-aq silteme sózler menen baylanıslı "kópir qatnasların" anıqlawdı óz ishine aladı. Mısalı, "Ol Djonnıń úyine aldıńǵı esikten kirdi" degen gápte "aldıńǵı esik" - bul silteme sóz hám anıqlanıwı kerek bolǵan kópir qatnası - bul esletilip atırǵan esiktiń Djonnıń úyiniń aldıńǵı esigi ekenligi faktı (basqa da esletiliw múmkin bolǵan qurılmanıń emes).
Diskurs analizi
Bul rubrika bir neshe baylanıslı wazıypalardı óz ishine aladı. Bir wazıypa - bul diskurs parsing, yaǵnıy baylanısqan teksttiń diskurs strukturasın anıqlaw, yaǵnıy gápler arasındaǵı diskurs qatnaslarınıń tábiyatın (mısalı, keńeytiw, túsindiriw, salıstırıw). Basqa múmkin wazıypa - tekst bólegindegi sóylew aktlerin tanıw hám klassifikaciyalaw (mısalı, awa-yaq soraw, mazmun sorawı, málimleme, tastıyıqlaw h.t.b.).
 
Bir gáp berilgende, semantikalıq predikatlar (mısalı, feyil freymler) hám olardıń házirgi gáptegi anıq semantikalıq rollerin anıqlaw hám olardı ajıratıw (joqarıdaǵı Semantikalıq rol belgilewdi qara). Keyin, házirgi gápte anıq kórinbegen semantikalıq rollerdi anıqlaw, olardı teksttiń basqa jerinde anıq kóringen argumentler hám kórsetilmegen argumentlerge klassifikaciyalaw, hám birinshilerin jergilikli tekst penen sheshiw. Buǵan jaqın baylanıslı wazıypa - nol anafora sheshimi, yaǵnıy koreferenciya sheshimin pro-drop tillerine keńeytiw.
Tekstlik logikalıq baylanıstı tanıw
Eki tekst bólegi berilgende, birewiniń haqıyqıy bolıwı ekinshisiniń haqıyqıy bolıwın támiynleytuǵının, ekinshisiniń biykarlanıwın támiynleytuǵının, yamasa ekinshisiniń ya haqıyqıy, ya jalǵan bolıwına múmkinshilik beretuǵının anıqlaw.
Tema segmentaciyası hám tanıw
Tekst bólegi berilgende, onı hár biri bir temaǵa arnalǵan segmentlerge bóliw hám segmenttiń temasın anıqlaw.
Argument óndiriw
Argumentlerdi izlewdiń maqseti - kompyuter programmaları járdeminde tábiyiy til tekstinen argumentativ strukturalardı avtomatik túrde shıǵarıp alıw hám anıqlaw.[21] Bunday argumentativ strukturalarǵa aldın sharti, juwmaqlar, argument sxeması hám tiykarǵı hám járdemshi argument arasındaǵı yamasa diskurs ishindegi tiykarǵı hám qarsı argument arasındaǵı qatnaslar kiredi.[22][23]

Joqarı dárejeli NLP qollanbaları

Avtomatik qısqasha mazmun (tekst qısqasha mazmunı)
Teksttiń bir bólegin oqıwǵa qolaylı qısqasha mazmun islep shıǵarıw. Kóbinese, belgili túrdegi tekstlerdiń qısqasha mazmunın beriwde qollanıladı, mısalı, ilimiy maqalalar, gazetanıń finanslıq bólimindegi maqalalar.
 
Grammatikalıq qátelerdi anıqlaw hám dúzetiw lingvistikalıq analizdiń barlıq dárejelerinde (fonologiya/orfografiya, morfologiya, sintaksis, semantika, pragmatika) úlken kólemli máselelerdi óz ishine aladı. Grammatikalıq qátelerdi dúzetiw áhmiyetli, sebebi ol inglis tilin ekinshi til sıpatında qollanıwshı yamasa úyreniwshi júzlegen million adamlarǵa tásir etedi. Sonıń ushın, 2011-jıldan baslap bir qansha ulıwma wazıypalarǵa tiykar boldı.[24][25][26] Orfografiya, morfologiya, sintaksis hám semantikanıń belgili aspektlerine kelgende, hám GPT-2 sıyaqlı kúshli neyronlıq til modelleriniń rawajlanıwı sebepli, bul házirgi waqıtta (2019-jıl) tiykarınan sheshilgen máselege aylanǵan hám hár qıylı kommerciyalıq qollanıwlarda satılmaqta.
Logikalıq awdarma
Tekstti tábiyiy tilden formal logika tiline awdarıw.
Mashinalıq awdarma (MT)
Tekstti bir adam tilinen ekinshisine avtomatik túrde awdarıw. Bul eń qıyın máselelerdiń biri bolıp, "JI-tolıq" dep atalatuǵın máseleler klassına kiredi, yaǵnıy, durıs sheshiw ushın adamlar iye bolǵan barlıq túrdegi bilimlerdi (grammatika, semantika, real dúnya haqqındaǵı faktler h.t.b.) talap etedi.
Tábiyiy tildi túsiniw (NLU)
Teksttiń bóleklerin kompyuter programmaları ushın qolaylıraq bolǵan birinshi tártipli logika strukturaları sıyaqlı formal kórsetpelerge aylandırıw. Tábiyiy tildi túsiniw, tábiyiy til túsiniklerin shólkemlestirgen belgilewler túrinde bolatuǵın tábiyiy til ańlatpasınan alınıwı múmkin bolǵan kóp sanlı semantikadan kerekli semantikanı anıqlawdı óz ishine aladı. Til metamodeli hám ontologiyasın kirgiziwi hám jaratılıwı nátiyjeli, biraq empirikalıq sheshimler bolıp tabıladı. Semantikanı formallastırıw tiykarın dúziw ushın, jabıq dúnya boljawı (CWA) hám ashıq dúnya boljawı, yamasa subyektiv Awa/Yaq hám obyektiv Durıs/Nadurıs sıyaqlı jasırın boljawlar menen aljaspastan, tábiyiy til semantikasın anıq formallastırıw kútiledi.[27]
Tábiyiy til generatsiyası (NLG):
Kompyuter bazalarınan yamasa semantikalıq maqsetlerden alınǵan maǵlıwmatlardı adamlar oqıy alatuǵın tilge aylandırıw.
Kitap generaciyası
Bul tábiyiy til generatsiyası hám basqa da NLP wazıypalarınıń keńeytilgen túri bolıp, tolıq kitaplar jaratıwdı óz ishine aladı. Birinshi mashina járdeminde jaratılǵan kitap 1984-jılı qaǵıydaǵa tiykarlanǵan sistema arqalı jaratıldı (Racter, "The policeman's beard is half-constructed").[28] Neyron tarmaq járdeminde jaratılǵan birinshi baspa jumısı 2018-jılı shıǵarıldı, "1 the Road" dep atalıp, roman sıpatında bazarǵa shıǵarıldı hám alpıs million sózdi óz ishine aladı. Bul eki sistema tiykarınan quramalı, biraq mánissiz (semantikasız) til modelleri bolıp tabıladı. Birinshi mashina járdeminde jaratılǵan ilimiy kitap 2019-jılı basıp shıǵarıldı (Beta Writer, "Lithium-Ion Batteries", Springer, Cham).[29] Racter hám "1 the Road" kitaplarınan parıqlı, bul kitap faktlik bilimlerde tiykarlanǵan hám tekst qısqasha mazmunın jaratıwǵa tiykarlanǵan.
Document AI (JI Hújjet)
Hújjet JI platforması NLP texnologiyasınıń ústinde jaylasıp, jasalma intellekt, mashinalıq oqıtıw yamasa NLP boyınsha aldınǵı tájiriybesi bolmaǵan paydalanıwshılarǵa hár qıylı hújjet túrlerinen ózlerine kerekli bolǵan arnawlı maǵlıwmatlardı alıw ushın kompyuterdi tez úyretiwge múmkinshilik beredi. NLP járdeminde isleytuǵın Hújjet JI texnikalıq emes toparlarǵa, mısalı, yuristler, biznes analitikleri hám buxgalterlerge hújjetlerde jasırın bolǵan maǵlıwmatlardı tez alıwǵa múmkinshilik beredi.[30]
Dialogtı basqarıw
Adam menen sóylesiwge arnalǵan kompyuter sistemaları.
Sorawlarǵa juwap beriw
Adam tili menen berilgen sorawǵa juwap anıqlaw. Tipik sorawlardıń anıq durıs juwabı boladı (mısalı, "Kanadanıń paytaxtı qaysı?"), biraq geyde ashıq sorawlar da qaraladı (mısalı, "Ómirdiń mánisi nede?").
Tekstten súwretke ótkerip jaratıw
Súwrettiń táriyipi berilgende, sol táriyip penen sáykes keletuǵın súwret jaratıw.[31]
Tekstten saxnaǵa ótkerip jaratıw
Saxnanıń táriyipi berilgende, saxnanıń 3D modelin jaratıw.[32][33]
Tekstten videoga ótkerip jaratıw
Videoniń táriyipi berilgende, sol táriyip penen sáykes keletuǵın video jaratıw.[34][35]

Ulıwma tendenciyalar hám (múmkin) keleshek baǵdarları

Tarawdaǵı uzaq múddetli tendenciyalarǵa tiykarlanıp, NLPnıń keleshek baǵdarların ekstrapolyaciyalawǵa boladı. 2020-jılǵa kelip, CoNLL Ulıwma Wazıypalarınıń uzaq dawam etken seriyasınıń temalarında úsh tendenciyanı bayqawǵa boladı:[36]

  • Tábiyiy tildiń barǵan sayın abstrakt, "kognitivlik" aspektlerine qızıǵıwshılıq (1999–2001: ústirtin analiz, 2002–03: atlar gruppasın anıqlaw, 2006–09/2017–18: ǵárezlilik sintaksisi, 2004–05/2008–09 semantikalıq rol belgilew, 2011–12 koreferenciya, 2015–16: diskurs analizlew, 2019: semantikalıq analizlew).
  • Kóp tillilikke hám, múmkin, kóp modallıqqa qızıǵıwshılıqtıń artıwı (1999-jıldan baslap inglis tili; 2002-jıldan baslap ispan, golland tilleri; 2003-jıldan baslap nemis tili; 2006-jıldan baslap bolgar, dan, yapon, portugal, sloven, shved, túrik tilleri; 2007-jıldan baslap bask, katalan, qıtay, grek, vengriya, italyan, túrik tilleri; 2009-jıldan baslap chex tili; 2012-jıldan baslap arab tili; 2017-jıl: 40+ til; 2018-jıl: 60+/100+ til)
  • Simvollıq kórsetpelerdi saplastırıw (qaǵıydaǵa tiykarlanǵan usıllardan basqarılatuǵın úyreniwge, onnan hálsiz basqarılatuǵın usıllardı, kórsetpelerdi úyreniw hám basınan-ayaǵına shekemgi sistemalarǵa qaray)

Kogniciya

Joqarı dárejeli NLP qollanıwlarınıń kópshiligi aqıllı háreketlerdi hám tábiyiy tildi kórinip turǵan túsiniwdi imitaciyalawshı aspektlerdi óz ishine aladı. Keńirek aytqanda, kognitiv hárekettiń barǵan sayın rawajlanǵan aspektlerin texnikalıq operacionallastırıw NLPnıń rawajlanıw traektoriyalarınıń birin kórsetedi (joqarıda keltirilgen CoNLL ulıwma wazıypalarınıń tendenciyaların qarań).

Kogniciya "pikir, tájiriybe hám sezimler arqalı bilim hám túsinikti alıwdıń sanalı háreketi yamasa procesi" dep ataladı.[37] Kognitiv ilim - bul aqıl hám onıń processleriniń pánler aralıq, ilimiy izertlewi.[38] Kognitiv lingvistika - bul psixologiya hám lingvistikadan alınǵan bilim hám izertlewlerdi birlestiriwshi lingvistikanıń pánler aralıq tarawı.[39] Ásirese, simvollik NLP dáwirinde esaplaw lingvistikası tarawı kognitiv izertlewler menen kúshli baylanıslardı saqlap qaldı.

Mısal retinde, Djordj Lakoff kognitiv ilim perspektivası arqalı tábiyiy tildi qayta islew (NLP) algoritmlerin dúziw ushın metodologiyanı usınıs etedi, kognitiv lingvistikanıń tabısları menen birge,[40] eki anıqlawshı aspekt penen:

  1. Lakoff tárepinen túsindiriletuǵın "bir ideyanı basqasınıń terminleri menen túsiniw" sıpatında anıqlanǵan konceptual metafora teoriyasın qollanıw, bul avtordıń niyeti haqqında túsinik beredi.[41] Mısalı, inglis tilindegi "big" (úlken) sózin qarap shıǵayıq. Salıstırıwda qollanılǵanda ("That is a big tree" - "Bul úlken terek"), avtordıń niyeti terektiń basqa tereklerge yamasa avtordıń tájiriybesine salıstırǵanda fizikalıq jaqtan úlken ekenligin bildiriw. Metaforalıq túrde qollanılǵanda ("Tomorrow is a big day" - "Erteń úlken kún"), avtordıń niyeti áhmiyetlilikti bildiriw. "She is a big person" (Ol úlken adam) sıyaqlı basqa qollanıwlardıń artındaǵı niyet qosımsha maǵlıwmatlarsız adam ushın da, kognitiv NLP algoritmi ushın da bir qansha túsiniksiz bolıp qaladı.
  2. Analiz etiliwshi tekst bóleginen aldın hám keyin berilgen maǵlıwmatlarǵa tiykarlanıp, sózge, sóz dizbegine, gápke yamasa tekst bólegine salıstırmalı máni ólshemlerin belgilew, mısalı, itimallıq kontekstsiz grammatika (PCFG) járdeminde. Bunday algoritmler ushın matematikalıq teńleme AQSH patenti US Patent 9269353te berilgen:
 
Teńlemeniń túsindirmesi: Bunda
RMM - mánisiniń salıstırmalı ólshemi
token - hár qanday tekst bólegi, gáp, sóz dizbegi yamasa sóz
N - analiz etiliwshi tokenler sanı
PMM - korpusqa tiykarlanǵan mánistiń itimal ólshemi
d - N tokenler izbe-izligindegi tokenniń nolge teń emes ornı
PF - tilge tán itimallıq funkciyası

Kognitiv lingvistika menen baylanıslar NLPnıń tariyxıy miyrasınıń bir bólegi bolıp tabıladı, biraq 1990-jıllardaǵı statistikalıq burılıstan keyin olar azıraq qarastırıldı. Sonday-aq, kognitiv modellerin texnikalıq operacionallanatuǵın sistemalarǵa qaray rawajlandırıw usılları hár qıylı sistemalar kontekstinde ámelge asırılǵan, mısalı, kognitiv grammatika,[42] funkcionallıq grammatika, konstrukciyalıq grammatika,[43] esaplaw psixolingvistikası hám kognitiv nevrologiya (mısalı, ACT-R), biraq tiykarǵı NLPda sheklengen qollanıw menen (ACLdıń tiykarǵı konferenciyalarında[44] qatnasıwı menen ólshengende). Jaqında kognitiv NLP ideyaları túsindirmelilikke erisiw usılı sıpatında qayta pát aldı, mısalı, "kognitiv JI" túsinik astında.[45] Sonday-aq, kognitiv NLP ideyaları neyron modeller kóp modallı NLPǵa tán (kóbinese anıq aytılmasa da)[46] hám jasalma intellekttegi rawajlanıwlarǵa, atap aytqanda, úlken til modeli usılların qollanıwshı qural hám texnologiyalarǵa hám London Universitet Kolledjindegi Britaniyalı neyroilimpaz hám teoretik Karl Dj. Friston tárepinen erkin energiya principine tiykarlanǵan jasalma ulıwma intellekttiń jańa baǵdarlarına[47] tán.

Derekler

  1. „NLP“.
  2. Koskenniemi, Kimmo (1983), Two-level morphology: A general computational model of word-form recognition and production (PDF) {{citation}}: Unknown parameter |publisher= ignored (járdem)
  3. Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (March 1, 2003). "A neural probabilistic language model". The Journal of Machine Learning Research 3: 1137–1155. https://dl.acm.org/doi/10.5555/944919.944966. 
  4. Mikolov, Tomáš; Karafiát, Martin; Burget, Lukáš; Černocký, Jan. Interspeech 2010, 26 September 2010 — 1045–1048 bet. 
  5. Goldberg, Yoav. "A Primer on Neural Network Models for Natural Language Processing". Journal of Artificial Intelligence Research 57: 345–420. 
  6. Goodfellow, Ian; Bengio, Yoshua; Courville, Aaron. Deep Learning. 
  7. Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam. Exploring the Limits of Language Modeling. 
  8. Choe, Do Kook; Charniak, Eugene. "Parsing as Language Modeling". Emnlp 2016. https://aclanthology.coli.uni-saarland.de/papers/D16-1257/d16-1257. 
  9. Vinyals, Oriol; Kaiser, Lukasz. "Grammar as a Foreign Language". Nips2015. https://papers.nips.cc/paper/5635-grammar-as-a-foreign-language.pdf. 
  10. Turchin, Alexander; Florez Builes, Luisa F. (2021-03-19). "Using Natural Language Processing to Measure and Improve Quality of Diabetes Care: A Systematic Review". Journal of Diabetes Science and Technology 15: 553–560. 
  11. Lee, Jennifer; Yang, Samuel; Holland-Hall, Cynthia; Sezgin, Emre (2022-06-10). "Prevalence of Sensitive Terms in Clinical Notes Using Natural Language Processing Techniques: Observational Study". JMIR Medical Informatics 10: e38482. 
  12. Schank, Roger C.; Abelson, Robert P.. Scripts, Plans, Goals, and Understanding: An Inquiry Into Human Knowledge Structures. Hillsdale: Erlbaum, 1977. ISBN 0-470-99033-3. 
  13. Socher. „Deep Learning For NLP-ACL 2012 Tutorial“. www.socher.org. Qaraldı: 17-avgust 2020-jıl. This was an early Deep Learning tutorial at the ACL 2012 and met with both interest and (at the time) skepticism by most participants. Until then, neural learning was basically rejected because of its lack of statistical interpretability. Until 2015, deep learning had evolved into the major framework of NLP. [Link is broken, try http://web.stanford.edu/class/cs224n/]
  14. Segev, Elad. Semantic Network Analysis in Social Sciences. 
  15. Yi, Chucai; Tian, Yingli (2012), „Assistive Text Reading from Complex Background for Blind Persons“, Camera-Based Document Analysis and Recognition, Lecture Notes in Computer Science (ағылшын тілі), 7139-tom, 15–28-bet, CiteSeerX 10.1.1.668.869, doi:10.1007/978-3-642-29364-1_2, ISBN 9783642293634 {{citation}}: Unknown parameter |publisher= ignored (járdem)
  16. 16,0 16,1 „Natural Language Processing (NLP) - A Complete Guide“ (en). www.deeplearning.ai (11-yanvar 2023-jıl). Qaraldı: 5-may 2024-jıl.
  17. „What is Natural Language Processing? Intro to NLP in Machine Learning“ (en-US). GyanSetu! (6-dekabr 2020-jıl). Qaraldı: 9-yanvar 2021-jıl.
  18. Manipuri Morpheme Identification. http://aclweb.org/anthology//W/W12/W12-5008.pdf. 
  19. Klein, Dan; Manning, Christopher D. (2002). "Natural language grammar induction using a constituent-context model". Advances in Neural Information Processing Systems. http://papers.nips.cc/paper/1945-natural-language-grammar-induction-using-a-constituent-context-model.pdf. 
  20. Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun et al. (2023). "Precision information extraction for rare disease epidemiology at scale" (in en). Journal of Translational Medicine 21 (1): 157. doi:10.1186/s12967-023-04011-y. PMC 9972634. PMID 36855134. 
  21. Argumentation Mining: State of the Art and Emerging Trends. https://dl.acm.org/doi/10.1145/2850417. 
  22. „Argument Mining – IJCAI2016 Tutorial“. www.i3s.unice.fr. Qaraldı: 9-mart 2021-jıl.
  23. „NLP Approaches to Computational Argumentation – ACL 2016, Berlin“ (en-GB). Qaraldı: 9-mart 2021-jıl.
  24. Administration. „Centre for Language Technology (CLT)“ (en-au). Macquarie University. Qaraldı: 11-yanvar 2021-jıl.
  25. „Shared Task: Grammatical Error Correction“. www.comp.nus.edu.sg. Qaraldı: 11-yanvar 2021-jıl.
  26. „Shared Task: Grammatical Error Correction“. www.comp.nus.edu.sg. Qaraldı: 11-yanvar 2021-jıl.
  27. Duan. Formalizing Semantic of Natural Language through Conceptualization from Existence. http://www.ijimt.org/abstract/100-E00187.htm. 
  28. „U B U W E B :: Racter“. www.ubu.com. Qaraldı: 17-avgust 2020-jıl.
  29. Writer. Lithium-Ion Batteries (en-gb). 
  30. „Document Understanding AI on Google Cloud (Cloud Next '19) – YouTube“. www.youtube.com (11-aprel 2019-jıl). 30-oktyabr 2021-jılda túp nusqadan arxivlendi. Qaraldı: 11-yanvar 2021-jıl.
  31. Robertson. „OpenAI's DALL-E AI image generator can now edit pictures, too“ (en). The Verge (6-aprel 2022-jıl). Qaraldı: 7-iyun 2022-jıl.
  32. „The Stanford Natural Language Processing Group“. nlp.stanford.edu. Qaraldı: 7-iyun 2022-jıl.
  33. Coyne. Proceedings of the 28th annual conference on Computer graphics and interactive techniques. 
  34. „Google announces AI advances in text-to-video, language translation, more“ (en-US). VentureBeat (2-noyabr 2022-jıl). Qaraldı: 9-noyabr 2022-jıl.
  35. Vincent. „Meta's new text-to-video AI generator is like DALL-E for video“ (en-US). The Verge (29-sentyabr 2022-jıl). Qaraldı: 9-noyabr 2022-jıl.
  36. „Previous shared tasks | CoNLL“. www.conll.org. Qaraldı: 11-yanvar 2021-jıl.
  37. „Cognition“. Lexico. Oxford University Press and Dictionary.com. 15-iyul 2020-jılda túp nusqadan arxivlendi. Qaraldı: 6-may 2020-jıl.
  38. „Ask the Cognitive Scientist“. American Federation of Teachers (8-avgust 2014-jıl). — „Cognitive science is an interdisciplinary field of researchers from Linguistics, psychology, neuroscience, philosophy, computer science, and anthropology that seek to understand the mind.“.
  39. Handbook of Cognitive Linguistics and Second Language Acquisition. 
  40. Lakoff, George. Philosophy in the Flesh: The Embodied Mind and Its Challenge to Western Philosophy; Appendix: The Neural Theory of Language Paradigm. New York Basic Books, 1999 — 569–583 bet. ISBN 978-0-465-05674-3. 
  41. Strauss, Claudia. A Cognitive Theory of Cultural Meaning. Cambridge University Press, 1999 — 156–164 bet. ISBN 978-0-521-59541-4. 
  42. „Universal Conceptual Cognitive Annotation (UCCA)“ (en-US). Universal Conceptual Cognitive Annotation (UCCA). Qaraldı: 11-yanvar 2021-jıl.
  43. „Fluid Construction Grammar – A fully operational processing system for construction grammars“ (en-US). Qaraldı: 11-yanvar 2021-jıl.
  44. „ACL Member Portal | The Association for Computational Linguistics Member Portal“. www.aclweb.org. Qaraldı: 11-yanvar 2021-jıl.
  45. „Chunks and Rules“ (en). W3C. Qaraldı: 11-yanvar 2021-jıl.
  46. Socher, Richard (2014). Grounded Compositional Semantics for Finding and Describing Images with Sentences. pp. 207–218. 
  47. Friston, Karl J.. Active Inference: The Free Energy Principle in Mind, Brain, and Behavior; Chapter 4 The Generative Models of Active Inference. The MIT Press, 2022. ISBN 978-0-262-36997-8.