Transformator (tereń oqıtıw arxitekturası)

Transformator (ingl. transformer)Google tárepinen jaratılǵan hám 2017 jılı “Itibar beriń - sizge kerek” maqalasında usınıs etilgen kóp-baslı itibar beriw mexanizmine tiykarlanǵan tereń oqıtıw arxitekturası.[1] Tekst tokenler dep atalatuǵın sanlı kórinislerge aylandırıladı hám hárbir token sózdi kirgiziw kestesinen joqarıǵa qarap vektorǵa aylandırıladı.[1] Hár qabatta hárbir token kontekstli ayna sheńberinde basqa (maskalanbaǵan) tokenler menen parallel kóp baslı itibar beriw mexanizmi arqalı kontekstlendiriledi, bul tiykarǵı tokenlerge signaldı kúsheytiwge hám zárúr emes tokenlerdi azaytıwǵa imkaniyat beredi. 2017 jılı járiyalanǵan transformatorlıq maqala Bahdanau et tárepinen usınıs etilgen softmax tiykarındaǵı itibar beriw mexanizmine tiykarlanǵan. 2014 jılı mashinalıq awdarma ushın hám 1992 jılı usınıs etilgen transformatorǵa uqsas Fast Weight Controller bar.[2]

Transformatorlardıń artıqmashılıǵı qaytalanatuǵın birliklerdiń bolmawı, sonlıqtan uzaq qısqa múddetli yadı (LSTM) sıyaqlı aldınǵı qaytalanatuǵın neyron arxitekturalarǵa qaraǵanda shınıǵıw waqıtın az talap etedi. Keyingi ózgerisler Wikipedia korpusı hám Common Crawl sıyaqlı úlken (til) maǵlıwmatlar jıynaqlarında úlken til modellerin (LLM) oqıtıw ushın keńnen qollanıldı.[3]

Bul arxitektura endi tábiyiy tildi qayta islewde hám videolardı tanıwda ǵana emes, sonıń menen qatar audio, multi-modal qayta islew hám robototexnikada qollanıladı.[4] Ol sonday-aq generativ aldınnan tayarlanǵan transformatorlar (GTP)[5] hám BERT[6] (Transformatorlardan eki tárepleme kodlawshı wákillikler) sıyaqlı aldınnan tayarlanǵan sistemalardıń rawajlanıwına túrtki boldı.

Tábiyiy tildi qayta islew modelleriniń xronologiyası

Xronologiya

  • 1990 jılı Elman tarmaǵı qaytalanatuǵın neyron tarmaqtı paydalanıp, oqıw jıynaǵındaǵı hárbir sózdi vektor retinde kodladı, onı sózdi kirgiziw dep atadı, al pútkil lekciyanı vektorlı maǵlıwmatlar bazası retinde kodladı, bul oǵan ápiwayı kóp qabatlı perceptronnıń kúshinen tıs izbe-iz boljaw sıyaqlı wazıypalardı orınlawǵa imkaniyat berdi. Statistikalıq qosımshalardıń kemshiligi olardıń bir háriptegi sózlerdiń kóp mánislerin ajırata almawında edi.[7]
  • 1992 jılı Fast Weight Controller - Yurgen Shmidxuber tárepinen baspadan shıǵarıldı.[2] Ol tiykarǵı vektorlardıń sırtqı ónimleri hámde FROM hám TO dep atalatuǵın mánis vektorları arqalı basqa neyron tarmaqtıń itibar salmaqların programmalastırıw arqalı sorawlarǵa juwap beriwdi úyrendi. Tez salmaq kontrolleri keyin normalanbaǵan sızıqlı transformatorlarǵa ekvivalent ekenligi kórsetildi.[8] “Dıqqattıń ishki projektorların úyreniw” terminologiyası 1993 jılı engizildi.
  • 1993 jılı IBM alignment modelleri statistikalıq mashinalıq awdarma ushın paydalanıldı.[9]
  • 1997 jılı uzaq qısqa múddetli yad sıyaqlı qaytalanatuǵın neyron tarmaqlardı paydalanatuǵın úlken til modeliniń prekursorı usınıs etildi.
  • 2001 jılı Internetten alınǵan, sol gezde “júdá úlken” dep atalǵan bir milliard sózden ibarat úlken tekstli korpus, sózdi ajıratıw ushın paydalanıldı.[10]
  • 2012 jılı AlexNet súwretti tanıw ushın úlken neyron tarmaqlardıń ónimliligin kórsetti, eski statistikalıq usıllardıń ornına úlken jasalma neyron tarmaqlardı qollanıwdı xoshametledi.
  • 2014 jılı Sutskever  tárepinen eki Uzaq qısqa múddetli yad (ingl. Long short-term Memory (LSTMs)) tarmaǵı paydalanıp, mashinalıq awdarmaǵa arnalǵan 380M parametrli seq2seq modeli usınıs etilgen.[11] Arxitektura eki bólimnen ibarat. Koder LSTM bolıp, ol tokenler izbe-izligin qabıllaydı hám onı vektorǵa aylandıradı. Dekoder - bul vektordı tokenler izbe-izligine aylandıratuǵın basqa LSTM.
  • 2014 jılı ventilyaciya 130M parametrli seq2seq modelinde paydalı boldı, ol ápiwayılastırılǵan jabıq qaytalanatuǵın birliklerdi (GRU) paydalandı. Bahdanau[12] hám basqaları GRU-lardıń jabıq LSTM-ge qaraǵanda jaqsıraq yamasa jamanıraq emes ekenin kórsetti.[13]
  • 2014 jılı Bahdanau h.t.b. eki LSTM tarmaǵı arasındaǵı itibar beriw mexanizminiń “qosımsha” túrin qollanıw arqalı jetik seq2seq modelin jaqsıladı. Degen menen, bul 2017 jılı transformatorlıq maqalada keyinirek usınıs etilgen parallelizaciyalanatuǵın (“noqatlı ónim” sheńberinde) itibar beriw emes edi.
  • 2015 jılı Global hám Jergilikli (aynalı) dıqqat modeli arxitekturasınıń salıstırmalı ónimliligi Luong h.t.b. tárepinen bahalandı, aralas dıqqat arxitekturası Bahdanau arxitekturası usınatuǵın awdarmalardı jaqsıladı, al jergilikli itibar beriw arxitekturasın paydalanıw awdarma waqıtın qısqarttı.
  • 2016 jılı Google Translate áste-aqırın eski statistikalıq mashinalıq awdarma usılın LSTM tárepinen biriktiretuǵın seq2seq modelin hám itibar beriwdiń “qosımsha” túrin qamtıytuǵın jańa neyron tarmaqlarǵa tiykarlanǵan usıl menen almastırdı. Olar on jılǵa sozılǵan statistikalıq usılǵa qaraǵanda toǵız aydıń ishinde joqarı nátiyjege eristi.[14]
  • 2017 jılı tezirek (parallelenetuǵın yamasa bóleklenetuǵın) itibar beriw mexanizmi bar original (100M ólshemli) kodlawshı-dekoder transformatorınıń modeli “Itibar beriń - sizge kerek” maqalasında usınıs etildi. Modeldi birlestiriwge qıyınshılıqlar bolǵanlıǵı sebepli, oqıtıw tezligin oqıtıwdıń birinshi bólimi ushın 0-den maksimal mániske shekem (yaǵnıy, oqıtıw basqıshlarınıń ulıwma sanınıń 2%) sızıqlı túrde úlkeytiw usınıldı. Transformator modeliniń maqseti - seq2seq modelin alıw hám onıń qaytalanatuǵın neyron tarmaqların óshiriw, biraq onıń qosımsha itibar beriw mexanizmin saqlap qalıw bolıp tabıladı.[1]
  • 2018 jılı ELMo maqalasında gáptegi hárbir sózge jaylastırıw vektorı tayınlanǵanǵa shekem pútkil gáp qayta islendi. Eki baǵdarlı LSTM hár bir sóz ushın usınday tereń konteksli jaylastırıwlardı esaplaw ushın paydalanıldı, bul sózler toplamınan hám word2vec izertlew tarmaǵın jaqsılaydı.
  • 2018 jılı BERT modelinde ELMo-nı jaqsılap (1B den aslam), tek kodlawshı transformator qollanıldı.
  • 2020 jılı kóriw transformatorı hám sóylewdi qayta islewge arnalǵan konvolyuciya arqalı kúsheytilgen transformator burın kóriw hám sóylew ushın paydalanılǵan qaytalanatuǵın neyron tarmaqlardan ozıp ketti.
  • 2020 jılı original transformatordı biriktiriw qıyınshılıqları Xiong h.t.b-lar tárepinen kóp tárepli itibarǵa shekem qabatlardı normalastırıw arqalı sheshildi. Bul pre-LN transformatorı dep ataladı.
  • 2023 jılı bir baǵdarlı ("avtoregressiv") transformatorlar (ólshemi 100B aslam) GPT-3 hám basqa OpenAI GPT modellerinde qollanıldı.[15][16]

Aldınǵılar

Transformatorlardan burın maǵlıwmatlar jıynaǵın izbe-iz qayta isleytuǵın LSTM hám jabıq qaytalanatuǵın birlikler (GRU) sıyaqlı jabıq qaytalanatuǵın neyron tarmaqlarǵa itibar beriw mexanizminiń aldınǵıları qosıldı. Aldınǵı token esaplawlarına ǵárezlilik olardıń itibar beriw mexanizmin parallellewge imkaniyat bermedi. 1992 jılı tez salmaq kontrolleri qaytalanatuǵın neyron tarmaqlarǵa alternativ retinde usınıldı, ol “dıqqattıń ishki projektorların” úyrene aladı.[2] Teoriyalıq jaqtan bir tokennen alınǵan informaciya izbe-izlik boyınsha erikli túrde tarqalıwı múmkin, biraq is júzinde joǵalıw-gradient máselesi aldınǵı tokenler tuwralı anıq, shıǵarılatuǵın uzaq gáptiń sońında model jaǵdayın informaciyasız qaldıradı.

Eski modellerdiń ónimliligi itibar beriw mexanizmin qosıw arqalı jaqsılandı, bul modelge izbe-izlik boyınsha hár qanday aldınǵı noqatqa erisiwge imkaniyat beredi. Itibar beriw dárejesi barlıq aldınǵı jaǵdaylardı sáykesliktiń izertlengen ólshemine sáykes ólsheydi, alıstaǵı belgiler tuwralı tiyisli informaciyanı beredi. Bul alıstaǵı kontekst gáptegi sózdiń mánisi ushın zárúr bolıwı múmkin til awdarmasında ásirese paydalı boldı. Jaǵday vektorı sońǵı inglis sózi qayta islengennen keyin ǵana qoljetimli boldı, mısalı onı francuz tilinen LSTM modeli menen awdarǵanda. Teoriyalıq jaqtan bunday vektor original gáp tuwralı informaciyanı tolıǵı menen saqlaǵanı menen, is júzinde informaciya jaman saqlanadı. Eger itibar beriw mexanizmi qosılsa, deshifratorǵa sońǵı ǵana emes, al hárbir kiris sózdiń jaǵday vektorına ruqsat beriledi hám hárbir kiris jaǵdayınıń vektorına qanshelli baylanısıw kerekligin anıqlaytuǵın dıqqat salmaqların bile aladı. Seq2seq modellerin itibar beriw mexanizmi menen keńeytiw dáslepki ret 2014 jılı Bahdanau, Cho hám Bendjio tárepinen mashinalıq awdarma kontekstinde ámelge asırıldı.

Bóleklenetuǵın dıqqat

2016 jılı joqarı parallelizaciya bóleklenetuǵın dıqqat alǵa jiberiw tarmaǵı menen sátli biriktirildi.[17] Bul dıqqat mexanizmleriniń kúshli ekenin hám itibar berip, qaytalanatuǵın neyron tarmaqlardıń sapalı jetiskenliklerine erisiw ushın maǵlıwmatlardı izbe-iz qaytalap, qayta islew kerek emes ekenin kórsetti. 2017 jılı Vasvani h.t.b-lar sonıń menen bir qatarda qaytalanatuǵın neyron tarmaqlardı dıqqat penen almastırıwdı usındı hám bul ideyanı bahalawǵa háreket etti.[1] Transformatorlar itibar beriw mexanizmin qollanıp, barlıq tokenlerdi bir waqıtta qayta islep, olardıń arasındaǵı “jumsaq” salmaqlardı izbe-iz qabatlarda esapladı. Itibar beriw mexanizmi tek tómengi qabatlardaǵı basqa tokenler tuwralı informaciyanı paydalanatuǵınlıqtan, onı barlıq tokenler ushın parallel esaplawǵa boladı, bul shınıǵıw tezligin arttırıwǵa alıp keledi.

Trening

Treningdi turaqlandırıw usılları

Ápiwayı transformator arxitekturası biriktiriwge qıyınshılıq payda etti. Original maqalada[1] avtorlar oqıw tezligin jıljıtıwdı paydalanıwdı usınıs etti. Yaǵnıy, oqıw tezligi qaytadan bóleklene baslaǵanǵa shekem shınıǵıwdıń birinshi bólimi ushın (ádette shınıǵıw adımlarınıń ulıwma sanı 2% bolıwı usınıladı) 0-den maksimal mániske shekem sızıqlı túrde úlkeyiwi kerek.

2020 jılǵı maqalada kóp baǵdarlı itibar beriw hám alǵa qarap baǵdarlaw qabatlarınıń aldında (keyinniń ornına) qabattı normalizaciyalaw oqıw tezligin jıljıtıwdı talap etpesten, shınıǵıwdı turaqlandıratuǵının kórsetti.

Aldınnan dál sazlaw

Transformatorlar ádette baqlanbaytuǵın aldınnan tayarlıqtı qamtıytuǵın ózbetinshe qadaǵalanatuǵın oqıtıwdan ótedi, sonnan keyin qadaǵanatuǵın dál sazlawdan. Belgilengen trening maǵlıwmatlarınıń sheklengenligi sebepli, aldınnan tayarlıq ádette dál sazlawǵa qaraǵanda úlkenirek maǵlıwmatlar jıynaǵında orınlanadı. Aldınnan tayarlıq hám dál sazlaw wazıypaları ádette tómendegilerdi óz ishine aladı:

T5 transformatorınıń maqalası[18] kóplegen aldınnan tayarlıq wazıypaların hújjetlestiredi. Ayırım mısallar:

  • buzılǵan tekstti qálpine keltiriw: Raxmet<X> men seniń otırıspaǵıńa <Y> hápte. -> <X> mirát etkeniń ushın <Y> ótken <Z> bul jerde <Z> “shıǵarıwdıń sońı” degendi ańlatadı.
  • awdarma: inglis tilinen nemis tiline awdarıw: That is good. -> Das ist gut..
  • gáptiń grammatikalıq qolaylılıǵın bahalaw (CoLA gápi): The course is jumping well. -> not acceptable .

Qosımshalar

Transformator tábiyiy tildi qayta islewde (NLP) úlken jetiskenlikke eristi, mısalı mashinalıq awdarma hám waqıt seriyaların boljaw wazıypaları. GPT-2, GPT-3, GPT-4, Claude, BERT, XLNet, RoBERTa hám ChatGPT sıyaqlı kóplegen úlken til modelleri transformatorlardıń NLP-ge baylanıslı kóplegen wazıypalardı orınlaw qábiletin kórsetedi hám olardı tabıw imkaniyatına iye. Olar tómendegilerdi qamtıwı múmkin:

  • mashinalıq awdarma
  • hújjetti ulıwmalastırıw
  • hújjetti qáliplestiriw
  • atalǵan obyektti tanıw (NER)[19]
  • biologiyalıq izbe-izlikti analizlew
  • tábiyiy tilde kórsetilgen talaplar tiykarında kompyuter kodın jazıw
  • videonı túsiniw.

NLP qosımshalarınan basqa, ol kompyuter kóriwi yamasa beloklardı búklew qosımshaları (mısalı, AlphaFold) sıyaqlı basqa tarawlarda da tabıslı boldı.

Ataqlı mısal retinde Ithaca úsh shıǵıw basına iye bolǵan tek kodlawshı transformator bolıp tabıladı. Áyyemgi grek jazıwın simvollar izbe-izligi retinde kiritedi, biraq oqılmaytuǵın belgiler "-" menen almastırıladı. Onıń úsh shıǵıw bası sáykes túrde grekshe belgiler, jazıwdıń jaylasıwı hám jazıw sánesi boyınsha itimallıq bólistiriwlerin shıǵaradı.[20]

Iske asırıw

Transformator modeli TensorFlow hám PyTorch sıyaqlı standart tereń oqıtıw freymvorklarında ámelge asırıladı.

TransformersHugging Face kompaniyası tárepinen islep shıǵarılǵan kitapxana, ol transformatorǵa tiykarlanǵan arxitekturalar menen aldınnan tayarlanǵan modellerdi usınadı..[5]

Arxitektura

 
Original maqaladan transformator modeliniń tiykarǵı komponentleri kórinisi, bunda qabattı normallastırıw kóp baǵdarlı itibardan keyin orınlandı. 2020 jılǵı maqalada qabattıń normallastırıwın kóp baǵdarlı itibardıń aldına qoyıw (keyinniń ornına) shınıǵıwdıń turaqlılıǵınıń jaqsılanıwın anıqladı.

Barlıq transformatorlardıń tiykarǵı komponentleri birdey:

  • Tekstti tokenlerge aylandıratuǵın tokenizatorlar.
  • Tokenler menen token poziciyaların vektorlı kórinislerge aylandıratuǵın jalǵız ornatıw qabatı.
  • Transformator qabatları vektor kórinislerinde qaytalanatuǵın túrlendiriwlerdi ámelge asıradı, kóbirek hám kóbirek lingvistikalıq informaciyanı shıǵaradı. Olar ózgeriwshi itibar beriw hám alǵa baǵdarlanǵan qabatlardan ibarat.
  • (minnetli emes) Sońǵı vektorlı kórinislerdi tokenler boyınsha itimallıq bólistiriwine qayta túrlendiretuǵın kiriwdi óshiriw qabatı.

Transformator qabatları eki túrdiń biri bolıwı múmkin, koder hám deshifrator. Original maqalada olardıń ekewi de qollanılǵan, al keyingi modellerde olardıń tek bir túri ǵana qamtılǵan. BERT tek kodlawshı modeliniń mısalı bolıp tabıladı; GPT tek dekoderlerge arnalǵan modeller bolıp tabıladı.

Kirgiziw

Kirgizilgen tekst tokenizator menen, kóbinese bayt jubın kodlawshı tokenizer tárepinen analizlenedi hám hárbir token sózdi jaylastırıw kestesinen joqarıǵa qarap vektorǵa aylandırıladı. Sonnan keyin tokenniń poziciyalıq informaciyanı jaylastırıw sózine qosıladı.

Koder-dekoder arxitekturası

Burınǵı seq2seq modelleri sıyaqlı, transformatordıń original modeli koder-dekoder arxitekturasın paydalandı. Koder kiris tokenlerin iteraciyalıq túrde bir qabattan keyin qayta isleytuǵın kodlaw qabatlarınan ibarat, al dekoder kodlawshınıń shıǵısın, sonday-aq dekoder shıǵısınıń tokenlerin iterativ túrde qayta isleytuǵın dekodlaw qabatlarınan ibarat.

Hárbir kodlawshı qabatınıń funkciyası kontekstli token kórinislerin jaratıw bolıp tabıladı, bunda hárbir kórsetiw ózine-ózi itibar beriw mexanizmi arqalı kiris tokenlerinen informaciyanı “aralasatuǵın” tokenge sáykes keledi. Hárbir dekoder qabatında eki itibar beriw ishki qabatı bar: (1) kodlawshınıń shıǵısın qosıwǵa arnalǵan kross-dıqqat (kontekstlestirilgen kiris token kórinisleri) hám (2) dekoderge kiris tokenleri arasında informaciyanı “aralastırıwǵa” ózine itibar beriw (yaǵnıy, shıǵarıw waqıtında usı waqıtqa shekem jaratılǵan tokenler).[21][22]

Koder hám dekoder qabatlarınıń ekewinde de shıǵıslardı qosımsha qayta islewge arnalǵan neyron tarmaǵı bar hám qaldıq jalǵanıwlar menen qabattı qálpine keltiriw basqıshların óz ishine aladı.[22]

Derekler

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 Vaswani, Ashish; Shazeer, Noam; Parmar, Niki; Uszkoreit, Jakob; Jones, Llion; Gomez, Aidan N; Kaiser, Łukasz; Polosukhin, Illia (2017). "Attention is All you Need". Advances in Neural Information Processing Systems (Curran Associates, Inc.) 30. https://proceedings.neurips.cc/paper/2017/file/3f5ee243547dee91fbd053c1c4a845aa-Paper.pdf.  Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name "2017_Attention_Is_All_You_Need" defined multiple times with different content
  2. 2,0 2,1 2,2 Schmidhuber, Jürgen (1992). "Learning to control fast-weight memories: an alternative to recurrent nets.". Neural Computation 4.  Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name "transform1992" defined multiple times with different content
  3. 3,0 3,1 „Better Language Models and Their Implications“. OpenAI (14-fevral 2019-jıl). 19-dekabr 2020-jılda túp nusqadan arxivlendi. Qaraldı: 25-avgust 2019-jıl. Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name ":7" defined multiple times with different content
  4. Learning to Throw With a Handful of Samples Using Decision Transformers. February 2023. https://ieeexplore.ieee.org/document/9984828. 
  5. 5,0 5,1 Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations.  Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name "wolf2020" defined multiple times with different content
  6. 6,0 6,1 6,2 „Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing“. Google AI Blog (2-noyabr 2018-jıl). 13-yanvar 2021-jılda túp nusqadan arxivlendi. Qaraldı: 25-avgust 2019-jıl. Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name ":6" defined multiple times with different content
  7. Elman, Jeffrey L. (March 1990). "Finding Structure in Time". Cognitive Science 14 (2): 179–211. doi:10.1207/s15516709cog1402_1. http://doi.wiley.com/10.1207/s15516709cog1402_1. 
  8. Schmidhuber. „26 March 1991: Neural nets learn to program neural nets with fast weights—the first Transformer variants. 2021-: New stuff!“. IDSIA, Switzerland (26-mart 2021-jıl). 5-dekabr 2023-jılda túp nusqadan arxivlendi. Qaraldı: 29-dekabr 2023-jıl.
  9. Brown, Peter F.. "The mathematics of statistical machine translation: Parameter estimation". Computational Linguistics (19): 263–311. 
  10. Banko, Michele (2001). "Scaling to very very large corpora for natural language disambiguation". Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL '01: 26–33. doi:10.3115/1073012.1073017. 
  11. Sutskever, Ilya (2014). "Sequence to Sequence Learning with Neural Networks". Advances in Neural Information Processing Systems 27. https://proceedings.neurips.cc/paper_files/paper/2014/hash/a14ac55a4f27472c5d894ec1c3c743d2-Abstract.html. 
  12. Cho, Kyunghyun (2014). "On the Properties of Neural Machine Translation: Encoder–Decoder Approaches". Proceedings of SSST-8, Eighth Workshop on Syntax, Semantics and Structure in Statistical Translation: 103–111. doi:10.3115/v1/w14-4012. http://dx.doi.org/10.3115/v1/w14-4012. 
  13. Gruber, N.; Jockisch, A. (2020), „Are GRU cells more specific and LSTM cells more sensitive in motive classification of text?“, Frontiers in Artificial Intelligence, 3-tom, 40-bet, doi:10.3389/frai.2020.00040, PMC 7861254, PMID 33733157, S2CID 220252321
  14. Lewis-Kraus, Gideon (2016-12-14). "The Great A.I. Awakening". The New York Times. https://www.nytimes.com/2016/12/14/magazine/the-great-ai-awakening.html. 
  15. „Improving language understanding with unsupervised learning“. openai.com (11-iyun 2018-jıl). 18-mart 2023-jılda túp nusqadan arxivlendi. Qaraldı: 18-mart 2023-jıl.
  16. finetune-transformer-lm, June 11, 2018, qaraldı: 2023-05-01 {{citation}}: Unknown parameter |publisher= ignored (járdem)
  17. „Papers with Code – A Decomposable Attention Model for Natural Language Inference“. paperswithcode.com.
  18. Raffel, Colin; Shazeer, Noam; Roberts, Adam; Lee, Katherine; Narang, Sharan; Matena, Michael; Zhou, Yanqi; Li, Wei et al. (2020-01-01). "Exploring the limits of transfer learning with a unified text-to-text transformer". The Journal of Machine Learning Research 21 (1): 140:5485–140:5551. ISSN 1532-4435. https://dl.acm.org/doi/abs/10.5555/3455716.3455856. 
  19. Kariampuzha, William; Alyea, Gioconda; Qu, Sue; Sanjak, Jaleal; Mathé, Ewy; Sid, Eric; Chatelaine, Haley; Yadaw, Arjun et al. (2023). "Precision information extraction for rare disease epidemiology at scale". Journal of Translational Medicine 21 (1): 157. doi:10.1186/s12967-023-04011-y. PMC 9972634. PMID 36855134. 
  20. Assael, Yannis; Sommerschield, Thea; Shillingford, Brendan; Bordbar, Mahyar; Pavlopoulos, John; Chatzipanagiotou, Marita; Androutsopoulos, Ion; Prag, Jonathan et al. (March 2022). "Restoring and attributing ancient texts using deep neural networks". Nature 603 (7900): 280–283. doi:10.1038/s41586-022-04448-z. ISSN 1476-4687. PMC 8907065. PMID 35264762. 
  21. „Sequence Modeling with Neural Networks (Part 2): Attention Models“. Indico (18-aprel 2016-jıl). 21-oktyabr 2020-jılda túp nusqadan arxivlendi. Qaraldı: 15-oktyabr 2019-jıl.
  22. 22,0 22,1 Alammar. „The Illustrated Transformer“. jalammar.github.io. 18-oktyabr 2020-jılda túp nusqadan arxivlendi. Qaraldı: 15-oktyabr 2019-jıl. Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name ":1" defined multiple times with different content