Generativ aldınnan tayarlanǵan transformator

Generativ aldınnan tayarlanǵan transformator yaǵnıy GPT (ingl. Generative pre-trained transformers, GPT)úlken til modeliniń (LLM)[1][2][3] bir túri hám generativ jasalma intellekt ushın belgili struktura bolıp tabıladı.[4][5] Olar tábiyiy tildi qayta islew wazıypalarında qollanılatuǵın jasalma neyron tarmaqlar.[6] GPT-ler transformator arxitekturasına tiykarlanǵan, tańbalanbaǵan teksttiń úlken maǵlıwmatlar jıynaǵında aldınnan tayarlanǵan hám adamǵa uqsas jańa kontentti jarata aladı.[2] 2023 jılǵı jaǵday boyınsha LLM-lerdiń kópshiliginde usı qásiyetler bar bolıp, geyde olardı GPT-ler dep ataydı.[7]

Original GPT modeli

Birinshi GPT 2018 jılı OpenAI tárepinen usınılǵan.[8] OpenAI óziniń "GPT-n" seriyasınan ibarat izbe-iz nomerlengen tásirli GPT negizgi modellerin shıǵardı.[9] Olardıń hárqaysısınıń kólemi (shınıǵıwǵa bolatuǵın parametrlerdiń sanı) hám oqıtıwdıń úlkeyiwine baylanıslı aldınǵısına qaraǵanda álleqayda qábiletli boldı. Olardıń eń sońǵısı, GPT-4 - 2023 jıl martta shıǵarıldı.[10] Bunday modeller olardıń wazıypalarǵa arnalǵan GPT sistemalarına, sonıń ishinde keyingi kórsetpelerge anıq sazlanǵan modellerge tiykar boldı, bul óz gezeginde ChatGPT chatbot xızmetin qollaydı.[1]

"GPT" termini basqalar tárepinen islep shıǵarılǵan usınday modellerdiń atları menen táriyiplerinde de qollanıladı. Mısalı, basqa GPT tiykar modellerine EleutherAI tárepinen jaratılǵan modeller seriyasın,[11] hám 2023 jılı Cerebras tárepinen jaratılǵan jeti modeldi óz ishine aladı. Sonday-aq, hár túrli tarawlardaǵı kompaniyalar Salesforce kompaniyasınıń "EinsteinGPT" (CRM ushın)[12] hám Bloomberg-tiń "BloombergGPT" (finans ushın) sıyaqlı tiyisli tarawlarda wazıypalarǵa arnalǵan GPT-lerdi jaratıldı.[13]

Tariyxı

Dáslepki islenbeler

Generativ aldınnan tayarlıq (GP) mashinalıq oqıtıw programmalarında burınnan qáliplesken túsinik.[14][15] Ol dáslebinde yarım baqlanatuǵın oqıtıw obyekti retinde paydalanıldı, óytkeni model aldı menen maǵlıwmatlar jıynaǵında maǵlıwmatlar noqatların jaratıwdı úyreniw arqalı tańbalanǵan maǵlıwmatlar jıynaǵında (aldınnan tayarlıq basqıshı) oqıtıladı, sonnan keyin ol tańbalanǵan maǵlıwmatlar jıynaǵın klassifikaciyalawǵa úyretiledi.[16]

Normalanbaǵan sızıqlı transformator 1992 jıldan berli payda bolǵanı menen, zamanagóy transformator arxitekturası 2017 jılı Google izertlewshileri “Itibar beriń - sizge kerek” maqalasında járiyalanǵanǵa shekem qol jetimli bolmadı. Bul rawajlanıw 2018 jılı BERT sıyaqlı úlken til modelleriniń payda bolıwına alıp keldi, ol aldınnan tayarlanǵan transformator (PT) boldı, biraq generativ bolıwǵa arnalmaǵan (BERT tek “koder ushın” model boldı).[17] Sonday-aq, sol waqıtta 2018 jılı OpenAI óziniń “General Pre-Training arqalı tildi túsiniwdi jaqsılaw” atlı maqalasın járiyaladı, onda ol birinshi generativ aldınnan tayarlanǵan transformator (GPT) sistemasın ("GPT-1") engizdi.[18]

Transformatorǵa tiykarlanǵan arxitekturalarǵa shekem eń jaqsı jumıs isleytuǵın neyron NLP (tábiyiy tildi qayta islew) modelleri ádette qol menen belgilengen maǵlıwmatlardıń úlken kóleminen baqlanatuǵın oqıtıwdı paydalandı. Baqlanatuǵın oqıtıwǵa ǵárezlilik olardı jaqsı túsindirilmegen maǵlıwmatlar jıynaǵında paydalanıwdı shekledi, sonıń menen qatar júdá úlken til modellerin úyretiw júdá qımbat hám waqıttı talap etedi.[18]

OpenAI keń kólemli sistemanı jaratıw ushın qollanılǵan hám birinshi ret transformator modeli menen ámelge asırılǵan yarım baqlawlı usıl - eki basqıshtı qamtıdı: tildi modellestiriw maqsetin paydalanıp dáslepki parametrlerdi ornatıw ushın baqlanbaytuǵın generativ “aldınnan tayarlıq” basqıshı hám baqlanatuǵın usı parametrlerdi maqsetli wazıypaǵa beyimlew ushın diskriminativ “anıq sazlaw” basqıshı.[18]

Keyingi rawajlanıwlar

Eń sońǵı GPT tiykar modellerine kelsek, OpenAI GPT-3-tiń birinshi versiyaların 2020-jıl iyulda járiyaladı. 1B, 6.7B, 175B parametrleri bar úsh model bar edi, olar sáykes túrde Bebbidj, Kyuri hám Davinchi (B,C hám D bas háripler menen) dep atalǵan.

2021 jıl iyulde OpenAI programmalastırıw qosımshaları ushın wazıypalarǵa arnalǵan GPT modeli bolıp tabılatuǵın Codex-ti shıǵardı. Bul GitHub kodın paydalanıp, GPT-3 (aldınǵı GPT-3 modellerinen ayırmashılıǵı) 12B parametr versiyasın anıq sazlaw arqalı islep shıqtı.[19]

2022 jıl mart ayında OpenAI kórsetpe boyınsha (kórsetpege muwapıq sazlanǵan),  davinci-instruct-beta (175B) hám text-davinci-001 dep atalatuǵın GPT-3-tiń eki versiyasın járiyaladı,[20] sonnan keyin beta-test code-davinci-002 ni basladı.[21] text-davinci-002 code-davinci-002 kórsetpesinen sazlandı. text-davinci-003 hám ChatGPT ekewi de 2022 jıl noyabrde shıǵarıldı, ekewi de adam keri baylanısınan (RLHF) bilim alıw arqalı text-davinci-002 tiykarında islengen. text-davinci-003 kórsetpelerdi orınlawǵa úyretilgen (burınǵıları sıyaqlı), al ChatGPT adam paydalanıwshı menen sóylesiw háreketine úyretilgen.[22][23]

OpenAI-diń eń sońǵı GPT tiykar modeli − GPT-4 2023 jıl 14 martta shıǵarıldı. Oǵan ChatGPT premium versiyası arqalı paydalanıwshılar tikkeley kire aladı hám OpenAI-diń API arqalı basqa ónimler menen xızmetlerge qosıw ushın baǵdarlamashılarǵa qoljetimli. GPT tiykar modelleriniń basqa óndiriwshilerine EleutherAI (2021 jıl martta baslanǵan modeller seriyası menen)[11] hám Cerebras (2023jıl martta shıqqan jeti modeli menen) kiredi.

Tiykarǵı modeller

Tiykarǵı model - keń kólemli maǵlıwmatlar boyınsha oqıtılǵan AI modeli, sonlıqtan onı tómengi aǵımdaǵı wazıypalardıń keń sheńberine beyimlewge boladı.[24]

Usı waqıtqa shekem GPT-diń ataqlı tiykar modelleri OpenAI GPT-n seriyasınan boldı. Onıń eń sońǵısı GPT-4, ol ushın OpenAI ólshemin yamasa shınıǵıw maǵlıwmatların járiyalawdan bas tarttı (“básekige qábiletli landshaft penen kólemli modellerdiń qáwipsizligi sebebinen”).[25]

OpenAI-diń GPT-n seriyası
Model Arxitektura Parametrler sanı Trening (shınıǵıw) maǵlıwmatları Shıǵarılǵan sánesi Trening bahası
GPT-1 12 dárejeli, 12 baslı Transformator deshifratorı (kodersiz), onnan keyin sızıqlı-softmax. 117 mln BookCorpus: 4,5 GB tekst, hár túrli janrdaǵı 7000 járiyalanbaǵan kitaplardan. 2018 jıl 11-iyun[8] 8 P600 GPU-da 30 kún yamasa 1 petaFLOP/s-kún.[8]
GPT-2 GPT-1, biraq ózgertilgen normalaw menen 1,5 mlrd WebText: 40 GB tekst, Reddit-te tastıyıqlanǵan 45 million veb-bettiń 8 million hújjeti. 2019 jıl 14 fevral (dáslepki/sheklengen versiya) hám 2019 jıl 5-noyabr (tolıq versiya)[26] "onlaǵan petaflop / s-kún",[27] yamasa 1,5e21 FLOP.[28]
GPT-3 GPT-2, biraq úlkenirek masshtablawǵa imkaniyat beretuǵın modifikaciyası bar. 175 mlrd[29] CommonCrawl (570 GB), WebText, inglisshe Wikipedia hám eki kitap korpusınan (Books1 hám Books2) ibarat 499 milliard token. 28-may, 2020-jıl[27] 3640 petaflop/s-kún (D.1-keste[27]), yamasa 3,1e23 FLOP.[28]
GPT-3.5 Járiyalanbaǵan 175 mlrd[29] Járiyalanbaǵan 2022 jıl 15-mart Járiyalanbaǵan
GPT-4 Sonday-aq tekstti boljaw hám RLHF ekewi de oqıtıldı; tekstti de, súwretlerdi de kirgiziw retinde qabıllaydı. Tolıǵıraq maǵlıwmatlar áshkara emes.[25] Járiyalanbaǵan. Shama emen 1,7 trln.[30] Járiyalanbaǵan 2023 jıl 14-mart Járiyalanbaǵan. Shama menen 2.1 × 1025 FLOP.[28]

Basqa usınday modellerge GPT-3 penen salıstırılǵan hám jaqında API arqalı baǵdarlamashılarǵa qoljetimli bolǵan Google kompaniyasınıń PaLM modeli,[31][32] hám eń jaqın jumıs isleytuǵın ashıq kodlı alternativ retinde xabarlanǵan Together GPT-JT kiredi. GPT-3 (hám burınǵı ashıq kodlı GPT-lerden alınǵan).[33] Meta AI (burınǵı Facebook) sonıń menen qatar LLaMA dep atalatuǵın generativ transformatorǵa tiykarlanǵan úlken til modeline iye.[34]

Tiykarǵı GPT-ler kirgiziw hám/yamasa shıǵarıw ushın tekstten basqa usıllardı da paydalana aladı. GPT-4 tekstti hám súwretti kirgiziwdi qayta islewge uqıplı multimodal LLM bolıp tabıladı (biraq onıń shıǵıwı tekst penen sheklenedi).[35] Multimodal shıǵıwǵa baylanıslı ayırım generativ transformatorlarǵa tiykarlanǵan modeller diffuziya[36] hám parallel dekodlaw sıyaqlı tekstten súwretke texnologiyalar ushın paydalanıladı. Modellerdiń bunday túrleri súwretler menen jumıs isley alatuǵın tómengi aǵım sistemalardı islep shıǵıw ushın vizual tiykar modelleri (VFM) retinde xızmet ete aladı.

Derekler

  1. 1,0 1,1 Haddad. „How does GPT-4 work and how can you start using it in ChatGPT?“. www.aljazeera.com. Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name ":1" defined multiple times with different content
  2. 2,0 2,1 „Generative AI: a game-changer society needs to be ready for“. World Economic Forum (9-yanvar 2023-jıl).
  3. Silteme kórsetiwdegi qátelik: Жарамсыз <ref> тегі; no text was provided for refs named :4
  4. Hu. „Generative AI and Future“. Medium (15-noyabr 2022-jıl).
  5. „CSDL | IEEE Computer Society“. www.computer.org.
  6. „LibGuides: Using AI Language Models : ChatGPT“.
  7. Mckendrick. „Most Jobs Soon To Be 'Influenced' By Artificial Intelligence, Research Out Of OpenAI And University Of Pennsylvania Suggests“. Forbes (13-mart 2023-jıl).
  8. 8,0 8,1 8,2 „Improving language understanding with unsupervised learning“ (en-US). openai.com (11-iyun 2018-jıl). 18-mart 2023-jılda túp nusqadan arxivlendi. Qaraldı: 18-mart 2023-jıl. Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name "gpt1" defined multiple times with different content
  9. „GPT-1 to GPT-4: Each of OpenAI's GPT Models Explained and Compared“. MUO (11-aprel 2023-jıl).
  10. „GPT-4“ (en-US). openai.com. Qaraldı: 8-dekabr 2023-jıl.
  11. 11,0 11,1 Alford. „EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J“. InfoQ (13-iyul 2021-jıl). Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name ":9" defined multiple times with different content
  12. Morrison. „Salesforce launches EinsteinGPT built with OpenAI technology“. Tech Monitor (7-mart 2023-jıl).
  13. „The ChatGPT of Finance is Here, Bloomberg is Combining AI and Fintech“. Forbes.
  14. Hinton (et-al), Geoffrey. "Deep neural networks for acoustic modeling in speech recognition". IEEE Signal Processing Magazine Digital Object Identifier 10.1109/MSP.2012.2205597. doi:10.1109/MSP.2012.2205597. http://cs224d.stanford.edu/papers/maas_paper.pdf. 
  15. Deng, Li. "A tutorial survey of architectures, algorithms, and applications for deep learning | APSIPA Transactions on Signal and Information Processing | Cambridge Core". Apsipa Transactions on Signal and Information Processing 3: e2. doi:10.1017/atsip.2013.9. 
  16. Erhan, Dumitru. "Why Does Unsupervised Pre-training Help Deep Learning?". Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics: 201–208. https://proceedings.mlr.press/v9/erhan10a.html. 
  17. Naik. „Google Introduces New Architecture To Reduce Cost Of Transformers“. Analytics India Magazine (23-sentyabr 2021-jıl).
  18. 18,0 18,1 18,2 Radford. „Improving Language Understanding by Generative Pre-Training“. OpenAI (11-iyun 2018-jıl). 26-yanvar 2021-jılda túp nusqadan arxivlendi. Qaraldı: 23-yanvar 2021-jıl. Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name "gpt1paper" defined multiple times with different content
  19. Chen, Mark; Tworek, Jerry; Jun, Heewoo; Yuan, Qiming; Ponde de Oliveira Pinto, Henrique; Kaplan, Jared; Edwards, Harri; Burda, Yuri et al. (2021-07-01). "Evaluating Large Language Models Trained on Code". Association for Computational Linguistics. https://ui.adsabs.harvard.edu/abs/2021arXiv210703374C. 
  20. Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini et al. (2022-12-06). "Training language models to follow instructions with human feedback". Advances in Neural Information Processing Systems. https://proceedings.neurips.cc/paper_files/paper/2022/hash/b1efde53be364a73914f58805a001731-Abstract-Conference.html. 
  21. „New GPT-3 capabilities: Edit & insert“ (en-US). openai.com. Qaraldı: 24-iyun 2023-jıl.
  22. Fu, Yao; Peng, Hao; Khot, Tushar. "How does GPT Obtain its Ability? Tracing Emergent Abilities of Language Models to their Sources". Yao Fu's Notion. https://yaofu.notion.site/How-does-GPT-Obtain-its-Ability-Tracing-Emergent-Abilities-of-Language-Models-to-their-Sources-b9a57ac0fcf74f30a1ab9e3e36fa1dc1. 
  23. „Model index for researchers“ (en). OpenAI API. 23-iyun 2023-jılda túp nusqadan arxivlendi. Qaraldı: 23-iyun 2023-jıl.
  24. „Introducing the Center for Research on Foundation Models (CRFM)“. Stanford HAI (18-avgust 2021-jıl).
  25. 25,0 25,1 OpenAI. „GPT-4 Technical Report“ (2023). 14-mart 2023-jılda túp nusqadan arxivlendi. Qaraldı: 16-mart 2023-jıl. Silteme kórsetiwdegi qátelik: Invalid <ref> tag; name "gpt4-report" defined multiple times with different content
  26. Vincent. „OpenAI has published the text-generating AI it said was too dangerous to share“. The Verge (7-noyabr 2019-jıl).
  27. 27,0 27,1 27,2 Language Models are Few-Shot Learners. May 28, 2020. 
  28. 28,0 28,1 28,2 „ML input trends visualization“ (en). Epoch. Qaraldı: 2-may 2023-jıl.
  29. 29,0 29,1 Ver Meer. „ChatGPT Statistics“ (en). NamePepper (1-iyun 2023-jıl). Qaraldı: 9-iyun 2023-jıl.
  30. "GPT-4 has more than a trillion parameters – Report". March 25, 2023. https://the-decoder.com/gpt-4-has-a-trillion-parameters/. 
  31. Vincent. „Google opens up its AI language model PaLM to challenge OpenAI and GPT-3“. The Verge (14-mart 2023-jıl).
  32. „Google Opens Access to PaLM Language Model“.
  33. Iyer. „Meet GPT-JT, the Closest Open Source Alternative to GPT-3“. Analytics India Magazine (30-noyabr 2022-jıl).
  34. „Meta Debuts AI Language Model, But It's Only for Researchers“. PCMAG.
  35. Islam. „Multimodal Language Models: The Future of Artificial Intelligence (AI)“ (27-mart 2023-jıl). 15-may 2023-jılda túp nusqadan arxivlendi. Qaraldı: 15-may 2023-jıl.
  36. Islam. „How Do DALL·E 2, Stable Diffusion, and Midjourney Work?“ (14-noyabr 2022-jıl).

Silteme kórsetiwdegi qátelik: <ref> tag with name "instructgpt-blog" defined in <references> is not used in prior text.
Silteme kórsetiwdegi qátelik: <ref> tag with name "instructgpt-paper" defined in <references> is not used in prior text.

Silteme kórsetiwdegi qátelik: <ref> tag with name "chatgpt-blog" defined in <references> is not used in prior text.