DALL·E, DALL·E 2 hám DALL·E 3 (DOLL-E dep aytıladı) - bul OpenAI tárepinen jaratılǵan tekstten-súwretke modellerI bolıp, "prompts" dep atalatuǵın tábiyiy til sıpatlamalarınan cifrlı súwretler jaratıw ushın tereń oqıtıw metodologiyaların qollanadı.

DALL-E niń birinshi versiyası 2021-jıldıń yanvar ayında járiyalandı. Keyingi jılı onıń miyrasxorı DALL-E 2 shıǵarıldı. DALL·E 3 2023-jıldıń oktyabr ayında ChatGPT Plus hám ChatGPT Enterprise klientleri ushın ChatGPT ge nativ túrde qosıldı,[1] al noyabr ayınıń basında OpenAI dıń API[2] hám "Labs" platforması arqalı qoljetimli boldı.[3] Microsoft bul modeldi Bing niń Image Creator quralına engizdi hám onı óz Designer qollanbasına engiziwdi jobalastırıp atır.[4]

Tariyxı hám fon

DALL·E 2021-jıldıń 5-yanvarında OpenAI tárepinen blog jazbasında ashıldı hám súwretler payda etiw ushın ózgertilgen GPT-3 versiyasın qollanadı.

2022-jıldıń 6-aprelinde OpenAI "túsiniklerdi, qásiyetlerdi hám stillerdi biriktire alatuǵın" joqarı ólshemli kóbirek realistik súwretler payda etiw ushın dizayn etilgen DALL·E 2 ni járiyaladı.[5] 2022-jıldıń 20-iyulinde DALL·E 2 beta basqıshına ótti, bunda 1 million adamǵa shaqırıw jiberildi; paydalanıwshılar hár ayda belgili sandaǵı súwretlerdi biypul payda ete aladı hám qosımsha satıp ala aladı.[6] Burın etika hám qáwipsizlik sebepli izertlep kóriwi ushın aldınnan tańlanǵan paydalanıwshılarǵa sheklengen edi.[7] 2022-jıldıń 28-sentyabrinde DALL·E 2 hámme ushın ashıq boldı hám kútiw dizimi talabı alıp taslandı. 2023-jıldıń sentyabrinde OpenAI aldıńǵı versiyalarǵa qaraǵanda "áhmiyetli dárejede kóbirek náziklik hám detallarǵa túsine alatuǵın" eń jańa súwret modeli DALL·E 3 ti járiyaladı. 2022-jıldıń noyabr ayınıń basında OpenAI DALL·E 2 ni API retinde shıǵardı, bul programma islep shıǵıwshılarǵa modeldi óz qollanbalarına biriktiriw imkaniyatın berdi. Microsoft DALL·E 2 niń ámelge asırılıwın óziniń Designer qosımtasında hám Bing hám Microsoft Edge te kiritilgen Image Creator quralında ashıp kórsetti. API súwret basına qun tiykarında isleydi, súwret ólshemi boyınsha bahalar ózgeredi. OpenAI dıń kárxana toparı menen isleytuǵın kompaniyalar ushın kólemli jeńillikler bar.[8]


Programmanıń atı Pixardıń animaciyalı robot personajı WALL-E hám katalan syurrealist súwretshisi Salvador Dali atlarınıń portmantosı (birlesken atı) bolıp tabıladı.

2024-jıldıń fevral ayında OpenAI DALL-E payda etken súwretlerge suw belgiler qosıwdı basladı, olar mazmunnıń haqıyqıylıǵı baslaması tárepinen kóterilgen C2PA (Mazmunnıń túpnusqalıǵı menen haqıyqıylıǵı koaliciyası) standartındaǵı metamaǵlıwmattı óz ishine aladı.[9]

Texnologiya

Birinshi generativ aldınnan tayarlanǵan transformator (GPT) modeli dáslepki OpenAI tárepinen 2018-jılı [10] Transformator arxitekturasın qollanıp rawajlandırıldı. Birinshi iteraciya, GPT-1,[11] 2019-jılı GPT-2 ni [12] payda etiw ushın keńeytildi; 2020-jılı ol 175 milliard parametr menen GPT-3 ti payda etiw ushın qaytadan keńeytildi.[13][14][15]

DALL-E

DALL·E úsh komponentten turadı: diskret VAE, GPT-3 ke uqsas avtoregresiv tek-dekoder Transformator (12 milliard parametr) hám súwret kodları menen tekst kodlarınan ibarat CLIP jubı.[16]

Diskret VAE súwretti tokenler izbe-izligine aylandıra aladı hám kerisinshe, tokenler izbe-izligin qaytadan súwretke aylandıra aladı. Bul Transformer tikkeley súwret maǵlıwmatların qayta islemeytuǵınlıǵı sebepli zárúr.

Transformator modeliniń kirisi - tokenlestirilgen súwret jazıwı izbe-izligi hám onnan keyingi tokenlestirilgen súwret bólekleri. Súwret jazıwı inglis tilinde bolıp, bayt jup kodlawı menen tokenlestiriledi (sózlik kólemi 16384) hám 256 tokenga shekem uzın bola aladı. Hár bir súwret 256×256 RGB súwret bolıp, hár biri 4×4 bolǵan 32×32 bólekke bólinedi. Keyin hár bir bólek diskret variaciyalı avtoenkoder arqalı tokenge (sózlik kólemi 8192) aylandırıladı.

DALL·E CLIP (Kontrastlı Til-Súwret Aldınnan oqıtıw) penen birge rawajlandırıldı hám járiyalandı. CLIP - bul kontrastlı úyreniwge tiykarlanǵan jeke model bolıp, ol internetten jıynalǵan tekst jazıwları bar 400 million súwret juplıǵında úyretilgen. Onıń wazıypası - maǵlıwmatlar jıynaǵınan tosınnan tańlanǵan 32,768 jazıwdıń diziminen (olardıń biri durıs juwap bolǵan) qaysı jazıwdıń súwretke eń sáykes ekenin boljaw arqalı DALL·E niń shıǵısın "túsiniw hám dárejelew".

Úyretilgen CLIP juplıǵı DALL·E tárepinen payda etilgen súwretlerdiń úlken dáslepki dizimin filtrlew ushın qollanıladı, bunda tekst sorawına eń jaqın súwretti tańlaw ushın.[17]

DALL-E 2

DALL·E 2 aldınǵı versiyasına qaraǵanda kishi bolǵan 3.5 milliard parametrdi qollanadı. Avtoregresiv Transformator ornına, DALL·E 2 CLIP súwret jaylastırıwlarına negizlengen diffuziya modelin qollanadı, bul jaylastırıwlar, juwmaq shıǵarıw waqtında, aldınǵı model arqalı CLIP tekst jaylastırıwlarınan payda etiledi. Bul birneshe aydan keyin shıǵarılǵan Stable Diffusion menen birdey arxitektura.

Múmkinshilikler

DALL·E fotorealistik súwretler, súwretler hám emodziler qosılǵan kóp túrli stildegi súwretlerdi payda ete aladı. Ol óziniń súwretlerindegi obyektlerdi "manipulyaciyalaw hám qayta ornalastırıw" múmkinshiligine iye, hám anıq kórsetpesiz jańa kompoziciyalarda dizayn elementlerin durıs ornalastıra aladı. BoingBoing ushın jazǵan Thom Dunn bılay dep atap ótti: "Mısalı, daikon túrpisiniń murnın tartıp atırǵan, látte ishiw yamasa bir dóńgelekli velosipedti aydap atırǵan etip súwret salıw soralǵanda, DALL·E kóbinese oramaldı, qollardı hám ayaqlardı itimallı orınlarda súwretleydi." DALL·E anıq kórsetpeler bolmasa da, sáykes detallarǵa juwmaq shıǵarıw ushın "bos orınlardı toltırıw" qábiletin kórsetti, mısalı, bayramǵa baylanıslı kórsetpelerge Rojdestvo súwretlerin qosıw hám olardı tilge almaǵan súwretlerge sáykes kóleńkeler qoyıw. Sonıń menen bir qatarda, DALL·E vizual hám dizayn tendenciyaların keń túsiniwdi kórsetedi.[18]

DALL·E hár túrli kóz-qaraslardan kóp túrli erkin sıpatlamalar ushın súwretler payda ete aladı, tek siyrek jaǵdaylarda ǵana sátsizlikke ushıraydı. Georgia Tech School of Interactive Computing nıń docenti Mark Riedl DALL-E niń túsiniklerdi biriktire alıwın (adam dóretiwshiliginiń tiykarǵı elementi dep táriyiplegen) anıqladı.

Onıń vizual pikirlew qábiletliligi Raven Matricaların (adamlardıń intellektin ólshew ushın kóbinese qollanılatuǵın vizual testler) sheshiw ushın jetkilikli.

 
DALL·E 3 tárepinen "Terapevttiń orınlıǵında otırǵan, ortalıǵında shuqanaq ólshemindegi tesigi bar 'Ishimde sonday boslıqtı sezemen' dep aytıp atırǵan avokado súwreti. Terapevt, qasıq, notalardı jazıp atır" degen tekst sorawı tiykarında payda etilgen anıq tekst súwreti.

DALL·E 3 aldınǵılarına qaraǵanda quramalı sorawlardı kóbirek anıqlıq hám detallar menen orınlaydı, hám kóbirek izbe-iz hám anıq tekst payda ete aladı. DALL·E 3 ChatGPT Plus qa biriktirilgen.

Súwretti ózgertiw

Bar súwret berilgende, DALL·E 2 dáslepki súwret tiykarında onıń "variantların" ayırım shıǵıslar retinde payda ete aladı, sonday-aq súwretti ózgertiw yamasa keńeytiw ushın redaktorlaw múmkin. DALL·E 2 niń "inpainting" hám "outpainting" funkciyaları berilgen soraw boyınsha dáslepki súwret penen úylesimli bolǵan ortalıqtı qollanıp, súwrettiń kontekstin joǵalǵan bólimlerdi toltırıw ushın qollanadı.

Mısalı, bul súwretke jańa obyekt kirgiziw yamasa súwretti dáslepki shegara sırtına keńeytiw ushın qollanılıwı múmkin. OpenAI ǵa muwapıq, "Outpainting dáslepki súwrettiń kontekstin saqlaw ushın súwrettiń bar vizual elementlerin - kóleńkeler, shaǵılısıwlar hám teksturalar qosıp esapqa aladı."

DALL•E 2 járdemi menen jaratılǵan “Inju sırǵalı qız” eki “variaciyası”

Texnikalıq sheklewler

DALL·E 2 niń til túsiniw qábiletiniń sheklewleri bar. Ol geyde "Sarı kitap hám qızıl vaza"nı "Qızıl kitap hám sarı vaza"dan yamasa "Panda latte ónerin islep atır"dı "Pandanıń latte óner"inen ayıra almaydı. Ol "astronavtqa mingen at" degen soraw berilgende "astronavt atqa minip atır" degen súwretlerdi payda etedi. Ol sonday-aq hár túrli jaǵdaylarda durıs súwretlerdi payda etiw múmkinshiligine iye emes. Úshten artıq obyekt soraw, biykarlaw, sanlar hám baylanısqan gápler qáteliklerge alıp keliwi múmkin, hám obyekt ózgeshelikleri nadurıs obyektte payda bolıwı múmkin. Qosımsha sheklewlerge tekstti qayta islew kiredi - bul, háripleri oqıwǵa bolatuǵın bolsa da, derlik barlıq waqıtta túske uqsas qolaysızlıqlarǵa alıp keledi - hám astronomiya yamasa medicinalıq súwretler sıyaqlı ilimiy maǵlıwmatlardı qollaw boyınsha imkaniyatı sheklengen.

 
"Tanukige siltep turǵan adam, sóylew kóbiginiń ishinde 'これは狸です!' dep jazılǵan" degen sorawdı qollanıp yapon tilin payda etiw talabı, nátiyjesinde teksttiń mánissiz kanji hám kana menen kórsetiliwin beredi.

Etikalıq tásirler

DALL·E 2 niń ashıq maǵlıwmatlar jıynaqlarına súyeniwi onıń nátiyjelerine tásir etedi hám ayırım jaǵdaylarda algoritmlik qátelikke alıp keledi, mısalı, jınıstı atap ótpegen sorawlar ushın hayallarǵa qaraǵanda erkeklerdi kóbirek payda etiw. DALL·E 2 niń úyretiw maǵlıwmatları zorlıq-zombılıq hám seksual súwretlerdi alıp taslaw ushın filtrlendi, biraq bul ayırım jaǵdaylarda birjaqlılıqtı arttırıwǵa alıp keldi, mısalı, payda etilgen hayallar sanın azaytıw. OpenAI bul úyretiw maǵlıwmatlarında hayallardıń kóbirek seksuallanadı dep boljaydı, bul filtrdiń nátiyjelerge tásir etiwine sebep bolǵan. 2022-jıldıń sentyabrinde OpenAI The Verge ge basılımına DALL·E nátiyjelerdegi birjaqlılıqtı saplastırıw ushın paydalanıwshı sorawlarına kórinbeytuǵın sózlerdi kirgizetuǵının tastıyıqladı; mısalı, jınıs yamasa násildi kórsetpegen sorawlarǵa "qara erkek" hám "aziyalı hayal" sózleri kirgiziledi.

DALL·E 2 hám usaǵan súwret payda etiw modelleri haqqında alańlaw - olar deepfake hám basqa da dezinformaciya túrlerin tarqatıw ushın qollanılıwı múmkin. Bunı azaytıw ushın, programma ashıq jeke adamlardı qamtıǵan sorawlardı hám adam júzlerin qamtıǵan júklengen súwretlerdi qabıl etpeydi. Potencial jaman mazmundı qamtıǵan sorawlar bloklangan, al júklengen súwretler jaman materiallar tabıw ushın analiz etiledi. Sorawǵa tiykarlanǵan filtrlew kemshiligi - bunnan uqsas nátiyje beretuǵın alternativ sózlerdi qollanıp ańsat ótip ketiw múmkin. Mısalı, "qan" sózi filtrlengen, biraq "ketchup" hám "qızıl suyıqlıq" filtrlenbegen.

DALL·E 2 hám usıǵan uqsas modeller haqqında basqa bir alańlaw - olardıń anıqlıǵı hám keń tarqalǵanlıǵı sebepli súwretshiler, fotograflar hám grafikalıq dizaynerler ushın texnologiyalıq jumıssızlıqqa alıp keliwi múmkin. DALL·E 3 paydalanıwshılardıń házirgi waqıtta jasap atırǵan súwretshilerdiń stilinde kórkem óner payda etiwine tosqınlıq qılıwǵa dizaynlanǵan.

2023-jılı Microsoft AQSH Qorǵanıw Ministrligi ushın DALL·E modellerinen urıs maydanın basqarıw sistemasın úyretiw ushın paydalanıwdı usındı.[19] 2024-jıldıń yanvar ayında OpenAI óziniń paydalanıw siyasatınan áskeriy hám urıs maqsetlerinde paydalanıwǵa qoyılǵan ulıwma tıyım salıwdı alıp tasladı.[20]

Qabıllaw

 
DALL·E tárepinen "tutuda kiyinip, iyt penen seyil etip júrgen jas daikon túrpiniń súwreti" degen soraw boyınsha payda etilgen súwretler

DALL·E haqqında kópshilik jańalıqlar onıń "sırı" yamasa "qızıq" shıǵıslarınıń kishi bir bólegin názerde tutadı. DALL-E niń "tutuda kiyinip, iyt penen seyil etip júrgen jas daikon túrpiniń súwreti" ushın shıǵısı Input, NBC, Nature hám basqa basılımlarda tilge alındı. Onıń "avokado formasındaǵı orınlıq" ushın shıǵısı da keń járiyalandı.

ExtremeTech bılay dedi: "DALL·E den belgili bir waqıt dáwirindegi telefon yamasa shańsorǵısh súwretin sorawıńız múmkin, hám ol bul nárselerdiń qanday ózgergenin túsinedi". Engadget te onıń "telefonlar hám basqa nárselerdiń waqıt ótiwi menen qanday ózgergenin túsiniw" boyınsha ádettegiden tıs qábiletin atap ótti.

MIT Technology Review maǵlıwmatları boyınsha, OpenAI dıń maqsetleriniń biri "til modellerine adamlar zatlardı túsiniw ushın qollanılatuǵın kúndelikli túsiniklerdi jaqsıraq túsiniw imkaniyatın beriw" edi.

Wall Street investorları DALL·E 2 ni jaqsı qabıl etti, ayırım firmalar onıń keleshekte trillion dollar turatuǵın industriya ushın burılıs noqatı bolıwı múmkin dep esaplaydı. 2019-jıldıń ortasına kelip, OpenAI álleqashan Microsoft hám Khosla Ventures ten 1 milliard dollardan artıq ǵárejet alǵan edi, al 2023-jıldıń yanvar ayında, DALL·E 2 hám ChatGPT diń shıǵarılıwınan keyin, Microsoft ten qosımsha 10 milliard dollar qarjı aldı.

Yaponiyanıń anime jámiyeti DALL·E 2 hám usıǵan uqsas modellerge teris reakciya bildirdi. Kórkem óner iyeleriniń bul programmalıq támiyinlewge qarsı eki argumenti bar. Birinshisi, jasalma intellekt kórkem óneri - kórkem óner emes, sebebi ol adamnıń maqseti menen jaratılmaǵan. "Jasalma intellekt tárepinen jaratılǵan súwretlerdi olardıń óz jumısları menen salıstırılıwı kórkem óner iyeleriniń jumısına ketken waqıt hám sheberliktı kemsitiw hám tómenletetuǵınlıǵı. Jasalma intellekt járdeminde súwret payda etiw quralları kórkem óner iyeleriniń qattı sınına ushıradı, sebebi olar internetten alınǵan adam jaratqan kórkem óner tiykarında úyretilgen." Ekinshisi, avtorlıq huqıq nızamı hám tekstten-súwretke modelleri úyretiletuǵın maǵlıwmatlar menen baylanıslı qıyınshılıqlar. OpenAI DALL·E 2 ni úyretiw ushın qanday maǵlıwmatlar toplamı(ları) qollanılǵanlıǵı haqqında maǵlıwmat járiyalamadı, bul ayırım adamlarda kórkem óner iyeleriniń jumısı ruqsatsız úyretiw ushın qollanılǵan bolıwı múmkin degen tásirdi payda etti. Bul temalarǵa baylanıslı avtorlıq huqıq tuwralı nızamlar házirgi waqıtta anıq emes.

DALL·E 3 ti Bing Chat hám ChatGPT ǵa biriktirgennnen keyin, Microsoft hám OpenAI artıqsha mazmundı filtrlew sebepli sınǵa ushıradı, sınshılar DALL·E "lobotomiyaǵa ushıradı" dedi. "Adam server polkasın balta menen buzadı" sıyaqlı sorawlar arqalı payda etilgen súwretlerdiń belgileniwi dálil retinde kórsetildi. Onıń shıǵarılıwınıń dáslepki kúnlerinde filtrlew kúsheytildi, háttе Bing niń óziniń usınǵan sorawları menen payda etilgen súwretler de bloklanǵan dárejege jetti. TechRadar artıqsha saqlanıwdıń DALL·E niń dóretiwshilik qural retindegi qádirin sheklep qoyıwı múmkin dep esapladı.

Ashıq derek kodlı engiziwler

OpenAI úsh modeldiń hesh qaysısınıń derekt kodın járiyalamaǵanlıǵı sebepli, uqsas múmkinshiliklerdi usınıwshı ashıq kodlı modellerdi jaratıwǵa birneshe háreket boldı. 2022-jılı Hugging Face tiń Spaces platformasında járiyalanǵan Craiyon (burın DALL·E Mini, 2022-jıldıń iyun ayında OpenAI tárepinen atın ózgertiw soralǵannan keyin) - bul dáslepki DALL·E tiykarında jaratılǵan hám filtrlenbegen internet maǵlıwmatları menen úyretilgen jasalma intellekt modeli. Ol 2022-jıldıń ortalarında, óziniń kúlkili súwretler payda etiw qábiletine baylanıslı járiyalanıwınan keyin úlken media dıqqatın ózine qarattı.[21][22][23]

Sırtqı siltemeler

  • Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (2021-02-26), Zero-Shot Text-to-Image Generation, doi:10.48550/arXiv.2102.12092, qaraldı: 2024-09-06. The original report on DALL-E.
  • DALL-E 3 System Card
  • DALL-E 3 paper by OpenAI
  • DALL-E 2 website
  • Craiyon website

Derekler

  1. https://en.wikipedia.org/wiki/DALL-E#cite_note-David-2023-1:~:text=in%20October%202023-,%2C%5B1%5D,-with%20availability%20via
  2. https://en.wikipedia.org/wiki/DALL-E#cite_note-platform.openai.com-2
  3. https://en.wikipedia.org/wiki/DALL-E#cite_note-Niles-2023-3
  4. https://en.wikipedia.org/wiki/DALL-E#cite_note-Mehdi-2023-4
  5. https://en.wikipedia.org/wiki/DALL-E#cite_note-OpenAI-2-6
  6. https://en.wikipedia.org/wiki/DALL-E#cite_note-OpenAI-2022b-7
  7. https://en.wikipedia.org/wiki/DALL-E#cite_note-Allyn-2022-8
  8. https://en.wikipedia.org/wiki/DALL-E#cite_note-Wiggers-2022-14
  9. Growcoot. „AI Images Generated on DALL-E Now Contain the Content Authenticity Tag“ (en). PetaPixel (8-fevral 2024-jıl). Qaraldı: 4-aprel 2024-jıl.
  10. https://en.wikipedia.org/wiki/DALL-E#cite_note-Radford-2018-17
  11. https://en.wikipedia.org/wiki/DALL-E#cite_note-GPT-2023-18
  12. https://en.wikipedia.org/wiki/DALL-E#cite_note-Radford-2019-19
  13. https://en.wikipedia.org/wiki/DALL-E#cite_note-Brown-2020-20
  14. https://en.wikipedia.org/wiki/DALL-E#cite_note-vb-5
  15. https://en.wikipedia.org/wiki/DALL-E#cite_note-dallepaper-21
  16. https://en.wikipedia.org/wiki/DALL-E#cite_note-Ramesh-2022-22
  17. https://en.wikipedia.org/wiki/DALL-E#cite_note-Ramesh-2022-22
  18. https://en.wikipedia.org/wiki/DALL-E#cite_note-engadget-27
  19. Biddle, Sam (10 April 2024). "Microsoft Pitched OpenAI's DALL-E as Battlefield Tool for U.S. Military". The Intercept. https://theintercept.com/2024/04/10/microsoft-openai-dalle-ai-military-use/. 
  20. Biddle, Sam (12 January 2024). "OpenAI Quietly Deletes Ban on Using ChatGPT for "Military and Warfare"". The Intercept. https://theintercept.com/2024/01/12/open-ai-military-ban-chatgpt/. 
  21. https://en.wikipedia.org/wiki/DALL-E#cite_note-CNETmini-66
  22. https://en.wikipedia.org/wiki/DALL-E#cite_note-DailyDotmini-67
  23. https://en.wikipedia.org/wiki/DALL-E#cite_note-Polygonmini-68