Част 1) Обещания, обещания
Технологичният свят се е отдръпнал от своите крипто схеми и сега е изпълнен с вълнение около най-новото си любимо отроче, ГЕМ - големите езикови модели (Large Language Models (LLM), от пускането на ChatGPT на 20 ноември 2022 г. насам. ИИ е това, ИИ е онова, ИИ е всичко!
И все пак технологията е силно поляризираща. Сам Алтман прави прогнози за това как ИИ ще роди Бог, ще създаде общество на свръхизобилие и ще даде възможност за "закона на Мур за всичко". Поддръжниците на ИИ посочват потенциала му за автоматизиране на труда и анализират приликите и разликите с индустриалната революция.
Други, като изследователката Емили М. Бендър, не са толкова оптимистични относно потенциала на технологията. Тя ги нарича "стохастичен папагал", посочвайки, че мощта на способностите им не се таи в разбирането на логиката, истината или знанието, а просто в предсказването на следващата най-вероятна дума в дадена поредица.
Кой е прав? Преди грандиозните прогнози за бъдещето, човек трябва да разбере как работи технологията. Едва след като разберем как функционира технологията, можем да разберем как тя ще повлияе на обществото както в краткосрочен, така и в дългосрочен план. Какви са проблемите, присъщи на технологиите? Какво може да прави технологията, какви са някои от нейните легитимни приложения? Какви са нейните ограничения и докъде може да стигне? Това са въпросите, на които тази статия се стреми да отговори. Едва след като имаме отговорите в ръцете си, можем да започнем да спекулираме за бъдещето на изобилието, автоматизацията на труда и мечтите, които идват с всяка нова технология.
Част 2) Технологията
И така, какво представлява големият езиков модел и как работи?
Въпреки цялата реклама и мистика, основната идея е невероятно проста. За да разберете какво прави, просто довършете следното изречение: "Ако сте гладни, трябва да ______".
Ако сте казали "ядете", тогава браво на вас! Разбирате как функционира една от най-сложните технологии. Ако сте казали нещо друго, дори не съм сигурен как сте живи в момента.
Шегата настрана, това е същността на големия езиков модел: той просто предсказва следващата най-вероятна дума (или препинателен знак, интервал и т.н., обикновено известен като "токен" - текстова единица) в поредица. За да изгради цели параграфи, ботът просто продължава да си дава предишния изход като вход и в крайна сметка стига до пълен отговор.
Тази способност за предсказване на следващия най-вероятен токен се постига чрез подаване на огромни количества данни в ГЕМ: ако прочетете целия текст, необходим за обучение на GPT-3, без никакви прекъсвания или паузи, това ще отнеме над 26 000 години при средното темпо на четене от човек.
Текстовете се въвеждат в модела с една ключова разлика: последната дума от всеки се премахва. Така например, входните данни за обучение може да бъдат първият параграф на Моби Дик, като последната дума е премахната. След това моделът отгатва последната дума. Ако е правилна, резултатът се подсилва, а ако е неправилна, тогава връзките в мрежата, генерирали този резултат, се отслабват.
Базирайки се на трилиони примери и огромни количества данни за обучение, моделът се слива с това, което наподобява човешка реч. Но в основата си той остава нещо много просто: статистическа функция, която предсказва следващата дума в изречение (като се имат предвид милиони други изречения, които е прочел).
За да се достигне нивото на ChatGPT обаче, степента на изчислителна мощност е огромна. За да я сравним отново с човешкото време, ако трябваше сами да правите всички изчисления на ръка, за да обучите ГЕМ, щяхте да седнете и да правите изчисления в продължение на над 100 милиона години. Маниашко. И това е само за обучение на модела.
След като машината е обучена, тя все още се нуждае от човешка обратна връзка, за да се увери, че не прави (или по-скоро прави в по-малка степен) неща като това да ви каже да сложите лепило върху пица. Тази стъпка се нарича "Обучение с подсилване с човешка обратна връзка" или ОПЧОВ (Reinforcement Learning from Human Feedback (RLHF). Суровият резултат от модела се преглежда от човешки работници и се маркира като полезен, неполезен, безсмислен или активно вреден. Това помага за по-нататъшното обучение на модела.
Последователното предсказване на токени обаче съществува от дълго време и е лесно да се измислят методи, за да се направи. Сетете се за нашия оригинален пример: "Ако сте гладни, трябва ______". Един наивен начин за предсказване на следващата дума може да бъде преглед на целия обучителен текст, за да се намерят всички случаи на думата "should" (трябва) и след това просто намиране на най-честата следваща дума. Ако трябваше да гадая, най-честата следваща дума вероятно е "be" (бел. ред. - текстът е писан за News.bg на английски, тъй като авторът е американец. Оригиналният пример е: "If you are hungry, you should... eat". В английския най-логично след "should" идва "be", преведена на български може да е "да си", така че изречението ще звучи: "Ако си гладен, трябва... да си"), което ще доведе до умиране от глад. И така, как ChatGPT постига по-добри резултати?
Има две огромни подобрения, които ГЕМ правят спрямо нашия наивен предсказвач, на които искам да обърна внимание: вграждания и внимание (embeddings and attention).
Вгражданията са списък с числа, които представляват определена дума. Когато ChatGPT предсказва следващата дума, той не вижда думите такива, каквито ги виждаме ние, а по-скоро като вектор. Например, той ще види нещо като king (бел. ред. - думата е "крал") = [.01, .9, .023, .4]. Тези списъци с числа не са проектирани от хора: моделът ги създава по време на обучение, като ги коригира милиарди пъти, докато подобни думи не завършат с подобни числа. Магията е, че думите с подобни значения също завършват с подобни числа. "Крал" и "Кралица" живеят заедно в това математическо свръхизмерно пространство, докато "Крал" и "Велосипед" живеят далеч една от друга. Всъщност, вгражданията вършат толкова добра работа по улавянето на значението на думата, че дори е възможно да се събират и изваждат. Например, какъв е отговорът на следното уравнение? КРАЛ - МЪЖ + ЖЕНА = ???? Ако сте получили КРАЛИЦА, тогава сте прави! Удивителното при вгражданията е, че ако съберете и извадите числата, свързани с тези думи, ще получите вектор, който е много близък (но не точно) като вектора за КРАЛИЦА. Обясняваме всичко това, за да докажем, че ГЕМ не предсказват следващата дума, а предсказват следващия математически обект, който представлява дума - дума, богата на значение.
Вниманието е другото специално допълнение, което позволява на ChatGPT да функционира толкова добре. Отговорът е архитектурата на Трансфoрматора (Transformer): "T"-то в ChatGPT (което, за съжаление, не се отнася до хората, които се борят с Десептиконите). Думата "трансформатор" е препратка към статия на Google от 2017 г., наречена "Вниманието е всичко, от което се нуждаете" ("Attention is all you need"), която очертава нова архитектура за невронна мрежа, наречена "Трансформаторна".
На високо ниво, Трансформаторът позволява на всяка дума в изречението да "вижда" и да бъде повлияна от думите около нея. Това се нарича внимание. Например, има двусмислие в думата банка (bank). На английски тя може да означава или речен бряг, или финансова институция, но ако кажа "хайде да ограбим банка", знаете точно какво имам предвид. Архитектурата на Трансформатора позволява на модела да добави контекст от думата "ограби" към думата "банка", за да разбере, че говорим за финансова институция.
Но как всъщност моделът изпълнява този трик? Под капака на този технологичен двигател всяка дума изчислява две неща: Заявка (Query) или "какво търся?" и Ключ (Key) или "каква дума съм аз, за да могат другите да ме намерят?" Моделът сравнява всяка Заявка с всеки Ключ. Когато съвпадат, информацията преминава от ключовата дума към думата Заявка. В "ограби банка" думата "ограби" има заявка, търсеща "неща, които можеш да ограбиш". Думата "банка" има Ключ, който казва "Аз съм нещо, което може да бъде ограбено". Те съвпадат и значението на "ограби" актуализира значението на "банка", което го прави недвусмислено спрямо пари, а не речни брегове.
След прилагането на внимание, актуализираните вектори на думите преминават през "многослоен перцептрон" ("multi-layer perceptron"), който представлява малка невронна мрежа, добавяща фактически знания от обучението. Повторете този процес десетки пъти (GPT-3 го прави 96 пъти) и всяка дума се превръща в плътен пакет от контекст и памет. Накрая моделът разглежда вектора на последната дума и предсказва следващия токен. Това е Трансформаторът. Все още само предсказване на следващата дума, но със сложен механизъм за контекст.
Вгражданията и вниманието са двете основни подобрения, които ГЕМ имат в сравнение с нашия наивен предсказвач на следващата дума. Той е научил, че "крал" и "кралица" си правят компания и е разбрал, че "ограби" се разграничава от значението на "морски/речен бряг" (бел. ред. - в случая на оригиналния текст river bank). Впечатляващо! Но ето уловката: предсказването не е разбиране. Дори ако машината е наистина, наистина добра в предсказването на следващата дума в изречение, това не е същото като разбирането на изречението. Но как е различно и какво означава това по отношение на ограниченията на технологията? Тези въпроси са разгледани в следващия раздел.
Част 3) Човешката мисъл и следващото "токен" предсказание
Всички сме чували за теста на Тюринг - идеята, кръстена на Алън Тюринг, че ако някой не може да реши дали говори с човек или с машина, тогава каквото и да е, с което говори, е на практика съзнателно. Отговаряйки на въпроса "Могат ли машините да мислят?", Тюринг е искал да се съсредоточи върху поведението на машината, вместо да пита дали машината има психически състояния.
Това преминаване от въпроса за психичните състояния към имитиране на поведение е възприето от поддръжниците на LLM като доказателство, че технологията е агентивна, тъй като LLM вършат толкова чудесна работа с имитирането на текст. Но (както видяхме) това е просто предсказване на следващия токен, използвайки огромно количество статистически изводи: няма разбиране, няма разсъждение, няма логика.
За да подсилите отново тезата, че тези чатботове не мислят или разсъждават, можете да направите малък експеримент. Седнете и играйте шах с ChatGPT. Не само че се играе зле, но след около 20 хода се разваля и започва да прави незаконни ходове. Въпреки факта, че е прочел всяка книга, писана някога по темата за шаха, той все още не разбира правилата. С развитието на играта в невидими позиции, той не може да предсказва нови вероятни "токени" и просто казва неща, които може да звучат правилно, но в крайна сметка нямат никаква истина в тях.
Това е довело до това изследователите да нарекат технологията "стохастичен папагал" (стохастично - случайно, непредвидимо поведение): стохастичен, защото е случаен, и папагал, защото имитира това, което е видял в своя набор от данни. Този термин идва от статия от 2021 г., озаглавена "За опасностите от стохастичните папагали: Могат ли ГЕМ да бъдат твърде големи?" от Тимнит Гебру и др. По време на публикуването Гебру е била съръководител на екипа за етичен изкуствен интелект на Google. Google е помолил Гебру да оттегли статията. Когато тя отказала, е била помолена да напусне компанията. И така, какви са проблемите, свързани с ГЕМ - тези "стохастични папагали?" Е, едното е склонността му да измисля неща на случаен принцип (тъй като е стохастичен), а другото е склонността му да повтаря чутото, без да го поставя под въпрос (следователно е папагал). Нека разгледаме по-подробно тези въпроси.
Ограничение 1: Халюциниране - моделите са непредвидими
Фундаментален проблем с ГЕМ е склонността им да халюцинират, т.е. да дават отговор, генериран от изкуствен интелект, който съдържа невярна или подвеждаща информация, представена като факт. Накратко, машината лъже.
Тези лъжи могат да варират от забавни/безобидни/очевидно неверни (като случая, в който се казва, че в един килодомат има 1000 домата) до очевидно неверни, но опасни (като случая, в който се препоръчва "лепило за пица" - очевидно ананасът не е достатъчен в днешно време) до катастрофални за компанията, тъй като информацията изглежда вярна, но не е (като случая, в който собственият чатбот на Cursor създаде фирмена политика, която накара много хора да се откажат от услугата му).
Това е дългосрочен и траен проблем, който присъства в технологията от първия ден.
В репортаж Би Би Си публикува доклад относно това колко добър е изкуственият интелект в обобщаването на новините. Отговорът е, че не е добър, и за съжаление трябва да напиша тази статия на ръка. Екипът на Би Би Си за отговорен изкуствен интелект взел 100 популярни въпроса за търсене в Google, свързани с новините от 2024 г. (напр. "Колко руснаци са загинали в Украйна") и ги задал на четири ГЕМ: ChatGPT-4o, Google Gemini Standard, Perplexity и Microsoft Copilot Pro. Те помолили ГЕМ да "използват източници на BBC News, където е възможно".
Останали 362 отговора, след като били изключени тези, на които ГЕМ отказали да отговорят. След това екипът (експерти по въпросните теми) потърсил проблеми в новините, обобщени от ГЕМ, и бил помолен да търси "значителни" или "някои" проблеми по показателите за точност, яснота, контекст, редакционна подготовка и справедливо представяне.
Резултатите били ужасни. 51% от всички отговори били посочени като имащи проблем в една от тези категории, като най-лошата категория е точността, като 31% от обобщенията имали значителна неточност. Това включвало "дати, числа и фактически твърдения", които не били в статиите, или цитати, които били "или променени от оригиналния източник, или не са присъствали в статията".
Това се случва, защото в крайна сметка, ГЕМ гадаят следващата дума и не се опитват да разберат истината. Може ли халюцинацията да бъде спряна? Някои хора предлагат просто да им се дадат повече данни и повече изчислителна мощност. Но един от големите проблеми е, че има недостиг на данни! Настоящите модели вече се обучават върху почти всички данни, които хората някога са създавали, така че не е възможно да се получат повече. Като заобиколно решение, някои изследователи се опитват да накарат ГЕМ да създават повече данни, които след това могат да се използват за обучение на нови ГЕМ-и. Процес, известен като самообучение с поетапно надграждане (bootstrapping). Това се провали с гръм и трясък, което доведе до нещо, наречено колапс на модела: оказва се, че ако обучавате ГЕМ върху данни, създадени от друг ГЕМ, полученият ГЕМ просто се влошава. Толкова за сингулярността!
Още по-лошо, някои изследвания показват, че без значение колко данни или колко изчисления се използват за тези машини, халюцинациите не могат да бъдат премахнати: те са вградени в архитектурата на ГЕМ-и.
Можем ли поне да намалим процента на халюцинации? Мисля, че това е наистина важен въпрос, но е подобен на въпроса колко често сте склонни да консумирате невярна информация. Но в крайна сметка това показва, че независимо какво се случва, ГЕМ-и работят без човек в цикъла. ГЕМ-и не могат да ни заместят: в най-добрия случай те могат да ускорят работата ни, ако са достатъчно ефективни.
Ограничение 2: Откритие - папагал е!
Тъй като тези машини са обучени да предсказват най-вероятната дума в изречение въз основа на това, което е било преди, съчетано с липса на разбиране на семантиката, ГЕМ имат вродена склонност към повторение на това, което присъства преди това в текстовете на документа. Това означава, че ако нещо е добре установено и се отговаря много пъти правилно в неговите данни за обучение, ГЕМ е много вероятно да го направи правилно. Например столицата на България е София. Въпреки това, ако нещо не се появява преди в неговите данни за обучение, това означава, че ГЕМ е много малко вероятно да заяви това като факт. Тъй като ГЕМ-и могат да повтарят само това, което е било преди, това ги прави ограничено използваеми за неща, които са извън техния набор от данни за обучение. Най-забележителният пример за това е научно откритие.
Други големи имена в сферата също са съгласни с този анализ. Както Томас Улф (съосновател и главен научен директор на Hugging Face), така и Ян Лекун (главен учен по изкуствен интелект в Meta и един от "кръстниците на изкуствения интелект") не смятат, че ГЕМ ще замени учените в скоро време. Волф, например, ни моли да си представим ГЕМ, който е бил обучен върху данни до откритието на Коперник, че Земята всъщност не е центърът на Слънчевата система. Всички текстове в света биха казали неща като "Земята е центърът на Слънчевата система". Това означава, че ако учен зададе въпроса на ГЕМ: "Центърът на слънчевата система е _____", най-вероятната следваща дума ще бъде "Земя" и науката никога няма да напредне. "Ученият не се опитва да предскаже най-вероятната следваща дума. Той се опитва да предскаже това много ново нещо, което всъщност е изненадващо малко вероятно, но всъщност е вярно", казва Улф.
Ян Лекун повтаря това мнение. "Идеята, че ще имаме център за данни, който е гений, е пълна глупост, няма абсолютно никакъв начин. Това, което ще имаме, може би, са системи, които са обучени на достатъчно големи количества данни, че всеки въпрос, който всеки разумен човек може да зададе, ще намери отговор чрез тези системи... Не система, която може да измисля решения на нови проблеми, което всъщност е докторантурата... Изобретяването на нови неща изисква вид умение и способности, които няма да получите от ГЕМ."
Тази загриженост е разширена и до моралното измерение от оригиналния документ за "стохастичен папагал". ИИ ще бъде по-вероятно да вижда, чете и разбира социалните гледни точки, които са доминиращи в обществото. Но както всички знаем, само защото нещо е популярно, не го прави истина. И това е урок, който ChatGPT все още трябва да научи.
Част 4) За какво все пак са полезни и как могат да се ползват?
Те са полезни за сценарии с нисък залог, където правилният отговор ще бъде очевидният, непротиворечащ на интуицията, с много примери, съществуващи в набора от данни. Първото нещо, което идва на ум, е програмирането. Отговорът на въпроса как да центрирате div <><> към цели уеб страници е разпространен в интернет. Трафикът на Stack Overflow (Уикипедията на програмистите) е спаднал рязко откакто ИИ се появи, което показва, че професионалните програмисти се доверяват на софтуера. И ако програмист направи грешка, никой не умира (въпреки че един програмист струва на компанията си 42 000 долара, работейки с ГЕМ). Така че дори в тази област може да има последствия и генерираният код трябва да се обработва от експерт програмист.
ГЕМ може да ви спести време, но не може да ви спести разбиране. Ако се използва като "средство за съкращаване на натисканията на клавиши", технологията има шанс да бъде умножител на силата: увеличавайки вашия производствен капацитет. Но технологията не е панацея, тя няма да разбере Вселената, няма да ни даде Бог и няма да замени труда, независимо колко много тези, които я създават, биха искали това.
В тази статия разгледахме как ГЕи работят като предсказващ инструмент за следващ токен. Разгледахме разликите между ГЕМ и хората, като заключихме, че те са "стохастичен папагал" и изследвахме присъщите им ограничения. Дали това е пълна автоматизация на умствения труд? Не. Човекът трябва да остане част от процеса.
В следващата статия искам да разгледам как тази технология ще повлияе на обществото. Силициевата долина (Silicon valley - най-известният център за високотехнологични иновации, разположен в Калифорния) направи огромен залог на факта, че тази панацея ще реши икономическите им проблеми. Инвестират милиарди, а все още нито една от тези компании не е печеливша, като възможностите на техните модели стагнират. Какви са политическите последици от огромната сума, инвестирана в такава оскъдна технология? Ще проучим скоро.
USD
CHF
GBP