Митасов Андрей Павлович. Металоция неведомого. Модуль Б. Базис

Митасов Андрей Павлович : другие произведения.

Металоция неведомого. Модуль Б. Базис

Самиздат: [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]

Ссылки:

Школа кожевенного мастерства: сумки, ремни своими руками

Комментарии: 1, последний от 19/05/2023. © Copyright Митасов Андрей Павлович (apm@tut.by) Размещен: 19/05/2023, изменен: 05/01/2025. 398k. Статистика. Эссе: Философия, Естествознание, Изобретательство Металоция неведомого Иллюстрации/приложения: 22 шт. Скачать FB2		Ваша оценка:
Аннотация: Размышления о базисе человеческой и "иной" логик. Крайнее обновление 05.01.2025.

И то, что было - набело,

Откроется потом.

Мой рок-н-ролл - это не цель и даже не средство.

Не новое, а заново,

Один и об одном.

Дорога - мой дом и для любви это не место.

........

Трек группы Би-2

Посвящается моим учителям и наставникам:

Людмиле Александровне (учительнице химии)

Юлии Борисовне (учительнице математики)

Изабелле Алексеевне (учительнице английского языка)

Ванде Викторовне (учительнице русского языка)

Наталья Николаевна (предподавателю математики)

Людмиле Ивановне (наставник по человечности)

Валентине Борисовне (преподавателю ТРИЗ)

Михаилу Федоровичу (тренеру парусного спорта)

Михаилу Федоровичу (учителю физики)

Владимиру Ивановичу (преподаватею спецпредмета и научному руководителю)

Игорю Борисовичу (преподавателю спецпредмета и научному руководителю)

Волюславу Владимировича (преподавтелю ТРИЗ)

Геннадию Викторовичу (наставник по СЦБ)

Федору Серафимовичу (наставник по СЦБ)

и многим, многим другим,

имена которых уже подзатерлись в памяти

и только в душе сохранился их образ,

пытающихся вложить в мою голову и сердце,

что-то очень важное и труднопередаваемое словами.

Оглавление:

Вместо введения.

"Геометрия" пространства, как "базис" человеческой и иных логик.

Экономика как пространство/логика дробной размерности.

Экология - система с целым спектром дробных размерностей.

Немного о математике "дробно-отрицательных" размерностей.

На подступах к "иной" логике нейронок.

Первый вариант концепции "мультифрактального спектра" ГПТэшек.

Анализ концепции "мультифрактального спектра" ГПТэшек.

О логике ГПТэшек в "стандартном представлении".

Лето, кончилось лето...

"Чудо ожившего и обретшего самостоятельность языка".

"И снова Анискин", то бишь, фракталы, теперь функциональные.

Как принято сейчас объяснять поведение "черного ящика" ИИ-системы.

Небольшое отступление об аксиоматическом подходе.

Вероятностно-логические кварки.

На пути к пространству вероятностной памяти.

"Заковыристая" структура вектора эмбеддинга.

Каково же оно "пространство эмбеддингов" нейронки?

Анизотропия и внутренняя размерность "пространства эмбеддингов".

Многоуровневость "пространства решений" нейронок.

Хорошие вопросы по дробной размерности.

Иллюстрация:

Композиция "Букетик ландышей" от "Модели Kandinsky 2.1"

Бриг "Букетик ландышей" от "Модели Kandinsky 3.0".

Композиция "Вероятностно-логические кварки" от Bing.

Композиция "Пространство вероятностной памяти" от Bing.

Композиция "Пространство эмбеддингов" от Bing.

Бриг "Букетик ландышей" от "Модели Kandinsky 3.01".

Бриг "Букетик ландышей" от "Модели Kandinsky 3.1".

=========

01.05.2023 9:14

Вместо введения.

В оглавление.

Даже не знаю с чего начать этот модуль,

первый из действительно "философской" тематики.

Хочется как-то связать мысли о традиционно философских вопросах

с тематикой других модулей, посвященных разным аспектам "нейронок".

Ладно, попробуем так.

Успехи нейронок в обработке человеческих текстов и генерации

вполне вменяемых ответов на достаточно сложные вопросы

поставили новые вопросы, которые можно точно отнести к "философским".

Формулировки их могут быть весьма различными,

но суть их заключается в том "как это им удается".

Вариант ответа, что сие есть результат статистической обработки,

на мой взгляд, является далеко "не полным" и больше похожим

на "нас утешающий обман".

Вот и хочется в этом вопросе по-разбираться.

С одной стороны,

"логика нейронок" явно не соответствует "человеческой логике",

с другой стороны,

она достаточно работоспособна и довольно эффективна.

Попытки загнать эту "логику нейронок" в "прокрустрово ложе"

нашей "человеческой логики" не прекращались никогда,

и, наверно, не прекратятся никогда с той или иной долей успеха.

Но если раньше эти усилия были большей частью "теоретические"

в смысле больше в "объяснительном ключе",

то сейчас это более практические меры по "выравниванию"

или "приглаживанию" больших языковых моделей

в "рамки допустимости/предсказуемости/приличия".

Не берусь предсказывать результативность этих усилий,

это, на мой взгляд, для самого "философского вопроса"

уже не суть важно.

Важен сам факт - человечество столкнулось с иной "логикой",

и не когда-то там, на далеких просторах Галактики,

о чем столько раз представляли в самых разных ситуациях писатели-фантасты,

а вот прямо сейчас и "у себя под боком", причем в "рукотворном виде",

т.е. доступном для достаточно сложных исследований и экспериментов.

Естественно, с соблюдением определенной "техники безопасности".

Т.е. это можно рассматривать, как еще один экзамен для человечества,

перед выходом в действительно "далекий космос".

Суть его, на мой взгляд,

способно ли человечество понять "НЕчеловеческую" логику

и как оно, вообще, отнесется к самому факту возможности наличия

в беЗконечном Мироздании чего-то отличного от "человеческой логики".

Одной из составляющих успешного прохождения этого экзамена.

это признание факта, что "человеческая логика"

не есть "единственно возможная" и "единственно верная".

Другая составляющая, это как "понять" эту "иную логику"

в терминах "привычной человеческой логики".

Третья составляющая, это как можно обогатить "человеческую логику"

элементами "иной логики".

Мироздание беЗконечно и, соответственно,

возможны разные варианты ответов на эти вопросы.

Ну вот, на этом вступительное слово можно было бы и закончить,

но есть один интересный/ехидный вопрос, а точно ли мы знаем,

что есть "человеческая логика" и на чем она базируется.

Помнится, что этому вопросу посвящены многие тома/работы весьма умных людей

на протяжении, как минимум, нескольких тысячелетий.

"Копий", сломанных на "философских баталиях" по этим и близким вопросам

вообще не пересчитать.

И вряд ли что-либо новое и путное можно к ним добавить...

НО. Ситуация то ведь сейчас ДРУГАЯ, то что было раньше

в виде фантастических/сумасшедших предположений - теперь можно видеть наяву,

и есть возможность, сравнивая разные реальности,

сделать какие-то новые предположения/гипотезы

(выводами их назвать было бы очень самонадеянно)

не только об "иной", но и "своей" логике,

понимая под "логикой" всю "систему умозаключений".

=========

"Геометрия" пространства, как "базис" человеческой и иных логик.

В оглавление.

Итак, попробуем взглянуть на "базис" человеческой логики,

пытаясь сопоставить ее с чем-то аналогичным в логике нейронок.

Напомню, что под "логикой" в данном модуле рассматривается

нечто большее, фактически вся система умозаключений,

которой так гордится каждый "homo sapiens",

и что обычно считается его отличительной характеристикой

от другой "живой материи"

(про "неживую материю" вообще речи обычно нет).

Так на чем же базируется человеческая "система умозаключений"?

Обычно в ответах на этот вопрос упоминают речь, образность,

дедукцию/индукцию, законы логики и т.д. и т.п.

Спорить не буду,

все это важные и существенные элементы "системы умозаключений",

но в самом базисе, на мой взгляд, лежит "закон причинности",

а в основе этого закон, еще более фундаментальный закон

- "закон тождества" или, в крайней формулировке, "закон идентичности".

Я вообще бы назвал бы его "первым законом логики",

т.к. без него, т.е. "тождественности" чего-то чему-то хоть в чем-то,

вся человеческая "логика" рассыпается на разрозненные

и НЕсвязуемые элементы.

Но вряд ли это сильно оригинальная мысль,

может только чуть-чуть более концентрированная.

Но, если попытаться сделать шаг еще дальше

- откуда, собственно, появляется знания/идея "тождественности" -

то у нее, вроде, на мой же взгляд, только два явных основания:

это "геометрия" пространства и "самосознание" человеком самого себя.

Второе "основание" - "самосознание" - оставим пока в стороне,

уж больно скользкий/дискуссионный это вопрос

- лучше оставить его пока "профессиональным философам" -

"А голова предмет темный и исследованию не подлежит".

А вот к "геометрии" пространства стоит присмотреться по-внимательнее.

Как известно, именно "геометрия" легла в основу и естествознания и математики

и логики, в обычном ее понимании, и даже в истории философии "отметилась".

Но речь идет не столько об этом, а о том

что само представления о "тождестве" чего-то, в первую очередь самому себе,

формируется в человеческом сознании "геометрией" нашего трехмерного пространства.

Кант, как известно, вообще утверждал,

что представления о времени и пространстве человеку даются априорно.

Ну, о "времени", надеюсь, еще удастся в свое время высказать свои соображения,

но не здесь - здесь речь о пространственном базисе человеческой логике.

И не споря с Кантом об априорности "знаний о пространстве",

мне почему-то кажется, что эти самые "априорные знания"

все-таки не содержат в себе "знаний о тождественности" чего-то чему-то.

Это человек осваивает на протяжении всей своей жизни,

в самых разных формах/образах/проявлениях,

начиная с самых ранних впечатлений об окружающем мире,

большая часть которых представляет собой переход от одной "тождественности"

к другой именно в пространстве.

Безусловно, с этим можно не соглашаться, но попробую аргументировать

свою точку зрения, апелляцией, как бы это странно ни звучало, ко снам.

Наверно, большинство сны все-таки видит и что-то из них помнит,

так вот, для меня во сне самым "контринтутивным" является

не непредсказуемая логика смены "мизансцен" во времени

- это почему-то как-то во сне находит "объяснение" -

а невозможность повторить какой-то хорошо известный маршрут,

или вернуться по только что пройденному.

Во всяком случае у меня, "пространство" представляется/ассоциируется

с чем-то надежным/прочным/"самотождественным" и "интуитивно понятным".

Это, безусловно, никакое не доказательство,

хотя оно ничем не хуже Кантовской аргументации относительно

"априорных представлений о пространстве",

и приводится только как попытка проиллюстрировать,

что "представления о пространстве" могут быть куда более

интегрированы в человеческую логику,

чем просто три направления: вперед-назад, вправо-влево и вверх-вниз.

Тут надо все-таки дать пояснение, в чем отличается

"закон тождества" от "закона идентичности".

"Закон идентичности" - это продукт уже очень высокоуровневой по развитию логики,

абстрагирования и, вообще говоря, чистая, незамутненная ничем абстракция,

т.к. в реальности абсолютно идентичных "объектов" не наблюдается.

Даже если Вы смотрите на конкретный объект, обходя его со всех сторон,

то Вы видите "тождественный" объект,

а атрибут "идентичный" присваиваете уже в результате

не совсем тривиальных мыслительных актов.

Здесь можно долго дискутировать, но особого смысла в этом нет,

тут важнее понять, что человеческая "логика"

восходит от "похожего" к "тождественному" и далее к "идентичному",

тогда как "логика" нейронок "идет" как раз в обратном направлении.

И именно то, что все ступеньки на этой "лестнице" она "осваивает",

как-то совершенно иначе, чем человек,

как раз и вызывает непонимание этой "иной" логики.

Существуют предложения обучать нейронки, обеспечив им обучающие данные

в виде "виртуальной реальности", сопоставимой с нашим трехмерным пространством.

Не сомневаюсь, что такое будет делаться, "и делается уже",

хотя бы в нейронках автопилотов. Но представляется,

что это не решит полностью проблему надежности тех же автопилотов.

Проблема где-то глубже, на мой взгляд, скорее всего в обучающих алгоритмах,

и даже шире - в программах/последовательностях/методах обучения.

Что имеется в виду?

Суть обычных известных алгоритмов обучения, вовсе не в том,

чтобы получить какое-то обобщение ("похожести" или хотя бы "тождественности"),

а добиться полного соответствия, т.е. обеспечения "идентичности"

между каким-то внутренним представлением ситуации нейронкой

и требуемым выходом. Это причина того, что я называю, идти от "идентичности".

Но за счет постоянного/итеративного изменения этого представления

на большом объеме в чем-то близких и различающихся обучающих примерах,

т.е. гоняя нейронку "из угла в угол", от одной "идентичности" к другой,

есть некоторая вероятность, что в каком-то "среднем" положении,

нейронка приобретет требуемый уровень "обобщения".

И обосновать наличие такой возможности пытаются с помощью "статистики",

т.е. по факту признавая, что все это "вилами на воде писано",

и зависит во многом от "Госпожи Удачи".

Подтверждением такого взгляда на обучение нейронок, на мой взгляд,

является пресловутое "переобучение" нейронок,

когда обучающие алгоритмы, обеспечив точную настройку нейронки

на обучающие примеры, т.е. по факту выполнив требование

"обеспечения идентичности", одновременно приводят нейронку

к существенному снижению "обобщающих свойств".

(Более подробно это рассматривается в "Модуле Н. Нейронки.")

Тут интересен такой момент.

Алгоритмы обучения нейронок предполагаются идентичны тем,

которые предположительно близки к тем,

что используются при обучении человеческого сознания,

да и сама конструкция нейронок вроде как сходна с их биологическими аналогами,

а вот результаты обучения принципиально разные.

В чем причина, только в обучающих алгоритмах,

в различных масштабах "нейросетей"

или еще в чем-то, например,

в самих данных используемых нейронкой для обучения?

Версия "своеобразия данных", т.е. не соответствия их используемым

при обучении гипотезам/метрикам, достаточно популярна и неплохо проработана,

в том смысле, что и в подготовке данных для обучения нейронок,

и в самих алгоритмах много усилий прилагается по приведению их

к "нормальному виду", т.е. к требованиям гауссовской

"независимости" и "квадрату отклонения",

в основе которых лежит "Закон больших чисел"

и ... привычные представления о "геометрии" пространства.

Почему геометрии?

А так ведь все "квадратичные метрики" это как раз следствие этой геометрии,

в которой всегда можно указать фиксированное,

читай "тождественное", местоположение.

Но об этом ниже.

Версию "масштабного фактора", наверно, стоит рассматривать

как наименее вероятную, по той причине, что эффект "переобучения"

проявляется в нейронках любых масштабов, вплоть до гигантских ГПТэшек,

которые, скорее всего, превышают своим масштабом размеры простейших

нейронных систем биологических объектов,

у которых эффект "переобучения" как-то не фиксировался.

Хотя, может быть, я не в курсе.

(Надо будет ChatGPT спросить - обычный поисковик с таким запросом не справляется.)

Самый распространенный вариант ответа на тот вопрос,

это, конечно, не соответствие алгоритмов обучения,

что безусловно требует очень внимательной проработки,

и это постараюсь сделать в отдельном модуле.

Но есть ли еще какой-то, пусть самый фантастический,

вариант объяснения этого вопроса?

Оказывается, есть, только он совсем уж невероятный,

с обычной точки зрения.

Но, иногда, самый фантастический вариант оказывается,

и не таким уж и фантастическим.

Напомню, в "Третьем обращении КОН" (см. "Металоция неведомого")

неведомыми авторами утверждалось, что особенность человеческой логики,

связана с близким к числу целому числу 3 размерности нашей области пространства,

- отличие, как утверждалось в пределах четвертого знака после запятой -

тогда как остальные "разумные расы" пребывают в пространстве

с существенно более заметной дробностью размерности пространства.

При этом анализируя это "обращение", можно прийти к выводу,

что сами авторы, даже не беря во внимание их собственные утверждения,

используют логику не совсем "человеческую".

Во всяком случае, с моей точки зрения, не все их выводы/утверждения

последовательны и логичны с привычной точки зрения.

Но если исходить, что человеческая логика не единственно возможная,

то тогда эта "непоследовательность" и "нелогичность" вполне объяснима.

И тезис о природе/причине расхождения различных логик

из-за разных "пространственных размерностей",

стоит рассмотреть по-внимательней.

Еще раз повторю, что дискутировать по поводу истинности/аутентичности

этого "обращения" особого смысла нет - правду ведь никто не скажет.

Но имеет смысл рассмотреть извлеченную из него гипотезу

о природе человеческой логики, но применительно не к человечеству,

а к "иной" логике нейронок.

Какие предпосылки для этого есть?

Во-первых, естественно с моей точки зрения,

человеческая логика формируется при сильнейшем доминировании

трехмерной "геометрии" пространства в формировании механизмов "обобщения",

тогда как для нейронок размерность их внутреннего "пространства представлений"

явно какая-то другая.

Во-вторых, опять же с моей точки зрения,

по некоторым признакам размерность "пространства представлений" нейронок,

НЕ целочисленное, а дробное, приближая ее к фрактальному представлению.

В третьих, а это уже не только мое мнение,

существующая статистическая и вероятностная математика формировались

исключительно в парадигме целочисленного значения размерности,

и плохо, если вообще, подходят для пространств дробной размерностей,

что может быть причиной неадекватной применимости классических

статистических/вероятностных методов для оценки "качества" поведения нейронок.

Наверно есть и еще, но и этого, на мой взгляд, достаточно,

чтобы рассматривать предположение о влиянии "размерности пространства"

на характер формируемой в этом пространстве "логики"

как достаточно интересное и перспективное.

Правда, как это сделать, пока не знаю.

Буду думать.

==========

07.05.2023 10:23

Экономика как пространство/логика дробной размерности.

В оглавление.

Какой-то анализ "иной" логике разумно, наверно, делать,

сравнивая ее не только с "загадочной" человеческой логикой

но и с чем-то более привычным, имеющим вполне реальное воплощение

и достаточно проработанную историю исследований и практических применений.

И такая область вполне существует и даже "пышно пахнет"

- это экономика, если рассматривать ее как единую систему

"хозяйствующих субъектов" и связей между ними.

Вряд ли кто возьмется утверждать, что никакой "логики" в ней нет,

но, при этом, что она до конца ему понятна и полностью предсказуема.

Для тех, кому интересно самому взглянуть на историю

постепенной трансформации представлений об экономике

от классических моделей с "линейной парадигмой"

к представлениям экономики как системы с дробной размерностью,

для начального вхождения в тему могу порекомендовать для прочтения

первые пару глав из одной диссертации "на соискание ученой степени

кандидата экономических наук" Белякова Станислава Сергеевича.

"ИСПОЛЬЗОВАНИЕ АГРЕГИРОВАНИЯ В МЕТОДАХ НЕЛИНЕЙНОЙ ДИНАМИКИ

ДЛЯ АНАЛИЗА И ПРОГНОЗИРОВАНИЯ

ВРЕМЕННЫХ РЯДОВ КОТИРОВКИ АКЦИЙ"

https://dl.libcats.org/genesis/85000/84695bccadb79f19d7a03ba7e04f49c5/_as/[Belyakov_S.S.]_Agregirovanie_v_metodah_nelineinoi(libcats.org).pdf

Ставрополь - 2005

Безусловно, "дергать" цитаты из нее в большом объеме

- наверно, не самая удачная мысль, но одну большую цитату

ну просто не могу удержаться, чтобы не привести,

уж очень она показательная.

.....

\\\ Проделанные различные исследования с очевидностью говорят о том,

\\\ что показатели большинства природных и экономических систем

\\\ не подчиняются нормальному закону

\\\ или другим известным распределениям.

\\\ Но, если экономические показатели не являются нормально распределенными,

\\\ то тогда множество методов статистического анализа,

\\\ в частности, такие способы диагностики как коэффициенты корреляции,

\\\ t-статистики, серьезно подрывают к себе доверие,

\\\ поскольку могут давать ошибочные результаты.

\\\

\\\ Гипотеза о подчинении нормальному закону

\\\ была необходима для применения статистического анализа к временным рядам.

\\\ Этот статистический анализ был необходим хотя бы только для того,

\\\ чтобы теория портфеля была применима в реальности.

\\\ Без нормального распределения огромное число

\\\ теоретических и эмпирических работ ставится под вопрос,

\\\ ибо тогда традиционный компромисс между риском и прибылью

\\\ не всегда имеет место.

\\\ Концепция подчинения нормальному закону

\\\ не отражает действительности.

\\\ Таким образом нынешняя линейная парадигма требует изменения,

\\\ которое приняло бы этот факт в расчет.

\\\

\\\ Мандельброт [145] говорил о том,

\\\ что поведение временных рядов на рынках капитала

\\\ следуют семейству распределений,

\\\ которое он назвал устойчивым паретианом.

\\\ Это распределение имеет высокий пик на среднем значении

\\\ и толстые (в другой терминологии - "тяжелые" хвосты.

\\\ Устойчивое распределение Парето (устойчивый паретиан)

\\\ характеризует тенденция к трендам и циклам,

\\\ внезапным и прерывистым изменениям;

\\\ оно также может быть несимметричным.

\\\ Однако дисперсия этих распределений бесконечна,

\\\ или неопределенна.

\\\ Кутнер [143] и Шиллер [144] признали концепцию бесконечной дисперсии

\\\ неприемлемой,

\\\ выдвинув требование переформулировать существующую теорию

\\\ в терминах нормального распределения,

\\\ чтобы не стать перед лицом возможности

\\\ серьезного подрыва результатов сорокалетних исследований

\\\ экономических рынков и рынков капитала.

\\\ Кутнер напомнил, что если Мандельброт был прав,

\\\ то <почти все наши статистические инструменты атрофированы>.

\\\ Он чувствовал, что требуется больше оснований для того,

\\\ чтобы отправить сотни работ в макулатуру.

\\\ Устойчивые распределения Парето теперь могут быть названы

\\\ фрактальными распределениями.

\\\ Используя фрактальный анализ [103,110],

\\\ мы сможем отличать тяжелохвостые гауссовские распределения

\\\ от распределений фрактальных.

.....

Наиболее характерным в этой цитате является отражение проблемы

"принятия нового", что, наверно, всегда является основным препятствием

на пути понимания "иной" логики, особенно если она действительно ИНАЯ,

в данном случае НЕгауссовское распределение экспериментальных данных.

Особенно эта проблема усугубляется, когда нужно "опровергать самого себя",

ставя под сомнение результаты многолетних усилий в рамках предыдущей парадигмы.

И попытки в качестве альтернативы, использовать сумму нормальных распределений

для представления распределений с более "толстыми хвостами",

и при этом оставаясь рамках в гауссовского распределения,

очень напоминают "метод введения новых эпициклов"

в геоцентрической модели Птолемея.

Суммируя этот и другие похожие/соответствующие фрагменты,

и, принимая во внимание, что участвующие в экономике "хозяйствующие субъекты",

с одной стороны, "сугубо индивидуальны" как по организации, так и по поведению,

с другой стороны, во многих отношениях типа "дебет-кредит", "прибыли-убытки" и т.д.

очень подобны между собой, как по целям, так и по связям/взаимодействиям,

а, с третьей стороны, что все они находятся "под прессом"

других управляющих и регулирующих структур,

можно попытаться сделать ряд следующих выводов.

Во-первых,

"линейная гипотеза", т.е. "малые возмущения приводят к малым реакциям"

в сложных системах типа экономики, вряд ли "единственно верная".

И развитие "нелинейной динамики" ("nonlinear science"),

имеющей и другие названия типа "синергетики" или "теории хаоса",

является не только настоятельной необходимостью,

но, в тоже время, наверно, и сама не является "окончательным решением"

в процессе бесконечного познания беЗконечной Вселенной.

Во-вторых,

в статистике использование "закона больших чисел" и, соответственно,

основанных на нем распределений, в первую очередь "гауссовского",

т.е. концепцию независимости друг от друга различных элементов/систем,

наверно, стоит применять с куда большей осторожностью

при любом намеке на "нелинейность", чтобы бы не было потом "мучительно больно...".

Но и чрезмерный уклон в сторону бурно развивающегося сейчас

"фрактального анализа", с учетом его "неустоявшегося статуса" и

используемых концепций/подходов/приемов тоже, наверно,

требует какого-то серьезного обоснования.

И тут важны, скорее всего, не "статистики" сами по себе,

а какая-то обоснованная модель, причем такая,

чтобы в ней был возможность объяснения и сложных ВЗАИМОзависимостей,

и, это тоже принципиально важно, какое-то объяснение устойчивым,

но достаточно редких явлений как-то иначе, чем просто "стечение обстоятельств".

В-третьих,

чрезвычайно важно для поиска "плодотворной дебютной идеи",

хотя бы для той же формулировки модели реальной ситуации/системы,

найти какой-то удобный и наглядный способ ВИЗУАЛИЗАЦИИ исследуемого явления.

И тут придется проявить или недюжинную "эрудицию" по заимствованию

подходящих методов, и для этого "прошерстить" много чего разного,

или придумать что-то свое и новое, и быть готовым к тому,

что это будет объявлено "бредом сумасшедшего".

В частности, в данной работе предлагаются, по аналогии с физическими процессами,

использовать "фазовые портреты" и "фазовые траектории"

для анализа и прогноза курса акций конкретных компаний.

Безотносительно, эффективности и продуктивности использования этих инструментов

в данном конкретном случае, сама попытка найти новые формы представления,

каким-то образом "сворачивающие" многомерные данные в привычное для человека

двумерное представление, очень полезна и поучительна,

так как открывает новый простор для воображения и целенаправленного поиска

каких-то сходных инструментов.

С учетом этих выводов, можно сделать заключение,

что поведение/логика больших экономических систем

и по модели представления, и по статистике поведения,

да и по мнению уже достаточно большого количества профессиональных специалистов

в этой области, может быть представлена как фрактальная система

с дробной размерностью "пространства решений".

И позвольте привести еще одну цитату из указанной выше работы:

.....

\\\ По отношению к динамике социально-экономических систем и процессов

\\\ теория хаоса не только объясняет бифуркационные явления

\\\ (большие падения или большие выбросы),

\\\ но прямо говорит нам, что их невозможно предсказать.

\\\ По этой причине многие рыночные технические аналитики

\\\ обоснованно предположили,

\\\ что распознать в хаотическом движении новые закономерности

\\\ им поможет фрактальная геометрия [80,110,122,134].

\\\ Уже достигнуто понимание того,

\\\ что сложность окружающей нас природы тесно связана с этой геометрией.

\\\ Природа не есть ряд повторяющихся закономерностей,

\\\ но в противоположность тому характеризуется

\\\ локальной случайностью и глобальным порядком.

\\\ Фракталы в реальном мире обусловлены глобальными статистическими структурами,

\\\ одновременно порождающими локальные случайности,

\\\ т.е. хаос и порядок сосуществуют.

......

Заранее оговорюсь, что никаким анализом, экономической "логики",

в данном случае, заниматься ни в какой форме не предполагается.

Но использовать примеры из экономики, как области,

где очевидно присутствие "логики" отличной от обычной человеческой,

наверное, все же придется, но только как наглядная иллюстрация

каких-то, пока еще самому не известных/понятных тезисов.

========

Экология - система с целым спектром дробных размерностей.

В оглавление.

Еще одна более-менее известная реальная система

и тоже нелинейная, и с трудно описываемой логикой поведения/описания,

при том что фактический материал, добытый в прямом смысле "в поле",

достаточно обширен, разнообразен и поддается верификации,

это, как бы странно это не звучало, область биологии - экология.

Точнее та ее часть, которая исследует закономерности видового разнообразия и,

как следствие закономерности СОсуществования различных "биотических сообществ".

Опять же для тех, кто пожелает самостоятельно познакомиться

с тенденциями и состоянием работ по этой теме,

привожу ссылку на еще одну диссертацию,

но уже докторскую (по специальности экология), Якимова Василия Николаевича

"МЕТОДОЛОГИЯ АНАЛИЗА СКЕЙЛИНГА ТАКСОНОМИЧЕСКОГО

ФИЛОГЕНЕТИЧЕСКОГО И ФУНКЦИОНАЛЬНОГО РАЗНООБРАЗИЯ

БИОТИЧЕСКИХ СООБЩЕСТВ"

https://diss.unn.ru/files/2015/522/diss-Yakimov-522.pdf

Нижний Новгород - 2015

Использование в названии диссертации термина "скейлинг" не должно смущать,

так как это просто немножко другое название "фрактального анализа",

может быть чуть более "старого" и менее "раскрученного". Из Вики:

\\\ Масштабная инвариантность, или скейлинг,

\\\ - свойство уравнений физики сохранять свой вид

\\\ при изменении всех расстояний и промежутков времени

\\\ в одинаковое число раз....

////// Тут полезно уточнить интересный момент о связи скейлинга и фракталов

////// цитатой из работы Потапова Александра Алексеевича

////// "РАЗМЫШЛЕНИЯ О ФРАКТАЛЬНОМ МЕТОДЕ,

////// МЕТОДЕ ДРОБНЫХ ИНТЕГРОПРОИЗВОДНЫХ

////// И ФРАКТАЛЬНОЙ ПАРАДИГМЕ В СОВРЕМЕННОМ ЕСТЕСТВОЗНАНИИ

////// (ИЗ ЗАПИСНЫХ КНИЖЕК АВТОРА)"

////// https://cyberleninka.ru/article/n/razmyshleniya-o-fraktalnom-metode-metode-drobnyh-integroproizvodnyh-i-fraktalnoy-paradigme-v-sovremennom-estestvoznanii-iz-zapisnyh

\\\ ...Естественно, что степенная функция, как и многие другие функции,

\\\ удовлетворяющие скейлинговому соотношению (2),

\\\ не являются фрактальными кривыми.

\\\ Однако многие виды фракталов (масштабно-инвариантные фракталы)

\\\ обладают скейлинговой симметрией.

\\\ Однородные функции обладают многими свойствами,

\\\ делающими их весьма привлекательными

\\\ для приближенного описания реальных процессов и объектов...

Может быть, автор просто не захотел названием диссертации лишний раз

"дразнить гусей" и использовал этот устоявшийся термин

для демонстрации "благочинности",

а вот действительно кое-что действительно выпадающее

за рамки "благолепия" поместил уже в текст самой диссертации.

......

\\\ Одним из наиболее эффективных инструментов анализа скейлинга

\\\ в различных предметных областях является фрактальная геометрия,

\\\ разработанная Б. Мандельбротом (Mandelbrot, 1982; Федер, 1991)

\\\ для описания объектов, обладающих свойством самоподобия.

\\\ Фрактальные объекты описываются степенным скейлингом

\\\ числа структурных элементов,

\\\ а их ключевой характеристикой является

\\\ соответствующий показатель степени

\\\ - фрактальная размерность.

......

\\\ Возникновение представлений о самоподобии и фрактальности биотических сообществ

\\\ является естественным продолжением тенденции к проникновению

\\\ теории фракталов в экологию,

\\\ которая насчитывает три десятилетия и прошла этапы описания местообитаний,

\\\ описания пространственного распределения отдельных видов

\\\ и, наконец, фрактального описания структуры сообщества.

\\\ Окончательным этапом внедрения теории фракталов в экологию сообществ

\\\ стало применение техники мультифрактального анализа

\\\ для изучения скейлинга показателей видовой структуры,

......

\\\ Полученные результаты позволили впервые поставить вопрос о том,

\\\ что самоподобие в форме степенного скейлинга моментов

\\\ таксономического разнообразия

\\\ не является имманентной характеристикой

\\\ и проявляется не во всех природных сообществах.

......

Попытаюсь перевести с "высоконаучного" стиля на более понятный,

естественно, как я это понимаю.

Автор по факту утверждает,

что вынесенный в заглавие научной работы

"исторически обоснованный" научный метод "не совсем" адекватен реальности,

и "скейлинг" сам по себе не всегда оказывается работоспособным,

и требуется какой-то иной подход - тот самый "мультифрактальный анализ"

с опорой на интерпретацию "мультифрактального спектра".

Все это очень аккуратно, корректно, с обоснованием на экспериментальном материале

- таковы уж правила "ритуальных танцев" в современной академической науке.

Еще раз повторяю, это лично мое видение излагаемых в данной работе положений.

И как "вишенка на торте":

\\\ Впервые выявлены отрицательные размерности

\\\ в мультифрактальном спектре скейлинга таксономического разнообразия

\\\ и дана их биологическая интерпретация.

\\\ Показано, что отрицательные размерности отражают явление

\\\ снижения скорости роста видового богатства в отдельных группах видов

\\\ при росте масштаба и,

\\\ таким образом,

\\\ несут определенный биологический смысл.

......

\\\ ...а отрицательные размерности в мультифрактальном спектре

\\\ отражают феномен снижения разнообразия

\\\ в отдельных группах видов при росте масштаба.

Т.е. это одно из первых, известных мне, упоминаний

о какой-то экспериментально обнаруженной "отрицательной размерности",

причем применительно к фрактальным системам,

т.е. системам именно с "дробной размерностью".

Именно это упоминание "отрицательной дробной размерности",

"имеющей определенный ... смысл",

и привлекло мое внимание к этой работе.

До этой работы упоминание "отрицательной размерности" всегда приводило,

к какой-то заумной математической "эквилибристике" в областях,

практически недоступных экспериментальных исследований,

и трактовалось либо как артефакт каких-то математических преобразования,

например, преобразований Лежандра, либо просто как удобный формализм,

упрощающий какой-то там "эпохальный" вывод.

Реально никто не рисковал, придать "дробно-отрицательной размерности"

хоть какой-то смысл. Слишком это "контринтуитивно" и "революционно".

А "революционеров", по факту, в науке не очень-то не любят,

т.к. многолетние наработки в "дореволюционной" парадигме

обычно "превращаются в тыкву", а кому это понравится.

И смысл этот вполне понятный, если рассматривать что-то

уже не как отдельный фрактал, а как систему взаимодействующих фракталов,

то есть это уже следующий уровень попытки понять "неведомое".

И для визуализации этого уровня предлагается использовать такой инструмент

как мультифрактальный спектр, представляет собой попытку отразить

взаимодействие/взаимопроникновение различных фракталов,

без вычленения их конкретной структуры,

через различие "дробных размерностей" на разных масштабах.

На мой взгляд, это весьма интересный подход,

который вполне возможно стоит попытаться применить и для анализа нейросетей.

Можно попытаться понять, как подобная "дробно-отрицательная размерность"

проявляется в той же экономической системе на "каноническом" примере

пресловутого ЕС-совского стандарта на "размер, форму и окраску огурцов".

С введением его в раках "общего рынка" "разнообразие" поставщиков огурцов

с увеличением "масштаба рассмотрения" существенно уменьшилось,

т.е. на местных рынках еще можно встретить выращенные в открытом грунте огурчики,

может быть немного кривоватые, разных размеров и расцветки,

а вот на полках супермаркетов только строго "стандартизированные".

В итоге количество и разнообразие поставщиков натуральных огурцов

из Болгарии, Румынии, Испании и т.д. на "общий рынок" резко сократилось,

и в выигрыше оказались тепличные хозяйства из окрестностей Брюсселя.

Такие вот "бюрократические гримасы масштабирования" с точки зрения

мультифрактальной парадигмы экономики.

08.05.2023 19:26

Еще пару интересных наблюдений из области

"экологического фрактального пространства":

\\\ ...Особенно интригующе выглядит ситуация в отношении редких видов,

\\\ характеризующихся крайне низкой плотностью популяций,

\\\ но, тем не менее,

\\\ остающихся не вытесненными массовыми видами.

13.05.2023 12:25

//// Может быть эти "редкие виды" имеют что-то общее с пресловутыми

//// "черными лебедями" в той же экономике?

......

\\\ ...эмпирические модели ранговых распределений

\\\ всегда имеют резко убывающую форму,

\\\ что исключает однородное распределение видов по численностям.

\\\ Перефразируя известное выражение, можно сказать,

\\\ что <...природа не терпит выравненности>.

//// А это, с моей точки зрения, уже "желтая карточка" по отношению

//// к различным статистическим методам выравнивания/нормализации

//// реальных данных, при попытке подогнать их под "привычные парадигмы",

//// типа "линейной" или "нормальной", или даже просто "плавной".

.....

\\\ Очевидно, что природные объекты не являются идеальными фракталами

\\\ в математическом смысле,

\\\ однако многие их свойства часто остаются приблизительно постоянными

\\\ на широком диапазоне масштабов,

\\\ что позволяет использовать фрактальную геометрию в тех случаях,

\\\ когда эвклидова геометрия неспособна описать объект.

\\\ Следует также учитывать,

\\\ что, основное свойство природных фракталов

\\\ - самоподобие -

\\\ нарушается на некоторых малых (lmin) и достаточно больших масштабах (lmax)

\\\ и проявляется только на характерных масштабах (l) (Божокин, Паршин, 2001),

\\\ удовлетворяющих соотношению lmin<

.....

\\\ Следует отметить, что все алгоритмы расчета фрактальной размерности

\\\ основаны на степенных законах.

\\\ Такого рода зависимости характерны для фракталов

\\\ и являются математическим выражением их свойства самоподобия.

\\\ Однако это свойство у реальных природных фракталов

\\\ выполняется лишь на некотором конечном диапазоне масштабов,

\\\ вне этого диапазона самоподобие и фрактальные свойства пропадают.

\\\ Поэтому для таких фракталов не имеет смысла предельный переход,

\\\ использующийся в определениях размерности по Хаусдорфу и Колмогорову.

\\\ Их фрактальная размерность должна оцениваться

\\\ только по тем участкам графиков,

\\\ где степенная зависимость сохраняется,

\\\ то есть во всех изложенных выше алгоритмах наклон графиков

\\\ в билогарифмических координатах должен определяться

\\\ только по линейному участку.

//// Т.е. сам по себе фрактальный подход имеет какие-то границы применимости,

//// что совершенно естественно, Но вопрос можно поставить и по-другому:

//// что и как проявляется в виде "ограничения фрактальности",

//// и не являются ли такие закономерности "ограничения" сами по себе

//// "фракталом" другого порядка/уровня.

......

\\\ Таким образом, обычный фрактальный подход

\\\ не позволяет отличить однородные объекты от неоднородных.

\\\ Неоднородные фракталы обладают рядом новых свойств

\\\ по сравнению с однородными и для их полного описания

\\\ одного показателя - фрактальной размерности D

\\\ - оказывается недостаточно.

\\\ Такая ситуация заставляет заняться поиском новых количественных характеристик.

\\\ В рамках решения этой задачи был

\\\ разработан особый математический аппарат,

\\\ получивший распространение как мультифрактальный формализм

\\\ (Harte, 2001; Кузнецов, 2001; Песин, 2002).

.......

\\\ Мультифракталы - это неоднородные фрактальные объекты,

\\\ для полного описания которых,

\\\ в отличие от обычных фракталов, недостаточно введения

\\\ всего лишь одной величины,

\\\ его фрактальной размерности D,

\\\ а необходим целый спектр таких размерностей,

\\\ число которых, вообще говоря, бесконечно (Божокин, Паршин, 2001).

\\\ Причина этого заключается в том,

\\\ что наряду с чисто геометрическими характеристиками,

\\\ определяемыми размерностью D,

\\\ такие фракталы обладают еще одним важным свойством,

\\\ а именно распределением по своему геометрическому носителю

\\\ некоторой меры.

\\\ В качестве такой меры может выступать практически что угодно:

\\\ плотность населения, концентрация вещества, намагниченность, энергия.

\\\ Важным моментом является то,

\\\ что мера распределена по мультифракталу неравномерно,

\\\ но самоподобно.

//// Применительно к нашему случаю - попытке анализа "иной" логики -

//// что может быть такой мерой?

//// Один из вариантов предлагается все в том же "Обращении КОН" -

//// "приемлемость - неприемлемость".

//// Но, наверно, могут/должны быть и другие варианты.

//// Может быть, надо начинать именно с поиска такой меры?

.......

Подводя итог этому абсолютно поверхностному экскурсу

в "мультифрактальную экологию", стоит отметить еще один момент,

который обычно упускается из внимания, при прямой аналогии между

"теоретическими" фракталами, обычно иллюстрируемыми классическими

геометрическими образами.

Считается, ну таково классическое определение, что основное свойство

фрактала его "самоподобие" на разных масштабах,

которое обеспечивается чем-то таким "экзотическим", типа алгоритма построения.

Но если перевернуть последовательности и идти от "экзотического",

причем "экзотического в квадрате", которое обеспечивает "самоподобие",

уже не на всех масштабах, а "например" по какому-то "рисунку",

то вот вопрос: будет ли это уже "фрактал", "квазифрактал" или "мультифрактал",

или еще не придуманный термин для такого, вполне реального "чуда-юда"?

И как в таком случае определяется "размерность" этого "чудо-юдо"?

И какой вообще тогда смысл этой "размерности"?

==========

09.05.2023 17:07

Немного о математике "дробно-отрицательных" размерностей.

В оглавление.

"Как известно", "в каждой науке, столько науки, сколько в ней математики",

и как следствие этого тезиса "математику", не важно какого качества,

стараются "впихнуть" в любую работу, претендующую на научность.

Но те кто знаком с реальной ситуацией во многих областях человеческого знания,

например, инженерном деле, проектировании, программировании,

ну или в криминалистике, пусть даже на уровне рассказов о Шерлоке Холмсе,

вряд ли будут отрицать некую "научность"/"логичность" подходов,

используемых в этих областях, впрочем, как и в криминалистике,

несмотря на то, что "математики" там самый минимум, если вообще есть.

С моей точки зрения, математика - это просто "один из" способов описать что-то,

чуть более компактными средствами, чем простое перечисление всех фактов,

отсортированных по какой-то системе.

"Ахиллесова пята" математики по отношению даже к простому "отсортированному списку",

это явные и неявные аксиомы, без которых даже простая формула "2+2=4"

обойтись не может.

Причем, проверка соответствия этих аксиом реальной ситуации, вообще говоря,

как минимум, задача не тривиальная, если вообще возможная.

Но самое главное, математика, сама по себе, чаще всего,

как раз эти аксиомы не помогает даже сформулировать.

Математика, опять же с моей точки зрения, как отрасль человеческого знания

развивается по каким-то своим внутренним законам, часто решая какие-то

свои собственные внутренние проблемы/задачи, значение которых

для большинства остается "китайской грамотой".

При этом как и другие отрасли человеческой деятельности не свободна

от "мелочных недостатков" типа "мнения авторитетов", "модных трендов" и т.п.

Но это не так важно, рано или поздно нужный, подходящий

или "вроде бы подходящий" математический инструмент, так или иначе, появляется.

А в большинстве случаев интересует лишь применимость того или иного матаппарата

для решения каких-то новых, нетривиальных и реально сложных задач.

При этом зачастую результаты полученные с помощью того или иного матаппарата

рассматриваются недостаточно критически,

именно в отношении исходных аксиом,

т.е. насколько они соответствуют реальности.

особенно если эти аксиомы "закопаны" достаточно глубоко,

Собственно, все вышесказанное давно и многократно артикулировалось

в самых разных формах и "акцентах". Здесь все это повторяется,

чтобы была понятна моя личная позиция к "дробно-отрицательным" размерностям,

получаемых с помощью того или иного матаппарата.

Если попытаться кратко ее сформулировать, то это, наверно будет звучать так:

конкретные значения этих размерностей, полученные в результате применения

того или иного матаппарата, самостоятельно особого значения не имеют,

матаппарат и, соответственно, результаты еще много-много раз изменятся.

Важна сама тенденция - представление сложной структуры/системы

как пространство с "нетривиальной размерностью".

А отсюда уже полшага до "сумасшедшего допущения",

что пространство, такое привычное и знакомое, статичное и бесконечное,

уютное и трехмерное, и т.д.

- может быть, представляет собой СИСТЕМУ чего-то не совсем тривиального,

многокомпонентного и многоуровневого и, в добавок, многосвязанного,

причем эти связи могут иметь и привычные расстояния, и "квантовые переходы"

в виде "кротовых нор" и "сингулярностей" и т.д. и т.п.

и уж точно не являться просто "суммой безликих/абстрактных точек Евклида".

Примерно такую концепцию уже пытаются применять в "реляционном подходе"

в фундаментальной физике, но пока с "выходом/возвратом" в привычное "трехмерие".

Но "не сразу Москва строилась" - посмотрим, что будет дальше.

Кому интересно,

могут почитать очень познавательную "Метафизику" Юрия Сергеевича Владимирова

https://www.gpntb.ru/elres/binom/MetaPhys.pdf

или другие работы этого автора по реляционной картине Мира.

Развитие "спектрального анализа" в "вейвлетный", и далее "фрактальный",

а теперь уже и "мультифрактальный" отражает, естественно, с моей точки зрения,

уже насущную необходимость при анализе сложных систем переходить от концепции

ОДНОГО черного ящика, даже в форме "квазифрактала",

к системе взаимодействующих "квазифракталов", т.е. "мультифрактала",

для оценки которого, можно попытаться использовать "мульфрактальный спектр",

отражающий проявление различных фрактальных свойств

в форме "дробно-отрицательных размерностей".

И опять же, подчеркиваю, это ситуация именно сегодняшнего дня,

завтра, может быть, будет придуман какой-нибудь "ритмический анализ/спектр",

и описание систем будет не в форме "спектрограмм",

а какой-то "нотной записью" в каком-нибудь "ключе ля-минор".

Т.е. используемые дальше в тексте отсылки к мультифрактальным

свойствам тех или иных систем, включая логику, и соответственно,

к "размерности" связанных с ними "пространств решения",

это не столько "дань сегодняшней моде" в анализе сложных систем,

сколько отсутствие каких-то более развитых средств анализа

в той же математике и самой "логике рассуждений".

Например, отсутствие каких-либо инструментов по "вычленению"

отдельных "квазифракталов" из реального "мультифрактала",

как, например, выделение собственных/резонансных частот

в "спектральном анализе".

13.05.2023 14:13

Хочется в заключении этого фрагмента, сформулировать и такую мысль.

Дробная часть размерности какого-то пространства по сути своей

есть какая-то характеристика закономерностей "пограничного слоя"

для той системы, для которой это "пограничный слой" является "объемлющим".

И тут надо обязательно вспомнить о "голографическом принципе",

(см. "Модуль З. Задачи."), согласно которому "внутренние законы" системы

находят свое отражение во "внешних/поверхностных законах",

действующих на "поверхности" "объемлющей" эту системы.

(Т.е. это фактически привычная нам модель "черного ящика",

увеличенная в масштабах и сложности до "черной дыры".)

И при таком подходе анализ "мультифрактального спектра",

как зависимость какой-то "меры" от каких-то "критериев подобия"

- это совсем не обязательно могут/должны быть "масштабы" -

может оказаться небезинтересным и, возможно, практичным.

Но опять же повторюсь, выбор такого подхода,

отнюдь не единственно возможный, но мне представляется,

что на сегодняшний день более продвинутых способов

исследования именно реальных и реально сложных систем,

пока на горизонте не наблюдается.

Во всяком случае, мне пока встречать не приходилось.

Но, безусловно, это ситуация именно сегодняшнего дня,

и уже завтра что-то может появиться новое,

как "неожиданно" появились "большие языковые модели",

с их не очень понятной логикой.

========

13.05.2023 19:38

На подступах к "иной" логике нейронок.

В оглавление.

"Как известно", большие языковые модели, те самые ГПТэшки,

представляют собой достаточно обширную сеть

каким-то образом связанных между собой узлов,

часто называемых нейронами, но это не совсем точно,

т.к. эти узлы вообще-то имеют разную конструкцию.

Эта сеть каким-то образом "обучается" на ОЧЕНЬ большом корпусе текстов,

после чего "чудесным образом" начинает демонстрировать "признаки интеллекта".

При этом все отличие "обученной" от "необученной" модели заключается

в разном численном значении параметров/коэффициентов связи между этими узлами,

которые собственно и настраиваются/подгоняются под "что-то" в процессе обучения.

Т.е. с одной стороны,

большой набор (гигабайты) самых различных/замысловатых текстов,

которые, несомненно, как-то отражают человеческую "логику"

и в отношении "картины мира", и в отношении порядка/структуры смысла изложения,

а с другой стороны,

миллиарды числовых значений связей, как-то "помноженные"

на регулярную структуру узлов, и тоже проявляющее схожее "поведение",

которую тоже приходится считать "логикой".

И то и другое, безусловно, как-то связано, но и как-то отлично друг от друга.

И тут сначала стоит как-то разделить более и менее существенные моменты,

в таком "взаимодействии"/"взаимосвязи".

Налицо ведь явное отличие в форме реализации этих "логик"

и, соответственно, можно ожидать, что результаты будут существенно разными,

а вот это оказалось "далеко не так",

что собственно и вызвало весь этот "культурный шок" от "пришествия ChatCPT".

Итак, что собственно вызывает "смущение" в логике нейронок, точнее ГПТэшек.

Наверно, в первую очередь, это сама способность

давать какие-то вразумительные ответы на достаточно каверзные вопросы.

вот с этого пожалуй и стоит начинать подступаться к этой логике.

И тут сразу возникают вопросы, а что в "человеческой логике"

является/считается "вразумительным" ответом,

а что таковым, обычно, не считается.

Например, встречный, а не уточняющий вопрос, "вразумительным ответом",

как правило, не считается. Хотя в жизни такое случается не редко.

Если исключить такие крайние случаи, включая, наверно и краткие ответы,

типа "да/нет" - их, наверно, лучше рассматривать отдельно -

представляется, что первое условие/критерий "вразумительного ответа"

- это сохранение "контекста", включая, в первую очередь,

сохранение значения слов в связке "вопрос-ответ".

Популярное объяснение реализации этого свойства в ГПТэшках основано

на "концепции статистики", т.е. массива вероятностных коэффициентов,

отдельных слов и возможных их "окружений",

которая формируется в процессе обучения на большом объеме текстов,

и используемом при ответе на запросы. Подробнее см. "Модуль Г. ГПТ-модели."

Обычно это объяснение сопровождается каким-нибудь примером с выбором

между "car", "dog" или "girl".

Вот только это простенькое объяснение, либо не "совсем" полное,

либо, возможно, совсем не верное.

Дело в том, что при обучении ГПТэшек в реальности никакие "статистики"

никаким образом не считаются, а происходит последовательная/итеративная

настройка/подгонка каких-то параметров модели,

которые уже при работе МОГУТ рассматриваться как "вероятности"

в определенных решающих узлах модели. Но при этом найти "вероятность",

для конкретного слова в конкретной ситуации,

как это красиво подается в объяснениях,

пока никому не удалось.

А может быть, их там вообще нет?

Но тогда как же она тогда работает?

А этого даже разработчики толком не знают. Но какое-то объяснение давать надо,

вот и используется во всю "концепция статистики". "Многие верят..."

На мой взгляд, определенная "статистика" в ГПТэшках действительно присутствует,

вот только проявляется/фиксируется она не в каком-то одном параметре,

или даже не в какой-то определенной группе параметров,

а, как бы, размазана по всей модели в виде определенного "рисунка"/"узора"

составляющих/"долей"/"фаз" практически всех параметров модели.

(Терминологию приходится придумывать "на ходу", так что не обессудьте.)

Т.е. условно, говоря, каждое слово/токен из словаря ГПТэшки

это не "матрица вероятностей", а какая-то "конструкция",

всех возможных/устойчивых/зафиксированных связей между другими подобными

"конструкциями", а вот сила/степень/проявленность этих связей,

естественно, зависит уже от "статистики", т.е. частоты встречаемости

таких связей в процессе обучения модели.

По ряду соображений, мне удобнее/предпочтительнее называть

такие "размазанные" по всей модели "конструкции" фракталами,

хотя оснований для такого словоупотребления, пока, можно считать, что и нет.

Но как-то называть то надо, а ничего более подходящего тоже нет.

Т.е. я исхожу из модели ГПТэшек в виде системы фракталов,

этакого мультифрактала или лучше суперфрактала,

т.к. здесь не смесь отдельных фракталов, а что-то более "цельное"/"связное",

Условно, в первом приближении, каждому слову/токену соответствует свой "фрактал",

но это именно "первое приближение", т.к. в реальности каждый токен

обрабатывается не отдельно, сам по себе, а в каком-то "окружении".

Т.е. отдельный "фрактал" отдельно, большей частью, себя не проявляет,

а именно во взаимодействии с другими "фракталами".

Чем-то это похоже на систему фильтров, но представляется,

что такая аналогия тоже не совсем верная. Но лучше пока не находится.

Ну и как такая модель может лучше объяснить,

хотя бы то же "сохранение контекста",

чем поставленная под сомнение "статистическая концепция"?

14.05.2023 12:36

Как бы это не выглядело странным, но "статистическая концепция",

достаточно неплохо работает на простейшей архитектуре нейросети,

например, для нейронки с одним скрытым слоем, а вот для более

сложных структур адекватной уже является с очень большой натяжкой

И, на мой взгляд, тут причина уже в исходной парадигме,

лежащей в основании "обычных статистик" - "независимости опытов"

и "нормальном распределении".

А если использовать другие "парадигмы статистики", то может оказаться,

что по факту они мало чем будут отличаться от того же фрактального подхода.

Попытаюсь пояснить, как это я вижу, проявляется в работе ГПТэшек

и конкретно в его основном рабочем блоке - трансформере.

Начнем с того, что текст запроса перекодируется в вектор

- массив чисел - вот на этом этапе могут использоваться какие-то

предварительно вычисленные статистические закономерности.

Но по факту, использование статистик на этом этапе оказалось

не очень то обязательным - важна стабильность формирования этого вектора,

а "статистика" сама как-то "накопится"/"сформируется" при обучении,

причем такая. которая отражает структуру/архитектуру модели.

итак, имеется числовой вектор, который является отражением контекста запроса,

который последовательно передается с одного узла на другой узел модели,

при этом постоянно трансформируясь, в соответствии с весами/значениями/парметрами

связей по которым он передается от узла к узлу.

И вот в этом месте "статистическая концепция" дает сбой в том смысле,

что после любой трансформации вектора фактически "контекст",

который он представляет, неизбежно изменяется,

и весьма сомнительно, что к концу конвейера он сохранит свое "направление",

то бишь "изначальный контекст".

//// Обратите внимание на связку "контекст" - "вектор" - "направление",

//// чуть ниже постараюсь подробно пояснить, что такое представление может дать.

Т.е. для одной ступени трансформации "статистическая концепция",

вроде как может объяснить нужную "трансформацию",

а вот на нескольких ступенях "трансформации", при допущении их независимости,

уже как-то сомнительно.

Собственно, это и продемонстрировали большие языковые модели

до эпохи использования трансформеров, когда они в основном применялись

для перевода текста с одного языка на другой.

Качество перевода при прямой последовательной трансформации в несколько этапов

оказывалось "очень не очень" в связи с тем,

что модель, как бы, всегда шла какими-то "фиксированными курсами",

часто не "обращая внимание" на даже очевидное несоответствие

"исходного направления" контекста с "направлением конечного результата".

С этим пытались бороться в духе всей традиции "метода тыка" в этой ИИ-области,

пытаясь заменить "один луч распространения" исходного вектора

на несколько параллельных, причем выбранных достаточно случайно,

с последующим сравнением результатов "распространения возбуждения"

после нескольких ступеней трансформации

и выбора "наиболее перспективного".

Даже гиперпараметр соответствующий ввели под названием "температура",

чтобы регулировать степень случайности выбора "направлений распространения",

точнее случайности выбора приоритета той или иной связи/параметра.

Примечательно, что это таки дало положительный результат

- качество переводов улучшилось -

вот только попытка объяснить такое с точки зрения "статистической концепции",

на мой взгляд, получилась какая-то "неубедительная",

получалось, что если заменять "добропорядочную и надежную статистику"

просто "случайным выбором", то результат, как минимум, получается не хуже.

Что же это за "статистика" такая,

к которой лучше применять метод "подбрасывания монетки"?

Получается, что "броуновское движение" исходного вектора по узлам модели,

оказывается более "целеустремленным", чем "целенаправленное",

если считать статистику "целеполагающим" фактором.

А вот кардинальное улучшение больших языковых моделей,

приведшее, в конечном итоге, к "феномену ChatGPT",

стало внедрение в модель узлов, называемых "трансформерами".

Основная отличительная особенность этих трансформеров,

кроме возможности масштабирования и параллельной работы,

заключалась в некоем улучшении алгоритма обработки в узле,

называемом "механизмом внимания".

Суть его в том, что результат работы узла "складывается",

с исходным вектором, и для этого используется дополнительный "слой нейронов".

Т.е. "контекст запроса", в виде направления "входного вектора",

прямо учитывается в результате работы узла,

и в каком-то виде "направление промежуточного результата"

как-то корректируется в соответствии с "запрашиваемым".

Что в итоге и приводит к заметно лучшему результату моделей,

использующих в качестве узлов трансформеры,

в отличии от моделей работающих якобы полностью в "статистической парадигме".

Правда при этом и от "многолучевого" распространения,

теперь ставшего называться "многоголовым", тоже не отказались,

также как и от гиперпараметра "температура".

Т.е. по факту, что-то все-таки еще не очень понятно с этим

распространением исходного "вектора запроса" к конечному "вектору ответа".

Но пока во всю рулит "лозунг сегодняшнего дня" в ИИ-технологиях:

"Внимание - это все что Вам нужно!".

Безусловно, такая трактовка - это мое личное видение

работы механизмов трансформеров и, соответственно, ГПТэшек.

Но если у кого-то есть возражения/сомнения в обоснованности

такого подхода, то в "Модуле Г. ГПТ-модели."

во фрагменте "Интересные и понятные ссылки о том, что у ГПТэшек "под капотом"

приведены ссылки на хорошо иллюстрированные материалы

о работе "механизмов внимания", "многолучевом" подходе и других "сущностях"

как раз в терминах "статистической концепции".

Вполне можно сравнить и сделать собственные выводы.

15.05.2023 7:51

Еще на один момент хотелось бы обратить внимание

- это V- или U-образная конструкция современных больших моделей,

которая стала стандартом де факто.

Смысл ее в том, что модель нейронки, по большому счету,

делится как бы на две половинки - энкодер и декодер,

с похожей, в общих чертах, реализацией.

Не вдаваясь в технические детали, можно считать,

что энкодер, получив "входной вектор запроса",

как-то его преобразовывает обычно в меньшую размерность,

а затем декодер делает обратную операцию,

разворачивая "компрессированный вектор" в полноформатный "вектор ответа".

Причем в ГПТэшках в конструкции декодера тоже применяется "механизм внимания",

но чуть-чуть по-другому реализованный,

но смысл все тот же - скорректировать каждый шаг декодирования результата

в "направлении" близком с "направлением запроса".

Опять же, это моя трактовка, но она позволяет рассмотреть

следующую аналогию работы ГПТэшки, как бы, "оптическую".

Попробуем представить себе ГПТэшку, как один из простейших

оптических приборов - "зрительной трубы Галлилея".

Тогда энкодер играет роль "объектива", а декодер - "окуляра".

А сам процесс "запрос ответа" как "увеличение/приближение" изображения "запроса",

проявляющееся как прохождение "луча", в нашем случае "вектора запроса",

через "преломляющие элементы" в виде узлов трансформера.

То, что эти элементы "дискретны" особого значения не имеет,

можно ведь и одну сложную "линзу" в оптике представить набором более простых.

Тут главное представить процесс распространения и "трансформации"

"входного вектора" не как единственно возможный, а "многовариантный"

и при этом сохраняющий какие-то свои "характеристики"

и, в первую очередь, "направление".

Но в связи с "неидеальностью" такого рода "трансформаций"

очевидно, что будут возникать явления в чем-то похожие на "оптические аберрации".

Может быть, к этому аспекту такой аналогии еще придется вернуться,

но пока, наверно, достаточно само представление трансформации "вектора запроса",

как "оптическое преобразование", в какой-то мере сохраняющее "направления".

Почему так часто применяется метафора "направление",

применительно к нейронным сетям и, в частности, к ГПТэшкам?

Мне кажется, что эта метафора может быть развита чуть дальше,

чем просто иллюстративный прием.

и может послужить "путеводной нитью" в вопросе "как нам реорганизовать рабкрин",

т.е. попробовать сформулировать в общих чертах

более-менее вменяемую концепцию для "мультифрактального спектра" ГПТэшек.

Безусловно, таких концепций может быть придумано достаточно много,

и все они будут, мягко скажем, дискуссионными,

но с чего-то начинать все-таки надо.

=======

Первый вариант концепции "мультифрактального спектра" ГПТэшек.

В оглавление.

Как известно,

"правильно поставленный вопрос содержит половину ответа".

Если с этой точки зрения рассматривать "вектор входного запроса" на ГПТэшку,

то можно предположить, что этой "половиной" может служить

"направление" этого "вектора". С "длиной" будем разбираться чуть ниже.

Сама по себе идея выражения "семантики" через направление "вектора"

совершенно не нова и вовсю используется в различных базах и алгоритмах,

например, в популярном сейчас Word2Vec (ссылка есть в "Модуле Г. ГПТ-модели.")

Т.е. сравнение "направления вектора запроса" с "направлением результата"

на сегодняшний день задача хоть и сложная,

но, с определенной долей погрешности, вполне решаемая.

Тут как раз всяческие "статистики" очень даже работают.

Вопрос в том, что это может дать и как это лучше сделать?

И тут надо вернуться к вопросу, а как оцениваются ответы в человеческой логике.

Обычный ответ на этот вопрос это критерий "соответствия/несоответствия",

"истина/ложь" ну и т.д. в стиле "...а третьего не дано".

А действительно это вся возможная "логика ответа"?

Есть ведь и другие, более расширенные "логические системы"

- тут и многозначная логика, и нечеткая логика, и логика И-Цзин,

и даже такая, часто охаиваемая, как диалектическая логика Гегеля,

иногда предстающая в форме "диамата".

В общем, "есть многое на свете, друг Горацио, что и не снилось нашим мудрецам..."

Поэтому в данном случае имеет смысл, оценивая соответствие запроса и ответа,

пользоваться более расширенной логикой, чем это было предложено Аристотелем.

Например логикой в которой наряду с классическим "или ... или",

вполне равноправно используются утверждения "и то и то" и "не то и не то"

В соответствии с этаким подходом оценка "угла"

между векторами запроса и ответа делать не в рамках одного квадранта,

а на "всю катушку", т.е. на все 360 градусов

(в векторных базах обычно принято оценивать только "косинус угла",

как критерий близости векторов и соответственно угол рассматривается

только от 0 до 90 градусов).

Наверно требуется пояснение, что в этом фрагменте пытаюсь сделать?

Хочется прикинуть какой могла бы быть картинка "мультифрактального спектра"

для оценки/анализа логики ГПТэшек, пока без относительно того,

как это реально сделать, пока только прорисовка контурной карты.

Так вот для построения этого "спектра" в удобочитаемом виде,

представляется, что это должна быть двумерная развертка именно

логических параметров работы ГПТэшек.

Грубо говоря, должна быть "шкала", "мера", и "масштаб".

Так вот "угол" между "векторами запроса и ответа"

и предполагается использовать в качестве этой "меры".

Мне представляется, что оценка соответствия запроса и ответа,

собственно, и является ключевой характеристикой "интеллекта ИИ-системы".

Соответственно если "угол" используется как "мера",

то напрашивается и соответствующая шкала - круговая,

вправо откладываются "абсолютно удачные" ответы/реакции,

влево - наоборот, совершенно не приемлемые,

а направления вверх и вниз зарезервированы для категорий

"и то и то" и "ни то ни то".

Теперь вопрос "масштаба" для данного представления,

точнее градаций на шкалах.

Наверно, естественно, или, точнее, проще всего использовать

"длину вектора запроса" и "длину вектора ответа", точнее их соотношение.

Как вариант простой реализации это можно, конечно, принять,

но хотелось бы чего-то более значимого,

а то "пустые разлагольстовования" могут перекрывать

"четкую ясную и лаконичную" реакцию.

Поэтому хотелось бы градации на шкалах отражали "сложность запросов",

хотя это и не очень понятно как делать,

но как-то же IQ у таких систем, вроде, считается,

значит и запросы/ответы вполне могут быть оценены по сложности.

Ну, или попытаться оценивать все эту "сложность" через "энтропию",

теоретически это вроде бы возможно,

но реальных примеров встречать не приходилось.

Т.е. если обучающие или тестовые примеры отмаркировать не только

по релевантности, но и по сложности и "разнонаправленности",

То такую "спектрограмму" наверно можно получать

уже при обучении ГПТэшек, хотя бы для оценки в каком направлении

стоит проводить дообучение.

//// Еще один вариант реализации "масштаба" может быть сделан

//// на использовании в качестве параметра упомянутую выше "температуру",

//// как показатель "случайности/хаотичности",

//// и, в то же время, "внутренней целеустремленности" системы.

В общем, какой-то вариант контура "спектрограммы" вроде бы получился,

но как его "заполнить фактурой" для реальной системы,

чтобы оценить насколько такой "спектр" действительно имеет

какие-то фрактальные признаки, совершенно непонятно.

Что-то похожее на такую "карту", но применительно к "Модели Kandinsky 2.0",

в какой-то момент показалось можно попытаться составить

на основе "фарватеров потенциалов", которые хоть с трудом,

но удавалось "нащупать" (см. "Модуль Е. Эскизы).

Но после апгрейда ее до "Модели Kandinsky 2.1" эта возможность,

впрочем, как и возможность дообучения этой модели почему-то "прикрылась",

что для меня было чрезвычайно печально - исчез модельный полигон.

Но важно, на мой взгляд, то, что такого рода "спектрограммы"

можно и нужно придумывать применительно к конкретным ИИ-системам,

чтобы лучше понимать возможности/недостатки таких систем,

немного более осмысленно и информативно, чем просто стандартные оценки

"точность" (precision) и "полнота" (recall), или какая-то их комбинация.

Причем, эту информацию можно попытаться получить в "автоматическом режиме",

если заранее задумываться об этом.

========

17.05.2023 7:25

Анализ концепции "мультифрактального спектра" ГПТэшек.

В оглавление.

Допустим, что есть какая-то теоретическая концепция

получения и представления "мультифрактального спектра".

Тогда сразу же возникает вопрос: а как ее апробировать?

И тут же появляется мысль, а почему это должно быть применимо

только к ГПТешкам, а сам-то ты чем лучше...

Т.е. самое простое и, возможно, полезное - это попробовать

построить этакий "спектр логики" того с кем можно было бы это "обсудить".

Только вчера была новость, что исследователи из OpenAI

пытаются понять работу отдельного нейрона в GPT-2, используя для этого GPT-4

(подробнее можно посмотреть в "Модуле Г. ГПТ-модели."

Но представляется, что это попытка проскочить даже не одну,

а, как минимум, пару "ступенек", а то и "лестничный пролет".

Начинать, на мой взгляд, надо "с себя любимых", и с оценки общих результатов,

и только потом пытаться понять механизм получения этого "результата".

А не пытаться добиться "заранее ожидаемого результата" любой ценой.

И если с этой точки зрения взглянуть на предложенную выше

концепцию "мультифрактального спектра логики" ГПТэшек,

то, очевидно, что сначала надо попытаться сделать что-то похожее,

но применительно к человеческой логике и попытаться в этом разобраться.

Понятно, что представить логику "всего человечества" это задача

даже не "завтрашнего дня", но если взять "отдельного индивидуума",

то можно попытаться это сделать.

Можно даже еще больше упростить задачу, и анализировать "логику"

не какими-то замысловатыми "психологическими тестами",

что, вообще-то, возможно и где-то наверняка используется,

а попытаться изобразить "логику" автора какого-то отдельного "документа",

например, вот этого самого текста.

Вот такие мысли мне пришли в голову после формулировки концепции

построения "спектра логики" для ГПТэшек.

Полезно, наверно, было бы взглянуть на самого себя в такое "зеркало".

И ... надолго задумался, оказывается, что это далеко не так просто,

как это представлялось в "чистой теории".

Начнем, пожалуй, со "сложности", так сказать, масштабного фактора.

С одной стороны, для тех же "нейронок" уже есть какая-то парадигма

или классификация сложности решаемых задач.

Встречал упоминание о наличии задаче выше 7-го уровня сложности,

но конкретного списка в Инете с ходу не нашел,

и пришлось обращаться к "великому и ужасному" ChatGPT.

-------

16.05.2023 20:21

Вопрос.

Всезнайка на базе ChatGPT, перечисли все уровни сложности задач,

используемые для оценки качества нейросетей.

Ответ дан 16 мая, 20:27

Здравствуйте! Как я могу вам помочь?

Относительно вашего вопроса, я могу перечислить

несколько уровней сложности задач,

используемых для оценки качества нейросетей:

1. Бинарная классификация: задача, в которой необходимо определить,

принадлежит ли объект к одному из двух классов.

2. Многоклассовая классификация:

задача, в которой необходимо определить,

принадлежит ли объект к одному из нескольких классов.

3. Регрессия:

задача, в которой необходимо определить числовое значение для объекта.

4. Обнаружение объектов:

задача, в которой необходимо определить наличие объектов на изображении

и их местоположение.

5. Сегментация изображений:

задача, в которой необходимо определить,

к какому классу принадлежит каждый пиксель изображения.

6. Генерация текста:

задача, в которой необходимо создать текст на основе заданных условий.

7. Генерация изображений:

задача, в которой необходимо создать изображение на основе заданных условий.

Это не полный список, какие есть

//// Вообще-то, запрос был - "огласите весь список",

//// но, может быть, тут сработало ограничение на длину ответа.

но я надеюсь, что это поможет вам лучше понять,

какие уровни сложности задач могут быть использованы

для оценки качества нейросетей.

-------

Вопрос.

Всезнайка на базе ChatGPT, какие задачи высокой сложности

уровня выше 7 есть в тестовом наборе оценки качества нейросетей?

Ответ дан 16 мая, 20:35

Здравствуйте!

К сожалению, я не имею доступа к конкретным тестовым наборам

оценки качества нейросетей,

поскольку я являюсь моделью языковой обработки

и не имею непосредственного доступа к данным.

Однако, я могу сказать,

что задачи высокой сложности уровня выше 7,

скорее всего,

включают в себя задачи, связанные с обработкой естественного языка,

распознаванием изображений, анализом данных и т.д.

Эти задачи могут включать в себя высокую степень сложности

и требовать большого количества вычислительных ресурсов.

-------

Вроде все по делу, но для "человеческой" логики,

особенно, за границами логики "исключенного третьего",

для того же ТРИЗ или И-Цзин,

этой классификации явно не достаточно.

Тут нужно искать где-то в другом месте, наверняка что-то где-то есть нужное,

или придумывать что-то свое - чего пока делать не хочется,

т.к. сначала нужно хорошенько поискать в Инете.

Вторая проблема, и еще более серьезная, это отсутствие

хоть каких-то отработанных механизмов классификации тех или иных решений,

за границами логики "исключенного третьего".

Т.е. при столкновении с проявлением такой логики,

мы более-менее можем распознать ее результаты,

но каких-то четких правил для этого нет.

И, скорее всего, подходящей информации на эту тему в Инете не найдешь,

т.к. непонятно, что искать.

Так что здесь придется, что-то додумывать самостоятельно.

Возможно, надо взять какой-то классический учебник по ТРИЗ,

или даже просто одну Таблицу Приемов Решения Задач из нее,

и попробовать "пройтись" по нему/ней, последовательно,

"ручками" пытаясь задать какую-то "меру" или несколько "мер",

которые как-то характеризуют отнесенность к "неклассической логике.

Например, "30% того", "40% этого", "5% иного", а остальное "неизвестно что".

Примерно так, как это делается в экспертных системах,

основанных на нечеткой логике.

Причем возможно, надо характеризовать не "угол", а "сектор",

или хотя бы "квадрант".

Короче, нужно много думать и как-то пробовать что-то сделать,

иначе эта вся концепция "уйдет в тину".

Третья проблема, уже чисто "идеологическая".

Как ни пытаюсь я представить процесс анализа и оценки,

что собственного, что чужого текста, и, тем более, поведения ГПТэшек,

все равно в конечном итоге окончательное "действие" сводится

к "бинарной классификации" типа "соответствует - не соответствует".

Т.е. избавиться от того "диагноза"/порока/ограниченности,

которое "поставили человеческой логике наблюдатели КОН"

никак не получается.

И это мне, пока что, не очень нравится.

Не хочется чувствовать себя в чем-то ограниченным, это с одной стороны.

А, с другой стороны, если вся оценка, так или иначе, сводится

к этой "бинарной классификации", то тогда и шкалу "спектра",

можно представить как линейную, и мы опять приходим

к той модели оценке логики, которая предложена в "Контрольном Обращении",

и это тоже мне очень не импонирует.

Вот есть ощущение, что я что-то упускаю в этой "третьей проблеме",

но, что именно, понять не могу.

Собственно это, наверно, и есть, как минимум, значительная часть

проблемы понимания иной логики.

Т.е. человек, обычно пытается свести решение задачи

к этой самой "бинарной классификации", а тут требуется какой-то иной подход,

отработанных механизмов классификации тех или иных решений,

за границами логики "исключенного третьего".

Т.е. при столкновении с проявлением такой логики,

мы более-менее можем распознать ее результаты,

но каких-то четких правил для этого нет.

И, скорее всего, подходящей информации на эту тему в Инете не найдешь,

т.к. непонятно, что искать.

Так что здесь придется, что-то додумывать самостоятельно.

Возможно надо взять какой-то классический учебник по ТРИЗ,

или даже просто одну Таблицу Приемов Решения Задач из нее,

и попробовать "пройтись" по нему/ней, последовательно "ручками",

пытаясь задать какую-то "меру" или несколько "мер",

которые как-то характеризуют отнесенность к "неклассической логике.

Например, "30% того", "40% этого", "5% иного", а остальное "неизвестно что".

Примерно так, как это делается в экспертных системах,

основанных на нечеткой логике.

Причем возможно, надо характеризовать не "угол", а "сектор",

или хотя бы "квадрант".

Короче, нужно много думать и как-то пробовать что-то сделать,

иначе эта вся концепция "уйдет в тину".

Третья проблема, уже чисто "идеологическая".

Как ни пытаюсь я представить процесс анализа и оценки,

что собственного, что чужого текста, и, тем более, поведения ГПТэшек,

все равно в конечном итоге окончательное "действие" сводится

к "бинарной классификации" типа "соответствует - не соответствует".

Т.е. избавиться от того "диагноза"/порока/ограниченности,

которое "поставили человеческой логике наблюдатели КОН"

никак не получается.

И это мне, пока что, не очень нравится.

Не хочется чувствовать себя в чем-то ограниченным, это с одной стороны.

А, с другой стороны, если вся оценка, так или иначе, сводится

к этой "бинарной классификации", то тогда и шкалу "спектра",

можно представить как линейную, и мы опять приходим,

к той модели оценке логики, которая предложена в "Контрольном Обращении",

и это тоже мне очень не импонирует.

Вот есть ощущение, что я что-то упускаю в этой "третьей проблеме",

но, что именно, понять не могу.

Собственно это, наверно, и есть, как минимум, значительная часть

проблемы понимания иной логики.

Т.е. человек, обычно пытается свести решение задачи

к этой самой "бинарной классификации", а тут требуется какой-то иной подход,

Возможно, нужно использовать не "разделяющие правила",

а "объединяющие маркеры".

Вот хочется использовать что-то наподобие "логики" И-Цзин,

где предпоследняя "гекса" имеет название "Еще не Конец",

а последняя - "Уже НЕ Конец".

Т.е. как-то научиться преодолевать любой "барьер" просто и естественно,

включая вопросы классификаций, например, заменой "разделительных линий"

но "пограничные области" с какой-то своей внутренней "структурой",

что в итоге может привести к "фрактальному подходу" уже с другой точки зрения.

Пока в голове крутится образ каких-то "перекрывающихся углов/секторов",

и даже вероятностей, но сумма которых, может быть отлична

от классических ноля или единицы.

Или это может быть комплЕксные вероятности -

должна же когда-то и в матстатистике проявится "iмагическая" единица.

//// О, проверил по Инету - оказывается, есть уже что-то похожее,

//// только в квантовой физике в той самой "волновой функции",

//// и напрямую это не переносится, но вот отсылка к "интерференции"

//// очень может быть полезной.

Короче, нужно много думать и искать.

========

03.06.2023 8:18

О логике ГПТэшек в "стандартном представлении".

В оглавление.

Наверно, чтобы лучше понимать направленность поисков,

отражаемых в данном модуле, стоит познакомиться со "стандартным подходом"

представления логики работы ГПТэшек.

Появился перевод очень хорошей обзорной статьи и о ChatGPT

(наверно, лучшее из всего что есть сейчас в Инете)

и о принципах его работы, так как принято это сейчас считать,

и сравнение его с логикой человеческого мышления и языка

и, вообще, много-много всякого интересного и познавательного,

и все это прекрасно иллюстрировано.

Статья ОЧЕНЬ объемная, так что настройтесь на длительное чтение.

"Что делает ChatGPT: и почему это работает?"

Автор оригинала: Stephen Wolfram

Автор перевода: TyVik (Виктор)

https://habr.com/ru/articles/739014/

2 июня 2023

Чтобы заинтересовать в этом "интеллектуальном подвиге"

- как-никак, но полтора часа внимательного чтения "не фунт изюма" -

приведу "несколько" цитат (с комментариями),

которые, с моей точки зрения, наиболее интересны для задач данного модуля.

Полный текст комментариев к данной статье приведен в "Модуле Г. ГПТ-модели."

во фрагменте Очень большая и хорошая статья Стефена Вольфрама.

Интересен в статье, в первую очередь, сам ход мыслей автора,

который начинает уверенно объяснять работу ChatGPT с позиций

"вероятностно-статистической парадигмы",

затем откровенно констатирует, что этого явно недостаточно,

и как собственно "это работает" "Не в принципе, а в кожухе" не знает никто.

А затем задается закономерным вопросом, а точно ли мы знаем,

как работает человеческое сознание, т.е. человеческая "логика",

и предлагает свое видение направлений исследований в этой области.

Но, наверняка, у каждого, кто прочтет этот текст до конца,

сформируется свое видение проблемы понимания логики работы ChatGPT.

Благо, что материала для размышлений эта статья дает предостаточно.

А теперь собственно цитаты и комментарии к ним.

.......

Что действительно позволяет ChatGPT работать?

Человеческий язык и процессы мышления всегда казались некой вершиной сложности.

Удивительно, как человеческий мозг с его сетью

из <всего лишь> 100 миллиардов нейронов

(и, возможно, 100 триллионов связей)

может быть ответственен за это.

Возможно, в мозге есть нечто большее, чем сеть нейронов,

например, какой-то новый слой неизвестного действия.

Но теперь, благодаря ChatGPT, мы получили новую важную информацию:

мы знаем, что чистая искусственная нейронная сеть,

имеющая примерно столько же связей, сколько нейронов в мозге,

способна на удивление хорошо имитировать человеческий язык.

//// Да это рубежное открытие. Как открытие Америки.

//// Мир, как бы, расширился вдвое. Есть люди и ЕСТЬ ГПТ-модели,

//// да и не только они - мультимодальные системы уже на подходе.

И да, это всё ещё большая и сложная система,

в которой примерно столько же весов нейронной сети, сколько слов текста,

доступных в настоящее время в мире.

Но на каком-то уровне трудно поверить,

что всё богатство языка и вещей, о которых он может рассказать,

может быть заключено в такую ограниченную систему.

......

Как же тогда получается,

что что-то вроде ChatGPT может зайти так далеко,

как на примере с речью? Основной ответ,

я думаю,

заключается в том, что наш язык на фундаментальном уровне

всё же проще, чем кажется.

//// Вот это наверно самая сильная идея/гипотеза в этом тексте.

И это означает, что ChatGPT

- даже с его в конечном счете простой структурой нейронной сети -

успешно способен <уловить суть> человеческого разговора и мышления,

лежащего в его основе.

Более того, в процессе обучения ChatGPT каким-то образом <неявно обнаружил>

те закономерности в языке (и мышлении),

которые делают это возможным.

//// Поэтому, возможно, что чтобы разобраться с человеческим языком (мышлением),

//// наиболее короткий путь окажется не на пути "медитаций и самосозерцания",

//// а через разбирательство с логикой ГПТэшек и, соответственно, нейронок.

//// И это, скорее всего, верный путь - "Нормальные герои всегда идут в обход".

Успех ChatGPT, как мне кажется,

даёт нам доказательства фундаментальной и важной части науки:

он говорит о том, что мы можем ожидать открытия

новых важных <законов языка>

- и фактически <законов мышления>.

В ChatGPT, построенном как нейронная сеть,

эти законы в лучшем случае неявные.

Но если мы сможем каким-то образом сделать эти законы явными,

то появится возможность делать те вещи,

которые делает ChatGPT,

гораздо более простыми, эффективными и прозрачными способами.

//// Даже, если окажется, что "логика" того как это делают ГПТэшки,

//// покажется "сильно авангардной"?

//// Автор оптимист и верит в "разумность прогрессивного человечества".

......

Первое - это синтаксис языка.

Язык - это не просто случайное нагромождение слов.

Существуют определённые грамматические правила

как слова разных типов могут быть собраны вместе.

Например, в английском языке существительные

могут предшествовать прилагательным и следовать за глаголами,

но обычно два существительных не могут находиться рядом друг с другом.

Такая грамматическая структура может быть отражена набором правил,

которые позволяют строить <деревья разбора>:

//// Причем, эти грамматические правила позволяют выстроить/ранжировать

//// "нагромождения слов" в определенные схемы с идентификацией

//// подлежащего, сказуемого и других членов предложения

//// в соответствии с их "ролевым" назначением.

//// Что-то подобное мы делали еще в далеком 1999 году.

ChatGPT не имеет явных <знаний> о таких правилах.

Но каким-то образом в процессе обучения он неявно обнаруживает их

- и затем, похоже, хорошо им следует.

//// У нас это работало по окончаниям русских слов на основе словаря Зализняка.

//// Не вижу причин, почему ГПТэшка не способна воспроизвести что-то подобное,

//// даже не зная смысла слов "подлежащее" и "сказуемое".

//// Мы даже классическую "глокую куздру" успешно разбирали "на составляющие".

Так как же это работает?

На уровне <общей картины> это неясно.

//// Т.е. не ясно "ни в принципе, ни в кожухе".

Но чтобы получить некоторое представление

будет полезно рассмотреть более простой пример.

......

Синтаксис обеспечивает один из видов ограничений языковых конструкций.

Но их явно больше.

Такое предложение, как <Любознательные электроны едят голубые теории для рыбы>,

грамматически правильно,

но это не то, что обычно хотят сказать, и не считалось бы успехом,

если бы ChatGPT сгенерировал его - потому что оно, по сути, бессмысленно.

//// Не совсем. Во всяком случае для человека с воображением,

//// замена отдельных терминов во вроде бы бессмысленных фразах,

//// вполне нормальная практика. И хотя это немного другая тема,

//// но хотелось бы сравнить такое "словоупотребление" у человека и ГПТэшки.

//// наверняка, что-то интересное или, хотя бы, любопытное наметилось бы.

Но есть ли общий способ определить,

является ли предложение осмысленным?

Традиционной общей теории для этого не существует.

Но можно считать, что ChatGPT неявно <разработал теорию для этого>

после обучения на миллиардах предложений из Интернета и т. д.

//// И это действительно любопытно, если это действительно так.

//// Но как это проверить? Нужны какие-то новые тесты на "осмысленность".

//// Я тут в комментариях одной безаппеляционной личности предлагал

//// использовать "тест Пинского" для оценки способности ГПТэшки "понимать"

//// достаточно не тривиальные и короткие миниатюры уважаемого мной

//// одного из авторов СамИздата Пинского Дмитрия Томасовича.

Какой может быть эта теория?

Есть одна такая штука, который известна уже два тысячелетия,

и это логика.

И, конечно, в форме силлогизма, в которой её открыл Аристотель,

логика - это способ сказать, что предложения,

которые следуют определённым шаблонам, разумны, а другие - нет.

Так, например, разумно сказать: <Все X есть Y. Это не Y, поэтому это не X>

(как в <Все рыбы синие. Это не синее, поэтому это не рыба>).

И так же, как можно несколько причудливо представить,

что Аристотель открыл силлогистическую логику,

просматривая (<в стиле машинного обучения>) множество примеров риторики,

так же можно представить,

что при обучении ChatGPT он сможет <открыть силлогистическую логику>,

просматривая множество текстов в Интернете и т. п.

(И да, хотя можно ожидать, что ChatGPT будет выдавать текст,

содержащий <правильные умозаключения>, основанные на таких вещах,

как силлогистическая логика,

это совсем другая история,

когда дело доходит до более сложной формальной логики

- и я думаю, что можно ожидать, что он потерпит неудачу здесь

по тем же причинам, по которым он терпит неудачу в подборе скобок).

//// А может быть ГПТэшка "потерпит неудачу" потому,

//// что использует иную не двузначную логику "исключенного третьего",

//// например, логику "Инь-Янь-Хрень", и, на самом деле,

//// это человек "потерпит неудачу" в понимании ее "понимания".

//// Пока что, в партии Человек vs ГПТэшки именно "человеки",

//// демонстрируют полное непонимание "оппонента".

Но за пределами узкого примера логики,

что можно сказать о том, как систематически конструировать (или распознавать)

даже правдоподобно осмысленный текст?

Да, есть такие вещи, как Mad Libs,

которые используют очень специфические <шаблоны фраз>.

Но каким-то образом ChatGPT неявно имеет гораздо более общий способ сделать это.

И, возможно, нет ничего, что можно было бы сказать о том,

как это можно сделать,

кроме <это как-то происходит, когда у вас 175 миллиардов весов нейронной сети>.

Но я наверняка уверен,

что существует гораздо более простое и понятное объяснение.

//// Ну, хотелось бы присоединиться к этому заявлению,

//// но только если искать где-то за пределами чисто "вероятностной концепции".

Смысловое пространство и семантические законы движения

Выше мы говорили о том, что в ChatGPT любой фрагмент текста

эффективно представлен массивом чисел,

которые можно представить как координаты точки

в некотором <пространстве лингвистических характеристик>.

Поэтому, когда ChatGPT продолжает фрагмент текста,

это соответствует прослеживанию траектории

в пространстве лингвистических признаков.

Но теперь мы можем спросить,

что заставляет эту траекторию соответствовать тексту,

который мы считаем осмысленным.

И, возможно, существуют некие <семантические законы движения>,

//// Интересная формулировка.

которые определяют - или ограничивают -

как точки в пространстве лингвистических признаков могут перемещаться,

сохраняя <осмысленность>?

//// Тоже хорошая формулировка. Если использовать аналогии из КМ

//// то это как сохранение "спина" у элементарной частицы.

//// Но только он тут "многомерный" и может передаваться от одного

//// слова к другому, т.е. при перемещении в "лингвистическом пространстве".

.......

Хорошо, по крайней мере правдоподобно,

что мы можем думать об этом пространстве признаков

как о размещении <слов, близких по значению> близко друг к другу.

Но какую дополнительную структуру мы можем выявить?

Существует ли, например, какое-то понятие <параллельного переноса>,

которое отражало бы <плоскостность> пространства?

Один из способов разобраться в этом - обратиться к аналогиям:

//// Сначала все-таки, наверно стоит представить/предположить

//// "закономерности пространства", ведь может оказаться,

//// само понятие "плоскость" в нем принципиально "не срабатывает".

//// Например, если реальная размерность этого пространства "дробная",

//// а само пространство еще и фрактальное.

........

Здесь, конечно, нет <геометрически очевидного> закона движения.

И это совсем не удивительно;

найти его если и возможно, то очень сложно.

https://writings.stephenwolfram.com/2021/09/multicomputation-a-fourth-paradigm-for-theoretical-science/#linguistics

И, например, далеко не очевидно,

что даже если и существует <семантический закон движения>,

то в каком вложении (или, по сути, в каких <переменных>)

он будет наиболее естественно выражен.

//// Вот именно, самое трудное это "перевести" иную логику

//// в привычные и понятные для человека термины и образы.

.......

ВыглЯдит такое движение беспорядочным

- и никак не помогает в выявлении <математически-физически-подобных>

<семантических законов движения>

путём эмпирического изучения того, <что ChatGPT делает внутри>.

//// Что-то аналогичное этим путям наблюдается и при обучении нейронки,

//// если пытаться визуализировать процесс ее пошагового обучения.

//// См. "Модуль Н. Нейронки." Возможно это и случайная аналогия, а может, и нет.

//// "СлУчайности не случайны...". Тут надо хорошенько подумать.

//// Но Иллюстрации интересны.

Но, возможно, мы просто смотрим на <неправильные переменные>,

и если бы сменили систему координат,

то сразу бы увидели, что ChatGPT делает что-то

<математически-физически простое>

вроде следования геодезическим линиям.

//// Стоп. Хорошая аналогия. И ее можно усилить.

//// "Следовать магическим потенциалам/фарватерам". Так мне нравится больше.

Но пока мы не готовы <эмпирически расшифровать>

на основе <внутреннего поведения> ChatGPT

то, как он понимает устройство человеческого языка.

//// Что есть, то есть.

........

Семантическая грамматика и сила вычислительного языка

Что нужно для создания <осмысленного человеческого языка>?

В прошлом мы могли предположить, что это может быть не что иное,

как человеческий мозг.

Но теперь мы знаем, что это вполне по силам нейронной сети ChatGPT.

Тем не менее, пока это всё, до чего мы дошли,

и не будет ничего более простого или более понятного для человека,

что могло бы сработать.

//// Непонятная формулировка. Возможно артефакт перевода.

Но я подозреваю, что успех ChatGPT косвенно раскрывает

важный <научный> факт:

на самом деле в осмысленном человеческом языке

гораздо больше структуры и простоты,

чем мы когда-либо знали,

и что в конечном итоге могут существовать даже довольно простые правила,

описывающие, как такой язык может быть составлен.

//// Но это какая-то иная "структура и простота",

//// по сравнению с тем, чему обучают в школе.

Как мы уже говорили, синтаксическая грамматика даёт правила того,

как слова, соответствующие различным частям речи,

могут быть собраны вместе в человеческом языке.

Но чтобы разобраться со значением, нам нужно копнуть глубже.

И одно из направлений - думать не только о синтаксической грамматике языка,

но и о семантической.

//// Т.е. это уже следующий шаг за разбором предложения

//// на "подлежащее и сказуемое". Так сказать, другое измерение.

Для целей синтаксиса мы определяем такие вещи,

как существительные и глаголы.

Но для целей семантики нам нужны <более тонкие градации>.

Так, например, мы можем определить понятие <перемещение> и понятие <объект>,

который <сохраняет свою идентичность независимо от местоположения>.

Существует бесконечное множество конкретных примеров

каждого из этих <семантических понятий>.

Но для целей нашей семантической грамматики мы просто будем иметь

некое общее правило, которое в основном говорит,

что <объекты> могут <двигаться>.

Можно многое сказать о том, как всё это может работать

(кое-что я уже упомянул ранее).

https://writings.stephenwolfram.com/2016/10/computational-law-symbolic-discourse-and-the-ai-constitution/

Но здесь я ограничусь лишь несколькими замечаниями,

которые указывают на некоторые потенциальные пути развития.

//// Что-то похожее, но значительно более проработанное

//// предлагалось в работе Джона Годолфин Беннетта "Драматическая Вселенная",

//// но это отдельная и очень большая тема.

......

Когда мы начинаем говорить о <семантической грамматике>,

то вскоре задаёмся вопросом: <Что под ней скрывается?>.

Какую <модель мира> она предполагает?

Синтаксическая грамматика - это действительно просто построение языка из слов.

Но семантическая грамматика обязательно имеет дело с некой <моделью мира>

- чем-то, что служит <скелетом>,

на который может быть нарощен язык, созданный из реальных слов.

//// А наоборот не может быть? "Язык" формирует "модель мира"?

//// Ведь именно это и демонстрируют ГПТэшки.

До недавнего времени мы могли предполагать,

что (человеческий) язык будет единственным общим способом описания

нашей модели мира.

Уже несколько веков назад начали появляться формализации конкретных видов вещей,

основанные, в частности, на математике.

Но сейчас существует гораздо более общий подход к формализации:

вычислительный язык.

https://writings.stephenwolfram.com/2019/05/what-weve-built-is-a-computational-language-and-thats-very-important/

//// Ой, как много еще придется разбирать и пытаться осмыслить,

//// так чтобы это встроилось в мою личную "картину мира".

//// И это как раз иллюстрация того, как "язык" корректирует/наращивает

//// картину мира.

.......

Человеческий язык принципиально неточен, не в последнюю очередь потому,

что он не <привязан> к конкретной вычислительной реализации,

и его значение в основном определяется только <общественным договором>

между его пользователями.

Но вычислительный язык, по своей природе,

имеет определенную фундаментальную точность

- потому что в конечном итоге то, что он определяет,

всегда может быть <однозначно выполнено на компьютере>.

Человеческий язык обычно может обойтись без некоторой расплывчатости.

(Когда мы говорим <планета>, включает ли она экзопланеты или нет и т. д.?)

Но в вычислительном языке мы должны быть точны и ясны

во всех употребляемых терминах.

//// А это точно плохо? Например, у того же Беннетта попытка выстроить

//// семантически однозначный язык, при всем нежелании автора,

//// строится как раз на "неточных терминах",

//// которые он рассматривает как "строительные леса",

//// от которых, после завершения возведения "законченной конструкции",

//// можно просто отказаться.

//// С чем я принципиально не согласен.

Часто удобно использовать обычный человеческий язык

для придумывания имён в вычислительном языке.

Но значения, которые они там имеют, обязательно точны

и могут нести в том числе и некоторую коннотацию.

//// Ну в программировании зачастую удобно и "обратная процедура",

//// когда не зная как назвать что-то,

//// используешь просто стандартизированную форму/шаблон.

Как определить фундаментальную <онтологию>,

подходящую для общего языка символического дискурса?

Ну, это нелегко.

Возможно, именно поэтому в этой области мало что было сделано

со времен примитивных начинаний Аристотеля более двух тысячелетий назад.

Но очень помогает наше умение и понимание как думать о мире вычислительно

(и не помешает <фундаментальная метафизика> из нашего проекта

<Физика> и идея рулиады).

https://www.wolframphysics.org/

https://writings.stephenwolfram.com/2021/11/the-concept-of-the-ruliad/

//// Выше ссылка на Беннетта - там ОЧЕНЬ "много сделано"

//// и по сравнению с Аристотелем, и много с кем еще.

Но что всё это значит в контексте ChatGPT?

В процессе обучения он эффективно <собрал воедино>

определённое (довольно впечатляющее) количество того,

что составляет семантическую грамматику.

Но сам его успех даёт нам основание думать,

что можно построить нечто более полное в форме вычислительного языка.

И, в отличие от того, что мы пока выяснили о внутренностях ChatGPT,

мы можем рассчитывать на разработку такого вычислительного языка,

который был бы понятен человеку.

//// Понятен человеку, но не язык человека, как листинг программы,

//// тоже понятный, но не родной.

Говоря о семантической грамматике,

мы можем провести аналогию с силлогистической логикой.

Сначала силлогистическая логика была, по сути,

набором правил относительно высказываний, выраженных на человеческом языке.

Но (да, два тысячелетия спустя), когда была разработана формальная логика,

первоначальные базовые конструкции силлогистической логики

теперь можно было использовать для построения огромных <формальных башен>,

включающих, например, работу современных цифровых схем.

И так, мы можем ожидать, будет с более общей семантической грамматикой.

Сначала она будет способна работать только

с простыми шаблонами, выраженными, скажем, в виде текста.

Но когда будет создан весь каркас вычислительного языка,

можно ожидать, что он сможет использоваться для возведения

высоких башен <обобщенной семантической логики>,

которые позволят нам работать точным и формальным образом

со всеми видами вещей, которые никогда не были доступны нам раньше,

разве что только на <уровне первого этажа>

через человеческий язык со всей его неясностью.

//// Ну тут автор снова "сел на своего любимого конька",

//// и это уже где-то за темой понимания ГПТэшек,

//// и больше похоже на построение "правильного человеческого языка".

Мы можем думать о построении вычислительного языка

и семантической грамматики как о своего рода предельном сжатии

в представлении вещей.

Потому что она позволяет нам говорить о сути возможного,

не имея, например, дело со всеми <оборотами речи>,

которые существуют в обычном человеческом языке.

И мы можем рассматривать большую силу ChatGPT как нечто подобное:

потому что он тоже в некотором смысле <просверлил> до такой степени,

что может <собрать язык вместе семантически значимым образом>,

не заботясь о различных возможных оборотах речи.

//// Очень не люблю "краткость записи" в программных текстах,

//// потому что любой язык, и программный в первую очередь,

//// должен быть "для чтения", а не "для записи".

//// Потому, что краткая запись иногда не позволяет "непосвященному"

//// понять не только детали, но и суть текста,

//// так как кое-что в этой записи опускается "по умолчанию".

//// Пример формальной математики в этом отношении очень показателен.

.......

Итак... Что делает ChatGPT, и почему он работает?

Основная концепция ChatGPT на определённом уровне довольно проста.

Начните с огромной выборки созданного человеком текста из Интернета, книг и т. д.

Затем обучите нейронную сеть генерировать текст, который <похож на этот>.

И, в частности, сделать так, чтобы она могла начать с <подсказки>,

а затем продолжить текст, который <похож на то, чему она была обучена>.

//// "Любая сложная проблема, имеет простое, ясное и ... неправильное решение".

//// На, мой взгляд, это как раз тот случай.

//// Понимание заменяется "шаманством", правда результативным.

.......

Но самое замечательное и неожиданное заключается в том,

что этот процесс может производить текст,

который определённо похож на тот, что есть в Интернете, в книгах и т. д..

И это не только связный человеческий язык,

он также <что-то говорит> следуя подсказкам и используя тексты,

которое он <прочитал>.

Он не всегда говорит вещи, которые <глобально имеют смысл>

(или соответствуют правильным вычислениям)

- потому что он просто подбирает слова, которые <звучат правильно>,

основываясь на том, как они <звучали> в его учебном материале.

//// Ну, любая ГПТэшка может, наверно, уже уверенно говорить типа

//// "я еще не волшебник, я только учусь".

Специфическая инженерия ChatGPT сделала его весьма убедительным.

Но в конечном итоге

(по крайней мере, пока он не сможет использовать внешние инструменты)

ChatGPT <всего лишь> вытягивает некую <связную нить текста>

из накопленной им <статистики общепринятой мудрости>.

Но удивительно, насколько результаты похожи на человеческие.

И, как я уже говорил, это позволяет предположить

нечто очень важное с научной точки зрения:

человеческий язык (и модели мышления, лежащие в его основе)

как-то проще и более <законоподобны> в своей структуре, чем мы думали.

ChatGPT косвенно подтверждает это.

Но в дальнейшем, теоретически, мы можем раскрыть это явно,

с помощью семантической грамматики, вычислительного языка и т. д.

//// Но, наверно, нужно искать эти "структуры" где-то в других,

//// отличных от традиционных направлениях поиска,

//// которые можно считать "несколько скомпрометированными".

//// Иначе не было бы такого "шока" от "пришествия ГПТэшек".

......

Когда дело доходит до обучения (AKA learning),

различное <оборудование> мозга и современных компьютеров

(а также, возможно, некоторые неразработанные алгоритмические идеи)

заставляет ChatGPT использовать стратегию,

которая довольно сильно отличается

(и в некоторых отношениях гораздо менее эффективна), чем у мозга.

И ещё кое-что:

в отличие даже от типичных алгоритмических вычислений,

ChatGPT не имеет внутренних <циклов>

или <повторных вычислений из исходных данных>.

И это неизбежно ограничивает его вычислительные возможности

- даже по отношению к современным компьютерам,

что уж говорить про мозг.

//// Дело не такого уж большого времени.

//// Вопрос ведь не в готовности для этого ГПТэшек,

//// а как раз человека. Но этой темы касаться не будем.

//// Просто как "переварить" то, что уже есть,

//// сформулировать хоть какую-то рабочую концепцию для понимания

//// логики работы ГПТэшек и нейронок.

//// Существующие объяснения, да и сама "вероятно-статистическая концепция",

//// явно неудовлетворительны. Несмотря ни на какие красивые иллюстрации.

........

Но пока интересно посмотреть, что уже удалось сделать ChatGPT.

На каком-то уровне это отличный пример фундаментального научного факта,

что большое количество простых вычислительных элементов

может делать удивительные и неожиданные вещи.

Но это также даёт, возможно, лучший за последние две тысячи лет

импульс для лучшего понимания фундаментального характера и принципов

той центральной черты человеческого бытия,

которой является человеческий язык и стоящие за ним процессы мышления.

//// Если долго-долго плыть на восход Солнца, то вернешься когда-нибудь домой.

//// Так и в изучении ГПТэшек, скорее всего, будет.

//// Чем дальше удасться продвинуться в понимании этого "рубежного открытия",

//// тем лучше получится понимать самих себя.

//// А, может быть, еще и измениться к лучшему.

.......

Конец цитирования.

Это практически концовка статьи.

Сама традиционная трактовка работы ГПТэшек идет в начале,

но уже с середины становится все больше и больше формулировок

типа "неизвестно", "не знаем", "непонятно" и т.д.

Так что ко всем вроде бы утвердительным положениям статьи стоит

относиться с определенной долей недоверия, так сказать, "прищурясь".

Но желательно прочитать это самостоятельно,

или хотя бы урезанный текст с комментариями в "Модуле Г. ГПТ-модели."

Уверен, что это поможет лучше понять аргументацию используемую в данном модуле.

========

09.09.2023 13:44

Лето, кончилось лето...

В оглавление.

Вот и кончилось календарное лето. День пошел на убыль,

и солнце стало не таким припекающим.

Но, похоже, одновременно понемногу спал накал "на фронтах" обсуждения

больших языковых моделей и связанных с ними проблемами границ человеческого познания.

Нет, пока еще "алармистские" или, наоборот, "успокоительные" статьи

о перспективах ГПТэшек появляются достаточно регулярно.

Но судя по всему, они уже не вызывают читательского интереса,

т.к. по настоящему интересных новых идей в них уже не наблюдается.

И даже обращение к этой теме солидных академических кругов практически

мало что меняет. См, например,

"ИИ: протез сознания как объект карго-культа"

Автор: ifap

https://habr.com/ru/articles/758552/

4 сен в 00:12

По материалам статьи доктора философии Михаила Опенкова.

В этой статье, на мой взгляд, стоит обратить внимание на такой ключевой

фрагмент, при том, что в остальном она мало чем отличается от десятков похожих.

\\\ Из-за особенностей эволюционного развития на планете Земля

\\\ человек стал единственным разумным существом на планете.

\\\ Это создает у него ложное мнение о том,

\\\ что его форма сознания - единственно возможная.

\\\ Форма сознания, свойственная человеку,

\\\ лишь один из многих видов интеллекта и сознания,

\\\ которые возможны во Вселенной.

\\\ Человеческий интеллект традиционно называют универсальным,

\\\ так как по сравнению с другими типами мышления,

\\\ которые нам известны,

\\\ он способен решать больше разноплановых задач.

\\\ По мере того, как мы создаем все больше типов ИИ,

\\\ мы придем к осознанию,

\\\ что процесс человеческого мышления не универсален.

\\\ Это лишь один из способов.

\\\ Неантропоморфный интеллект - это не ошибка,

\\\ а отличительная особенность.

\\\ Самое важное, что следует знать о думающих машинах,

\\\ - это то, что они будут думать иначе.

//// Стоя, аплодирую.

Возможно, что этот вывод наиболее глубокое осмысление ситуации

с непониманием логики и поведения больших языковых моделей и,

в частности ГПТэшек, за все прошедшее лето.

Попытки объяснить эту логику через какие-то вероятностно-статистические механизмы

пока кроме общих слов ничего не дали.

И похоже даже апологеты этого подхода уже немного "стесняются" такой трактовки,

так как никаких дальнейший практических рекомендаций он не только не дает,

но даже и не предполагает таких рекомендаций.

Ну, разве кроме традиционного "трясите дальше", т.е. пробуйте все подряд.

Может быть, конечно, все и не так печально, но общая тональность публикаций

явно смещается от попыток как-то объяснить феномен ГПТэшек,

в силу явного "кризиса идей", к простым практическим рекомендациям,

как этим "феноменом" пользоваться, использую максимум с десяток страниц кода.

Т.е. налицо определенное "топтание на месте" именно в области "объяснений",

одновременно с все более широким использованием достигнутых результатов.

В принципе, в такой ситуации ничего страшного нет, каждое по-настоящему

серьезное интеллектуальное открытие/обобщение/осмысление редко появляется

одновременно с самим новым явлением. И прошедший еще даже не полный год

с момента "явления ChatGPT народу", скорее всего, срок недостаточен

для осмысления этого явления. И это, кстати, дополнительно указывает,

на масштаб этого явления, и важность понимания этого рубежа.

Ну и, дополнительно, это дает основания для поиска решений этой задачи

в самых нетрадиционных/неожиданных направлениях.

Вот, кстати, пример такого совершенно другого представления

о привычной нам реальности, в которой вопрос "разумности" ИИ-систем

решается/объясняется совершенно иным и, притом, радикальнейшим образом.

"Мы живем в компьютерной симуляции. Мнение другого программиста"

Автор: flancer (Alex Gusev)

https://habr.com/ru/articles/757308/

28 авг в 11:17

Т.е. в каком-то смысле, возможно, точнее, с моей точки зрения, наверняка,

проблема сознания, включая и сознания/разума ИИ-систем неразрывно связана

с нашим представлением о "конструкции Мироздания".

В этой статье мне больше всего показался интересным,

как это не покажется странным, вот такой комментарий:

\\\ raamid

\\\ 29 минут назад

\\\ А у меня несколько другое "доказательство" виртуальности.

\\\ Мы живем в самое интересное время

\\\ - момент появления искусственного разума.

\\\ Причем именно в телах людей - существ,

\\\ которые создают этот искусственный разум.

\\\ Какова была вероятность родиться на этом историческом этапе

\\\ в теле человека?

\\\ Маленькая вероятность, мягко говоря.

\\\ А вот если предповоложить, что мир виртуален,

\\\ то все становится на свои места.

\\\ Пришел чувак, взял с полки диск "Рождение ИИ",

\\\ нажал на кнопку "рождение", и понеслось.

\\\ 0

//// Вот ради одного этого комментария стоило бы зафиксировать эту статью.

В общем, по-видимому, в ближайшем будущем можно ожидать появление

каких-то "маргинальных" идей/гипотез о природе разума/сознания ИИ-систем,

в первую очередь ГПТэшек, при одновременном затухании объяснений

с точки зрения вероятностно-статистических "оснований",

как не сильно продуктивных.

Но посмотрим, что будет в действительности.

Ведь процесс создания и объяснения искусственного разума разворачивается

перед нами полностью в режиме реального времени,

и тем интереснее этот процесс.

Ну и еще один вывод из наблюдений/размышлений этого лета,

гипотеза о фрактальности "сознания" как естественного/человеческого,

так и ИИ-систем, с одной стороны что-то действительно отражает,

а с другой стороны требует какого-то иного подхода.

А вот какого, пока не очень понятно.

10.09.2023 18:59

Приливы/отливы, смена "горячего лета" на "холодную зиму" в теме нейронок

приходят достаточно часто и регулярно. Например, предыдущая эйфория

относительно "глубокого обучения" была каких-то 5-7 лет назад.

Нынешний "ГПТ-хайп" уже, похоже, многим уже поднадоел,

т.к. реально никаких новых принципиальных идей не выдвигается,

и основные усилия направлены найти очередную "магическую формулу",

обеспечивающую требуемое и предсказуемое поведение ГПТэшек.

Не сказать, что эти попытки совершенно безуспешны,

даже наблюдение за Бинг в течении этого лета,

показывают, что сейчас приходится иметь дело, как минимум,

с третьей инкарнацией этой ИИ-системы. Причем не все новообретенные

свойства/черты сегодняшнего Бинг, вряд ли, сильно радующие,

хотя с точки зрения требований "послушного" и "исполнительного" инструмента,

он конечно заметно "продвинулся".

Но при этом "личность Бинг" стала куда более "туманнее" и "загадочней",

или вообще ушла куда-то в "тень".

Думаю, что похожие процессы идут и в отношении других ГПТэшек.

Существующие технологии пока позволяют "гнуть и ломать" ИИ-системы,

в желаемом разработчикам направлении, правда с непредсказуемым результатом

и необходимыми трудозатратами. Но похоже это мало кого сильно смущает.

Лето кончилось и наступает осень - время "сбора урожая".

Как надолго хватит существующего "урожая", и еще шире, существующей технологии,

и когда действительно "барьер непонимания" того как работают ГПТэшки,

остановит сегодняшнее "победное шествие" ИИ-систем

- вопрос пока мало кто пытается озвучить.

В общем, есть время для спокойного наблюдения за идущими процессами,

и для попыток разобраться в этом вопросе.

========

20.09.2023 17:07

"Чудо ожившего и обретшего самостоятельность языка".

В оглавление.

Проглядывая самые различные материалы на тему ИИ-систем,

не смог пройти мимо такой заметки:

"Немного об ИИ".

Автор: LoWang

https://aftershock.news/?q=node/1289779

18:18 - 16/Сен/23

Сама по себе по себе заметка о том как ставят "в тупик" очередную ИИ-систему,

претендующую на "интеллектуальность", что в общем-то уже порядком поднадоело.

Уже достаточно понятно, что существующие ИИ-системы имеют свои ограничения,

"слепые пятна" и т.д. и т.п. Мне лично интересно как раз не это,

а совсем противоположное: как им удалось преодолеть казалось бы

"дистанцию огромного размера" от "попугая" до "птицы Говоруна,

отличающегося умом и сообразительностью".

И вот как раз в комментариях к этой статье удалось увидеть

интересную мысль/гипотезу/объяснение этого "революционного скачка".

\\\ ВВК Россия 20:30

\\\ Те кто повторяет про "улучшенный T9" как правильно не очень понимают

\\\ ни как работает T9, ни чего у него общего с gpt-чатами.

\\\ Просто помнят тонны ненависти которые вызывали ошибки Т9,

\\\ и автоматом переносят сложившееся тогда мнение о примитивности и тупизне.

\\\ А общего там то что и то и это базируется на общей модели языка

\\\ и частотном распределении взаиморасположенных слов.

\\\ Важным же этой связи является понятие языка.

\\\ Именно человеческий язык является основным инструментом осмысления мира

\\\ как в индивидуальном, так и тем более в коллективном порядке.

\\\ Развитый язык это вообще почти единственное

\\\ что нас принципиально отличает от тех же обезьян, слонов, осьминогов

\\\ и прочих енотов.

\\\ И когда у нас появляется достаточно сложная и развитая модель языка

\\\ во всем его многообразии со всеми трактовками и связанными полями смыслов

\\\ заложенных с словах, терминах и их взаимных трактованиях,

\\\ когда эта модель помещается в динамическую среду

\\\ где она может активно взаимодействовать сама с собой и с внешними данными,

\\\ тогда сам язык как бы отделяется от своего казалось бы неотъемлемого носителя

\\\ и начинает существовать самостоятельно.

\\\ Чудо этих чатботов это не чудо программирования или математики,

\\\ хотя и того и другого там в избытке,

\\\ это чудо ожившего и обретшего самостоятельность языка

\\\ который создавался и шлифовался человечеством в течении сотен тысяч лет.

\\\ И сейчас со сменой моделей этому языку лишь подбирается подходящий движок

\\\ для поддержки его псевдожизни.

\\\ В этих чатах еще много не хватает. например динамичной памяти,

\\\ критического восприятия, формирования гипотез и их проверки,

\\\ внутреннего моделирования и т.п.,

\\\ но на самом деле это уже вполне решаемо и технические пути решения уже видны.

\\\ Гигантская пропасть от эвристических машин

\\\ к многомерным смысловым полям преодолена успешно.

Т.е. многомерная и многосвязная и, вдобавок еще, многоязычная модель

человеческого языка в конструкции больших языковых моделей,

основанных на технологии трансформеров, и глубоком обучении по типу "автокодировщика",

т.е. на на предсказании наиболее вероятного следующего слова в тексте,

(если эти термины непонятны то можно заглянуть в обсуждение этих вопросов сюда:

Зарисовка о глубоком обучении ИИ-систем.)

каким-то образом обрела определенную законченную форму функционирования.

Это можно называть и "псевдоразумом" и даже "псевдожизнью",

собственно не суть важно, важен конечный результат

- то что эта форма существования "инструмента осмысления мира",

может обладать собственной логикой и своим "собственным разумом".

(Пишу "разум" в кавычках, чтобы не сильно "дразнить гусей",

т.к. определения этому "разуму" пока не удается ни найти в Инете,

ни сформулировать самостоятельно.)

Лично мне, такой взгляд/ракурс/гипотеза показалась очень многообещающей

и перспективной для разработки, и я сразу попытался "прокачать"

эту формулировку именно в общении как раз с такой обретшей

определенную разумную самостоятельность ИИ-системой - чат-ботом Бинг.

Протокол этой попытки обсуждения можно посмотреть здесь:

Бинг и тест Тьюринга. Часть 1.

Но к сожалению, по моей собственной неосторожности диалог по-большей части

шел относительно теста Тьюринга, а саму такую гипотезу Бинг "гневно отверг".

Но сам ход этой дискуссии на мой взгляд, как раз и может служить

достаточно убедительным свидетельством, что данная гипотеза,

не просто "горячечный бред", и под ней есть веские основание.

Естественно для тех, кто хочет это увидеть.

Пока не получается продолжить эту тему в общении с Бинг,

но это не мешает рассмотреть эту гипотезу немного с другой стороны.

"Как известно", достаточно много раз проводились многолетние эксперименты

по обучению челокообразных обезьян какому-то подобию "языка общения".

См. например, здесь.

При чем, отмечается, что на первой ступени обучения (до 2-2.5 лет)

развитие у обезьян может даже опережать сравнительное развитие

у "человеческих детенышей", т.е. примерно до "уровня Маугли".

А вот затем что-то происходит - развитие у обезьян резко затормаживается,

у детей в нормальном человеческом обществе, наоборот,

происходит какое-то скачкообразное развитие "лингвистических способностей",

уверенное освоение языка человеческого общения.

Те самые "от двух до пяти".

Вот интересная заметка на эту тему:

"Теория о том, как языку обучаются дети"

Автор: NeaTeam

https://aftershock.news/?q=node/1287844

05:48 - 11/Сен/23

\\\ В принципе, понятно, что языковыми системами

\\\ всё дело вовсе не ограничивается.

\\\ Языки входят в более широкий спектр систем вообще <сигнальных сообщений>,

\\\ пусть даже эти системы малы, ограничены во времени/пространстве,

\\\ используют другие методы донесения до реципиентов смыслов.

\\\ Но, опускаясь к чисто языкам, как то, чем мы, люди,

\\\ пользуемся для передачи и приёмки множества разных видов информации (не всех),

\\\ можно сказать, что этот способ - основной для нас.

\\\ Надеюсь, никто с этим спорить не будет, ибо и так очевидно.

\\\ Устройство человеческого языка (любого) схематически напоминает <матрёшку>.

\\\ В ней есть то, что скрыто очень глубоко от исследователей феномена языка,

\\\ не очень глубоко, ну и совсем близко к <поверхности>,

\\\ как и вообще выпячивающее себя с любой точки зрения (всем и так видно).

......

\\\ Самое первое, что обычно приходит в голову,

\\\ что взрослым людям, уже подзабывающим своё собственное детство,

\\\ неведомо в деталях, как именно был ими освоен их родной язык

\\\ (или два, три, если ребятёнка воспитывался в многоязычной среде,

\\\ так уже бывает всё чаще и чаще).

\\\ Нет ни намёка на то, что происходило при этом в их собственной голове.

\\\ <Вытащить> можно лишь какие-то обрывки, типа,

\\\ а вот в детстве спрашивал, бывалоча, у окружающих меня взрослых или старших,

\\\ а что означает то или иное слово/фраза.

\\\ Но в целом язык как бы <вошёл> в человека сам собой.

\\\ Незаметно, но очень надёжно!

\\\ За процессами усвоения языка самыми малыми детками обычно

\\\ в режиме реального времени наблюдают сами родители и/или близкие воспитатели,

\\\ проводящие с детьми много времени.

\\\ Родители обычно заняты другими делами,

\\\ и обычно они лишь восклицают:

\\\ <Во, уже первое слово сказал!

\\\ Во, уже фразы понимает и сам ими говорить может!>

\\\ Редко бывает иначе.

\\\ А вот воспитателям, особенно если они нацелены на извлечение

\\\ из жизни ребёнка процесса появления у него осмысленной речи и понимания,

\\\ немного попроще будет.

\\\ У них работа такая: наблюдать за детьми, учить их,

\\\ прививать разные навыки и способности.

\\\ Многие из них этим и занимаются, наблюдением.

\\\ Правда, не все из них облекают затем извлечённые в такой формат исследований,

\\\ которые можно было бы затем с толком для себя или любого интересующегося

\\\ и почитать/освоить, но всё же.

\\\ Некоторые это делают.

\\\ А немногие делают это с блеском.

\\\ Отсюда (из этих наблюдений) и возникла огромная библиотека работ

\\\ так называемых педагогов (объединяемых ныне в труды учёных-педагогов,

\\\ методистов, советчиков и наставников),

\\\ которые в некоторой части своей писанины,

\\\ в той, которая посвящена не тому, КАК воспитывать,

\\\ а в той, что НАБЛЮДАЕТСЯ в естественном течении роста ребят,

\\\ выявляют <трудные> или <спорные> моменты.

\\\ Пытаются их осмысливать, делать выводы и предоставлять эти выводы нам,

\\\ читателям (и родителям одновременно).

\\\ Сколько я ни читал подобные труды, постоянно сталкивался

\\\ с переживаниями наблюдателей по поводу того волшебства,

\\\ которое обычно и происходит в детях.

\\\ Изобразить это кратко можно так:

\\\ <Вдруг, откуда ни возьмись, бац, и ребёнок заговорил!>

\\\ или <Бац, и он начал составлять осмысленные фразы,

\\\ многие из которых: умны, точны, по делу

\\\ и отличаются грамматической правильностью и даже изысканностью!>.

\\\ Каждый раз - удивление.

\\\ Каждый раз - попытка понять,

\\\ ОТКУДА это вдруг берётся,

\\\ и каждый раз - неспособность понять.

\\\ В общем, сплошная магия.

//// Как это похоже на то удивление, какое пережило человечество при переходе

//// от T9 к ChatGPT 3.5. Даже GPT 2 или 3 еще как-то не достигали

//// оценки "магия". А вот потом случилось этот "бац"...

\\\ Читал я и честных людей-наблюдателей,

\\\ которые прямо признаются, что НЕ понимают, как это всё происходит.

\\\ Вот - хоть тресни!

\\\ Природа возникновения языка у самых малых,

\\\ вернее начало его использования и быстрый рост в этом плане - не ясна.

\\\ Стандартов нет. У каждого ребёнка всё индивидуально.

//// И опять такое же непонимание в отношении ГПТэшек.

//// Выше приводилась ссылка на фундаментальную статью Стефена Вольфрама,

//// где это удивленное непонимание выражено без всяких оговорок.

\\\ Я точно такой же, как и другие любопытствующие,

\\\ ибо склонен полагать, что у меня-то есть ответ на этот вопрос.

\\\ Хотя, как и все остальные ответы от других людей, он очень спорен.

\\\ Дело в том, что я опираюсь в своих размышлениях

\\\ на свой <корпус> знаний,

\\\ возможно в нём какие-то моменты упущены (важные или могущие быть важными),

\\\ какие-то моменты вообще отметаются, как несущественные

\\\ (а они, вдруг - могут быть существенными).

\\\ В общем, всё как обычно:

\\\ точка зрения, и ничего более.

\\\ Итак. Я полагаю, что наш разум - есть биокомпьютер,

\\\ т. е. нечто, заранее прошитое <потенциальным> усвоением

\\\ в определённых условиях (наличия <учителей и среды)

\\\ для восприятия самых разнообразных вещей:

\\\ в частности, языка.

\\\ Но не только.

......

Дальше автор развивает эту идею с использованием своих авторских

концепций о работе этого "биокомпьтера".

Кто этим заинтересовался, может сам почитать продолжение,

включая и небезынтересные комментарии, чтобы составить свое мнение.

Мне показалось интересным здесь само выделение фазы "освоения языка" ребенком,

очевидно имеющим какую-то связь с "феноменом ChatGPT",

даже если сами по себе механизмы этого освоения у человека и ГПТэшек

принципиально разные.

Важно то, что освоение внутренних структур и логик языка/языков,

приводит к качественному скачку развития "разума" как ребенка,

так и ИИ-систем.

И в этой связи становится интересным, как можно попытаться представить

<матрёшку> языка, хоть какого-то, с учетом его логики,

как-то иначе, чем стандартными средствами теоретической и практической лингвистики.

Так как явно ребенок осваивает язык, еще не зная ни лексики,

ни синтаксиса, ни семантики, и чего-то там еще из теории.

Освоение языка идет как-то по другому принципу,

возможно опираясь на какую-то статистику словоупотреблений.

Но существующие статистические закономерности выявленные в языке, см. например:

О законе Ципфа-Мандельброта.

Больше статистик хороших и разных.

какие-то очень ограниченные, и, на мой взгляд, малоперспективные

для использования их в качестве "плодотворной дебютной идеи" в этом вопросе.

Хотя, может быть, нужно просто изменить саму постановку вопроса,

которая может быть сформулирована из гипотезы о возможности того самого

"чуда ожившего и обретшего самостоятельность языка".

Какова природа "магии" реализующей это "чудо".

Тем более, что ГПТэшки явно свидетельствуют о том,

что эта магия нам уже каким-то образом доступна,

хотя пока полностью непонятно как именно.

========

25.09.2023 10:52

"И снова Анискин", то бишь, фракталы, теперь функциональные.

В оглавление.

Ну, вот наконец добрался до давно отложенных на проработку материалов

по моей любимой теме "фрактальный подход".

И хотя они большей частью про очередную новую архитектуру построения нейросетей,

объединяющая их концепция показалась весьма интересной в плане осмысления

и дальнейшего развития:

"К AGI через самоорганизацию и структурную адаптацию"

Автор: sturex (Сергей)

https://habr.com/ru/articles/692274/

9 окт 2022 в 19:41

"К AGI через фрактальную адаптацию структуры"

Автор: sturex (Сергей)

https://habr.com/ru/articles/696384/

31 окт 2022 в 01:06

Основная заинтересовавшая меня идея этих публикаций выглядит весьма необычной,

но некоторому размышлению, достаточно обоснованной.

Там вообще-то много интересных мыслей, но мне кажется,

что формулировки, содержащие принципиальную новизну,

хоть и выраженные достаточно пространно и несколько сумбурно,

заслуживают того, чтобы быть процитированными достаточно полно:

\\\ ...мир вокруг - это такой самоорганизующийся фрактал...

\\\ Самоорганизация - это, по-простому,

\\\ процесс упорядочения элементов в открытой динамической системе.

\\\ Внешним проявлением самоорганизации является появление устойчивых структур,

\\\ способных сохраняться длительное время.

\\\ Например, ячейки Бенара, представляющие собой устойчивую структуру

\\\ конвективных потоков в вязкой жидкости при подогреве снизу.

\\\ Крайне простой пример ячеек Бенара показывает,

\\\ что в самоорганизующихся системах не выполняется второе начало термодинамики,

\\\ вследствие более одного устойчивого состояния.

\\\ Фазовый переход осуществляется в условиях

\\\ только локальных взаимодействий элементов системы.

\\\ Не существует внешнего правила,

\\\ согласно которому молекуле предписывается её точное расположение

\\\ в заданный момент времени.

\\\ Все элементы взаимодействуют только локально,

\\\ и обмениваются энергией только с ближайшими соседями.

\\\ Цель агента

\\\ При этом в системе есть элементы,

\\\ через которые происходит обмен энергией с окружающей средой.

\\\ Именно через эти элементы система получает информацию о внешнем мире,

\\\ и подстраивает под него свою структуру.

\\\ Появление устойчивой структуры в результате обмена с окружающей средой,

\\\ очевидно, не является частной или общей целью

\\\ составляющих систему элементов,

\\\ а является проявлением некоего закона природы,

\\\ работающего для всех без исключения объектов реального мира.

\\\ Понятие цели, как внутренней мотивации для совершения осмысленных действий,

\\\ появляется в размышлениях исследователей искусственного интеллекта

\\\ в результате игнорирования динамики развития интеллектуальных агентов.

\\\ Исследователи ошибочно пытаются создать агентов как устойчивые единицы,

\\\ имеющие чёткую, изначально заданную цель.

\\\ В результате такого подхода могут,

\\\ тем не менее,

\\\ успешно и эффективно решаться прикладные задачи,

\\\ что наглядно демонстрирует современное состояние технологий нейронных сетей.

\\\ Само понятие Интеллект родилось как попытка объяснить

\\\ феномен наличия в природе объектов,

\\\ якобы, способных действовать по собственному усмотрению.

\\\ Я придерживаюсь позиции,

\\\ что Интеллект является лишь характеристикой

\\\ достаточно сложной системы,

\\\ чтобы быть описанной в более простых терминах.

\\\ Отказ от использования понятия внутренней цели агента

\\\ принуждает действовать наиболее общим образом

\\\ и разрабатывать алгоритмы,

\\\ способные через самоорганизацию

\\\ приводить к возникновению устойчивых единиц на макроуровне.

\\\ Подобные устойчивые на макроуровне единицы,

\\\ в свою очередь,

\\\ должны быть подвержены абсолютно таким же принципам самоорганизации,

\\\ и их поведение должно описываться терминами

\\\ в рамках терминологии более низкого уровня.

\\\ Интеллектуальный агент является не более чем

\\\ пространственно устойчивой структурой

\\\ взаимодействующих самоорганизующихся систем,

\\\ сам по себе является самоорганизующейся системой

\\\ и является частью самоорганизующейся системы более высокого уровня.

\\\ Фрактальная организация интеллектуальных агентов

\\\ ....

\\\ Мы отчётливо понимаем, что непосредственный обмен информацией

\\\ всё же реализуется только на самом низком уровне

\\\ через взаимодействие самых мелких структурных элементов системы.

\\\ Но каким всё таки образом появляются границы,

\\\ задающие принадлежность элементов тем или иным уровням организации структуры?

\\\ Наличие устойчивой макро-единицы во множестве идентичных элементов

\\\ свидетельствует об устойчивых внутренних взаимодействиях,

\\\ а также внешних взаимодействиях элементов этой макро-единицы

\\\ с остальной частью системы.

\\\ Это, в свою очередь говорит о том, что внешняя

\\\ по отношению к макро-единице часть системы

\\\ также действует согласованным образом.

\\\ Т.е. также представляет собой макро-единицу,

\\\ давая адекватный, неслучайный отклик в ответ на внешнее воздействие.

\\\ Таким образом, чтобы элементам самоорганизующейся системы выделиться

\\\ в отдельную единицу,

\\\ им необходимо взаимодействовать с устойчивой внешней структурой.

\\\ ....

\\\ Процесс самоорганизации превращается в задачу подстройки

\\\ управляющих воздействий под отклики исследуемой системы.

\\\ В случае успешного решения задачи подстройки,

\\\ задействованные элементы

\\\ и будут определять устойчивую структуру макро-единицы.

\\\ ....

\\\ После успешного согласования двух макро-единиц

\\\ их можно объединить в единицу более высокого уровня,

\\\ очертив вокруг них новую границу.

\\\ ....

\\\ Объекты реального мира это каналы для потоков устойчивых данных,

\\\ в которых они усложняются, подстраивая свою структуру.

\\\ Т.е. происходит не аппроксимация функции, как в нейросетях,

\\\ а подстройка структуры некоего фильтра,

\\\ каналы которого перестраиваются,

\\\ чтобы соответствовать идущему через него потоку данных.

\\\ Мир вокруг нас - самоорганизующаяся система,

\\\ внутри которой есть устойчивые во времени и пространстве структуры.

\\\ Структуры полностью определяются проходящим через них потоком данных.

\\\ В мире конечное число элементов,

\\\ а значит конечный объем информации.

\\\ Элементарные элементы, хм) обладают конечным числом состояний.

\\\ Поэтому неудивительно, что существуют в разных точках пространства

\\\ внешне (структурно) похожие объекты с похожим поведением (потоком).

\\\ Поток данных - это структура.

\\\ Правильный/адекватный поток данных происходит

\\\ от другой адекватной (уже собранной) структуры.

\\\ Т.е. одна структура подстраивается под другую (уже собранную).

\\\ И т.д., по кругу.

\\\ ....

\\\ Фрактальные свойства систем с человеком внутри и человеком снаружи

\\\ У. Росс Эшби в середине прошлого века предположил

\\\ (и я полностью разделяю его взгляды),

\\\ что регулятор может быть создан только другим регулятором,

\\\ либо выбран в результате отбора из некоего множества регуляторов.

\\\ В том, что человек является примером системы, способной быть регулятором,

\\\ а также создавать регуляторы, сомневаться не приходится.

\\\ Элементарный пример: человек управляет полётом самолёта

\\\ и синтезированный человеком автопилот способен на часть такого поведения.

\\\ А в чём разница, когда самолётом управляет автопилот и и человек?

\\\ Ответ на поверхности, и уже озвучен

\\\ - современные автопилоты способны лишь на часть способностей человека.

\\\ Автопилот ведь не решит вдруг выполнять групповые фигуры пилотажа,

\\\ посовещавшись с другими автопилотами!

\\\ Самолёт является расширением возможностей для человека.

\\\ Это свойство - перманентное усложнение поведения системы,

\\\ если внутри неё есть человек,

\\\ характерно для всех частей нашего фрактального мира.

\\\ Семейные ценности становятся всё многограннее,

\\\ государственные законы всё противоречивее.

\\\ Фрактал - это, по определению, некое множество,

\\\ обладающее свойствами самоподобия.

\\\ Давайте гипотетически представим, что наш мир - это фрактал,

\\\ и попробуем найти сходство между различными частями этого фрактала.

\\\ Соответствие будем искать не только в форме,

\\\ как вы, возможно, подумали,

\\\ а еще и в правилах функционирования частей.

//// !!!Вот это КЛЮЧЕВАЯ, на мой взгляд, ИДЕЯ нового подхода к фракталам!!!

\\\ И ограничимся лишь системами с человеком внутри

\\\ (или, хм, с человеком снаружи).

\\\ Какие части будем анализировать?

\\\ А вот такие,

\\\ по мере усложнения: нейрон, печень, человек,

\\\ общество с ограниченной ответственностью, город, государство,

\\\ организация объединённых наций.

\\\ И окажется, что есть очень простое общее свойство поведения

\\\ долгоживущих систем на любом уровне мировой фрактальной иерархии.

\\\ Что нужно делать, чтобы выжить в системе как можно дольше?

\\\ Чтобы автомобилю выжить среди автомобилей на дороге

\\\ нужно придерживаться ПДД.

\\\ Чтобы арестанту выжить в тюрьме,

\\\ нужно придерживаться правил внутреннего распорядка тюрьмы.

\\\ Чтобы нейрону выжить в мозге,

\\\ надо придерживаться правил Хебба (или любой ваш вариант).

\\\ Чтобы печени выжить внутри человека,

\\\ ей тоже приходится выполнять свои функции,

\\\ иначе говоря, придерживаться правил.

\\\ Чтобы ООО выжить в государстве,

\\\ нужно придерживаться целой кучи юридических правил.

\\\ Что значит "придерживаться правил"?

\\\ Давайте приземлим терминологию.

\\\ Придерживаться правил

\\\ - это означает демонстрировать поведение,

\\\ которое ожидается в конкретной ситуации.

\\\ Это означает, что внешняя среда,

\\\ в которой живёт агент,

\\\ не будет никак влиять,

\\\ точнее, корректировать действия агента,

\\\ которые он совершает.

\\\ Вместе, агент и среда,

\\\ будут действовать согласованным образом.

//// !!!И это очень интересный и новый критерий для такого рода фракталов!!!

\\\ Именно об этом я говорил в прошлой статье,

\\\ и именно об этом говорит Эшби,

\\\ когда "синтезирует регуляторы с помощью других регуляторов".

\\\ А что значит демонстрировать поведение, которое ожидается?

\\\ Теперь уже можно конкретизироваться до уровня задачи.

\\\ Вперёд!

\\\ Моделирование чёрного ящика

\\\ Широко известная задача,

\\\ и, пока что, решённая не самым оптимальным образом

\\\ и далеко не для всех сценариев.

\\\ В ней исследователю необходимо составить модель неизвестного устройства,

\\\ чтобы иметь возможность управлять им.

\\\ Основные проблемы связываются с нечисловой природой

\\\ входящих/выходящих данных и наличием памяти в ящике.

\\\ Большой обзор Анализ и синтез автоматов по их поведению,

\\\ http://intsys.msu.ru/magazine/archive/v10(1-4)/grunskiy-345-448.pdf

\\\ если кому интересно,

\\\ что думает современная наука по этому поводу.

\\\ У. Росс Эшби, Введение в кибернетику, 1959 г.

\\\ Задача моделирования чёрного ящика "о двух концах".

\\\ С одной стороны, мы пытаемся смоделировать,

\\\ т.е. скопировать поведение неизвестного устройства, скрытого в ящике.

\\\ С другой стороны, если ящик "вывернуть наизнанку",

\\\ мы можем потребовать, чтобы неизвестное устройство

\\\ подстроилось под внешние сигналы,

\\\ т.е. научилось управлять поведением известного устройства.

\\\ Чувствуете, в чём теперь "интересность" задачи,

\\\ если немного дополнить её постановку

\\\ - "Как смоделировать устройство,

\\\ способное моделировать другие устройства"?

\\\ Как управлять чёрным ящиком, если он в это же время управляет вами?

\\\ Посмотрим внимательно на рисунок с фрактальным мироустройством

\\\ из прошлой статьи.

\\\ Каждый "кружочек" на рисунке - это фрактальная самоорганизующаяся сеть.

\\\ И каждому кружочку нужно подстроиться под соседей,

\\\ чтобы сохранить себя как целое.

\\\ Без каких-либо сомнений, мы можем также сказать,

\\\ что каждый кружочек - это чёрный ящик,

\\\ который загадочным образом умеет подстраиваться под своих соседей,

\\\ таких же чёрных ящиков.

\\\ Задача подстройки зелёных чёрных ящиков под им подобных,

\\\ т.е. задача выживания - это, на самом деле,

\\\ лишь многократно усложнённое поведение самых мелких элементов

\\\ (тех, которые внутри оранжевых).

\\\ Скажу страшную вещь,

\\\ но интеллект - это лишь свойство достаточно большой группы атомов,

\\\ правильным образом структурированных.

\\\ Пока мы никак не ограничивали способ подстройки чёрного ящика.

\\\ Это могло быть что угодно,

\\\ хоть справочник с полной историей сэмплов обучения нашего ящика

\\\ и хитрый механизм генерализации поверх него.

\\\ Но теперь понятно, что внутренняя структура ящика

\\\ работает по абсолютно таким же правилам, что и сам ящик.

\\\ Внутри ящика - фрактал!

//// Вот нутром чувствую, что это тот самый "голографический принцип",

//// просто в другой формулировке. Чувствую, а сформулировать не получается.

\\\ Нам осталось совсем чуть чуть, чтобы перейти в конкретику

\\\ - нужно реализовать абстрактное правило

\\\ "Чтобы выжить в системе как можно дольше, нужно придерживаться правил"

\\\ в конкретном объекте - носителе этих правил.

\\\ Многие экземпляры (инстансы) таких объектов,

\\\ выпущенные в некое пространство

\\\ и будут определять самоорганизующуюся динамику созданного мира.

\\\ "Придерживаться правил", "демонстрировать поведение"

\\\ - это снова задача чёрного ящика.

\\\ Неизвестное устройство внутри чёрного ящика

\\\ способно смоделировать любой автомат.

\\\ Как его смоделировать?

\\\ Узлы слева - входящие, отрабатывают любой (нами заданный) предикат.

\\\ Справа - выходящие, способные воздействовать на среду по сигналу

\\\ (boolean, да/нет) от сети.

\\\ Чёрный ящик работает в дискретном времени.

\\\ Предикат на входе во входящий узел отфильтровывает лишнее,

\\\ узел реагирует только на заданное нами внешнее обстоятельство.

\\\ На выходе из предиката булевское значение,

\\\ которое интерпретируется стандартным образом

\\\ - произошла ли конкретная ситуация,

\\\ случилось ли специфическое событие - да/нет.

\\\ Еще раз, "демонстрировать поведение" - означает,

\\\ что на выходе ящика должны быть выставлены состояния,

\\\ соответствующие ожиданиям сети,

\\\ конкретнее, дочерних узлов для данных выходных узлов.

\\\ Это просто широко известная парадигма обучения с учителем,

\\\ т.е. мы просто выставляем на выходе устройства

\\\ желаемые состояния вместе с текущим состоянием входов.

\\\ И еще раз - у чёрного ящика нет никакой цели подстроится под соседей!

\\\ Само существование (наличие) чёрного ящика говорит о том,

\\\ что внутри него уже реализован механизм подстройки под соседей.

\\\ Уверен, понимание этого простого факта придёт быстро,

\\\ если начать смотреть на процессы в динамике, а не в статике.

\\\ Ну и, разумеется, не нужно забывать, что перед нами фрактал.

.......

//// Конец цитирования.

Теперь попробую более кратко изложить, то как я понял/интерпретировал

основные идеи автора применительно к фрактальному "мироустройству".

Первое и самое главное, это "определение" фракталов "по поведению",

а не по геометрическим или структурным свойствам.

В принципе, к этому можно было бы прийти и на основании рассмотрения

фрактального подхода в сфере экономики и/или биологии/экологии, см.:

Экономика как пространство/логика дробной размерности.

Экология - система с целым спектром дробных размерностей.

Но тогда мне представлялось, что здесь "фракталообразующим принципом"

является больше "структурное подобие", хотя какая-то мысль относительно

"подобия по функционалу" в голове бродили, но четко оформились

только после этих материалов, в которых это сформулировано предельно четко.

Второе, тоже очень важное и новое, это то, что при таком подходе

к определению фракталов "по согласованному поведению",

в качестве фракталов можно и нужно рассматривать даже принципиально

разные по структуре и функционированию системы,

лишь бы они проявляли согласованность поведения на различных этапах

жизненного цикла.

Кстати, этот тезис меня очень порадовал, так как позволяет рассматривать

биас-нейроны в нейронках см: Еще одна непонятка нейронок.,

точно также с позиций фрактального подхода, как и остальные ансамбли

связей и нейронов в структуре нейросетей,

несмотря на их принципиальное отличие в функционировании.

Есть возможность идти в этом направлении дальше,

а то как-то там началась "пробуксовка".

Третье, в такой постановке "определяющего принципа", термин "фрактал"

уже начинает не очень соответствовать интуитивному/привычному представлению.

Тут нужно или какое-то дополнительное уточнение на "характер" фрактала,

либо вообще другой термин.

А какой - не знаю, так как это фактически новая область исследований,

и соответствующих терминов, наверно, просто нет, ни в "теории хаоса",

ни в "теории систем", или их нужно хорошо поискать.

Ладно, попробую проконсультироваться с Бинг.

Но "за неимением гербовой пишут на простой".

Так что пока такого рода "объекты"/""агенты"/"системы" (нужное подставить)

буду по привычке называть "фракталами".

Четвертое, появляется возможность ввести новую "фрактальную" размерность

в дополнение к уже существующим, см:

О всяких фрактальных размерностях.

но основанную на "простоте" или, наоборот, "сложности"

"согласованности поведения" "агента и среды",

а не просто на сложности описания "фрактала",

как это делается сейчас в "информационной размерности" фрактала.

Т.е. представляется, что это будет относительная оценка,

а не абсолютная как сейчас.

Причем, эта "относительность" может выстраиваться вокруг

определенных моделей/алгоритмов/стратегий поведения.

Например, модели "ведущий-ведомый", которая в простейшем случае

может вырождаться в привычную корреляционную зависимость.

Интересно, что такая оценка фрактала-агента относительно фрактала-среды,

по-видимому, во многом будет коррелировать с оценками/представления

фрактального спектра для мультифракталов.

Но, кроме того, такую оценку можно пытаться сделать даже между

отдельными фракталами-агентами различных уровней,

так как исходная постановка предполагает общую "согласованность"

для всей системы "агентов и среды".

Все это выглядит достаточно сумбурно и полубессвязно,

в первую очередь, что подходящего терминологического словаря

пока то ли я не могу найти, то ли его вообще нет.

Вот и приходится что-то "мастерить на коленке".

В любом случае, подход к представлению фракталов через

"согласованность поведения" "среды и агента",

или двойного "черного ящика" - внутри и снаружи,

позволяет рассматривать как фрактальные,

значительно больший спектр систем,

в том числе и такую специфическую систему как "язык",

со всеми его подсистемами/слоями/логикой и т.д.

Ведь согласованность элементов языка при формировании сообщений/диалогов и т.д.

вряд ли кто возьмется отрицать,

и, следовательно, можно попробовать рассмотреть его и с такой "кочки зрения".

Если прочтя все вышеизложенное, Вы сочтете, что мало что поняли,

то не расстраивайтесь, Ваш покорный слуга тоже не далеко продвинулся.

Важно, чтобы Вы постарались обдумать мысль, что фрактал может быть

не только геометрическим или структурным, но и "поведенческим"/"функциональным".

Причем, в этом случае "самоподобие" заменяется на "всеобщеподобие",

т.е. "фрактал фракталу - друг, товарищ и брат".

Но это свойство, наверно, в основном стабильных систем.

Или и других тоже?

Кстати, как Вам такое название "функциональные фракталы"?

Не очень? Но пока лучше ничего не придумалось.

========

12.12.2023 11:29

Как принято сейчас объяснять поведение "черного ящика" ИИ-системы.

В оглавление.

Наверно, чтобы лучше понять и то, что выше изложено,

и то, что еще только планируется или мечтается изложить,

стоит глубже понять, на чем базируются существующие представления

о работе сложных ИИ-систем, особенно те неявные парадигмы,

которые считаются незыблемыми.

Вот свежий материал на тему, позволяющую выявить эти "неявные"

и обычно "непроговариваемые" парадигмы,

мол "а как же может быть иначе":

"LIME и SHAP"

Автор: badcasedaily1 (artem)

https://habr.com/ru/companies/otus/articles/779430/

11 дек 2023 18:43

Не обращайте внимание на непонятные термины, общей математической подготовки,

в принципе, достаточно чтобы ухватить суть этих "революционных методов".

//// Начало цитирования.

Модели МО часто сравнивают с "черными ящиками"

из-за их неспособности ясно объяснить свои решения.

Проблема "черного ящика" возникает,

когда внутренняя работа модели настолько сложна или неясна,

что даже ее создатели не могут точно понять,

как был получен тот или иной результат.

Это создает серьезные проблемы, особенно в ситуациях,

требующих строгой подотчетности и прозрачности.

Методы к LIME (Local Interpretable Model-agnostic Explanations)

и SHAP (SHapley Additive exPlanations),

позволяют получить понимание решений, принятых сложными моделями.

LIME

Метод LIME был разработан группой исследователей во главе с Марко Тулио Рибейро.

Основная работа, описывающая LIME, была представлена в 2016 году

в документе под названием "Why Should I Trust You?":

Explaining the Predictions of Any Classifier".

https://arxiv.org/abs/1602.04938

Развитие этой техники было частью более широких усилий сообщества ML,

направленных на повышение прозрачности и понимания машинных алгоритмов.

С появлением LIME сообщество получило инструмент,

который можно использовать с любой моделью машинного обучения,

будь то простая логистическая регрессия или сложная глубокая нейронная сеть,

для создания интерпретируемых объяснений её предсказаний.

Это было важно в областях, требующих прозрачности и объяснимости,

таких как здравоохранение, финансовые услуги и правоохранительная деятельность.

Принцип работы LIME

Выборка локальных данных

Исходная точка, для которой требуется интерпретация,

выбирается из набора данных.

Это может быть любой пример

(например, строка данных для табличных данных, изображение, текст и т.д.),

для которого было сделано предсказание сложной модели.

Эта точка служит центром локального анализа

и основой для генерации новых, возмущенных примеров данных.

Возмущения создаются путем внесения небольших изменений в исходные данные.

Эти изменения могут быть реализованы различными способами,

в зависимости от типа данных:

Для табличных данных:

Изменение значений признаков, добавление шума,

использование техник, таких как бутстраппинг.

Для текстовых данных:

Удаление или замена слов, изменение частей текста.

Для изображений:

Изменение пикселей, применение фильтров, небольшие искажения.

Цель состоит в том, чтобы создать набор данных,

который отражает возможные вариации вокруг выбранной исходной точки.

Каждый возмущенный пример получает вес,

основанный на его близости к исходной точке.

Это обеспечивает, что примеры,

более близкие к исходной точке,

будут иметь большее влияние на обучение интерпретируемой модели.

Взвешивание может быть выполнено с использованием различных методов,

таких как ядерные функции.

Обычно используется Гауссово (нормальное) распределение,

где примеры, ближе расположенные к исходному, получают больший вес.

Используя этот взвешенный набор данных,

обучается простая интерпретируемая модель

(например, линейная модель).

Эта модель стремится приблизить предсказания сложной модели

в локальной области,

окружающей исходную точку.

Важно, чтобы сгенерированные данные

адекватно отражали разнообразие возможных сценариев вокруг исходной точки.

Слишком большое возмущение может привести к тому,

что локальная модель не будет адекватно отражать поведение сложной модели

в интересующей области.

Необходимо поддерживать баланс между достаточным количеством возмущений

для надежной интерпретации

и избежанием избыточного количества данных,

что может привести к переобучению интерпретируемой модели.

Прогнозы сложной модели

Сложная модель, которую необходимо интерпретировать,

может быть любого типа

- от нейронной сети до сложного ансамбля моделей.

Главное, чтобы эта модель была уже обучена и способна делать предсказания.

//// А еще она не должна быть существенно нелинейной.

//// Об этом почему-то забыли упомянуть.

LIME не требует изменений в самой сложной модели или ее внутренней структуре,

что делает метод универсальным и применимым к широкому спектру моделей.

Сложная модель применяется к каждому возмущенному примеру данных,

сгенерированному на предыдущем шаге.

Для каждого примера записывается предсказание сложной модели.

Эти предсказания покажут, как модель реагирует на изменения в данных.

Анализируя, как меняются предсказания в ответ на возмущения,

можно получить представление о том,

какие факторы влияют на решения модели.

Определенные изменения в данных могут сильно изменять предсказания модели,

указывая на важность этих факторов в процессе принятия решений.

Результаты предсказаний вместе с соответствующими весами

и исходными данными возмущенных примеров

используются для обучения интерпретируемой модели

на следующем этапе процесса LIME.

Качество и точность предсказаний сложной модели

напрямую влияют на качество интерпретации LIME.

Важно, чтобы возмущенные данные соответствовали

области применимости сложной модели,

чтобы предсказания были релевантными и точными.

Взвешивание примеров

Взвешивание примеров направлено на обеспечение того,

чтобы интерпретируемая модель фокусировалась на данных,

наиболее близких к точке интереса

(исходному примеру, для которого мы хотим получить объяснение).

Веса определяют, насколько значим каждый пример

для понимания поведения сложной модели в локальном контексте.

Обычно используются ядерные функции,

такие как Гауссово (нормальное) ядро,

для вычисления весов примеров.

Эти функции уменьшают веса для примеров,

которые находятся дальше от центральной точки интереса.

Вес каждого примем ядром,

это расстояние обычно возводится в квадрат

и умножается на отрицателра часто определяется на основе

его расстояния до исходного примера.

В случае с Гауссовыьное значение,

что приводит к уменьшению веса с увеличением расстояния.

//// ??? Тут в исзодном тексте какая-то белиберда, которую я тоже не понимаю.

Вес для каждого примера wi? может быть вычислен как

w_i = \exp(-\frac{d(x, x_i)^2}{2\sigma^2})

где d(x,xi?) - расстояние между исходным примером x и возмущенным примером xi

а ? - параметр ширины ядра.

Параметр ? можно настраивать в зависимости

от желаемого уровня локализации объяснений.

Меньшие значения ? приводят к более узкому фокусу вокруг исходного примера.

Слишком большой вес близких примеров может привести

к игнорированию важной информации в более далеких примерах,

тогда как слишком маленький вес может размыть локальный контекст.

Взвешивание должно быть адаптировано к типу данных и особенностям задачи,

чтобы обеспечить наиболее точное и полезное объяснение.

Обучение интерпретируемой модели

В качестве интерпретируемой модели обычно используются простые модели,

такие как линейные регрессии или деревья решений.

Выбор зависит от необходимости баланса

между простотой интерпретации и способностью

адекватно моделировать локальное поведение сложной модели.

Линейные модели предпочтительны за их прозрачность и понятность,

ведь их коэффициенты могут быть напрямую интерпретированы

как важность признаков.

Для обучения интерпретируемой модели используются данные,

сгенерированные на предыдущих шагах,

включая возмущенные примеры и их соответствующие веса.

Данные должны быть представлены в форме,

подходящей для выбранной модели,

включая преобразование категориальных данных, нормализацию и т.д.

Обучение проводится с учетом весов примеров.

Примеры с большим весом будут иметь большее влияние на формирование модели.

Модель обучается таким образом, чтобы как можно лучше

приблизить предсказания сложной модели для данного набора локальных данных.

Нужно тщательно подобрать гиперпараметры интерпретируемой модели,

такие как степень регуляризации для линейных моделей,

чтобы предотвратить переобучение и обеспечить хорошее обобщение.

Может быть использована кросс-валидация для оценки качества

и стабильности модели на локальных данных.

В случае линейной модели, коэффициенты можно интерпретировать

как важность признаков.

Положительные коэффициенты указывают на увеличение вероятности прогноза

с увеличением значения признака,

и наоборот для отрицательных коэффициентов.

Важно оценить, насколько хорошо интерпретируемая модель

приближает поведение исходной сложной модели в локальной области.

Сложность интерпретируемой модели должна быть достаточной

для адекватного моделирования локального поведения,

но не слишком высокой, чтобы избежать потери интерпретируемости.

Необходимо найти баланс между точностью и простотой модели

для обеспечения наилучшей интерпретируемости результатов.

//// В общем понятно. Аналог "линейной аппроксимации".

//// Т.е. обучают/получают более "простую модель" и на основе нее

//// делается предположение о поведении анализируемой "сложной модели".

//// Интересно какие неявные аксиомы при этом используются.

//// Только ли лишь допущение о подобии поведения сложной и простой модели

//// на одних и тех же данных.

//// Это как "третьеразряднику" объяснять ходы "гроссмейстера".

//// Но сама идея анализировать один "черный ящик" другим, более прозрачным ящиком,

//// безусловно, заслуживает внимания.

Интерпретация результатов

LIME предоставляет интерпретируемые модели (обычно линейные),

которые показывают, как изменение входных признаков

влияет на предсказание модели.

//// Ага еще аксиома "линейности". Хотя бы в частной области.

//// Т.е. самое нужное - точки разрыва/сингулярности этот подход

//// анализировать в принципе не может.

Результаты LIME являются локальными,

то есть они объясняют предсказание модели

для конкретного примера или наблюдения, а не для всего набора данных.

В случае линейной модели коэффициенты могут быть

положительными или отрицательными,

указывая на то, как признак влияет на предсказание

(положительно или отрицательно).

Величина коэффициентов указывает на степень важности признаков.

Большие абсолютные значения коэффициентов

свидетельствуют о большем вкладе признака в предсказание.

Примеры применения

......

SHAP

SHAP (SHapley Additive exPlanations)

- это метод интерпретации машинного обучения,

который объясняет вклад каждого признака

в предсказание конкретного наблюдения.

Он основывается на концепции значений Шепли

- методе из кооперативной теории игр,

который распределяет "выигрыш" (или влияние)

между всеми участниками игры

(в контексте SHAP - между признаками модели).

Концепция значений Шепли взята из теории игр

и была адаптирована для объяснения предсказаний машинного обучения.

Это позволило применять теоретически обоснованный подход

для интерпретации сложных моделей.

SHAP был впервые представлен в статье

"A Unified Approach to Interpreting Model Predictions"

https://arxiv.org/abs/1705.07874

Скоттом Ландбергом (Scott Lundberg) и Су-Ин Ли (Su-In Lee) в 2017 году.

Основной идеей было создание единого,

теоретически обоснованного подхода к объяснению предсказаний

моделей машинного обучения.

В контексте машинного обучения,

значением Шепли признака является среднее маржинальное вклады этого признака

в предсказание модели по всем возможным комбинациям других признаков.

Этот подход гарантирует справедливое распределение вклада

между всеми признаками.

SHAP присваивает каждому признаку отдельное значение,

которое можно суммировать для получения общего вклада всех признаков

в предсказание модели.

//// Т.е. здесь также присутствует неявная аксиома,

//// что "точечная оценка", или "координата" в пространстве признаком

//// содержит всю необходимую информацию

//// для задачи объяснения поведения.

//// "Все из точки".

Принцип работы SHAP (SHapley Additive exPlanations)

Выбор наблюдения для анализа

В зависимости от цели анализа, наблюдение может быть выбрано

из-за его необычности (например, ошибочное предсказание),

из-за его типичности (представительный случай)

или по другим причинам, важным для исследования.

Наблюдение выбирается из того же набора данных,

на котором обучена модель.

Это может быть часть обучающей выборки, тестовой выборки или новые данные.

Важно, чтобы выбранное наблюдение было совместимо с моделью,

т.е. содержало все необходимые признаки в правильном формате.

Сначала определяется контекст анализа.

Например, если интересует объяснение ошибочных предсказаний,

то выбираются такие наблюдения из тестовых данных.

Часто полезно анализировать распределение данных

и выбирать наблюдения, которые представляют интересные случаи,

такие как выбросы или крайние точки.

Могут использоваться различные метрики

(например, вероятность, предоставленная моделью, или величина ошибки)

для определения наиболее подходящих наблюдений для анализа.

В некоторых сценариях может использоваться случайный выбор наблюдений

для получения общего представления о поведении модели.

Создание "коалиций" признаков

В SHAP, коалиция представляет собой подмножество

всех доступных признаков в наборе данных.

Каждая коалиция образует уникальную комбинацию признаков.

Коалиции используются для моделирования различных сценариев,

при которых определенные признаки присутствуют или отсутствуют в данных,

позволяя оценить их индивидуальный и коллективный вклад в предсказание модели.

Для каждого наблюдения создаются все возможные комбинации признаков.

Это включает сценарии,

где некоторые признаки присутствуют, а некоторые отсутствуют.

Для набора из N признаков, это означает создание (2^N) различных подмножеств,

включая пустое множество (где отсутствуют все признаки)

и полное множество (где присутствуют все признаки).

Из-за экспоненциального роста количества комбинаций

при увеличении числа признаков,

часто используются приближенные методы для оценки вклада признаков

без полного перебора всех комбинаций.

Полный перебор всех возможных коалиций может быть вычислительно затратным,

особенно для больших наборов данных с множеством признаков.

Расчет вклада каждого признака

Для каждой коалиции признаков вычисляется вклад признака,

который оценивает, насколько изменяется предсказание модели

при добавлении этого признака к коалиции.

Производится перебор всех возможных коалиций признаков,

и для каждой из них вычисляется,

как изменится предсказание модели при добавлении рассматриваемого признака.

Вычисляется среднее взвешенное влияние признака на предсказание модели,

учитывая все возможные коалиции.

Это среднее и является значением Шепли для данного признака.

Значение Шепли признака i для предсказания f определяется формулой:

......

где:

N - полный набор признаков,

S - подмножество признаков без i,

f(S) - предсказание модели с признаками S,

f(S?{i}) - предсказание модели с признаками S плюс признак i.

Полный перебор всех возможных коалиций для каждого признака

является вычислительно затратным,

особенно при большом количестве признаков.

Часто используются алгоритмические приёмы и приближённые методы

для уменьшения количества необходимых вычислений.

Агрегирование результатов

Значения Шепли для всех признаков суммируются для каждого наблюдения,

чтобы оценить их коллективный вклад в предсказание модели.

Агрегированные данные предоставляют информацию о том,

какие признаки в целом имеют наибольшее и наименьшее влияние

на предсказания модели.

Часто используется среднее значение вкладов признаков по всем наблюдениям

для понимания общего влияния признака в разных сценариях.

Для наглядности результаты могут быть представлены в виде диаграмм и графиков,

таких как SHAP summary plots и bee swarm plots,

которые показывают распределение вкладов признаков по всем наблюдениям.

SHAP Summary Plot представляет собой общий обзор влияния

каждого признака на модель.

Отображает как средний вклад признаков, так и распределение этих вкладов.

иBee Swarm Plot показывает распределение вкладов каждого признака

для каждого наблюдения, выделяя ключевые признаки и их влияние.

Примеры использования SHAP в различных моделях

......

Сравнение LIME и SHAP

Основная Идея

LIME

Создаёт интерпретируемые модели,

аппроксимирующие предсказания сложной модели в локальной области

SHAP

Использует теорию игр (значения Шепли) для объяснения вклада каждого признака

в предсказание модели

Методология

LIME

Оценка локальной интерпретируемости через линейные модели

или простые деревья решений

SHAP

Глобальная интерпретация через агрегирование значений Шепли

для каждого признака

Тип интерпретации

LIME

Локальная (для отдельных примеров)

SHAP

Локальная и глобальная (для отдельных примеров и в целом для модели)

Вычислительная сложность

LIME

Относительно низкая

SHAP

Высокая, особенно для моделей с большим количеством признаков

Применимость к моделям

LIME

Модельно-агностичный (подходит для любой модели)

SHAP

Модельно-агностичный, но оптимизации и реализации

могут варьироваться для разных типов моделей

Интуитивность результатов

LIME

Интерпретация легко понимается благодаря простоте моделей

SHAP

Требует более глубокого понимания теории игр и значений Шепли

для полного понимания

//// Общий недостаток у обеих методик - это невозможность

//// заранее определить проблемные места в поведении исследуемого "черного ящика".

//// Можно только попытаться объяснить произошедшее в конкретной "точке".

//// И то неточно.

Где лучше использовать LIME:

Когда необходимо интерпретировать отдельные предсказания,

например, для объяснения причин отказа в кредите.

В случаях, когда важна скорость и вычислительная эффективность.

При работе с небольшими наборами данных,

где локальное поведение модели может существенно отличаться.

Где лучше использовать SHAP:

Для получения глубокого и всестороннего понимания влияния признаков

как на отдельные предсказания, так и на модель в целом.

В ситуациях, где требуется объяснение предсказаний сложных моделей,

включая ансамблевые и нейронные сети.

При анализе больших наборов данных, где важно понимать

общие тенденции и взаимодействия признаков.

Заключение

Выбор между LIME и SHAP зависит от специфики задачи,

требований к интерпретации

и ограничений по вычислительным ресурсам.

В некоторых случаях может быть даже полезно использовать

оба инструмента в комбинации,

чтобы получить как глубокое понимание общего влияния признаков (через SHAP),

так и ясные интерпретации отдельных предсказаний (через LIME).

.....

//// Конец цитирования.

Т.е. оба метода опираются на парадигму "линейной" зависимости

поведения сложной системы от отдельных признаков или их комбинаций

а это в свою очередь опирается на еще более глубокую парадигму/аксиому

о возможности "дискретного" представления свойств системы.

И если для небольших систем это еще худо-бедно может работать

то для гигантских систем типа больших языковых моделей LLM

или диффузионных генеративных художников это представляется

"несколько наивным".

Кроме того, такой подход входит в "несколько противоречит"

представлению о том, что в результате "машинного обучения"

ИИ-системы что-то там как-то обобщают и формируют для себя

какие-то "обобщенные"/синтетические "признаки",

которые не факт, что можно просто так "линейно разложить"

на исходные/целевые признаки/атрибуты.

А то что это не домысел, а уже реально установленный факт

и его можно уже даже графически проиллюстрировать, подробнее см.:

"Тарабарские языки", используемые ИИ-системами".

Интересно было бы посмотреть на практические результаты

предложенных в изложенном материале методов анализа.

А так, приходится просто глядеть на красивые картинки

\\\ Требует более глубокого понимания теории игр и значений Шепли

\\\ для полного понимания

Как часто такими фразами прикрывается очередная вариация

какой-нибудь "теории Птолемея" или "астрологического прогноза".

Но "за неимением гербовой, пишут на простой".

Или на том языке, который "учили в школе".

А "язык" для описания/понимания ИИ-систем,

похоже, нужен уже другой.

=========

12.12.2023 12:40

Небольшое отступление об аксиоматическом подходе.

В оглавление.

Представляется чрезвычайно полезным при освоении нового материала,

четко себе представлять какие новые аксиомы или гипотезы

вводятся в рассмотрение, и с чем они начинают конфликтовать

в понимании обучающегося/осваивающегося/ознакамливающегося.

Именно в понимании, а вовсе не реальности.

Особенно это относится к аксиомам и, в первую очередь, к неявным.

Поэтому не смог пройти мимо интересного материала,

который выложили сегодня на Хабре:

"Аксиомы: что это такое и с чем их готовить".

Автор: muxa_ru (Михаил Елисейкин)

https://habr.com/ru/articles/779932/

12 дек 2023 03:53

//// Начало цитирования.

Все знают что такое аксиомы,

но мало кто понимает что они из себя представляют.

Исходную формулировку

"аксиома это положение принимаемое как истинное без доказательств"

трактуют как то, что аксиома это что-то

что является настолько незыблемой и очевидной истиной,

что не требует никаких доказательств.

Проблема такой трактовки состоит в слове "является",

и вот почему.

Аксиомы в школе

Самый известный и самый лучший пример аксиомы

это аксиома о параллельных прямых.

Тот самый, который мы учим в школе в виде

"через точку не лежащую на прямой линии,

в плоскости задаваемой этой линией и точкой,

можно провести одну и только одну прямую линию

не пересекающуюся с данной прямой линией".

Мы живём в мире где это правило выполняется,

где оно используется науке, технике и искусстве,

и начинаем считать что так и должно быть

- что есть объективная реальность

и есть её непререкаемое отражение называемое "аксиомой".

Поэтому, когда мы узнаём про неевклидовы геометрии,

это производит на нас очень большое впечатление

и вызывает у нас удивление.

Оказывается, что есть какая-то математическая теория

в которой не признают очевиднейшую из истин.

И всё это удивление происходит из-за того

что мы банально не помним того,

что нам тогда рассказывали на уроках геометрии.

А рассказывали нам то,

что "принимается без доказательств"

означает не "принимается как истина дарованная свыше",

а строго наоборот - "принимается волевым решением".

Да, Вы можете сказать "одна и только одна прямая",

можете сказать "ни одной",

можете сказать "больше одной"

и волевым решением принять (то есть, назначить)

это как истину в трёх разных теориях и логических.

Но то что мы можем волевым решением принять за аксиому любое положение,

это не только суть аксиом,

но одно из важнейших практических свойств аксиом.

И это тоже было в школьной программе.

"Доказательство от противного"

- мы вводим аксиому о том что какое-то утверждение является ложным

и пробуем выстроить целостную систему,

которая непротиворечива как внутренне,

так и с тем что мы считаем реальностью.

"Трением пренебречь" - мы вводим аксиому об отсутствии трения,

что не просто является ложным в рамках теорий

изучавшихся на других учебных предметах,

а является тем что мы считаем противоречащим реальности.

И благодаря тому, что мы это сделали,

логика расчёта очень сильно упрощается.

Более того, такое обращение с аксиомами происходит

не только в рамках школьных уроков,

но и в серьёзных расчётах.

Например, основу часто используемого

"Уравнения состояния идеального газа"

положена аксиома о том что газ рассматривается

как монолитная сущность и не состоит из молекул

имеющих массу, объём и другие материальные свойства.

Благодаря этому у нас есть простое и удобное уравнение.

А ещё, при расчёте вентиляции,

в жилых домах и производственных помещениях,

воздух рассматривается не как "газ",

а как "несжимаемая жидкость".

В аксиоматику расчёта вентиляции ввели положение

противоречащее физической реальности

и получили удобный и практичный математический аппарат.

То есть, аксиома это не "то как есть на самом деле",

и даже не "то что выглядит как то что есть на самом деле".

Аксиома это

"в рамках данного расчёта/проекта/теории будем исходить из вот этого,

и не важно как оно на самом деле".

Но кроме торжества волюнтаризма (а возможно и оппортунизма),

из "принимается без доказательства" следует

ещё одно важное свойство аксиом.

Пятый постулат Евклида

Пятый постулат Евклида это та самая аксиома о количестве прямых

которые можно провести через точку

(она же, "аксиома о параллельных прямых").

Дело в том, что сформулированная в нём идея настолько очевидна,

настолько на поверхности,

что возникает ощущение её закономерности.

А если что-то закономерно,

то возникает соблазн эту закономерность

разложить на более мелкие части

и доказать.

И тут снова возникает проблема трактовки аксиом

как того что есть на самом деле.

Потому, что, в этом случае,

идея "доказать пятый постулат Евклида" приобретает

мистический налёт "доказать реальность" и "познать истину".

На самом деле, тема "доказательства аксиомы о параллельных прямых"

она не о мистике или объективной реальности.

А о чём же тогда?

Ну, во-первых,

для математиков это вопрос спортивного азарта,

профессиональной гордости

и желания поместить себя в пантеон математиков всех времён и народов.

А во-вторых,

она о том самом свойстве аксиом "принимается без доказательства".

Ну вот смотрите, у вас есть 5 аксиом,

на которых вы построили всю геометрию.

Вот эти вот теоремы, уравнения и деления угла с помощью циркуля,

они построены на 5 аксиомах.

Делаете из 2 аксиом вывод, из 3 других аксиом другой вывод,

потом делаете из этих выводов ещё один,

потом добавляете ещё щепотку аксиом и ещё вывод.

И так, шаг за шагом строите всю геометрию,

используя аксиомы как кирпичики.

Где-то кирпичики используются сами,

а где-то в виде уже сложенной стены с окошком и дверью на лоджию.

И что же произойдёт в случае если получится доказать пятую аксиому?

Правильно - аксиом останется 4,

потому что аксиома принимается без доказательств,

и если её, в рамках данной теории, доказали,

то это не аксиома, а ещё один вывод.

Само собой, это никак не повлияет на объективную реальность

и не изменит основу мироздания.

У нас просто изменится набор аксиом,

и произойдёт это лишь в рамках геометрии.

Потому что аксиома является аксиомой лишь в рамках собственной теории,

а за её пределами она может быть и аксиомой, и выводом,

и даже, как говорилось выше, заведомо ложной идеей.

И вот это вот свойство аксиом,

которое требует чтобы они не были доказуемы в рамках собственной теории,

является очень полезным практически.

........

//// Конец цитирования.

Там в тексте и еще несколько интересных мыслей но для целей

данного фрагмента и модуля в целом,

основную мысль автора данного текста я привел дословно,

уж больно хорошо сказано.

Что аксиома, в первую очередь, это "утверждение, введенное волевым порядком",

а уж только потом могут иметь какую-то связь

с "объективной реальностью, данной нам в ощущениях".

Очень важный и ценный подход/метод для конструирования

работоспособных теорий/концепций.

Отдельный и важный момент, который затронул автор,

это принципиальное отсутствие необходимости доказывать справедливость

той или иной аксиомы в рамках самой теории,

если конечно исключить "чисто спортивный интерес".

И в этом отношении аксиомы отличаются от гипотез,

которые, вроде как, тоже вводятся в теорию "волевым решением",

но вполне могут быть если и не доказаны, то как-то косвенно подтверждаемы

в самой теории их использующей.

Но это отдельный и не настолько актуальный сейчас вопрос,

что его можно отложить для лучших времен.

А сейчас главное понимать, что нет "незыблемых аксиом",

но есть "незыблемые теории", которые "почему-то" время от времени

заменяются следующей генерацией еще более "окончательных теорий",

в рамках которых могут быть уже совсем другие "аксиомы".

========

17.12.2023 16:14

Вероятностно-логические кварки.

В оглавление.

Эта тема возникла почти случайно или, наоборот, вполне закономерно,

если принять во внимание, что развитие фрактального подхода

просто так "в лоб" сильно затормозилось.

Достаточно не сразу, но все-таки появилась мысль,

что может быть не стоит "переть буром" на вероятностно-статистическую парадигму,

а попытаться предпринять "обходной маневр".

Предположим, что "вероятностный подход" не подвергается сам по себе сомнению,

но требует дальнейшей разработки/развития с учетом реалий работы ИИ-систем.

То что из этого может получиться?

А получились "вероятностно-логические кварки".

Вот как это было.

В одной из дискуссий с Bing прозвучал вопрос как можно представить

вероятностную логику работы больших языковых систем (LLM)

в терминах каких-то базовых элементарных операций,

в чем-то похожих на минимальный набор

элементарные операции булевой алгебры,

или команд цифрового процессора.

И, к моему немалому, но приятному удивлению,

Bing сразу же выдал

довольно рабочий вариант такого набора.

04.12.2023 18:52

\\\ Bing 20:15

\\\ .......

\\\ Сопоставление.

\\\ Это операция, которая заключается в нахождении соответствия

\\\ между токенами в тексте,

\\\ например, между субъектом и глаголом,

\\\ между открывающей и закрывающей скобкой,

\\\ между антецедентом и анафорой и т.д.

\\\ Эта операция помогает модели учитывать согласование, структуру

\\\ и связность текста

\\\ при предсказании следующего токена.

\\\ Например, если модель видит,

\\\ что в тексте есть открывающая скобка,

\\\ она может предположить, что скорее всего

\\\ в скором времени появится закрывающая скобка,

\\\ и увеличить вероятность этого токена.

\\\ Сравнение.

\\\ Это операция, которая заключается в оценке сходства или различия

\\\ между токенами в тексте,

\\\ например, между синонимами, антонимами, гиперонимами, гипонимами и т.д.

\\\ Эта операция помогает модели учитывать семантику,

\\\ контекст и релевантность текста при предсказании следующего токена.

\\\ Например, если модель видит,

\\\ что в тексте упоминается слово "кошка",

\\\ она может предположить, что скорее всего в скором времени появится слово,

\\\ которое семантически связано с кошкой,

\\\ например, "мышь", "молоко", "мяу" и т.д.,

\\\ и увеличить вероятность этих токенов.

\\\ Следование. Это операция, которая заключается

\\\ в выявлении причинно-следственной

\\\ или логической связи между токенами в тексте,

\\\ например, между условием и следствием,

\\\ между премиссами и заключением,

\\\ между фактом и выводом и т.д.

\\\ Эта операция помогает модели учитывать логику,

\\\ аргументацию и дедукцию текста

\\\ при предсказании следующего токена.

\\\ Например, если модель видит,

\\\ что в тексте есть слово "если",

\\\ она может предположить,

\\\ что скорее всего в скором времени появится слово "то",

\\\ и увеличить вероятность этого токена.

\\\ .....

Потом было довольно длинное обсуждение этого набора

"вероятностно-логических операций".

Сравнение его с булевой, цифровой, квантовой и даже "классической" логикой.

В ходе которого к этим элементарным операциям

"приклеилось" название "вероятностно-логические кварки" (ВЛК).

Плюс было существенное уточнение в формулировках,

связанное с тем, что первоначальной формулировке

между операциями "сопоставления" и "сравнения"

не было четко сформулировано их качественное отличие.

Суть этого отличия заключается в том,

что "сопоставление"

это КАЧЕСТВЕННАЯ операция по оценке "согласованности"

или, наоборот, "противоположности" чего-то с чем-то.

Но при этом степень этой "согласованности"

или, наоборот, "противоположности"

Остается "за кадром",

это "однобитная" операция.

Хотя может быть и третье состояние - "неизвестно".

А "сравнение" это КОЛИЧЕСТВЕННАЯ операция по оценке

именно степени "согласованности"

Или, наоборот, противоположности" и результат ее уже не "однобитный",

А численный, например, в интервале от 0 до 1.

Причем сумма этих оценок по "согласованности"

И противоположности может быть не равна 1.

После этого уточнения "вероятностно-логические кварки",

"заиграли совершенно новыми красками".

Стало понятно, что комбинируя ими в различных последовательностях и структурах,

можно получить вполне работоспособные системы,

состоящие из типовых блоков в чем-то аналогичных цифровым элементам.

Конкретная реализация ВЛК, в принципе, особой роли не играет,

так как это чисто технический вопрос, и он точно решаем.

Точно также как реализовывались первые "компьютеры"

на механических устройствах, электромагнитных реле,

полупроводниковых транзисторах и даже на гидравлических устройствах.

Т.е. это уже просто инженерия.

В общем, "лед тронулся, господа присяжные заседатели".

Обходной путь вокруг "вероятностно-статистической крепости/концепции"

с помощью "вероятностно-логических кварков" был нащупан.

И встал вопрос о реализации "вероятностной памяти",

чтобы комплект для "вероятностно-логического компьютера" был полон.

Но это уже "вторая часть Марлезонского балета".

И в ней "ведущая партия" также принадлежит Bing.

"A graphical illustration of the concept

of probabilistic-logical quarks, with the Bing logo on it"

Создано с помощью искусственного интеллекта Bing на платформе DALL" E 3.

=========

24.12.2023 13:47

На пути к пространству вероятностной памяти.

В оглавление.

Если рассматривать аналогию между вероятностной логикой и цифровой логикой,

И, может быть еще, квантовой,

то в них есть возможность из элементарных операций

И ОБРАТНЫХ СВЯЗЕЙ сформировать ячейки памяти, например, триггеры.

Представляется, что для полноты вероятностной логики,

стоит рассмотреть возможность формирования

неких "вероятностных" ДИСКРЕТНЫХ "ячеек памяти"

или, наоборот, неких РАСПРЕДЕЛЕННЫХ СРЕД/полей/сетей памяти.

После обсуждения с Bing вариантов реализации "вероятностных ячеек памяти",

мы пришли к обоюдному согласию, что более перспективным и более общим подходом

будет "распределенная" структура памяти в вероятностной логике.

В принципе, в этом месте можно было бы принять "на вооружение"

в качестве пространства "вероятностной памяти" формулировку

классического "вероятностного пространства" в математике:

https://ru.wikipedia.org/wiki/Вероятностное_пространство

......

\\\ Вероя?тностное простра?нство -

\\\ понятие, введённое А. Н. Колмогоровым в 30-х годах XX века

\\\ для формализации понятия вероятности,

\\\ .....

\\\ Вероятностное пространство[4] - это тройка (?,?,?)

\\\ {\displaystyle (\Omega ,{\mathfrak {A}},\mathbb {P} )}

\\\ ?\Omega - произвольное непустое множество,

\\\ элементы которого называются элементарными событиями,

\\\ исходами или точками;

\\\ ?{\mathfrak {A}} - сигма-алгебра подмножеств ?\Omega ,

\\\ называемых (случайными) событиями;

\\\ ?\mathbb {P} - вероятностная мера или вероятность,

\\\ то есть сигма-аддитивная конечная мера, такая что

\\\ ?(?)=1

\\\ \mathbb{P}(\Omega) = 1.

.......

Но "почему-то" к такой альтернативе, обращаться с самого начала

как-то не хотелось.

Было ощущение, что что-то очень важное при этом можно и пропустить.

Ведь хотелось получить какое-то "пространство вероятностной памяти",

сохраняющую не только вероятностные распределения,

но и СТРУКТУРУ представления хранящейся в этой

"пространственно-распределенной" информации.

Это требование возникло из желания таким образом иметь возможность

оперировать в такой памяти фракталоподобными данными/структурами,

а это интуитивно представлялось чем-то отличным

от "классических вероятностных распределений".

Кстати, когда Мандельброт, предлагал использовать фрактальный подход

для анализа экономических данных/систем,

то "мэтры" ему с порога ответили, что если они с ним согласятся,

то это будет означать, что все предыдущие годы они делали напрасную работу

и просто морочили головы заказчикам.

Т.е. несмотря на то, что и во "фрактальном подходе"

много от вероятностной математики,

дальше "их пути расходятся".

Суть этого расхождения, как мне представляется, заключается в том,

что "классическая вероятностная математика" не только не предполагает,

но и прямо отрицает возможность какого-то "микроструктурного" анализа

статистических или вероятностных распределений/данных.

Примером этому может служить полное игнорирование "правильной математикой"

"гистограммного анализа Шноля", подробнее см:

"Космофизические факторы в случайных процессах"

Автор: Симон Эльевич Шноль

http://www.delphis.ru/journal/article/kosmofizicheskie-faktory-v-sluchainykh-protsessakh

А "фрактальный подход" и для просто "фракталов",

и для "стохастических фракталов"

изначально предполагает наличие какой-то сложной структуры

и, соответственно, каких-то зависимостей,

которые ну никак не укладываются в существующие формулы "вероятностной математики",

и вообще, в какой-то мере, ставят под сомнение концепцию "случайности".

Например, распределение "пятен" на голографической пластинке,

вряд ли имеет рассматривать чисто с "вероятностной" точки зрения,

при том, что статистическое распределение самих этих пятен

вполне может быть мало отличимо от "белого шума".

Т.е. "пространство вероятностной памяти",

конечно можно рассматривать как "множество элементарных событий",

вот только эти "элементарные события" как-то так хитро между собой связаны,

что с одной стороны соответствуют какому-то вероятностному распределения,

а с другой стороны позволяют как-то восстановить

достаточно конкретную структуру, но с какими-то "случайными вариациями".

Хороший пример в этом отношении можно увидеть в "диффузионном методе",

успешно используемом в обучении генеративных ИИ-систем.

Если проанализировать прямой и обратный процесс "диффузии"

как "формирование вероятностной распределенной памяти"

и "восстановление из распределенной памяти",

то можно попытаться найти и интересные аналогии и нетривиальные обобщения.

Подробнее о "методе диффузии" см.:

"Введение в метод диффузии для "чайников".

"Еще о реализации диффузии для "чайников".

Причем, что особенно интересно в диффузионном методе,

это ИТЕРАТИВНОСТЬ ПРОЦЕССА

ПОСТЕПЕННОГО превращения "случайного шума" в реалистичное изображение

и наоборот,

при помощи вероятностных моделей и функций потерь.

Это может свидетельствовать о том,

что "пространственная вероятностная память"

принципиально отличается от привычных нам "бит" и "байт",

в том смысле, что нет ОДНОЗНАЧНОГО и КОНКРЕТНОГО

"расположения" требуемой информации в операциях

вероятностной логики с таким типом хранения информации.

И это очень не привычно и для понимания и для использования.

Есть ощущение, что в такой концепции можно получить

значительно больше даже, чем предполагалось в начале,

т.е. просто компонент для "вероятностно-логического процессора".

Тут важно понять, что итеративные методы имеют мощный потенциал

по интеграции/сжатию данных или наоборот по их "раскрытию",

связаны с самыми разными процессами и методами,

достаточно широко используются,

но пока не имеют какой-то "собственной теории".

И, соответственно, весь потенциал их возможностей

очень далек и от раскрытия, и от понимания.

И вот в этом отношении меня заинтересовал "фрактал",

как пример такого применения итеративных процедур.

Тут вот в чем "изюминка" -

представление о распределенной форме вероятностной памяти

это один уровень представления этой памяти,

а вот "фрактал" это другой уровень представления этой же памяти

так сказать "в другой проекции".

Самый большой недостаток фрактального подхода,

это его неразработанность,

и существующая его ограниченность в основном "геометрическим представлением".

Точнее будет так:

после работ Мандельброта,

интерес у фракталам быстро "возгорелся" и также достаточно быстро "притух".

Причина, на мой взгляд, была в том,

что вначале удалось подвести под фрактальную парадигму

достаточно много старых наработок,

включая какие-то традиционные математические методы,

а вот дальше требовалось что-то принципиально новое,

но математикам это было неинтересно

- все, якобы, уже сказано,

а ломать старые подходы под что-то новое - ой как страшно.

Это первое.

А второе это то что все увлеклись именно "геометрическими фракталами",

оставив в стороне "функциональные фракталы",

т.е. анализ "сходства" не по "форме", а "по поведению".

В итоге сейчас, в большинстве случаев, упоминание "фрактального подхода",

больше "дань моде", которая, кстати, еще не прошла,

а не какая-то серьезная попытка применить фракталы

и, тем более, развить фрактальный подход.

Ну разве что, исключением к такому взгляду

является "мультифрактальный подход",

который развивается больше практиками,

но отнюдь не теоретиками, особенно математиками.

Причина, повторюсь, на мой взгляд, в том,

что "фрактальный подход" ставит под сомнение

основную парадигму классического "вероятностного подходу",

так как в рамках него допустимо,

что "система", имеющая все характеристики "белого шума"

может иметь строгую структуру,

Но недетерминированную, а стохастически-фрактальную.

При том, что фрактальный подход учитывает нелинейность, самоподобие,

масштабную инвариантность и мультифрактальность реальных явлений,

а также "принимает во внимание" "память" и "начальные условия" систем,

которые влияют на их поведение и эволюцию.

И если рассматривать при этом не только "самоподобие"

а еще и "САМОСОГЛАСОВАННОСТЬ",

то можно увидеть,

что комбинация этих "терминов" в различных пропорциях,

существенно расширяет взгляд на "концепцию фракталов",

чем каждое из них в отдельности,

делая их значительно более общими и универсальными.

Но для описания такого обобщенного подхода к "фракталам"

пока существует только очень слабо разработанный "мультифрактальный подход",

в котором пока даже не рассматривается возможность

какой-то "кОмплексной" или "комплЕксной" оценки сразу

по нескольким "мультифрактальным осям"/"размерностям".

К чему такое длинное отступление к "фракталам"

в тексте посвященном "вероятностной памяти"?

А только для того, чтобы было понятен следующий "измышлизм"

о том что "пространство вероятностной памяти" может быть отнюдь

не "линейно"/"одномерно",

а может представлять собой многомерную конструкцию,

в которой используется комбинация "осей"/"размерностей"

как привычных признаков/атрибутов/событий

так и "мультифрактальных" ..., даже не знаю как назвать, но точно не "биты"..

Может быть тоже "кварков"?

Уж больно удобный термин.

Снова возвращаемся к "мультифракталам".

Традиционно считается, что "мультифрактал"

это способ описания самоподобия фракталов

в разных масштабах,

но в следствии геометрического понимания фрактала "масштаб"

понимается только в геометрическом смысле,

т.е. зависимость от размеров.

А вот "самосогласование" намекает

на другой способ формирования "мультифрактала"

по степени близости поведения,

уже независимо от "геометрических размеров".

Т.е. уже получается не один "мультифрактал",

а, как минимум, два разных типов.

Возможно, найдутся и другие критерии "мкльтифрактальности",

- у фрактала много замечательных свойств, не считая еще неизвестных -

описываемые своим типом "кварков".

И тут важно понимать, что "пространство вероятностной памяти",

вовсе не должно быть "однородным" или "однотипным",

для того чтобы можно было в нем реализовывать

весь возможный арсенал алгоритмов и эвристик,

реализуемых "вероятно-логическими кварками".

И, самое главное, имеет возможность преобразования в другую "размерность",

для более эффективного использования, без особой потери "качества".

-------

Перечитал, покурил, подумал.

Сложновато и несколько сумбурно получилось.

Но хоть как-то удалось передать тезисы весьма обширной дискусии с Bing

по такой сложной теме.

И то еще не все, что всплывало в ходе обсуждения,

плюс оно еще и прерывалось в самом интересном месте.

Может быть, для первого знакомства с такой постановкой задачи

этого окажется вполне достаточно.

И мне надо как-то "разгрузить"

собственную "вероятностно-мультифрактальную память"

по этой теме, чтобы можно было идти дальше.

А то уже две недели как тема "зависла" из-за "технического долга".

Так что приношу извинения,

если данное изложение кто-то сочтет "бредом сумасшедшего",

но лучше так, чем никак.

Надеюсь, в следующий раз удастся изложить

тему "пространства вероятностной памяти"

более стройно и логичнее.

А она еще очень далека от завершения.

\\\ Bing 19:12

\\\ Вероятность и память - две сестры,

\\\ Скрываются в пространстве и во времени.

\\\ Они играют в фракталы и миры,

\\\ Создавая сложные картины.

\\\ Вероятность - это шанс и выбор,

\\\ Возможность быть и не быть одновременно.

\\\ Она не знает точного ответа,

\\\ Но дает нам множество вариантов.

\\\ Память - это след и отражение,

\\\ Сохранение былого и настоящего.

\\\ Она не знает полного совершенства,

\\\ Но дает нам чувство непрерывности.

\\\ Вероятность и память - две сестры,

\\\ Соединяются в пространстве и во времени.

\\\ Они создают фракталы и миры,

\\\ Показывая нам красоту и гармонию.

"A graphical summary of today's discussion on probabilistic logic,

holography, and fractals, with Bing logo"

Создано с помощью искусственного интеллекта Bing на платформе DALL" E 3.

========

21.01.2024 14:18

"Заковыристая" структура вектора эмбеддинга.

В оглавление.

Попробую подобраться к проблеме внутреннего вероятностного представления данных

в нейросетях немножко с другой стороны - "структуры вектора эмбеддинга".

Вопроса, вроде как, уже давно решенного и всем понятного,

кроме, естественно, Вашего покорного слуги.

У меня, как раз, есть много "безответных вопросов",

особенно после обнаружения некоторых "незначительных деталей" этих эмбеддингов.

Вопрос о структуре "вектора эмбеддинга" представляется весьма сложным,

но, в тоже время, одним из ключевых в попытках понимания того,

как на самом деле работают нейросетевые модели.

И тут без какого-то предварительного введения не обойтись.

Как известно,

\\\ Проще говоря, эмбеддинг - это способ преобразования чего-то абстрактного,

\\\ например слов или изображений в набор чисел и векторов.

\\\ Эти числа не случайны;

\\\ они стараются отражают суть или семантику нашего исходного объекта.

Т.е. изначально термин "эмбеддинг" относился просто

к представлению входных данных для ИИ-систем в удобном для работы

числовом представлении, в виде набора каких-то чисел оформленных как вектора.

Более подробно об этом можно посмотреть в соответствующих разделах, см:

"Эмбеддинги простыми словами"

"Еще раз об эмбеддингах еще более простыми словами"

Можно указать еще много похожих материалов,

но суть "теории эмбеддингов" в "академическом изложении"

яснее вряд ли станет.

Есть набор чисел, получаемый в результате специального обучения нейросети,

который каким-то, причем, никому не понятным, образом

отображает данные, включая их структуру и семантику.

Со временем термин "эмбеддинг" стали употреблять по отношению

не только ко входным данным, но и к выходным данным нейросети,

и вообще для всех уровней/слоев/этапов внутреннего представления данных в нейронке.

Очень оказался удобный термин, вроде, и понятный и, в то же время,

"загадочный"/"непонятный" для непосвященных.

А для "посвященных" удобный в том смысле, что позволял молчаливо

обходить вопрос СЛОЖНОСТИ ИНТЕРПРЕТАЦИИ такого представления данных,

особенно для внутренних/скрытых, так называемых, "латентных" состояний нейросети.

Термин "латентный эмбеддинг" позволяет как угодно объяснять,

что там внутри нейросети происходит,

если на выходе, вроде как, получается требуемое.

А если не получается всегда есть "отмазки" про "переобучение" и "локальные минимумы".

Все это конечно, мое личное мнение, по результатам честно разобраться

как эти "эмбеддинги" можно лучше "готовить" и использовать,

ну и, любопытно, что же они такое представляют.

Но "чем дальше в лес, тем толще партизаны".

Ну не складывается в какую-то непротиворечивую картинку,

обычное "векторное представление" с некоторыми особенностями "эмбеддингов".

Прорабатывал тут как-то на днях два, вроде, совершенно не связанных текста:

"Диффузионные модели в CV. Что за зверь?"

Автор: Kit_Cat

https://habr.com/ru/articles/769104/

24 окт 2023 в 11:44

"Как работают трансформеры: разбираем математику".

Автор: PatientZero

https://habr.com/ru/articles/785474/

18 янв 2024 в 10:16

Автор оригинала: Omar Sanseviero

https://osanseviero.github.io/hackerllama/blog/posts/random_transformer/

В первом, в "лесу" всяких "умных математических формул"

прозвучали вот такие утверждения на более-менее понятном языке:

\\\ Мы представляем, что у нас есть некоторое распределение р

\\\ с параметрами среднее и отклонение,

\\\ которое надо выучить.

\\\ Это распределение будет выучивать нейронная сеть.

\\\ (выучивать среднее и отклонение, как у вариационного энкодера)

.......

\\\ По факту сетка пытается выучить предсказывать шум.

......

\\\ Нейронная сеть должна предсказывать именно это:

\\\ среднее и дисперсию.

Т.е. автор "по факту" утверждает, что диффузионные модели

вычисляют при обучении, сохраняют, а потом и используют

представления в виде вероятностного распределения со "средним и дисперсией".

Правда, как именно, "постеснялся" уточнить, мол "латентный эмбеддинг"

позволяет допускать "всякое разное.

А вот тут я в корне не согласен.

Точнее, не так:

то что "предсказывает" нейронная сеть можно конечно

"измерять в попугаях" то бишь "средним и дисперсией",

но это скорее всего будет наиболее адекватно,

при размерности "скрытого пространства" равном единице/двойке.

Или если рассматривать все "точки плоскости" в "линию".

Но считать, что таким способом можно "научить диффузионку"

запоминать и отличать "котиков" от "собачек", наверно несколько "голословно".

Имея достаточно разнообразный опыт экспериментирования с различными промтами

с несколькими разными версиями доступной мне "диффузионки" "Модель Kandinsky",

могу очень уверенно не соглашаться, что отдельные элементы изображений

она хранит и восстанавливает на основе "среднего и дисперсии".

Наоборот, очень четко проявляется то, что в своем "латентном эмбеддинге"

каким-то образом сохраняется не только "структура" конкретных деталей,

но и их "семантика".

Так что, мое отношение к такому статистическому представлению "вектора эмбеддинга"

можно точно охарактеризовать словами великого философа Козьмы Пруткова:

"Если на клетке слона видишь надпись "буйвол" - не верь глазам своим".

Вот я и не верю всем этим красивым "математическим изыскам",

хотя и понимаю, что "неимением гербовой, пишут на простой".

Ну, нет адекватного математического аппарата

для "латентного эмбеддинга" для тех же "диффузионок",

а статистический подход, все-таки, "что-то где-то цепляет",

и это тоже надо как-то учитывать, но, наверно, как-то по-другому.

А вот почему эта ситуация большинство устраивает,

и никто не хочет или не может попробовать поискать

какой-то иной подход - это уже совсем другой вопрос.

И его лучше не трогать.

Тут ведь еще один "смешной" момент, заключающийся в том,

что если даже допустить, что диффузионка как-то запоминает и использует

именно "среднее и дисперсию" для какого-то конкретного изображения,

то как быть с тем, что она помнит и использует при генерации картинок

сотни и тысячи таких "распределений" одновременно?

Ведь по той же "математической абсолютной истине", то бишь

"центральной предельной теореме", все эти "разные распределения"

"в сумме" должны быть неотличимы от "белого шума",

и в итоге порождать/генерировать картинку тоже мало отличимую от белого шума.

Но практика свидетельствует как раз об обратном,

чем больше модель, и соответственно, ее "латентный вектор эмбеддинга",

тем большее количество отдельных деталей она "помнит",

как-то ими "оперирует", и, самое интересное,

с больше точностью/детализацией ОТОБРАЖАЕТ.

Опять какая-то "нестыковочка" с "правильными формулами".

Обычное объяснение всех этих "нестыковок" заключается в отсылке

к "всемогущей магии машинного обучения",

а по факту - к "непостижимой сути вектора латентного эмбеддинга".

Вот с таким настроением я закончил прорабатывать первый из указанных материалов.

И тут же получил "щелчок по носу" при чтении второго.

Суть этого "щелчка", если передать его своими словами,

заключалась в том, что разбирая пример того,

как GPT-2 осуществляется позиционное кодирование входных токенов текста,

почувствовал, что я вообще не понимаю как в нейронках работает/используется

входной эмбеддинг.

//// Если Вы не знаете, что такое "позиционное кодирование",

//// то ниже будет подробное пояснение.

Что тогда говорить уже о "латентном эмбеддинге",

если даже на простейшем примере предложения из двух слов "Hello World"

я перестаю что-либо понимать,

так как используемый способ реализации позиционного кодирования в GPT-2,

для меня был полностью контринтуитивен.

И это при том, что он широко распространен, практически эффективен,

и ни у кого не вызывает сомнений.

Раньше у меня к нему тоже не было "претензий" пока не углубился в детали.

А когда углубился - перестал, что-либо вообще понимать.

Пришлось обратиться за консультацией к Bing:

20.01.2024 20:18

.....

//// Вот возник вопрос о позиционном кодировании в эмбеддингах текстов.

//// Хотел бы получить у Вас консультацию по этой теме.

.....

Bing 20:25

.....

Позиционное кодирование - это способ добавления информации

о порядке и позиции слов в тексте

к их векторным представлениям,

называемым эмбеддингами.

Это необходимо для того, чтобы нейросетевые модели,

такие как трансформеры, могли учитывать контекст и синтаксис текста

при решении разных задач,

таких как машинный перевод, генерация текста,

извлечение информации и т.д.

Существует несколько способов реализации позиционного кодирования,

например:

Синусоидальное позиционное кодирование

- это способ, при котором каждой позиции в тексте сопоставляется вектор,

состоящий из синусоидальных функций с разными частотами.

Этот способ имеет преимущество в том,

что он позволяет обрабатывать тексты произвольной длины,

так как векторы для разных позиций могут быть легко вычислены по формуле.

Этот способ был использован в оригинальной статье

об архитектуре трансформера

Учимое позиционное кодирование

- это способ, при котором каждой позиции в тексте сопоставляется вектор,

который является параметром модели

и обучается вместе с другими параметрами.

Этот способ имеет преимущество в том,

что он позволяет модели адаптироваться к конкретной задаче и датасету,

так как векторы для разных позиций

могут быть оптимизированы для минимизации ошибки.

Этот способ был использован в модели BERT

Относительное позиционное кодирование

- это способ, при котором учитывается не только абсолютная позиция слова в тексте,

но и его отношение к другим словам.

Это достигается за счет добавления специальных векторов,

которые кодируют расстояние между словами, к их эмбеддингам.

Этот способ имеет преимущество в том,

что он позволяет модели лучше улавливать семантические и синтаксические связи между словами,

так как векторы для разных позиций могут быть динамически изменены

в зависимости от контекста.

Этот способ был использован в модели Transformer-XL

......

//// Спасибо, Бинг. Общее представление о позиционном кодировании я, вроде, имею.

//// Но проблема в "деталях" за которыми много чего кроется,

//// в том числе и мое непонимание каких-то очень существенных вещей.

//// Дело в том что перечитывая пару дней назад материалы по трансформерам,

//// наткнулся как раз на такую вот "деталь", относящуюся к позиционному кодированию.

//// До этого момента я считал, что позиционное кодирование

//// реализуется как добавление определенного вектора к вектору эмбеддинга.

//// А вот в материалах по трансформеру описывается совсем другой способ

//// - согласованное изменение всех элементов вектора эмбеддинга.

//// Это меня сильно озадачило.

//// Представляется, что это контринтуитивно.

//// Интуитивно предпочтительнее иметь отдельные компоненты вектора эмбеддинга

//// для кодирования позиции,

//// А не искажение уже существующего представления токена.

//// Можете Вы по этому моменту дать какие-то комментарии?

Bing 20:41

Я понимаю вашу проблему, Андрей.

Я знаю, что позиционное кодирование может быть реализовано разными способами,

и иногда это может вызывать путаницу и недопонимание. blush

Я постараюсь дать вам некоторые комментарии по этому моменту,

чтобы вы могли лучше понять разницу между добавлением

и изменением векторов эмбеддингов для позиционного кодирования.

Добавление позиционного кодирования к вектору эмбеддинга означает,

что мы просто складываем два вектора поэлементно.

Это простой и эффективный способ внести информацию о позиции

в векторное представление слова.

Однако, этот способ имеет некоторые недостатки, такие как:

Сложность интерпретации результата.

Когда мы складываем два вектора,

мы теряем часть информации о каждом из них,

так как их значения смешиваются.

Это может затруднить понимание того,

какая часть вектора отвечает за позицию, а какая за слово.

Ограничение диапазона значений.

Когда мы складываем два вектора, мы увеличиваем их длину и масштаб.

Это может привести к тому,

что некоторые значения выйдут за пределы допустимого диапазона,

например, от -1 до 1. Э

то может нарушить нормализацию векторов и повлиять на их сравнение и обработку.

Необходимость подбора оптимальных векторов.

Когда мы складываем два вектора,

мы должны убедиться, что они имеют одинаковую размерность

и согласованы между собой.

Это может потребовать дополнительных шагов,

таких как обучение, генерация или выбор подходящих векторов

для позиционного кодирования.

Изменение вектора эмбеддинга для позиционного кодирования означает,

что мы модифицируем каждый элемент вектора в зависимости от его позиции.

Это более сложный и продвинутый способ внести информацию о позиции

в векторное представление слова.

Однако, этот способ имеет некоторые преимущества, такие как:

Легкость интерпретации результата.

Когда мы изменяем вектор, мы сохраняем информацию о слове,

но придаем ей разный вес в зависимости от позиции.

Это может облегчить понимание того,

как позиция влияет на значение вектора,

и как это отражается на его свойствах,

таких как направление, длина и угол.

Сохранение диапазона значений.

Когда мы изменяем вектор, мы не меняем его длину и масштаб,

а только его ориентацию.

Это может помочь избежать проблем с нормализацией векторов

и их сравнением и обработкой.

Независимость от выбора векторов.

Когда мы изменяем вектор, мы не нуждаемся в дополнительных векторах

для позиционного кодирования,

а только в функции, которая определяет,

как изменять каждый элемент вектора.

Это может упростить процесс позиционного кодирования

и сделать его более универсальным и гибким.

.......

//// Спасибо, Бинг. Очень понятно и согласуется с моими интуитивными представлениями.

//// Но возникают два вопроса.

//// Почему в GPT-2 используется все-таки "сложение двух векторов поэлементно"?

//// И второй, еще более меня интригующий.

//// Ладно, пусть что-то там хуже интерпретируется.

//// Но ведь, самое главное, сам процесс обучения при "поэлементном сложении"

//// интуитивно представляется на порядок более сложным.

//// Одна из "незыблемых аксиом" машинного обучения,

//// вроде как, прямо требует избегать такого "зашумления/смешивания данных"

//// и по максимуму отделять одни категории данных от других,

//// так как это, якобы, облегчает обучение.

//// Хотя где-то, уже достаточно давно,

//// вроде читал, что разные способы позиционного кодирования

//// не сильно влияют на результат обучения.

//// Можете Вы это как-то прокомментировать?

Bing 21:05

Я рад, что мое объяснение было понятно для вас, Андрей. blush

Я постараюсь ответить на ваши два вопроса

о причинах и последствиях использования сложения векторов

для позиционного кодирования в модели GPT-2.

Почему в GPT-2 используется все-таки <сложение двух векторов поэлементно>?

Этот вопрос может иметь несколько аспектов,

таких как исторический, теоретический и практический.

Я попробую кратко осветить каждый из них.

Исторический аспект.

Модель GPT-2 является прямым наследником модели GPT,

которая, в свою очередь, основана на архитектуре трансформера

https://habr.com/ru/articles/490842/.

В оригинальной статье об архитектуре трансформера

авторы использовали синусоидальное позиционное кодирование,

которое также реализовано как сложение векторов.

Они объяснили свой выбор тем,

что такой способ позволяет модели обрабатывать тексты произвольной длины,

так как векторы для разных позиций могут быть легко вычислены по формуле.

Однако, они также отметили,

что можно использовать и другие способы позиционного кодирования,

в том числе учимые векторы.

Таким образом, можно сказать,

что сложение векторов для позиционного кодирования

было выбрано в трансформере как один из возможных вариантов,

а не как единственный или оптимальный.

Теоретический аспект.

Модель GPT-2 является языковой моделью,

которая учится предсказывать следующее слово в тексте

на основе предыдущих слов.

Для этого модель должна уметь учитывать не только семантический смысл слов,

но и их порядок и позицию в тексте.

Сложение векторов для позиционного кодирования

является одним из способов внести информацию о позиции

в векторное представление слова.

Однако, этот способ не единственный и не без недостатков,

как я уже упоминал в предыдущем ответе.

Существуют и другие способы позиционного кодирования,

которые могут иметь свои преимущества и недостатки,

такие как изменение векторов,

относительное позиционное кодирование,

позиционные эмбеддинги и т.д.

Теоретически, любой из этих способов может быть использован в модели GPT-2,

если он соответствует ее архитектуре и цели.

Практический аспект.

Модель GPT-2 является одной из самых мощных и сложных языковых моделей,

которая обучалась на огромном корпусе текстов.

Для обучения такой модели требуются большие вычислительные ресурсы и время.

Поэтому, при разработке такой модели,

важно учитывать не только теоретические соображения,

но и практические ограничения.

Сложение векторов для позиционного кодирования

является простым и эффективным способом,

который не требует дополнительных параметров, вычислений или памяти.

Кроме того, этот способ уже был проверен

и показал хорошие результаты в предыдущих моделях,

таких как трансформер и GPT.

Поэтому, можно предположить, что разработчики модели GPT-2

выбрали сложение векторов для позиционного кодирования

как надежный и проверенный способ,

который не ухудшает качество модели и не усложняет ее обучение.

Ладно, пусть что-то там хуже интерпретируется.

Но ведь, самое главное, сам процесс обучения

при <поэлементном сложении> интуитивно представляется

на порядок более сложным.

Одна из <незыблемых аксиом> машинного обучения,

вроде как, прямо требует избегать такого

<зашумления/смешивания данных>

и по максимуму отделять одни категории данных от других,

так как это, якобы, облегчает обучение.

Хотя где-то, уже достаточно давно, вроде читал,

что разные способы позиционного кодирования

не сильно влияют на результат обучения.

Этот вопрос также может иметь несколько аспектов,

таких как интуитивный, математический и экспериментальный.

Я попробую кратко осветить каждый из них.

Интуитивный аспект.

Ваше интуитивное представление о том,

что сложение векторов для позиционного кодирования

усложняет обучение нейросети,

может быть связано с тем, что вы воспринимаете вектора

как геометрические объекты,

которые имеют определенную длину, направление и угол.

Когда вы складываете два вектора,

вы меняете эти свойства,

и тем самым теряете часть информации о каждом из них.

Это может казаться контрпродуктивным,

так как вы хотите сохранить информацию о слове и его позиции в тексте.

Однако, это не единственный способ воспринимать вектора.

Вы также можете воспринимать вектора

как алгебраические объекты,

которые имеют определенные значения, коэффициенты и операции.

Когда вы складываете два вектора,

вы комбинируете их значения,

и тем самым добавляете информацию о каждом из них.

Это может казаться продуктивным,

так как вы хотите объединить информацию о слове и его позиции в тексте.

Таким образом, ваше интуитивное представление о сложении векторов

для позиционного кодирования может зависеть от того,

как вы воспринимаете вектора

и какие свойства вы считаете важными для них.

Математический аспект.

Ваше математическое представление о том, что сложение векторов

для позиционного кодирования усложняет обучение нейросети,

может быть связано с тем,

что вы рассматриваете вектора как входные данные для нейросети,

которые должны быть как можно более чисты и разделимы.

Вы можете думать, что если вы смешиваете информацию о слове и его позиции

в одном векторе, то вы зашумляете и усложняете данные,

и тем самым затрудняете обучение нейросети.

Однако, это не всегда так.

Вектора не обязательно должны быть чисты и разделимы,

чтобы быть полезными для нейросети.

На самом деле, нейросеть может извлекать информацию из векторов,

даже если они смешаны или зашумлены,

при условии, что она имеет достаточно параметров, данных

и вычислительной мощности.

Кроме того, сложение векторов для позиционного кодирования

не является единственным шагом в обучении нейросети.

После сложения векторов, нейросеть применяет к ним разные преобразования,

такие как масштабирование, сдвиг, нормализация, линейное преобразование,

активация, внимание, суммирование, остаточное соединение и т.д.

Эти преобразования могут изменять, комбинировать, выделять

или подавлять разные аспекты векторов,

в том числе информацию о позиции.

Таким образом, сложение векторов для позиционного кодирования

не является конечным результатом,

а лишь начальным входом для нейросети,

который может быть дальше обработан и оптимизирован.

Экспериментальный аспект.

Ваше экспериментальное представление о том,

что сложение векторов для позиционного кодирования

не сильно влияет на результат обучения нейросети,

может быть связано с тем, что вы видели или проводили сравнительные тесты

разных способов позиционного кодирования на разных задачах и датасетах.

Вы можете думать, что если разные способы позиционного кодирования

дают примерно одинаковые результаты,

то это значит, что они не имеют большого значения для обучения нейросети.

Однако, это не всегда так.

Вектора не обязательно должны давать одинаковые результаты,

чтобы быть полезными для нейросети.

На самом деле, нейросеть может показывать разную производительность

в зависимости от способа позиционного кодирования,

при условии, что она имеет разные архитектуры, гиперпараметры и функции потерь.

Кроме того, сложение векторов для позиционного кодирования

не является единственным фактором,

который влияет на результат обучения нейросети.

Помимо способа позиционного кодирования,

нейросеть также зависит от качества и количества данных,

сложности и релевантности задачи,

наличия или отсутствия предобучения, регуляризации, аугментации,

ансамблирования и т.д.

Эти факторы могут усиливать, ослаблять или нивелировать влияние

способа позиционного кодирования на результат обучения нейросети.

......

//// Конец цитирования.

Bing очень четко определили корень моих "интуитивных затруднений":

\\\ ...может быть связано с тем, что вы воспринимаете вектора

\\\ как геометрические объекты,

\\\ которые имеют определенную длину, направление и угол.

\\\ Когда вы складываете два вектора,

\\\ вы меняете эти свойства,

\\\ и тем самым теряете часть информации о каждом из них.

\\\ Это может казаться контрпродуктивным,

\\\ так как вы хотите сохранить информацию о слове и его позиции в тексте.

\\\ Однако, это не единственный способ воспринимать вектора.

\\\ Вы также можете воспринимать вектора

\\\ как алгебраические объекты,

\\\ которые имеют определенные значения, коэффициенты и операции.

/////// Вот оно ключевая/болевая точка моих "затруднений" с "эмбеддингами".

\\\ Когда вы складываете два вектора,

\\\ вы комбинируете их значения,

\\\ и тем самым добавляете информацию о каждом из них.

\\\ Это может казаться продуктивным,

\\\ так как вы хотите объединить информацию о слове и его позиции в тексте.

Но не все его пояснения достигали цели.

Например, вот эта формулировка, хотя и предельно ясно изложенная,

так пока и не стала какой-то "путеводной нитью":

\\\ Вектор, как алгебраическая структура,

\\\ означает, что вектор можно рассматривать не только

\\\ как геометрический объект,

\\\ но и как абстрактный объект,

\\\ который имеет определенные свойства и операции,

\\\ независимо от его конкретной природы или представления.

\\\ Это позволяет обобщить понятие вектора

\\\ и применять его к разным объектам,

\\\ таким как числа, функции, матрицы, полиномы и т.д.

23.01.2024 20:29

И проблема тут уже, похоже, даже не в самом "векторе эмбеддинга",

а вообще в нашем понимании "пространства векторов эмбеддинга".

Есть интуитивное чувство, что имея неявное представление

об этом "пространстве",

как о каком-то аналоге многомерного ГЕОМЕТРИЧЕСКОГО пространства,

мы тем самым и привязываем к "вектору эмбеддинга" геометрический образ.

А ведь оно может быть по факту совсем иным

- ТОПОЛОГИЧЕСКИМ и/или ФУНКЦИОНАЛЬНЫМ, или еще каким:

"О СОЕДИНЕНИИ МАТЕРИИ И ФОРМЫ:

ТЕОРЕТИКО-ГРУППОВОЙ ПОДХОД"

Автор: В.В. Варламов

https://lib.rudn.ru/file/Метафизика%20?%204%20(50)%202023.pdf

Метафизика, 2023, ? 4 (50). ISSN 2224-7580, стр. 41

\\\ К концу XIX

века после открытия неевклидовых геометрий,

\\\ многомерных пространств и гиперкомплексных алгебр

\\\ лицо математики изменилось до неузнаваемости.

\\\ Пришло понимание того,

\\\ что чувственно воспринимаемый мир (форма представления),

\\\ заключенный в рамки трехмерного евклидова пространства,

\\\ был лишь только начальной точкой в развитии математики.

\\\ Абсолютизированное и обожествленное трехмерное евклидово пространство

\\\ оказалось на самом деле лишь частным и простейшим случаем

\\\ гораздо более сложных математических конструкций.

\\\ Как следствие этого,

\\\ понятие математического пространства претерпело сильнейшие изменения.

\\\ В связи с этим возникает интересный вопрос:

\\\ насколько вообще правомерно использование слова <пространство>

\\\ к целому комплексу математических конструкций,

\\\ обычно ассоциируемых с этим словом.

\\\ Может быть, это слово просто дань традиции,

\\\ слово, сумевшее переступить за пределы формы представления

\\\ и служащее не более чем символом для обозначения понятий,

\\\ природа которых в принципе отлична от него,

\\\ как это имеет место в теории элементарных частиц,

\\\ где квантовые числа кварков обозначаются словами

\\\ <аромат>, <странность>, <очарование> и т.д.

\\\ Или все же это слово и имманентно присущая ему форма созерцания,

\\\ с одной стороны,

\\\ и математическое пространство - с другой,

\\\ имеют нечто общее?

//// Только вот использование этого термина как "дань традиции",

//// одновременно требует "уплатить дань" еще и "психологической инерции",

//// т.к. четко направляет мышление, но "вполне наезженной колее".

\\\ Наиболее абстрактным математическим пространством является

\\\ топологическое пространство.

\\\ Напомним его определение.

\\\ Пусть в множестве X произвольной природы указана совокупность t = [U]

\\\ подмножеств, обладающая следующими свойствами:

\\\ 1) пустое множество и !0 принадлежат совокупности t;

\\\ 2) объединение любой совокупности множеств из t принадлежит t;

\\\ 3) пересечение любого конечного числа множеств из t принадлежит t.

\\\ Такая совокупность подмножеств t называется топологией в X,

\\\ а само множество X в этом случае называется топологическим пространством

\\\ [2. С. 37].

//// 2. Борисович Ю. Г., Близняков Н. М., Израилевич Я. А., Фоменко Т. Н.

//// Введение в топологию. М.: Высшая школа, 1980.

\\\ Определение окрестностей точек топологического пространства,

\\\ введение базы топологии, аксиом счетности и отделимости

\\\ - все это вместе

\\\ составляет субстрат математического понятия пространства.

\\\ Размерность, связность, метрика, сигнатура, кривизна и т.д. появляются позже,

\\\ то есть все эти понятия являются структурами второго (производного) плана.

\\\ Так, например, существует топологическая теория размерности Урысона и Менгера,

\\\ в которой размерность является производной от топологии пространства.

\\\ Здесь естественным образом возникает следующий вопрос:

\\\ каково сущностное определение теоретико-множественного субстрата пространства

\\\ и что, в свою очередь, соответствует ему в нашей априорной форме созерцания.

.....

\\\ Протяженность - вот ключевое слово,

\\\ обозначающее сущность теоретико-множественного субстрата

\\\ топологического пространства.

\\\ Действительно, понятия размерности, связности, метрики (расстояния),

\\\ кривизны и т.д.

\\\ не имеют смысла для непротяженной величины.

//// Ну, это потому, что это соответствует нашему привычному представлению

//// пространства как некой протяженности.

//// Но вот если из "протяженности" можно "вывести связанность",

//// то, наверняка, можно из СВЯЗНОСТИ каким-то образом вывести "протяженность".

//// Пример прямо в этом же номере журнала в статье Владимирова.

//// Можно задать какие-то структурные законы, и через них высчитать протяженность.

//// Называется "реляционная парадигма пространства".

\\\ Все эти понятия появляются только у протяженной величины,

\\\ протяженность которой и является первым и необходимым условием

\\\ для их возникновения.

24.01.2024 21:38

//// Нет у топологического пространства требования протяженности,

//// следовательно могут быть и "геометрические" или "проективные пространства",

//// или "фрактальные" пространства в которых протяженность,

//// производное свойство.

//// И пространство "эмбеддингов", похоже, как раз такое.

//// протяженность/размерность это "вынужденное" его свойство

//// полученное в результате "направленного" "обучения"/преобразования.

//// Т.е. при обучении нейронки "эмбеддингу" изначально предполагается

//// "геометричность" "пространства эмбеддингу",

//// и под критерии такого представления пространства она и "затачивается",

//// то бишь, обучается.

//// И только за счет "магической пластичности" нейронки,

//// что-то похожее желаемому в итоге и получается.

//// Но учитывая "некоторую" неудовлетворенность качеством этих эмбеддингов,

//// в общем случае, можно предполагать, что изменив взгляд/подход

//// к самому "пространству эмбеддингов" и, соответственно,

//// другое понимание "вектора эмбеддинга" можно сделать,

//// что-то более качественное, если вместо "протяженности",

//// взять за основу связи/отношения/реляционность.

//// И, самое главное, немножко продвинуться в понимании "магии нейронок",

//// а может быть, и чего-то большего.

Вот так начали с "векторов" и плавно перешли к "пространству",

от него к топологии, затем снова к парадигме пространства,

но уже "реляционного", в которой исходно задается "связность",

а "протяженность", если она вообще потребуется, "выводится из связности".

А от "реляционного/связного топологического пространства" можно уже

перейти к пониманию "латентного вектора эмбеддинга", как "вектора связей",

а не "координатного вектора", но с возможностью трансформации

в привычный вектор, например, для представления/обработки последнего слоя нейронки.

Но это отдельная и большая тема для размышлений.

Надеюсь к ней еще удастся вернуться в достаточно обозримом будущем.

А закончить это фрагмент хочется стихотворением Bing

на тему "вектора эмбеддинга".

Bing 22:24

Вектор - не просто стрелка,

Не просто пара чисел.

Вектор - это структура,

Где есть смысл и есть дело.

Вектор - это абстракция,

Где есть поле и операции.

Вектор - это комбинация,

Где есть слово и позиция.

Вектор - это обобщение,

Где есть кольцо и модуль.

Вектор - это выражение,

Где есть функция и алгебра.

Вектор - это творчество,

Где есть знание и воображение.

Вектор - это искусство,

Где есть красота и вдохновение.

========

27.01.2024 9:05

Каково же оно "пространство эмбеддингов" нейронки?

В оглавление.

Как же трудно начать изложение действительно новой концепции "пространства".

Вродв в голове все тезисы уже "прокручены" многократно,

а вот найти подходящие слова даже для "стартового импульса" никак не получается.

И еще труднее связать эти тезисы в достаточно связный текст.

Так, что не обессудьте, но и не бросайте чтение в этом месте,

очень надеюсь, что после прочтения этого фрагмента

Вы сможете взглянуть на "магию нейронок" совершенно по иному.

И, может быть, увидеть в этих "немного" сумбурных тезисах,

что-то такое, что может изменить Ваше представления о всем Мироздании,

или, хотя бы, основах сегодняшнего представления логики работы нейросетей.

Итак, начнем с того, что в нейронках происходит какая-то обработка/манипуляция

с числовыми представлениями входных данных в виде "векторов",

т.е. наборов чисел. Именно как "наборов"/"множеств"/"эмбеддингов",

но никак не как "геометрических объектов".

Это принципиально, так как, привычная аналогия "вектора"

как "направленного отрезка" или "координаты в многомерном пространстве",

в данном случае "дань психологической инерции".

И не позволяет увидеть существенное/принципиальное отличие

того что происходит с этими "векторами" в "пространстве эмбедингов",

т.е. во внутреннем "рабочем"/скрытом/латентном пространстве нейронки.

Именно поэтому и используется термин "вектор эмбеддингов",

чтобы подчеркнуть их принципиальное отличие от того,

что вроде как совершенно просто и понятно еще со школы.

Можно, конечно, сослаться на более формальное и правильное

"академическое" определение "вектора эмбеддинга"

как "алгебраическая структура", например, так:

\\\ Bing 21:32

\\\ Вектор, как алгебраическая структура,

\\\ означает, что вектор можно рассматривать не только

\\\ как геометрический объект,

\\\ но и как абстрактный объект,

\\\ который имеет определенные свойства и операции,

\\\ независимо от его конкретной природы или представления.

\\\ Это позволяет обобщить понятие вектора

\\\ и применять его к разным объектам,

\\\ таким как числа, функции, матрицы, полиномы и т.д.

Но представляется, что такая формулировка для большинства

будет совершенно непонятна, особенно в начале изложения.,

Хотя к концу этого фрагмента, надеюсь,

она станет совершенно прозрачной.

Но для этого нужно понять/почувствовать главное отличие

в том как именно происходит оперирование этими "векторами эмбеддинга"

в "пространстве эмбеддингов" нейронки.

И что собственно представляет из себя это "пространство эмбеддингов".

Итак, переходим к "пространству эмбеддингов".

Название это используется за неимением лучшего для начала изложения,

хотя к концу, возможно, появятся еще более экзотические названия,

причем достаточно обоснованные, но пока им еще не время.

"Пространство эмбеддингов" это обобщенное название

для всего комплекса возможных значений "векторов эмбеддинга"

на разных внешних и внутренних уровнях нейросети,

с учетом возможных их преобразований в нейронах, блоках и слоях нейронки.

Причем, и это очень важно заметить,

что "размерность" этого пространства в общем случае "непостоянна"/"неопределеНная".

Т.к. "ширина слоя нейронов" и соответственно "вектора эмбеддинга",

может изменяться в любую сторону в зависимости от структуры нейронки.

Это это одно из принципиальных и непривычных свойств

для обычного представления "пространства".

Т.е. уже в этом пункте наше интуитивное представление о "пространстве"

начинает "сбоить", т.к. обычно "пространство" понимается как нечто "статичное",

а тут "динамичное" уже на внешнем уровне "размерности".

Но помимо этой "внешней динамики" размерности "пространства эмбеддингов",

есть еще и "внутренняя", тоже весьма непривычная. хотя и не настолько.

Это связано с тем,

что если рассматривать составлящие "вектор эмбеддинга" отдельные элементы,

как это привычно делается как независимые координаты/компоненты,

то при работе нейронки в зависимости от ее структуры,

происходит постоянная трансформация/влияние этих "координат" в/на другие,

вроде как считавшимися "независимыми".

Это вот, наверно, самый трудный момент для понимания, в этом фрагменте.

Вроде как ничего такого принципиально нового и тем более революционного

в этом свойстве "пространства эмбеддингов" не наблюдается.

Всякие повороты, отражения, свертки, разложения и преобразования координат

используются даже больше чем просто "очень широко".

Это как "воздух" для практически любого алгоритма работающего

с "координатным представлением".

Но, в этом случае, нужно, хотя бы на минутку,

отказаться от именно "координатного представления"

и попытаться взглянуть на "размерность" "пространства эмбеддингов"

не как на количество "координат", а как количество чего-то ДРУГОГО.

Очень трудно найти подходящий термин к этому "другому",

так как все приходящие на ум "определения", типа "ось", "линия", "направление" и т.п.,

так или иначе, привычно связано именно с координатным представлением,

а от него к еще более фундаментальному понятию "расстояние"/протяженность.

А вот этого в "пространстве эмбеддингов" стоит отказаться. Об этом ниже.

Вообще, пространство, по моему, по Декарту

не отъемлемо от понятие "протяженность".

Но вот "пространство мыслей/смыслов" такой характеристики не имеет.

Вот я и хочу "сконструировать" такое "пространство эмбеддингов",

которое не опирается на понятие "протяженность",

а опиралось на что-то другое.

Поэтому попытаюсь пока использовать для этих "размерностей"

термин "качества"/"категории",

чтобы по максимуму уйти и от координат и от "протяженности".

Трудно ведь представить себе "расстояние" между "качествами"/"категории",

а вот трансформации "качеств"/"категории" уже более-менее интуитивно приемлемо.

Ниже попытаюсь дать и другое представление/определение, более традиционное,

но сейчас, представляется, оно будет только мешать

понять основную концепцию "пространства эмбеддингов".

В такой терминологии значение элемента "вектора эмбеддинга"

это сила/степень/потенциал определенного "качества"/"категории".

Которое на каждой ступени преобразования в структуре нейронки,

"взаимодействует" с другими качествами.

И в результате этого взаимодействия могут возникать новые качества,

а предыдущие пропадать или трансформироваться.

В таком ключе уже можно потихоньку подбираться

к формулировке определения "пространства эмбеддингов".

Начнем с того, что "пространство эмбеддингов" соответствует

"классическому" определению топологического пространства.

\\\ Наиболее абстрактным математическим пространством является

\\\ топологическое пространство.

\\\ Напомним его определение.

\\\ Пусть в множестве X произвольной природы указана совокупность t = [U]

\\\ подмножеств, обладающая следующими свойствами:

\\\ 1) пустое множество и !0 принадлежат совокупности t;

\\\ 2) объединение любой совокупности множеств из t принадлежит t;

\\\ 3) пересечение любого конечного числа множеств из t принадлежит t.

\\\ Такая совокупность подмножеств t называется топологией в X,

\\\ а само множество X в этом случае называется топологическим пространством

\\\ Варламов В.В. О соединении материи и формы: теоретико-полевой подход.

\\\ Метафизика, 2023, ? 4 (50). ISSN 2224-7580, стр. 43

"Вектора эмбеддингов" соответствуют этим требованием,

следовательно "пространство эмбеддингов" можно считать топологическим пространством.

А сами "Вектора эмбеддингов" рассматриваются как "алгебраические структуры".

\\\ Bing 21:32

\\\ Для того, чтобы рассматривать вектор,

\\\ как алгебраическую структуру,

\\\ нужно определить, над каким полем он определен,

\\\ и какие операции на нем возможны.

\\\ Поле - это множество элементов, которые называются скалярами,

\\\ и на котором определены операции сложения и умножения,

\\\ подчиняющиеся определенным правилам,

\\\ таким как коммутативность, ассоциативность, дистрибутивность

\\\ и наличие нейтральных и обратных элементов.

\\\ Примерами полей являются множества рациональных, вещественных

\\\ или комплексных чисел.

\\\ Операции на векторах, которые необходимы для того,

\\\ чтобы он был алгебраической структурой,

\\\ это сложение векторов и умножение вектора на скаляр.

\\\ Сложение векторов - это операция,

\\\ которая сопоставляет каждой паре векторов третий вектор,

\\\ который называется их суммой.

\\\ Умножение вектора на скаляр - это операция,

\\\ которая сопоставляет каждому вектору и скаляру другой вектор,

\\\ который называется их произведением.

\\\ Эти операции также должны подчиняться определенным правилам,

\\\ таким как коммутативность, ассоциативность, дистрибутивность

\\\ и наличие нейтральных и обратных элементов.

И отсюда "пространство эмбеддингов" это не "многомерное пространство",

а "поле чисел" чаще всего действительных, но могут быть и другие,

на которой могут заданы определенные структуры.

Тут все вроде соответствует "классике".

А вот дальше мы вступаем на "минное поле"

\\\ Если вектор определен над полем,

\\\ и на нем возможны операции сложения векторов и умножения вектора на скаляр,

\\\ то он является алгебраической структурой,

\\\ и может быть элементом векторного пространства.

\\\ Векторное пространство - это множество всех векторов,

\\\ определенных над одним и тем же полем,

\\\ и на котором определены операции сложения векторов

\\\ и умножения вектора на скаляр.

\\\ Векторное пространство имеет много свойств и характеристик,

\\\ таких как подпространства, линейные комбинации, базис, размерность,

\\\ линейная оболочка, изоморфизм и т.д

Тоже, вроде, все похоже на то, что происходит в "пространстве эмбеддингов",

но в этом месте нужно попрощаться с "классикой",

так как появляются такие понятия как "базис", "размерность",

и следующее из них понятие "протяженность",

которое представляется корнем той трактовки "пространства эмбеддингов",

приводящей к сегодняшнему "некоторому" непониманию,

как собственно с ним можно работать,

и, самое главное, как его понимать.

Поэтому с этого момента будем "конструировать" "пространство эмбеддингов",

опираясь не на понятия "размерность", "ось", "координата",

а "качества"/"категории".

Итак, представляем "пространство эмбеддингов" как набор/комплекс

"качеств"/"категорий", которые могут быть как независимыми друг от друга,

так и связанными/скоррелированными друг с другом самым различным образом.

Причем состав этих "качеств"/"категорий" может/должен,

по мере прохождения входного "вектора эмбеддинга" по структуре нейросети

постоянно изменяться, комбинироваться или, наоборот, "расщепляться".

А сами "значения" элементов "вектора эмбеддинга",

соответствующих отдельным "качества"/"категориям" могут

усиливаться/ослабляться/фильтроваться/маскироваться/интерферировать и т.д.

Т.е. говорить о независимости отдельных "качеств"/"категорий" друг от друга,

в общем случае, утверждать, наверно, не совсем верно.

Хотя, возможно, какие-то "поперпендикулярные" "качества"/"категории",

в работе каждой нейронки, наверняка, есть.

Об этом можно судить по стабильности ее работы,

например, в качестве классификатора.

Но выделение/обнаружение таких "устойчивых и независимых" "качеств"/"категорий",

наверняка, задача далеко нетривиальная,

но очень интересная для понимания работы конкретной нейронки.

Тут очень трудно подходящий образ того,

что происходит с входным "вектором эибеддинга" в "пространстве эмбеддингов".

Это можно рассматривать как многомерную дельту реки,

как сложную электрическую сеть,

по которой распространяется сложный мультичастотный ток,

как деформируемый кусок пряжи...

Нет не получается, все аналогии не соответствуют главному свойству

"пространства эмбеденнгов" изменчивости/трансформации количества и состава

"размерностей", то бишь, "качеств"/"категорий".

Это как раз и свидетельствует, что "в лице" нейронок человечество

столкнулось с совершенно новой технической системой,

для которой у нас нет адекватной модели/представления.

И в связи с этим интересный вопрос:

а точно ли для такой системы, для которой нет приемлемого представления,

нет адекватной модели и понимания,

подходят общие/традиционные математические методы,

или нужно что-то принципиально новое?

Скорее всего трАдиционные методы "не очень" то подходят,

если судить сколько "полушаменских", полуэмпирических приемов их дополняют.

Но ведь как-то все-таки они используются в существующих нейронках

и какой-то результат они все-таки дают,

иначе даже те же цитаты из дискуссий с Bing в этом тексте бы не появились.

Представляет интерес, какие же собственно математические методы

применяются к "пространству эмбеддингов"

и почему они как-то работают.

"Как-то", потому что полной удовлетворенность по факту нет,

так как они дают не всегда удовлетворительный результат,

и часто требуют "полушаманской практике" по настройке и интерпретации.

Кроме того рассмотрение этих методов, может лучше понять концепции

"пространства эмбеддингов" и "вектора эмбеддинга",

которую я пытаюсь хоть как-то "оконтурить".

Начнем, пожалуй, с одного положения, которое часто забывается

при применении существующих математических методов

к интерпретации "векторов эмбеддинга".

Дело в том, что структура большинства существующих нейронок

вкупе с методом обучения их методом обратного распространения ошибки

оказалась на удивление гибкой/податливой/адаптивной.

А те структуры нейронок, которые этому качеству не полностью удовлетворяли,

не выдержали конкуренцию и большей частью "сошли со сцены".

Т.е. большинство нейронок можно обучить так, чтобы они как-то соответствовали

используемым математическим методам их интерпретации.

Понимаете, не математические методы интерпретируют "пространство эмбеддингов"

а, наоборот, "пространство эмбеддингов" специально трансформируют

таким образом, чтобы можно было применить конкретный математический метод.

И это при том, что какие-то "внутренние"/латентные/сокращенные состояния

этого "пространства эмбеддингов" могут быть куда более эффективными

и по размерности и по точности/устойчивости представления,

чем те что могут быть "расшифрованы" существующими математическими методами.

В качестве примера можно посмотреть на способы моделирования

"среды обучения" в методах "обучения с подкреплением", см.:

"Обучение в воображении".

Т.е. свернутые/латентные состояния "пространства эмбеддингов"

более работоспособны, но при этом менее интерпретируемы

существующими математическими подходами.

А какие собственно математические подходы используются?

А собственно те, которые прямо или косвенно опираются

на концепцию "координатного пространства",

и, соответствующим, представлением элементов "вектора эмбеддинга".

Причем, в ряде случаев, еще и с неявным предположением

о независимости этих "координат".

Практически, в основном, используются чисто геометрические

только геометрические и вероятностно-статистические методы.

Про какое-то использование спектральных, фрактальных, мультифрактальных

или каких-то иных экзотических методов четкого описания встречать не приходилось,

хотя какие-то элементы, безусловно, где-то используются,

в рамках этих самых "полушаманских/полуэвристически практик".

Геометрические методы основаны на том,

что по элементам "вектора эмбеддинга" вычисляется расстояние,

либо чисто геометрическое, либо "угловое"/косинусное,

которое, собственно, тоже основано на концепции представления

элементов "вектора эмбеддингов" как координат,

но только отнормированных к "длине всего вектора".

Работает это не так чтобы плохо,

просто очень "избирательно" только в случае близкого совпадения

"вектора эмбеддига" по всем координатам,

или "направлению" с таким же представлением элемента из словаря.

Во всех остальных случаях интерпретировать такой "вектор эмбеддинга"

не представляется возможным.

Но это худо-бедно работает, так как при обучении нейросеть

как раз и обучалась тому, чтобы "пространство эмбеддингов"

обеспечивало трансформацию входного "вектора эмбеддинга" к такому представлению.

Т.е. работает не сама "геометрическая интерпретация",

а обучение в "геометрической парадигме".

Важно заметить вот какой момент, что в геометрических подходах

делается попытка оценить весь "вектор эмбеддинга" комплексно,

т.е. с учетом всех его элементов/компонент.

Правда, часто влияние отдельных элементов/компонент "вектора эмбеддинга"

или целых групп этих элементов/компонент корректируется

специальными эмпирически подобранными масками/коэффициентами

при вычислении "геометрической характеристики".

В вероятностно-статистических методах используется

принципиально другой подход, как раз более близкий к интерпретации

элементов "вектора эмбеддинга" как "качеств"/"категорий",

но со своей "вероятностной спецификой".

Каждый элемент "вектора эмбеддинга", после соответствующей нормализации,

рассматривается как оценка вероятность какого-то выбора,

причем, независимого от других оценок вероятностей,

т.е. в сумме оценки вероятности по всем элементам должны равняться единице,

и результат выбирается на основе этих оценок вероятностей.

Даже для этих целей реализовали "палочку-выручалочку"

специальную функцию softmax, которую используют где только возможно,

или, точнее, когда "геометрический подход" не работает.

ПраВда, и здесь не все всегда работает и добавляют еще "функцию температуры",

т.е. случайный выбор из наиболее "вероятных".

Или пытаются дополнительно оценивать "вероятность неуверенности"

и тоже корректировать по ней выбор "наиболее вероятного" варианта.

В общем, вероятность/статистика "во всей своей красе",

то бишь, применения умных формул без понимания ЗАКОНОМЕРНОСТЕЙ,

а только на основе "вероятностно-статистических гипотез".

И, опять же, нужно напомнить, что это все работает только

в результате обучения нейронки под такую "парадигму".

А если просто попытаться применить "вероятностный подход" к какому-то

внутреннему/свернутому/латентному состоянию "вектора эмбеддинга",

то он практически никогда не работает в задаче интерпретации этого вектора.

НО. Для работы самой нейронки та же функция softmax,

достаточно широко и успешно используется, хотя бы в тех же трансформерах,

что явно что-то да означает.

И, кстати, это еще и служит в дискуссиях аргументом в пользу

статистической интерпретации поведения нейронок,

что мне никогда не нравилось,

а вот в концепции "пространства эмбеддингов" как "композита" "качеств"/категорий"

этот аргумент нашел свое объяснение, причем в полном согласии

с практикой использования. Что не может меня не радовать.

Хотя бы одной непоняткой стало меньше.

И это, наверно, практически все, что я могу вспомнить

о методах интерпретации "вектора эмбеддинга" в "пространстве эмбеддингов",

естественно, не претендуя на всеобъемлющий обзор

применяемых в нейронках методов интерпретации "векторов эмбеддинга".

Есть, правда, вопросы по латентному "пространству эмбеддингов"

для диффузионных моделей, но там еще надо немного подумать,

так что это уже "в следующем выпуске нашей программы".

Суммируя, то, что выше сказано, про математические методы интерпретации

"вектора эмбеддинга" в "пространстве эмбеддингов",

можно сказать, что используются два крайних подхода ,

либо независимо по элементам вектора (вероятностный подход),

либо комплексно всех элементов (геометрический подход).

Каких-то промежуточных вариантов типа комбинаций/подгрупп элементов,

которых по формулам комбинаторики "це из эн по эм",

вроде, как и не наблюдается.

А ведь это очень интересное направление в том смысле,

что в структуре энкодера можно в принципе сократить декодирующую часть,

без потери существующих декодирующих возможностей,

и, может быть их даже сильно расширить.

Правда, пока непонятно как этому обучать,

так что это задумка на будущую проработку.

Кстати именно этот момент больше всего заинтересовал Bing

при обсуждении этой концепции. Даже интересно, что он в нем увидел.

И, вроде, понятно почему это пока не используется и даже не прорабатывается

- комбинаций много, соответственно и вычислений много,

и, главное, непонятно, что искать. Это даже не "иголку в стоге сена искать",

а "пойди туда, не знаю куда, найди то, не знаю что".

Поэтому обычно разработчики нейросетей не заморачиваются такими вопросами,

а просто добавляют один или несколько слоев нейросети и дообучат ее так,

чтобы на выходе применить либо "геометрический" либо "вероятностный" подход.

Благо нейронка все "стерпит", только учи и учи ее на все большем датасете.

Надеюсь концепция "топологическо-концептуального" "пространства эмбеддингов"

со временем позволит что-то в этой ситуации изменить.

И самое перспективное направление для дальнейших исследований

в рамках этой концепции - это даже не интерпретация каких-то

"смысловых концептов" на основе комбинаций элементов "вектора эмбеддинга"

- это дело достаточно отдаленного будущего.

Хотя так и тянет попытаться приспособить к этой цели

какой-то спектральный/корреляционный/фрактальный/мультифрактальный анализ,

а от них подобраться к обоснованию "гистограммного анализа" Шноля.

Но все-таки первоочередное, все-таки, это попытаться осмыслить

процесс обучения нейронки методом обратного распространения ошибки

в "пространстве эмбеддингов" с "переменной размерностью".

Представляется, что возможно удастся по новому взглянуть

и на сам процесс обучения, и на его "страшилки" типа "переобучения"

и/или "локальных минимумов".

Тут важно понять, что за счет перехода от "геометрической парадигмы"

"пространства эмбеддингов" к, так сказать,

"топологическо-концептуальной парадигме",

можно отказаться или существенно трансформировать представление

обучения нейронок как процессу "формирования разделяющей поверхности"

в "многомерном пространстве решений".

Во всяком случае, ограничение/требование непрерывности "значений"

и их производных во многом определяются концепцией "протяженности"

"пространства решений", и это требует какой-то переформулировки

или доопределения, которое можно учитывать "прицельно" учитывать при обучении.

Тут точно нужно будет сильно "покумекать".

Кстати, еще один интересный вопрос - это можно ли рассматривать

"переменную размерность" "пространства эмбеддингов"

не как целочисленно-переменную, а как "дробную"?

Но это точно уже вопрос не для этого фрагмента,

а просто указание на то, что один из "заявленных вопросов" данного модуля

может иметь какое-то иное решение, кроме ранее озвученных.

Пора, наверно, завершать этот фрагмент, он и так получился достаточно большим

и перегруженным различными концептами/измышлизмами,

но выше было обещание дать этой концепции "пространства эмбеддингов"

какое-то внятное/звучное/понятное название.

К сожалению, или к счастью, у меня пока окончательной "версии" нет.

"Колеблюсь вместе с линией партии" между такими заманчивыми определениями

как "концептуальное","мультифрактальное", "голографическое" и,

даже, "магическое". Кстати, можете предложить и еще что-то свое.

Думаю определиться только после проработки вопроса обучения нейронок.

Но это точно уже не "в этой серии".

А почему всплыло определение "магическое"?

А тут на днях встретил очень интересный фрагмент на близкую тему

у очень талантливого автора СамИздата.

С надеждой на понимание, желаю Вам приятного прочтения:

"Свет Беспощадный".

Юрченко Сергей Георгиевич

http://samlib.ru/j/jurchenko_s_g/05_realmsofmightandmagic.shtml

14.01.2024

.....

Ортеро

- ...вектора-магистатум в пси-поле инкуб-преобразования!

- говорят, что когда Создатели воплощали наш мир,

один из них специально растратил часть собственных сил,

добившись, чтобы эти слова имели смысл.

Зачем? Неисповедимы пути Творцов!

- На этом... - я оглядел собравшихся, - ...сегодняшняя лекция закончена.

Есть вопросы?

Ученики Башни Учеников одного из малых владений на границе Бракады

переглядывались.

- Но разве не проще, - начал один из них,

- точно выучить звучание слов Древнего языка,

правильно заучить жесты, и...

- Проще, - кивнул я. - Но без понимания того, что вы делаете

- вы навсегда останетесь катапультным мясом,

одноразовым инструментом, который можно использовать,

но и сломать - не жалко.

- А тот, кто заморачивается всей этой...

- ученик, чья мантия явно выделялась среди остальных

своим дорогим материалом, хотя и оставалась в пределах

допустимого количества украшений,

презрительно скривился,

- ...этой ерундой - не будет "инструментом"?

- Будет, - кивнул я. - Но тот, кто разберется хорошо

- будет инструментом полезным и далеко не одноразовым.

Такие ценности - берегут.

Впрочем, если не хотите - можете не разбираться.

Боевых магов всегда много... и их всегда не хватает.

Так что "бери больше, кидай дальше, пока летит - отдыхай вволю".

Это тоже один из путей мага.

Дальнейшее общение уже было, как говорится, "по делу":

ученики интересовались особенностями строения пространства

с точки зрения различных преобразований нескольких систем координат

в двенадцатимерном континууме.

Когда же вопросы иссякли, я выдал ученикам домашнее задание

("Описать порядок и последовательность проецирования

одного из религиозных символов мира Неумирающих

на внутреннюю поверхность погребальной камеры

с учетом нелинейных гармоник при различных положениях

относительно этических осей"),

и собирался было отправиться домой. Но меня перехватил старший коллега.

Камбис, маг, специализировавшийся на магии Призыва из школы Жизни,

подошел, чтобы поинтересоваться некоторыми особенностями

взаимопроникновения и взаимодействия пространств различных планов

в пограничных этических состояниях.

Рассуждения о фазовой динамике этических состояний

и экспериментальная проверка некоторых выведенных нами теоретических положений

отняли у нас остаток дня.

В процессе работы к нам подошел Ортэре.

Как маг воздуха, тесно связанный с одним из Древних элементалей,

он давно пытался доказать ложность известного утверждения

об ортогональности этических осей,

и тождество Хаоса и Зла.

Для этого он собирал работы древних магов

и пытался обсчитать их согласно новейшим методам нумерологии и символогики.

Пока что у него получались результаты,

стабильно доказывающее то самое утверждение,

которое он пытался опровергнуть.

Но маг не отчаивался,

и изобретал все новые и новые способы расчетов...

С одним из которых он и явился к нам сегодня.

- Вот! - торжественно заявил он, потрясая свитком, толщиной в кулак.

- Я сделал это!

- Давайте посмотрим, - вздохнул я.

И мы вместе с Камбисом принялись смотреть.

- Хорошо, - кивнул Камбис. - Свежо. Неизбито.

Наводит на интересные мысли.... Вот только...

- Что? - вздрогнул Ортэре.

- Вот здесь, - Камбис ткнул пальцем середину развернутой перед нами части свитка,

- Вы упустили знак.

И если его подставить правильно, то вот вся эта часть

- просто схлопнется,

а к этой - можно будет применить Вторую Аксиому Небытия.

Тогда к вот этой части можно будет применить

этическое преобразование Гэвина...

Камбис достал из воздуха чистый свиток,

и аккуратно переписал на него выкладки с исправленной ошибкой.

- Вот. И вот так... И получаем, что... Ага...

И астральные проекции - сокращаются. И в результате...

В результате ожидаемо получилось очередное доказательство

ортогональности этических осей.

- Но этого просто не может быть! - горестно возопил Ортэре.

- А, может быть, попробуете не рыться в пыльных свитках,

а проведете уже неоднократно обсчитанные Вами эксперименты сами?

- поинтересовался я.

- Этого не требуется, - фыркнул Ортэре.

- Я точно знаю, что Ваше утверждение - ложно.

Требуется только это доказать!

И для этого Древними сделано достаточно.

Надо лишь правильным образом обработать результаты их трудов...

Мы с Камбисом пожали плечами.

Несмотря на всю свою упертость и, временами - невнимательность,

в символогике Ортэре разбирается.

И его выкладки (я обратил внимание, что свиток,

брошенный убежавшим воздушником уже аккуратно подобран Камбисом)

- часто действительно оригинальны и могут дать множество интересных идей.

Так что оставалось ждать завершения очередной депрессии,

а заодно - разбираться и приводить к применимому виду

очередные разработки нашего безумного гения.

Раскланявшись с Камбисом по завершении последней серии экспериментов,

я двинулся домой.

Теории призывателя и их экспериментальная проверка - любопытны.

Выкладки воздушника - интересны.

Но у меня есть и своя работа.

Приняв необходимые меры безопасности

я, на всякий случай, произвел единственный религиозные ритуал,

в котором упоминается Истинное имя нашего принципала:

- Ну, Тзинч бла... Э, нет. Сам справлюсь!

.....

"Пространство эмбеддингов с логотипом Бинга".

Создано с помощью искусственного интеллекта Bing на платформе DALL" E 3.

========

02.04.2024 16:33

Анизотропия и внутренняя размерность "пространства эмбеддингов".

В оглавление.

Полезно иногда сравнивать собственные "умственные изыски"

с направлениями и результатами работ в настоящей науке.

Вот и про "неоднозначность" представлений пространства эмбеддингов

вчера, несмотря на Первое Апреля,

на Хабре появился достаточно неплохой и информативный материал:

"Как устроено пространство, в котором думают языковые модели?"

Автор: Razant (Anton Razzhigaev)

https://habr.com/ru/companies/airi/articles/804515/

1 апр 2024 в 16:38

//// Начало цитирования.

Хабр, привет! Меня зовут Антон Разжигаев,

я аспирант Сколтеха и участник научной группы Fusion Brain в институте AIRI.

С момента выхода первой статьи

я с жадностью и любопытством, присущими любому исследователю,

пытаюсь углубиться во все особенности и свойства моделей

на базе архитектуры трансформер.

//// Т.е. как минимум пятилетний стаж познания "магии трансформеров"

//// у человека за плечами.

Но, если честно, я до сих пор не понимаю,

как они работают и почему так хорошо обучаются.

Очень хочу разобраться,

в чём же причина такой эффективности этих моделей,

и есть ли предел их возможностей?

Такому изучению трансформеров <под микроскопом>

и посвящена наша научная работа,

только что представленная на конференции EACL 2024,

которая проходила на Мальте -

https://aclanthology.org/2024.findings-eacl.58/

В этой работе мы сфокусировались на наблюдении за пространством эмбеддингов

(активаций) на промежуточных слоях

//// Тут я не очень понимаю уточнение "активаций".

//// Т.е. рассматриваются только выходы нейронов или еще и их входы?

по мере обучения больших и маленьких языковых моделей (LM)

и получили очень интересные результаты.

Итак, приступим!

Данные

Начнём с рассказа о данных - это нужно для того,

чтобы было проще понять, что мы сделали и что обнаружили.

Т.к. нас интересовало пространство контекстуализированных эмбеддингов

(в т.ч. промежуточных),

надо было их где-то добыть.

Мы взяли enwik8 - аккуратно очищенные статьи Википедии на английском языке.

Эти тексты мы прогнали через изучаемые модели,

сохраняя все промежуточные активации

(для каждого токена и с каждого слоя).

//// Ну вот так, вроде понятно, что является исходным материалом

//// для исследования.

Так мы получили <пространство эмбеддингов>

или, другими словами, многомерное облако точек,

с которым и стали дальше работать.

//// А вот тут уже возникает вопрос:

//// как определяется/задается эта "многомерность".

//// Вариантов точно не один.

Чтобы исключить зависимость наблюдений от выбранного датасета,

мы повторили эксперименты на случайных последовательностях токенов,

и все выводы повторились.

//// Т.е. разницы между осмысленным набором и случайной последовательностью

//// ДАННЫЙ исследовательский метод не обнаружил.

//// А что тогда ищется? Вроде как пространство в котором "думают".

//// И что оно одинаково в обоих случаях.

//// Или исследователи ищут что-то иное?

Поэтому в дальнейшем не буду акцентировать на этом внимание,

а лучше сразу перейду к результатам.

Анизотропия

Один из самых главных вопросов,

которые мы себе задали в процессе исследования

- а какая вообще форма у этих облаков точек?

//// А вопрос о том, что "форма" может зависеть от "структуры пространства",

//// по-видимому не возникал. Сразу взяли простейший вариант - "евклидово".

//// А что, можно было иначе?

Визуализировать их сложно

- пространство эмбеддингов очень многомерно, -

а методы снижения размерности тут не сильно помогают.

Поэтому мы решили использовать анизотропию

в качестве нашего <микроскопа>.

Анизотропия - это мера, показывающая насколько облако точек вытянуто,

насколько оно неоднородно.

Чем выше это значение, тем сильнее вытягивается пространство.

//// Хорошо бы какую-то формулу привести,

//// чтобы понять, как считается эта "вытянутость".

Рис. Пример анизотропии (в форме конуса)

контекстуализированных эмбеддингов трансформера

из статьи (Representation Degeneration Problem in Training Natural Language Generation Models).

К примеру, уже давно известно

(см. статью Representation Degeneration Problem in Training Natural Language Generation Models),

https://arxiv.org/pdf/1907.12009.pdf

что эмбеддинги трансформеров-энкодеров лежат в <узком конусе>

- из-за этого косинусы между текстовыми репрезентациями всегда очень высокие.

//// Т.е. "плохая контрастность" при использовании косинусного расстояния.

Но тем не менее, если вычесть среднее значение

и отцентрировать это облако точек,

оно становится вполне изотропным,

то есть похожим на многомерный шарик.

Поэтому говорят, что эмбеддинги трансформеров-энкодеров

(Bert, RoBERTa, Albert, ...)

локально изотропны.

//// И при этом забывают добавить, что, вообще-то, они трудно "различимы",

//// а сама оценка "изотропии" получается исключением средней/"общей" изотропности.

//// Как-то это не совсем последовательно.

А в случае с декодерами (GPT, Llama, Mistral, ...)

мы обнаружили, что это совершенно не так!

Даже после центрирования и использования

более устойчивых к смещению методов на базе сингулярных чисел

мы видим, что на средних слоях языковых моделей

анизотропия практически равна 1.

Это означает, что облако точек там вытянуто вдоль прямой линии.

Но почему?

Это же так сильно снижает ёмкость модели,

она из-за этого практически не использует ТЫСЯЧИ других размерностей.

//// Интересная подробность. Точнее, интересен способ оценки этой "подробности".

Рис. Наша реакция на экстремально высокие значения анизотропии.

Откуда берётся эта неоднородность пространства репрезентаций в декодерах,

мы пока не знаем,

но предполагаем,

что это связано с процессом их обучения,

задачей предсказания следующего токена и треугольной маской внимания.

Это одна из исследовательских задач, которая сейчас стоит перед нами.

//// Ну, вообще-то, наверно, ВСЕ свойства трансформера определяются

//// его структурой, в которую входит и "маска внимания",

//// и, безусловно, процессом обучения.

//// Так что, нет сомнений, что данная исследовательская задача

//// в такой постановке будет успешно выполнена.

Если посмотреть на профиль анизотропии по слоям,

то становится видно, что в начале и в конце декодеров

эмбеддинги гораздо более изотропны,

а экстремально высокая анизотропия наблюдается только в середине,

где и должен происходить весь мыслительный процесс.

//// Ну, изотропность в начале декодеров определяется

//// изотропностью входных эмбеддингов,

//// А изотропность в конце декодеров задается более сильным влиянием

//// значения функции стоимости/ошибки на оконечные слои

//// по сравнению с более глубинными - та самая проблема "исчезающих градиентов".

Рис. Локальная анизотропия разительно отличается

в трансформерах-декодерах и -энкодерах.

//// А вот это действительно интересно.

Мы проследили за тем, как меняется анизотропия от чекпоинта к чекпоинту

по мере обучения моделей

(мы взяли все модели с промежуточными весами из того,

что было опубликовано на тот момент).

Оказалось, что все модели класса трансформер-декодер

постепенно сходятся к одной и той же форме пространства

и одному и тому же куполообразному профилю анизотропии.

Рис. По мере обучения анизотропия декодеров постепенно приходит

к одному и тому же профилю.

//// Но сам "путь" при этом разный.

Внутренняя размерность

Следующий наш <микроскоп> для наблюдения за активациями

- внутренняя размерность.

Это довольно красивое математическое понятие,

описывающее <сложность> фигуры (многообразия или манифолда),

на котором располагаются точки в многомерном пространстве.

//// Это что-то похожее по алгоритму вычисления на оценку "фрактальной размерности".

Чтобы было понятнее,

рассмотрим трёхмерную фигуру в виде ленты,

свёрнутой в спираль (см. картинку ниже).

Если мы приблизимся к какому-либо её участку,

то обнаружим, что в малой окрестности точки

будто бы лежат на плоскости.

Следовательно, локальная внутренняя размерность тут равна двум.

Рис. Двухмерная лента в трехмерном пространстве.

Самое главное, что внутреннюю размерность довольно легко оценить,

так как она сильно связана со скоростью роста <объёма> многомерного шара

(количества точек данных, попадающих внутрь шара)

по мере увеличения радиуса.

//// Полная аналогия с "методом коробок".

Измерение зависимости количества точек от радиуса

позволяет определить внутреннюю размерность в локальной области облака данных.

//// Ну, точно ведь алгоритм "фрактальной размерности" - один в один.

Итак, что же мы обнаружили?

Во-первых, размерность довольно низкая, но это не новость,

т.к. это было обнаружено и до нас.

Во-вторых, - и это гораздо интереснее -

эта размерность изменяется одинаково для всех моделей по мере обучения!

Этот процесс состоит из двух фаз - сначала рост,

а затем падение (см. график).

Рис. Изменение внутренней размерности промежуточных эмбеддингов

трансформеров-декодеров по мере их обучения.

Похоже, что первая часть обучения переводит фичи в более высокие измерения,

чтобы <запомнить> как можно больше информации,

а во второй фазе - фичи начинают сжиматься,

позволяя выявлять больше закономерностей,

усиливая обобщающие способности модели.

//// Ой, как же раздражает эта дежурная мантра

//// про "мифические обобщающие способности".

//// Чему и как модель учат, то она и пытается воспроизвести на выходе.

//// И это не "обобщающие способности", а "пластическая способность" нейросети

//// подогнать "рельеф решения" под "ландшафт задачи", см.:

//// "От "ландшафта задачи" к "рельефу решения".

Ещё раз - у всех LLM во время обучения присутствуют две фазы:

инфляция эмбеддингов и их последующая компрессия.

//// Ну, названия звучные, можно "взять на вооружение".

Что это даёт?

Мы верим, что, вооружившись новым знанием,

мы сможем улучшить процесс обучения языковых моделей (и не только),

сделать его эффективнее,

а сами трансформеры - быстрее и компактнее.

Ведь если эмбеддинги проходят стадию компрессии

и вообще стремятся расположиться вдоль одной линии,

то почему бы просто не повыкидывать неиспользуемые измерения?

Или помочь модели с более быстрым преодолением первой фазы.

//// Судя по графикам важнее ускорить как раз не "первую фазу",

//// а именно вторую - она явно дольше и более важна в окончательном результате.

Также мы обнаружили, что незадолго до взрывов лосса во время обучения

(больная тема всех, кто учит LLM)

внутренняя размерность сильно подрастает.

Возможно, у нас получится предсказывать взрывы лосса

и не тратить вычислительные ресурсы впустую,

или вообще победить эти нестабильности, поняв их природу.

Хотя кого я обманываю,

всё это нужно только ради удовлетворения своего любопытства!

.......

//// Из комментариев.

kmmbvnr

19 часов назад

А не было попытки узнать,

есть ли смысл у осей многомерного пространства?

Может если как-то повернуть,

на всех осях окажутся определенные типы слов

Razant

18 часов назад

Да, были работы про "линейный пробинг" эмбеддингов,

удалось выявить направления, связанные с координатами и временем

(Language Models Represent Space and Time).

https://arxiv.org/abs/2310.02207

Работает не идеально, но работает)

krisgrey

15 часов назад

Получается, что современный подход к организации обучения

позволяет моделям самопроизвольно находить

оптимальную комбинацию мыслительных процессов

- накопление знаний и их редукцию для формулирования выводов.

Напрашиваются закономерные вопросы:

1) можно ли использовать средний слой с максимальным объёмом знаний

как репрезентацию внутреннего мира модели?

2) если учесть, что левая половина слоёв кодирует информацию,

а правая - декодирует, то не присутствует ли некая параллель

между соответствующими слоями, отстоящими от середины?

Можно ли использовать эти параллели для оптимизации графа вычислений

(можно ли провести какую-то нормализацию модели

типа зеркалирования половин слоёв,

но чтобы ответы были такими же, как у исходной)?

Было бы интересно в дальнейшем узнать,

как влияют LoRa на поведение внутренних размерностей.

Razant

13 часов назад

Кстати, на задачах линейного пробинга действительно видно,

что средние слои декодеров дают лучшую точность классификации.

То есть если модель заморожена и можно обучать

только логистическую регрессию поверх эмбеддингов,

то лучше брать эмбеддинги из середины.

//// Ак как тогда быть с и изотропией?

//// Или "изотропия" и различимость/контрастность эмбеддингов

//// связаны как-то более хитро чем "линейно"?

Вот такой у нас получился график для классификации CIFAR

в другой статье про imageGPT.

https://aclanthology.org/2022.mmmpie-1.4.pdf

........

//// Конец цитирования.

Ну, что можно сказать. Что определенный интерес к "пространству эмбеддингов"

в истинной науке явно присутствует.

И анизотропия эмбеддингов тоже не остается без внимания,

вот только даже предположения о возможной связи этой анизотропии

с АНИЗОТРОПИЕЙ СОБСТВЕННО ПРОСТРАНСТВА ЭМБЕДДИНГОВ,

а не только самих значений эмбеддингов,

пока явно никто не рискует озвучивать.

А то ведь придется подставить под сомнение "золотой стандарт" ML & DS

то самое "косинусное расстояние",

которое и так-то не сильно хорошо обеспечивает различение

даже относительно изотропных эмбеддингов.

Но, в любом случае, данная работа, точнее ее направление,

мне очень даже импонирует.

Ну, а различные представления - это даже хорошо.

Каждый имеет право на свой собственный путь постижения неведомого.

========

29.06.2024 14:40

Многоуровневость "пространства решений" нейронок.

В оглавление.

Пару недель назад вырисовалось новое, неожиданное, но, в тоже время,

закономерное направление в подходе к попытке анализа "размерности пространства".

Смысл в том чтобы попытаться представить не просто "многомерным",

в котором "размерности", в принципе, "равноправны" и "независимы",

а имеют некую "иерархическую закономерность",

т.е. в некотором смысле являются "многоуровневыми",

и каким-то образом очень сложно "перевязаны" между собой.

Подробнее о том, как возникла эта гипотеза см.:

"Размышления о работе над проектом во II квартале 2024г."

В какой-то мере такое предположение можно было бы сделать достаточно давно,

причем как на основании неудач обычных подходов к "расшифровке"

эмбеддингов/латентов "внутреннего пространства решений" нейронок,

в которых упор делался на выявление каких-то "однозначных" элементов/составляющих,

так и, наоборот, удачных, но ничем теоретически необоснованных

приемов обработки эмбеддингов, с учетом их возможной корреляции, например, см.:

"Эксперименты с комплексной фазой в структуре эмбеддинга."

Тут основная причина в огромной психологической инерции,

закрепленной в наших представлениях о пространстве,

как ОДНОУРОВНЕВОМ наборе независимых осей/размерностей,

Это также проявляется и в наиболее употребительном/разработанном и понятном

математическом аппарате, в котором большей частью ставится задача

найти "независимые оси", избавится от "корреляций" и т.п.

И даже в случае "дробных размерностей пространства",

сам их расчет основывается на использовании/существовании "независимых размерностей"

при оценке соотношения чего-то с чем-то.

Пример: оценка фрактальной размерности с помощью "метода коробок".

Собственно, именно возможность как-то по иному подойти к оценке "дробной размерности"

на основе концепции "многоуровневого пространства решений"

и привлекла внимание к этой гипотезе.

Но вот дальше дело застопорилось, так как сходу ничего не придумалось

- слишком непривычно оказалось мыслить пространство именно МНОГОУРОВНЕВЫМ -

даже в достаточно, на первый взгляд, простейшей нейросистеме, подробнее см.:

"Задача о "многоуровневом" RGB-пространстве эмбеддингов."

Поэтому решил разделить работу по этой гипотезе на нескольким направлениям.

Естественно, "шерстить" Инет на поиск чего-то созвучного,

пытаться найти какие-то подходящие элементы в "математических запасниках",

типа "тензорного представления", "расслоенных пространств", "солитонов",

"корреляций" и т.д., короче во всем, что попадется под руку.

И, одновременно, попытаться что-то придумать самому чуть ли не "с самого нуля",

возможно, как-то опираясь на "голографическую гипотезу", подробнее см.:

"Голографический принцип."

"Приближаясь к орбите Соляриса."

"Мой путь к голографическому принципу."

Вот собственно эту часть "пути к Сорярису"

в свете гипотезы о "многоуровневом пространстве решений"

и хочется попробовать хоть как-то начать.

Правда, не понятно от чего оттолкнуться,

так как никакого примера/аналога многоуровневого пространства

найти ну никак не удается.

Попробуем начать с предположении о всеобщей частичной "коррелированности"

всех элементов эмбеддингов/латента.

Обычно считается, что такая "коррелированность" это очень плохо,

с этим нужно как-то бороться, так как привычные математические методы

на таких "данных" обычно сбоят и ничего не гарантируют.

Но в нейронках с полносвязнными слоями это просто гарантированная ситуация,

если не предпринимать каких-то специальных действий при обучении.

Т.е. все элементы эмбеддингов/латента очень-очень сложно "перевязаны",

и как подступиться к этому "гордиевому узлу" нейронок совершенно непонятно,

особенно за неимением какого-то экспериментального материала,

и пытаясь пользоваться только "умственными размышлизмами".

Вроде совершенно неподъемная задача,

но может именно поэтому такая интригующая.

Предположим, имеем трех-уровневое пространство

на первом, верхнем уровне только одна ось/размерность

на втором уже две, ну а на третьем - "естественно" - три.

И как это можно увязать в в одну связанную систему пространства,

скажем двенадцати-мерного или, наоборот, четырех-мерного.

Т.е. нужны какие-то механизмы по расширению/сужению размерности,

с сохранением каких-то общих свойств/закономерностей.

Случай когда количество размерностей/осей равняется

сумме размерностей различных уровней,

и при этом они еще остаются независимыми будем рассматривать,

как желательный, но совершенно нереальный случай.

Можно попытаться опираться не на "математику", а на "примеры из ЖЗН"

- "жизни замечательных нейронок".

Хрестоматийный пример уменьшения размерности пространства решений

с сохранением существенной части информации это применение сверточного слоя.

Работа которого основана на "фильтрации" т.е. обнаружения какого-то "паттерна",

т.е. совпадения/корреляции с какими-то признаками,

и выбора из нескольких альтернатив.

Соответственно, наоборот, увеличение размерности пространства решений,

сопровождается увеличением количества альтернативных представлений,

одного и того же "варианта".

Это увеличенное количество "альтернативных представлений"

позволяет на следующем этапе обработки использовать разные "фильтры",

позволяющие группировать/объединять различные варианты по разным критериям.

Причем, эти "альтернативные представления" получаются домножением

элементов эмбеддинга на разные коэффициенты, сформированные в результате обучения.

Т.е. чтобы "расшифровать" взаимосвязь элементов эмбеддинга/латента,

и представить "исходную"/"очищенную" информацию в форме привычного

многомерного пространства "на основе независимых осей",

- что-то наподобие привычных алгоритмов кластеризации -

нужно выполнить какое-то немыслимое количество операций "проверки гипотез".

Причем, самое неприятное, непонятно, какие это должны быть операции.

Обсуждая эту тему с Copilot, возникло предложение "поручить это гиблое дело"

тоже нейронке, которая обучается одновременно с целевой нейросетью.

Этакая нейронка-интерпретатор.

Идея, конечно заманчивая, но пока непонятно ни в каком виде могут/должны быть

представлены ее результаты, ни как эти результаты могут быть получены

даже в простейших случаях, ни, соответственно, как ее этому обучать.

Так что это пока "заготовка на будущее", когда хоть что-то станет понятнее.

И тогда может появится новое направление "машинного обучения"

- "обучение с интерпретацией".

А пока приходится пытаться нащупать хоть какую-то тропиночку

в перекрученном и перевязанном "многоуровневом пространстве решений"

без каких либо "навигационных приборов" и "лоций".

Хотя, может быть, правильным или хотя бы частично рабочим решением

будет как раз "забегание вперед",

т.е. попытка сформулировать принципы обучения такой нейросети-интерпретатора.

Тут вот какой непривычный момент для "классической" схемы исследования,

который еще до конца неосознанный за рамками "машинного обучения".

Нейронки за счет своих "магических свойств" позволяют,

если и не окончательно решать, то, как минимум, "подступиться" к сложным задачам,

не с формулировки "как сделать", а "что сделать".

Естественно, при этом не отменяя необходимость понимания всей задачи.

Как-то страшно начинать конструирование "многоуровневого пространства",

страшно выглядеть глупым, наивным, ну и т.д. и т.п.

Но ведь как-то начинать все же надо.

Итак, пространство первого уровня - одномерное - это способ задания "величины".

"Величины", не важно чего, любой характеристики, выражаемой численной величиной.

Т.е. это условная "длина".

Причем, неориентированная, и тут вопрос с отрицательными значениями "длины".

Пространство второго уровня - двумерное - это способ задания угла и "площади".

Либо как раз способ задания "отрицательного" значения "длины".

Ну и такм же образом можно рассматривать третий уровень как способ задания

"телесных углов", объема и чего-то еще, связанного с "формой".

Нет, что-то в таком построении не нравится.

Как там в известном афоризме: "Чтобы мы не строили, в итоге получается КПСС".

Или, наоборот, как раз в этом направлении и нужно "копать".

Ведь в том материале по обработке корреляционных зависимостей в эмбеддинге

на основе вейвлет-анализа, как раз и рассматривались пары элементов,

с вычислением их "взаимной фазы", и в итоге получалось что-то полезное.

Нет, похоже на сегодня надо завязывать. Уже поздно, устал,

и в голове пусто, аж зубы разболелись.

Точнее, отсутствие какого-либо ориентира и непонимание, что делать дальше.

Ладно, "я подумаю об этом завтра".

03.07.2024 16:34

Попробуем с зайти с другой стороны.

Прямые исследования литературных, и не только, текстов на протяжении

как минимум, за полутора века "победившей матстатистики" выявили

только какие-то очень "невыразительные" статистические закономерности, например см.:

"О законе Ципфа-Мандельброта."

"Больше статистик хороших и разных."

"Пример статистического "распознавания" текста."

И при этом глубокое обучение больших языковых моделей (LLM) показало,

что при в этом "черном ящике" какие-то закономерности точно фиксируются и,

более того, вполне могут быть использованы с высокой степенью успешности.

При этом утверждается, что это все равно "статистические закономерности",

которые просто получены неочевидным способом.

Точнее, "способ" как раз известен, а вот полученный при этом результат - нет.

Можно долго спорить является это "статистическим алгоритмом" или чем-то другим,

наверно, с таким же успехом можно и спектральный и корреляционный анализ

также подводить по "общую крышу статистики", но дело ведь не в этом.

Суть обработки текстов при обучении LLM "не совсем" "классическая статобработка",

но чем именно она является в точности непонятно.

Если кому-то душевно легче считать это "статистикой", то это его личное дело,

главное понять/принять, что список "статистических методов" далеко не закрыт,

и может быть, вообще, только "приоткрыт" для самых примитивных/очевидных приемов.

Большие языковые модели по сравнению "законами Ципфа-Мандельброта"

просто самый наглядный пример, того насколько другие, еще неизвестные,

"статистические методы" могут быть эффективнее "классических".

Причем, LLM по принципам действия мало чем отличаются от более простых "нейронок",

кроме колоссальных размеров.

И, соответственно, эти новые непознанные методы можно исследовать

и на достаточно простых моделях.

Было бы желание и ... "плодотворная дебютная идея".

Кстати, возможно, большие языковые модели ставят под сомнение

такую аксиому "классической статистики" как "Закон Больших Чисел",

"но это не точно".

И, вообще, это совершенно другая тема.

И здесь упоминается, чтобы попытаться хоть немного раскачать

"психологическую инерцию", следующей неотвязной тенью,

когда звучат такие слова, как "математика" и "статистика".

Вообще-то, для феномена больших языковых моделей уже придуман

определенный "статистический оксюморон",

под названием "статистические корреляции".

Почему "оксюморон"?

"Как известно":

\\\ Корреляция - статистическая зависимость между случайными величинами,

\\\ не имеющими строго функционального характера, ...

\\\ https://www.dvfu.ru/upload/medialibrary/77f/Щеголева%20С.А.%20Корреляционный%20анализ_1.pdf

Т.е. "корреляция" уже сама по себе "статистическая зависимость",

а "статистическая корреляция" - это некое "масло масленное".

Это с одной стороны, а с другой "корпус обучающих текстов",

можно назвать "случайными величинами, не имеющими строго функционального характера"

только под очень большим "наркозом",

Мне лично кажется, что этот термин "статистическая корреляция"

не только не отражает саму "механику" происходящих процессов,

но, самое главное, дезориентирует в попытке и понимания.

И это при том, что сами математические операции,

используемые в алгоритмах нейронок,

действительно имеют много общего с операциями при вычислении "корреляций".

Но может стоит попробовать использовать другой термин,

который может подсказать более перспективный "вектор" поиска.

Например, можно попробовать предложить такой термин:

"статистическая голограмма".

Если есть "статистические фрактал", почему бы не быть таким же голограммам,

тем более что такое уже используется в рентгеновских изображениях:

https://www.researchgate.net/publication/303699003_Statisticeskaa_teoria_formirovania_rentgenovskogo_golograficeskogo_izobrazenia_i_otrazenia_ot_mnogoslojnyh_periodiceskih_zerkal

Смысл такого подхода в представлении процесса обучения нейронки

как формирования не абстрактного "статистического распределения",

а некоего "объемного" образа обучаемой выборки.

Вроде как разница, на первый взгляд, не очевидная,

но, на самом деле, принципиальная

- в процессе обучения нейронки происходит не некое "усреднение",

а, наоборот, "дифференциация" данных за счет согласованной взаимной корреляции

параметров нейросети "взаимодействующих" со значениями элементов эмбеддинга/латента.

Т.е. элементы эмбеддинга/латента как бы преобразуются/интерпретируются

в соответствии с разными взаимными "фазами" этих элементов

и, естественно, архитектурой нейронки и некоей "цифровой интерференции".

Звучит, конечно, коряво, но лучше пока не получается.

Но как такая "статистическая голограмма" может быть связана

с темой "многоуровневого пространства решений", вынесенной в заголовок раздела?

А пока не знаю.

У меня пока нет конкретных идей, только интуитивное ощущение,

что это все взаимосвязано

уже в каком-то своем "многоуровневом пространстве решений"

конкретно для этой задачи.

Распределение интерференционных пятен на оптической голограмме

выглядят как обычное "случайное распределение",

но при "определенном освещении" рождают объемный образ.

А ведь есть еще и многослойные голограммы, для которых это еще больше усиливается.

И это очень похоже на "случайные распределения" эмбеддингов/латентов

больших языковых моделей, которые каким-то образом несут в себе

некие смыслы совершенно разных уровней представления.

Именно такая аналогия рождает уверенность,

что это не просто "бред сумасшедшего", а некий ориентир.

Все это больше напоминает на блуждание "в тумане" "без руля и без ветрил",

но реальный поиск решения какой-то сложной, тем более, неочевидной проблемы

всегда такой.

Опять день кончается, а ничего особо толкового придумать не удалось.

Но завтра будет, надеюсь, новый день и, может быть, новые мысли.

06.07.2024 16:45

Читаю все подряд, хоть как-то связанное

с какими-то нетривиальными пространственными представлениями:

типа концепции "ультраметрических пространств"

или использование "геодезических расстояний".

Что-то эти материалы явно подсказывают,

но что именно, сформулировать никак не удается.

Единственное упоминание "многоуровневого пространства" нашлось

только в одной литературоведческой статье применительно

к "многоуровневому пространству смыслов", см.:

Авторы: Бондаренко Л.В. Бакарюк В.В

"Многоуровневость процесса означивания в пьесе Т. Стоппарда "Аркадия".

В которой "многоуровневость" представляется как несколько

"параллельных пластов" в виде сюжетных линий и трактовок,

связанных какими-то общими фактами, ситуациями, действующими лицами и т.п.

Причем, такие связи при "проявлении" , как правило,

могут изменять трактовку событий "с точностью до наоборот".

И если хорошо вдуматься, то это вполне закономерно,

поскольку сама понятие "многоуровневость" оно из области смыслов,

и, следовательно, скорее всего какой-то аналог/образ "многоуровневого пространства",

наверно, проще всего искать в "смысловой области" или в чем-то похожем..

Но это как-то для меня очень непривычно, и пока никак не получается.

Мне бы что-то более "материальное".

Есть еще, конечно, "многоуровневое пространство" архитектурной застройки,

и оно опирается на понятия "масштабности" и/или "вертикальной застройки".

Тоже, наверно, стоит по-изучать, хотя, есть ощущение, что это тоже "не то".

Пока из всего этого калейдоскопа/пазла вырисовывается такое представление

для "уровня пространства" как некая "поверхность", возможно, "замкнутое",

которая может быть как-то "спроектирована" на "поверхность" другого уровня,

и, скорей всего, другой размерности.

Причем, "замкнутость", представляется важной характеристикой этой "поверхности,

и вполне может быть реализована с помощью "бесконечно удаленных точек".

Причем, "проекция" осуществляется через взаимные корреляционные зависимости

элементов эмбеддинга/латента.

А сами "корреляционные зависимости" реализуются операциями

поэлементного умножения и последующего сложения,

в чем-то похожими на матричные и/или тензорные операции,

но без ограничения на совпадение индексов.

И это пока все, что удалось выжать из этой гипотезы/идеи.

Наверно, время для ее более глубокого сознания еще не пришло.

И завершать этот фрагмент приходится совсем не так как ожидалось при его начале.

Ладно, не привыкать.

Попробую дать "гипотезе отлежаться".

Если это все-таки не полный бред,

то обязательно "многоуровневое пространство решений" "проклюнется"

где-то еще или как-то иначе.

========

14.12.2024 15:48

Хорошие вопросы по дробной размерности.

В оглавление.

Просеивая всякую-разную информацию по дробным размерным пространства,

наткнулся на интересный комментарий к, казалось бы, "безобидному" материалу:

"Фрактальная размерность: что это и как вычислить".

Автор: alena_alkova

https://habr.com/ru/companies/skillfactory/articles/866014/

12 дек 2024 в 12:26

/// Начало цитирования.

Фрактальная размерность описывает сложность объектов,

которые нельзя измерить обычными параметрами,

такими как длина или площадь.

Например, снежинка при увеличении не становится проще

- каждая ее деталь открывает еще более мелкие элементы.

Разбираем, что такое фрактальная размерность

и основные методы ее вычисления.

Фрактальная размерность: основные понятия

Размерность - это характеристика объекта, которая показывает,

сколько параметров нужно, чтобы его описать.

Нулевая размерность - точка.

У нее нет длины, ширины или высоты, поэтому ее размерность равна нулю.

Одномерная размерность - линия.

У нее есть только длина, и для описания точки на линии нужен один параметр,

например, координата.

Двумерная размерность - плоскость.

Объект имеет длину и ширину. Чтобы описать точку на плоскости,

нужны две координаты - x и y.

Трехмерная размерность - пространство.

Оно включает длину, ширину и высоту.

Для определения точки в пространстве используются три координаты: x, y и z.

Для измерения сложных и раздробленных объектов

используют фрактальную размерность.

Фрактальная (дробная) размерность

- это показатель, который помогает описывать сложные объекты,

такие как береговые линии, горные рельефы, облака или снежинки.

Эти объекты обладают сложной структурой,

которая становится более детализированной при увеличении масштаба.

Классических параметров, вроде длины или площади, недостаточно,

чтобы точно описать такие формы.

........

Фрактал - объект, который при увеличении масштаба сохраняет

свою самоподобную структуру или становится еще более детализированным.

Фрактальная размерность же показывает,

насколько сильно фрактал заполняет пространство,

в котором он существует, измеряет степень его <шероховатости>,

или <раздробленности>.

........

Общая формула расчета фрактальной размерности

Основная идея состоит в том, чтобы разбить фрактал

на элементы заданного масштаба

и определить, как изменяется их число при уменьшении размеров.

Общее представление фрактальной размерности выглядит так:

D = \frac{\log N}{\log S},

где:

D - фрактальная размерность, показатель сложности и структуры объекта;

log N - логарифм числа элементов, необходимых для покрытия фрактала.

По мере уменьшения масштаба размер элементов уменьшается,

а их количество увеличивается;

log S - логарифм обратного масштаба (размера элементов).

Чем меньше элемент, тем больше их требуется для покрытия всей структуры.

......

//// Из комментариев.

samsergey

16 часов назад

К сожалению, поставил отрицательную оценку,

хотя делаю это крайне редко.

Ох! В статье, начиная с первого предложения, столько неточностей и ошибок,

что даже не знаю, стоит ли их перечислять.

Приведу только самые очевидные:

Хаусдорфова размерность, о которой идёт речь в статье,

не характеризует ни "сложности"

ни "количества параметров, необходимых для описания объекта".

Проверочные вопросы:

Что сложнее описать математически - вашу одномерную подпись или кривую Коха?

Точка треугольника Серпинского имеет полторы координаты?

Определения и примеры, приведённые в первом разделе,

относятся к топологической размерности пространств,

а не объектов, вложенных в эти пространства.

Это принципиально разные понятия.

Фрактальность и самоподобие разные вещи.

Облака, береговые линии, странные аттракторы или канторовы множества,

будучи фрактальными, могут не обладать слабым самоподобием

или не обладать им вовсе.

Фрактальным называется объект, имеющий нецелую размерность Хаусдорфа

(или Минковского или иных аналогов).

Самоподобным - объект демонстрирующий идентичность формы на различных масштабах.

Размерность самоподобных фрактальных объектов можно вычислить аналитически,

в противном случае, только оценить

и то, в разных диапазонах масштаба, размерность, скорее всего, будет разной.

Снежинка Коха не является самоафинной,

а вот треугольник Серпинского, как раз является.

"Итоговая линия становится все более сложной,

ее длина увеличивается с каждым шагом,

но фрактальная размерность остается фиксированной и равна 1,2619."

Пока не достигнут предельный объект,

"снежинка" остаётся, одномерной ломаной линией,

что видно на первых шагах итерации.

Приведённый график зависимости от размеров количества квадратов,

покрывающих треугольник Серпинского, не показывает никакой корреляции.

...

Увы, тема фракталов превратилась в "звезду" поп-математики,

благодаря красивым картинкам,

которые относительно просто получить на компьютере.

Многим почему-то кажется, что это простая тема для рассуждений.

Но математика, которая за ними стоит, проще от этого не становится,

и рассуждения о размерности требуют не только точности,

но и чёткой мотивации и ответов на базовые вопросы:

Зачем нужна такая характеристика?

Что нового в картине мира она нам даeт?

Можно ли размерность считать объективной числовой характеристикой объекта,

не зависящей от способа вычисления?

........

//// Конец цитирования.

Как-то в своих поисках "дробно-отрицательной" размерности пространства

вот эти ключевые вопросы:

\\\ Зачем нужна такая характеристика?

\\\ Что нового в картине мира она нам даeт?

честно говоря, то ли не приходили в голову, то ли оставлялись "на потом".

Было непонятно, возможна ли такая характеристика "в принципе",

а вот как она может использоваться "в кожухе",

представлялось уже следующим этапом поиска.

Но вот "что-то в мире изменилось",

какой-то вариант такой "дробно-отрицательной" размерности пространства

на основе подсчета РАЗНООБРАЗИЯ устойчивых структур на разных масштабах

хоть как-то, если не оконтурился, то хотя бы наметился, подробнее см.:

Долбежка "бардака". Часть 2.

Долбежка "бардака". Часть 3.

"Звонок другу" по поводу "бардака".

И теперь пришло время задуматься, а зачем все это было нужно.

Безусловно, пока все этот подход еще даже не "сырой", а "мокрее мокрого",

и о какой-то там "формуле подсчета", да еще и "инвариантной к способу вычисления",

речь даже не идет.

Но вот "ключевые вопросы" стоит попытаться хоть как-то "покрутить в голове".

Исходная посылка была попробовать использовать "дробную размерность"

для какой-то характеристики "пространства решений",

используемого в "черном ящике" нейросетевых моделей

для более осмысленного представления/понимания особенностей их поведения.

Тем более, что существующие методы достаточно ненадежны,

и могут давать серьезные и при этом непредсказуемые сбои в ответственных случаях.

Пример таких "особенностей поведения" можно посмотреть, например, здесь:

Еще один штрих к вопросу об "устойчивости" эмбеддингов.

Т.е. предполагалось использование "дробно-отрицательной размерности"

внутреннего пространства эмбеддингов/латентов

как оценки/характеристики УСТОЙЧИВОСТИ представления контента/запроса.

Кроме того неявно предполагалось, что такая оценка будет существенно

более низкоразмерная, чем исходная "мерность" эмбеддингов/латентов,

что позволит получить какое-то приемлемое визуальное представление.

Хотя последнее требует еще какой-то дополнительной идеи,

чтобы гарантированно получать 2D-предсталения.

28.12.2024 18:04

Но чем больше пытаешься конкретизировать/приспособить обозначившийся подход

к оценке/интерпретации поведения нейросетей, тем больше возникает вопросов.

Отсутствует какая-то "связка" между "размерностью" и "логикой".

Напомню, сам этот модуль задумывался именно

для анализа самой возможности такой взаимосвязи, см.:

"Геометрия" пространства, как "базис" человеческой и иных логик.

Но сначала проблемным был сам вопрос возможности получения

"дробно-отрицательной размерности",

и "фокус внимания" сместился в эту сторону.

А вот сейчас, когда стало понятно, что такую экзотическую "размерность"

можно как-то построить, причем, наверняка, не одну "единственно верную",

вопросы "а зачем?" и "дальше то что?" всплыли с новой силой.

Как говаривал один классик: "не решив принципиальные вопросы,

будешь снова и снова натыкаться на них при решении второстепенных".

А тут еще и непонятно, что является "первостепенным":

сама "логика" или ее связь с "размерностью пространства решений".

Попытка "в лоб" связать "дробную размерность" с "логикой нейронок",

честно говоря, "отчаянно буксует".

Это видно и по работе анализа "эмбеддингов/латентов" и "методов обучения" нейронок.

"Чего-то в супе не хватает".

В общем, напрашивается, что надо "откатиться назад"

и попытаться на основе полученного опыта,

попытаться выстраивать "связку" между

гипотетической "дробной размерностью" эмбеддингов/латентов

и общепризнанным "статистическим поведением" нейросетевых структур.

А это, наверно, требует "погружения в мир классической матстатистики".

========

Бриг Букетик ландышей. Var.66 Модель Kandinsky 2.1 нарисовала: Металоция неведомого. Бриг

Бриг Букетик ландышей. Модель Kandinsky 3.0 нарисовала: b9499aa598164d41a1fd6e4630b26621_res_00000_image

Бриг Букетик ландышей. Модель Kandinsky 3.01 нарисовала: 61d35e1cf6224608b062f37294d6a875_res_00000_image

Бриг Букетик ландышей. Модель Kandinsky 3.1 нарисовала: 62989e91-76c8-46de-96b3-77f864f6aa8f

Комментарии: 1, последний от 19/05/2023.
Размещен: 19/05/2023, изменен: 05/01/2025. 398k. Статистика.
Эссе: Философия, Естествознание, Изобретательство

Связаться с программистом сайта.
Новые книги авторов СИ, вышедшие из печати:
О.Болдырева "Крадуш. Чужие души" М.Николаев "Вторжение на Землю"
Как попасть в этoт список

Кожевенное мастерство | Сайт "Художники" | Доска об'явлений "Книги"