KinoBmp

aReadmeXYTbmp для HabibTG 1.0.3 xyt

Дополнительная инструкция 2. BMP-Эпизоды (KinoBmp)

____________________________________

HabibTG 1.0.3 xyt - обучающаяся программа распознавания зрительных образов, включая формы движения

Версия 1.0.3 , конфигурация xyt

Автор: Хабибуллин Тавис Габдулхаевич

Некоторую информацию о проекте можно найти на сайте

http://tavis4.narod.ru

Дополнительная инструкция 2

Работа клонов конфигурации ”xyt” с bmp-эпизодами.

Общие инструкции находятся в файлах

aReadme, aReadMeParametr, aReadMeLiteratura.

Дополнительная инструкция 1 находится в файле aReadmeXYT.

Содержание

1. Общие сведения о bmp-эпизодах

2. Связь программы Habibtg с работой [11]

«К проблеме узнавания, Часть 2,

Константность музыкального и зрительного восприятия» и др.

Программа Habibtg и клоны - конкретизация и продолжение авторской модели восприятия и образного мышления

3. Описание некоторых клонов

Клоны-антиподы как результат «контрольных посевов» на одних и тех же эпизодах. Проблема компьютерных ресурсов, периферическое зрение

Сходство образов в разных эпизодах

4. О точках соприкосновения проекта в целом, авторской модели восприятия и программы Habibtg с реальным внешним миром, психофизикой и физиологией

4.1 Как создавалась авторская модель восприятия и почему её можно считать правильной?

4.1.1 Направление 1. Музыкальные мелодии

4.1.2 Направление 2. Перспективные искажения

Принцип доминанты в физиологии

4.1.3 Направление 3. Распознавание зрительных образов. Авторская модель восприятия (работа [11]) и программа HabibTG

Пуанкаре: атомы-крючки Эпикура. Адамар

Особенности проекта

4.1.4 Направление 4. Программа HabibtgKlaster

4.1.5 Клоны, «классы связности» и доминантные очаги возбуждения

4.2 Сведения из физиологии. О роли дрейфа и тремора в восприятии

4.2.1 Частота и роль (функция, назначение) тремора

4.2.2 Амплитуда и роль тремора

4.2.3 Колебания тремора перпендикулярны направлениям дрейфа

4.2.4 Гора идёт к Магомету (мозг идёт к сетчатке)

4.3 Построение простейшей модели внешнего мира. «Внутренние» и «граничные» точки, однородные области и граничные (контурные) линии

4.3.1 «… Контур фигуры типа чёрного диска фактически воспроизводится в нервной системе в виде двух элементов – границы и внутренней части…»

4.3.2 Признаки движения в «одном кадре сетчатки» - то, чего нет в кино-кадрах и наших bmp-кадрах

4.4 Что в программе Habibtg напоминает о «последовательной (временной) и пространственной индукции»

4.4.1 О последовательной (временной) индукции

4.4.2 О пространственной индукции

4.5 О повторных обращениях к точкам. Сравнение с шахматами -

одну и ту же позицию мы рассматриваем вновь и вновь с разных «сторон» и разных «точек зрения»

5. Сравнение фоторецепторов сетчатки с фотоэлементами солнечных батарей электростанций, цифровых фотоаппаратов и видеокамер

1. Общие сведения о bmp-эпизодах

Компактные bmp-эпизоды создаются из обычных видео роликов для упрощения экспериментирования и ускорения процессов обучения и распознавания. Это важно при исследовании процесса восприятия методом компьютерного моделирования.

Bmp-эпизод по типу является обычным графическим bmp-файлом.

Как и раньше, имя файла является именем эпизод-рисунка.

Его режим обработки помечается как READMOD = 7.

Итак,

READMOD = 7 означает, что файл надо трактовать как компактный xyt-bmp-эпизод из 6 кадров, расположенных друг под другом в одном bmp-файле, как на обычной киноплёнке.

Каждый кадр имеет размеры 128x128 пикселов.

Кадры отделяются друг от друга горизонтальной линией «шириной» в 1 пиксел.

Bmp-эпизод готовится специальной программой HabibtgVideoBmp, которая использует при этом обычные видео ролики.

Подробнее смотри VideoBmp/aReadMeVideoBmp.

Режим READMOD = 7 использует в работе параметры

PerifRISxy32, PerifRISxy64, PerifRISxy128 ,

управляющие режимами периферического зрения.

Обычные графические редакторы типа Paint можно использовать для редактирования кадров. Например, для очистки фона от ненужных предметов, мешающих обучению. Это резко ускорит процесс обучения. В противном случае придётся использовать большее количество эпизодов с разным фоном, чтобы клон смог самостоятельно определить, что относится к обучаемому динамическому образу, а что - нет. На это требуется гораздо больше времени.

Для копирования клонов в рабочую папку и последующего запуска их из окна "Raspoznavanie" в окно “OBSLUGAxyt” добавлены ярлыки:

xytK05 RukaOn

xytK06 StormLisaOn

xytK07 LisaGolovaOn

xytK08 StormReshetkaOn

2. Связь программы Habibtg с работой [11]

«К проблеме узнавания, Часть 2,

Константность музыкального и зрительного восприятия» и др.

Программа Habibtg и клоны - конкретизация и продолжение авторской модели восприятия и образного мышления

В работе [11] мы указывали, что многие особенности информационного процесса, коим является восприятие, трудно продемонстрировать без работающей компьютерной программы. Иногда гораздо труднее, чем, например, показать справедливость каких-либо законов физики или физической теории в школьной лаборатории.

Приведём отрывки из этой работы.

Отрывки из [11], начало:

…

11. Хабибуллин Тавис Габдулхаевич

«К проблеме узнавания», Часть 2

«Константность музыкального и зрительного восприятия»

Москва 1973 http://tavis4.narod.ru

…

Разделы и подразделы:

Константность

...

Язык зрительного восприятия

…

Инварианты α и β (альфа и бета). Понятие «подобия в широком смысле», используемое программой «HabibTG - Распознавание» (HabibtgR)

(Стр.29).

…

Разумеется, природа не строит и не запоминает целиком огромные многомерные пространства, а поступает экономнее. Например, в первую очередь обращает внимание только на изменившиеся точки, объединяя изменения с результатами обработки предыдущего состояния сетчатки, по возможности не обрабатывая заново весь «кадр».

В одной научно-популярной телевизионной программе сообщалось, что физиологам удалось открыть «элементы», которые дублируют содержимое элементов сетчатки без всякого преобразования и поэтому почему-то считаются бесполезными. Но эта информация может быть очень ценной, если допустить, что есть механизм доступа к этой информации и сопоставления её с другой информацией, как настоящей, так и такой же прошлой, но для других элементов сетчатки. Тогда это просто экономный избирательный способ сохранения прошлого состояния элемента сетчатки. «Дубль» должен обновляться только тогда, когда изменился первичный элемент сетчатки.

…

(Стр. 42)

О компьютерных программах

Полагаю, что генетики, например, уже и не надеются, что их очередные научные достижения можно получить и описать «на кончике пера» в виде одной хитроумной аналитической формулы. Точно также многие особенности информационного процесса, называемого «Восприятием и мышлением», трудно просто и доходчиво описать или даже показать само их существование, пользуясь только карандашом и бумагой. Компьютерные программы являются работающей моделью описываемых процессов. Информация, прилагаемая к этим программам, является продолжением изложения модели и экспериментально полученных результатов.

Поэтому читателю следует внимательно относиться, например, к материалам «aReadme», прилагаемым не только к программе в целом, но и к отдельным «клонам». Здесь речь идёт, например, о программах HabibtgMuz, HabibtgKompozitor (ХабибТГ Композитор), HabibtgKlaster и о клонах, выращенных программой «HabibTG xyt - распознавание».

Работающая программа должна рассматриваться как наглядное пособие, помогающее продемонстрировать особенности информационного процесса (алгоритма).

Остаются актуальными и традиционные задачи компьютерного моделирования – исследование, описание и экспериментальное подтверждение.

…

Конец отрывков из [11].

Физиологи выполнили гигантскую работу по выявлению «пунктов» преобразования информации, проводящих путей в зрительном аппарате и мозге, а также направлений импульсов в них. Но от них нельзя требовать разгадки и описания всех алгоритмов, участвующих в этих информационных процессах. Что бы вы сами смогли сделать, если бы вам дали процессор (микрочип) современного компьютера и предложили описать всю структуру и схему его работы, используя микроскоп и миноискатель? Да сделать это на таком детальном и формализованном уровне, чтобы другая фирма могла изготовить этот процессор, пользуясь вашими описаниями! Вопрос риторический.

Поэтому надо при компьютерном моделировании продолжать использовать всю доступную информацию, включая достижения физиологии и психофизики. И шаг за шагом создавать теорию информационных процессов, протекающих в нашем зрительном аппарате. Результаты, добытые физиологами, должны, с одной стороны, ложиться в аксиоматику этой теории, с другой – служить подтверждением правильности построенной теории. Самым весомым аргументом, подтверждающим правильность и полезность теории, явилось бы прогнозирование новых особенностей процесса или объяснение известных фактов благодаря компьютерному моделированию и экспериментированию. Это могло бы, с одной стороны, подсказать физиологам новое направление поисков, с другой – дать ответы на их вопросы, которые до этого оставались без ответа.

Пример в [11] о якобы «бесполезных» дублях клеток (элементов) показывает, что знание структуры зрительного аппарата и направлений движения импульсов не гарантирует разгадки алгоритма. Например, если не учитывать фактор времени «t». «Дубль» отличается от основного элемента в момент изменения последнего, и этот факт можно зафиксировать и использовать в компьютерной программе. Что и делает наша программа, но из-за нехватки ресурсов при этом не строит огромные многомерные пространства, видимо, как и наш зрительный аппарат (избирательность восприятия).

3. Описание некоторых клонов.

Клоны-антиподы как результат «контрольных посевов».

Проблема компьютерных ресурсов, периферическое зрение

Напоминаем, что, как и раньше, некоторые клоны выращиваются как «контрольные посевы», как «антиподы» других клонов, чтобы выяснить влияние на процесс какого-либо фактора.

Клон: xytk05Ruka 1.0.3 xyt 1.0.3 xyt kino Bmp

t=время

Это xyt-клон "Рука"

Формат клона: 1.0.3

Конфигурация клона: xyt

Версия программы, записавшей клон последний раз: 1.0.3

Конфигурация программы, записавшей клон последний раз: xyt

Bmp-эпизоды:

Сжимается кулак

Разжимается кулак

Берёт палку

Кладёт палку

Берёт молоток

Кладёт молоток

Klon : xytk06StormLisa 1.0.3 xyt 1.0.3 xyt kinoBmp

Это xyt-bmp-клон "Шторм-Лиса"

t=время

Формат клона: 1.0.3

Конфигурация клона: xyt

Версия программы, записавшей клон последний раз: 1.0.3

Конфигурация программы, записавшей клон последний раз: xyt

Ответы клона при предъявлении bmp-эпизодов:

Шторм

Лиса стоит

Морда движ. вперёд

Шторм

Просовывает лапу

Морда движ. вперёд

Шторм

Нос лисы при обучении необязательно находится в центре кадра (64,64).

Кадры эпизода "Лиса стоит" отличаются друг от друга из-за дрожания камеры.

Но лиса действительно неподвижна относительно решётки вольеры.

В строках

PICNUM OBRAZKOD READMOD PICFILENAME

249 0 7 "xyt\MordaVpered1.bmp"

251 0 7 "xyt\Storm3.bmp"

OBRAZKOD=0. Это значит, что код образа неизвестен, и соответствующий рисунок при обучении игнорируется.

Тем не менее при распознавании (после обучения) клон выдал правильные ответы.

Подробнее смотри в "aReadmeXYTbmp".

Там же смотри про клона-антипода "Шторм-Решётка".

Клон: xytk07LisaGolova 1.0.3 xyt 1.0.3 xyt kinoBmp

Это xyt-клон "Лиса-Голова"

t=время

Формат клона: 1.0.3

Конфигурация клона: xyt

Версия программы, записавшей клон последний раз: 1.0.3

Конфигурация программы, записавшей клон последний раз: xyt

В эпизоде «Лиса мотает головой» нос Лисы находится примерно в центре кадра (64,64).

В режиме SledView = True можно заметить два важных момента.

1. Нарушена так называемая преемственность кадров. Каждый следующий кадр сильно отличается от предыдущего. Программа всё же кое-чему научилась в этой ситуации. Вспомним, что вращающийся винт самолёта мы обычно воспринимаем как круг.

2. Вычисление контуров лисы, видимо, было бы более успешным, если бы варианты "цветоделения", одинаковые для всех рисунков, вне зависимости от их содержания, дополнялись бы ещё несколькими дополнительными вариантами, оцениваемыми по конечным результатам распознавания, а не по косвенным критериям.

Эти дополнительные варианты могут быть связаны с тем, какие цвета (диапазоны) мы будем считать основными, а какие - фоновыми (вспомним тигров и леопардов). В нашем случае «фоном» явилась бы решетка, хотя она расположена перед лисой, а не позади неё. Пути модификации алгоритма вычисления контуров (граничных точек) при этом просматриваются довольно ясно.

Желательно было бы каждый вариант привязывать к осматриваемому сегменту, предположительно содержащему определённый образ. Это, разумеется, потребует значительных компьютерных ресурсов. Заметим, что теоретически вариантов такого избирательного подхода может быть очень много, в зависимости от разнообразия цветовой гаммы, а также сложности и «богатства» содержания самого рисунка (видео).

Рассмотрим такой пример.

Допустим, мы наблюдаем салют (фейерверк) из одной ракеты.

Естественно предположить, что наш взор будет следовать за ракетой, отслеживать её траекторию. И программа должна настраиваться на то, чтобы строить контуры яркого цветного образа и отслеживать траекторию её перемещения на фоне тёмного неба.

А теперь представим себе, что это не салют, а осветительная ракета, и наша задача – найти на земле на линии фронта замаскировавшегося или ползущего вражеского лазутчика. Ясно, что наш взор будет обращён на «тёмную» землю, и основные цвета и яркость лазутчика и фона для вычисления контуров надо искать совсем в других диапазонах.

Сейчас при каждом текущем режиме «периферического зрения» для вычисления контуров программа выбирает единственный вариант для всего bmp-рисунка, не всегда дающий самый «богатый» и подробный контурный рисунок, чтобы не увеличивать до бесконечности время обучения и распознавания.

Если же весь цикл настройки, вычисления контуров и распознавания проводить постоянно только в небольшом сегменте в окрестностях точки, на которую в данный момент направлен наш взор, то время на один цикл может существенно сократиться. Правда, количество самих циклов увеличится.

Природа, видимо, пошла именно по этому пути, решив при этом проблему быстрого вычисления контуров. Это и позволяет быстро определять правильные диапазоны основных и фоновых цветов для интересующего нас образа и соответственно на них настроиться для окончательного распознавания. Периферическое зрение при этом берёт на себя задачу упрощённого предварительного распознавания.

То, что наш зрительный аппарат не занимается постоянным «тотальным» интегральным распознаванием, учитывающим все теоретически возможные сочетания параметров, начальных точек осмотра и алгоритмов, доказывает наличие центральной ямки в сетчатке. В каждый момент времени на эту ямку, имеющую максимальную разрешающую способность, проецируется лишь небольшая область изображения.

Для иллюстрации важности сказанного выше приведём aReadme другого клона (антипода), полностью «игнорирующего» лису на тех же видео, и якобы интересующегося «конструкцией» решётки.

Клон: xytk08StormReshetka 1.0.3 xyt 1.0.3 xyt kinoBmp

Это xyt-клон "Шторм-Решётка"

t=время

Формат клона: 1.0.3

Конфигурация клона: xyt

Версия программы, записавшей клон последний раз: 1.0.3

Конфигурация программы, записавшей клон последний раз: xyt

Клон вырастил Хабибуллин Тавис Габдулхаевич

Клон использует те же bmp-эпизоды (файлы), что и клоны

xytK06StormLisa и

xytK07LisaGolova.

Те же рисунки (bmp-эпизоды), с которыми работали эти клоны, для обучения данного клона xytk08StormReshetka интерпретируются и группируются совсем по-другому:

PICNUM OBRAZKOD READMOD PICFILENAME

250 141 7 "xyt\MordaVpered2.bmp" повтор для Шторм-Решётка

260 141 7 "xyt\LisaRstoit.bmp" повторы для Ш-Решётка

261 141 7 "xyt\LisaRmotGol.bmp" Ш-Решётка

262 0 7 "xyt\MordaVpered1.bmp" Ш-Решётка

263 141 7 "xyt\Lapa.bmp" Ш-Решётка

264 141 7 "xyt\MordaVper1Z.bmp" Ш-Решётка,

где

OBRAZKOD OBRAZNAME

141 Решётка

Данный клон, в отличие от клона "Шторм-Лиса, "интересуется" не лисами, а решётками (включая этап обучения). В обоих случаях для простоты строятся одни и те же контурные рисунки, не привязанные ни к лисам, ни к решёткам. Хотя теоретически такая привязка возможна, т.к. уже сейчас используется понятие (и сегмент) так называемой «предполагаемой локализации ещё до конца нераспознанных объектов». Подробнее смотри в aReadmeXYTbmp, aReadmeParametr (RisAvtoParMod=true) .

При обучении удалось обойтись режимами периферического зрения

PerifRISxy32 = True

PerifRISxy64 = True

PerifRISxy128 = False,

без "центрального" зрения.

Примечания.

Кадры эпизода "LisaRstoit.bmp" отличаются друг от друга из-за дрожания камеры.

В строках

PICNUM OBRAZKOD READMOD PICFILENAME

251 0 7 "xyt\Storm3.bmp"

262 0 7 "xyt\MordaVpered1.bmp" Ш-Решётка

OBRAZKOD=0. Это значит, что код образа неизвестен, и соответствующий рисунок при обучении игнорируется.

Тем не менее при распознавании (после обучения) клон выдал правильные ответы.

Сходство образов в разных эпизодах

Интересно, что на начальных этапах обучения на компактных и чётких, качественных видео клоны улавливали сходство, например, прибоя и водопада, шторма и фонтана, прибоя и бегущей лошади.

4. О точках соприкосновения проекта в целом, авторской модели восприятия и программы Habibtg с реальным внешним миром, психофизикой и физиологией

Физиология показала, что процессы возбуждения и торможения являются универсальными механизмами, участвующими при реализации различных сложных логических схем обработки информации. Они легко управляют параллельными процессами. Даже для формирования и образного, и логического мышления природе не понадобилась «последовательная» машина типа современного компьютера.

Из этой универсальности следует, что многие свойства информационных процессов на «микро» и «макро» уровне совпадают.

Например, можно проигнорировать фоторецептор, ганглиозную клетку, а можно проигнорировать и целые образы и объекты.

Действительно, в информатике, в отличие, например, от теоретической механики, ни масса объекта, ни размеры, ни расстояния как таковые не имеют такого большого значения. Скорее имеет значение содержание информации, очерёдность, характер и время её обработки и передачи.

Работы [1], [2], [3], [4] и др. убедили автора, что результатом восприятия объектов любой сложности и размеров, как и познания вообще, является формирование так называемых классов связности, которые включают в себя отдельные разрозненные до того элементы и явления внешнего мира.

Поэтому имеет смысл поискать общие свойства компьютерной программы и зрительного аппарата человека. Скажем, попробовать выяснить, компьютерная программа использует те же информационные элементы, что и наш зрительный аппарат, или нет?

Рассмотрим такой пример. Пусть некая гипотетическая программа распознаёт идеальные печатные буквы путём полного сличения по пикселам изображения с имеющимися эталонами. Ясно, что при этом можно вообще не говорить о явлениях индукции.

Если в таких случаях программа работает правильно и быстро, у нас обычно никаких претензий к программе не возникает.

Если же при незначительных изменениях масштаба изображения, повороте или наклоне программа вообще перестаёт работать, у нас возникает сразу ряд вопросов. Например, наш зрительный аппарат работает с понятием «отрезка» с помощью рецептивных полей соответствующих форм, а программа – нет. Не является ли это следствием того, что при разработке программы вообще не учитывались требования инвариантности к определённым преобразованиям, очевидные с общесистемной точки зрения?

Возможен другой случай. Допустим, программа во всём проявляет внешнее сходство с работой нашего зрительного аппарата, работает правильно, но в некоторых случаях очень медленно. Тогда такое внешнее сходство – дополнительный аргумент в пользу того, чтобы не браковать программу целиком. Возможно, мы имеем дело с объективно существующим в природе информационным процессом, «неподъёмным» для современного «последовательного» процессора. Тогда надо просто изучать и оценивать тот объём информации, который перерабатывает природа и наметить пути решения проблемы в будущем. А на существующем компьютере просто временно и сознательно упростить процесс именно на данном участке программы с минимальной потерей качества распознавания. Такие решения могут оказаться судьбоносными для проекта, так как могут определять направление разработки на десятилетия вперёд или даже вообще спасти проект от краха.

Мы видим, что сравнение поведения программы и зрительного аппарата может быть очень полезным.

4.1 Как создавалась авторская модель восприятия и почему её можно считать правильной?

Когда известно, что работа, связанная с программированием, может занять десятилетия, разработчика-исследователя не может не волновать вопрос о правильности той теоретической модели, на которой будет базироваться разрабатываемая им система. В данном случае это модель восприятия, изложенная в работе [11] «К проблеме узнавания, часть 2 …» и др. Только при правильной общей модели мы можем рассчитывать на успех и экспериментальное подтверждение конкретных результатов в процессе развития проекта.

Поэтому прежде чем перейти к сравнениям на уровне физиологии, следует рассказать, как автор на «макро» - уровне проводил исследования фактического (экспериментального) материала из реального внешнего (осязаемого нашими органами чувств) мира, как решал стоявшие тогда научные проблемы и как строил теоретические модели.

Если бы мы занимались любой другой наукой, такой, как физика или химия, это могло бы показаться ненужным и лишним занятием, так как в науке важен прежде всего результат. Но мы изучаем разные проявления, как бы разные экспериментально измеряемые «срезы» одного и того же информационного процесса, называемого восприятием и мышлением. А творческий процесс сам по себе является предметом нашего внимания.

Теоретически было возможно, что тайны всех трёх «срезов» (музыкальные мелодии, перспективные искажения и распознавание зрительных образов) были бы разгаданы независимо друг от друга и как бы случайно. Фактически же «алгеброй гармонию поверить» не удавалось даже за сотни лет из-за невероятной сложности каждой отдельно стоящей задачи.

К счастью, иногда развитие науки – это более гибкий, целенаправленный и продуктивный процесс, когда череда конкретных наблюдений и открытий приводит к определённым обобщениям, выдвижению новых гипотез, опирающихся на эти обобщения, новым наблюдениям, подтверждению или опровержению этих гипотез и т.д.

Постулаты и методология построения модели, сформированные и подтверждённые на одном «срезе» изучаемого процесса – это хороший задел для обобщения, построения по аналогии модели следующего «среза» и его изучения. При этом с каждым разом растёт доверие не только к постулатам, но и к методологии построения теоретической (и математической, и компьютерной) модели. В этом случае каждая следующая проблема решается уже не с нуля, методом проб и ошибок, что могло растянуться опять на столетия, а решается благодаря удачному обобщению модели и расширению сферы её применения.

Именно таким оказался путь к авторской модели восприятия.

Рассмотрим подробнее эти «срезы», точнее – основные направления работ на этом пути.

4.1.1 Направление 1. Музыкальные мелодии

Разгадка тайны структурной организации мелодии (формы) заняла у автора около десяти лет.

Впервые желание разгадать закономерности в мелодиях у меня возникло, видимо, после нескольких музыкальных диктантов на уроках сольфеджио. В общеобразовательной школе мы только начинали изучать алгебру, поэтому решение задачи представлялось в виде некой «формулы мелодии», которую надо было «вывести».

Когда начали изучать последовательности, единственное, что удалось установить - это то, что хроматическая гамма представляет собой арифметическую прогрессию, так как каждый следующий звук отличается от предыдущего на одну и ту же величину – пол тона.

В своё время дома у нас был патефон, потом – радиола (радиоприёмник-проигрыватель), на которой мы проигрывали одну и ту же пластинку с разными скоростями. Было ясно, что меняются темп и высоты звуков, но мелодия остаётся той же самой.

Полученные знания по физике помогли понять, например, что частота ноты «до» второй октавы ровно в 2 раза больше частоты «до» первой октавы. А принятый в музыке «интервал» в пол тона означает, что частота второго звука равна частоте первого звука, умноженной на корень двенадцатой степени из двух. Так что частоты звуков хроматической гаммы образовывали геометрическую прогрессию.

Позже, когда «проходили» логарифмы, было ясно, что расстояние в музыке в «полутонах» - это логарифмы от отношения частот по основанию «корень двенадцатой степени из двух». Поэтому при прокручивании пластинки на разных скоростях все звуки сдвигаются на одно и то же количество полутонов, а мелодия остаётся той же самой. Это – известная в музыке операция транспонирования.

В школьные годы не удалось разгадать «формулу мелодии». Но в музыкальной школе я успел узнать и запомнить, что мелодия делится на определённые сегменты – вопросы, ответы, фразы, периоды и т.д. И что самые устойчивые и выраженные связи – между первым и последним звуками.

Когда в институте мы изучали системы линейных уравнений, я опять вспомнил про мелодии. Если мелодия начинается и кончается на тонике, это можно записать простым уравнением

X1-Xn=0

где X1 – высота первого звука, Xn – высота последнего звука.

Подумалось, а что, если мелодии описываются не одной какой-то формулой, или последовательностью, а целой системой уравнений?

Подкупала смелость, с которой линейная алгебра оперировала с матрицами коэффициентов любых размеров. Казалось, уж при таком глобальном подходе «не ускользнёт» никакая закономерность, если она только существует.

Идея заключалась в следующем. Допустим, у нас есть некая система уравнений, «описывающая» мелодии, и при подстановке нескольких известных (общепризнанных) мелодий в эту систему они ей удовлетворяют, т.е. являются её решениями. Тогда можно было бы попытаться найти новое решение этой системы, и, прослушав полученную таким образом последовательность звуков, понять, является она мелодией или нет.

При формировании такой системы уравнений надо будет сравнивать не только подряд идущие звуки и первый и последний звук, но и вообще все пары звуков Xi и Xj ( i > j).

Например, если система формируется на основе двух известных мелодий, то уравнение

Xi-Xj=dij

включалось в систему, если величина dij оказывалась одинаковой для обеих мелодий.

Естественно, две исходные мелодии являлись решением полученной таким образом системы по построению.

Через несколько лет у меня появилась возможность выполнить эту работу на ЭВМ и получить, наконец, положительные результаты.

Были получены длинные, до 64 звуков, новые мелодии, не содержавшие музыкальной фальши.

Вероятность случайного построения таких мелодий практически равна нулю.

Программирование и эксперименты заняли около 8 месяцев. В эксперименте использовались две группы из 7 и 11 мелодий соответственно. При этом пришлось косвенно учитывать неоднозначный и статистический характер связей.

Были построены конкретные классы связности.

В ходе экспериментов было открыто явление, названное впоследствии «интерференцией голосов».

Таким образом форма музыкальной мелодии была графически показана в двух разрезах – вдоль оси времени «t» и поперёк, при t=Const.

Так многочисленные попытки почти случайно привели к положительному результату.

Хорошо, что после этого мне захотелось теоретически обосновать этот результат.

Например, чтобы понять, с какими свойствами восприятия связан именно такой вид закономерностей, и единственный ли он возможный?

Тут повезло ещё раз. Ещё в школьные годы мама купила мне только что вышедший четырёхтомник А. Эйнштейна. Я запомнил, как создатель специальной теории относительности использовал инварианты в уравнениях в его знаменитой работе «К электродинамике движущихся тел». Так что методику долго выбирать не пришлось.

Созданная теория и результаты были изложены в работе [2]. Было показано, что использованные мной уравнения можно «вывести» из таких свойств восприятия, как константность, ассоциативность, избыточность, избирательность, забывание. Был также сформулирован так называемый принцип доминанты.

Константность «подсказывала», к каким преобразованиям должны быть инвариантны искомые разделяющие функции и что эти преобразования должны быть связаны со свойствами внешнего (для наших органов чувств) мира.

Ассоциативность – что надо ограничиться несколькими переменными в искомых разделяющих функциях и ориентироваться на целую систему из таких уравнений.

Избыточность, избирательность, забывание «напоминали», что надо уметь работать с множеством запоминаемых связей. Принцип доминанты выступал одним из полезных инструментов при этой работе.

Эти же свойства также проливали свет на механизм формообразования и обучения.

Когда-то я до боли в черепной коробке длительное время думал о том, почему одни соотношения (связи) между звуками считаются допустимыми, или предпочтительными, а другие - нет. Вопрос оставался актуальным, если даже отсеять физиологически неприятные варианты. Рассмотрение формы в динамике, наличие разных национальных музыкальных особенностей, обучающаяся программа (особенно зрительным образам) помогают понять условность и изменчивость этих связей.

Полезным также было осознание того, что вместо термина «система уравнений» лучше использовать термины «формы музыкальных мелодий» или «формы музыкально-мелодического мышления». Термин «форма» допускал, например, неоднозначный характер связей.

Не вдаваясь здесь в детали скажем, что при прослушивании мелодии мы имеем дело с распознаванием образов (формы), растянутым во времени. Поэтому здесь возникают уникальные возможности для изучения процесса распознавания. При желании каждую мелодию можно даже изобразить графически в виде «ступенчатой» функции.

Согласно авторской модели в процессе распознавания происходит состязание, «борьба» классов связности. Наивысшее напряжение (кульминация)- момент решающего выбора классов связности, способных связать воедино разрозненные до того звуки. Разрешение и завершение – окончательный выбор и «укладка» остающихся неохваченными связями звуков в схемы «победивших» (доминантных) классов связности.

Принцип доминанты был обнаружен в процессе компьютерных экспериментов и включён в компьютерную модель как естественный инструмент отсеивания большого количества ничего не значащих (близких к нулю по вероятности) связей. Он выступил также естественным отрицанием разного рода наивных подходов, связанных с использованием «хитроумных» аналитических формул для генерации последовательностей чисел, статистических связей только между соседними звуками по типу «марковских цепей», усреднений нескольких вероятностных исходов и прочих компромиссов.

Действительно, из песни слова не выкинешь, а из мелодии - ноты.

Одними из самых устойчивых оказались, например, связи не между соседними звуками, а между первым и последним звуком мелодии.

Несколько разных экспериментов по «усреднённому» учёту всех «фоновых» связей подтвердили бесперспективность такого подхода.

На самом деле в нашей модели «компромиссы» и «девать-то» некуда – для них просто нет никакого класса связности.

А меняя всего один звук в мелодии мы прежде всего разрушаем классы связности, в которые входит этот звук. Чтобы сохранить какой-то класс связности, мы должны адекватно поменять и другие звуки этого класса. От того, что произойдёт с другими классами связности и можно ли выполнить ещё какие-нибудь изменения для нейтрализации нашего «разрушительного» действия, и зависит результат. Например, так могут получиться вариации основной мелодии.

Для читателей, незнакомых с соответствующими работами автора, поясним, что статистические связи, которые потом трактуются как доминантные, компьютерная модель выращивает самостоятельно на основе группы известных (общепризнанных) мелодий, как бы прослушивая их вместо человека. Потом та же программа использует эти связи для синтеза новых мелодий, чтобы, прослушивая их, человек мог судить о правильности построенной модели, т.е. о том, правильно ли была разгадана тайна структурной организации мелодий.

4.1.2 Направление 2. Перспективные искажения

Случилось так, что сразу несколько лабораторий предложили мне выступить на семинаре, чтобы поискать точки соприкосновения и сотрудничества.

Вскоре мой будущий научный руководитель Вадим Николаевич Семёнов, лаборатория которого занималась автоматизацией архитектурного проектирования, погрузил меня в проблематику перспективных искажений.

"Перспективные искажения" - это искажения, наблюдаемые на перспективных изображениях, являющихся центральной проекцией трёхмерных объектов на плоскость. Изображения могут представлять из себя чертёж, фотографию и т.д. Искажения касаются объектов, проецируемых под большим углом зрения. Однако во многих работах художников, выполненных с той же точки зрения, такие искажения отсутствуют.

Правильно изложить задачу читателю – отдельная проблема. Значительная часть фактического материала, опубликованного настоящими исследователями раньше на «бумажном» носителе, видимо не попала в интернет.

Из имеющихся в сети работ можно порекомендовать [16].

При поиске в сети рекомендуется к ключевым словам «перспективные искажения» добавлять слова «архитектор», «художник», «рисунок».

Большинство же нынешних материалов в интернете касается только фотографий, а суждения обычно либо поверхностны, либо ошибочны. Мы приведём для начала только несколько примеров.

Всем знакомы искажения, когда на фотографии рука, вытянутая к объективу, кажется большой, а голова – маленькой.

Но все мы знаем также знаменитый плакат «Ты записался добровольцем на фронт?», на котором этих искажений нет.

Также обстоит дело с архитектурными композициями. Ближние дома кажутся неестественно большими, отдалённые – маленькими.

Но есть в работах художников и свои сюрпризы. Если мы построим около линии горизонта точки схода отдельно для правой и левой стороны улицы, то получим две разные точки. Т.е. мысленно вдалеке правая сторона улицы «заходит» за левую сторону, и наоборот.

Есть и другие, не менее впечатляющие парадоксы.

Оказалось, что учёные уже сотни лет решают эту задачу.

Парадоксы, которые они собрали за это время, не поддавались объяснению. Применить сходу мою «волшебную» методологию не удавалось.

Говорят, аборигенам в Австралии в своё время показывали фотографии их родных мест, а они не могли понять, что на них изображено. Видимо они смотрели на эти фотографии как на плоский узор.

Получалось, что мы изучаем некий культурно обусловленный информационный процесс, который может отсутствовать даже у некоторых взрослых людей, нормально воспринимающих и распознающих трёхмерную окружающую среду.

Поэтому те инварианты, которые я мог выписать, используя свою методологию для распознавания плоских и объёмных зрительных образов по-отдельности, прямо не относились к данному процессу и не давали готового решения задачи.

В этом процессе мысленная реконструкция трёхмерных объектов производится путём «перемещения» вглубь элементов изображения, воспринимаемых в значительной степени как самостоятельные материальные объекты. А это более сложный процесс, который не сводится к перемещению точек по лучам проецирования в обратном направлении. Например, когда мы мысленно представляем, как будет от нас удаляться трамвай, мы его «переносим» почти параллельно, а не увеличиваем его в пространстве до гигантских размеров только потому, что нам так проще, поскольку не пришлось бы мысленно менять направление лучей от каждой точки трамвая и угловые расстояния между этими точками.

Эта наша способность развилась в процессе обучения. Всякий раз, когда мы наблюдаем реальный удаляющийся трамвай, мы знаем, что размеры трамвая остаются инвариантами, а константность нашего восприятия заключается в том, что мы в нашем сознании поддерживаем постоянными размеры вагона, несмотря на уменьшение угловых расстояний.

Я продолжал думать не только о сути самой проблемы, но и том, как всё-таки применить свою «выстраданную» и с таким трудом выстроенную методологию. С константностью всё вроде прояснялось. Ассоциативность же в моей методологии «подсказывала», что надо забыть про глобальные функции, отображающие все точки под одну гребёнку и заняться отображением маленьких отрезков, т.е. ассоциаций, связей между соседними точками. Цепочка таких связей и должна составить знакомую нам систему уравнений, или соотношений для учёта инвариантов в нашей модели. Пройдя по этой цепочке и решив эти уравнения мы и получили бы точки на картинной плоскости, передающие пространственные соотношения с меньшими искажениями. Именно так наш зрительный аппарат и наш мозг распознают и воссоздают трёхмерные образы в пространстве. Учитывая маленькие размеры отрезков, было ясно, что решение системы уравнений выльется в интегрирование по заданной траектории.

Опишем конкретную идею, которая основывается на локальном свойстве центральной проекции.

Мы воспользуемся тем, что центральная проекция хорошо отображает достаточно удалённые объекты. Конечно, можно было бы отойти достаточно далеко от всех объектов и построить таким образом изображение всей композиции. Но всё дело в том, что нас интересует вид с заранее заданной (обычно более близкой) точки зрения.

Поставим вопрос так. Нельзя ли, отображая маленький участок объекта, отходить от него каждый раз так, чтобы при проектировании сохранить ощущение того, что мы смотрим на этот участок именно с заданной точки зрения (и, естественно, в заданном направлении)?

Для этого достаточно каждый раз отступать на одно и то же расстояние, скажем, «L», вместе с картинной плоскостью по лучу, соединяющему текущую точку композиции и исходную заданную точку зрения. После этого можно соединить лучом близкую соседнюю точку с текущей точкой зрения и таким образом отобразить эту соседнюю точку на картинную плоскость. Так можно получить проекцию маленького отрезка - «приращения», дифференциала - например, некой пространственной контурной линии на картинную плоскость. Так выписывается дифференциальное соотношение.

На следующем этапе бывшая «соседняя» точка композиции становится «текущей». Картинная плоскость сдвигается так, чтобы луч, соединяющий новую текущую точку и её проекцию, проходил через заданную точку зрения, и всё повторяется. Так путём интегрирования можно отображать любые пространственные линии.

Заметьте, мы впервые здесь говорим не об отображении отдельной точки, однозначно связанном с идущим от неё лучом, а именно об отображении маленького отрезка с целью максимально достоверной передачи его пространственных инвариантов.

В тот день, когда пришла эта идея, я долго не мог заснуть.

В полной темноте как-то особенно легко себе представил, как я интегрирую отрезки и строю проекции на картинной плоскости. Близкие и дальние дома у меня получаются нормальных размеров, одна сторона улицы у меня «спокойно» заходит за другую сторону. Я даже представил, что я меняю контуры интегрирования и получаю другой вариант плоского изображения, также без искажений и также отличающийся от центральной проекции. Парадокс, который убивал наповал многих сторонников самых хитроумных, но всё же однозначных преобразований, был разгадан (объяснён).

Я пытался понять, действительно ли я смогу сохранить видимость всех элементов композиции именно с заданной точки.

Прокручивая в голове вновь и вновь разные ситуации, я уже жил в придуманном мной мире, правда, не зная, туда ли я попал, и таким ли он окажется на самом деле.

Наконец я устал и начал засыпать с чувством человека, сделавшего открытие, хотя задача ещё не была решена. Оставались без ответа важные вопросы.

Последней моей мыслью было: «Если бы я мог доказать хотя бы за год, или даже за десять лет, что прямая переходит в прямую, это была бы большая удача».

Утром я, не одеваясь, подошёл к столу и за один «заход» доказал, что прямая переходит в прямую. Я даже не помню, успел ли я присесть на стул, хотя никогда не любил писать стоя.

Потом были доказаны и остальные свойства.

Так благодаря уже имеющейся методологии проблему удалось решить примерно за 1 год вместо «положенных» 100.

Эйфелева и Останкинская башня

Читателям, считающим, что реконструкция трёхмерной картины по фотографии сводится только к обратному процессу перемещения образа с соблюдением хода лучей проецирования и угловых расстояний, предлагаем провести следующий эксперимент.

Допустим, у вас есть фотография Останкинской или Эйфелевой башни, сделанной фотографом, стоящим на земле. Если вы повесите фотографию на стену на уровне ваших глаз, у вас будет ощущение, что вы смотрите на башню снизу вверх. Если теперь вы поставите фотографию на пол, вам не будет казаться, что вы смотрите на башню сверху вниз, с высоты самолёта, летящего выше башни, или что сама башня находится ниже плинтуса. Вы всё равно мысленно помещаете себя у подножия башни, а башню – выше себя.

Таким образом, при реконструкции трёхмерной композиции по рисунку мы подсознательно пользуемся преобразованиями «перемещения», более близкими к параллельному переносу, чем «центральная проекция наоборот», а направление переноса может не иметь ничего общего с точкой, с которой мы рассматриваем рисунок.

Доминанты

В авторской модели доминанты определяются через выбранные контуры интегрирования, передающие инвариантные соотношения. Это обычно не совпадает с разными схемами предварительного отображения на сферу или цилиндр с последующим развёртыванием, усреднения искажений и компромиссами типа соблюдения угловых расстояний при проецировании. Более того, одна и та же точка трёхмерного пространства в авторской модели может проецироваться на разные точки экрана в зависимости от выбранных контуров интегрирования. Как и у художников, все варианты при этом могут отличаться от центральной проекции.

Художники-натуралисты идут ещё дальше. Они добиваются совпадения впечатления от нарисованной картины не с математической трёхмерной моделью реальных объектов, а с «кажущейся» моделью, которая возникает у человека, наблюдающего реальные объекты с заданной точки. Например, если художник рисует площадь с отношением ширины к длине, равным 1:2,5 , а ему кажется, что это соотношение равно 1:2 , то он рисует так, чтобы у людей, смотрящих на его картину, также создавалось впечатление, что площадь имеет соотношение сторон 1:2. Понятие «кажущаяся модель» в своё время было введено и обосновано специалистами.

На вопрос, почему они рисуют, отступая от центральной проекции, художники обычно отвечают: «Я так вижу».

Итак, правильно передавая доминантные соотношения, мы обеспечиваем более правильное восприятие и трёхмерную реконструкцию объекта по изображению, несмотря на некоторые искажения второстепенных соотношений. «Закрывать глаза» (не обращать внимания) на искажённые второстепенные соотношения нам помогает принцип доминанты, который физиологи открыли на своём уровне ещё раньше. Приведём цитаты из [14].

Принцип доминанты в физиологии

Начало цитирования [14].

14. Бабский Евгений Васильевич, Зубков Анатолий Анатолиевич,

Косицкий Григорий Иванович, Ходоров Борис Израилевич

Физиология человека

Издательство «Медицина», Москва . 1966

Отрывки из [14], начало:

См. разделы

13. Общая физиология центральной нервной системы

Координация рефлекторных процессов

…

Принцип общего коечного пути

…

Принцип доминанты

...

Стр. 436 в [14]:

«… Принцип доминанты был сформулирован А. А. Ухтомским как основной принцип работы нервных центров. Согласно ему, для деятельности нервной системы как единого целого в естественных условиях существования организма характерно наличие доминантных, т.е. господствующих, очагов возбуждения, изменяющих и как бы подчиняющих себе работу всех других нервных центров.

…

Доминантный очаг возбуждения характеризуется согласно данным А. А. Ухтомского следующими основными свойствами: 1) Повышенной возбудимостью; 2) стойкостью возбуждения; 3) способностью к суммированию возбуждений; 4) инерцией, т.е. способностью к длительному удержанию возбуждения после окончания стимула.

Возникающее доминантное возбуждение в каком-либо центре всегда сопровождается более или менее выраженным сопряжённым торможением других нервных центров.

…

Открытие явлений доминанты показало условность существования в классической физиологии представлений о рефлекторных дугах как об изолированных друг от друга путях проведения нервных импульсов и о стабильности координационных отношений между нервными центрами.

В настоящее время можно считать доказанным, что благодаря бесчисленным контактам между нейронами и существованию системы промежуточных контактных нейронов вся нервная система в любой момент её деятельности работает как единое целое. Координационные отношения между центрами могут изменяться под влиянием поступающих в нервные центры афферентных импульсов.

…

Конец цитирования [14].

Ниже мы ещё вернёмся к контурным линиям распознаваемых объектов. Физиологи и психофизики показали, что граничные точки и линии с одной стороны и внутренние однородные области с другой стороны распознаются разными механизмами нашего зрительного аппарата. Реконструкция трёхмерных образов, видимо, опирается на работу этих механизмов. Поэтому процесс интегрирования по контуру видимо отражает объективно существующий информационный процесс в нашем зрительном аппарате.

На макро уровне контурные линии и графы опять образуют знакомые нам классы связности, необходимые для узнавания и реконструкции.

История с музыкальными мелодиями повторилась.

Обширный эмпирический материал, созданный художниками и собранный исследователями, помог построить правильную модель и «прикоснуться» к процессу восприятия с элементами образного пространственного мышления. Занимаясь отдельно распознаванием только плоских или только объёмных образов мы вряд ли бы имели такую возможность.

Кстати, не следует думать, что трёхмерную картину на улице мы воссоздаём в нашем сознании только за счёт бинокулярного зрения.

Когда мы вдеваем нитку в иголку, это действительно так. В пределах вытянутой руки мы можем дополнительно пользоваться ещё и тактильной информацией. Но на больших расстояниях мы двумя глазами видим лучше, чем одним, не за счёт объёмности восприятия, а просто за счёт того, что от каждой точки реального мира свет попадает на большее количество фоторецепторов. Сверхточное измерение трёхмерных координат разных точек объектов в этом случае не нужно нашему зрительному аппарату. Так же, как и при чтении «плоского» текста в книге, один глаз просто помогает другому видеть чётче, а не «глубже».

Достижения первого и второго направления позволили расширить понятие подобия фигур «по Евклиду». В модель распознавания были введены важнейшие инварианты «Альфа» и «Бета», включающие в себя не три, а четыре точки. Эти инварианты могут работать не только с трёхмерными объектами, но и с их проекциями, а также просто с плоскими фигурами. При этом программа HabibTG при обучении и распознавании легко обобщала фигуры, цифры и буквы, которые никак не были подобны «по Евклиду».

Как то я читал, что один учёный считал процесс восприятия и воссоздания окружающего мира в нашем сознании самым сложным явлением, с которым когда-либо сталкивалась наука, или самым сложным процессом, который создала природа. Жаль, что не помню ни источника, ни автора, ни точной цитаты.

В завершение рассмотрения первого и второго направления приведём здесь предисловие к работе [3], в котором в общих чертах изложены итоговые результаты.

Начало цитирования [3].

[3]. «Машинная музыка (мелодии) от БЭСМ-4»

HabibtgMuzBESM4 - программа, которая демонстрирует (проигрывает) 4 мелодии, сочинённые электронно-вычислительной машиной (компьютером) БЭСМ-4 в 1972 году.

Версия 1.0.0

Автор программы: Хабибуллин Тавис Габдулхаевич

Автор программы для БЭСМ-4 и мелодий: Хабибуллин Тавис Габдулхаевич

Нотная запись мелодий находится в файлах HabibTGNota1.bmp и HabibTGNota2.bmp .

Место первого публичного исполнения мелодий:

XIX научная конференция МФТИ

Московский физико-технический

институт

XIX научная конференция

Москва 1973

Секция искусственного интеллекта

Хабибуллин Тавис Габдулхаевич

Доклад

"Исследование форм музыкально-мелодического мышления с помощью ЭВМ (компьютера)"

Кроме того, мелодии исполнялись, например, на семинаре в Институте проблем управления.

Разработанная математическая модель и алгоритмы могут использоваться и для исследования и "освоения" компьютером форм полифонического мышления, сочинения многоголосных мелодий или "достраивания", например, второго и третьего голоса к заданной мелодии.

"Аранжировка" аккордами, "гармонизация" мелодии могут рассматриваться как частный случай.

В файлах ZaripovRecenzia1.bmp и ZaripovRecenzia2.bmp содержится рецензия Зарипова Рудольфа Хафизовича на работу Хабибуллина Тависа Габдулхаевича "К проблеме узнавания".

Зарипов Рудольф Хафизович - автор знаменитой, известной во всём мире, монографии "Кибернетика и музыка" (Издательство "Наука", Москва 1971).

Открытия, сделанные в ходе исследования форм мелодического мышления, помогли решить проблему, связанную с "перспективными искажениями" в центральной проекции, на которую указывали и которую пытались решить учёные разных стран в течение примерно 100 лет, начиная ещё с конца 19 века (уточним: "перспективные искажения" - это искажения, наблюдаемые на перспективных изображениях, являющихся центральной проекцией трёхмерных объектов на плоскость). При этом было объяснено множество парадоксальных фактов, накопленных исследователями за это время. Научный руководитель работы - Семёнов В.Н. На сайте имеется рецензия Ю.И. Короева на эту работу.

В свою очередь такое двойное экспериментальное подтверждение правильности разработанной математической модели восприятия позволило 30-40 лет вести работы по моделированию зрительного восприятия (распознавания образов) и пространственного мышления, не отклоняясь от выбранного курса и не упрощая задачу.

Более подробную информацию о проекте можно найти на сайте

http://tavis4.narod.ru

см, например, "О методе марковских цепей в музыке" (markcep0.html),"Перспективные искажения" в центральной проекции, проект "Зрительные образы" (распознавание образов, искусственный интеллект) и т.д.

Конец цитирования [3].

4.1.3 Направление 3. Распознавание зрительных образов.

Авторская модель восприятия (работа [11]) и программа HabibTG

Модель восприятия [11] была разработана с использованием постулатов и методологии, истинность которых уже не вызывала никаких сомнений.

Классы связности на макро уровне в ней состоят из совокупности элементов a[i].

Программа HabibTG разрабатывается на её основе уже около 40 лет и так и не зашла в тупик. Поскольку программа является конкретизацией и продолжением модели, необходимо привлекать для её развития и проверки и другие области знаний, которые не использовались при разработке модели.

Пуанкаре: атомы-крючки Эпикура. Адамар

Большую пользу можно извлечь из таких работ, как [17], [18] и т.д.

А. Пуанкаре сравнивал работу подсознания с поведением атомов - крючков Эпикура и извинялся: «Я ещё раз прошу у вас извинения: моё сравнение довольно грубо, но я не знаю иного способа сделать понятной мою мысль…».

В программе Habibtg «крючки» – это события a[i]. При обучении программа генерирует их и забраковывает сотнями и тысячами, выращивая таким путём нужные образы.

Напрасно А. Пуанкаре извинялся. На рисунке 10 на странице 21 в [11] элемент a[i] действительно похож на крючок, а одна из основных функций таких элементов – это цепляться друг за друга (вступать в ассоциацию).

Когда учился в ЗМШ МГУ (заочной математической школе), я заметил, что после решения очередной трудной задачи (озарения) и оформления доказательства наступает ставший уже ожидаемым и «предвкушаемым» момент переживания, осмысления решения уже без бумаги и ручки.

Сейчас я объясняю это мысленным «проигрыванием» и «обживанием» нового класса связности, созданного в процессе решения задачи.

Особенности проекта

Преимуществом нашего подхода является то, что с самого начала авторская модель чисто формально описывает (обозначает) все возможные варианты информационных процессов.

Трудности появляются в виде огромных многомерных пространств и большого количества этих самых возможных вариантов.

Но когда мы конкретизируем модель, выдвигая дополнительные гипотезы, мы осознаём, какие варианты мы пока не рассматриваем (отсекаем).

При этом мы стараемся выяснить, такой ли выбор в этой ситуации сделала природа.

Такой подход даёт нам надежду, что мы не будем бесконечно ходить по замкнутому кругу, а сможем поступательно двигаться к цели.

4.1.4 Направление 4. Программа HabibtgKlaster

HabibtgKlaster – другая программа, написанная на основе модели. Она демонстрирует, как можно использовать в программировании то обстоятельство, что наше восприятие и мышление оперируют классами связности.

Это направление было названо автором «Кластерным программированием» по аналогии, например, с «Модульным программированием». Не следует путать с известным «Программированием на кластерах из компьютеров». Слово «Кластер» переводится с английского как «скопление», «совокупность», «группа» и т.д. Здесь больше подходит вариант «гроздь».

Процесс детализации программного кода путём встраивания новых кластеров напоминает процесс получения вариации из основной мелодии.

Заметим, что модульное программирование является частным случаем кластерного программирования.

Если встраивание модуля в программу напоминает встраивание лампочки в электрическую цепь, то встраивание кластера в программу внешне и по последствиям больше похоже на встраивание подсхемы из триодов в радиосхему.

Все преимущества подхода достаточно подробно изложены в первоисточнике.

4.1.5 Клоны, «классы связности» и доминантные очаги возбуждения

«Классы связности» проявились на всех направлениях работ, макро и микро-уровнях, так как они являются следствием ассоциативности – универсального свойства нашего восприятия, образного и логического мышления. При этом языки описания образов, объектов, понятий и связей могут быть разными.

Использованные нами понятия «Система уравнений», «Форма», «Образ», «Отрезки из точек», «Линии», «Контуры», «Графы», «События a[i]», «Клоны», «Кластеры», а также любая теория, наука, учебник геометрии, аксиома, теорема – это всё классы связности.

Мы полагаем, что «доминантный очаг возбуждения» выводит на передний план определённые классы связности и создаёт тем самым соответствующий контекст.

Концепцию клонов можно считать простым и наглядным воплощением принципа доминаты. Действительно, программа HabibTG каждый раз стартует в виде одного конкретного клона. Все остальные клоны для неё не существуют, т.е. как бы находятся вне данного доминантного очага.

Теоретически возможно чисто механическое объединение нескольких готовых клонов в общие файлы. Такое объединение будет состоять из общей начальной части (нулевого клона) и связанными с ней фрагментами – бывшими отдельными клонами. С большой вероятностью такой объединённый клон будет выдавать ошибочные ответы, даже если бывшие клоны только дополняли друг друга и не противоречили друг другу. О клонах-антиподах и говорить не стоит. Но есть простой способ заставить их работать правильно. Допустим, при слиянии мы каждое событие a[i] пометили номером, указывающим на принадлежность к бывшему клону. Таким образом мы ввели дополнительный признак принадлежности к классам связности и бывшим клонам. Теперь, если при работе программы HabibTG мы каждый раз будем игнорировать все события a[i], кроме тех, которые принадлежали какому-то одному бывшему клону, то результат будет точно таким же, как у отдельного бывшего клона. Правильно будут работать даже противоречащие друг другу клоны-антиподы, если они будут оставаться в своих темах.

Так, превращая в доминантный очаг «возбуждения» разные бывшие клоны, мы можем заставить работать систему в совершенно разных контекстах.

Мы, конечно, не являемся чистыми «зубрилками» или простыми аналогами кино- и фотоаппаратов.

Но при всей мощи нашего зрительного и мыслительного аппарата наш прошлый опыт откладывается в нашем сознании всё-таки в довольно фрагментированном виде. В противном случае мы были бы «тяжелодумами», которые каждую новую идею или образ «пропускают» через весь свой багаж знаний и образов.

Другими словами, мы также в некоторой степени «состоим» из клонов, которые могут как дополнять друг друга, так и противоречить друг другу.

Возбуждая доминантные очаги в разных классах связности мы можем ставить, например, задачу «наведения мостов» через границу этих классов и формирования нового класса связности. Это может быть уже чисто мыслительный процесс, без восприятия внешнего мира. Вспомните стандартную постановку задач типа «дано: А, доказать Б». Возможны и другие варианты.

В программе Habibtg принадлежность событий a[i] к какой-либо группе (рангу) можно указывать в переменной bRang[i], которая может принимать 256 разных значений. Например, вершины a[i], построенные в процессе обучения в предыдущие запуски программы, помечаются как bRang[i]=1. Вершины, построенные только что при текущем запуске, помечаются сначала как bRang[i]=0. Если при дальнейших проверках a[i] выдержат отбор, то их помечают как bRang[i]=1. В конце работы программы обучения все вершины a[i] с bRang[i]=0 и примыкающие к ним связи удаляются. Таким образом, все вершины a[i], выжившие на предыдущих этапах, сохраняются автоматически.

Однако иногда бывает нужно удалить из клона несколько образов. Например, если обучение проводилось по не очень удачной схеме или на неудачных примерах. Чтобы не повторять обучение с нуля, была разработана следующая схема.

Сначала с помощью программы NulRang помечаются все вершины как bRang[i]=0. Потом запускается распознавание на полном списке, но без указанных выше образов. При этом все вершины, принявшие участие в распознавании, помечаются как bRang[i]=1.

Затем с помощью программы Zabexe удаляются все вершины с bRang[i]=0 и примыкающие к ним связи. В этом случае сеть «прореживается» и навсегда освобождается от неиспользуемых «недоминантных» вершин. При необходимости после этого может быть проведено дополнительное обучение.

Программы NulRang и Zabexe в версиях для пользователей обычно отсутствуют.

4.2 Сведения из физиологии.

О роли дрейфа и тремора в восприятии

Ниже процитируем некоторые фрагменты из первоисточников. Пользователь может брать из них ключевые слова при поиске соответствующих материалов в сети.

Отрывки из [14], начало:

См. разделы

14. Рецепция раздражений.

Зрительная рецепция

Структура и функция отдельных слоёв сетчатки

...

Стр. 486 в [14]:

«… Только лишь в центре сетчатки, в районе центральной ямки, каждая колбочка соединена с одной, так называемой карликовой биполярной клеткой, с которой соединена также всего одна ганглиозная клетка …»

«… Поэтому одна ганглиозная клетка может быть связана с десятками тысяч фоторецепторов.

Кроме центростремительных волокон в глазу найдены и центробежные нервные волокна, несущие импульсы от центральной нервной системы к сетчатке. Считают, что с помощью этих волокон центральная нервная система может изменить проводимость синапсов между нейронами сетчатки и тем самым регулировать количество нейронов, охваченных возбуждением. Второй тип центробежных нервных волокон сетчатки представляет собой сосудодвигательные волокна, с помощью которых центральная нервная система регулирует просвет сосудов сетчатки.

Сложный собственный нервный аппарат сетчатки участвует в анализе и переработке зрительной информации. Сетчатка – не только место расположения фоторецепторов; она одновременно является как бы частью центральной нервной системы, вынесенной на периферию …»

…

Электрические явления в сетчатке и зрительном нерве

…

Стр. 490 в [14]:

«… Если 2 узких луча света – оба допороговой интенсивности - действуют в пределах одного рецептивного поля, то происходит суммация рецепторных потенциалов и в ганглиозной клетке возникает импульсация, регистрируемая в нервном волокне зрительного нерва.

Если же 2 узких луча света – сверхпороговой интенсивности – действуют на разные рецептивные поля, относящиеся к разным ганглиозным клеткам сетчатки, то наблюдаются явления торможения; возбуждение одного рецептивного поля повышает порог раздражения другого рецептивного поля. Таким образом, нейронам сетчатки свойственны те же самые явления (суммация, торможение), которые характерны для нервных центров. Это дало основание считать нейроны сетчатки вынесенной на периферию частью центральной нервной системы...»

…

Конец отрывков из [14].

Ключевые слова для поиска в интернете:

«фоторецепторы, палочки, колбочки, ганглиозная клетка, рецептивное поле, биполярная клетка, горизонтальные (звёздчатые) и амакриновые клетки».

Отрывки из [10], начало:

10. Восприятие. Механизмы и модели.

Издательство «МИР», Москва 1974

Часть 4 Процессы восприятия

…

Р. Притчард. Стабилизированные изображения на сетчатке

Стр. 194:

«… В обычных условиях глаз непрерывно движется. Небольшие непроизвольные движения продолжаются даже вовремя фиксации взглядом неподвижного объекта. В результате изображение объекта на сетчатке непрерывно перемещается. Один род движений глазного яблока приводит к тому, что изображение медленно «сползает» с середины центральной ямки – того участка сетчатки, где колбочки расположены наиболее густо и острота зрения достигает максимума. Это медленное смещение – так называемый «дрейф» - заканчивается быстрым скачком, который возвращает изображение на середину центральной ямки. На дрейф накладывается тремор – дрожательные движения с частотой до 150 циклов в секунду и амплитудой, равной примерно половине диаметра отдельной колбочки (рис. 1 и 2).

Эти три вида непроизвольных движений глаза, очень небольших по сравнению с произвольными движениями, которые мы совершаем, когда осматриваем окружающие предметы или читаем книгу, уже давно известны физиологам…»

…

Конец отрывков из [10].

Процитированные фрагменты подтверждают, что тремор обеспечивает срабатывание фоторецепторов, на которые падает свет с «граничных» точек изображения. Действительно, при таком треморе свет, падающий на «свой» фоторецептор от «внутренней» точки, не меняет ни интенсивности, ни цвета, поэтому такой фоторецептор не должен реагировать на тремор. А вот свет, падающий на «свой» фоторецептор от «граничной» точки, постоянно меняет свою интенсивность и цвет, поэтому такой фоторецептор должен реагировать на тремор. Например, если точка находится на границе между светлой и тёмной областью изображения, а направление дрейфа хотя бы частично совпало с направлением граничной линии между этими областями, то на соответствующий фоторецептор сетчатки будет попадать то яркий, то тусклый свет. Следовательно, механизм тремора может одновременно на всей сетчатке активизировать (выявлять) фоторецепторы, соответствующие «граничным» точкам, и, возможно, целые контурные линии из фоторецепторов, соответствующие, например, краям предметов. Колоссальная производительность достигается без участия «центрального процессора», если не учитывать механизмы предварительной настройки.

Понятно также, почему направление дрейфа меняется. Этим, возможно, обеспечивается «вылавливание» граничных линий разной ориентации (направлений).

4.2.1 Частота и роль (функция, назначение) тремора

Известно, что физиологи открыли фоторецепторы, которые реагируют на изменения цвета и/или интенсивности падающего на них света.

Иногда роль (функцию, назначение) тремора связывают только с тем обстоятельством, что фоторецепторы для поддержания своей активности (импульсации) требуют изменения состава падающего на них света.

Но здесь нас интересует не только само явление «исчезновения» изображения через несколько секунд после «стабилизации» изображения на сетчатке, которому посвящена работа цитируемого автора.

Возникает вопрос, почему для «борьбы» с исчезновением изображения природе не хватило частоты в несколько колебаний в минуту, и, тем более, частоты «дрейфа» - несколько колебаний в секунду?

Ведь речь идёт о 150 колебаниях в секунду.

Приведём такой пример.

Допустим, перед нами изображение достаточно большого белого круга на чёрном фоне и мы смотрим в центр круга несколько секунд. Получается, что при этом фоторецепторы, на которые падает свет от внутренней области круга, не испытывают никаких изменений падающего света. Однако наше зрительное впечатление о цвете и яркости внутренней области круга не ослабевает из-за такой «квази-стабилизации». Это ещё раз подводит нас к мысли о том, что сформировавшаяся в ходе эволюции частота тремора связана, скорее всего, не столько с задачей поддержания работы фоторецепторов вообще, сколько с задачей быстрого определения (и активации) фоторецепторов, соответствующих граничным точкам.

К чему может приводить неумение распознавать неподвижные объекты, связанное, в том числе, с неумением «вычислять» их контуры, показывает пример со змеёй и лягушкой.

4.2.2 Амплитуда и роль тремора

Тот факт, что амплитуда тремора равна примерно половине диаметра отдельной колбочки означает, что граничные точки (и контурные линии) определяются с максимально возможной точностью (до одного фоторецептора). А известно, что в центральной ямке, например, в рецептивное поле ганглиозной клетки может входить единственный фоторецептор.

Такое невероятное «совпадение» говорит о том, что пространственно-временные характеристики тремора природа «подогнала» именно под проблему «вычисления» (определения) граничных точек и контурных линий. Эти характеристики в данном случае вряд ли определяются другими факторами (например, ограничениями, налагаемыми самими механизмами реализации).

Кроме того, это говорит о том, насколько важными являются сами «квантованные» «идеальные» и «отфильтрованные» граничные точки для распознавания формы объектов. Если говорить только о центростремительной фазе, то дрожащая сетчатка напоминает сито, пропускающее только граничные точки и контурные линии.

Сравните, в каком случае нам легче отыскать в интернете какую-нибудь фотографию - когда она имеет название и снабжена вербальным текстом, или не имеет ни названия, ни каких-либо комментариев, а перед нами только 256 оттенков серого?

Поэтому совершенно правильно в нашем проекте было уделено первостепенное внимание подробным исследованиям процессов распознавания на маленьких контурных рисунках. Видимо, это именно те процессы, которые связаны с центральной ямкой.

4.2.3 Колебания тремора перпендикулярны направлениям дрейфа

Возникает вопрос: почему колебания тремора перпендикулярны направлениям дрейфа? Ведь они могли бы быть, например, и параллельными направлению дрейфа?

Получается следующая картина. Каждая «граничная» линия на изображении, лежащая в данный момент перпендикулярно направлению дрейфа, возбуждает соответствующую ей «линию» из фоторецепторов на сетчатке только один раз. В следующий момент возбуждается параллельная «линия» из других рядом лежащих фоторецепторов и т.д., пока не закончится дрейф.

С тремором картина другая. Каждая «граничная» линия на изображении, лежащая в данный момент параллельно направлению дрейфа, возбуждает соответствующую ей «линию» из фоторецепторов на сетчатке многократно, опять же, пока не закончится дрейф.

Разумеется, в обоих случаях каждый фоторецептор реагирует в соответствии со своей «on», «off» или «on-off» характеристикой.

«Изолированные граничные точки», «попадающие» всего на один фоторецептор, воздействуют на него как через дрейф, так и через тремор.

4.2.4 Гора идёт к Магомету (мозг идёт к сетчатке)

Во всех предыдущих версиях программы Habibtg был выключен без объяснения причин так называемый "Зрительный канал" "3 PixelMini".

Чтобы напомнить, о чём идёт речь, приведём соответствующие отрывки из общей инструкции aReadme:

…

Использование опции "Зрительный канал"

Данная опция определяет путь поступления и, частично, способ обработки информации. Название опции на форме отсутствует.

Имеются следующие каналы:

"1 NomeraRisunkov"

"2 PixelTxt"

"3 PixelMini"

"4 PixelMaxi"

"5 MaxiKontur"

…

"3 PixelMini" в данной версии выключен.

…

Конец отрывков.

Теперь пришло время объяснить, почему этот зрительный канал для пользователя был выключен.

"Зрительный канал" "3 PixelMini" был создан практически с теми же маленькими размерами, что и "2 PixelTxt". В отличие от последнего он предполагает, что картинка в графическом окошке является не контурным, а обычным рисунком, контуры которого ещё предстоит вычислить.

Изменения были сделаны следующие. При определении статуса точки (граничная или внутренняя, или «чёрная» – «нечёрная», см. [11]) использовалось не абсолютное значение цвета пиксела, а результат его сравнения с соседними точками. В [11] это называется вычислением «градиента g» (gradient).

Вычисленный статус точки не сохраняется «впрок» в отдельной таблице, которая уже использовалась в предыдущих зрительных каналах (в этом случае дальше программа работала бы по отлаженной схеме). При повторных запросах статус точки каждый раз вычисляется заново.

Такой вариант позволяет сэкономить на памяти и отказаться от дополнительной матрицы для граничных точек.

Второе преимущество – в гибкости алгоритма. Теоретически параметры алгоритма можно менять в любой точке в зависимости от складывающейся ситуации. В [11], например, приводится пример с солнечным зайчиком на уже разрисованных цветных обоях. На них, к тому же, ещё что-нибудь может быть написано «от руки».

На такую гибкость зрительного аппарата может указывать, например, явление торможения (возбуждение одного рецептивного поля повышает порог раздражения другого рецептивного поля), изменчивость размеров рецептивных полей и т.д.

Однако при работе с каналом "3 PixelMini" случилось то, чего автор не ожидал. Время работы программы увеличилось катастрофически. При чём на изображениях одной и той же сложности время распознавания увеличивалось тем сильнее, чем большему количеству разных объектов был обучен клон (полагаю, до определённого предела).

Оказалось, что в среднем вычислять статус каждого пиксела приходится в несколько раз больше, чем раньше.

Поэтому, чтобы не раздражать пользователя, этот зрительный канал пришлось выключить.

Взамен был разработан канал "4 PixelMaxi". В нём граничные точки вычисляются заранее всего один раз в достаточно большом сегменте по общему фиксированному алгоритму и заносятся в отдельную матрицу для контурных рисунков. Дальше программа многократно использует эту готовую матрицу. Время работы программы резко сократилось.

Интересно сравнить это с тем, как природа отреагировала на эту проблему.

Мы уже видели, что проблему быстрого «вычисления» и «хранения» граничных точек наш зрительный аппарат решил кардинально, в том числе с помощью дрейфа, тремора, и специальных фоторецепторов.

Разнообразие рецептивных полей, видимо, в определённой степени делает возможным распараллеливание процесса, особенно на начальных этапах.

Но это не всё. Вспомним цитату

«… Сетчатка – не только место расположения фоторецепторов; она одновременно является как бы частью центральной нервной системы, вынесенной на периферию …».

Таким приближением мозга к сетчатке природа решает сразу две задачи.

Во-первых, примерно в 100 - 130 раз сокращает количество нервных волокон, идущих от сетчатки к «дальнему» мозгу.

Во-вторых, значительно сокращает время обработки основного объёма зрительной информации, имеющейся на сетчатке.

Это особенно очевидно для случаев, когда за центростремительными импульсами (от сетчатки к «обрабатывающим центрам») следуют центробежные импульсы (от «обрабатывающих центров» к сетчатке), и так, возможно, несколько раз.

Чем ближе «обрабатывающий центр» к фоторецепторам, тем короче «рефлекторная дуга», заканчивающаяся в той же сетчатке, тем быстрее работает «цикл» обработки информации (итерация). В данном случае можно сказать, что гора идёт к Магомету (мозг идёт к сетчатке). Это можно сравнить с быстрыми операциями типа регистр-регистр в современных процессорах, которые не обращаются к ячейкам основной (более медленной) памяти. Наибольший эффект при этом достигается в циклических операциях с большим количеством шагов (цикла).

С проблемой нехватки ресурсов автор столкнулся и при решении следующей задачи - «вычислении» так называемых «однородных» областей, пятен, являющихся антиподами контурных линий (см. ниже).

Похоже, и в этом случае природа навалилась на решение проблемы с помощью элементов самой сетчатки, используя, например, огромное количество «горизонтальных» связей.

4.3 Построение простейшей модели внешнего мира.

«Внутренние» и «граничные» точки, однородные области и граничные (контурные) линии

Используемые здесь понятия «внутренней» и «граничной» точки имеют и математические определения. Смотри, например, «топология», «метрические пространства» и т.д.

Эти термины использованы в работе [11]. Там же приведён чертёж.

Построение модели внешнего мира предполагает, что мы не должны ограничиваться простым выявлением разных инвариантов, позволяющих нам отличать друг от друга разные образы. Мы должны отдавать себе отчёт в том, что объекты внешнего мира, стоящие за этими образами, обладают определённым самостоятельным поведением. Например, стоять на месте или двигаться. Может изменяться их освещённость и т.д. Модель объекта позволяет «разбивать» его на более простые элементы, «сокращённо» описывать обширную информацию, порождаемую объектом на сетчатке. Это позволяет отсылать её в мозг для использования в дальнейших ассоциациях.

В то же время модель позволяет хотя бы приблизительно воспроизводить прежнее изображение объекта и лучше прогнозировать, как будут вести себя в будущем выявленные ранее элементы объекта. Это позволяет, например, не распознавать весь объект заново в новом кадре (или в следующий момент времени), а работать в режиме уточнения слегка изменившихся координат элементов. Это резко сокращает время «распознавания нового кадра», используя те самые центробежные потоки информации.

В работе [11] такая теоретическая возможность упоминалась при рассмотрении бинокулярного зрения. В нашей программе некоторая экономия достигается за счёт ограничения сегментов, в котором распознаются объекты, предварительно распознанные в предыдущих кадрах.

Распознавание форм движения тем более требует использования информации, связанной с предыдущими моментами времени, в том числе уже переработанной и учтённой в обрабатывающих центрах.

Модель объекта, полученная из его образа, открывает путь к образному и пространственному мышлению.

В клоне K2SLOVA\FMMRAMU (буквы, слова и фразы в одном задании) и других клонах, связанных с квазибегущей строкой, x-координаты в ячейках уже распознанных элементов образов пересчитывались синхронно с «продёргиванием» ленты. Это позволило успешно использовать начальную часть слова, уже покинувшую экран, для продолжения распознавания всего слова.

4.3.1 «… Контур фигуры типа чёрного диска фактически воспроизводится в нервной системе в виде двух элементов – границы и внутренней части ...»

О том, что как механизмы определения, так и «формы хранения» контуров предметов и их граней (однородных областей) - разные, говорит автор следующей работы (см. [15] «Распознавание образов …», стр.57).

Начало цитирования:

П. Колерс. Статья

«Некоторые психологические аспекты распознавания образов»,

Глава 1, раздел «последовательные перцептивные явления», стр. 57.

«…В нашей статье высказано мнение, что при определённых условиях граница, или контур, фигуры типа чёрного диска фактически воспроизводится в нервной системе в виде двух элементов – границы и внутренней части. Мы полагаем, что изменчивость восприятия, связанная со временем, обусловлена селективным воздействием на эти два элемента…».

Конец цитирования.

В данной версии в нашей программе однородные области используются в привязке к контурным линиям и изолированным точкам. Точнее, однородная область входит в состав события a[i].

Цвет пятна не учитывается. При распознавании большинства обычных образов это создаёт дополнительные сложности. Например, нельзя распознавать картинки для диагностики дальтонизма. Но остаются шансы распознавать некоторым образом замаскированные объекты. Хотелось бы конечно, иметь все варианты.

Ещё одно упрощение связано с тем, что размеры однородных областей установлены минимальными и не зависят от размеров изображения объекта на экране. Это ускоряет работу программы, но при смене масштаба без дополнительного обучения могут возникнуть вопросы. Режимы периферического зрения могут улучшить результаты, так как они уменьшают размеры изображения.

В жизни часто возникают и обратные ситуации. Например, наше периферическое зрение замечает набор однородных пятен в поле нашего зрения и строит временную предварительную модель сцены из таких пятен. После этого мы можем направить взор, на одно из этих пятен, выявить его контуры по принципу, скажем, «зелёный – не зелёный» и выяснить, например, что это лист клёна. По принципу «рыжий – не рыжий» мы сможем, например, вычислить контуры лисы и т.д.

В нашей программе «зафиксированную» однородную область можно «увидеть» следующим образом.

Запустите клон K1Figura с параметрами:

SledView = True

SledConus3 = True

SledClear=True

В качестве входного рисунка в соответствии с инструкцией укажите единственный рисунок «знак равенства» (код 43). Для этого в файле "NomerRis.txt" в начало списка вставьте 2 строки:

После выполнения программы увидите два пятна по бокам верхнего горизонтального отрезка. Эти пятна запоминаются в соответствующих событиях.

4.3.2 «Признаки движения» в «одном кадре сетчатки» -

- то, чего нет в кино-кадрах и наших bmp-кадрах

Рассмотрим такой пример.

Допустим, мы смотрим на чёрный прямоугольник, движущийся на белом фоне слева направо. Тогда правая вертикальная сторона прямоугольника «наезжает» на соседние белые точки. Соответствующие «off»-рецепторы на сетчатке перестают получать свет и возбуждаются.

Левая вертикальная сторона прямоугольника, наоборот, «отъезжает» и «открывает» белые точки. Соответствующие «on»-рецепторы на сетчатке начинают получать свет и то же возбуждаются.

Если теперь наш зрительный аппарат, анализируя состояние сетчатки в этот момент, распознает эти два вертикальных отрезка, а между ними – однородную область пространства из «внутренних» точек (в данном случае - чёрных), то он может сделать предположение, что это некий предмет с краями в виде вертикальных отрезков, который движется именно слева направо.

А в нашей модели (и программе на данный момент) для «вычисления» сработавших «on» и «off»-рецепторов нужно всё-таки иметь не один, а два кадра (градиент «g» вычисляется по оси «t»).

Правда, и в зрительном аппарате человека эти фоторецепторы также «захватывают» в конечном счёте не одно, а два «мгновения» (до и после изменения падающего света). Поэтому фоторецепторы, являющиеся «датчиками движения», одновременно являются обрабатывающими центрами, разместившимися прямо в сетчатке. Они имеют короткую «дугу» и большую скорость реагирования. Известно, например, что лягушка может ловить насекомых налету.

4.4 Что в программе Habibtg напоминает о «последовательной (временной) и пространственной индукции»

Временная индукция очень похожа на пространственную, если процесс рассматривать в пространстве xyt. С точки зрения формальной математики «соседние» точки, подвергаемые торможению, могут быть как из «прошлого», так и из «будущего».

4.4.1 О последовательной (временной) индукции

(последующий сигнал влияет на реакцию на предыдущий сигнал)

В нашей программе похожий эффект наступает по следующим причинам. Образы ищутся в многомерном пространстве, включающем время «t». Но это означает, что реакция наступает на стадии, когда уже совместно обработаны сигналы, поступающие в моменты времени t1, t2, … , tn. В нашей модели ответ выдаёт событие a[i], которое в качестве входных переменных включает не только координаты в момент времени t1, но и в момент t2, t3 и т.д. При этом событие a[i1], которое раньше было «тупиковым» и выдавала ответный сигнал, становится «промежуточным» и передаёт «управление» дальше.

Возможны ситуации, когда событие a[i1] непродолжительное время остаётся тупиковым, но потом «подавляется» наступившим «составным» событием.

Вспомните, как, задавая Regim=5, мы заставляли «Ы» «подавлять» в ответе «Ь» и «|» (хотя это больше относится к пространственной индукции). Буква «Ы» может быть распознана при этом самой последней.

При распознавании слов в квази-бегущей строке распознанные буквы в ответе подавляются распознанным словом.

Кроме того, модель и программа вполне допускают, что при обработке текущего кадра идёт обращение к точкам «предыдущего кадра», если это возможно. Так «задним числом» проверяется гипотеза (событие a[i]), возникшая при обработке текущего кадра.

В программе вообще используются повторные просмотры (с целью экономии на объёме эпизодов и упрощении алгоритма при моделировании периферического зрения).

4.4.2 О пространственной индукции

Так называемая пространственная индукция в нашей программе проявляется следующим образом.

Рассмотрим случай, когда порядок сканирования нарушается из-за наличия второго контурного отрезка вблизи первого.

При последовательной обработке очевидно, что процесс может сильно зависеть от того, какой отрезок попал на «обработку» первым, какой – вторым и т.д. Программа даже может перескакивать от одного объекта к другому, не закончив обработку первого. Чтобы повысить надёжность распознавания, нашей программе даже приходится «бороться» с этим явлением - просматривать каждый сегмент изображения с «разных сторон», задавая параметр Nosmotra=1,2,3,4,5.

Но можно себе наглядно представить вариант пространственной индукции и при частично параллельных процессах.

Если бросить камень в воду, пойдут концентрические круги по воде. Если бросить в воду 2 камня одновременно, и недалеко друг от друга, то картина изменится. Работа клеток сетчатки с горизонтальными связями может претерпеть аналогичные изменения. Возможно, так и формируются так называемые «однородные пятна», о которых мы скажем несколько слов ниже.

Мы как будто выяснили, как эффективно наш зрительный аппарат «вычисляет» граничные точки и линии.

Если при конкретных для данного момента параметрах наш зрительный аппарат в одной области выявил граничные точки и линии, а в соседней области – нет, то эта соседняя область по определению называется однородной.

Поэтому естественно предположить, что приблизительное определение её цвета, размера, формы и местоположения – как на сетчатке в целом, так и относительно «граничных» элементов – это вторая задача, которую надо решить.

Возможно, эта задача во многом также решается сетчаткой самостоятельно, без частого обращения к «дальнему» мозгу, например, с помощью клеток с горизонтальными связями.

Также естественно предположить, что решаться должна и задача увязывания элементов обоих видов за текущий момент времени с элементами за прошлые моменты времени, а также формирование ожидания появления элементов в новых местах в будущие моменты времени.

Работу с более «длинными» связями может взять на себя «дальний» мозг.

4.5 О повторных обращениях к точкам.

Сравнение с шахматами - одну и ту же позицию мы рассматриваем вновь и вновь с разных «сторон» и разных «точек зрения»

Мы считаем, что такое сравнение может быть полезным, так как нет резкой границы между «чистым» восприятием и восприятием с «примесью» мышления. Вспомним также наши рассуждения о сходстве информационных процессов на «макро» и «микро» уровне.

Возможно, точно также требуется постоянное «уточнение» местонахождения однородных областей для каждого конкретного «текущего» рассматриваемого образа – кандидата на подтверждение. Однородные области, выявленные заранее, «впрок», не могут сразу решить все возникающие задачи.

Приведём несколько утрированный пример. Если мы заранее выявили однородную область – пустую верхнюю половину страницы, это никак не избавит нас от необходимости попытаться дополнительно выявить однородную область внутри предполагаемой буквы, чтобы отличить, например, «с» от «е», от «о» и т.д.

На самом деле с необходимостью повторного обращения к одним и тем же точкам автор столкнулся гораздо раньше – в первой же версии программы распознавания. Тогда казалось, что можно сначала выявить все изолированные точки и элементарные отрезки, а потом комбинировать их в разных сочетаниях и построить все возможные образы. Тогда казалось, что это избавит нас от ненужных повторов и избыточных операций. Однако годы экспериментирования убедили, что возникающие при этом комбинаторные задачи трудно разрешимы и вряд ли наш мозг приспособлен для их решения. Когда же «запрет» на повторное обращение к точкам был снят, скорость работы программы резко возросла, и автору показалось, что он «сел на хвост эволюции».

В то же время свойства ассоциативности, избыточности и избирательности восприятия, объявленные в наших постулатах, сохранялись.

При этом более наглядно решилась проблема «полисемии» (см. [11]).

Правда, чтобы не потерять в скорости, пришлось ввести ещё одну матрицу с заранее вычисленными «изолированными» точками. Как теперь выясняется, природа нашла аналогичное решение.

Автор решил написать об этом случае, так как негативный результат – это тоже результат. Ищет не только природа, ищут и разработчики. И если постулаты, положенные в основу математической модели, соответствуют той реальности, в которой ищет природа, положительные (или отрицательные) результаты могут оказаться одинаковыми. Кроме того, через эту ситуацию могли пройти и другие разработчики. Они также могут поделиться своим «эволюционным» опытом, чтобы другим разработчикам не пришлось опять тратить годы на решение этого вопроса.

А вообще-то программистам давно известно, что многократное использование дополнительной памяти часто упрощает алгоритм и сокращает время работы программы. Просто не стоит пытаться сделать это раз и навсегда на все случаи «жизни», так как это может привести к огромным многомерным массивам.

Сравним работу зрительного аппарата и нашей программы с развитием «большой», «макро» - науки, такой как физика, химия и т.д.

Все мы знаем общую схему процесса познания. Выдвигается некая гипотеза, опирающаяся на некоторое количество фактов и наблюдений, которая претендует на то, чтобы стать теорией. Она должна быть внутренне непротиворечивой и соответствовать фактам. Поэтому эта гипотеза должна предсказывать новые качественные или количественные результаты экспериментов, которые, естественно, связаны с повторным обращением к внешнему миру. В случае негативного результата выдвигается новая гипотеза. Так добываются наши знания о внешнем мире. Было бы удивительно, если бы мы могли раз и навсегда зафиксировать все факты, а дальше наука развивалась бы сама по себе, не обращаясь к внешнему миру.

Для нашего зрительного аппарата и нашей программы состояние сетчатки является отражением внешнего мира. Поэтому и добывание знаний о нём может быть вполне аналогичным описанному выше процессу. Выдвижение гипотез может чередоваться с проверкой фактов.

К сказанному можно добавить, что если наша программа хотя бы даже косвенно моделирует работу многочисленных рецептивных полей, то последовательно работающий процессор просто не может обойтись без повторных обращений к «сетчатке».

Многие типы фоторецепторов нельзя трактовать как простой элемент солнечной батареи. Элемент солнечной батареи никак не «страдает» от «стабилизации» падающего на неё света. Кроме того, где вы видели солнечные батареи, которые дают всплеск напряжения, когда на них перестаёт падать солнечный свет? Мы уже не говорим о механизмах торможения соседних элементов.

Следовательно, фоторецептор сетчатки выступает как целое электронное устройство с довольно сложной логикой. Это, видимо, позволяет ряд задач решать «на месте», не отсылая информацию вглубь мозга, и не тратить на это драгоценное время.

Если бы информация попадала в мозг только в «первозданном» виде, как степень освещённости разных точек, то мозгу ничего не оставалось бы делать, как вычислять граничные точки, например, сравнивая каждую точку с её соседями, а их примерно от 6 до 10 штук. Именно так работает наша программа.

То же самое пришлось бы делать для выявления более или менее крупных однородных областей (пятен) из «внутренних» точек.

При этом результаты (полученные контурные лини и пятна) сильно меняются в зависимости от «входных» параметров, настройки диапазонов «цветоделения» и т.д.

Поэтому разработчики не должны расстраиваться, если на эти цели программа расходует много времени центрального процессора. Это естественно. А в будущем, после детального изучения, возможно, удастся распараллелить часть этих процессов. Начиная с подключения дополнительного процессора и кончая новой конструкцией светочувствительных матриц, интегрированных с соответствующими микросхемами. Вспомним появление видеокарт в персональных компьютерах и программы настройки в цифровых фотоаппаратах.

Будут ли при этом использоваться камеры с механическим дрожанием («дрейфом» и «тремором»), нам остаётся только гадать.

Разработчики программ для цифровых фотоаппаратов, думается, имеют наибольший опыт работы в своём «сегменте» проблем, не затрагивающих, например, настройку «по смыслу», которая требует хотя бы предварительного распознавания образов. Их опыт заслуживает особого внимания. Но там всё-таки можно положиться на фотографа и настраиваться, например, по центральной области кадра.

А вот у автономных видеокамер с мощными вычислительными ресурсами гораздо больше резона использовать предварительное распознавание образов уже на этапе настройки. И настройки придётся делать многократно и избирательно для каждого предварительно распознанного образа. А само предварительное распознавание также включает в себя этапы пробных настроек.

Литература. Ссылки. Другие материалы по теме

(находятся также и в отдельном файле aReadmeLiteratura)

Ниже приводятся некоторые работы, касающиеся восприятия и мышления.

Автор работ 1-7 и 11 Хабибуллин Тавис Габдулхаевич.

1. О методе марковских цепей в музыке

2. Исследование форм музыкальных мелодий с помощью ЭВМ / компьютера (К ПРОБЛЕМЕ УЗНАВАНИЯ, ЧАСТЬ 1)

Конфигурация модели восприятия "ht". Здесь h-высота звука, t-время (в первоисточнике используется обозначение «xt»).

3. "Машинная музыка" (мелодии)

HabibTGMuz - программа, которая демонстрирует (проигрывает) 4 мелодии, сочинённые электронно-вычислительной машиной (компьютером) БЭСМ-4 в 1972 году.

4. Построение перспективных изображений с учётом динамики зрительного восприятия

Конфигурация модели восприятия "xyz"

5. Программа HabibtgKlaster.

Эволюционное кластерное программирование, или «Что имел в виду уволившийся программист?»

Конфигурация объекта восприятия "yh".

Здесь по оси «y» отсчитываются строки программного текста, по оси «h» - уровни, на которых располагаются фрагменты программного текста.

6. HabibTG 1.0.2 xyt - обучающаяся программа распознавания зрительных образов, включая формы движения

Конфигурации модели восприятия "xy" и "xyt".

7. Программа HabibtgKompozitor (ХабибТГ Композитор)

http://tavis4.narod.ru

В первой половине семидесятых годов была опубликована следующая работа:

УДК 515

Вадим Николаевич Семёнов, Тавис Габдулхаевич Хабибуллин

«Построение перспективных изображений с учётом динамики зрительного восприятия пространственных инвариантов архитектурных композиций»

Если правильно помню, саратовский политехнический институт, межвузовский научный сборник под редакцией Соломина.

9. Рудольф Хафизович Зарипов

«Кибернетика и музыка»

Издательство «Наука», Москва 1971 год.

10. Восприятие. Механизмы и модели

Издательство «МИР», Москва 1974

11. Хабибуллин Тавис Габдулхаевич

«К проблеме узнавания», Часть 2

«Константность музыкального и зрительного восприятия»

Москва 1973

http://tavis4.narod.ru

12. Хабибуллин Тавис Габдулхаевич

HabibTG 1.0.3xyt - обучающаяся программа распознавания зрительных образов, включая формы движения

http://tavis4.narod.ru

13. Хабибуллин Тавис Габдулхаевич

HabibtgVideoBmp – программа подготовки bmp-эпизодов для обучающейся программы распознавания зрительных образов HabibTG 1.0.3xyt.

http://tavis4.narod.ru

14. Бабский Евгений Васильевич, Зубков Анатолий Анатолиевич, Косицкий Григорий Иванович, Ходоров Борис Израилевич

Физиология человека

Издательство «Медицина», Москва . 1966

15. Распознавание образов

Исследование живых и автоматических распознающих систем

Издательство «Мир», Москва . 1970

16. М.В. Фёдоров

Рисунок и перспектива

Государственное издательство «Искусство», Москва, 1960 г.

17. Анри Пуанкаре

Математическое творчество

18. Жак Адамар

Исследование психологии процесса изобретения в области математики

http://tavis4.narod.ru