Персональный сайт - KonstMuzZrit01 Константность музыкального и зрительного восприятия

KonstMuzZrit01

Константность музыкального и зрительного восприятия

К проблеме узнавания

Часть 2

Автор Хабибуллин Тавис Габдулхаевич

Полный материал в bmp-формате можно скачать здесь:

СКАЧАТЬ http://tavis4.narod.ru/KonstMZV.zip

Ниже приводятся ключевые слова и отрывки из текста

Хабибуллин Тавис Габдулхаевич
К проблеме узнавания Часть 2
Константность музыкального и зрительного восприятия
Москва 1973 http://tavis4.narod.ru

Оглавление
Предисловие
Введение
Несколько постулатов
Ассоциативность
Избирательность
Принцип установления доминирующего возбуждения (принцип доминанты)
Константность
Язык восприятия форм музыкальных мелодий
Язык зрительного восприятия
Инварианты объектов, подобных «по Евклиду»
Инварианты α и β. Понятие «подобия в широком смысле», используемое программой «HabibTG - Распознавание» (HabibtgR)
Избыточность
Забывание
От формы к содержанию и обратно
Восприятие с конкретной целью
Определённость и полезность
К проблеме узнавания
К вопросу «Почему?»
О формообразовании
О компьютерных программах
Иллюстрации
Ссылки. Другие материалы по теме
--------------------------------------------------------------------------------

Предисловие
Данный материал является второй частью работы под общим названием «К проблеме узнавания», на которую имеется на сайте рецензия Зарипова Рудольфа Хафизовича, автора знаменитой монографии «Кибернетика и музыка».
Знакомство с материалом рекомендуется начать с первой части, которая называется "Исследование форм музыкальных мелодий с помощью ЭВМ / компьютера".
Решение проблемы перспективных изображений и искажений изложено в следующем материале:
«Московский физико-технический институт
Хабибуллин Тавис Габдулхаевич
Дипломная работа
Построение перспективных изображений с учётом динамики зрительного восприятия
Научный руководитель Семёнов Вадим Николаевич
Москва 1974»
Эти две работы обеспечили двойное экспериментальное подтверждение правильности авторской модели восприятия.
В конце приводятся ссылки на другие работы.
Для лучшего понимания машинописный текст снабжён автором комментариями и дополнительными примерами. Для удобства чтения эти материалы решено было вставлять непосредственно в текст.
Для простоты изложения иногда используются одни и те же буквы с разным количеством индексов или вовсе без них там, где это не может привести к путанице.

Человеческий разум испытывает меньше трудностей, когда он продвигается вперед, чем тогда, когда он углубляется в самого себя.

Лаплас

К стр. 12
При описании образа важно учитывать не только форму, но и топологию объекта. Поэтому необходимо фиксировать тот факт, являются рассматриваемые нами точки изолированными, или они связаны друг с другом, например, линией из «чёрных» точек.
К стр. 13 r1 r2 r3 r4 ϱ ϱ13 ϱ12 ϱ14 ϱ12
Для трёхмерного пространства введём функцию
ϕ(q1,q2) ,
которая по определению выражает угол между векторами q1 и q2 .
Тогда получим, например, инварианты:
ϱ13/ϱ12 , ϱ14/ϱ12 или
,
– отношения длин векторов,
ϕ(r3-r1, r2-r1), ϕ(r4-r1, r2-r1), ϕ(r4-r1, r3-r1)
– углы между соответствующими векторами.
Здесь r1 соответствует, например, вершине многогранника, а аргументы функций ϕ соответствуют рёбрам, исходящим из этой вершины (“взгляд” с вершины многогранника).
Другой вариант:
ϱ23/ϱ12 , ϱ34/ϱ23 ,
ϕ(r3-r2, r2-r1), ϕ(r4-r3, r3-r2), ϕ(r4-r3, r2-r1) .
Он больше соответствует “взгляду” с точки r1 – одного из концов пространственной ломаной линии r1 => r2 => r3 => r4 .

К стр. 15
«процесс …» (объект, эпизод).
Основное уравнение с разделяющей функцией F , определяющей данный зрительный образ, включая динамические образы и формы движения, напишем в следующей форме:
F( r1, t1, g1, … ri, ti, gi, … rn, tn, gn ) = 0 (1)
Здесь мы делаем допущение, что для адекватного описания (отображения, идентификации) образа достаточно некоего конечного (пусть даже большого) количества точек. Это хорошо согласуется с тем, что известно науке об устройстве нашего зрительного аппарата. Обозначим это количество буквой «n». Предполагается, что большей частью эти точки в некотором смысле являются «существенными» или «важными» для идентификации соответствующих образов. Мы можем учитывать особенности таких точек (ri,ti) , например, специальным образом вычисляя значения показателя gi. Такая точка может быть, например, «граничной».
Приведём примеры.
Пусть рисунки или эпизоды состоят только из белых и чёрных точек, без всяких серых тонов и других цветов. Рисунки и эпизоды задаются тогда некой функцией
Ψ( r, t ) , или Ψ( x, y, z, t ) ,
которая в каждой точке принимает значение либо «0», либо «1».
Разные алгоритмы, определяющие, является данная точка «внутренней» или «граничной», могут немного отличаться, но в основе лежит выяснение того обстоятельства, изменяется значение функции Ψ при переходе от данной точки к соседним, или нет:
от “x” к “x+1” или “x-1”,
от “y” к “y+1” или “y-1”,
от “z” к “z+1” или “z-1”,
от “t” к “t+1” или “t-1”.
Если данная точка “i” граничная, можно, например, присвоить gi=1 , если внутренняя - то gi=0 . Этот признак мы обозначаем буквой “g”, чтобы она напоминала нам слово «Градиент» (gradient). Заметим, что так мы можем «засечь» и неподвижную «мигающую» точку.
Если теперь усложнить пример и предположить, что рисунки закодированы в RGB-формате (красный, зелёный, синий), то вместо одной функции мы получим три:
ΨR(x,y,z,t) , ΨG(x,y,z,t) , ΨB(x,y,z,t) ,
каждая из которых принимает значения, например, от 0 до 255.
В этом случае точку можно считать «граничной», если, например, градиент по абсолютной величине достигает максимума хотя бы у одной из трёх функций ΨR, ΨG, ΨB . Очевидно, возможны и другие варианты.

К стр. 16
Вернёмся к инвариантам. Приведённые ранее величины для неподвижных образов останутся неизменными при любых формах движения, если, например, речь идёт об одних и тех же точках материального объекта постоянной формы и при этом
t1=t2=t3 ,
т.е. все точки находятся как бы в одном «кадре».
Более сложный случай.
ϱ23/(t3-t2)=ϱ12/(t2-t1) ,

ϕ(r3- r2,r2- r1)=0, t3>t2>t1 ,

если, например, это прямолинейное равномерное движение одной и той же материальной точки (по известной формуле r=r0+v*t).
Если после этого мы получим

ϱ23=0 (или r3=r2) и t3=t2+1 или t3>t2 ,

то эта ситуация будет соответствовать моменту внезапной остановки, например, летящей стрелы.
Напоминаем, что для простоты здесь индексы 1,2,3 определяют уже номера координатных ячеек, в которые теоретически могут попасть любые точки с индексами «i» из основного уравнения. Мы также не вводим отдельные буквенные обозначения для рассматриваемых инвариантов.

К стр. 17 и 18
Далее, соотношения
ϕ(r4 - r3, r3 - r2)= ϕ(r3 - r2, r2 - r1) и
t4-t3 = t3-t2 = t2-t1
могут указывать, например, на равномерное движение материальной точки по плавной кривой или вращательное движение соответствующего материального объекта.
Аналогично, будем иметь
ϱ34/(t4-t3) = ϱ23/(t3-t2) + a*(t4-t3) ,
ϱ23/(t3-t2) = ϱ12/(t2-t1) + a*(t3-t2) ,
ϕ(r4 - r3 , r3 - r2)=0 ,
ϕ(r3 - r2 , r2 - r1)=0 , t4>t3>t2>t1 ,
если, например, это прямолинейное равноускоренное движение одной и той же материальной точки ( по известной формуле v = v0 + a*t ).
Если величины a, вычисленные из первого и второго уравнения, совпадут, то, следовательно, имеет место событие, указывающее на равноускоренное движение. Здесь интервалы времени предполагаются достаточно маленькими.
Комбинируя разные простые соотношения (инварианты), можно описать разные формы движения, например, движение по спирали, или ускоренное движение по параболе (траектория и динамика полёта брошенного камня).
Если точки принадлежат разным материальным объектам, могут быть описаны моменты сближения и удаления различных фрагментов объектов (скажем, молота и наковальни), или охвата, например, ручки молотка рукой или манипулятором. По такой же схеме может формироваться образ фонтана, который на самом деле «рисуется» разными каплями воды, перемещающимися в пространстве и во времени.
Таким же образом с помощью системы простых соотношений и некоторых дополнительных параметров можно описать объекты, плавно меняющие во времени свои размеры, форму, цвет, яркость, ориентацию и координаты (в том числе – одновременно). Например, надувающийся или сдувающийся воздушный шар в полёте, клубы поднимающегося дыма, волны на поверхности воды, пламя (огонь), «ускоренный» восход солнца и т.д.

К стр. 18
Поясним, что ещё для этого нужно.
Рассмотренные выше инварианты по определению являются величинами относительными и не отражают абсолютных значений координат, размеров, углов наклона (поворота, ориентации объекта), цвета, яркости и т.д. Поэтому в модель должны быть включены способы учёта и более простой, «первичной» информации. Это могут быть некоторые области (пятна) с конкретными значениями цвета, яркости, показатели координат и ориентации объектов.
Мы можем запомнить, например, жёлтый квадрат на чёрном фоне и отличить его от такого же красного квадрата на синем фоне, жёлтый круг от красного круга, жёлтые листья от зелёных листьев и т.д.
Пятна могут объединяться, например, по цвету или яркости в разные образы (вспомним цветные рисунки для диагностики дальтонизма, обычное чёрно-белое кино или условное «рисование» солнечным зайчиком какой-нибудь простой фигуры на цветных уже разрисованных обоях).
Не забудем и инварианты к изменению освещённости в определённых диапазонах, когда мы сохраняем константность восприятия «раскраски» разноцветных объектов.

Заметим, что описанных инструментов уже достаточно для идентификации, например, проблескового маяка летящего самолёта (с изменяющейся яркостью), праздничного салюта. Также может быть идентифицировано пламя костра, изменяющее яркость, цвет, форму и поведение при порыве ветра.
… фонтан, радуга …
Рассмотрим ещё более сложный пример с фонтаном и радугой. При определённых условиях мы можем наблюдать следующую картину. Если мы стоим достаточно близко к фонтану, мы можем одновременно определять форму капель воды и траектории их движения, а также изменения «цвета» (частоты) света, отражённого и преломлённого каждой каплей.
В то же время, если капель достаточно много и они летят в разные стороны, мы можем видеть подобие неподвижной радуги в масштабе всего фонтана. Каждый светящийся участок такой «радуги» «поддерживается» множеством летящих друг за другом капель, которые обеспечивают проблески конкретного диапазона спектра именно на данном участке пространства.
Несмотря на кажущуюся фантастическую сложность этого примера приведённые нами ранее инварианты и параметры в совокупности вполне способны обеспечить описание и идентификацию (обучение и распознавание) данного динамического образа.
Заметим, что если мы стоим достаточно далеко, а фонтан достаточно высокий, то мы видим самую обычную неподвижную радугу, как на фотографии или в небе после дождя, и никаких капель воды не видим.

К стр. 20
Инварианты α и β.
Понятие подобия «в широком смысле», используемое программой «HabibTG - Распознавание» (HabibtgR)
Выше мы привели довольно большое количество инвариантов, но во многих случаях даже в совокупности они не объясняют феноменальные способности зрительного аппарата человека в области восприятия и распознавания образов.
Объекты внешнего мира обычно редко бывают полностью подобны друг другу «по Евклиду», например, книги разного формата, молотки с разной длиной ручек, коробки (параллелепипеды) с разным соотношением рёбер и т.д.
Приведём пример, изложенный в работе [10] «Восприятие. Механизмы и модели»
Издательство «МИР», Москва 1974 .
Рассматриваются изображения букв A, A, R.
A и R (A - обычная, R - курсив) при наложении имеют больше точек пересечения, чем A и A (A обычная и A - курсив).
Инварианты α и β позволяют относить соответствующие объекты к единому образу (классу). Это относится не только к обычным шрифтам и курсиву, но, например, и к рукописным буквам, написанным с разным наклоном, а в значительной мере и разным почерком.
= = =
Дадим определение инвариантам α и β .
Векторами ri мы обозначаем точки (xi,yi).
Считается, что начало всех векторов ri находится в начале координат (0,0). Поэтому точку с координатами (xi,yi) мы будем называть просто точкой ri .
= = =
Обратимся к рисунку 10.
Допустим, даны 4 точки r1, r2, r3, r4, являющиеся параллельной проекцией на плоскость (x,y) других четырёх точек R1, R2, R3, R4 трёхмерного пространства (x,y,z), также лежащих в одной плоскости (но уже в другой). Например, точки Ri могут лежать на одной грани многогранника.
= = =
Для простоты отрезки (и линии), соединяющие точки, будем обозначать как обычно, например, как riRj, но без традиционных верхних «крышек».
Проведём через точку r4 линию, параллельную линии r2r3 до пересечения с линией r1r2. Точку пересечения обозначим как r5.
Точно также через точку r4 проведём линию, параллельную линии r1r2 до пересечения с линией r2r3. Точку пересечения обозначим как r6.
Обозначим qij == rj – ri

Введём коэффициенты пропорциональности α и β .
q15 = α * q12
q26 = β * q23
Тогда
r4 = r1 + q15 + q26 , или
r4 = r1 + α * q12 + β * q23 , или
x4 = x1 + α * (x2 - x1) + β * (x3 - x2)
y4 = y1 + α * (y2 - y1) + β * (y3 - y2) (2)
Ниже будет доказано, что α и β остаются постоянными, а система уравнений (2) остаётся верной, как бы мы не поворачивали или наклоняли плоскость с точками Ri в трёхмерном пространстве (x,y,z).
Поэтому величины α и β являются инвариантами, соответствующими данным четырём точкам R1, R2, R3, R4 и любым их проекциям r1, r2, r3, r4, исключая вырожденные случаи.
Система уравнений (2) может использоваться двояко. При известных координатах r1, r2, r3, r4 она может использоваться для вычисления α и β .
При известных α , β , r1 , r2 , r3 она может использоваться для вычисления координат точки r4.
Возвращаясь к прежней терминологии, заметим, что в отличие от рассмотренных ранее инвариантов здесь мы пользовались разделяющими функциями, включающими четыре точки:
f( r1, t1, g1, r2, t2, g2, r3, t3, g3, r4, t4, g4 ) = 0 (3)
Инвариантами для данного события могут быть, например, следующие величины:
α , β , g1 , g2 , g3 , g4

Заметим, что α и β меняются от - до + :
α
β

Теперь, когда мы умеем вычислять α, β, точки r5 и r6, поясним, для чего это нам нужно. Для этого построим те же точки r5 и r6 другим путём, используя точки R1, R2, R3, R4 трёхмерного пространства.
Повторим все построения, проведённые выше на плоскости (x,y) с использованием точек r1, r2, r3, r4, на плоскости, на которой лежат точки R1, R2, R3, R4. При этом мы получим новые точки пересечения R5 и R6 по аналогии с r5 и r6, а также новые вычисленные значения αR и βR – аналоги α и β.
Напомним, что при нашем параллельном переносе точки R1, R2, R3, R4 по определению проецируются в точки r1, r2, r3, r4. Куда же проецируются R5 и R6 ?
Отрезок R4R5 по построению параллелен отрезку R2R3. Вспомним, что параллельные линии проецируются в параллельные.
Поэтому проекция отрезка R4R5 пойдёт через точку r4 параллельно r2r3. Согласно построению мы получим ту же точку пересечения r5. Следовательно, R5 проецируется в точку r5.
Можно доказать, что
αR = α
Действительно, согласно обобщённой теореме Фалеса параллельные прямые
r1R1 || r2R2 || r5R5
отсекают на секущих r1r2 и R1R2 пропорциональные отрезки.
Следовательно, αR = α .
Аналогично можно доказать, что βR = β .
Чтобы не загромождать чертёж, мы здесь не рисуем пространственную картину, включающую точки R1, R2, R3, R4, R5, R6. Она идентична нашему чертежу. Для предельного упрощения понимания читатель может себе представить случай, когда проецирующие лучи параллельны оси «Z», то есть точки Ri проецируются перпендикулярно плоскости (X,Y). Тогда координаты (x,y) точек ri и Ri полностью совпадают. В общем случае рассмотренная ситуация относится к разделу математики «Аффинные преобразования. Параллельный перенос».
Используя инварианты α и β, можно ввести понятие «Подобия фигур в широком смысле», которое отличается от обычного понятия «Подобия по Евклиду». А именно, подобными друг другу в широком смысле объявляются все фигуры (треугольники и четырёхугольники), которые имеют одинаковые значения α и β .
Заметим, что у любого треугольника
r4 = r1, α = 0 и β =0.
Поэтому все треугольники подобны друг другу в широком смысле.
У любого параллелограмма
α = 0 и β =1.
Поэтому все параллелограммы подобны друг другу в широком смысле, включая квадрат, прямоугольник и т.д.
Читатель может проделать следующий эксперимент. Направить свет от настольной лампы на стену с расстояния в 2-3 метра. Поместить на пути света близко к стене плоский предмет, имеющий форму параллелограмма, например, тонкую книгу в твёрдой обложке. Поворачивая и наклоняя книгу под разными углами можно получать тень на стене, имеющую форму любого прямоугольника, квадрата или параллелограмма с любыми углами.
Если вместо книги взять треугольник из картона, можно получать тени в виде треугольников с разными углами – прямоугольные, тупоугольные и т.д.
В обоих случаях мы получаем на стене фигуры, подобные друг другу в широком смысле.
Вместо картона можно взять прозрачную пластинку и нарисовать на ней фломастером какую-нибудь букву.
Изображение трёхмерного объекта, попадающего на сетчатку глаза, перевёрнуто, но в остальном ведёт себя примерно так же, как тень на стене. Один-единственный трёхмерный предмет может проецироваться на сетчатку в виде множества вариантов изображений, не являющихся «подобными по Евклиду». Даже движения зрачка по одним и тем же линиям, нанесённым на грань объекта, будут разные. Для того, чтобы идентифицировать всё это множество изображений как образы (проекции) единого прообраза, у нашего зрительного аппарата не остаётся другого пути, как научиться находить и пользоваться соответствующими инвариантами. В данном случае – это α и β.
Эти же самые инварианты помогут ему отличать проекции одного прообраза от проекций другого прообраза.
Здесь мы опираемся на наш постулат о том, что свойства восприятия определяются свойствами внешнего мира.
Обсуждаемые проблемы были известны ещё много десятилетий назад.
Уверенность в существовании и необходимости использования инвариантов α и β появилась после решения проблемы искажений в перспективных изображениях (см. [4], [8]). Напомним, что работа [8] называется «Построение перспективных изображений с учётом динамики зрительного восприятия пространственных инвариантов архитектурных композиций».
Поэтому α и β использовались уже в самых ранних версиях программы распознавания образов «HabibTG-распознавание», начиная с середины 1970-х годов.

Далее. К нашему простейшему чертежу можно мысленно добавить не только ось «Z», как мы только что сделали, но и ось времени «t».
Применяя прежние инварианты, включающие время «t», мы и здесь значительно улучшим качество обучения и распознавания образов, в данном случае – динамических. Напомним, что, например, траектории брошенного камня на экране телевизора или на сетчатке глаза могут представлять из себя параболы с совершенно разными параметрами.
Мы опять будем идти от простого к сложному, но «без ограничения общности».
Допустим, у точек r1, r2, r3, r4 есть не только координаты (xi,yi), но и показатели времени «ti».
Пусть, например, ri - это точки прохождения бильярдного шара по столу.
Тогда, если вводить ось «t», мы должны просто нарисовать 4 плоскости «xy» (или «xyz»), по одной для каждого «ti» и на каждой плоскости разместить по одной точке ri .
В общем случае на каждой плоскости «xy» (или «xyz») должен изображаться рисунок – один кадр, незначительно отличающийся от предыдущего. При этом точки ri могут соответствовать любым точкам четырёхмерного пространства «xyzt» или трёхмерного пространства «xyt», затрагивая в совокупности от одного до четырёх разных моментов времени «t».
Разумеется, природа не строит и не запоминает целиком огромные многомерные пространства, а поступает экономнее. Например, в первую очередь обращает внимание только на изменившиеся точки, объединяя изменения с результатами обработки предыдущего состояния сетчатки, по возможности не обрабатывая заново весь «кадр».
В одной научно-популярной телевизионной программе сообщалось, что физиологам удалось открыть «элементы», которые дублируют содержимое элементов сетчатки без всякого преобразования и поэтому почему-то считаются бесполезными. Но эта информация может быть очень ценной, если допустить, что есть механизм доступа к этой информации и сопоставления её с другой информацией, как настоящей, так и такой же прошлой, но для других элементов сетчатки. Тогда это просто экономный избирательный способ сохранения прошлого состояния элемента сетчатки. «Дубль» должен обновляться только тогда, когда изменился первичный элемент сетчатки.
Этот процесс аналогичен процессу реконструкции нового кадра в цифровом телевидении, когда видео записывается в специальном сжатом формате. Только процесс там идёт в обратном направлении.
Указанный приём используется и в нашей компьютерной системе.
При переходе к модели бинокулярного зрения нам придётся иметь два экземпляра чертежа – для левого и правого глаза соответственно. При этом возникает вопрос, по какому пути идти?
Путь 1. Сначала определять все три координаты (x,y,z) для каждой точки, отслеживать основные элементы (линии, углы, грани и инварианты) прямо в трёхмерном физическом пространстве. Для этого каждой точке на «левом» чертеже надо найти её дублёра на «правом» чертеже, а это не всегда очевидная задача. Не будем забывать, правда, что каждый глаз и в одиночку снабжает нас некоторой информацией о координате «z». Например, при «наведении на резкость».
Путь 2. Сначала распознать некоторые основные элементы через проекции на левый глаз (к примеру), потом – на правый глаз, и по имеющемуся рассогласованию «xy»-координат для наших точек ri вычислить (реконструировать) координаты «z» для всех наших точек. При этом у нас будет гораздо больше уверенности, что «правые» и «левые» точки совместились правильно.
Более того, появляется возможность использовать параметры и координаты ri, найденные первым глазом, для быстрого определения этих же точек вторым глазом. Зона поиска (обработки) при этом минимальна, а алгоритм носит больше уточняющий характер.

Ещё много десятилетий назад существовало множество рисунков, изображающих пути прохождения сигналов от глаза к мозгу и обратно. Во всех этих рисунках изображена мощная перемычка (канал информации), соединяющая каналы от левого и правого глаза ещё на полпути к мозгу. Вся схема напоминает букву «H». Смотри [10]: «Восприятие. Модели и механизмы. Москва 1974 год».
Это указывает, видимо, на то, что наш зрительный аппарат использует оба подхода.

+ К стр. 36
Положим kDij == ξj * ( 1- ξj ), тогда
kUij <= kDij
Если упростить модель, считая, что сеть не является на данном этапе избыточной и отвлечься от стратегий Sk, убрать в Pijk индекс “k” (чистое распознавание), то имеем:
ξi = 1
ξj = ξi * Pij = Pij
Из выражения (4 ) следует:
kUij <= ξj * (1- ξj ) = Pij * (1- Pij )
kUij <= Pij * (1- Pij )
kDij = Pij * (1- Pij )
= = = ==

+ К стр. 38
Конкретно в нашей модели мы можем говорить о следующих общих критериях, на основе которых работает система:
kU – критерий, оценивающий и учитывающий математическое ожидание изменения полезности. Утилитарный, прагматический подход (ориентация). Оценка приблизительная, так как вместо вероятности “P” используется показатель возбуждённости “ξ” .
kD – критерий, направленный на минимизацию неопределённости, призванный вести систему к большей Детерминированности (определённости) при отражении реального объекта (абстрактное любопытство).
kC – критерий, говорящий о том, что существующая сеть и её система Связей неадекватно (неполно или неправильно) отражают реальный объект.
Например, оказалось, что ai имеет место, несмотря на то, что перед проверкой ξi было близко к нулю (ξ’i ~ 0), или, наоборот, при ξ’i ~ 1 событие ai не имело места (удивление, творческая неудовлетворённость, внутренняя противоречивость связей, их отсутствие или несоответствие внешнему миру).
Действуя в соответствии с данным критерием, система запоминает данное событие ai на более длительное время, старается найти и развить правильные существующие связи, создавать новые события и связи с ai , или, наоборот, корректировать неправильные связи.
= = =

К стр. 41
Заметим, что связи «Ведро – Тушить» и «Вода – Тушить» пригодились бы и в ситуации, когда пришлось бы тушить пожар в квартире, набирая в ведро воду из крана:
= = - -
ведро вода костёр тушить
= = - -

К стр. 42
О компьютерных программах
Полагаю, что генетики, например, уже и не надеются, что их очередные научные достижения можно получить и описать «на кончике пера» в виде одной хитроумной аналитической формулы. Точно также многие особенности информационного процесса, называемого «Восприятием и мышлением», трудно просто и доходчиво описать или даже показать само их существование, пользуясь только карандашом и бумагой. Компьютерные программы являются работающей моделью описываемых процессов. Информация, прилагаемая к этим программам, является продолжением изложения модели и экспериментально полученных результатов.
Поэтому читателю следует внимательно относиться, например, к материалам «aReadme», прилагаемым не только к программе в целом, но и к отдельным «клонам». Здесь речь идёт, например, о программах HabibtgMuz, HabibtgKompozitor (ХабибТГ Композитор), HabibtgKlaster и о клонах, выращенных программой «HabibTG xyt - распознавание».
Работающая программа должна рассматриваться как наглядное пособие, помогающее продемонстрировать особенности информационного процесса (алгоритма).
Остаются актуальными и традиционные задачи компьютерного моделирования – исследование, описание и экспериментальное подтверждение.

К стр. 43
Приведём несколько примеров.
Пример 1.
Известно так называемое «двойственное» изображение, которое можно трактовать одновременно и как старуху, и как молодую женщину.

Авторами рисунка считаются психологи Е.Г. Боринг и Р.В. Липер (E.G. Boring, R.W. Leeper, 1930).
По этим данным вы легко можете найти его в интернете.
Интересно было бы разобраться, какие возможности даёт наша модель для решения этой так называемой проблемы полисемии изображений.
Напомним предложение из раздела «Восприятие с конкретной целью»: «… Нельзя сказать, что все события ai независимы или взаимоисключающие …». Это значит, что одновременно могут «загораться» события, обозначающие разные образы. Пользователь программы HabibTG 1.0.2 xyt (смотри [6]) может провести такой эксперимент.
С помощью стандартного графического редактора нарисовать небольшой по размеру прямоугольник с проведённой одной диагональю, «обрезать» изображение и сохранить файл в bmp-формате. Рисовать лучше с помощью шаблонов, чтобы все отрезки получились идеальными.
Затем поместить в рабочую папку клон «Сцена» (Scena), загрузить приготовленный чертёж через кнопку «LoadFile1» и выполнить распознавание в соответствии с инструкциями. В ответе система назовёт и треугольник, и четырёхугольник, что и требовалось. Мы видим, что модель обнаруживает потенциальные способности решать в будущем геометрические задачи.
Пример 2.
Приведём отрывок из общей инструкции «aReadme» к программе «HabibTG 1.0.2 xyt – распознавание» (смотри [6]).
… Начало отрывка.
Regim = 5 применяется, чтобы при распознавании составного образа подсказать программе, что упоминать в ответе "комплектующие" элементы не следует. Например, что, распознав знак равенства
"=", не надо упоминать знак минус "-", распознав букву
"Ы" - упоминать мягкий знак "Ь", вертикальную черту "|" и т.д.
… Конец отрывка.
Здесь идёт речь о поддержке системой отношения «содержит», или «включает в себя» между понятиями (не только между отдельными вариантами образов). Если такие примеры встречаются не в печатном тексте с локализованным знакоместом, а отдельно, «вне контекста», как в клоне «Фигура» (Figura), то решить задачу обучения в общем случае невозможно. Например, «глядя» на забор, система будет отвечать «Доска».
В данной работе мы этих вопросов не касались.
Пример 3. Здесь мы не выписывали общую разделяющую функцию, описывающую явления, имеющие одновременно и звуковые и зрительные составляющие.
В программе HabibtgKompozitor (ХабибТГ Композитор) (смотри [7]) в разделе «О программе Habibtg xyt распознавание» приводится возможный вариант «озвучивания» зрительных эпизодов. При этом мы сохраняем возможность обучения «комбинированным» инвариантам, содержащим звук и зрительные образы. Появляется теоретическая возможность, например, по «шуму дождя» возбудить динамический образ «Дождь идёт», по «шуму двигателя» - образ «Моторный велосипед» и т.д. (смотри соответствующие клоны). Естественно, возможны и обратные ассоциации.
Пример 4. Инварианты слова. Модель слова.
Приведём ещё отрывки из общей инструкции «aReadme» к программе «HabibTG 1.0.2 xyt – распознавание» (смотри [6]).
… Начало отрывка.
Программу не стоит пытаться обучать побуквенному чтению слитного рукописного текста. Программа "учит" слова как единый образ, а не набор букв. Например, рукописные слова "Анна", "анна", "Hat" и "hat" все имеют разные образы.
Поэтому пытаться добиваться надёжного распознавания рукописных слов через их образ с научной точки зрения неправильно.
Человек этим не ограничивается и делает кое-что ещё.
Тем не менее, в программе уже так или иначе реализованы все алгоритмы, необходимые для побуквенного чтения слитного текста. … А вот что правильно с научной точки зрения - так это попытаться научить программу отличать подписи условных Иванова, Петрова и Сидорова.
… Конец отрывка.
Следуя нашей модели и методологии, мы можем конкретизировать это «кое-что». Можно организовать обучение отдельным буквам так, чтобы программа распознавала их независимо от того, печатные это буквы или рукописные, большие или маленькие, строчные или заглавные, прямые или наклонные (в любую сторону). То, что модель допускает такое обучение, доказывают клоны «Фигура», и «Устойчивый». После этого необходимо при обучении словам использовать инварианты типа «один объект следует за другим объектом», «позже», «раньше» (в локальном пространственном или временном смысле). Нечто подобное программа делает с точками, объединяя их в линии и фигуры. Такой подход позволит программе работать с текстами, которые надо читать слева направо, справа налево, сверху вниз, по наклонной, по кривой траектории или по ломаной линии. При этом расстояния между буквами могут меняться в широких пределах.
То, что в программе имеется для этого исходная информация, доказывает клон «Сцена» (Scena), который в ответ помещает отношения "Правее" и "Левее", "Выше" и "Ниже", "Внутри" и "Снаружи".
Что касается соединительных линий, то остаётся как вариант их игнорирования при обучении, так и их «подавления» в ответе с помощью режима «5».
Не будем забывать, однако, что соединительные линии могут помочь более надёжно определить границы слова.
Мы видим, что с точки зрения распознавания слово – это не только образ, форма, а целая подвижная конструкция, структура, «сцена». Чтобы надёжно распознать слово как понятие, нам надо распознать (реконструировать) его модель примерно так же, как мы «распознаём» шахматную позицию, оперируя отношениями между фигурами, абстрагируясь от зрительного образа самих фигур. Чисто внешне эти отношения будут очень похожи на те, которые изображены на рисунках 9.
Звуковой образ (модель) слова имеет свои особенности и инварианты. Например, если слово произносит певец во время пения, высота и длительность звуков могут варьироваться в зависимости от мелодии. В обычной речи также слова могут произноситься по-разному. Нельзя забывать также и об утвердительных и вопросительных интонациях.
Самыми короткими по длительности, видимо, являются глухие согласные, затем – звонкие согласные. Самые длительные и изменчивые по высоте, длительности и силе звучания – гласные.
Говорить, что какая-то программа решила проблему полностью, не учитывая все эти особенности, – значит выдавать желаемое за действительное.
Статистические связи между целыми словами, контекст, и другая «внешняя» информация могут использоваться в нашей модели для повышения эффективности, но в общем случае они не заменят полноценного распознавания конкретных образов конкретных слов.
= = =

К стр. 53
Ссылки. Другие материалы по теме

Ниже приведём некоторые работы, касающиеся восприятия и мышления.
Автор работ 1-7 Хабибуллин Тавис Габдулхаевич.

1. О методе марковских цепей в музыке

2. Исследование форм музыкальных мелодий с помощью ЭВМ / компьютера (К ПРОБЛЕМЕ УЗНАВАНИЯ)

Конфигурация модели восприятия "ht". Здесь h-высота звука, t-время (в первоисточнике используется обозначение «xt»).

3. "Машинная музыка" (мелодии)
HabibTGMuz - программа, которая демонстрирует (проигрывает) 4 мелодии, сочинённые электронно-вычислительной машиной (компьютером) БЭСМ-4 в 1972 году.

4. Построение перспективных изображений с учётом динамики зрительного восприятия

Конфигурация модели восприятия "xyz"

5. Программа HabibtgKlaster
Эволюционное кластерное программирование, или «Что имел в виду уволившийся программист»?

Конфигурация объекта восприятия "yh".
Здесь по оси «y» отсчитываются строки программного текста, по оси «h» - уровни, на которых располагаются фрагменты программного текста.

6. HabibTG 1.0.2 xyt - обучающаяся программа распознавания зрительных образов, включая формы движения
Конфигурации модели восприятия "xy" и "xyt".

7. Программа HabibtgKompozitor (ХабибТГ Композитор)

http://tavis4.narod.ru

В первой половине семидесятых годов была опубликована следующая работа:

8.
УДК 515
Вадим Николаевич Семёнов, Тавис Габдулхаевич Хабибуллин
«Построение перспективных изображений с учётом динамики зрительного восприятия пространственных инвариантов архитектурных композиций».

Если правильно помню, саратовский политехнический институт, межвузовский научный сборник под редакцией Соломина.

9. Рудольф Хафизович Зарипов
«Кибернетика и музыка»
Издательство «Наука», Москва 1971 год.

10. Восприятие. Механизмы и модели.
Издательство «МИР», Москва 1974

		Воскресенье, 26.10.2025
	Мой сайт