Николай Чурсин
Популярная информатика
ТЕЗАУРУС — ЗНАЧИТ «СОКРОВИЩНИЦА»
Рассматривая различные определения понятия информации и связанные с ними теории, мы сознательно не упомянули об одной модели семантической информации, о которой мы хотели бы рассказать отдельно. Но сначала попытаемся разобраться в двух часто встречающихся ситуациях.
Ситуация первая — когда вам сообщают что-либо уже известное, например, что дважды два — четыре, что после ночи наступает день, а Волга впадает в Каспийское море.
Ситуация вторая — когда вам сообщают что-либо на неизвестном вам языке, когда вы видите совершенно незнакомую математическую формулу, пусть даже имеющую богатый смысл, т.е. нечто совершенно вам непонятное.
Обе ситуации можно описать при помощи выражений «известно все» или «неизвестно ничего». Эти выражения говорят о противоположности двух описанных ситуаций. Однако у них есть и нечто общее. Этим общим является наличие всех компонентов коммуникации: источника и приемника информации, потока информации от источника к приемнику.
Однако, как в первой, так и во второй ситуации знания последнего остались без изменений, т.е. информация была передана, приемник ее получил, но обнаружить это невозможно! Если мозг приемника не отразил никаких изменении о внешнем мире после получения сообщения, а это случилось как в первой, так и во второй ситуациях, следовательно, передачи, точнее говоря, получения информации не произошло.
Итак, чтобы определить, несло ли данное сообщение для его получателя информацию, или нет, необходимо зафиксировать изменения, которые произошли в его представлении об окружающем мире, в его знаниях после получения сообщения. Для этого, в свою очередь, надо определить, как «устроены» знания человека, и в чем выражаются те изменения, о которых мы говорим. Иными словами, надо построить модель передачи семантической информации, так как именно эта модель, в отличие от структурно-синтаксических концепций информации, касается смысла сообщений.
Такая модель была предложена советским ученым Ю.А. Шрейдером. Суть ее состоит в том, что количество информации, извлекаемое человеком из сообщения, можно определить степенью изменения его знаний. Действительно, если о получении информации судить только по изменениям в знаниях, то чем больше изменений произошло в знаниях, тем больше информации было получено. Это предположение, вероятно, не вызовет возражений.
Однако каким же образом определить степень изменения в знаниях. Например, в школе учитель может легко определить степень изменения знаний учеников после прослушанного урока с помощью простого опроса. Однако он не может объяснить, почему степень изменения знаний учеников неодинакова, почему одни из них воспринимают материал быстрее других? Разобраться в самом механизме изменения знания человека позволяет модель Ю.А. Шрейдера.
Все здание человеческого знания, согласно этой модели, можно рассматривать в виде совокупности смысловыражающих элементов и смысловых отношений между ними. Множество смысловыражающих элементов и смысловых отношений на нем называется тезаурусом. Слово «тезаурус» происходит от греческого «θβσανρος» — сокровище, сокровищница. И вы, наверное, согласитесь с тем, что все огромное множество понятии и отношении между ними, иными словами, тезаурус, и составляет главное сокровище человека — его знания. Таким образом, тезаурус — это знание, представленное в виде понятий и отношений между ними, т.е. определенным образом структуризованное знание.
Фрагмент знания, например, образ дерева, растущего на земле, можно представить в виде смысловыражающих элементов: «дерево», «земля» и смыслового отношения между ними — «расти на». Таким же образом можно представить и любой фрагмент нашего знания. Очень важно, что понятие «дерево» можно также рассматривать в виде элементов «ствол», «ветви», «листья», связанных отношениями: «быть частью», «расти на» и т.д. Более сложные понятия образуются из более простых при помощи соответствующих отношений. Тезаурус поэтому имеет сложную структуру, в которой одни понятия и отношения, группируясь, образуют другие, в свою очередь образующие все более сложные понятия и отношения. И так как тезаурус является способом представления знаний, а знания у разных людей различны, то, естественно, отличаются и соответствующие им тезаурусы. Тезаурус ребенка, например, намного беднее тезауруса взрослого человека, т.е. содержит гораздо меньше элементов и отношений между ними.
Чтобы полнее представить понятие тезауруса, можно попытаться получить его графическую интерпретацию. Для этого смысловыражающие элементы представим в виде точек, а смысловые отношения — в виде соединяющих эти точки отрезков. Тогда тезаурус имеет образ «паутинки».
Подробнее с понятием тезауруса мы познакомимся ниже, а сейчас вернемся к основанной на нем модели передачи семантической информации. Теперь уже можно четко сформулировать смысл этой модели. Заменяя понятие «знание» понятием «тезаурус», можно утверждать, что человек получает информацию только в том случае, когда в его знаниях, т.е. в его тезаурусе после получения сообщения произошли какие-либо изменения. И чем больше изменений внесло сообщение в тезаурус приемника, тем большее количество информации он получил из этого сообщения. Изменить же тезаурус — это значит изменить его смысловыражающие элементы или смысловые отношения между ними.
Теперь попытаемся применить эту модель к процессу передачи информации. Пусть источник, обладающий тезаурусом A, передает какое-то сообщение приемнику, обладающему тезаурусом Q. Сообщение содержит фрагмент представлений источника о внешнем мире, т.е. фрагмент его тезауруса. Этот фрагмент при передаче сообщения как бы накладывается на тезаурус приемника. В результате происходит их сопоставление, сравнение. Рассмотрим возможные варианты этого процесса.
Если в тезаурусе Q фрагмент тезауруса A (в дальнейшем вместо выражений тезаурус Q и тезаурус A мы будем употреблять соответственно Q и А) содержится целиком, то никаких изменений в Q не происходит, следовательно, Q не извлекает из сообщения никакой информации. Этот случай совпадает с первой из двух ситуаций, о которых мы говорили ранее, когда сообщение содержит сведения, уже известные получателю. Графически это можно представить как полное вхождение, включение фрагмента A в фрагмент Q.
Предположим теперь, что какая-то часть фрагмента A содержится в Q. Это значит, что в Q можно обнаружить такие же элементы и отношения, как и во фрагменте A; в последнем, кроме этого, содержатся компоненты (элементы и отношения), которых нет в Q. Фрагменты A и Q таким образом, имеют «общую часть» Графически этот случай может быть выражен как пересечение двух тезаурусов.
Общая часть компонентов играет важную роль в процессе восприятия сообщения приемником. Так как составляющие ее компоненты связаны с остальными компонентами фрагмента A, то «неизвестные» Q (т.е. не содержащиеся в Q) компоненты могут быть восприняты Q как комбинация, сочетания «уже известных» (содержащихся в Q) компонентов, входящих в эту общую часть. Для иллюстрации сказанного опять обратимся к схеме.
Фрагмент A имеет элемент X, который не содержится в Q. Однако во фрагменте A Х связан отношениями b, с, d с элементами B, С, D, которые содержатся в Q. Тогда Q воспринимает новое для него понятие X, такое же, как во фрагменте A, сочетание B, С, D, b, с, d. Тезаурус Q изменяет свою структуру, образуя новую комбинацию из уже имеющихся компонентов. Этой комбинации приписывается имя неизвестного элемента X, так как именно с ним связаны общие для фрагмента A и Q компоненты. Так образуется новый смысловыражающий элемент, который становится составной частью тезауруса приемника.
Эти рассуждения, вероятно, нуждаются в примере. Представьте, что вы говорите малышу: «Мы были в лесу» «Мы были» — это он знает, а слово «лес» ему пока непонятно, поэтому смысл всего сказанного остается неясным. Тогда вы объясните, что «лес» — это, когда много-много деревьев Понятие «дерево» и «много-много» малышу скорее всего знакомы. И вот сочетание этих понятий и приводит к образованию нового понятия, т.е. к изменению тезауруса.
Следовательно, объясняя что-либо новое, непонятное выражают через известное. Возвращаясь опять к модели, заметим, что если сообщение, т.е. фрагмент тезауруса A, содержит как уже имеющиеся в тезаурусе Q элементы и отношения, так и новые для него, то изменение Q под действием фрагмента A осуществляется путем выражения новых элементов и отношений через уже имеющиеся. Если это не удается, следовательно, ввести новое понятие в тезаурус и изменить его невозможно.
Рассмотрим еще один пример. Попытаемся объяснить ребенку, что «Лес — это совокупность значительного количества деревьев, произрастающих в непосредственной близости друг от друга». Конечно, малыш получит очень мало информации из такого сообщения, ведь он узнает в нем только слова «деревья» да, может быть, «друг от друга». Знание только этих понятий оказывается недостаточным для того, чтобы с их помощью выразить остальные. Тезаурус приемника информации в данном случае, возможно, и зафиксирует связь между понятием «лес» и «деревья», но характер этой связи останется нераскрытым. Добавление в тезаурусе к понятию «деревья» неизвестной смысловой связи с неизвестным смысловыражающим элементом (им является понятие «лес») и будет тем изменением, которое внесет сообщение в тезаурус приемника. Незначительные изменения в тезаурусе получателя свидетельствуют о незначительном количестве информации, которое он извлек из сообщения.
Когда в фрагмент A входят элементы и отношения, каких нет в Q, то приемник не извлечет из сообщения никакой информации и изменения его тезауруса не произойдет. Этот случай соответствует второй из рассмотренных выше ситуаций, когда сообщение является «полной загадкой» для его получателя.
Отсюда следует, что модель, использующая понятие тезауруса, удобна для описания процесса коммуникации.
Если теперь предположить, что чем больше тезаурус приемника, тем больше вероятность того, что в нем будут содержаться элементы и отношения, составляющие тезаурус сообщения, то количество информации, получаемое из сообщения, будет зависеть в итоге от величины тезауруса приемника. Зависимость свидетельствует о том, что минимальному значению величины тезауруса θmin соответствует нулевое количество полученной из сообщения информации. Такое же (нулевое) количество информации соответствует и максимальному тезаурусу θmax. Наибольшее же количество информации Jmax извлекается приемником из сообщения при величине его тезауруса, близкой к средней.
Фактически величина тезауруса приемника измеряется относительно тезауруса источника информации. Таким образом, эффективность передачи информации зависит от соотношения тезаурусов источника и приемника.
На основании этих выводов можно объяснить, например, почему академики обычно не учат первоклассников. Если сравнить их тезаурусы, то нетрудно убедиться в том, что тезаурус академика несравненно богаче, шире и сложнее тезауруса школьника первоклассника. Это значит, что тезаурус приемника очень мал по сравнению с тезаурусом источника. Видно, что мало и количество информации, извлекаемое в этом случае. Следовательно, такое обучение неэффективно, так как первоклассники, не получая значительной информации от академика, практически ничему не научатся.
Если учителями будут школьники, а академиками — ученики, то на графике мы переместимся в точку 3 и увидим, что при приближении к этой точке значение количества воспринимаемой информации опять очень мало. И академикам, конечно, не стоит учиться у первоклассников.
Чтобы повысить эффективность обучения, иными словами, увеличить количество информации, извлекаемой приемником из сообщения, очевидно, необходимо уменьшить разницу в тезаурусах ученика и учителя (приемника и источника). Поскольку нам надо учить первоклассников, т.е. исходить из наперед заданной величины тезауруса приемника, то необходимо уменьшить тезаурус источника информации. Сделав это, мы получим тезаурус учителя младших классов, не обладающего обширными и глубокими познаниями академика, но, как оказывается, незаменимого с точки зрения эффективного обучения первоклашек. Взглянув на график снова, мы обнаружим, что тезаурус приемника в этом случае будет находиться поблизости точки 2. При этом значение I близко к максимальному.
В процессе обучения учитель передает свои знания ученикам. При этом после каждого сообщения учителя тезаурусы учеников изменяются, приближаясь к тезаурусу учителя. В этом, наверное, и состоит задача учителя. Но что мы видим на графике?
Значение θ при этом упорно ползет от точки 2 к точке 3, а вместе с этим падает и значение I. Этого может не произойти, если учитель будет постоянно расширять свой тезаурус. Тогда соотношение тезаурусов не будет изменяться. На практике, однако, так бывает редко: обычно школьник становится студентом, а значит, место учителя занимает профессор. Оптимальное соотношение тезаурусов, таким образом, восстанавливается.
Так понятие тезауруса, являющееся основой модели семантической информации, позволяет предсказать результат коммуникации, исходя даже из очень грубой оценки соотношения тезауруса ее участников.
Понятие тезауруса применимо не только к знаниям отдельного человека, но и к знаниям человечества в целом: можно говорить о тезаурусе человечества как о сумме накопленных им знаний.
Можно сравнить тезаурусы людей различных специальностей. Если отвлечься от их носителей-людей, то можно исследовать тезаурусы специальностей или тезаурусы определенных областей знания. В качестве инструмента для исследования тезауруса может использоваться вторая сигнальная система человека — его язык. В виде плоскостей схематично изображены совокупность объектов окружающего человека мира (картина реального мира), отражение этой картины мозгом человека (план содержания), выражение этого отражения при помощи языка (план выражения).
Реально существующие объекты и отношения внешнего мира A, B и C, отражаясь мозгом человека, образуют его тезаурус, располагающийся в плане содержания. Каждому элементу и отношению плана содержания соответствует понятие, выраженное при помощи слов естественного языка. Исследуя понятия и отношения между ними, мы определим соответствующий им тезаурус. Соответствие тезауруса в плане содержания тезаурусу терминов в плане выражения не следует понимать как полную идентичность. Исследовать же тезаурус терминов гораздо легче, чем понятия и отношения, зафиксированные миллиардами нервных клеток мозга человека. Представленный в виде упорядоченного словаря понятий с указанными отношениями между ними тезаурус терминов является подлинной сокровищницей, хранилищем знаний людей на определенном уровне исторического развития.
КОГДА ИНФОРМАЦИЯ СТАНОВИТСЯ ЗНАНИЕМ
Применяя модель передачи семантической информации Ю.А. Шрейдера, мы установили, что при значительной разнице тезаурусов источника и приемника информации количество информации, извлекаемое из сообщения приемником, невелико. Например, если тезаурус ученого, работающего в какой-либо области науки, значительно шире среднего тезауруса специалиста в этой области, то знакомящиеся с его работами коллеги вероятнее всего не смогут извлечь из них сколь-нибудь значительного количества информации, т.е. не поймут их.
Именно так и происходит, когда совершаются «преждевременные научные открытия»: для человеческого общества они остаются некоторое время «вещью в себе», так как общество еще не в состоянии оценить их значение. Примерно такая же ситуация возникает, когда человеку — не специалисту в какой-либо отрасли науки — предлагается прочитать очень содержательную статью в этой отрасли. Для него такая статья по существу не содержит никакой информации.
Факты из истории науки, на которые обращают внимание А.И. Михайлов, А.И. Черный, Р.С. Гиляревский, хорошо иллюстрируют сказанное. Приведем некоторые из них.
23 февраля 1826 г. в Казанском университете на заседании физико-математического факультета русский математик Н.И. Лобачевский (1792...1856) выступил с докладом, в котором изложил начала созданной им неевклидовой геометрии. Текст этого доклада, озаглавленного «Сжатое изложение основ геометрии со строгим доказательством теоремы о параллельных», был утерян рецензентами. В 1829...1830 гг. в журнале «Казанский вестник» были опубликованы мемуары Н.И. Лобачевского «О началах геометрии», в которые вошло его сочинение 1826 г. Это было одно из крупнейших достижений математической мысли во всей истории мировой науки.
Но ни работа «О началах геометрии», ни последовавшие за ней другие сочинения Н.И. Лобачевского, почти никем не были поняты и подвергались резкой критике.
К.Ф. Гаусс, хотя и восхищался открытием Н.И. Лобачевского, но делал это только в письмах к друзьям. Правда, по предложению К.Ф. Гаусса, Геттингенское королевское общество избрало Н.И. Лобачевского своим членом-корреспондентом. Однако по неизвестным причинам К.Ф. Гаусс до конца своей жизни не выступил в защиту геометрии Лобачевского на страницах научной печати и не оказал русскому математику той моральной поддержки, в которой Н.И. Лобачевский тогда очень нуждался. Только через 12 лет после смерти Н.И. Лобачевского его величайшее научное открытие получило полное признание и широкое распространение.
Примерно такая же судьба постигла Эвариста Галуа (1811...1832). Три раза Э. Галуа представлял свою работу «Исследование алгебраических уравнений простой степени» во Французскую академию наук. Дважды рукопись исчезала там бесследно. Когда в 1831 г. он послал в академию третий вариант этой работы (это был «Мемуар об условиях разрешимости уравнений в радикалах»), то этот вариант был отвергнут рецензентами С. Лакруа и С. Пуассоном, которые дали ему отрицательную оценку.
Современники Э. Галуа не смогли понять и в должной степени оценить его идеи, которые и поныне поражают своей абстрактностью и глубиной. Поэтому работы Э. Галуа были «переоткрыты» во второй половине XIX века, когда началось широкое проникновение теоретико-групповых идей во все области математики. Ныне Э. Галуа по праву считается создателем теории групп — одного из важнейших разделов современной математики.
В 1811 г. Амедео Авогадро (1776...1856) опубликовал статью, в которой высказал гипотезу о том, что в равных объемах различных газов при одинаковых условиях содержится одинаковое количество молекул. В 1858 г. только один С. Канниццаро понял огромное значение гипотезы А. Авогадро, своими работами и выступлениями в значительной степени содействовал ее широкому применению. В настоящее время эта гипотеза получила название закона Авогадро и является одним из основных законов физики и химии.
Ныне всем хорошо известна судьба гениального русского ученого К.Э. Циолковского (1857...1935), который с 1896 г. занимался разработкой теории движения реактивных аппаратов. К.Э. Циолковский предложил ряд схем ракет дальнего действия и ракет для межпланетных полетов. Еще в 1903 г. К.Э. Циолковский опубликовал в Петербургском журнале «Научное обозрение», №5, свою работу об Исследовании миров пространства реактивными приборами, в которой он впервые в мире дал глубокий научный анализ всех основных аспектов ракетного полета в космос. Только 10 лет спустя идеи К.Э. Циолковского стали восприниматься наиболее передовыми представителями русской науки. В консервативных академических кругах царской России имя К.Э. Циолковского осталось неизвестным.
Все приведенные факты можно объяснить с научных позиций, если мы вспомним о важности определенного соотношения тезаурусов при передаче информации, которое невольно нарушалось гениальными учеными, опередивших свой век.
Обычно ученый пытается представить себе любую, даже радикально новую теорию в тех понятиях, которыми он пользовался ранее. Знание покоится на знании, т.е. незаметно исходит из того, что знали раньше. Новая информация, что хорошо демонстрирует модель, использующая понятие тезауруса, усваивается только тогда, когда она без особого труда укладывается в общепринятые представления. Информация не признается информацией до тех пор, пока не превратится в знание, т.е. не найдет отражения в тезаурусе приемника в виде соответствующих изменений.
Идея тезауруса в настоящее время находит широкое применение в различных областях науки. Это относится как к общему, широкому понятию, которое соответствует плану содержания, так и к понятию тезауруса терминов, соответствующему плану выражения.
Так, например, в теории сложных систем — системологии — разработке понятия тезауруса придается исключительное значение. Если для тезауруса системы, по мнению В.В. Дружинина и Д.С. Конторова, будет найдено простое исчерпывающее определение и практический метод измерения или вычисления, концепции кодирования организма в зародыше, наследственных свойств в молекуле ДНК или отображения событий в голове человека приобретут гораздо большую стройность. Понятие тезауруса сравнивается ими с понятием энергоресурса: тезаурус — полезная внутренняя информация системы о себе и среде. Она определяет способность системы управлять собой. Аналогично энергоресурсы — это внутренняя энергия системы, определяющая ее способность совершать полезную работу. Тезаурус измеряется в единицах информации, энергоресурс — в единицах энергии, то и другое инвариантны. Тезаурус — определенным образом организованная информация, энергоресурс — определенным образом организованная энергия.
Итак, тезаурус представляет собой форму существования, хранения семантической информации. Но поскольку с обработкой именно семантической информации часто связывают деятельность живых организмов, процесс эволюции живого можно исследовать с точки зрения формирования тезауруса, т.е. организм, способный обрабатывать семантическую информацию, должен обладать и тезаурусом. Тогда, проследив процесс формирования тезауруса в эволюции живого, мы сможем, вероятно, существенно дополнить достижения биологов, химиков, физиологов в изучении этой проблемы. Концепция тезауруса и здесь может быть полезной.
Небезынтересно в заключение отметить, что к такому наиболее общему понятию тезауруса ученые пришли, первоначально «освоив» понятие тезауруса терминов. Вначале это понятие использовалось в словарях, предназначенных для поиска слов по их смыслу, затем с развитием электронно-вычислительной техники подобные словари стали применяться для исчерпывающего описания терминологии какой-либо отрасли знаний в автоматизированных системах поиска информации и получили название информационно-поисковых тезаурусов (о них речь пойдет ниже). Только сравнительно недавно тезаурус стал символом организации знания вообще. Дальнейшее развитие идеи тезауруса будет способствовать получению интересных результатов в самой важной науке — науке о знании.
Оригинал: Популярная информатика