Алескер Марк: другие произведения.

Что есть хаос? Часть вторая: информация

"Самиздат": [Регистрация] [Найти] [Рейтинги] [Обсуждения] [Новинки] [Обзоры] [Помощь|Техвопросы]
Ссылки:
Конкурсы романов на Author.Today
Загадка Лукоморья
 Ваша оценка:
  • Аннотация:
    Дано определение информации , по-видимому, единственно приемлемое для области макроявлений.







Что есть хаос?

Часть вторая: информация

 

Шеннон не ставил цель дать определение информации. В своих работах он интересовался прежде всего чисто техническими проблемами (оптимальное кодирование, учет шума в канале связи и т.п.). В дальнейшем предпринималось много попыток дать толкование понятию информации. Однако до сих пор нет его исчерпывающей трактовки. Мы обсудим два варианта употребления термина "информация", по-видимому, единственно приемлемые для области макроявлений. Назовем их "информация в смысле Шеннона" и "структурная информация".

При изложении материала иногда будут использоваться термины, как будто бы относящиеся только к живой материи. Это сделано с целью упрощения изложения и никак не затрагивает субъективные стороны информации, связанные с ее смыслом или важностью. Кроме того, будем считать известными или интуитивно ясными такие понятия, как, например, "источник информации", "канал связи", "передача информации", "интерпретация" и т.п. Однако для избежания недоразумений следует сразу же договориться о смысле некоторых других словосочетаний, допускающих разные толкования. Итак:

Информационный символ - любой носитель энергии,  с помощью которого некоторый объект взаимодействует с окружающим миром.

Информационные символы, по причине общей природы материи, прямо или косвенно могут быть "опознаны" принимающим объектом. Например, если человек не может непосредственно принимать электромагнитный сигнал радиоволнового диапазона, то такой прием может быть осуществлен после преобразования этого сигнала радиоприемником в звуковой сигнал.

Иначе говоря, символ допускает перекодировку. Точнее (но сложнее) можно сказать так: существуют "символьные" классы, каждый из которых имеет некоторое информационное значение; информационный символ является представителем данного класса и, обладая той или иной энергетической природой, может быть преобразован в любой другой представитель этого класса.

Информационное сообщение (слово, предложение) - любое количество информационных символов.

Приемник информации - любой объект, принимающий (преобразующий, запоминающий, расшифровывающий)  информационные символы.

Базовая информация -  специфическая структура приемников информации (ее специфику обсудим позже). Эта структура позволяет приемнику "узнавать" информационные символы (их форму, месторасположение в потоке символов и т.д.).

Например, оперативная память компьютера для записи "нуля" или "единицы" может "узнать" только два варианта токовой посылки определенной величины. Другие информационные сигналы, которые могут поступить в эту память или будут проигнорированы, или приведут к разрушению памяти.

Еще пример: профессор и студент обладают разным объемом базовой информации (разной структурой памяти), и поэтому то, что для одного из них есть информационное сообщение, для другого может оказаться набором непонятных звуков.

Случайное событие - это событие, до осуществления которого неизвестно, произойдет оно или нет.

Этому определению удовлетворяют как абсолютно случайные события, так и статистически случайные.

Для осуществления абсолютно случайного события не требуется причин (пример: распад радиоактивного атома).

Статистически случайные имеют причинную цепь предшествующих событий. Но выявить эти причины практически и теоретически невозможно. Поэтому с самого начала для предсказания таких событий приходится использовать понятие вероятности (пример: выбрасывание лототроном шара с тем или иным номером).

Детерминированное событие является следствием действия некоторых причин. Если причины известны, то детерминированное событие предсказывается с достоверностью.

Прием информации - достоверное получение информации. Это значит, что, во-первых, информационный символ в процессе передачи по каналу связи не искажается случайными помехами (событиями). Во-вторых, базовой информации, содержащейся в приемнике, достаточно для гарантированного "опознания" символа.

Память -  любое (механическое, электрическое, биологическое и т.д.) устройство с некоторым целым (большим единицы) числом устойчивых состояний. Если число таких состояний равно n, то информационная емкость I памяти составляет I = log2n бит.

В соответствии с этим определением любой объект, способный изменять и сохранять свою структуру, является памятью.

Структура объекта - одно из возможных состояний его памяти или упорядоченная смена этих состояний.

Структура объекта, взятая сама по себе, характеризуется структурной информацией (см. ниже).

Иногда думают, что информация может присутствовать только в упорядоченных, внутренне организованных структурах. Есть и другие мнения - информации больше там, где больше хаоса, больше непредвиденных ситуаций. Далее будет показано, что обе позиции ошибочны, если только иметь в виду информацию в смысле Шеннона.

 

Теперь приступим к анализу употреблений термина "информация".

 

Информация "в смысле Шеннона".

Информация  (в смысле Шеннона) всегда связана с ожиданием разрешения какой-либо неопределенности. Рассмотрим это на примере.

Пусть проводится эксперимент: из урны, в которой может находиться 16 красных, белых, синих и черных шаров, извлекается один шар наугад. Информация об исходе эксперимента содержится в ответе на вопрос: какое случайное событие произошло в процессе извлечения шаров из урны, иначе говоря, какого цвета шар извлечен?

 Рассмотрим четыре эксперимента с разными вариантами начальных условий.

1.      В урне находится 16 красных шаров, и нет шаров других цветов.

2.      В урну помещено 8 красных шаров, 4 белых, 2 синих и 2 черных.

3.      В урне всех шаров поровну: 4 красных, 4 белых, 4 синих и 4 черных.

4.      В урне есть 16 шаров, но цвет их неизвестен (этот случай будет рассмотрен позже).

Ясно, что в первом случае исход эксперимента предрешен: будет извлечен красный шар. Значит, в результате эксперимента мы не получаем информации (нет информации в сообщении, полученном с помощью извлеченного шара, который играет роль символа данного сообщения). Это происходит, потому что до опыта не было никакой неопределенности в его исходе, исход опыта не был случайным событием.

Во втором случае уже нет уверенности в том, что будет извлечен красный шар: могут попасться шары и иных цветов. То есть возникает неопределенность в результате исхода эксперимента. Эту неопределенность устраняют путем извлечения шара конкретного цвета, и, тем самым, получают некоторое количество информации.

В пионерских работах Шеннона доказывается, что существует единственная формула, оценивающая неопределенность E (энтропию источника сообщений), по которой можно подсчитать количество информации I, получаемой в опытах подобного рода.

I  = - SUM(pi * log pi) = E,   (1)

где  pi - вероятность i-го исхода  (логарифм берется по основанию "два").

Во втором эксперименте вероятности извлечения шаров (красного, белого, синего и черного) имеют значения соответственно 1/2, 1/4,  1/8 и 1/8, поэтому

I2 = - 1/2log(1/2) - 1/4log(1/4) - 1/8log(1/8) - 1/8log(1/8) = 7/4 (бит на один опыт).

В третьем случае неопределенность достигает максимума, и поэтому количество получаемой информации тоже максимально:

 

I3 =  - 1/4log(1/4) - 1/4log(1/4) - 1/4log(1/4) - 1/4log(1/4) = 2 (бит на один опыт).

 

Таким образом, количество принимаемой информации - это количество устраненной неопределенности при получении тех или иных информационных символов.

Следовательно, чтобы знать количество принятой информации, необходимо знать энтропию источника сообщений. А чем это легче?

Чтобы лучше разобраться с этим вопросом, обратим внимание на следующее.

Легко подсчитать, что во втором случае количество получаемой информации (7/4 бит) по сравнению с третьим случаем (2 бит) меньше в  7/8 раз. Это число (7/8) называют относительной энтропией источника, и оно показывает, во сколько раз в результате изменения внутренней структуры источника уменьшается его энтропия по сравнению с ее максимальным значением. Если величину максимальной энтропии принять за единицу, то во втором случае она уменьшится на 1/8 часть.

Эту "утерянную" часть называют избыточной информацией.  Она характеризует внутреннюю упорядоченность структуры источника сообщений, и, поэтому, структуру поступающих от него символов. Поэтому количество избыточной информации Iизб можно подсчитать очень просто:

Iизб = Emax  - E         ,       (2)

где             Emax    - максимально возможная энтропия источника,

E         -  реальная энтропия источника.

 

Нагляднее всего это видно на примере передачи текстовых сообщений.

В этих сообщениях буквы алфавита частично упорядочены за счет правил, уменьшающих энтропию текста. Например, обнаружено, что в русском тексте  "пробел" встречается чаще всего (вероятность равна 0,17). А реже всего встречается буква "ф" - вероятность 0,002. В этих отклонениях от равновероятного потока символов содержится информация об известных правилах написания русских слов и предложений. Эти правила известны, и поэтому в сообщении: "на лугу пасутся коровы" букву "ы" можно было бы не передавать по каналу связи: все равно было бы ясно, что на лугу коровы, а не козы. Можно было бы думать, что информацию, связанную с упорядоченностью потока принимаемых символов, считают избыточной именно поэтому.

Однако избыточность вовсе не означает, что какие-то символы сообщения можно не передавать. Например, если так поступить с буквой "ы" в предыдущем примере, то будет нарушена структура русского текста, изменена вероятность появления этой буквы в тексте. Смысл избыточности в другом: специальным кодированием символов можно добиться такой ситуации, когда в информационном сообщении избыточная информация не "занимает места". Все "место" занято только "случайной" составляющей, только "новизной" сообщения. Точнее: если энтропия источника равна Е бит, то (без изъятия символов из сообщения) оптимальное кодирование позволяет передавать сообщение так, что в нем в среднем на символ приходится  Е  бит. (Все это подробно рассмотрено в работах Шеннона). Вот пример.

Если бы русский текст не содержал грамматических правил, то каждый символ текста содержал бы 5 бит информации (так как равновероятный выбор одного символа из 32 дает для количества информации значение  I = - log p = - log(1/32) = 5   (бит).

В обычном русском тексте энтропийная составляющая равна 20%, а избыточная - 80%. Поэтому с помощью специального кодирования символов можно добиться ситуации, когда в среднем на один символ  приходится только один бит.

Примерно такое же соотношение "новизны" и известных правил (20% и 80%) сохраняется в тексте всех языков. И именно благодаря тому, что любой язык предполагает наличие известных букв, правил, речевых оборотов и т.п., а также новых предложений, возможна передача информации в речевых сообщениях.

Где же избыточная информация, обладающая реальной мерой в соответствии с формулой (2), находится, если в информационном сообщении при оптимальном кодировании ее количество равно нулю?

Фактически она находится в трех местах одновременно.

Во-первых, в источнике сообщений. Здесь она является характеристикой его упорядоченной структуры.

Во-вторых, копия избыточной информации хранится в приемнике, в его структуре. Ранее эту структуру мы назвали базовой информацией. То есть базовая информация - это "копия" избыточной информации. (О том, как избыточная информация попадает в приемник, поговорим чуть ниже).

Именно благодаря "равенству" избыточной и базовой информаций, становится возможным "опознание" сообщения. Например, передача генетической информации становится возможной только при встрече в зиготе двух одинаковым образом устроенных хромосом, которые способны поэтому "узнать" друг друга. Таким образом, при передаче информации (в смысле Шеннона) источник и приемник в некоторой своей части должны быть структурно идентичны (имеется в виду идентичность информационных моделей).

В-третьих, избыточная информация "находится" в самом информационном сообщении, не занимая в нем "места", не обладая информационной емкостью. Как это может быть?

Этот вопрос, по-видимому, столь же неуместен, как и вопрос о том, почему микрочастицы ведут себя в одних экспериментах как частицы, а в других, как волны. Надо просто исходить из того, что так устроен наш мир: упорядоченность потока символов, форма этих символов и прочие не случайные характеристики связывают приемник информации с источником только качественно, позволяя "навести мост" между избыточной и базовой информациями. С другой стороны, "прошлая" информация, характеризующая упорядоченность структуры объекта, не случайна, и, тем не менее, обладает количественной характеристикой - мерой в соответствии с формулой (2). Здесь просматривается некая зависимость "качества" и "количества" от того, происходили ли события в прошлом или они осуществляются в настоящем времени. Но это тема для других размышлений.

 

Обратим еще внимание на следующие два обстоятельства.

Первое.

Можно было бы думать, что существует пустой символ (символьный класс обладает пустым элементом). Это значит, что в частном случае информация могла бы быть передана вообще без энергетического взаимодействия.

Пусть, например, нам надо вечером в 21-00 передать из Нарвы в Таллинн информацию о том, прибыл ли  в Нарву в 14-00 автобус  из Санкт-Петербурга или нет. Тогда можно заранее договориться с "приемником информации" о том, что если в 21-00 никаких сообщений из Нарвы не будет передано, значит, автобус прибыл. А "приемник" расшифрует "пустой" информационный символ благодаря базовой информации - существующей договоренности.

На самом деле в подобной "методике" передачи информации есть логическая ошибка, и достоверного приема информации не происходит (значит, вообще нет никакого приема - см. выше: прием информации).

Ошибка состоит в том, что молчаливо предполагается, будто бы у приемника достаточно базовой информации для гарантированной дешифрации принимаемого "пустого" символа. На самом деле автобус мог не прибыть, а у источника информации могло не оказаться возможности передать об этом сигнал в Таллинн. В таком случае произошла бы ложная интерпретация "пустого" символа. Чтобы исключить ложное опознание, необходимо дополнительно к "пустому" сигналу передать еще и "материальный" сигнал, подтверждающий "работоспособность" источника.

Второе.

После "рождения" информационного сообщения его дальнейшая "судьба" должна определяться только детерминированными событиями, иначе сообщение будет искажено. Можно было бы думать, что уже "рожденные" сообщения, записанные на диске, в книге и т.п. принципиально отличаются от информации в "смысле Шеннона".

Действительно, в последнем случае важна возможность получить тот или иной символ. Реально принимаемый символ случаен и до приема неизвестен. А при получении информации из постоянного источника, например, книги, все напечатанные в ней буквы не случайны и могут быть заведомо известны.

Однако обратим внимание на то, что время, в течение которого информационное сообщение "добирается" до приемника информации, является второстепенным атрибутом информации. Важно лишь, чтобы сообщение "родилось" в источнике и "прибыло" в приемник. Но тогда можно вообще временно "остановить время", задержав сообщение в постоянной памяти и не влияя ни на какие иные атрибуты информации.

Так что информация, записанная в книгах, газетах и пр., есть просто закодированная копия ранее "рожденного" информационного сообщения, еще не дошедшая до своего адресата (до приемника информации).

Итак, сформулируем основные положения, связанные с понятием "информация в смысле Шеннона".

1.             Информационное взаимодействие - это обязательно материальное взаимодействие объектов.

2.             Информация не существует в виде отдельной субстанции, а является общей характеристикой двух объектов - источника и приемника информации. Поэтому, например, ко всей Вселенной это понятие неприменимо.

3.             Информация содержит следующие компоненты:

Ј  информационное сообщение (случайная и упорядоченная составляющие, из которых при оптимальном кодировании символов только случайная часть имеет информационную емкость, не равную нулю),

Ј  избыточная информация (упорядоченная структура источника),

Ј  базовая информация (упорядоченная структура приемника).

4.             Скорость передачи информации, поскольку смысл такой передачи заключен в приеме материальных символов, не может превысить скорость света в вакууме.

 

 

 

Структурная информация

В сообщении могут присутствовать символы, не содержащие в себе информации, например, сигналы от посторонних источников (шумы). Эти сигналы не содержат информации, потому что не могут быть расшифрованы в виду отсутствия базовой информации.

Тем не менее, весь поток символов загружает приемник энергетически, требует времени на обработку и поэтому является некоторой специфической (назовем ее структурной) формой информации. Если внимательно вдуматься в ее смысл, то можно обнаружить, что если от "информации в смысле Шеннона" вычесть базовую информацию, то она превратится в часть структурной информации.

 Поэтому можно дать следующее определение:

Структурная информация - это сообщение, поступающее от источника, энтропия которого неизвестна.

Примером структурной информации может служить структура всего жесткого диска компьютера (включая свободное место), когда потеряны адреса файлов.

В первой части этой работы была предпринята попытка оценить количество потенциальной информации, содержащейся в структуре объекта, посредством меры хаоса, обнаруживаемой в его структуре. Однако эта идея нуждается, по-видимому, в дальнейшем развитии.

 

 

Информация в смысле Шеннона "рождается" из своего потенциала - структурной информации. Для такого "рождения" в приемнике информации должна появиться базовая информация. Как, например, сведения о вероятностях получения информационных символов попадают в приемник?

Вспомним четвертый вариант начальных условий эксперимента с извлечением шаров из урны. В этом варианте нам известно, что в урне находится 16 шаров, окрашенных в неизвестные цвета. Этих сведений недостаточно для того, чтобы вычислить вероятности извлечения шаров того или иного цвета. Есть лишь один способ определить эту вероятность (не заглядывая в урну). Для этого надо провести достаточное количество опытов (например, n), каждый раз возвращая шар в урну. Затем подсчитать число m случаев, когда событие происходит, и приравнять значение вероятности события (при большой величине n) частоте появления события m/n.

Таким образом, вероятности событий можно определить только опытным путем, поэтому они объективны и не зависят от субъекта. И вообще, не только вероятности поступления символов, но и иные сведения об источнике информации может дать только опыт, к которому следует причислить и обычное взаимодействие любых объектов. При таком взаимодействии в соответствии со структурой принимаемых символов формируется базовая информация.

 

Итак, мы обсудили два варианта употребления термина "информация". Разумеется, наиболее часто речь идет об информации "в смысле Шеннона". Если наши представления о ней верно отражают физическую реальность, то какие следствия вытекают из этих представлений? Вот некоторые из возможных выводов.

1. Обнаруживается тесная связь между процессами передачи информации и свойствами времени. Действительно, в работе "О необратимости времени" показано, что течение времени определяется существованием случайных событий, а его необратимость - существованием детерминированных. С другой стороны, информационное сообщение есть всегда результат осуществления случайных событий, а возможность обработки сообщения (передача, хранение и т.д.) - результат осуществления детерминированных событий.

2. Если в некоторой области пространства невозможно осуществление случайных событий (например, за сферой Шварцшильда черных дыр, где все события причинно обусловлены силами тяготения), то "рождение" информации в этой области невозможно, а темп течения времени в ней должен замедлиться до нуля.

3. Если в некоторой области пространства "правит" только случай (микромир), то передача информации в этой области невозможна, а время должно быть обратимым.

Мы видим, что информация "в смысле Шеннона" выявляет точки соприкосновения очень далеких друг от друга областей, и в них понятие информации (в смысле Шеннона) оказывается неприменимым. Влияние соотношения случайности и детерминированности на темп течения времени в этих областях создает впечатление, что, поскольку в макромире темп течения времени зависит от системы отсчета, постольку и причинность должна зависеть от системы отсчета.

И, действительно, примером такой относительности может служить так называемый "парадокс" близнецов. Следствие этого "парадокса" - разница в биологическом возрасте близнецов после космического путешествия одного из них и возврата в исходное место - с точки зрения близнецов имеет совершенно разные причины.

С точки зрения "домоседа" брат помолодел, так как во время его путешествия темп течения времени в космическом корабле был замедленным.

С точки же зрения "путешественника" его брат постарел, так как во время поворота корабля, необходимого для возвращения домой, на брата-домоседа действовали гравитационные силы, ускорившие темп течения времени для всех физических процессов.

Таким образом, у близнецов совершенно разные точки зрения на причину образовавшейся при встрече разницы хода часов. Более того, эти причины действуют на разных участках их траекторий (в разное время).

Однако подробное обсуждение вопросов, связанных с причинностью, выходит за рамки рассматриваемой темы.

 


 Ваша оценка:

Связаться с программистом сайта.

Новые книги авторов СИ, вышедшие из печати:
Э.Бланк "Пленница чужого мира" О.Копылова "Невеста звездного принца" А.Позин "Меч Тамерлана.Крестьянский сын,дворянская дочь"

Как попасть в этoт список
Сайт - "Художники" .. || .. Доска об'явлений "Книги"