Теория информации
Конспект лекций
назад | содержание | вперед

2. ВЕРОЯТНОСТНЫЙ ПОДХОД К ИЗМЕРЕНИЮ КОЛИЧЕСТВА ИНФОРМАЦИИ

 

2.6 Относительная энтропия и избыточность сообщения

С практической точки зрения оценка количества информации необходима для построения экономичных кодов, оценки свойств каналов связи и их пропускной способности, для определения избыточности кодов и повышения их помехоустойчивости. При анализе каналов связи нужно уметь определять максимальное количество информации, которое может быть передано за единицу времени. Максимальное количество информации на элемент сообщения может быть получено только в случае равновероятных и независимых сообщений. Сообщения, энтропия которых равна максимальному значению ,  количество состояний элементов сообщения, являются оптимальными сообщениями в смысле наибольшего количества передаваемой информации. Реальные сообщения редко полностью удовлетворяют этому условию, поэтому информационная нагрузка на каждый элемент обычно меньше той, которую они могли бы передавать. Энтропия таких сообщений меньше максимальной и сообщение обладает информационной избыточностью.

В теории информации избыточность показывает количество «лишней информации», которая определяется структурой  множества состояний элементов и обычно заранее  известна из статистических данных.

 

Определение. Мерой количественной оценки того, насколько данное реальное сообщение отличается от соответствующего ему оптимального сообщения, служит коэффициент сжатия или относительная энтропия, которая равна отношению энтропии реального сообщения к энтропии соответствующего ему оптимального сообщения .

 

Коэффициент сжатия показывает, какая часть реальных сообщений может быть отброшена при переходе к оптимальному кодировании, т.е. какая доля сообщения является излишней или избыточной.

Определение. Наряду с коэффициентом сжатия используется и величина избыточности .

 

Для уменьшения избыточности сообщения необходимо увеличить энтропию сообщения, т.е. стремиться к тому, что элементы сообщения были максимально информативны.

Нахождение оптимальной избыточности кода при данном уровне помех является одной из главных задач теории информации и кодирования.

 

Пример 2.6.1. Для русского языка, состоящего из  32 букв (буквы «е» и «ё», «ь» и «ъ» не различаются, добавлен символ пробела « » ), максимальное значение энтропии при условии равновероятности букв составляет

 бит

Однако в русском языке появления разных букв алфавита происходит с неравными частотами. В таблице приведены частоты появления отдельных  букв русского языка.

 

пробел

О

Е, Ё

а

и

т

н

с

0.175

0.090

0.072

0.062

0.062

0.053

0.045

0.045

р

в

л

к

м

д

п

у

0.040

0.038

0.035

0.028

0.026

0.025

0.023

0.021

я

ы

з

Ь

б

г

ч

й

0.018

0.016

0.016

0.014

0.014

0.013

0.012

0.010

х

ж

ю

ш

ц

щ

э

ф

0.009

0.007

0.006

0.006

0.004

0.003

0.003

0.002

 

Используя эти частоты в качестве вероятностей появления букв, можно получить приближенное значение энтропии одной буквы русского языка  бит, что меньше максимального значения энтропии. Если учитывать статистику появления буквенных сочетаний и словесных сочетаний, то исследования показали, что энтропия на букву русского языка не превышает 2 бит.

Таким образом, коэффициент сжатия или относительная энтропия для русского языка составляет , а величина избыточности .Коэффициент сжатия показывает, что объем текста на русском языке возможно сжать в 2.5 раза.

 

 

наверх

 


назад | содержание | вперед