Вы здесь

Сжатие информации

Вследствие неуклонно растущих объемов обрабатываемой информации особое значение приобретает сжатие данных. Избыточность информации предоставляет широкое поле деятельности в этой области. Так, измерение избыточности естественных языков (тех, на
которых мы говорим) показывает, что практически 80 % передаваемой с помощью языка информации является избыточной, т.е. лишней. Показатели избыточности разных языков очень близки. Данная цифра примерно определяет теоретические пределы сжатия текстовых файлов. Наличие избыточности допускает переход на иную систему кодирования, которая бы уменьшила ее. Говоря о переходе на коды, которые позволяют уменьшить размер сообщения, вводят понятие коды сжатия. При этом различают понятия сжатие без потерь и сжатие с потерями. Очевидно, что когда мы имеем дело с информацией типа «номер телефона», то сжатие за счет потери части сим-
волов не ведет ни к чему хорошему. Однако можно представить целый ряд ситуаций, когда потеря части информации не приводит к потере полезности оставшейся. Сжатие с потерями применяется в
основном для графики, звука и видео, т.е. там, где в силу огромных размеров файлов степень сжатия очень важна, и можно пожертвовать деталями, несущественными для восприятия этой информации человеком. Особые возможности для сжатия информации имеются при компрессии видео. В ряде случаев большая часть изображения передается из кадра в кадр без изменений, что позволяет строить алгоритмы сжатия на основе выборочного отслеживания только части «картинки». В частном случае изображение говорящего человека, не меняющего своего положения, может обновляться только в области лица или даже рта, т.е. в той части, где происходят наиболее быстрые изменения от кадра к кадру. Обычно сжатие графики с
потерями, обеспечивая очень высокие степени компрессии, практически незаметно для человека.

Однако методы сжатия с потерями обладают и рядом недостатков. Первый недостаток заключается в том, что компрессия с потерями применима не для всех случаев анализа графической информации. Например, если в результате сжатия изображения на лице изменится форма родинки (но лицо при этом останется полностью узнаваемо), то эта фотография окажется вполне приемлемой, чтобы послать ее по почте знакомым. Однако если пересылается фотоснимок легких на медэкспертизу для анализа формы затемнения, то в этом случае искажения недопустимы. Кроме того, в случае машинных методов анализа графической информации результаты кодирования с потерей (незаметные для глаз) могут быть «заметны» для машинного анализатора. Второй недостаток заключается в том, что повторная компрессия и декомпрессия с потерями приводят к эффекту накопления погрешностей.

Кодирование без потерь может применяться для сжатия любой информации, поскольку обеспечивает абсолютно точное восстановление данных после кодирования и декодирования. Сжатие без потерь основано на простом принципе преобразования данных из одной группы символов в другую, более компактную. Наиболее известны два алгоритма сжатия без потерь: это кодирование Хаффмена и LZW -кодирование (по начальным буквам имен создателей
Lempel , Ziv , Welch ), которые представляют основные подходы при сжатии информации. Принцип кодирования Хаффмена заключается в уменьшении количества битов, используемых для представления часто встречающихся символов, и, соответственно, в увеличении количества битов, используемых для редко встречающихся символов. Метод LZW кодирует строки символов, анализируя входной поток для построения расширенного алфавита, что позволяет использовать
дополнительные символы для представления строк обычных символов. Используя, например, вместо 8-битовых ASCII -кодов 9-битовые, получают дополнительные 256 символов. Работа компрессора сводится к построению таблицы, состоящей из строк и соответствующих им кодов. Алгоритм сжатия сводится к следующему: программа прочитывает очередной символ и добавляет его к строке. Если строка уже находится в таблице, чтение продолжается, если нет, данная
строка добавляется к таблице строк. Чем больше будет повторяющихся строк, тем сильнее будут сжаты данные. Возвращаясь к примеру с телефоном, можно, проведя упрощенную аналогию, сказать, что, сжимая запись 233 34 44 по LZW -методу, мы придем к введению новых строк — 333 и 444 и, выражая их дополнительными символами, сможем уменьшить длину записи.

Все архиваторы используют в какой-либо модификации эти два метода кодирования информации. Самым популярным архиватором является WinZip . Объясняется это тем, что формат ZIP считается мировым стандартом архивирования и имеет самую длительную историю развития. Большинство архивов в Internet также имеют формат ZIP . За ним следуют многими любимый WinRAR и набирающий обороты WinAce . Все эти архиваторы работают под управлением Windows
98/ Me / NT / 2000/ХР.

WinZip 9.0. Возможностей его вполне достаточно для того, чтобы обеспечить надежное и эффективное архивирование данных. Программа работает в двух режимах: классическом и режиме мастера, рассчитанном на новичков. Она ориентирована преимущественно на ZIP -архивы, но при этом поддерживает и другие популярные архивные форматы. В числе возможностей WinZip — поддержка технологии перетаскивания ( drag & drop ) и полная интеграция с программами «Мой компьютер» и «Проводник»; создание самораспаковывающихся файлов; поддержка антивирусных программ; отправка архива по электронной почте и пр. А для защиты архива от несанкционированного доступа можно при его создании указать пароль. WinZip 9.0 поддерживает 128- и 256-битовое шифрование АЕС, которое обеспечивает намного большую безопасность, чем традиционно используемый в более ранних версиях архиватора метод шифрования Zip 2.0. Кроме того, WinZip 9.0 позволяет теперь обрабатывать файлы практически неограниченного размера.

WinRAR 3.3 — признанный лидер среди программ-архиваторов по удобству и массовости применения, поддерживающий в настоящее время самый большой набор языков, включая русский. При этом формат RAR в большинстве случаев обеспечивает значительно лучшее сжатие, чем ZIP , особенно в режиме создания непрерывных архивов. Формат RAR оснащен несколькими очень важными функциями, отсутствующими у ZIP , к числу которых, например, можно отнести функцию добавления информации для восстановления, которая позволяет восстановить физически поврежденный файл, и функцию блокировки архивов для предотвращения случайной модифика-
ции особенно ценных данных. Формат RAR позволяет обрабатывать файлы практически неограниченного размера и не только предлагает оригинальные и эффективные алгоритмы для сжатия информации различных типов, но и автоматически применяет нужный алгоритм
при сжатии файлов. В число его основных особенностей входят: полная поддержка архивов RAR и ZIP ; управление архивами других форматов; наличие графической оболочки с поддержкой технологии перетаскивания drag & drop ; поддержка метода solid -архивирования, при котором может быть достигнута степень сжатия, на 10—50 % превышающая ту, что дают обычные методы; поддержка многотомных архивов (в формате RAR ); создание самораспаковывающихся ( SFX )
обычных и многотомных архивов; возможность создания и использования томов для восстановления, позволяющих воссоздавать недостающие части многотомных архивов; отправка архива по электронной почте и пр. Для удобства возможно создание избранных папок и архивов. Программа поддерживает два варианта работы: классический и с помощью мастера.

В последних версиях предлагаются новые возможности для защиты информации за счет применения 128-битного алгоритма шифрования данных и имен файлов в архиве с использованием алгоритма AES и сохранения данных о правах доступа. Очень удобна появившаяся в одной из последних версий архиватора возможностьпоиска файлов внутри архивов. Полезна новая команда «Просмотр
архива на вирусы», обеспечивающая распаковку архива во временную папку и проверку ее содержимого установленным на компьютере антивирусом. А команда печати позволяет теперь распечатывать как обычные, так и архивированные файлы.

ШпАсе 2.5. Может быть, в будущем этот набирающий популярность архиватор составит конкуренцию WinZip и WinRAR . Главное его достоинство — манипуляция разными форматами архивов. Архи-
ватор обеспечивает сжатие и распаковку многих известных форматов. Он поддерживает технологию перетаскивания ( drag & drop ); solid -архивирование для формата АСЕ; сжатие рисунков и звука; от-
правку архивов по электронной почте. Он также предоставляет возможности для создания многотомных архивов в форматах АСЕ, ZIP  и CAB , самораспаковывающихся архивов ( SFX ) АСЕ и ZIP и др. Есть возможность добавления информации для восстановления архива в случае его повреждения. В целом различных настроек и установок в WinAce больше, чем в любом другом архиваторе. Однако в освоении WinAce сложнее, чем WinRAR или WinZip .

 

Предмет: