Автор: С. В. Веретехина
Источник: Инновации в науке №2 (51), 2016г. С.8-15.
С. В. Веретехина Оцифровка архивных документов в формате PDF/A Аннотация. В статье проведен обзор требований к организации хранения, комплектования и использования архивных документов. Описано основное требование новых Правил архивного хранения документов, передаваемых в архивный фонд РФ в формате PDF/A. Рассмотрен международный подход по организации и применению серии форматов PDF при оцифровке документов. В табличной форме представлен подбор отечественного и зарубежного программного обеспечения по оцифровке архивных документов. Выявлены технические преимущества хранения документов в новом формате PDF/A. Определено уникальное свойство формата PDF/A. Приведено технико-экономические обоснование необходимости использования формата PDF/A организациями, органами государственной власти и местного самоуправления.
Организация хранения, комплектования, учета и использования архивных документов Архивного Фонда Российской Федерации требует внедрения современных подходов. Информатизация общества, наличие телекоммуникаций и различных каналов связи, возникно- вение новых форматов хранения архивных документов способствуют совершенствованию методов хранения архивных документов. Для органов государственной власти, органов местного самоуправления и организаций вопрос передачи на архивное хранение документов в Архивный Фонд РФ является ответственной задачей. Приказ № 526 от 31 марта 2015 г. Министерства культуры РФ вводит в силу новые
«Правила организации хранения, комплектования, учета и использо- вания документов Архивного Фонда РФ и других архивных документов в органах государственной власти, органах местного самоуправления и организациях». В главе II Правил в п. 2.31 определено: «Передача текстовых электронных документов для хранения в архив организации, являющейся источником комплектования государственного и муниципального архива, осуществляется в формате PDF/A».
По вопросу хранения архивных документов в формате PDF/A ведутся споры [1]. Но законы не обсуждаются – они исполняются. Если на уровне Министерства принимаются такие решения (использование новых форматов), то, возможно, назрела крайняя необходимость. Попробуем разобраться в целесообразности принятия данного решения.
Международный стандарт ISO 19005-1 «Управление докумен- тацией. Формат файла электронного документа для долгосрочного хранения» разработан Техническим комитетом совместно с подкоми- тетами и Рабочей группой, а именно:
Все страны на протяжении последних десятилетий использовали формат PDF (цифровой формат переносимого документа) посредством оцифровки бумажных документов. Коммерческие и правительст- венные организации, библиотеки, архивы, другие учреждения и отдельные лица во всем мире используют формат PDF для представ- ления важной информации [3]. Предполагалось, что PDF формат позволит сохранить документ в течение длительного срока, но сказать, что этот срок бесконечен, не представлялось возможным. Будущие поколения могут использовать оцифрованные документы, используя программное обеспечение Adobe Acrobat Reader фирмы “Adobe Systems Incorporated”. Однако природа простого формата PDF не предназначена для долгосрочного хранения документов и имеет ряд ограничений долгосрочного хранения.
Формат PDF является универсальным форматом оцифрованных документов. История возникновения и преобразования формата многогранная. Формат PDF/X (буква Х в обозначении обозначает eXchange) был разработан для полиграфии и описывается международный стандартом ISO 15930 (рабочая группа ISO TC130). Требовался формат, пригодный для передачи печатных оригиналов в цифровом рабочем потоке. Усовершенствованным форматом впоследствии становится формат PDF/X-1(формат, предназначенный для обмена данными в полиграфии), анонсируемый международным стандартом ISO15930-1, с этого момента обозначаемый как PDF/X-1а (стандартный формат файлов, специально предназначенный для «слепого» обмена готовыми к печати документами в виде электронных данных). Совершенствование формата PDF/X продолжается. Переход формата PDF/X-1 в PDF/X-3 происходит в 2002 г. Достоинством формата PDF/X-3 является автоматическая адаптация и безошибочное создание файлов без необходимости согласования установок, а также возможность преобразования и интерпретации цветовых профилей, что облегчает работу цветной полиграфии. Управление цветом стало возможно в рабочем потоке, что обеспечивало надежную передачу цветового массива. Далее последовали форматы PDF/X-4, PDF/X-5. Достоинством последующих форматов становится возможность использования сжатия изображений, поддержка различных цветовых систем (прозрачного, нейтрально серого и т. д.), встраиваемых профилей.
Совершенствование программного обеспечения в части качест- венной визуализации образов связано с потребностью представления информации в 3D-пространстве. Формат PDF/Е (визуализация трехмерных изображений и задание метаданных для свойств объектов) ратифицирован организацией ISO в 2007 г. в качестве открытого стандарта. Формат PDF/Е удобен для обмена документами между архитекторами, строителями, инженерами производственных групп. Документы инженерных процессов содержат чертежи, которые отображаются как в 2D-, так и в 3D-пространстве, а также дополняются сметами или спецификациями [6]. Возникновение формата PDF/A инициировано некоммерческой международной организацией AIIM, осваивающей передовые практики архивирования документации и оптимизации информационных ресурсов, рассматри- вающей вопросы управления информацией и изображениями. PDF/A – это подмножество формата PDF, содержащее ограниченный набор возможностей представления данных. Этот формат предназначен для долгосрочного хранения электронных документов. ISO 19005-1 п. 3.13 дает определение формат файла для долгосрочного хранения. Термин «долгосрочный период хранения» – это период времени, достаточный для отслеживания последствий воздействия изменяющихся техно- логий (включая поддержку новых средств информации и форматов данных, а также изменяющегося сообщества пользователей), касающихся информации, находящейся в хранилище, который может продлеваться на неопределенное время в будущем. Другими словами – это то время, в течение которого вне зависимости от изменения технологий, данные будут доступны к прочтению. Обеспечение длительного срока хранения достигается посредством внедрения в содержимое электронного документа в формате PDF/A всей информации, необходимой для его отображения. Первая редакция формата PDF/A-1 (PDF1.4) предоставляет следующие возможности:
Международный стандарт основными задачами использования формата файла электронного документа для долгосрочного хранения PDF/A-1 (PDF1.4) определяет:
Документ, сохраненный в формате PDF/A, имеет объем (вес) больше, чем документ, сохранённый в формате PDF. Документ, сохраненный в формате PDF, в силу отсутствия связей с гиперссылками и мультимедийным контентом, можно открыть в операционной системе с помощью приложения, подтверждающего соответствующий формат. Документ, сохраненный в формате PDF/A, позволяет осуществить сжатие в 100 раз, сохраняя качество первоначального изображения. Уникальное свойство формата PDF/A – это бесконечно малое место хранения на сервере и сверхвысокая скорость передачи данных по каналам связи.
Дополнительно стандарт ISO 19005-1 вводит следующие термины, которые рекомендуется употреблять для этой спецификации или ее частей, когда полное название стандарта ISO не используется:
Обработка архивных документов предусматривает возможность конвертации документов. Конвертация – это перемещение с одного носителя на другой или из одного формата в другой. Требования к процессам конвертации описаны в ГОСТ 15489-1-2007 «Управление документацией. Общие требования». Поставщиками программного обеспечения для конвертации копии документов в формате PDF/A являются (таблица 1):
Таблица 1. Программное обеспечение для конвертации копии документов в формат PDF/A
№ п/п | Наименование программного продукта | Компания производитель | Страна изготовитель | Область использования |
1. | Luradocument pdf compressor | Luratech ltd. | Германия | Является признанным экспертом международного класса в области создания электронных архивов |
2. | Pdfcompressor | Cvision technologies inc. | США | Предлагает полный спектр продуктов, направленных на автоматизацию потокового ввода и обработки документов |
3. | Cognitive pdf/a (sdk) сompressimo | Cognitive technologies | Россия | Дополнительно: распознавание фотографий и документов, сделанных на iphone 4s |
4. | Openoffice | Sun microsystems | США | В основном ориентирована на восточно-азиатский рынок, имеет восточно-азиатские шрифты, дополнительные шаблоны, сортировку по азиатскому типу, обеспечивает миграцию документов, утилиты для управления конфигурациями |
Из таблицы 1 видно, что рынок программного обеспечения конвертации документов в формат PDF/A четко структурирован. Компании производители программного обеспечения не конкурируют между собой, а соблюдают требования стран по электронному представлению архивных документов по восточно-азиатскому типу (OpenOffice), европейскому (LuraDocument PDF Compressor), американскому (PDF Compressor), российскому (Cognitive PDF/A (SDK) Compressimo). Отчет о научно-исследовательской работе РГГУ содержит сравнительный анализ форматов файлов постоянного (долговременного хранения). В отчете формат PDF/A описан так:
«… Исходя из проведенных сравнений между форматами PDF и его производным PDF/A, можно утверждать, что первый больше пригоден для оперативного обмена и краткосрочного хранения электронных документов, в свою очередь, как PDF/A, имея статус международного стандарта, гарантирует, что даже через продолжительное время, вне зависимости от окружения и операционной системы, любой пользователь сможет открыть документ в данном формате, располагая ПО-просмотрщиком. В целом это соответствует концепции архива электронных документов» [8]. Делая выводы, можно провести оценку технико-экономической эффективности внедрения формата PDF/A-1 (PDF1.4).
Во-первых, формат PDF/A-1 (PDF1.4) рекомендован к применению на территории РФ, введен в действие Приказом Минкультуры России от 31.03.2015 № 526, зарегистрирован в Минюсте России 07.09.2015 № 38830.
Во-вторых, формат PDF/A-1 (PDF1.4) является современным форматом долгосрочного хранения, не зависит от программного окружения и операционной системы, сокращает затраты будущих поколений на хранение, т. к. изначально ориентирован на хранение начиная от 70 лет и далее, предназначен для хранения на новых носителях информации.
Хочется отметить, что современное российское программное обеспечение (ПО) не уступает зарубежным аналогам, соответствует большей части международных требований, покрывает требования к долгосрочному архивному хранению оцифрованных документов, и в условиях импортозамещения ПО рекомендовано к применению организациям, органам государственной власти, местного самоуправления РФ [5].