Российская Государственная Библиотека
Российская государственная библиотека
На главнуюНаша почта
На главную /  .. / Портал российских научных журналов / Программное обеспечение для создания архива / Программное обеспечение для хранения архива

Для определения механизма хранения и поиска в скачанных журналах были проведены работы по выбору программного обеспечения для ведения базы данных журналов и адаптации этого программного обеспечения. После изучения рекомендаций OSI по выбору программного обеспечения для создания институтских репозитариев были определены основные требования к такой системе (поддержка OAI-MH и DC), и выбрана система GREENSTONE. Эта система распространяется с открытыми кодами, и, благодаря этому, нам удалось доработать отдельные модули для решения наших задач (http://greenstone.org).

В процессе эксплуатации ПО Greenstone оказалось, что возможности пакета не позволяют создавать полностью функциональные архивы сайтов. Причинами этого являются нерациональное использование программы скачки сайтов wget и некорректная поддержка кодировок русского языка. Так, в дистрибутив greenstone 2.51 включена устаревшая версия программы wget 1.5.3, в то время как разработчики уже выпустили версию 1.9.1, доступную и под ОС Windows. Это значительно усложняет скачивание и включение в коллекции greenstone Web-сайтов, т.к. за последние 2-3 года (именно такая разница во времени между версиями 1.5.3 и 1.9.1) получили широкое распространение языки разметки HTML 4.0, XHTML, CSS 1/2, динамические сайты, реализованные на языках программирования PHP, ASP, JSP. Параметры, с которыми запускался wget, не позволяли сохранять ряд сайтов в файловой системе ОС Windows, т.к. содержали запрещенные в данной ФС символы (?, * и другие). Расширения файлов динамических сайтов не преобразовывались автоматически в .html, что не позволяло распознавать их как файлы гипертекстовых документов и, таким образом, они исключались из обработки соответствующими модулями пакета Greenstone.

В связи с вышеизложенным, было принято решение выделить процесс скачивания сайтов в отдельный программный модуль. Этот модуль был написан на языке PHP и использовал более совершенную версию программы wget 1.9.1, в том числе и в ОС Windows. Основной задачей модуля было скачивание сайта и подготовка его для дальнейшей обработки пакетом Greenstone. В процессе скачивания HTML-документы дополнялись информацией (метаданными) как о самом процессе скачивания (например, дата скачивания документа), так и самом документе (кодировка документа, язык документа). Эти метаданные извлекались из заголовков протокола HTTP, выдававшихся сервером.

Помещение метаданных о языке и кодировке HTML-документа в сам документ позволило решить проблему с поддержкой кодировок русского языка пакетом Greenstone. В первоначальном виде решение о том, в какой кодировке и на каком языке составлен документ принималось на основе специального алгоритма, который, как оказалось, корректно работает не во всех случаях, а только для файлов относительно большого объёма (это связано с вероятностной природой алгоритма). В случае же предварительной обработки документов и добавления в них информации об используемом языке и кодировке, вероятностная составляющая исключается и точность определения кодировок существенно повышается.

К сожалению, оказалось, что пакет Greenstone не поддерживает извлечение метаданных о языке и кодировке из HTML-документа, в связи с чем пришлось доработать алгоритм модуля обработки HTML-документов.

Помимо вышеперечисленного оказалось, что пакет Greenstone не позволяет указать "заглавную" страницу для сайта, что значительно усложняет просмотр сайта, находящегося внутри коллекции, как единого целого - сайт рассматривается как простой набор его страниц. Просматривая такой архив сайта, пользователь в ряде случаев должен обладать значительными познаниями в структуре интересующего его сайта, чтобы обнаружить оглавление содержащихся на сайте материалов. Для решения этой проблемы также пришлось внести изменения в модуль обработки HTML-документов пакета Greenstone.

Среди сделанных доработок ПО Greenstone также хочется отметить поддержку скриптов JavaScript, расположенных во внешних файлах. Эта доработка, хотя и не потребовала значительных усилий, тем не менее исключительно важна, так как скрипты на языке JavaScript широко используются на страницах сайтов.

В целом, работа с пакетом Greenstone производит приятное впечатление, среди достоинств пакета можно указать его цену (он бесплатный), поддержку платформ Windows и Linux, наличие подробной документации на русском языке, наличие оперативной и бесплатной технической поддержки со стороны разработчиков в специальных списках рассылки, протоколов Z39.50 и OAI. Неявным достоинством пакета можно считать поддержку проекта со стороны UNESCO. Для обычных пользователей это означает определённые гарантии существования пакета, его поддержки и выпуска новых версий в среднесрочной, а, скорее всего, и в долгосрочной перспективе, что является немаловажным фактором при выборе программного обеспечения.

Среди недостатков пакета можно отметить:

  • Относительную громоздкость. Дистрибутив пакета занимает значительный объём, установленное ПО требует повышенных вычислительных ресурсов системы.
  • Сложную внутреннюю структуру. ПО представляет собой собранный воедино набор программ различных разработчиков, что усложняет обнаружение ошибок и сопряжение различных модулей ПО.
  • Использование различных языков программирования. В случае необходимости внесения доработок потребуется программист достаточно высокого уровня.
  • На данный момент не реализована возможность накопительного индексирования документов коллекции - в случае добавления или изменения документов требуется пересоздание поисковых индексов, что является неприемлемым в случае значительного размера коллекции.
  • Избыточность сохраняемых данных. При сохранении HTML-документа происходит сохранение и всех связанных с ним файлов, причём в случаях, если разные HTML-страницы ссылаются на один и тот же файл (а такая ситуация встречается повсеместно, т.к. оформление сайтов реализуется при помощи графических и стилевых файлов), происходит многократное его дублирование. Учитывая значительный размер и количество графических файлов на современных сайтах, объём, занимаемый архивной версией сайта, может отличаться от исходного весьма ощутимо








Официальный сайт Российской Государственной Библиотеки
дизайн от студии Шире Шаг © 1999-2025 Российская Государственная Библиотека
По всем вопросам обращайтесь по официальному адресу0.0200469493866
техническая поддержка: АНО ПБР Свидетельство о регистрации средства массовой информации:
Эл № ФС 77-20215 от 13 декабря 2004 года