РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ АНАЛИЗА И ОПТИМИЗАЦИИ ДЕЯТЕЛЬНОСТИ ПОДПИСНОГО АГЕНТСТВА Кравченко Е.А. Донецкий национальный технический университет В последние годы в Украине наблюдается стремительное развитие сектора периодических печатных изданий. Так, в 2006 году объём подписки периодических изданий вырос на 43.8% по сравнению с прошлогодним показателем. По Украине на 2006 год оформлена подписка на 23 млн 679,2 тыс. экземпляров отечественных периодических печатных изданий общегосударственной и местной сфер распространения, а также зарубежных изданий, что составляет 143,8% к уровню тиражей 2005 года. Среди них – 16 млн 254,8 тыс. экземпляров изданий общегосударственной сферы распространения (173,5% от подписных объемов этих изданий в предыдущем году), 7 млн 363,8 тыс. экземпляров газет и журналов местной сферы распространения (104,6% к уровню тиражей соответствующих изданий в 2005 году), а также 61,2 тыс. экземпляров зарубежных изданий. На 2006 год ассортимент периодических изданий в Украине (без учёта региональных изданий в областях, с учётом российских изданий, доступных для подписки в Украине) насчитывает более 3500 наименований. Очевидно, что при увеличении объёма оборотов в данном секторе, усложнении его структуры, задача наблюдения и анализа происходящих процессов также усложняется. Для её решения не достаточно ручных средств подсчёта и анализа данных. Адекватным по сложности решаемой задачи в данном случае является автоматизированная система для статистической обработки данных и построения прогнозов. В последнее время для решения задач такого рода всё большую популярность приобретают системы поддержки принятия решений (Decision Support Systems — DSS). DSS-система — это интерактивная компьютерная система, предназначенная для помощи лицу, принимающему решения, в использовании связей, данных, документов, знаний и моделей для идентификации и решения проблем и формирования решений. Существует связное понятие — Business Intelligence Tools (инструментальные средства бизнес-интеллекта) — программное обеспечение, которое дает возможность пользователям наблюдать и использовать большие объемы сложных данных. Выделяют три типа таких инструментальных средств: Средства многомерного анализа — программное обеспечение, которое дает пользователю возможность наблюдать данные в различных измерениях. Инструментальные средства запросов (Query Tools) — программное обеспечение, позволяющее формировать запросы к данным по содержанию или образцу. Инструментальные средства поиска данных (Data Mining Tools) — программное обеспечение, которое осуществляет автоматический поиск важных образцов (моделей), или зависимостей в данных. Исходные данные для Data Mining. Применение Data Mining оправданно при наличии достаточно большого количества данных, в идеале — содержащихся в корректно спроектированном хранилище данных (собственно, сами хранилища данных обычно создаются для решения задач анализа и прогнозирования, связанных с поддержкой принятия решений). Данные в хранилище представляют собой пополняемый набор, единый для всего предприятия и позволяющий восстановить картину его деятельности на любой момент времени. Типы закономерностей, выявляемых методами Data Mining Cогласно В.А.Дюку выделяют пять стандартных типов закономерностей, выявляемых методами Data Mining: - ассоциация — высокая вероятность связи событий друг с другом (например, один товар часто приобретается вместе с другим); - последовательность — высокая вероятность цепочки связанных во времени событий (например, в течение определенного срока после приобретения одного товара будет с высокой степенью вероятности приобретен другой); классификация — имеются признаки, характеризующие группу, к которой принадлежит то или иное событие или объект (обычно при этом на основании анализа уже классифицированных событий формулируются некие правила); кластеризация — закономерность, сходная с классификацией и отличающаяся от нее тем, что сами группы при этом не заданы — они выявляются автоматически в процессе обработки данных; - временные закономерности — наличие шаблонов в динамике поведения тех или иных данных (типичный пример — сезонные колебания спроса на те или иные товары либо услуги), используемых для прогнозирования. Методы исследования данных в Data Mining. Cегодня существует довольно большое количество разнообразных методов исследования данных. Основываясь на вышеуказанной классификации, предложенной В.А.Дюком, среди них можно выделить: - регрессионный, дисперсионный и корреляционный анализ (реализован в большинстве современных статистических пакетов, в частности в продуктах компаний SAS Institute, StatSoft и др.); - методы анализа в конкретной предметной области, базирующиеся на эмпирических моделях (часто применяются, например, в недорогих средствах финансового анализа); - нейросетевые алгоритмы, идея которых основана на аналогии с функционированием нервной ткани и заключается в том, что исходные параметры рассматриваются как сигналы, преобразующиеся в соответствии с имеющимися связями между «нейронами», а в качестве ответа, являющегося результатом анализа, рассматривается отклик всей сети на исходные данные. Связи в этом случае создаются с помощью так называемого обучения сети посредством выборки большого объема, содержащей как исходные данные, так и правильные ответы; - алгоритмы — выбор близкого аналога исходных данных из уже имеющихся исторических данных. Называются также методом «ближайшего соседа»; - деревья решений — иерархическая структура, базирующаяся на наборе вопросов, подразумевающих ответ «Да» или «Нет»; несмотря на то, что данный способ обработки данных далеко не всегда идеально находит существующие закономерности, он довольно часто используется в системах прогнозирования в силу наглядности получаемого ответа; - кластерные модели (иногда также называемые моделями сегментации) применяются для объединения сходных событий в группы на основании сходных значений нескольких полей в наборе данных; также весьма популярны при создании систем прогнозирования; - алгоритмы ограниченного перебора, вычисляющие частоты комбинаций простых логических событий в подгруппах данных; - эволюционное программирование — поиск и генерация алгоритма, выражающего взаимозависимость данных, на основании изначально заданного алгоритма, модифицируемого в процессе поиска; иногда поиск взаимозависимостей осуществляется среди каких-либо определенных видов функций (например, полиномов). В рамках написания магистерской диссертации планируется создать программную оболочку, ориентированную на решение задач анализа данных и прогнозирования, основанную на технологии Data Mining. Кравченко Е. А., "Разработка программного обеспечения для анализа и оптимизации деятельности подписного агентства", тезисы на международную конференцию студентов и молодых учёных, ДонНТУ, 2007г.