Отчет по мероприятию 17. 4 Разработка и внедрение комплекса специализированных образовательных программ повышения квалификации



страница5/6
Дата01.06.2016
Размер0.92 Mb.
ТипОтчет
1   2   3   4   5   6

Инструменты добычи данных

Knowledge Discovery in Databases (KDD)– это процесс поиска полезных знаний в "сырых" данных. KDD включает в себя вопросы подготовки данных, выбора информативных признаков, очистки данных, применения методов "раскапывания данных" (Data Mining), а также обработки и интерпретации полученных результатов.

Центральным элементом этой технологии являются методы Data Mining, позволяющие обнаруживать знания при помощи математических правил:

• Фильтрация. Необходимость в фильтрации возникает, когда нужно отделить полезную информацию от искажающего его шума за счет сглаживания, очистки, редактирования аномальных значений,

устранения незначащих факторов, понижения размерности информации и т.д. Применение фильтрации в системах анализа данных относится к первичной обработке данных и позволяет повысить качество исходных данных, а, следовательно, и точность результата анализа.

• Деревья решений. Они позволяют представлять правила в иерархической, последовательной структуре, где каждому объекту соответствует единственный узел, дающий решение. Под правилом понимается логическая конструкция, представленная в виде «если..., то...». Деревья решений применяются при решении задач поиска

оптимальных решений на основе описанной модели поведения.

• Ассоциативные правила. Они позволяют находить закономерности между связанными событиями. Примером такого правила служит утверждение, что в том случае, если произошло событие А, то произойдет и событие В с вероятностью C. Впервые это задача была предложена для нахождения типичных шаблонов покупок, совершаемых в супермаркетах, поэтому иногда ее еще называют

анализом рыночной корзины (market basket analysis).

• Генетические алгоритмы. Они применяются при решении задач оптимизации. Эти методы были открыты при изучении эволюции и происхождения видов. Генетические алгоритмы нужны для настройки нейронных сетей, а также решения различных задач, когда можно составить описание возможных вариантов решения в виде вектора параметров, и известен критерий, определяющий эффективность каждого варианта. Генетические алгоритмы применяются для составления расписаний, портфелей ценных бумаг, заполнения контейнеров при перевозке (пересылке) грузов, выбор маршрутов движения, конфигурации оборудования и т.д.

• Нейронные сети. Они реализуют алгоритмы на основе сетей обратного распространения ошибки, самоорганизующихся карт Кохонена, RBF-сетей, сетей Хэмминга и других подобных алгоритмов анализа данных. Нейронные сети применяются для решения самых

различных задач - восстановление пропусков в данных, поиск

закономерностей, классификация и кластеризация данных,

прогнозирование и моделирование.

Инструменты добычи данных поставляются заказчикам двумя

способами:

• в составе OLAP-систем

• в виде самостоятельных систем Data Mining.

Функциональность Data Mining в той или иной степени полноты реализации включена в аналитические системы различных производителей – Oracle, Hyperion, SAS и т.д. Однако, наиболее «продвинутыми» в этом плане являются специализированные системы математического анализа данных. В России авторитетным разработчиком систем в технологии KDD является компания "Лаборатория BaseGroup".

Средства построения Хранилищ и Витрин данных

Хранилища и Витрины данных создаются с применением специализированных средств построения Хранилищ\витрин данных. К этим средствам относятся:

• средства проектирования Хранилищ данных;

• средства извлечения, преобразования и загрузки данных;

• готовые предметно-ориентированные ХД.

Средства проектирования Хранилищ данных входят в состав реляционных и многомерных СУБД от таких производителей как Microsoft, Oracle, IBM, Sybase и других. Также часто применяются универсальные CASE-инструменты, такие как BPWin и ErWin. После описания структур хранения данных специальными системными утилитами выполняется их генерация. Такой подход к созданию Хранилища данных позволяет построить индивидуальное Хранилище или Витрину данных в сжатые сроки. В тоже время такой подход затрудняет перенос наработок от одного заказчика к другому и обмен практическим опытом в решении аналитических задач. Альтернативным способом построения Хранилищ данных является применение других специализированных средств – Студий для построения Хранилищ данных. Такие продукты предлагают набор шаблонов и заготовок для быстрого создания Хранилища. В составе Студии может предоставляться базовая модель Хранилища данных, ориентированная на определенную бизнес-сферу. С помощью таких инструментов можно значительно быстрее создать Хранилище данных, воспользовавшись опытом предыдущих решений и начать его эксплуатацию. Продукты этого класса, в частности, предлагает компания Sybase – это продукт Industry Warehouse Studio.

ETL-средства (extraction, transformation, loading) – средства извлечения, преобразования и загрузки данных) обеспечивают три основных процесса, используемые при переносе данных из одного приложения или системы в другие. ETL-средства извлекают информацию из исходной базы данных, преобразуют ее в формат, поддерживаемый базой данных назначения, а затем загружают в нее преобразованную информацию. Эти средства обычно входят в состав функциональности реляционных и многомерных СУБД или Студий для построения Хранилищ данных. Однако существуют и специализированные системы, реализующие только ETL-функции____о.

Классической ETL-системой является, например, продукт Ascential DataStage компании Ascential Software.

И, наконец, существует еще один способ построения Хранилищ и Витрин данных – это применение готовых предметно-ориентированных Хранилищ данных. Это самый надежный способ построить Хранилище данных в сжатые сроки. Готовые к эксплуатации Хранилища данных характеризуются наличием в них механизмов средств построения Хранилищ/Витрин данных, взаимосвязанных посредством единого словаря метаданных. К ним относятся - процедуры извлечения, преобразования, очистки и загрузки данных, функции генерации баз

данных и процедур обработки, механизмы построения выборок данных, интерфейсы просмотра и анализа данных. Ограничением в применении готовых Хранилищ данных является их предметная ориентация.

Например, финансовое Хранилище данных невозможно применить для решения задач оптимизации химического производства. Примером готового предметно-ориентированного Хранилища данных является система Контур Корпорация от компании Intersoft Lab. Применение предметно-ориентированных Хранилищ данных отражает общемировую тенденцию развития рынка BI, наметившуюся в последнее время – предоставления платформ для "быстрой" разработки аналитических приложений.

Управленческие информационные системы и приложения

Существует еще один очень разносторонний класс аналитических систем. Это – конечные решения для управленцев и аналитиков.

Исторически сложилось так, что технологическая основа реализации таких систем существенно различается. Одни из них построены на современных аналитических инструментах, другие – с применением базовых информационных технологий. Чтобы легче ориентироваться в этих системах вводится 3 классификации:

• по виду решаемой задачи;

• по масштабу решаемой задачи;

• по технологическому построению.

Аналитические системы классифицируются по виду задач, решаемых с их помощью. Среди видов задач можно выделить:

• Анализ финансового состояния банка или предприятия, выполняемый по внешним публичным данным, таким как баланс, отчет о финансовых результатах, иногда - приложение к балансу и отчет о движении денежных средств. Системы - Audit Expert (Про-Инвест), Альт-финансы (Альт), АБФИ (Вестона), Аналитик, АФСП, АДП (ИНЭК) и другие.

• Инвестиционный анализ – для комплексной оценки эффективности инвестиционных проектов и принятия решения об их финансировании, Project Expert (Про-Инвест), Альт-Инвест (Альт) и другие.

• Подготовка бизнес-планов, учитывающих вариации схем производства, сбыта и финансирования, комплексного анализа маркетинговой ситуации, чувствительности проекта по основным параметрам. Системы - Project Expert (Про-Инвест), Альт-Инвест (Альт) и другие.

• Маркетинговый анализ, позволяющий оценить положение компании на рынке, провести сравнительный анализ ее сбытовой деятельности с конкурентами, сформировать оптимальную структуру сбыта, определить доходность различных сегментов рынка и товаров, долю рынка компании, темпы роста и другое. Системы – Marketing Expert (Про-Инвест), Касатка и другие.

• Управление проектами, применяемое для разработки расписания исполнения проекта, определения критического пути ирезервов времени исполнения операций проекта; потребности проекта в финансировании, материалах и оборудовании, анализ рисков и планирование расписания с учетом рисков и так далее. Системы – MS Project (Microsoft), Open Plan (Welcom Software Technology) и другие.

• Бюджетирование, обеспечивающее планирование, учет и анализ по центрам финансовой ответственности, бизнесам, продуктам в разрезе активов и пассивов, доходов и расходов, выполнение аллокаций и расчет финансового результата. Системы - Hyperion Pillar, Comshare MPC, Контур Корпорация. Бюджет (Intersoft Lab) и другие.

• Финансовое управление, включающее помимо задач бюджетирования задачи финансового планирования, управленческого учета, трансфертного управления ресурсами, оценки бизнесов по методу ABC, анализа активов, пассивов, рисков. Системы - Oracle Financial Services Applications (Oracle), Контур Корпорация. Финансовое управление (Intersoft Lab) и другие.

На практике встречается гораздо больше видов задач, но здесь был перечислен ряд только тех задач, которые нашли свое воплощение в тиражных аналитических системах. Некоторые из этих систем могут решать только одну задачу, другие являются комплексом, включающим в себя широкий перечень взаимосвязанных задач.

Аналитические системы также классифицируются по масштабу решаемой задачи:

• Системы автоматизации труда одного специалиста. Это так называемые DeskTop-системы, предназначенные для автоматизации труда узкого специалиста. Как правило, для эксплуатации таких систем не требуется помощь службы автоматизации.

• Системы для коллективной работы группы сотрудников.

Такие системы содержат средства, обеспечивающие коллективную работу пользователей в режиме реального времени с единой базой данных в рамках прав доступа. Такие системы уже требуют выполнения функций администрирования и сопровождения.

• Системы для применения в территориально распределенной корпорации. Эти системы включают в себя свойства аналитических систем для групп пользователей, а также средства взаимодействия с удаленными подразделениями корпорации (филиалами) в виде технологий сбора данных, дистрибуции НСИ и отчетов. Системы данного класса сложны в эксплуатации, но при этом обеспечивают наиболее полное решение аналитических и управленческих задач.

По технологическому построению аналитические системы можно условно разделить на монолитные и настраиваемые:

• Монолитные аналитические системы характеризуются тем, что аналитическая методика в них реализуется в коде самой программы, а не в виде настройки универсального аналитического инструмента. В этом случае аналитическая система не требует, как правило, выполнения существенных работ по своей настройке (за исключением систем класса Data Mining). Она может использоваться практически сразу после установки. В то же время такие системы не "гибкие" и плохо поддаются изменениям в соответствии с требованиями пользователя. Монолитные системы разрабатываются с применением базовых средств программирования и СУБД.

• Настраиваемые аналитические системы характеризуются тем, что при их создании применяются универсальные аналитические инструменты и специализированные средства, такие как OLAP, Студии, ETL, Data Mining. Их применение позволяет повысить качество аналитической системы, дает перспективы развития, но в то же время приводит к удорожанию конечного решения. Прикладные аналитические системы, выполненные в виде настроек универсальных аналитических инструментов, требуют большего объема работ при внедрении, однако позволяют реализовывать уникальные аналитические методики, принятые в организации.

Компромиссом между этими двумя классами систем является реализация аналитической методики в виде Приложения универсальной аналитической системы. Такой подход позволяет выполнять их тиражирование независимо друг от друга. Но подобных систем в настоящее время на рынке представлено крайне мало.



Инструменты конечного пользователя для выполнения запросов и построения отчетов

Системы данного класса (Query & Reporting) предназначены для формирования запросов к информационным системам в пользовательских терминах, а также их исполнение, интеграцию данных из разных источников, просмотр данных с возможностями детализации и обобщения и построение полноценных отчетов, как экранных, так и печатных. Предполагается, что уровень подготовки специалиста, создающего отчеты, может быть приравнен к опыту среднего пользователя Excel. Поэтому пользователь составляет запрос к источнику данных, используя заранее подготовленный программистом каталог терминов (семантический слой). Визуализация результатов

запроса может быть представлена пользователю в различном виде – плоские или многомерные таблицы, графики, диаграммы, различные специализированные интерфейсы.

Инструменты конечного пользователя для выполнения запросов и построения отчетов поставляются двумя способами:

• в составе OLAP-систем,

• в виде специализированных систем Query & Reporting.

Практически каждая система класса OLAP снабжена средствами Query & Reporting. Эти средства могут быть как встроенными в основной продукт (примеры – Business Objects, "Контур Стандарт", Oracle Discoverer), так и выделенными в отдельный продукт (например, система Impromptu в составе продуктов Cognos).

Также существуют и специализированные системы генерации и дистрибуции отчетов. Наиболее распространенные из них – это продукты компаний Crystal Decisions и Actuate. В то же время эти системы имеют в своем составе собственные OLAP-средства. Поэтому провести четкую грань между OLAP-системами и системами класса Query & Reporting практически невозможно. Пример – продукты компании MicroStrategy, которые различные аналитики и издания с равной регулярностью относят к продуктам обоих классов.


4. Общая структура информационной аналитической системы

Полная структура информационно-аналитической системы, построенной на основе хранилища данных, показана на рисунке 1. В конкретных реализациях отдельные компоненты этой схемы часто отсутствуют.





Рис. 1. Структура информационной аналитической системы (ИАС)
Рассмотрим состав основных подсистем.

Подсистема хранения данных

Многомерное хранилище данных может быть организовано в виде одной из следующих структур:

1. физической структуры, называемой MOLAP, в которую с определенной периодичностью загружаются данные из файлов – источников, принадлежащих базам оперативных данных виртуальной структуры, называемой ROLAP, которая динамически используется при запросах. ROLAP – система рассматривается просто как надстройка над реляционными базами данных, обеспечивающая удобный интерфейс пользователя. Типичными инструментальными средствами, поддерживающими ROLAP, является Business Objects.

3. гибридной структуры, называемой НOLAP, которая используется при построении многоуровневых информационных хранилищ, применяемых на разных уровнях управления больших корпораций. Анализ параметров использования ROLAP и MOLAP информационных хранилищ показывает, что внедрение и эксплуатация ROLAP - систем является более простым и дешевым по сравнению с MOLAP – системами, но уступают последним в эффективности оперативного анализа данных.



Подсистема метаинформации

Репозиторий представляет собой описание структуры информационного хранилища: состава показателей, иерархии агрегаций измерений, форматов данных, используемых функций, физического размещения на сервере, прав доступа пользователей, частоты обновления.

В репозитории задается схема отображения структуры файлов- источников данных на структуре ИХ, а также схема отображения структуры ИХ на витринах данных. Через репозиторий осуществляется интерпретация запросов к ИХ на проведение оперативного анализа данных.

Подсистема преобразования данных (загрузки хранилища)

Подсистема загрузки ИХ создается только для MOLAP – систем. Для ROLAP – систем в процессе выполнения запросов осуществляется преобразование данных из файлов – источников. В том и другом случаях требуется выполнение следующих основных функций:

• сбор данных;

• очистка данных;

• агрегирование данных.

Сбор данных предполагает передачу данных из источников в ИХ в соответствии со схемой отображения, представленной в репозитории. В процессе очистки данных осуществляется проверка целостности, исключение дублирования данных, отбраковка случайных данных, восстановление отсутствующих данных, приведение данных к единому формату. В случае необходимости агрегирования данных осуществляется суммирование итогов по заданным в репозитории признакам.



Подсистема представления данных (организация витрин данных)

Под витриной данных понимается предметно-ориентированное хранилище данных, как правило, агрегированной информации, предназначенное для использования группой пользователей в рамках конкретного вида деятельности предприятия, например маркетинга и т.д. Как правило, витрины данных являются подмножествами общего хранилища данных компании, которое служит для них источником. Обычно общее ИХ и витрины данных разрабатываются параллельно.



Подсистема оперативного анализа данных

Подсистема оперативного анализа данных, как правило, используется лицами, подготавливающими информацию для принятия решений, путем выполнения различных статистических группировок исходных данных. В рамках пользовательского интерфейса для оперативного анализа данных используются следующие базовые операции:

Поворот. Добавление нового признака анализа.

Проекция. Выборка подмножества по задаваемой совокупности измерений. При этом значения, лежащие на оси проекции, суммируются.

Раскрытие. Осуществляется декомпозиция признака агрегации на компоненты, например, признак года разбивается на кварталы. При этом автоматически детализуются числовые показатели.

Свертка. Операция обратная раскрытию. При этом значения детальных показателей суммируются в агрегируемый показатель.

Сечение или срез. Выделение подмножества данных по конкретным значениям одного или нескольких измерений.

Подсистема интеллектуального анализа данных

Подсистема интеллектуального анализа данных используется специальной категорией пользователей – аналитиков, которые на основе ИХ обнаруживают закономерности в деятельности предприятия и на рынке, используемые в дальнейшем для обоснования стратегических и тактических решений. Интеллектуальный анализ требует более сложных методов анализа по сравнению со статическими группировками и выполняется путем проведения множества сеансов.

Типичными задачами интеллектуального анализа данных являются:

• Установление корреляций, причинно-следственных связей и временных связей событий, например определение местоположения прибыльных предприятий.

• Классификация ситуаций, позволяющая обобщать конкретные события в классы, например определение типичного профиля покупателя конкретных видов продукции.

• Прогнозирование развития ситуаций, например прогнозирование цен, объемов продаж, производства.

К основным методам интеллектуального анализа данных относятся:

− Методы многомерного статистического анализа;

− Индуктивные методы построения деревьев решений;

− Нейронные сети.



Подсистема «Информационная система руководителя»

Информационная система руководителя предназначена для лиц, непосредственно принимающих решения. Поэтому интерфейс таких систем должен быть в наибольшей степени упрощенным. Обычно в качестве интерфейса руководителям предприятия предлагается набор стандартных отчетов и графиков, настраиваемых на потребности руководителя через систему меню. Часто в качестве интерфейса предлагаются диаграммы Ишикава, представляющие собой саморазворачивающееся дерево показателей, в котором листья ветвей раскрашиваются в разные цвета, символизирующие характер состояния показателя (нормальный, тревожный, кризисный). Лист любой ветви дерева может быть развернут а таблицу значений показателя или график.



Автоматизация планирования и проектирования на предприятии
1. Модель управления ERP

За основу подхода можно взять следующее утверждение: Автоматизация процессов предприятия должна вытекать из стратегии развития предприятия и быть эффективной. Другими словами, автоматизировать нужно только те задачи, которые способствуют достижению цели предприятия. При этом каждая задача автоматизации должна быть оценена с позиции Цена/Эффективность.

Этот подход действительно можно назвать правильным, даже идеальным. Суть его заключается в следующем:


  1. Исходя из целей и стратегии предприятия выделяются бизнес-процессы, требующие качественного улучшения.

  2. Для каждого выделенного бизнес-процесса ставится задача автоматизации, позволяющая повысить эффективность работы процесса.

  3. Предполагаемый эффект от задачи автоматизации оценивается заранее и сравнивается с величиной затрат на ее реализацию.

  4. Реорганизация и автоматизация бизнес-процессов предприятия.

При таком подходе основными задачами, требующими автоматизации на предприятиях, будут те, эффект от реализации которых можно оценить наиболее явным образом:

  • Задачи планирования ресурсов предприятия (материальных, трудовых, финансовых) – уменьшение затрат, связанных с использованием ресурсов

  • Управление отношениями с клиентами - привлечение новых и удержание существующих клиентов

  • Конструкторско-технологические процессы – уменьшение стоимости и повышение качества конструкторско-технологических разработок

Модель управления ERP развивалась в течение последних 30-ти лет от простых задач определения материальных потребностей к управлению сложными производственными процессами. Общая схема показана на рис 1.

Существует целый ряд причин, по которым модули планирования потребностей в ресурсах и объемно-календарного планирования мощностей оказываются не в состоянии обеспечить требуемую эффективность производственного планирования:



  • степень детализации при планировании мощностей оказывается слишком укрупненной, чтобы принимать обоснованные плановые решения;

  • существующие технологии не позволяют одновременно повысить степень детализации и решать в реальном времени задачи анализа и моделирования;

  • инструментальные средства использовались крайне редко и были слабо приспособлены к работе высшего звена;

  • не рассматривалась задача с одновременными ограничениями на доступные материальные ресурсы и мощности;

  • плановое решение ограничивалось одним заводом;

  • не было эффективной и оперативной обратной связи в виде задачи учета фактического состояния, чтобы улучшить процессы и информационное обеспечение;

  • не было возможности оптимизации плановых решений;

  • производственные циклы часто оставались статичными и менялись, главным образом, вручную, а не динамически.


itob05_01
 Рис. 1 Структура планирования в системе ERP
Планирование материальных потребностей (MRP)

Каталог: wp-content -> uploads -> 2011
2011 -> Темы курсовых мероприятий для корпоративного обучения на базе образовательных организаций
2011 -> Выявить динамику взглядов на предмет психологии и методы ее изучения в различные исторические периоды
2011 -> Учебно-методический комплекс по дисциплине разработан в соответствии с гос впо 2005 г., программами по курсу «Технологии и методики обучения русскому языку»
2011 -> Учебно-методический комплекс по дисциплине разработан в соответствии с гос впо 2005 г., программами по курсу «Теория и методика обучения русскому языку»
2011 -> Приказ № от 20 г. Педагогическим советом Директор гоу гимназии №622 Выборгского района Санкт-Петербурга
2011 -> Эффективность подготовки кадров определяется возможной востребованностью выпускников успо и унпо и подразумевает повышение качества подготовки специалистов
2011 -> Платонова Татьяна Юрьевна Свет истины


Поделитесь с Вашими друзьями:
1   2   3   4   5   6


База данных защищена авторским правом ©psihdocs.ru 2017
обратиться к администрации

    Главная страница