Управления аварийными сообщениями сети FM (Fault Management)

Вопросы управления сложными конвергентными сетями

Постоянно развивающийся и растущий набор сетевых и ИТ-устройств, операционных систем, серверов, приложений, маршрутизаторов и коммутаторов в современных сетях должен работать как единая сущность с оптимальной производительностью в целях удовлетворения соглашений о качестве сервиса в сервис-провайдерах и предприятиях. Дополнительно конкурентное давление повышает внимание к качеству сервиса и удовлетворённости клиентов, делая приоритетным унифицированный и сквозной подход к мониторингу.

Тем не менее, большинство компаний внедрили мириады инструментов мониторинга с разделёнными пользовательскими интерфейсами и событийными мониторами для сбора миллионов событий, журналов и сообщений с множества устройств, серверов и приложений. В результате инженеры сталкиваются с необходимостью переключать внимание с одной системы на другую под давлением большого количества событий в попытках разобраться в них. И они не видят сквозную единую картину многокомпонентной сети без выполнения сложного “ручного” анализа.

Эта ситуация приводит к падению производительности труда, увеличивает среднее время на восстановление, увеличивает расходы и негативно влияет на удовлетворённость клиентов.


Преимущества Assure1 Fault Management

Решение Federos Assure1™ формирует унифицированный подход к управлению ИТ-инфраструктурой, бизнес-услугами и к качеству обслуживания клиентов. Обнаружение устройств, регистрация сбоев, мониторинг производительности, сервис топологии и сервисное обслуживание сети теперь интегрированы в единой масштабируемой платформе, обеспечивающей выполнение задач OSS и BSS с существенно лучшими показателями производительности, масштабируемости и стоимости, чем у других, морально устаревших и несовместимых между собой систем.

Решение Federos Assure1 Fault Management System является унифицированным “Менеджером Менеджеров”, так как оно отслеживает всю инфраструктуру из единой консоли, предоставляя основу для ЦУС, сфокусированного на клиентах и сервисах.

Лидирующая в отрасли система управления Federos по управлению авариями и обработке событий агрегирует и соотносит большие объемы информации по авариям и событиям от инфраструктурных компонентов, ИТ и EMS систем управления. Она может принимать, обрабатывать и обогащать информацией масштабные потоки событий в любых форматах, имеет полностью настраиваемый механизм обработки событий и предоставляет расширенные возможности их корреляции.

Со всей мощью единого унифицированного решения Federos Assure1 автоматизирует, упрощает и унифицирует операции по сервисному управлению через консолидацию разрозненных инструментов и улучшает общую организацию и стандартизацию управления. Это значительным образом уменьшает операционные расходы и упрощает рабочий процесс. Унифицированный подход Federos предлагает стандартизированные, автоматизированные рабочие процессы и, как следствие, возможность более активного привлечения новых клиентов. Assure1 Fault Management уменьшает TCO, дает новые мощные возможности и уменьшает необходимость ручных операций.


Возможности Assure1

Assure1 Fault Management уменьшает сложность управления сервисами и инфраструктурой, нормализуя информацию по устройствам, авариям, производительности, топологии, сервисной логике, правилам обработки событий и взаимоотношениями между компонентами в едином хранилище информации. Унифицированная система представления обеспечивает активную, многоролевую модель управления, которая охватывает инфраструктуру, сервисы и качество обслуживания клиентов в единое решение по обеспечению гарантированного качества услуг.

Это упрощает управление телекоммуникационной инфраструктурой, через консолидацию разрозненных инструментов в единую платформу, значительно снижая операционные расходы, и гарантирует быстрое развертывание приложений и сервисов, повышая тем самым уровень удовлетворённости клиентов.

Assure1 Fault Management также предоставляет передовые возможности по корреляции событий, например, используя знания о топологии или с помощью настраиваемых политик с автоматизацией процедур производит редупликацию “из коробки”.

Federos предоставляет наиболее гибкое и масштабируемое решение на рынке по обработке событий, неисправностей и логов, созданное при помощи новейших web-технологий, таких как HTML 5. Решение имеет низкие эксплуатационные расходы, так как оно создано на единственной кодовой базе на архитектуре LAMP и содержит в себе автоматизацию, что упрощает административные задачи.

Решение, построенное на Web 2.0 архитектуре для гибкости и простоты использования, заметно улучшает эффективность управления для центров управления сетью и ИТ департаментов за счет уменьшения времени простоя, быстрой изоляции корневых причин аварий и подавления событий-потомков.


Алгоритм работы платформы

  • Мониторинг: активный сбор и обогащение больших объемов данных из любой технологии, протокола, или потока с нормализацией Определение: корреляция данных, изоляция причины от симптомов и обеспечение своевременной сигнализации об аварии
  • Анализ: поиск пути устранения, тестирование и верификация, определение влияния на клиентов, уведомление, эскалация
  • Устранение: решение проблемы, восстановление работоспособности, уведомление
  • Выводы: предотвращение, пересмотр процессов и политик, оценка рисков воздействия на управляемые ресурсы

Мониторинг событий

Мониторинг в сложной технологической среде является важной задачей. Модуль мониторинга отслеживает состояние и производительность инфраструктуры в целом, отдельных ее элементов и все их взаимосвязи. Он предупреждает администраторов и других сетевых специалистах о сбоях, произошедших в цепочке производительности.

Assure1 Fault Management снижает операционные расходы и повышает производительность персонала за счет эффективного сбора больших объемов данных событий с любого устройства или домена, тем самым устраняя необходимость в нескольких инструментах мониторинга.

Модуль собирает ошибки и события непосредственно с устройств с помощью Syslog, SNMP, TL1 и с EMS с использованием CORBA, SOAP, XML и других методов, а также пороговых значений через мониторинг доступности и производительности. Консольные агенты собирают конфигурации, в том числе уведомления об изменениях конфигурации, чтобы инициировать аудит и для предоставления настраиваемого аудита с целью выявления проблем.

Затем большие объемы данных мониторинга приоритезируются и преобразуются в полезную информацию, которая может использоваться в OSS/BSS системах, например, чтобы определить соотношения между данными мониторинга и названием затронутого клиента, ID канала, а также контактной информацией.

Для мониторинга, сбора, обработки и обогащения информацией событий, на сети используются правила на базе агрегатора. Организации могут выполнять фильтрацию, обогащение и приоритезацию событий с высокой степенью гранулярности и скорости, поскольку это происходит до загрузки в базу данных.


Определение аварий

Assure1 Fault Management имеет низкую совокупную стоимость владения (TCO) за счет уменьшения потока событий и изоляции причины от симптомов. Federos использует мощь своей единой базы данных, чтобы выполнять многие операции автоматически и на лету, а также через постобработку и корреляцию, которые упрощают создание пользовательских политик. Хранение событий в режиме реального времени обеспечивает более высокий уровень производительности, чем другие решения на рынке, которые полагаются на сохранение базы данных путем блокировки ее каждые пять минут.

Assure1 Fault Management содержит наиболее комплексные возможности по корреляции событий в сравнении с любым другим продуктом на рынке в настоящее время. В дополнение к стандартным возможностям (например, дедупликации), простым (например, heartbeats), и cross-domain downstream suppression, платформа предоставляет мониторинг серверов, систем и приложений. Это работает на моделях сервер-коммутатор, сервер-сервер, приложение-сервер и приложение-приложение, обеспечивая уникальные возможности корреляции и отображения.

Federos предлагает широкий спектр возможностей по корреляции после постобработки данных, которые позволяют организациям легко создавать собственные скрипты и политики для удовлетворения широкого спектра потребностей, включая:

  • Стекирование событий для анализа поведения сети на основе соответствующих событий;
  • Мониторинг пороговых значений, которые могут определить подозрительное поведение или периодические проблемы;
  • Наблюдение за всеми узлами в режиме реального времени.

Assure1 Fault Management включает в себя интегрированный менеджер топологии, который предоставляет автоматическое обнаружение физической, логической и бизнес-инвентаризации, а так же их связей.

Обеспечивается динамическое отображение, на основе топологии, анализ первопричины аварии с “downstream suppression” и легкое переключение между сетевыми уровнями L2 и L3 для вывода иерархии сети. Поддерживается интеграция с хранилищами данных бизнес-логики, например, информации, связывающей устройство / порт для автоматического извлечения ID канала. Интеграция с биллинг / CRM системами позволяет связать эти данные ID канала с названием клиента. Это позволяет определить, какие клиенты и услуги затронуты аварией.

Открытая архитектура обеспечивает высокую масштабируемость, оперативное обновление, быстрое открытие любой логической или физической иерархии. Обеспечивает точную и актуальную сетевую инвентаризацию, улучшает доступность и стабильность работы сети посредством сокращения времени устранения аварий, улучшает операционную эффективность через анализ и отображение в режиме реального времени. Обеспечивает динамичную видимость для каждого узла сети и улучшает точность данных инвентаризации для обеспечения принятия более квалифицированного решения по устранению.

Assure1 Fault Management обеспечивает эффективность работы, автоматизирует и упрощает рабочий процесс, использует искусственный интеллект для высокоточной диагностики проблемы, и уменьшает среднее время отклика поддержки и ремонта.


Преимущества платформы

  • Фокус на причинах, а не на симптомах
  • Ликвидация «лоскутного одеяла» из систем мониторинга
  • Оптимизация управления
  • Увеличение производительности и достоверности
  • Сокращение времени простоев
  • Уменьшение TCO
  • Защита доходов и уровня удовлетворённости клиентов

Анализ аварий

Передовая корреляция событий в Assure1 Fault Management позволяет организациям быстро обнаруживать первопричины аварий (root cause), не обращая внимания на сопутствующий информационный шум (в других продуктах). Решение предоставляет устранение информационного шума, автокорреляцию отношений parent/child, корреляцию IP топологии, а так же кастомизированными под Заказчика моделями корреляции.

Лучшие практики и результаты интеллектуальной деятельности хранятся в базе знаний, что позволяет распространять экспертные знания, от более опытных сотрудников к менее опытным, или в целях автоматизации. С Assure1, при анализе ошибок, аварию также легко устранить вручную, если это необходимо.

Посредством автоматизированного программного анализа, кто из клиентов затронут аварией, влияние на бизнес может быть определено в реальном времени вместе с рассылкой с сопутствующей информации через автоматические предупреждения для служб OSS. В том случае, когда инциденты не решаются в заранее установленные сроки, автоматически может быть инициирована эскалация.

Мощные возможности анализа Assure1 Fault Management способствуют быстрому получение точной диагностики и резко сокращают время и ресурсы. необходимые для устранения проблем на сети.


Устранение аварий

Assure1 Fault Management позволяет применять автоматизированные политики восстановительных процедур в случаях, например, потери пинга до маршрутизатора или обнаружения проблем с состоянием сервера. Предоставляет уведомление, когда инциденты разрешены, сохраняет метрики для отчетности.

По сравнению с ручной работой, в результате применения автоматизированных действий по заданным триггерам, производительность OSS/BSS улучшается, уменьшается время отклика.

Есть возможность гибкого программирования бизнес-логики для соответствия алгоритмов корреляции и ответа на события стандартным процедурам.

Assure1 Fault Management так же предоставляет возможность обнаружения и автоконфигурации SLM и BSM. Это процесс, как часть Assure1 Service Manager, интегрируется с биллинговыми и другими системами для получения доступа к необходимой информации.

Интегрированная автоматизация процедур управления является одним из ключевых модулей платформы, повышающих производительность труда. Как правило, процедуры создаются администраторами и сетевыми инженерами и применяются отдельно от остальных инструментов решения проблем. Запатентованный подход Federos – это интеграция такой базы процедур со всеми рабочими инструментами в единое решение, которое позволяет автоматизировано вести, пополнять и расширять эту базу на основе особенностей отдельно взятой организации. Оператор может инициировать запуск процессов на основе базы данных в автоматическом режиме, без создания тикетов, рабочих запросов и согласований или совещаний и встреч.

Использование такой базы данных в качестве связующего звена значительно упрощает и делает гибкими решение задач по устранению аварий на сети.


Отчетность

Assure1 Fault Management предоставляет обширные возможности создания отчетов, в том числе по общей эффективности, например, как много произошло отключений, сколько длились отключения, кого затронула проблема, среднее время ремонта, нарушения SLA.

Отчеты по анализу причинно-следственных связей также доступны и позволяют определить, как часто случается та или иная авария и по какой причине, и как долго простаивал узел и кто пострадал в результате.

Просмотр отчетов и политик позволяют оператору определить, можно ли избежать повторения аварийных ситуаций в будущем, и в случае необходимости определить, какой процесс, политика или автоматизация могут быть инициированы в целях повышения эффективности работы и удовлетворенности клиентов, а также снижения стоимости аварий.

Дальнейший анализ может быть выполнен из учета задействованных ресурсов, сколько человек принимало участие в решении, сколько времени им потребовалось, был ли достигнут лучший баланс между бизнес-задачами и техническими рискам.

Эти отчеты предоставляют краткие, но емкие факты для возможности оптимизации процессов устранения аварий на сети.


О компании Federos

Federos – это производитель единственной на рынке полностью интегрированной платформы для сетевых операционных центров (NOC), сфокусированной на технологиях операционного управления авариями, доступности и производительности.

Специалисты компании QuintaTec готовы ответить на любые вопросы, а также провести презентацию решения и организовать пилотный проект.