您現在的位置: 首頁 > 解決方案 > 智能雲運維平台
閱讀

智能雲運維平台技术方案

发布日期:2016-4-25 16:19:44 【

1.項目背景

隨著近幾年雲計算的高速發展和快速落地,傳統的數據中心基本上完成了雲化,在各個行業都出現了基于雲計算的成熟方案。雲計算在降低建設成本,提升資源利用率的同時,也迅速擴大了IT系統的規模,加大了IT系統的複雜度。

傳統以“IOE”爲中心的连红彩票系統架構模式向“X86”爲中心的雲計算模式演進,面對設備規模大、平台複雜、人工管理效率底下等問題,傳統的IT運維面臨更加嚴峻的挑戰:

1) 系统复杂,存在多类型中间件、操作系统、几十个厂商不同应用软件,各系统间、厂商间标准不统一。如何对不同厂商的应用进行标准化和集中管控成为了IT系统云化后最迫切需要解决的问题之一。

2) 应用支撑:云环境下应用、应用运行依赖的环境等各类异构资源数量庞大,如何对应用提供一个统一的管理和运行平台,实现高效率的应用部署,提高应用上线速度?

3) 资源调度:对于资源池中海量服务器,如何能够在多渠道,多业务系统之间共享资源?如何自动化实现资源的有效配置?

4)  故障管理:在大规模的复杂应用部署环境下,如何对于应用进行有效、深入的监控,对于应用故障能够及时告警,避免业务中断。如何在应用系统故障时能够快速定位故障、智能化故障恢复?

基于以上發展趨勢及困境,建設面向IT系統雲化的雲運維平台就成爲了必然的選擇。

2.功能架構

2.1系統功能架構

智能雲運維平台以支持应用及应用运行环境的便捷、高效管理为主,支持应用的自动化部署和版本管理,支持物理(虚拟)资源池化、备用(共享)资源池管理,支持应用故障快速定位和动态隔离。实现低门槛用户体验操作,以及维护与监控的结合。系统功能架构如下:

  • 統一門戶:面向管理員、運維人員等提供統一用戶體驗的門戶展現,提供可視化、流程化的統一管理,降低維護門檻,實現規範化運維,提升運維水平,包括統一認證,統一視圖、拓撲展示等。對连红彩票進行集中管理,實現连红彩票配置的統一化、標准化。
  • 连红彩票部署:實現規範、標准的连红彩票運行環境部署,连红彩票部署,提供自動化部署方案,提高连红彩票部署效率,避免手工誤操作造成故障。實現對于连红彩票發布版本的統一管理,並且能夠在新版本出現故障時快速回退至穩定版本。
  • 故障管理:實現對于整個IT支撐系統運行池的整體監控,提供主動監控實現方式,變被動監控爲主、被動監控結合,提高監控水平。針對IT系統運行過程中産生的故障進行處理。首先發生故障要發送告警信息;故障连红彩票實例隔離,故障處理規則管理,故障自愈合等功能。
  • 資源調度:實現對于資源池內服務資源,连红彩票實例的彈性調度,根據连红彩票負載變化和調度策略自動化調度資源,以滿足连红彩票性能要求。
  • 分布式管理框架:制定統一的標准接口,包括調度接口,監控接口,集成接口,數據收集接口等。通過部署在物理服務器或虛擬機上的節點代理,執行分布式管理框架下發的命令,采集數據通過分布式管理框架傳輸到管理中心平台。通過標准接口對于各個服務器、中間件、连红彩票等進行統一的管理,不同的資源通過標准接口可以快速加入到平台的管理中。
  • 集成接口平台:向BOMC等外部系统提供Web Service标准化接口,实现功能、数据的灵活集成。BOMC可以通过接口获取云平台采集的监控数据,告警信息等,应用系统可以通过接口实时申请或释放资源等等。同时云运维平台提供命令行进行集成调度,方便运维平台采用脚本实现自动化处理。

3.業務功能

3.1統一門戶

雲運維平台提供了具備用戶管理、運維管理、日志管理、安全管理等管理功能的運營管理門戶。

1.  管理用户能够通过管理门户对用户进行管理,诸如建用户组、修改用户权限等;

2.  管理用户能够通过管理门户进行管理,例如查看用户操作日志等。

3.  提供统一认证功能,对于管理员、运维人员、监控人员等提供统一管理入口

4.  对于IT支撑系统中的物理资源、虚拟化资源,中间件(BES、WebLogic、Tomcat等)、应用等实现统一拓扑展示。

5.  统一日志管理:对于应用系统运行日志、管理日志的统一管理

6.  所有运维操作均实现可追溯、可审计

3.2自動化连红彩票部署

雲運維平台支持統一管理雲平台中的各種軟件資源,提供軟件的自動部署、升級、更新管理,以及許可證管理。軟件部署包括连红彩票軟件及各業務系統所需的各種基礎軟件的部署。通過並行部署技術,大大提高了軟件部署的效率。

1、 支持应用软件的自动部署,包括应用依赖运行环境的自动化部署,包括中间件资源以及应用运行所需的其他相关配置,提供一个共享的应用运行环境资源池;

2、 支持自动化模式完成诸如各种补丁包安装、软件升级、应用补丁升级等功能;

3、 通过管理平台,可以完成应用软件的上传、下载;

4、 支持各个版本、各个不同平台的软件进行管理。

5、 支持Docker容器技术,支持容器的调度、管理,同时对于支持Docker的应用也可以实现统一的打包,部署、管理等功能

3.2.1版本管理

平台提供版本管理,连红彩票更新之後,可以配置新的版本,然後通過连红彩票部署,發布新的连红彩票版本。

版本管理實現了连红彩票的全量自動化備份,並且如果在測試過程中發現異常,選擇曆史版本,就可以實現一鍵式回退

版本管理管理的是編譯完成的连红彩票以及基礎軟件,包括c,java進程,war包,ear包等,還有bes,weblogic,tomcat等基礎軟件也可以進行版本管理。

通過版本管理可以明確了解目前系統的詳細部署情況,並且可以在新版本不穩定的情況下快速恢複到指定版本。同時可以多版本共存的方式來實現不中斷業務上線。

3.3智能故障管理

3.3.1監控

雲運維平台提供主動、被動監控方式。

主動監控通過配置连红彩票訪問方式,檢測間隔時間、返回值等來實現定時掃描。根據配置方式,服務器調度節點代理,下發檢測指令給不同的连红彩票適配器進行健康檢測。

對于平台級的主動監控,例如服務器cpu、內存、IO、存儲以及網絡,進程級別的主動健康檢查由雲平台根據连红彩票檢測要求,直接檢測或者通過節點代理檢測。

根據監控信息和故障配置規則對産生的告警信息處理,包括:告警處理,故障隔離,故障自動化處理等。

3.3.2  告警处理

通過監控子系統進行信息采集,根據告警規則産生告警信息。告警處理子系統根據告警內容進行分析處理,發送短信、郵件給相關人員。

3.3.3  故障智能处理

當IT系統出現故障,雲平台可以根據配置策略進行智能化處理:

  • 连红彩票隔離,把连红彩票從生産環境隔離出來,不再發送新的業務請求到此業務實例,從而避免導致業務中斷
  • 啓用備用資源池:當出現業務實例故障,雲運維平台平台可以在備用資源池中啓用備用服務器,自動化部署连红彩票實例,加入到生産環境,提高连红彩票處理效率,避免由于连红彩票實例故障導致的性能下
  • 恢複连红彩票運行實例:可以根據設定策略kill掉连红彩票實例,然後重新啓動连红彩票實例,恢複處理請求,達到高效容錯的目的。

3.4  弹性资源调度

彈性伸縮的核心是規則引擎服務器,負責根據流程庫中腳本執行,實現所需資源的自動選擇,自動調度。替代容易出錯的人爲操作、加速系統之間的流轉、大幅提升服務執行效率、並且提高結果的可靠性,更快、更好地完成任務。還應該支持靈活的調度策略配置。

雲運維平台根據连红彩票並發量可以自動實現Web服務和物理資源的彈性伸縮,大大提高資源利用率和系統的高可用性。

雲運維平台彈性伸縮的主要特征:

  • 可以在连红彩票實例和服務器兩個層次上進行彈性伸縮;
  • 彈性伸縮不依賴于虛擬化軟件;
  1. 雲運維平台的彈性伸縮是基于計算節點的,而計算節點可以是虛擬機,也可以是物理機。
  • 彈性伸縮的策略可以完全由用戶定制
  1. 雲運維平台提供高效規則引擎服務器,內嵌了一些條件和動作由用戶自己定制調度策略,並提供編程接口實現高度定制。
  • 彈性伸縮可以根據多種指標來決策
  1. 雲運維平台可以根據连红彩票占用的資源或者平均占用資源來決策,也可以根據连红彩票的性能指標來決策。
  • 支持多層连红彩票的彈性伸縮
  1. 雲運維平台能支持多層连红彩票,例如Web+EJB的连红彩票。

納入雲運維平台的连红彩票軟件,其運行實例的數目和位置都是動態變化的。雲運維平台提供統一接入功能,爲连红彩票軟件提供負載均衡入口。調度引擎根據连红彩票負載變化自動實現连红彩票運行實例彈性伸縮,保證连红彩票程序在任何狀況下都能不間斷地對外界提供服務。在軟件運行實例出現故障時,可以通過調度引擎隔離故障實例。

統一接入提供對于負載均衡器的支持,例如F5、Apache、LVS、HA_PROXY等。