回收思科Cisco 原装全新或二手路由器、交换机、模块等  [star  2012年1月1日]        
网站首页  简介  商品展示  CISCO维修  CISCO续保  CISCO租赁  CISCO回收  最新库存及报价  客户留言
   路由器  |  交换机  |  模块  |  防火墙  |  语音网关  |  电源  |  其它配件  | 风扇  |  服务器  |  资源下载
您现在的位置: 宏信网络 >> 文章中心 >> 解决方案 >> 正文
Google
 
揭开网络故障中断的内幕
作者:佚名    文章来源:2Cisco.com    点击数:    更新时间:2009-5-21    
  网络是企业的战略性业务资源,负责承载日常消息和关键任务数据,实现用户与业务流程之间的通信。对公司内部的许多用户来说,网络都是像水电一样无法看到的耗用型共用设施,一旦出现故障中断,瞬间便会凸显出来。

  网络不可用时会出现什么情况?网络故障中断会对公司形象及客户产生严重影响。员工无法接入电子邮件、电话或关键业务应用,业务流程无法更新,客户可能到别处去查找信息或者投入其他供应商的怀抱。据Infonetics Research早期开展的调查统计,网络故障中断每年使大型企业损失3.6%的年收入。

  当然,提高网络可用性只是IT和网络机构的工作之一。随着网络逐渐成为业务战略核心,企业的工作重点也朝着提供新业务、提高灵活性以及创新支持的方向转移。 保持网络的正常运行固然重要,但降低预算也同样重要。为了管理好这组矛盾体,企业需要实施持续的系统方法。

  网络故障中断的原因和影响

  近期对技术决策人开展的调查显示了对网络故障中断原因进行调查的重要性。Strategy Group2007年7月对Ziff Davis Enterprise数据库中的173人开展了调查,他们都是员工在100人以上的企业中的经理人或更高级别的管理者。回答人称他们对网络故障中断的容忍度越来越低,近1/3(32%)的回答人称他们根本无法容忍故障中断,这组回答人对网络故障中断的平均容忍时间仅为1.8小时。我们不难了解为什么回答人称网络修复的平均成本高达每天300万美元,其中10%的回答人预计网络故障中断造成的损失和收入丢失高达每天1000万美元。

  网络故障中断的负面影响不仅限于经济损失。公司形象受损是回答人最担心的问题(69%),其次是丧失客户信任(47%)。考虑到这些潜在后果,公司将70%的IT预算用于维护网络运行,只剩下30%用于实施战略和创新活动不足为奇。总的来说,这组回答人希望这种格局在今后12-18个月中发生变化,达到60/40的比例。

  近一半的回答人(46%)称他们的公司采取被动方法来监控网络并解决网络问题。有趣的是,与采取被动的无序方法的公司相比,采取主动的战略性方法的公司用于维护网络运行的IT预算更少,分别是75-80%和60-65%。减少网络运行开支能够创造多个优势,例如,与采取被动方法的竞争对手相比,采用主动方法的公司能够持续创新、提高IT运行效率并实现更高的绩效。

  运行团队在提高网络可用性方面面临多个挑战。计划内检修、意外的硬件或软件故障及人为错误等都可能导致网络设备故障停机。这是一个复杂的问题,要想设计出能够最大限度地提高可用性的系统,您需要更深入地了解基本要素。

  设备检修

  供应商投入大量资源缩短产品的检修时间。因此,检修是网络设备故障中断的最次要的原因,约占到5-10%。一般产品现在都提供热插拔线路卡和电源。冗余的容错软件和不中断的硬件也很普遍。不中断业务的软件升级是最新发展趋势,允许您在不影响现有业务运行的情况下添加或升级软件模块。

  业界的一致关注使得网络可用性得到了大幅度提高。虽然保持高性能仍是网络供应商的关注焦点,但它并不能最大限度地提高网络可用性。例如,假设计划内检修对网络故障中断负有5-10%的责任,将网络设备的检修时间缩短20%只能将网络的故障中断时间缩短1-2%。

网络设备故障停机的根源

图1:网络设备故障停机的根源

  遗憾的是,这种方法将快速生成多个复杂的、分散的软件版本。用户必须谨慎选择适当的软件版本以便获得重要的特性或硬件支持。有时,不同的软件版本中可能会重复出现以前曾修复好的缺陷。需要全网络特性的客户必须仔细阅读软件文档以确保版本适用于所有不同的硬件平台。等到所有的版本完成编码、测试和最终发行,可能需要等待一年或更长时间。许多时候,升级这些软件可能会带来其他问题,需要客户先行降级,然后等到修复包提供时再实施升级。升级-降级-再升级的重复流程需要操作团队处理不断变化的一系列复杂的软件版本,将会延长网络的故障中断时间。

  系统错误对网络故障中断负有25%的责任,但如果供应商采取被动方法,将迫使客户进入被动模式,进而必须提供更多资源来解决问题,甚至不惜动用其他领域的资源。您用在软件版本评估及安装补丁上的时间越长,用在创新上面的时间越短、资源越少;全新网络服务的部署周期越长,人为错误的风险越大。对于25%的故障中断因系统错误而起的公司来说,减少20%的系统错误将使网络故障中断时间缩短5%,但实现这个成效要求客户投入大量资源或者长时间延期全新软件特性和全新硬件的面市计划。

  系统错误

  供应商还高度重视减少硬件和软件错误,据瞻博网络的许多客户称,这部分占到网络故障中断的25%。然而,他们对此使用了两种截然不同的方法:主动和被动。

  被动方法

  被动方法有利于市场宣传,供应商承诺能够快速响应重大问题,将倾其所有来解决此类问题,必要时可通过实施软件补丁来解决问题。

  主动方法

  主动方法听起来简单,但却需要非常严格的工程设计。由于某些问题在所难免,因此,这个方法论注重提前预测并解决潜在问题。对客户来说,主动通知诊断信息可帮助他们缩短甚至避免某些类型的网络故障中断。通知时间越早,故障排除工作开始地越早,用于快速解决问题的可用方法越多。

  对于供应商来说,主动方法允许他们集中精力确保按时推出全新的单一软件版本。他们能够逐渐积累一套高级的回归测试脚本,以确保以前开发的所有特性都能继续如期运行。通过避免安装软件补丁以及不断添加软件版本,客户将腾出更多时间用在网络特性和新平台的研究上,缩短潜在的升级评估和测试时间。使用被动方法来解决问题的供应商看似优势多多,但总抵不过不出现任何问题吧?

  人为因素

  据调查,人为错误对网络故障中断负有50-80%的责任。但在复杂的系统环境中,出现人为错误的原因往往不是能力欠缺。包含多个组件并涉及到多类互动活动的复杂系统创建了复杂的环境,在此,组件之间的微妙关系往往不为人知。

  人为错误不是导致出现问题的直接原因,而是环境复杂性的征兆。因此,我们得出这样的结论:降低和管理网络复杂性将对网络故障中断时间产生最为巨大的影响。将人为错误减少20%可将网络故障中断总时间缩短10-16%,是减少系统错误的2-3倍,是缩短检修时间的8-15倍。

  是责备犯错人还是从错误中吸取经验教训?

  避免人为错误的传统方法以责备和惩罚为主。这种方法的重点是找出犯错人并评估后果,认为错误是人员不合格、判断失误或决策错误导致的意外事件,要是没有人类活动参与其中,系统就是安全的。这种战术基于对犯错人进行严责,让他们感到深深的挫败感,鼓励人们隐藏自己的错误而不是从错误中吸取经验教训。

  现在的新方法趋向于检测、纠正和防止错误,重点关注具体发生的事件、如何在将来防止它重复发生,以及在第一时间找到导致出现错误的系统组件(这一点最重要)。这种方法认为管理复杂的系统是一门需要持续改进的艺术,人类活动对于实现这种改进至关重要,错误常是一系列活动的综合作用结果。本着持续改进的态度,这种方法鼓励人们识别错误,积累经验。

  手动输入复杂的配置命令是网络中出现人为错误的最常见的原因。即便是资深工程师,也难免会将防火墙放置在错误的接口上(如他们用于与路由器进行通信的接口)、在过滤器列表中输入错误的IP地址、或者在配置业务时犯下语法错误或丢失自变量。具体的操作指南和仔细的检查可避免某些问题,但会减慢响应速度。紧急情况下,压力和频繁的中断将会大幅度提高出错几率。

  网络供应商一直让他们的客户自己纠正人为错误,只提供基本的培训和知识库来帮助客户管理错误。瞻博网络始终高度重视JUNOS软件中的人为错误,力求简化并自动实施容易出现人为错误的主要程序。通过近期的创新成果,瞻博网络将自动化功能应用到了大量的脚本编制工具中,以便进一步解决造成网络故障中断的人为因素。

 

[1] [2] 下一页





没有相关文章
关于我们  联系我们  友情链接  设为首页 加入收藏 网站公告

深圳市欧维创科技有限公司
电话:0755-29309671 13926535432 地址:广东省深圳市龙华新区
Copyright 2001 - 2012 All Rights Reserved 
粤ICP备14059454号