绑定机构
扫描成功 请在APP上操作
打开万方数据APP,点击右上角"扫一扫",扫描二维码即可将您登录的个人账号与机构账号绑定,绑定后您可在APP上享有机构权限,如需更换机构账号,可到个人中心解绑。
欢迎的朋友

全部

检索
搜期刊
    • 全部
    • 期刊
    • 学位
    • 会议
    • 专利
    • 科技报告
    • 成果
    • 标准
    • 法规
    • 地方志
    • 视频
    资讯详情页
    首页   科技前沿
    混沌工程学拯救了网飞
    日期:2021-08-02 14:07:43 稿件来源:科技纵览

    在线平台的极端压力测试已成为了一门科学。

    听格雷格•奥泽尔(Greg Orzell)讲,最初的混沌猴子(Chaos Monkey)工具很简单:它随机在网飞云端某处选取一台托管的虚拟机,向其发送一个“终止”命令,让它下线。然后,网飞团队必须搞清楚接下来怎么做。
    那是十多年前的事了,网飞将自己的系统转移到了云端,躲过了新的合作伙伴亚马逊网络服务(AWS)在美国东海岸引发的一次大规模服务中断。奥泽尔目前住在德国的美因茨,是GitHub的一名首席软件工程师。最近,他回忆起了早期混沌猴子的情景,而德国正准备应对又一轮与新冠疫情有关的封锁和死亡恐惧。外界一片混乱。新冠病毒给人们的日常生活带来了天翻地覆的变化,而一种应用在计算机网络中的实践——“混沌工程”则可以帮助大部分网络蹒跚渡过这段受新冠疫情影响的时期。混沌工程是一种利用极端条件进行压力测试分析的主动方法。这是一种新兴的评估分布式网络方法,主动对正在运行的系统进行使用。通过这种方法,可以建立起在动荡环境下运营的信心。奥泽尔和他的网飞同事一起用亚马逊网络服务软件开发套件制作了基于Java的工具——混沌猴子。这款工具有点像数字发生器。但当混沌猴子通知一台虚拟机停止运行时,这不是在模拟。该团队要求系统能够承受部分主机服务器和应用服务出现故障。“只是嘴上说‘不好,要发生故障了’,那很简单。”奥泽尔说,“我们向你保证下月还会发生两次故障,因为我们正在制造故障。”混沌工程会采用小规模、可控制且意义重要的方式,故意定期破坏系统,从而检查系统能否正常运行,并尝试从中学习经验教训。即使结果显示系统可按预期运行,也会让人认识到,工程组织中总会有故障发生。如今的实践表明,混沌工程非常精妙且积极进取。后续的工具可以有意地让系统缓慢运行、将网络流量送入黑洞,还会关闭网络端口。(最近有一款名为Chaos Kong的应用程序,它能够在整个地理区域内按比例缩减公司的服务器。系统要有足够的补偿恢复能力才能过关。)此外,工程师还开发了防护和安全措施来控制故障范围,并制定相应的规制。在网飞,混沌工程已经发展成一个平台,名为混沌自动化平台(ChAP),该平台用于运行专门的试验(详见插图“制造混乱”)。诺拉•琼斯(Nora Jones)是初创公司Jeli的创始人兼董事长,她说,团队需要理解何时何地进行试验。在网飞期间,她帮助完成了ChAP。“随机在系统的某个部位制造故障是不起作用的。”她说,“这背后需要有推理和论证。”

    image.png

    当然,新冠病毒也给网络流量带来了全新的混乱。亚马逊网络服务的首席解决方案架构师康斯坦丁•冈萨雷斯(Constantin Gonzalez)说,疫情期间的网络流量也不是都朝一个方向波动。例如,地面交通被暂停时,德国包机巨头国际旅游联盟(TUI)的业务急剧提升。他说,不过,打造可恢复网络的目的在于使网络有弹性。

    混沌工程很适合这种情况。作为一种工程思维模式,它涉及在登月航天科学发展期间出现的墨菲定律:如果可能会出现问题,那么问题就一定会出现。很难说是这些实践在疫情期间维持着不堪重负的网络继续运行。其中的变数非常多。不过,它对那些使用混沌工程的技术人员是有帮助的,甚至对于资产达4370亿美元的新加坡投资机构——星展银行这样一家传统企业也是有帮助的。现场可靠性工程师哈普利特•辛格(Harpreet Singh)说,星展银行的网络弹性项目已经进行了3年,早在2018年项目开始时,相关团队就在使用混沌工具进行试验。混乱似乎是可传递的。琼斯的创业公司Jeli提出了一份她称之为“催化事件”(可被混沌工程模拟或发动的事件)的策略视图,其中显示了组织认为的运行情况与实际运行情况的区别。Gremlin是位于圣何塞的一家有4年历史的公司,该公司提供的服务产品是混沌工程工具。2021年1月,该公司发布了2021年首份“混沌工程状态”报告。在发布报告的博文中,该公司市场营销副总裁艾琳•霍根(Aileen Horgan)讲述了这些天有3500多人参加的混沌工程大会。她指出,到目前为止,仅Gremlin的用户群就进行了近50万次混沌工程系统攻击。冈萨雷斯说,亚马逊网络服务已经进行混沌工程实践很久了。今年,随着网络化世界有望从前所未有的压力测试中恢复过来,亚马逊网络服务正在启动一项故障植入服务,云端客户可用它进行自己的试验。谁知道未来的需求是什么样的呢!

     

    作者:Michael Dumiak


    手机版

    万方数据知识服务平台 扫码关注微信公众号

    客服
    服务
    回到
    顶部