数据不会丢!前网易运维分析炉石超长维护

来源: 作者:PQFitz 时间:2017-01-18 分享到:

最新消息:炉石传说抢救无效,回档到1月14日,下面的文章大家看看就好(脸好疼..)

在本次炉石传说超长维护事件中,有玩家爆料说是因为玩家的数据丢失,导致维护无限延长。事实真的如此吗?下面来看看前网易运维从专业的角度分析这次事件

万恶之源

网友PQFitz:本人13年的时候在网易天下3项目,去年9月跳到九城。

这次炉石超长事件维护,各种传言不断,我从前内部人士的角度给大家分析一下这次事件。

关于服务器

首先说说服务器。

你们以为数据都在服务器里? 服务器只有硬件而已,硬盘数据13年-16年都是用的DELL的磁盘阵列服务器,而且是双机热备+异地容灾,我这台数据丢了,我另一台会有克隆的相同的数据。就算广州整个机房炸了,我上海机房异地也会有一台克隆的数据。

所以数据丢了,数据丢了30%什么,大家就不要信了。

我在做天下3运维的时候也遇到过N种问题,不过都被总监、经理他们这些人带着解决了。

可以说,就算来个10岁的小朋友,会动电脑鼠标看得懂字,按照流程都不会出问题。 一个团队4个人,一个经理, 5个人同时犯错?怎么可能因为操作失误就丢30%数据?

另外关于过热导致的各种问题我觉得也不可能,肯定有备用的空调和供电,网易多少年都走下来了,总结了很多经验和规范,服务器这方面是没问题的。

至于啥原因维护这么久?原因千奇百怪,也可能是游戏本身问题,可能锅在暴雪身上? 我只能说数据不会丢。

任务也不用担心,几行代码就能解决的,只是日期问题而已。或者想简单点,有补偿,一定会有的。

这次事件猜测

拖这么久,我觉得昨天应该是暴雪给的补丁有问题,但是每次修改游戏都必须工信部、文化局、广电局三个部门来审核。

每次更新游戏一般是这样的流程:

暴雪软件部-暴雪技术支持部(测试部)-网易软件部-网易技术支持部(测试部)- ZF部门(审核)-技术支持部(运维部)-网易技术支持部(测试部)

估计是两边的测试部第一次都没发现问题,结果运维部按照流程更新之后,测试部又TM发现问题,要修改游戏,又要所有部门再走一次流程。

既然涉及到了PC端/IOS/ANDROID,根本不是一天就能解决的。

比如我这次定5个小时做运维,2个小时做测试。 我5个小时运维做完了,剩下的就是测试组干的事情了。 测试组花了1个小时发现问题,想恢复更新之前,只能再花5个小时恢复,今天就白忙活。 OK,就算我今天白忙了, 每周都有每周的目标,下周要补这周的目标,所花的时间可能就是4倍了。

有测试端,所以主要责任是测试部,第一次测试没有发现问题,次要的是软件部,主管或者总监审核代码的时候为什么没有发现问题? 也要问责。我感觉总监这个年不好过了,就算是主管的责任,总监也要被扣年总奖了,谁让这个主管是你面的? 就面这水平? 这工作态度?

大家耐心等吧。

配点服务器相关的图

数据不会丢!前网易运维分析炉石超长维护
数据不会丢!前网易运维分析炉石超长维护

半个月工资配的服务器,准备玩单机游戏。

一些猜测的答疑

还有人说是有人把代码偷走了。

每个员工入职之前都要签保密协议,竞业协议

而且每个部门的团队,负责的都是不同的项目,能接触的只是一小块代码,修改完代码上传到SVN里。 能接触整个完整SVN的,只有总监

总监每个月工资不少于15W把? 还有年总奖。 至于偷个代码? 蹲几年牢,以后还有公司要? 而且偷了代码有什么用。。。。 开玩笑。。。

至于有朋友问我容灾是什么,不是冗余吗?

异地容灾,就是我这个机房真是起火了爆炸了,我异地机房能够运行起来。

冗余是指我服务器或者数据出了问题,我有bakup,可以随时顶上去。

好比美国容不下维基解密,迅速把机房全部占领了,想取回数据不可能,那怎么办,还好他们有容灾方案,地点在南极,请求俄罗斯帮助,俄罗斯就会帮他们保护数据。

至于有网友问那如果两台都炸了怎么办?

两台都炸了,这几率比你中彩票几率都低,应该不可能的。

另外有朋友问两地三中心,主机房将数据删除,其他中心也会瞬间删除的问题。

其实没有瞬间删除这一说,我之前可能没说详细,双机热备,同步时间5分钟(成本翻倍,之所以没有采用故障转移群集(成本低),是因为梦幻之前出过问题,导致只能回档,所以流程规定是双机热备) 异地容灾同步时间每天凌晨00:01 丢数据顶多回档一天给补偿。

另外日志精确到每一条语句,数据库Oracle 有商业解决方案。

至于有些帖子提出的BUG说。

程序员自己解决BUG? 不可能,每个程序员负责的都是一部分代码,他就算修改了,也不能编译出来,更别提他能接触到服务器了。

我之前是3-5个人一个小team,程序员应该是7-10人的样子,有了问题经理 主管都可以上报的。。。 服务器是深度定制的LINUX+密码狗。 修改了代码,SVN都有日志,要表明原因,不然代码也不会审核。

可能bug是有的,只是当时没有发现而已,他们主管就要倒霉了。

至于有朋友问为什么天下三12年后一天比一天坑爹?

虽然我是在天下3项目,不过我连这游戏都没下过,我只是运维。。。 管服务器的。

至于卡的问题,服务器问题是不可能的,只能说优化还是别的事情没有做好吧。机器假如内存坏了,我们不会追究是主板还是电源导致的,我们做的只有一件事,换新服务器,因为公司不差钱。

总结

总结一下吧,这次有说是误删的,有说是封脚本程序被恶意篡改的,有说是服务器物理损坏的,有说是意外bug走流程的……

我个人是觉得测试的锅。

炉石超长维护事件相关汇总:

制作人回答 炉石传说维护超时是暴雪的锅?

花样百出 段子手恶搞炉石传说超长维护

炉石传说维护延迟是否会补偿卡包?

炉石传说1月17日维护延迟原因推测

手把手教大家玩转美服

我可能玩了假炉石!一大波炉石表情包

免责声明:文中图文均来自网络,如有侵权请联系删除,18183手游网发布此文仅为传递信息,不代表18183认同其观点或证实其描述。

相关内容

炉石传说

游戏类型:卡牌游戏

游戏语言:简体中文

礼包论坛专区

特征:宅男,奇幻,单机

开发:

传奇开服表

现在居然还能靠玩传奇打米?赶快叫上兄弟们一起来打米吧

为传奇玩家推荐真的能打米的传奇游戏、传奇页游和传奇端游,想要什么样的传奇游戏这里全都有,赶快叫上自己的好友们开启新一轮的热血传奇吧!
查看原文》》
18183
游戏下载 礼包领取 游戏助手