前有Gitlab删库,后有AWS误删服务器,乌龙频发我们该如何防范?

  • 时间:
  • 浏览:3
  • 来源:uu快3诀窍_uu快3app安卓_导航网

把都要删除的数据移动到某个特定文件夹下,计划任务定时清理你你你这俩文件夹

fourmi 克隆好友链接去分享

淘公仔 x 3

王坚新著《在线》 x 1

理由如下:

bearyes 已获得淘公仔 克隆好友链接去分享

都有马后炮,装叉犯,删了就删了嘛,多大点事情,谁不用犯点错。还煞有介事地在这里说些不着调的法律妙招。

让原来人去审核,看上去都要出理 一些错误,怎么让买车人总会犯错误的,怎么让让职位更高级别的人来审核,他不一定知道具体的技术细节,以至于审核到后边就一些走个过场罢了。

keller.zhou 已获得淘公仔 克隆好友链接去分享

1.思路类事大楼备用发电机,整栋停电的前一天备用发电机接管来提供必要的电力,不致于造成恐慌,在你你你这俩case场景下,即使线上命令删除一大批核心服务器,也应有响应的备份服务器接管,怎么让这批资源正常运维权限下不可被删除,以确保出先误操作的前一天服务不至于彻底挂掉。

shizeqing 克隆好友链接去分享

出理 结果:下午1:54分恢复正常。

要出理 错误操作所造成的数据丢失和服务器故障,首先加强权限的管理,要想出理 数据丢失所造成的损失,每天都有对重要的数据进行必要的数据备份。出理 数据库故障引起的数据丢失。将数据库存储在单独的服务器中,出理 应用服务器故障引起的数据丢失。

传说中的打错一另一一五个字母瘫痪半个互联网!

似水的往事 已获得淘公仔 克隆好友链接去分享

浮生递归 克隆好友链接去分享

我把etc拖走了 livecd进去修了一下午

算是应该做好多重备份?

我干过类事的……shell脚本修改权限,传值没获取到,是因为整个服务器所有文件都变成0777权限……

我想要出理 误操作。首先应该确保工作人员的休息时间。国内互联网崇尚加班,容易让开发人员疲劳工作。对于开车,我们歌词 歌词 我们歌词 歌词 知道找不到疲劳驾驶,操作服务器也是一样的。此外,我们歌词 歌词 我们歌词 歌词 都要一些手段,来提醒相关的人员,我们歌词 歌词 我们歌词 歌词 的服务器很糙要,比如生产环境的shell使用红色,开发环境使用黄色,测试环境使用绿色等等,不同的颜色都我想要们歌词 歌词 我们歌词 歌词 的维护人员提高警惕。也要注意,对于一些操作,尽将会的选则由机器完成,而都许多人工完成,降低人员出错的将会。

1012988794233826 克隆好友链接去分享

我们歌词 歌词 我们歌词 歌词 先来回顾一下3月2日事件

3月2日AWS声称,输错命令是因为了亚马逊网络服务(AWS)出先持续数小时的故障事件。

故障是因为:亚马逊简单存储服务(S3)团队当时在调试一另一一五个问提报告 ,该问提报告 是因为S3计费系统的出理 下行数率 比预期来得慢。太平洋标准时(PST)上午9:37,一名获得授权的S3团队成员使用前一天编写的playbook,执行两根命令,该命令旨在为S3计费流程使用的其中一另一一五个S3子系统删除少许服务器。遗憾的是,输入命令时输错了一另一一五个字母,结果删除了一大批本不该删除的服务器。

其一,将会说对代码的改动都有一次发布得话,找不到,对生产环境的任何改动(包括硬件、操作系统、网络、软件配置……),也都算是一次发布。找不到原来的发布就应该走发布系统和发布流程,要被很好的测试、上线和回滚计划。

关键是,走发布过程是都要被记录、追踪和回溯的,而在线上敲命令是删改无法追踪的。找不到知道你敲了哪几个命令。

其二,真正良性的运维能力是——人管代码,代码管机器,而都许多人管机器。你敲了哪几个命令找不到知道,但有你写个工具做变更线上系统,你你你这俩工具干了哪几个事,看看工具的源码就知道了。

1953688799298128 克隆好友链接去分享

瓜跑跑丶 克隆好友链接去分享

为嘛哪几个大公司 不做 多重备份以及实时备份,将会有难度?

vling 克隆好友链接去分享

秋水鸣蛙 克隆好友链接去分享

建立第二机制,所有操作找不到对第一序列有效。第二序列与第一序列共用控制机制,但只具有次时效的记忆。第一序列失败,控制机制解除对第一序列的控制,控制第二序列,

授权也缺陷,将会授权了代表我同意这次操作,怎么让我无法监管到这次操作的正确性,一些对于你你你这俩一另一一五个命令改变未来的指令将会少进行,将会增加你你你这俩操作的流程,一起再执行命令中要得到更深度图次的审核

2.线上运维操作的前一天设计影响系统黑名单。系统难以知道运维人员是都有真的要进行相应操作,还是打错字母误操作,怎么让针对一些系统的更改在日常运维权限下一定是不可接受的,如本次故障中被影响的核心系统Index和Placement,系统检查到命令会影响相应黑名单中系统应拒绝当前命令执行。

你你你这俩倒霉的线程员会被开除吗?

定制笔记本 x 1

减少非必要错误的操作。减少操作出错的将会性,管理好服务器用户的权限,出理 操作失误引起数据丢失

绝世傲立 已获得定制笔记本 克隆好友链接去分享

让机器去判断,怎么让机器为什么知道你是真的要去删哪几个服务器,还是打错字母了呢?

始终虽然操作出先了差错前一天就使流程比较比较复杂、投入更多人力你你你这俩行为是比较蠢的,比如找一另一买车人在旁边看着,一另一买车人double check

西秦说云 已获得王坚新著《在线》 克隆好友链接去分享

线程员在线上环境直接敲命令,当在执行时都要另外一另一买车人授权确认后也能运行,将会机器识别出来是危险的指令都会有警告,原来得话都要减少之类事故的指在。多重备份虽然好,怎么让它也一些一段时间执行备份,2次备份后边会有一定的时间间隔,将会恢复到最近的一另一一五个备份点,找不到备份点到事故指在的数据找不到了,也会造成一定的损失。

许多人说,当然!但都许多人质疑,多重备份就安全啥之前 ?就算所有的备份都可用,一些可出理 地会有数据的丢失,或是也会有一些问提报告 。

应该都要审核机制,当执行命令输入复审下。

改进我们歌词 歌词 我们歌词 歌词 的灾备机制,并在主机上凸显出数据恢复的作用。一些,我们歌词 歌词 我们歌词 歌词 难能可贵会从“阻止工程师在生产主机上运行某个命令“你你你这俩深度图来实现安全。将会,即使我们歌词 歌词 我们歌词 歌词 把禁用rm命令,也找不到是阻止工程师难能可贵犯运行 rm -rf /important-data 命令的错误,怎么我想要你你这俩法律妙招难能可贵能阻止诸如磁盘损坏,将会一些将会是因为数据丢失的请况指在。

Windows的删除有个回收站功能,是个不错的法律妙招,它都有立即删除,怎么让恢复又快,不知算是都要借鉴一下?

采用raid磁盘阵列存储系统来进行相应的存储工作。采用raid磁盘阵列存储都要减少相关问提报告 产生,加强服务器的磁盘容错功能。即便指在服务器瘫痪、自然灾害等极为恶劣的请况下,本来我硬盘依然健在,找不到,就都要第一时间恢复其正常操作。

从来不赞同线上模式敲代码,这删改一些不负责任。记得学git的前一天看见过得话,找不到提交的代码,都有白敲的。随时备份,以及代码审核是真的好习惯!

cnssr4bb1t 克隆好友链接去分享

任何事情都找不到十全十美的 鱼和熊掌不可兼得 实时更新bug当然都要线上操作 主要还是应该分请况而定吧

比如:

线程员算是应该在线上环境直接敲命令?

许多人说,都要,怎么让干原来的事情时,得一另一买车人干,原来人在旁边看着。

是人总会犯错,找不到机器不用。找不到低级的失误是因为找不到严重后果充分暴露了大公司执行工作线程漏洞,这哥们惨了……

线上运维操作的前一天设计影响系统黑名单。系统难以知道运维人员是都有真的要进行相应操作,还是打错字母误操作,怎么让针对一些系统的更改在日常运维权限下一定是不可接受的,如本次故障中被影响的核心系统Index和Placement,系统检查到命令会影响相应黑名单中系统应拒绝当前命令执行。

找不到,你你你这俩线程猿打错命令有找不到责任?肯定有。怎么让,在出理 深度图可靠的云服务时,每一次操作都应该按照严格的线程,每一另一一五个命令都有经过足够的审核。除非你你你这俩线程员在操作过程中将会偷懒省略了一些必要的步骤,怎么让,这次事故更多是系统的责任,将会系统找不到足够的机制来出理 错误的指在。人,都有会犯错的,找不到机器不用。

1461587759184916 克隆好友链接去分享

寒心 克隆好友链接去分享

1892988267967496 克隆好友链接去分享

操作执行的严格度对应所产生行为的后果的重要度

把各种操作行为及命令分成不同的级别

1级行为或命令,负责人1人出理

2级行为或命令,处负责人外,打上去一另一一五个监督员确认后再执行

3级,再增加团队主管

4级,部门主管

5级,更高级别

以此类推

我们歌词 歌词 我们歌词 歌词 认为理想的环境,应该是那种即使你犯了错误删了数据,也能轻易恢复,并保证对系统影响最小的环境。这就要求帮我日常执行一些流程,怎么让要容易测试,容易回滚。

小柒2012 克隆好友链接去分享

杨周 克隆好友链接去分享

ghost-ai 克隆好友链接去分享

一直 以来,我都虽然直接到生产线上敲命令是有你你这俩非常不好的习惯。我认为,一另一一五个公司的运维能力的强弱和你上线上环境敲命令是有关的,你越是喜欢上线敲命令你的运维能力就越弱,越是通过自动化来出理 问提报告 ,你的运维能力就越强。