关于2021年3月26日币币/币币杠杆系统故障的说明

发布于 2021年4月2日更新于 2024年4月12日阅读时长 4 分钟

1. 故障说明:
欧易OKX站的币币、币币杠杆的交易服务在2021年3月26日出现了2次交易暂停事件,分别发生在13:50:00 HKT 和21:03:00 HKT,WEB、APP、API端的用户交易服务均受影响。

经调查:
第一次停机:在2021年3月26日13:50:00 HKT~14:36:00 HKT,币币、币币杠杆交易服务系统出现异常后,开发人员按照应急事件流程排查系统故障原因,并及时联系云服务商的技术顾问共同排查服务器信息,结论是部署币币、币币杠杆交易服务的云服务器的系统出现异常。导致币币、币币杠杆交易系统服务所依赖的内部服务停止工作,因此出现系统停机事件。
第二次停机:在2021年3月26日21:03:00 HKT~21:25:00 HKT,部署币币、币币杠杆交易服务的云服务器系统再次出现异常,导致币币、币币杠杆交易系统停机。

第一次停机发生过程应对摘要:
截至2021-03-26 13:50:00 HKT,我们的监测系统发现币币、币币杠杆交易系统出现异常,并发出向相关开发人员发送系统异常报警信息。
截至2021-03-26 13:50:00 HKT,用户通过API交易时,接口返回 “30030”错误码,并提示“Matching engine is being upgraded. Please try in about 1 minute”,随即币币、币币杠杆的交易服务暂停。
截至2021-03-26 13:51:00 HKT,相关开发人员立即启动紧急事件响应程序,排查币币系统故障问题点。
截至2021-03-26 14:05:00 HKT,相关开发人员经过详细排查,初步确定是云服务器出现故障,币币、币币杠杆的交易系统程序意外停机,并及时联系云服务商的技术顾问共同排查服务器信息。
截至2021-03-26 14:30:00 HKT,相关开发人员和云服务商的技术顾问之间的双方配合排查服务器系统,最终确认是部署币币交易服务系统的云服务器出现异常导致币币、币币杠杆交易系统停止服务。
截至2021-03-26 14:36:00 HKT,相关开发人员完成重启交易的操作,并随即恢复币币、币币杠杆交易服务。

第二次停机发生过程应对摘要:
截至2021-03-26 21:03:00 HKT,我们的监测系统发现币币、币币杠杆交易系统出现异常,并发出向相关开发人员发送系统异常报警信息。
截至2021-03-26 21:03:00 HKT,用户通过API交易时,接口返回 “30030”错误码,并提示“Matching engine is being upgraded. Please try in about 1 minute”,随即币币、币币杠杆的交易服务暂停。
截至2021-03-26 21:04:00 HKT,相关开发人员立即启动紧急事件响应程序,排查币币、币币杠杆系统故障问题点。
截至2021-03-26 21:10:00 HKT,相关开发人员经过详细排查,初步确定是云服务器再次出现相同故障,币币、币币杠杆的交易系统程序意外停机。
截至2021-03-26 21:13:00 HKT,云服务商的技术人员为该服务器做了系统升级,修复服务器系统异常的问题。
截至2021-03-26 21:25:00 HKT,相关开发人员完成重启交易的操作,并随即恢复币币、币币杠杆交易服务。

2. 我们通过做哪些工作保证欧易OKX平台的稳定性?
欧易OKX提供7*24全天候的交易服务,我们致力于为所有用户提供一个稳定、不间断的交易服务平台。但是由于高性能交易系统非常复杂,各种异常情况非常多,与所有交易系统一样,我们无法保证系统100%稳定运行。但是我们一直在从各个方面努力,提升系统稳定性,最大程度的减少停机出现的概率,包括:

1). 加强工程质量保证,优化测试体系;新功能代码在模拟盘稳定运行一段时间后才能上线
2). 架构升级,正在实现多机和多地域高可用,减少硬件、软件造成的宕机时间
3). 实现热更新,无状态逻辑实现热更新,减少升级对用户交易的影响

3. 如何获取系统更新?

1).在发生故障之后,我们会在Status页面发布故障说明。
2).当有新的系统升级事件时,我们会在Status页面发布通知;并通过市场和社群的渠道(API用户社群+普通用户社群)及时通知广大用户;同时API用户可以通过订阅system/status频道来实时获取通知。