关于2023年7月5日交易服务故障的说明

发布于 2023年7月7日更新于 2024年4月4日阅读时长 2 分钟

1. 故障过程:
欧易OKX站的交易服务在 2023年7月5日16:20:00 (UTC+8)~18:00:00 (UTC+8)期间,部分用户的交易功能无法正常使用。

本次故障的详细时间线为:
16:20:00 (UTC+8),交易系统出现局部异常,开发人员通过监控和报警马上发现了问题,且陆续收到客户反馈,经过紧急排查,找到了系统异常点,讨论修复方案;
17:20:00 (UTC+8),完成了修复方案的制定,重点对系统配置进行优化,实施方案后,局部异常逐渐减少;
18:00:00 (UTC+8),局部异常完全消失,至此,交易系统整体恢复正常。

2. 是什么导致了这次故障?
基础组件的服务器由于重新启动遇到了意外的高负载,导致该组件失效,这进而导致部分下游交易系统无法正常处理某些请求。通过对系统配置进行优化,修复了此次故障。

3. 我们通过做哪些工作来避免本次故障再次发生?
1). 增加故障注入测试的模块,及时发现潜在的系统隐患并修复;
2). 通过重新评估在高负载的情况,系统能否正常运行的方式,来检查并优化系统参数配置。

4. 我们的承诺?
欧易致力于为我们的宝贵客户群体提供一个极可靠、高性能、多功能的平台。为达到这一目的,我们会对系统性能、稳定性和功能进行持续的优化。然而,由于 365 天全时段不间断地运行高性能系统非常复杂并充满挑战,意外问题仍会偶尔出现。
我们明白及时的沟通对于我们的客户至关重要,以及透明性是建立信任的核心。若发生任何问题,我们会尽快地通过官方的 Telegram 社群渠道、Status API 接口和 Status 页面通知我们的客户。

欧易团队
2023年7月7日