关于2023年3月17日交易服务故障的说明

发布于 2023年3月18日更新于 2024年4月12日阅读时长 2 分钟

1. 故障过程:

欧易交易系统在2023年3月17日16:39:00-17:28:15 (UTC+8) 期间部分或整体功能无法使用。

本次故障的详细时间线为:

2023-03-17 16:39:00 (UTC+8),部分交易系统开始间歇出现警报。我们的监控系统收到警报后立即通知了相关开发人员,有关团队开始进行维护工作。
2023-03-17 16:49:00 (UTC+8),为保证市场秩序,我们主动暂停了所有交易,并准备发布暂停运作的通知。相关开发人员找到了系统异常的根本原因,正在努力解决问题。
2023-03-17 16:50:00 (UTC+8),系统暂停运作的通知在 Status 页面发布。
2023-03-17 17:18:15 (UTC+8),开启 pre-open:开放撤单、只做 Maker (post-only) 下单和改单,以及资金转入功能。
2023-03-17 17:28:15 (UTC+8),所有交易功能恢复正常。

2. 是什么导致了这次故障?

一个日志文件的处理,给基础组件的服务器带来了意外的高瞬时负载,导致了该组件的资源耗竭以及失效,进而导致下游交易系统无法处理某些请求。为了维护市场秩序,在问题被解决前我们暂停了所有的交易服务。

3. 我们将通过哪些工作来避免本次故障再次发生?

1). 调整和优化相关日志的技术参数,如:控制日志文件大小,避免这种类型的故障再次发生。
2). 完善内部监控系统,以及报警机制,如:服务端问题监控、客户端问题监控,寻求在问题暴露之前解决,或者问题暴露之初快速解决。
3). 完善故障处理流程,如:保留完整的故障记录,可以还原故障始末,更深入地分析故障原因,从而对该类故障采取更全面的防范措施。

4. 我们的承诺

欧易致力于为我们的宝贵客户群体提供一个极可靠、高性能、多功能的平台。为达到这一目的,我们会对系统性能、稳定性和功能进行持续的优化。然而,由于 365 天全时段不间断地运行高性能系统非常复杂并充满挑战,意外问题仍会偶尔出现。

我们明白及时的沟通对于我们的客户至关重要,以及透明性是建立信任的核心。若发生任何问题,我们会尽快地通过官方的 Telegram 社群渠道、sytem/cn/cn/status API 接口和 Status 页面通知我们的客户。

欧易团队

2023年3月20日