核心要点
先表明态度:压力下保持冷静、以「止损优先」而非「找原因优先」
给出可套用的处理流程:分优先级 → 快速定位 → 止损(回滚/降级)→ 根因复盘
强调协作与信息透明:及时同步进展、拉对的人、对外管理预期
避雷:把抗压讲成「加班硬扛」、慌乱无章法、或事后不复盘
标准回答
答题框架(应急流程 + STAR)
态度:先一句话表明你在压力下能冷静、有章法。
流程:分优先级(先救命再优化)→ 快速定位(看监控/日志缩小范围)→ 止损(回滚或降级,先恢复服务)→ 复盘(找根因、补机制)。
协作:全程透明同步,拉对的人,对上下游管理预期。
示例
「一次大促前推理服务突然超时报警(S)。我没急着查代码,先看监控判断是流量激增导致 GPU 排队(定位),第一时间扩容并降级关掉非核心重排(止损),服务 10 分钟内恢复(T/A)。同时我在群里实时同步进展,安抚业务方。事后复盘补了自动扩容和压测,下次大促零事故(R)。」
常见误区
⚠️ 常见踩坑
把「抗压」答成「我能连续加班硬扛」,体现不出方法论;或描述自己手忙脚乱、先纠结追责而非先止损恢复服务;事后没有复盘沉淀。
追问
追问 1:同时来了多个紧急任务,你怎么排优先级?
用「影响面 × 紧急度」快速分级:先处理用户/营收影响最大且不可逆的,其次可降级缓办的;明确告诉相关方哪些会延后并给出预期。必要时拉资源并行,而不是一个人串行硬扛。
追问 2:长期高压下你怎么保持状态、避免 burnout?
体现可持续性而非莽:区分「真紧急」和「被制造的紧急」,用流程和自动化消灭重复救火;主动暴露风险和资源缺口而不是默默扛;保留必要的恢复节奏,让团队产能长期稳定。
延伸学习
与本题相关的知识库文章、术语、工具与行业资讯。