从这个网页截图中,我们可以获取到以下关于漏洞的关键信息: 1. 漏洞描述: - 标题:RDMA/mad: Improve handling of timed out WRs of mad agent - 描述:当前的超时处理程序为每个超时的WRs获取/释放mad_agent_priv锁。这会导致在处理更多WRs时的锁定竞争。 - 问题:这会导致软锁定,特别是在使用rdma-cm路径来在节点之间建立连接时。 2. 堆栈跟踪: - 软锁定:CPU#4在kworker/u128:3:19767中被卡住26秒。 - 硬件信息:Dell Inc. PowerEdge R740/01YM03,BIOS 2.4.8,11/26/2019。 - 工作队列:ib_mad1 timeout_sends [ib_core] - 中断处理:一系列中断处理函数,包括 、 等。 3. 修复方案: - 简化超时处理:通过创建一个本地列表来跟踪超时的WRs,并在创建列表后调用发送处理程序。新方法在获取/释放锁时只获取一次,有助于减少锁定竞争。 4. 签名: - 提交者:Saravanan Vajravel - 链接:https://lore.kernel.org/r/20240722110325.195085-1-saravanan.vajravel@broadcom.com - 提交者:Leon Romanovsky 5. Diffstat: - 文件变化:drivers/infiniband/core/mad.c - 更改内容:8个插入,6个删除 6. Diff内容: - 更改代码:在 函数中,删除了对 的处理,改为使用 。 这些信息表明,该漏洞与RDMA/mad代理的超时处理有关,修复方案通过简化超时处理来减少锁定竞争。