卡盟平台在分组WRR 队列中RDMA 手艺白皮书 目 录 1 概述······························································································································ 1 1.1 RDMA 出现靠山············································································································1 1.2 RDMA 手艺上风············································································································1 1.3 RDMA 手艺分类············································································································2 2 RDMA 手艺概述··············································································································· 2 2.1 IB 手艺························································································································2 2.1.1 IB 手艺简介·········································································································2 2.1.2 IB 手艺特征·········································································································2 2.2 iWARP 手艺·················································································································3 2.2.1 iWARP 简介 ········································································································3 2.2.2 iWARP 手艺特征 ··································································································3 2.3 RoCE 手艺···················································································································3 2.3.1 RoCE 简介··········································································································3 2.3.2 RoCE 手艺特征····································································································4 3 构修无损以太网··············································································································· 4 3.1 无损以太网症结特质······································································································4 3.2 PFC ···························································································································5 3.2.1 PFC 简介············································································································5 3.2.2 PFC 事业机制······································································································6 3.2.3 PFC 扩展功效······································································································8 3.3 ECN 功效 ·················································································································· 11 3.3.1 ECN 简介·········································································································· 11 3.3.2 ECN 事业机制···································································································· 11 3.4 DCBX ······················································································································· 12 3.4.1 DCBX 简介········································································································ 12 3.4.2 DCBX 事业机制·································································································· 12 3.5 ETS ·························································································································· 13 3.5.1 ETS 简介·········································································································· 13 3.5.2 ETS 事业机制···································································································· 13 4 构修无损以太网修设举例································································································· 14 1 1 概述 1.1 RDMA出现靠山 跟着高职能筹划、大数据领悟、人工智能以及物联网等手艺的飞速兴盛,会合式存储、分散式存储 以及云数据库的普及等缘由,交易运用有越来越众的数据需求从搜集中获取,这对数据核心搜集的 交流速率和职能条件越来越高。 古板的TCP/IP 软硬件架构及运用存正在着搜集传输和数据解决的延迟过大、存正在众次数据拷贝和中 断解决、杂乱的TCP/IP 条约解决等题目。RDMA (Remote Direct Memory Access,长途直接内存 访谒)是一种为明了决搜集传输中任事器端数据解决延迟而出现的手艺。RDMA 将用户运用中的数 据直接传入任事器的存储区,通过搜集将数据从一个编制敏捷传输到长途编制的存储器中,消释了 传输历程中众次数据复制和文本交流的操作,低浸了CPU 的负载。 图1 古板TCP/IP 数据传输历程 数据复制 发送端 回收端 当地运用层 长途运用层 sockets sockets 当地传输层 长途传输层 当地网卡驱动 长途网卡驱动 当地网卡 Network 长途网卡 图2 RDMA 数据传输历程 发送端 回收端 当地运用层 长途运用层 当地网卡驱动 长途网卡驱动 RDMA网卡 Network RDMA网卡 1.2 RDMA手艺上风 RDMA 手艺完成了正在搜集传输历程中两个节点之间数据缓冲区数据的直接通报,正在本节点能够直接 将数据通过搜集传送到长途节点的内存中,绕过操作编制内的众次内存拷贝,比拟于古板的搜集传 输,RDMA 无需操作编制和TCP/IP 条约的介入,能够容易的完成超低延时的数据解决、超高含糊 量传输,不需求长途节点CPU 等资源的介入,不必由于数据的解决和迁徙糟塌过众的资源。 1 1.3 RDMA手艺分类 RDMA 手艺苛重囊括: • IB(InfiniBand ):基于InfiniBand 架构的RDMA 手艺,由IBTA(InfiniBand Trade Association) 提出。搭修基于IB 手艺的RDMA 搜集需求专用的IB 网卡和IB 交流机。 • iWARP (Internet Wide Area RDMA Protocal ):基于TCP/IP 条约的RDMA 手艺,由IETF 标 准界说。iWARP 增援正在圭臬以太网根基举措上利用RDMA 手艺,但任事器需求利用增援 iWARP 的网卡。 • RoCE (RDMA over Converged Ethernet):基于以太网的RDMA 手艺,也是由IBTA 提出。 RoCE增援正在圭臬以太网根基举措上利用RDMA 手艺,可是需求交流机增援无损以太网传输, 需求任事器利用RoCE 网卡。 H3C 以太网交流机也许增援iWARP,此中局部系列 (具编制列请磋议市集手艺职员或查看产物配 套材料)增援无损以太网传输的症结手艺,也许增援RoCE。 2 RDMA 手艺概述 2.1 IB手艺 2.1.1 IB 手艺简介 InfiniBand 是一种基于InfiniBand 架构的RDMA 手艺,它供应了一种基于通道的点对点音信部队转 发模子,每个运用都可通过创修的虚拟通道直接获取本运用的数据音信,无需其他操作编制及条约 栈的介入。InfiniBand 架构的运用层采用了 RDMA 手艺,能够供应长途节点间 RDMA 读写访谒, 齐备卸载 CPU 事业负载;搜集传输采用了高带宽的传输;链途层成立特定的重传机制保障任事质 量,不需求数据缓冲。 InfiniBand 务必运转正在InfiniBand 搜集境况下,务必利用IB 交流机及IB 网卡才可完成。 图3 InfiniBand 架构 RDMA运用 RDMA 运用 RDMA API API (Verbs ) IB传输层条约 IB HCA网卡或 操作编制 IB搜集层 IB HCA网卡 IB交流机 IB链途层 2.1.2 IB 手艺特征 InfiniBand 手艺具有以下特征: 2 • 运用层采用RDMA 手艺,低浸了正在主机侧数据解决的延迟。 • 音信转发负责由子网束缚器完毕,没有近似以太网杂乱的条约交互筹划。 • 链途层通过重传机制保障任事质地,不需求数据缓冲,无丢包。 • 具有低延迟、高带宽、低解决开销的特征。 2.2 iWARP手艺 2.2.1 iWARP 简介 iWARP 是基于以太网和TCP/IP 条约的RDMA 手艺,能够运转正在圭臬的以太网根基举措上。 iWARP 由MPA、DDP、RDMAP 三层子条约构成: • RDMAP 层条约认真RDMA 读、写操作和RDMA 音信的转换,并将RDMA 音信转发到DDP 层。 • DDP 层条约认真将过长的RDMA 音信分片分装成DDP 数据包一连转发到MPA 层。 • MPA 层正在DDP 数据段的固定标识地位扩张转发后向标识、数据报文的长度以及CRC 校验数 据等字段组成MPA 数据段交由TCP 传输。 2.2.2 iWARP 手艺特征 iWARP 从以下几个方面低浸了主机侧搜集负载: • TCP/IP 解决流程从CPU 卸载到RDMA 网卡解决,低浸了CPU 负载。 • 消释内存拷贝:运用步骤能够直接将数据传输到对端运用步骤内存中,明显低浸CPU 负载。 • 削减运用步骤上、下文切换:运用步骤能够绕过操作编制,直接正在用户空间对RDMA 网卡下 发下令,低浸了开销,明显低浸了运用步骤上、下文切换酿成的延迟。 因为TCP 条约也许供应流量负责和堵塞束缚,于是iWARP 不需求以太网增援无损传输,仅通过普 通以太网交流机和iWARP 网卡即可完成,于是也许正在广域网上运用,具有较好的扩展性。 2.3 RoCE手艺 2.3.1 RoCE 简介 RoCE 手艺增援正在以太网上承载IB 条约,完成RDMA over Ethernet。RoCE 与InfiniBand 手艺有 沟通的软件运用层及传输负责层,仅搜集层及以太网链途层存正在分歧。 3 图4 RoCE 架构 RDMA运用 RDMA 运用 RDMA API API (Verbs ) IB传输层条约 RoCE HCA网 卡或操作编制 IB搜集层 IP/UDP RoCE HCA网卡 以太网交流机 以太网链途层 RoCE v1 RoCE v2 RoCE 条约分为两个版本: • RoCE v 1 条约:基于以太网承载RDMA,只可计划于二层搜集,它的报文机合是正在原有的IB 架构的报文上扩张二层以太网的报文头,通过Ethertype 0x8915 标识RoCE 报文。 • RoCE v2 条约:基于UDP/IP 条约承载RDMA,可计划于三层搜集,它的报文机合是正在原有 的IB 架构的报文上扩张UDP 头、IP 头和二层以太网报文头,通过UDP 方针端标语4791 标 识RoCE 报文。RoCE v2 增援基于源端标语hash,采用ECMP 完成负载分管,抬高了搜集 的操纵率。 2.3.2 RoCE 手艺特征 RoCE 使得基于以太网的数据传输也许: • 抬高数据传输含糊量。 • 削减搜集延时。 • 低浸CPU 负载。 RoCE 手艺可通过日常以太网交流机完成,但任事器需求增援RoCE 网卡,搜集侧需求增援无损以 太搜集,这是因为 IB 的丢包解决机制中,自便一个报文的失落都邑酿成多量的重传,紧要影响数 据传输职能。 3 构修无损以太网 3.1 无损以太网症结特质 正在RoCE 搜集中,咱们需求构修无损以太网用于保障搜集传输历程中不丢包。构修无损以太网需支 持以下症结特质: • (必选)PFC (Priority-based Flow Control,基于优先级的流量负责):逐跳供应基于优先级 的流量负责,也许完成正在以太网链途上运转众品种型的流量而互不影响。 4 • (必选)ECN (Explicit Congestion Notification,显示堵塞通告):兴办产生堵塞时,通过对 报文IP 头中ECN 域的标识,由回收端向发送端发出低浸发送速度的CNP (Congestion Notification Packet,堵塞通告报文),完成端到端的堵塞束缚,减缓堵塞扩散恶化。 • (倡导)DCBX (Data Center Bridging Exchange Protocol,数据核心桥才华交流条约):使 用LLDP 主动切磋DCB 才华参数,囊括PFC 和ETS 等。通常用正在接入交流机相接任事器的 端口,与任事器网卡举办才华切磋。 • (可选)ETS (Enhanced Transmission Selection,巩固传输采用):将流量按任事类型分组, 正在供应区别流量的最小带宽保障的同时抬高链途操纵率,保障要紧流量的带宽百分比。需求 逐跳供应。 图5 构修无损以太搜集症结特质组网示妄图 PFC PFC PFC PFC PFC PFC Network DCBX DCBX DCBX DCBX ETS ETS ETS ETS ETS ETS ECN ECN 正在RoCE 境况中,PFC 与ECN 需求同时利用,以正在无丢包情形下带宽取得保障。二者的功效比较 如外1 所示。 外1 PFC 与ECN 比较 比力项目 PFC ECN 搜集地位 二层 搜集层及传输层 感化局限 点到点 端到端 是否需求全网增援 是 否 搜集中上一节点,假若任事器网卡支 被负责对象 发送主机 持PFC,PFC对网卡也能生效 报文缓存地位 中央搜集节点及发送端 发送端 搜集兴办中8个转发部队中某个部队 受影响的流量 产生堵塞运用的相接 的悉数流量 反映速率 速 慢 3.2 PFC 3.2.1 PFC 简介 PFC 是构修无损以太网的必选伎俩之一,也许逐跳供应基于优先级的流量负责。兴办正在举办报文转 发时,依据报文的优先级进入对应映照合联的部队中举办更改转发。当某一优先级报文发送速度超 过回收速度,导致回收方可用数据缓冲空间不敷时,兴办通过 PFC PAUSE 帧反应给上一跳兴办, 5 上一跳兴办收到PAUSE 帧报文后停滞发送本优先级报文,直到再收到PFC XON 帧或进程必定的 老化时候后才略收复流量发送。通过利用 PFC 功效,使得某品种型的流量堵塞不会影响其他类型 流量的平常转发,从而抵达统一链途上区别类型的报文互不影响。 3.2.2 PFC 事业机制 1. PFC PAUSE 帧天生机制 图6 PFC 功效PAUSE 帧出现示妄图 Device A Device B 端口1 如图6 所示,PAUSE 帧出现历程: (1) Device B 的端口1 收到来自Device A 的报文后,MMU (Memory Manage Unit,存储器束缚 单位)会为该报文分拨cell 资源,当兴办的PFC 功效处于开启状况时,会依据报文中的dot1p 优先级统计占用的cell 资源。 cell 资源:用来存储数据包的实质,端口会依据报文的本质巨细占用相应巨细的cell 资源。比 如一个cell 资源是208 字节,当发送的报文是128 字节时,端口会给它分拨一个cell 资源, 当发送的报文是300 字节时,端口会给它分拨两个cell 资源。 (2) 当Device B 端口1 的某个优先级的报文占用的cell 资源统计计数抵达成立的门限后,再收到 新的该优先级报文后,端口1 会发送对应优先级的PFC PAUSE 帧给Device A 。 (3) Device A 收到该优先级的PFC PAUSE 帧后停滞发送对应优先级的报文,对该优先级的报文 举办缓存,假若触发了缓存门限,则也向其上逛兴办发送PFC PAUSE 帧,如图7 所示。 图7 众跳兴办之间的PFC PAUSE 帧解决 当地部队Buffer抵达缓存门 限,出现PFC PAUSE帧 收到PFC PAUSE帧,对 该部队报文举办缓存。达 到缓存门限,向上逛兴办 发送PFC PAUSE帧 收到PFC PAUSE帧,对该 部队报文举办缓存。没有 流量 抵达缓存门限,错误上逛 PFC PAUSE帧 兴办发送PFC PAUSE帧 6 2. 报文优先级与部队映照合联 兴办正在举办报文转发时,将区别优先级的报文放入区别的部队中举办更改转发。报文优先级与部队 映照合联与兴办修设的优先级映照格式相合。兴办增援的优先级映照修设格式囊括:优先级相信模 式格式、端口优先级格式。 • 优先级相信形式格式 修设端口的优先级相信形式后,兴办将相信报文本身率领的优先级。通过优先级映照外,使 用所相信的报文率领优先级举办优先级映照,依据映照合联完毕对报文优先级的批改,以及 完成报文正在兴办内部的更改。端口的优先级相信形式分为: − dot1p:相信报文自带的802.1p 优先级,以此优先级举办优先级映照。 − dscp:相信IP 报文自带的DSCP 优先级,以此优先级举办优先级映照。 • 端口优先级格式 未修设端口的优先级相信形式时,兴办会将端口优先级举动报文本身的优先级。通过优先级 映照外,对报文举办映照。用户能够修设端口优先级,通过优先级映照,使区别端口收到的 报文进入对应的部队,以此完成对区别端口收到报文的分歧化更改。 接口修设PFC 功效时,务必修设接口相信报文自带的802.1p 优先级或DSCP 优先级。接口收到以 太网报文,依据优先级相信形式和报文的802.1Q 标签状况,兴办为区别优先级的报文标帜区别的 当地优先级(LP),依据当地优先级举办部队更改,整体历程如图8 所示。 本文仅先容接口相信报文自带的802.1p 优先级或DSCP 优先级的情形下,报文优先级到当地优先 级的映照情形,合于端口采用端口优先级时的映照情形和报文抛弃时参考的抛弃优先级请参考产物 修设诱导。 7 图8 报文优先级与部队映照合联 回收报文 相信报文自带 推断端口优先 相信报文自带 802.1p优先级 级相信形式 DSCP优先级 利用回收报文端口 N 推断报文是否携 查找dscp-dot1p、 优先级举动802.1p 带802.1Q标签 dscp-dscp映照外 优先级 Y 为报文标帜dot1p 查找dot1p-lp映照 优先级和DSCP优 外 先级 为报文标帜当地优 查找dot1p-lp 先级 映照外 为报文标帜当地优 先级 依据当地优先级调 度 需求贯注的是:修设PFC 功效时,务必修设接口相信报文自带的802.1p 优先级或DSCP 优先级, 而且转发旅途上悉数端口的802.1p 优先级与当地优先级映照合联以及DSCP 优先级与802.1p 优先 级映照合联务必相似,不然PFC 功效将无法平常事业。 3.2.3 PFC 扩展功效 1. PFC 门限修设 通过修设 PFC 缓存门限能够有用处分因缓冲空间不敷和入流量部队数目过大,导致发送数据缓冲 区尾抛弃等题目。 咱们先来明了一下接口的缓冲空间成立。接口的缓冲空间分为以下几种: • Guaranteed 存储空间:固定缓冲区,为每一个优先级部队和端供词应最小的缓存保障。编制 会依据用户的修设给部队预留指定巨细的空间,即使该部队没有报文存储需求,其他部队也 不行抢占。给部队预留的空间均分给每个端口的,假使某端口的某部队没有报文存储需求, 其他端口也不行抢占。 • Shared 存储空间:共享缓冲区,当端口或优先级的固定缓冲区不足用时,利用Shared 存储 空间,编制会依据用户修设以及本质需求收发报文的数目断定每个部队本质可占用的缓冲区 的巨细。假若某个部队没有报文存储需求,则其他部队会抢占该部队的配额。看待某个部队 8 的缓冲区,悉数端口回收或发送的报文采用抢占的格式,先到先得,假若资源耗尽,则后到 达的报文将被抛弃。 • Headroom 存储空间:Headroom 缓冲区,当端口PFC 功效生效并触发PFC 反压帧门限后, 本端兴办发送PFC PAUSE 帧到对端兴办让对端停滞流量发送的历程中,仍旧正在途的这局部 流量的缓存空间,兴办需求这些缓冲空间来保障PFC 流程的不丢包。 PFC 目前供应以下门限成立: • Headroom 缓存门限:Headroom 存储空间中某802.1p 优先级报文的最大利用cell 资源。当 抵达利用的cell 资源后,该接口会抛弃收到的报文。 • 反压帧触发门限:Shared 存储空间中某802.1p 优先级报文正在该存储空间利用cell 资源上限。 抵达上限后,会触发PFC 功效发送PAUSE 帧。反压帧触发门限又分为动态反压帧触发门限 和静态反压帧触发门限: 动态反压帧触发门限:成立某802.1p 优先级报文触发PFC PAUSE 帧的可用cell 资源的 百分比。 静态反压帧触发门限:成立某802.1p 优先级报文触发PFC PAUSE 帧的可用cell 资源门 限为一个固定值。 • 反压帧停滞门限与触发门限间的偏移量:当某802.1p 优先级报文利用的cell 资源减小了一个 固定值时,停滞发送PFC PAUSE 帧,使对端兴办收复流量发送。 • PFC 预留门限:Guaranteed 存储空间中为某802.1p 优先级报文预留的cell 资源。 • Headroom 最大可用的cell 资源:修设某缓存池 (pool,产物整体增援的poolID 与产物型号 相合,请以兴办的本质情形为准)中,分拨给Headroom 存储空间的cell 资源的巨细。 整体修设下令行请参睹对应产物的修设诱导和下令参考。 Headroom 缓存门限的倡导修设值与接口授输速度和隔绝相合,整体倡导值请参考产物下令手册。 看待其他门限值,开启指定802.1p 优先级的PFC 功效后,兴办会为PFC 的各样门限成立一个缺 省值,此缺省值正在通常的组网境况下是功效较好的参数组合,通常不倡导调解。如组网境况或流量 靠山确实非凡杂乱,倡导磋议专业职员举办调解。 2. PFC 死锁检测功效 当指定优先级的报文变成环途时,会导致数据缓冲区内报文无法转发,兴办间屡次发送和回收PFC 帧,导致兴办接口的缓冲区cell 资源连续被占用无法开释,此时兴办进入 PFC 死锁状况。兴办处 于PFC 死锁状况后,采用合上PFC 功效或者无视回收到的PFC XOFF 帧 (体现停滞流量发送) 的格式使兴办一连转发数据报文即可排除死锁。 通过修设 PFC 死锁检测功效,能够按期检测兴办是否处于PFC 死锁状况。当兴办检测到PFC 死 锁状况后,兴办会正在收复周期内主动排除死锁状况。此时兴办会主动一时禁用PFC 死锁检测功效, 以便报文也许平常转发,排除死锁状况。 PFC 死锁状况排除后,用户可采用主动或手工格式来收复PFC 死锁检测功效。收复PFC 死锁检测 功效会让PFC 功效一连生效。以是,大凡情形下,利用主动收复格式即可。当报文环途无法消释, 兴办一再处于PFC 死锁状况时,用户能够进入以太网接口视图修设PFC 死锁检测功效的收复格式 为手工收复格式,并尽速废除阻碍,再手工收复PFC 死锁检测功效。 9 更众PFC 死锁检测功效的修设下令请参睹对应产物的修设诱导和下令参考。 3. PFC 一键遁生功效 当兴办的PFC 功效涌现火速阻碍时,用户不必逐一接口去合上PFC 功效,能够通过下令行一键合 闭悉数接口的PFC 功效。当阻碍收复后,能够通过下令行一键开启悉数接口的PFC 功效。整体的 下令行样式与兴办的增援情形及版本相合,请以兴办的本质情形为准。 4. PFC 报文的预警门限 用户可依据本质组网情形,修设接口入对象或者出对象 PFC 报文的预警门限。预警门限用于 PFC 报文传输速度处于平常局限内,但需求指引用户提前合切的情形。 当接口回收或发送PFC 报文的速度抵达预警门限时,编制会天生Trap 和日记音信来指引用户,以 提前觉察搜集中的极少卓殊题目。比方: • 对端兴办网卡阻碍,继续地连续高速发送PFC 帧,能够修设入对象预警门限举办监控。 • 本兴办阻碍后继续发送PFC 帧,能够修设出对象预警门限举办监控。 • 假若有双向监控需求的,能够正在入和出对象都修设预警门限举办监控。 PFC 报文的预警门限修设的整体下令先容请参睹产物下令手册。 5. 配合gRPC 完成统计、告警音信上报 PFC 配合gRPC 能够完成丢包主动上陈说警,超限主动上陈说警,同时供应各样丢包和瞬时利用值 供统计盘问。 增援上报的统计音信囊括: • ingress/egress 丢包总量 • RX/TX PFC 帧总量及速度 • ingress/egress buffer 利用 • headroom buffer 利用 • ingress/egress buffer 超限次数 • headroom 超限次数。 • 基于XPE 统计的buffer 操纵率 • ECN 功效marked 次数 • WERD 丢包总量 增援上报的告警音信囊括: • ingress/egress 丢包 • headroom buffer 超限 • ingress buffer 超限 • egress buffer 超限。 6. 富厚的诊断维持功效 利用display priority-flow-control下令能够显示查看PFC 功效正在端口上的修设情形及每 端口和每部队的PFC 帧的收发总量和收发速度。 利用display packet-drop 下令能够对回收及发送端丢包的总音信及各端口丢包音信举办诊断 盘问。 10 利用 display qos queue-statistics interface outbound 下令能够显示端口部队出方 向的统计音信。 3.3 ECN功效 3.3.1 ECN 简介 ECN 是构修无损以太网的必选伎俩之一。ECN 界说了一种基于IP 层及传输层的流量负责及端到端 堵塞通告机制。ECN 功效操纵 IP 报文头中的 DS 域来标帜报文传输旅途上的堵塞状况。增援该功 能的终端兴办能够通过报文实质推断出传输旅途上产生了堵塞,从而调解报文的发送格式,避免拥 塞加剧。 3.3.2 ECN 事业机制 ECN 功效对IP 报文头中DS 域的结尾两个比特位(称为ECN 域)举办了如下界说: • 比特位6 用于标识发送端兴办是否增援ECN 功效,称为ECT 位(ECN-Capable Transport ) • 比特位7 用于标识报文正在传输旅途上是否通过过堵塞,称为CE 位(Congestion Experienced ) 正在本质运用中,兴办将ECT 位为 1、CE 位为0 的报文,以及ECT 位为0 ,CE 位为 1 的报文都识 别为由增援ECN 功效的终端发出的报文。 图9 DS 域地位音信 图10 ECN 域地位音信 正在兴办上开启ECN 功效后,堵塞束缚功效将按如下格式对报文举办解决: • 假若部队长度小于下限,不抛弃报文,也错误ECN 域举办识别和标帜。 • 假若部队长度正在上限和下限之间,当兴办依据抛弃概率筹划出需求抛弃某个报文时,将检验 该报文的ECN 域。假若ECN 域显示该报文由增援ECN 的终端发出,兴办会将报文的ECT 位和CE 位都标帜为1,然后转发该报文;假若ECN 域显示报文传输旅途中仍旧通过过堵塞 11 (即ECT 和CE 位都为1),则兴办直接转发该报文,错误ECN 域举办从新标帜;假若ECT 位和CE 位都为0,兴办会将该报文抛弃。 • 假若部队长度进步上限,将部队中悉数报文的ECN 域都标帜为11,当部队长度抵达部队尾丢 弃门限后,报文将被抛弃。 图11 ECN 事业机制示妄图 1 ECN (10) 2 ECN (11) 回收端 产生堵塞 发送端 Device A Device B Device C 3 发送CNP报文 4 相应部队报文降速发送 5 进程一段时候后或发送必定数目报文后收复发送速度 ECN 功效事业机制: (1) 发送端成立ECN 域为10,示知旅途上的兴办及回收端,发送端兴办增援ECN 功效。 (2) 中央兴办产生堵塞并抵达门限,堵塞兴办将产生堵塞的报文ECN 域成立为11,报文平常转发。 (3) 回收端收到ECN 置位为11 的报文,由传输层发送CNP (Congestion Notification Packet, 堵塞通告报文)通告发送端。 (4) 发送端收到CNP 报文,对对应的优先级的部队举办降速解决。 (5) 进程一段可修设的时候或者发送必定数目数据,发送端收复从来的速度。 3.4 DCBX 3.4.1 DCBX 简介 DCBX 是完成无损以太网传输的症结伎俩之一,用于 DCE 中各搜集单位举办桥才华切磋以及长途 修设。通过 DCBX ,交流机之间以及交流机和网卡之间能够切磋和主动修设DCB 参数,以完成简 化修设以及保障修设相似性的方针。 3.4.2 DCBX 事业机制 图12 图2-2 DCBX 功效修设组网图 DCBX TLV Access Device Server with RoCE card Data center network 12 DCBX 通过LLDP (Link Layer Discovery Protocol,链途层觉察条约)来完毕音信交互的历程,支 持交互链途两边的ETS、PFC 以及运用的优先级等修设音信。 正在兴办整体和接口上都开启LLDP 功效并同意接口公布DCBX TLV 即可开启兴办的DCBX 功效, 再依据本质运用需求修设兴办通过该接口公布APP (Application Protocol,运用条约)、ETS 和PFC 参数。正在本文的运用需求中,苛重用于公布ETS 参数。 修设DCBX 时,还需求贯注修设DCBX 的版本,可手工修设或自切磋DCBX 版本。DCBX 版本需 要视对端兴办增援的版本而定,条件两头端口的 DCBX 版本相似,不然版本无法兼容,将会导致 DCBX 无法平常事业。 3.5 ETS 3.5.1 ETS 简介 ETS 是基于优先级组的带宽分拨解决,ETS 用于完成容许带宽。兴办通过ETS 参数与对端举办协 商,负责对端指定类型数据的发送带宽,保障其正在接口的容许带宽局限之内,从而不会因流量堵塞 而导致数据失落。 3.5.2 ETS 事业机制 ETS 机制将搜集中的流量优先级分成区别的优先级组(Priority Group),为每个优先级组分拨必定 的带宽,假若一个优先级组未打发为其分拨的带宽其他优先级组能够利用这些未利用的带宽。保障 要紧流量正在传输历程中具有容许带宽。 修设ETS 功效的整体完成历程为: (1) 修设802.1p 优先级到当地优先级的映照使报文进入特定的部队。有以下两种格式: QoS 计谋格式。 优先级映照外格式。 假若同时修设了这两种格式,则前者的修设优先生效。相合QoS 计谋下令的精细先容,请参 睹“ACL 和QoS 下令参考”中的“QoS 计谋”。相合优先级映照外下令的精细先容,请参睹 “QoS 下令参考”中的“优先级映照”。 (2) 修设分组WRR 部队,以完成区别部队带宽的分拨。相合WRR 部队下令的精细先容,请参睹 “QoS 下令参考”中的“堵塞束缚”。 为了更好的阐明为什么ETS 也许完成要紧流量的带宽保障,这里咱们精细先容一下分组WRR 部队。 咱们先来明了一下 WRR 部队。WRR 部队正在部队之间举办轮番更改,保障每个部队都取得必定的 任事时候。以端口有 8 个输出部队为例,WRR 可为每个部队修设一个加权值(顺次为w7、w6、 w5、w4 、w3 、w2 、w1 、w0 ),加权值体现获取资源的比重。如一个100Mbps 的端口,修设它的 WRR 部队的加权值为 50、50、30、30、10、10、10、10 (顺次对应w7、w6、w5、w4 、w3 、 w2 、w1 、w0 ),如许能够保障最低优先级部队起码得回5Mbps 的带宽。 WRR 部队尚有一个利益是,固然众个部队的更改是轮询举办的,但对每个部队不是固定地分拨服 务时候片——假若某个部队为空,那么立时换到下一个部队更改,如许带宽资源能够取得充沛的利 用。 WRR 部队分为: 13 • 基础WRR 部队:基础WRR 部队包罗众个部队,用户能够定制各个部队的权重,WRR 按用 户设定的参数举办加权轮询更改。 • 分组WRR 部队:悉数部队总计采用WRR 更改,用户能够依据需求将输出部队划分为WRR 优先级部队组1 和WRR 优先级部队组2 。举办部队更改时,兴办最初正在WRR 优先级部队组 1 中举办轮询更改;优先级部队组1 中没有报文发送时,兴办才正在优先级部队组2 中举办轮询 更改。现时兴办仅增援WRR 优先级部队组1。 正在分组WRR 部队中,也能够修设部队参预SP 分组,采用庄苛优先级更改算法 (即唯有较高优先 级部队为空时,才会发送较低优先级部队中的分组,最大控制保障症结交易流量的发送)。更改时 先更改SP 组,然后更改其他WRR 优先组。 正在ETS 的修设中,为了保障要紧流量的发送带宽,咱们能够采用如下两种格式之一修设分组WRR 部队: • 修设WRR 优先组1 的WRR 部队更改权重,使要紧流量所正在部队具有较高权重。 qos wrr queue-id group 1byte-count schedule-value • 修设端口部队采用庄苛优先级更改算法,使要紧流量所正在部队优先更改。 qos wrr queue-id group sp 4 构修无损以太网修设举例 1. 组网需求 如图13 所示,任事器Server 1、Server 2 和Server 3 上均装置RoCE 网卡,Server 1 和Server 2 均通过以太网交流机Device A 和Device B 相接Server 3。 为增援RoCE 手艺,现条件将扫数搜集搭修为无损以太网,整体条件为: • 报文转发旅途的悉数端口都开启PFC 功效,本例以完成802.1p 优先级为5 的报文的无损传 输为例。 • 交流机相接任事器的端口开启DCBX 功效,使兴办和任事器网卡能够切磋ETS 和PFC 参数。 • Device A 的Twenty-FiveGigE1/0/3 和Device B 的Twenty-FiveGigE1/0/2 端口修设ETS 功效, 保障802.1p 优先级为5 的报文的发送带宽。 本例所示的组网中,咱们以为Server 1、Server 2 发往Server 3 的流量大于反向流量,以是 仅正在上述端口修设ETS 功效,本质运用中假若无法预测流量发送情形,能够正在组网中的悉数 端口上修设ETS 功效。 • Device A 的Twenty-FiveGigE1/0/3 端口修设ECN 功效,使兴办正在产生堵塞时也许通告发送 端调解发送速度。 14 本例所示的组网中,堵塞的也许产生地位为Device A 的Twenty-FiveGigE1/0/3 端口,于是仅 正在该端口修设ECN 功效。本质运用中假若无法预测堵塞产生的也许地位,能够正在组网中的所 有端口上修设ECN 功效。 2. 组网图 图13 RoCE 功效修设组网图 WGE 1/0/ 1 WGE 1/0/2 Server 1 WGE 1/0/2 WGE 1/0/ 1 WGE 1/0/3 Device A Device B Server 3 Server 2 3. 修设方法 (1) 修设Device A # 正在接口Twenty-FiveGigE1/0/1、Twenty-FiveGigE1/0/2、Twenty-FiveGigE1/0/3 上修设接口相信 报文自带的的802.1p 优先级,开启接口的PFC 功效,并对802.1p 优先级5 开启PFC 功效。 DeviceA system-view [DeviceA] interface range twenty-fivegige 1/0/1 to twenty-fivegige 1/0/3 [DeviceA-if-range] qos trust dot1p [DeviceA-if-range] priority-flow-control enable [DeviceA-if-range] priority-flow-control no-drop dot1p 5 [DeviceA-if-range] quit # 整体开启LLDP 功效。 [DeviceA] lldp global enable # 正在接口Twenty-FiveGigE1/0/1、Twenty-FiveGigE1/0/2 上开启LLDP 功效,并同意公布DCBX TLV, 修设接口Twenty-FiveGigE1/0/1、Twenty-FiveGigE1/0/2 的DCBX 版本为预圭臬版1.01。 [DeviceA] interface range twenty-fivegige 1/0/1 to twenty-fivegige 1/0/2 [DeviceA-if-range] lldp enable [DeviceA-if-range] lldp tlv-enable dot1-tlv dcbx [DeviceA-if-range] dcbx version rev101 [DeviceA-if-range] quit # 正在接口Twenty-FiveGigE1/0/3 上开启WRR 部队,并根据每次轮询可发送的字节数举办筹划,同 时修设端口部队5 (802.1p 优先级5 到当地优先级5 为默认映照合联)采用庄苛优先级更改算法。 [DeviceA] interface twenty-fivegige 1/0/3 [DeviceA-Twenty-FiveGigE1/0/3] qos wrr byte-count [DeviceA-Twenty-
2、成为VIP后,下载本文档将扣除1次下载权力。下载后,不增援退款、换文档。如有疑难请干系咱们。
3、成为VIP后,您将具有八大权力,权力囊括:VIP文档下载权力、阅读免打搅、文档体式转换、高级专利检索、专属身份标记、高级客服、众端互通、版权注册。
4、VIP文档为合营方或网友上传,每下载1次, 网站将依据用户上传文档的质地评分、类型等,对文档奉献者予以高额补贴、流量扶植。假若你也思奉献VIP文档。上传文档
NVIDIA Kepler GK110-GK210架构白皮书 精细.pdf
IBM Spectrum NVIDIA DGX职能概览 精细先容.pdf
人音版初中音乐八年级上册第一单位七子之歌《大海啊,故土》《我的中邦心》课件.pptx
2022-2023学年北京市大兴区九年级初三(上期)期中试验数学试卷及谜底.pdf
高中史册教学课件:第6讲三邦两晋南北朝的民族交融与隋唐联合众民族封开邦家的兴盛.pptx
原创力文档创修于2008年,本站为文档C2C买卖形式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中央任事平台,本站悉数文档下载所得的收益归上传人悉数。原创力文档是搜集任事平台方,若您的权柄被侵吞,请发链接和相干诉求至 电线) ,上传者
转载请注明出处:MT4平台下载
本文标题网址:卡盟平台在分组WRR队列中