这是本文档旧的修订版!


网络数据上报时间调节方法:(20210706修订)

RRI(0xA1)每十分钟个数算是一种网络拥堵指标。RRI的增减趋势称为busyIndex,每十分钟统计一次值并和之前值比大小,如果大则busyIndex+1, 如果小则busyIndex-1,当busyIndex大于N时,广播调节指标K-Interval+2/D-Interval+2 ,当busyInex小于-N时,广播调节指标K-Interval-2/D-Interval-2。 这里K-Interval和D-Interval分别代表心跳和数据的时间间隔(以秒计)。N为一个经验值,建议设置为5~10之间。

BusyIndex需要设置一个上限和下限,到达上下限时清0,以防止这个变量溢出。也可以就以正负N为上下限。当busyIndex到达上限时(一般不可能),同样广播调节指标K-Interval+2/D-Interval+2,当busyIndex到达下限时(网络好有可能),同样广播调节指标K-Interval-2/D-Interval-2。心跳和数据间隔也设置一个最小值,以防止溢出,比如K-Interval或D-Interval的下限都为20秒,小于20秒就不再改小了。

默认上电的调节指标目前测试下来41/80可作为200节点的默认指标。其它网络大小对应的默认指标待测,也可以就用这个41/80模型,因为反正可以动态调节。考虑到外部干扰,相同位置不同时间下的指标阀值并不一定会相同,这也就是为什么需要动态调节数据上报频次的原因,它可以在任何时候把网络拥堵修复到可自愈的状态。

考虑到RRI在网络已经严重堵塞时趋势并不一定有变化,因此还要引入另一个高权值变量,即CTS变高的flag。当10分钟内两次检查到CTS变高,和BusyIndex超N作一样应对处理,即广播调节指标K-Interval+2/D-Interval+2。

综上: 程序每10分钟统计读取RRI个数或CTS变高个数,如果CTS变高达两次,心路数据上报时间各扩大2秒。如果RRI连续5次为增量,即BusyIndex累计到5,同样心跳数据上报间隔时间各扩大2秒,直到上限不到增。 反之如果RRI是减量的,即BusyIndex为负,则心跳数据上报时间间隔各减少2秒,直到下限不再减。 原理分析

综合前几天测试的结果得出一些结论:网络拥堵时,由于协调器发过不来,实际上它发送负荷很大,以致缓冲区会慢慢增大到溢出状态,此时可见CTS拉高,使用流控来防止缓冲区溢出。当发送负荷大时,发送优先权也适当提高了,此时下面上发数据更容易发生碰撞,从而导致更不容易发通,此时MTO变多,并且协调器收到的RRI会变多。常见的NETWORK ACK Failure和TX Failure大多是这个原因。实测下来,发送选项不禁用ACK时,会导至重传多次发生并且接收端收到数据包超过发送端,而这些包在网络拥者时大多是没有意义的,反而进一步恶化网络拥堵状况。因为此时协调器应答包是入在发送缓冲区末端,所以即便有应答,也是很久之后,和10秒握手的机制不匹配。路由器收到这包理论上也是不会认为是之前应答,但不排除有时刚好在下次发送的时候收到,这也就是大网络拥堵下你们没有频繁退网的事件发生,只有偶发退网事件的原因。

附:07-01测试结果

今天主要做了Disable ACK的测试,效果远好于默认开ACK的方式。考虑到你们昨天晚上有临时开一下ACK效果不佳的情况,很可能是种意外,可进一步观察。
测试的目标是观察RRI指标是否可以在某种调节模式下变好,也即RRI不会越来越差,这样CTS才有可能避免拉高。

今天的测试结果和指标:
共191个节点,Disable ACK在35/50的指标下工作正常,也就是35秒心跳,50秒数据这个上报间隔。在40/80对RRI的抓取结果显示,其RRI每分钟个数为284,效果比之前好一倍。从数据上线率来看,在35/50上也是非常好的(和松一起观察,未记录)。

抓包指标分析 14:20改为41/80, 14:29记录15分钟
测试时间:14:29:07~14:44:37, 共15分30秒 =930S
测得0xA1=5134
0xA1(MTO_AR)=5*191=955
实际0xA1=5134-955=4179
RRI per second=4.49
RRI per minute = 269

这个抓包在更改后不到10分钟开始,因此意义不大,过30分钟再抓一次。

测试2:改后一小时
测试时间:15:26:08~15:41:08, 共15分 =900S
测得0xA1=5207
0xA1(MTO_AR)=5*191=955
实际0xA1=5207-900=4307
RRI per second=4.78
RRI per minute = 287

RRI在上电半小时和1小时后,有些增幅,需要再测一次,如果趋势保持,说明稳态后没法消除协调器要发的数据大于能处理的数据,需要进行减少密集发送的行动,也就是增大间隔。

测试3: 注:有人到协调器边上和松讨论,可视为平时正常小干扰
测试时间:16:01:20~16:17:32, 共16分12秒 =972S
测得0xA1=5556
0xA1(MTO_AR)=5*191=955
实际0xA1=5556-955=4601
RRI per second=4.73
RRI per minute = 284

可见,在有外部小干扰时,RRI指标仍减少,也就是网络拥堵不会进一步恶化,流控CTS事件不会发生。