mtu、ip mtu、tcp mss说明-凯发app官方网站

凯发app官方网站-凯发k8官网下载客户端中心 | | 凯发app官方网站-凯发k8官网下载客户端中心
  • 博客访问: 752983
  • 博文数量: 144
  • 博客积分: 0
  • 博客等级: 民兵
  • 技术积分: 1150
  • 用 户 组: 普通用户
  • 注册时间: 2014-03-17 14:32
个人简介

小公司研发总监,既当司令也当兵!

文章分类

全部博文(144)

相关博文
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·
  • ·

分类: linux

2015-09-16 14:27:29

mtuip mtutcp mss说明

1.     概述

本文主要分析了二层mtuip mtumss之间的关系和在不同网络场景中的应用,最后通过一个案例分析来进一步认识mtu对实际ip数据包转发的影响。

2.     mtu

最大传输单元(maximum transmission unitmtu)是指一种通信协议在某一层上面所能通过的最大数据报大小(以字节为单位),它通常与链路层协议有密切的关系。ethernetii帧结构如下:

 

dmac

smac

type

data

crc

 

由于以太网传输电气方面的限制,每个以太网帧都有最小的大小64bytes,最大不能超过1518bytes,对于小于或者大于这个限制的以太网帧,我们都可以视之为错误的数据帧。一般的以太网转发设备会丢弃这些数据帧。(注:小于64bytes的数据帧一般是由于以太网冲突产生的碎片或者线路干扰或者坏的以太网接口产生的,对于大于1518bytes的数据帧我们一般把它叫做giant帧,这种一般是由于线路干扰或者坏的以太网口产生)。

由于以太网ethernetii最大的数据帧是1518bytes,除去以太网帧的帧头(dmac目的mac地址 48bit=6bytes smacmac地址48bit=6bytes type2bytes14bytes和帧尾crc校验部分4bytes (这个部份有时候大家也把它叫做fcs),那么剩下承载上层协议的地方也就是data域最大就只能有1500bytes,这个值我们就把它称之为mtu

这个mtu就是网络层协议非常关心的地方,因为网络层协议比如ip协议会根据这个值来决定是否把上层传下来的数据进行分片。就好比一个盒子没法装下一大块面包,我们需要把面包切成片,装在多个盒子里面一样的道理。当两台远程pc互联的时候,它们的数据需要穿过很多的路由器和各种各样的网络媒介才能到达对端,网络中不同媒介的mtu各不相同,就好比一长段的水管,由不同粗细的水管组成(mtu不同)通过这段水管最大水量就要由中间最细的水管决定。

3.     ip mtu

对于网络层的上层协议而言(我们以tcp/ip协议族为例),网络层ip协议会检查每个从上层协议下来的数据包的大小,并根据本机mtu的大小决定是否作分片处理。分片最大的坏处就是降低了传输性能,本来一次可以搞定的事情,分成多次搞定,所以在网络层更高一层(就是传输层)的实现中往往会对此加以注意!有些高层因为某些原因就会要求我这个面包不能切片,我要完整地面包,所以会在ip数据包包头里面加上一个标签:dfdonot fragment)。这样当这个ip数据包在一大段网络(水管里面)传输的时候,如果遇到mtu小于ip数据包的情况,转发设备就会根据要求丢弃这个数据包,然后返回一个错误信息给发送者。这样往往会造成某些通讯上的问题,不过幸运的是大部分网络链路mtu都是等于1500或者大于1500

对于udp协议而言,这个协议本身是无连接的协议,对数据包的到达顺序以及是否正确到达不甚关心,所以一般udp应用对分片没有特殊要求。对于tcp协议而言就不一样了,这个协议是面向连接的协议,对于tcp协议而言它非常在意数据包的到达顺序以及是否传输中有错误发生。所以有些tcp应用对分片有要求---不能分片(df)。

4.     mss

mss是最大传输大小的缩写,它是tcp协议里面的一个概念。如下图1-1所示:

 

1-1 tcp头部

注:urg等参数指的是 ack urg psh sin fin rst等参数

tcp报文中 mss的位置就在选项的位置,根据rfc1323rfc793规定,选项中内容有很多种,mss是其中的一种,用kind=2表示;kind=1表示无操作,kind=4567称为选择ack及回显选项,但是由于回显选项已经被时间戳选项取代,同时,目前定义的选择ack选项仍未定论,也没有包括在rfc1323中,所以具体代表什么含义还无定论。在实际网络数据传输,要求mss 20tcp包头 20 ip包头不大于mtumsstcp报文中是可选项,不是必选项,换句话说,mss是可协商项,而且在协商过后,该选项内容可以改变,也可以没有;在协商mss时,一般是建立tcp连结的两端发送syn标志报文时互相通报,然后选取最小mss作为双方的约定,如果双方都不通报或有一方不通报。

mss就是tcp数据包每次能够传输的最大数据分段。为了达到最佳的传输效能,tcp协议在建立连接的时候通常要协商双方的mss值,这个值tcp协议在实现的时候往往用mtu值代替(需要减去ip数据包包头的大小20bytestcp数据段的包头20bytes),所以往往mss1460。通讯双方会根据双方提供的mss值得最小值确定为这次连接的最大mss值。

5. 区别及联系

由前面的叙述可知:mtu是一个二层的概念,以太网最大的mtu就是1500(它是不包含二层头部的,加上头部应该为1518 bytes),当然这里说的是很常规的情况,也有些server,比如server 2008,出来的就是jumbo frame了,我们在这里讨论常规情况。ip mtu是一个三层概念,它包含了三层头部及所有载荷,根据下层为上层服务的,上层基于下层才能做进一步的扩展的原则,尽管ip mtu的变化范围很大(68-65535),但也不得不照顾以太网mtu的限制,说白了就是ip对以太网的妥协。msstcp里面的一个概念,它是tcp数据包每次能够传输的最大数据分段,不包含包头部分,它与ip mtu满足如下关系:ip mtu=mss 20bytesip包头) 20bytestcp包头)。当然,如果传输的时候还承载有其他协议,还要加些包头在前面,简言之,mtu就是总的最后发出去的报文大小,mss就是需要发出去的数据大小,比如pppoe,就是在以太网上承载ppp协议(点到点连接协议),它包括6bytespppoe头部和2bytesppp协议id号,此时,由于以太网的mtu值为1500,所以上层ppp负载数据不能超过1492字节,也就是相当于在pppoe环境下的mtu1492字节,mss1452字节。

6.网络中mss不匹配引起访问失败的问题实例分析
问题描述:
    在某个路由项目中,出现在深圳地区,部分电信pppoe拨号网络,出现通过路由器拨号上网,部分网站(土豆、腾讯视频、米酷音乐等)无法访问。
分析过程:
    (1)通过检查路由、防火墙、dns配置,发现网络连接是正常的;
    (2)通过抓包分析,发现连接这些网站是正常的(tcp 三次握手成功,连接建立,http请求正常发送,并且收到ack),但就是没有收到服务端回复的数据包;
    (3)通过分析抓包文件,发现tcp连接建立时,mss协商为1460字节(以太网默认值);在pppoe环境中,mss最大应该是1452字节(原因见前文),因此锁定问题出在mss上。
问题原因:
    由于pppoe拨号客户端没有对mss进行适配,而采用默认的1460字节,在tcp连接建立后,部分网站按1460字节的有效负载进行数据传送,并且(可能)设置了不允许分片标志(这样可以使网络性能优化,对于音视频播放效果更流畅);pppoe服务端接收到该报文后,由于无法添加ppp头部和pppoe头部信息(1460 20tcp头 20ip头 已经达到mtu限制),并且该报文不允许分片,只得丢弃该报文,因而客户端无法收到数据报文。
修复方案:
    在pppoe数据转发过程中,检查tcp连接状态,拦截syn和reset的报文,对其中mss选项进行解析,如果发现mss选项描述值比当前网络设定值(1412字节 = mtu(1500b) - pppoe头部(6b)- ppp头(2b) - ip头部(20b)- tcp头部(20b) - tcp选项(40b))大,则修改为当前网络设定值。经测试,修改mss后上述网站访问均正常。

7. 附 mss修改代码
    

点击(此处)折叠或打开

  1. /**********************************************************************
  2. * function_name: clamp_mss
  3. * description: check and clamps mss if tcp syn flag is set.
  4. * input:
  5. * output:
  6. * return:
  7. * author: khls 
  8. ***********************************************************************/
  9. static void clamp_mss(struct sk_buff *skb, int clampmss)
  10. {
  11.     unsigned char *tcphdr;
  12.     unsigned char *iphdr;
  13.     unsigned char *opt;
  14.     unsigned char *endhdr;
  15.     unsigned char *mssopt = null;
  16.     uint16_t csum;
  17.     int len, minlen;
  18.  
  19.     iphdr = skb->data;
  20.     minlen = 40;
  21.     
  22.     /* is it too short? */
  23.     len = (int) ntohs(skb->len);
  24.     if (len < minlen)
  25.     {
  26.         /* 20 byte ip header; 20 byte tcp header */
  27.         return;
  28.     }

  29.     /* verify once more that it's ipv4 */
  30.     if ((iphdr[0] & 0xf0) != 0x40)
  31.     {
  32.         return;
  33.     }

  34.     /* is it a fragment that's not at the beginning of the packet? */
  35.     if ((iphdr[6] & 0x1f) || iphdr[7]) {
  36.         /* yup, don't */
  37.         return;
  38.     }
  39.     
  40.     /* is it tcp? */
  41.     if (iphdr[9] != 0x06) {
  42.         return;
  43.     }

  44.     /* get start of tcp header */
  45.     tcphdr = iphdr (iphdr[0] & 0x0f) * 4;

  46.     /* is syn set? */
  47.     if (!(tcphdr[13] & 0x02)) {
  48.         return;
  49.     }

  50.     /* compute and verify tcp checksum -- do not touch a packet with a bad checksum */
  51.     csum = compute_tcp_checksum(iphdr, tcphdr);
  52.     if (csum)
  53.     {
  54.         printk(kern_info, "bad tcp checksum %x", (unsigned int) csum);
  55.         /* upper layers will drop it */
  56.         return;
  57.     }

  58.     /* look for existing mss option */
  59.     endhdr = tcphdr ((tcphdr[12] & 0xf0) >> 2);
  60.     opt = tcphdr 20;
  61.     while (opt < endhdr)
  62.     {
  63.         if (!*opt)
  64.             break;    /* end of options */
  65.         
  66.         switch(*opt)
  67.         {
  68.         case 1:
  69.          opt;
  70.             break;

  71.         case 2:
  72.          if (opt[1] != 4)
  73.             {
  74.                 /* something fishy about mss option length. */
  75.                 printk(kern_info "bogus length for mss option (%u) from %u.%u.%u.%u\n",
  76.                   (unsigned int) opt[1],
  77.                   (unsigned int) iphdr[12],
  78.                   (unsigned int) iphdr[13],
  79.                   (unsigned int) iphdr[14],
  80.                  (unsigned int) iphdr[15]);
  81.                 return;
  82.          }
  83.               mssopt = opt;
  84.             break;
  85.         default:
  86.          if (opt[1] < 2)
  87.             {
  88.                 /* someone's trying to attack us? */
  89.                 printk(kern_info "bogus tcp option length (%u) from %u.%u.%u.%u\n",
  90.                   (unsigned int) opt[1],
  91.                  (unsigned int) iphdr[12],
  92.                  (unsigned int) iphdr[13],
  93.                  (unsigned int) iphdr[14],
  94.                  (unsigned int) iphdr[15]);
  95.                 return;
  96.          }
  97.          opt = (opt[1]);
  98.          break;
  99.         }
  100.         
  101.         /* found existing mss option? */
  102.         if (mssopt)
  103.             break;
  104.     }

  105.     /* if mss exists and it's low enough, do nothing */
  106.     if (mssopt)
  107.     {
  108.         unsigned int mss = mssopt[2] * 256 mssopt[3];
  109.         if (mss <= clampmss)
  110.         {
  111.          return;
  112.         }

  113.         mssopt[2] = (((unsigned) clampmss) >> 8) & 0xff;
  114.         mssopt[3] = ((unsigned) clampmss) & 0xff;
  115.     }
  116.     else
  117.     {
  118.         /* no mss option. don't add one; we'll have to use 536. */
  119.         return;
  120.     }

  121.     /* recompute tcp checksum */
  122.     tcphdr[16] = 0;
  123.     tcphdr[17] = 0;
  124.     csum = compute_tcp_checksum(iphdr, tcphdr);
  125.     (* (uint16_t *) (tcphdr16)) = csum;
  126. }



阅读(2947) | 评论(0) | 转发(0) |
给主人留下些什么吧!~~
")); function link(t){ var href= $(t).attr('href'); href ="?url=" encodeuricomponent(location.href); $(t).attr('href',href); //setcookie("returnouturl", location.href, 60, "/"); }
网站地图