ftrace带你了解真正的linux内核

ftrace带你了解真正的linux内核

Linux内核tracers的实现原理与应用
前年ftrace for io /去年ftrace for mm/今年ftrace for network.今年ftrace也被深度定制加强。

在这篇文章中,我们将深入探讨网卡接收数据的完整过程,了解数据是如何从网卡到达应用程序的。我们将使用Linux内核源代码来分析这一过程:

网卡中断处理

当网卡接收到数据时,会触发一个中断,内核将调用相应的中断处理函数。对于virtio网卡,中断处理函数为vring_interrupt():

vring_interrupt()
    skb_recv_done()
       napi_schedule_prep() 
            virtqueue_disable_cb() // disable virtnet interrupt
            __napi_schedule(); // start network softirq

napi_schedule_prep()函数中,会先禁用virtnet中断,然后通过__napi_schedule()函数启动网络软中断。

bool napi_schedule_prep(struct napi_struct *n)
{
        unsigned long new, val = READ_ONCE(n->state);

        do {
                if (unlikely(val & NAPIF_STATE_DISABLE))
                        return false;
                new = val | NAPIF_STATE_SCHED;

                new |= (val & NAPIF_STATE_SCHED) / NAPIF_STATE_SCHED * // 如果state还在sched状态,也设置miss
                                                   NAPIF_STATE_MISSED;
        } while (!try_cmpxchg(&n->state, &val, new)); // state至少也设置为sched状态

        return !(val & NAPIF_STATE_SCHED);        // 驱动会判断如果state不是sched状态,则开启napi模式
}

网络软中断处理

网络软中断处理函数为net_rx_action(),它会调用__napi_poll()函数来轮询virtnet设备:

__do_softirq()
     net_rx_action()
          __napi_poll()
              virtnet_poll() // virtnet poll
                __napi_alloc_skb() // allocate skb
                napi_gro_receive() // GRO 

virtnet_poll()函数中,会分配skb缓冲区,并通过napi_gro_receive()函数进行GRO(Generic Receive Offload)处理。

当轮询完成后,会调用virtqueue_napi_complete()函数完成napi过程:

virtnet_poll() // virtnet poll prepare to complete
    virtqueue_napi_complete()
         virtqueue_enable_cb_prepare() // 开启virtnet interrupt

协议栈处理

napi_complete_done()函数中,会调用gro_normal_list()函数将接收到的数据包交给协议栈处理:

napi_complete_done()
    gro_normal_list()
        netif_receive_skb_list_internal()
            ip_rcv()

对于IP数据包,会调用ip_rcv()函数进行处理:

static struct packet_type ip_packet_type __read_mostly = {
        .type = cpu_to_be16(ETH_P_IP),
        .func = ip_rcv,
        .list_func = ip_list_rcv,
};
#define ETH_P_IP        0x0800          /* Internet Protocol packet */

ip_rcv()函数中,会根据路由表查找结果,确定是将数据包交给本地接收还是进行转发:

ip_rcv()
    fib_table_lookup()
        struct rtable *rth = rt_dst_alloc()
        rth->dst.input = ip_local_deliver/ip_forward
        rth->dst->dev = nhc->nhc_dev; // 从路由表确定接收或者转发网络设备
        dst->ops = ops;

传输层处理

对于本地接收的数据包,会根据传输层协议(TCP或UDP)进行相应的处理:

static const struct net_protocol tcp_protocol = {
        .handler        =       tcp_v4_rcv,
        .err_handler    =       tcp_v4_err,
        .no_policy      =       1,   
        .icmp_strict_tag_validation = 1, 
};

static const struct net_protocol udp_protocol = {
        .handler =      udp_rcv,
        .err_handler =  udp_err,
        .no_policy =    1,   
};

ip_local_deliver() // ip_forward
    ip_local_deliver_finish
        ip_hdr(skb)->protocol   // <<< tcp/udp
                tcp_v4_rcv() / udp_rcv() // by tcp/udp protocol

至此,数据包就从网卡接收,经过协议栈处理,最终到达应用程序。(以上函数流程都来自ftrace工具)

Linux内核tracers的实现原理与应用

–JeffXie

04-23 13:51