yupeng的博客: 十月 2011

1 linux的deadline io 调度算法分析
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
以rhel5.6系统（kernel version 2.6.18）为基础分析linux内核的块设备层
的deadline io 调度算法。

2 把bio添加到请求中以及把请求添加到请求队列中
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

2.1 最简单的情况，请求队列中一个请求都没有的时候，添加第一个bio
================================================================
   bio通过generic_make_request函数传递进来。generic_make_request函数会
   调用请求队列的make_request_fn函数指针完成实际的io操作。如果使用电梯
   算法，请求队列的make_request_fn函数指针将指向__make_request函数。
   我们只考虑与电梯算法相关的部分。

   首先，调用elv_merge函数检查是否可以将当前的bio合并到以前的request
   中。如果是第一次执行到这里，当然没有可以合并的request，于是调用
   get_request_wait函数获取一个新的request，然后调用
   init_request_from_bio函数将bio添加到request中。接下来调用
   add_request函数将request添加到request_queue中。

   add_request中的函数调用流程：
   add_request->__elv_add_request->elv_insert
   elv_insert函数会将新创建的request挂到request_queue的queue_head链表
   上，并让request_queue的last_merge指针指向当前的request。最
   后，elv_insert函数会调用到函数指针：
   q->elevator->ops->elevator_add_req_fn
   如果deadline是该块设备的io调度算法的话，这个指针就指向了
   deadline_add_request函数。

   deadline算法中有两个红黑树（读写请求各有一个），两个双向链表（读写
   请求各有一个），一个哈希表（所有读写请求都在同一个哈希表上）。

   deadline_add_request函数会将传递进来的request添加到与请求的读写方
   向相对应的红黑树与双向链表中，以及哈希表上。同时，也记录下这个请求
   的到期时间。

   deadline中的红黑树以起始扇区号作为键值进行排序。双向链表按照request提
   交进来的先后顺序进行排序，最先加进来的request放在链表的头部。因此，每
   新添加一个请求的时候，都放在链表的尾部。哈希表使用request的结束扇
   区号（即rq->sector + rq->nr_sectors）作为键值进行索引。读请求的期
   满值默认为0.5秒，写请求的期满值默认为5秒。在合并与分发请求时，我们
   会看到deadline算法如何使用这些数据。

   调用完add_request函数后，__make_request的任务基本就结束了。每一个
   请求队列，在真正处理请求的时候都会有一个延迟，一般默认设为3毫秒。
   如果这3毫秒内又有request到来，则将该请求提交给io调度算法，并重新设
   置延迟的期满时间为3毫秒。

2.2 将bio merge到request中
===========================
   每当一个bio提交到__make_request函数中的时候，该函数总是调用
   elv_merge函数检查是否能将当前的bio合并到以前的request中。elv_merge
   函数分两步进行判断。

   第一步，判断判断bio是否可以合并到request_queue的last_merge指针指向
   的request。last_merge总是指向上一次提交进来的请求。如果进行连续读
   写的话，这是可能性最大的情况。判断的方法很简单，首先看request的结
   尾扇区号是否等于bio的起始扇区号，如果是的话就能够进行back merge，
   然后判断request的起始扇区号是否等于bio的结尾扇区号，如果是的话就能
   够进行front merge。

   第二步，如果bio不能和last_merge指向的request进行合并的话，则调用io
   调度算法的elevator_merge_fn成员函数，判断bio是否能和某个request进
   行合并。

   对于deadline调度算法，elevator_merge_fn指向deadline_merge函数。该
   函数首先判断是否能进行back merge。以bio的起始扇区号为键值在哈希表
   中寻找。由于deadline中的哈希表是以request的结束扇区号为键值的，所
   以如果找到这样的request的话，说明这个request的结语扇区号与bio的起
   始扇区号相等，因此bio可以back merge到这个request中。如果没有找到这
   样的request，说明无法进行back merge，则继续尝试能否进行front merge。
   方法是以bio的结束扇区号为键值在红黑树中进行搜索。红黑树是以request
   的起始扇区号为键值进行排序的，因此，如果找到符合条件的request，说
   明该request的起始扇区号等于bio的结束扇区号，可以进行front merge。
   无论是back merge还是front merge，如果找到符合条件的request的话，都
   要把request从哈希表上拿下来，再按照新的键值重新放上去，至于红黑树，会
   在后续的操作中进行处理。

   若是可以进行合并，elv_merge会返回用来合并的request指针，并且，通过
   返回值表示是何种合并，ELEVATOR_BACK_MERGE表示back merge，
   ELEVATOR_FRONT_MERGE表示front merge，ELEVATOR_NO_MERGE表示无法进行
   合并。

2.2.1 back merge
-----------------
    若是进行back merge，则调用函数指针q->back_merge_fn对request_queue
    和request进行一些必要的处理，这个指针通常指向ll_back_merge_fn函数。
    然后修改request的biotail，biotail->next，以及nr_sector等位，将bio
    添加到request中。接下来调用attempt_back_merge函数，该函数的作用是
    检查是否可以进一步的进行合并，例如，原先请求队列中有这样两个请
    求，request1写块设备的secotr0到sector4，request2写块设备的
    sector 8到sector 12。现在新加入的bio写sector5到sector7，bio被合并
    到了request1中，request1变成写sector0到sector7，此时，request1和
    request2可以进行合并了。若发生这种情况，attempt_back_merge函数会
    进行处理，若没有，则调用elv_merged_request函数进行最后的收尾处理。
    该函数会调用调度器的elevator_merged_fn方法，对于deadline调度器，
    该方法指向deadline_merged_request函数。该函数的作用很简单，由于进
    行了合并，request的起始扇区号和结束扇区号可能改变了，用新的扇区号
    做键值更新request在哈希表和红黑树中的位置。

2.2.2 front merge
------------------
    与back merge的处理基本对称，不再赘述。

3 从请求队列中取出一个请求
~~~~~~~~~~~~~~~~~~~~~~~~~~~
正常情况下，每当request_queue等待3毫秒还没有新的bio提交后，就会出发
unplug，最终会调到request_queue的request_fn方法。以scsi磁盘驱动为
例，该方法指向scsi_request_fn函数。scsi_request_fn会调用
elv_next_request函数来从请求队列中取出一个请求进行处理。而该函数会
调用__elv_next_request找出一个合适的请求。

__elv_next_request函数首先从request_queue的queue_head链表上寻找
request，如果找到的话就返回这个request，没找到的话就调用调度器的
elevator_dispatch_fn方法，通常，这个方法会将一些request放到
queue_head链表上。然后再检查request_queue的queue_head链表。一直循
环，直到从queue_head上找到一个request，将其返回，或者
elevator_dispatch_fn方法返回0，则__elv_next_request函数返回一个空指
针。

对于deadline调度器来说，elevator_dispatch_fn函数指针指向
deadline_dispatch_requests函数。

deadline_dispatch_requests函数负责从已经提交给调度器的request中选择
一个放到request_queue的queue_head链表中。

为了优化读写磁盘的效率，deadline调度器会对请求进行批处理，每当选定
一个请求方向时（读或写），总是连续处理该方向上的16个请求。然后才重
新选择另一个方向上的请求。当然，如果某个方向上已经没有请求了，则马
上选择另一个方向上的请求。

每当处理了一个方向上的请求，就将该方向上的下一个请求放到
next_drq[WRITE]中或next_drq[READ]中。因此，当进入
deadline_dispatch_requests函数的时候，首先判断next_drq[WRITE]或
next_drq[READ]是否为空，这两个指针至多有一个不为空。如果其中有一个
不为空，我们就获得了一个request。接下来判断这个request和上一次发送
的请求是否是连续的，若不是连续的，则打破批处理，然后判断当前的批处
理进行了多少次，如果超过了最大的允许次数，也要打破批处理，重新选择
request。这是为了防止在某一个方向上有大量连续的request，导致饿死了
另一个方向上的request。

如果确定要继续批处理，则直接跳到函数的末尾，即标签
“dispatch_find_request”处，递增批处理的统计次数，将同方向上的下一个
请求放到next_drq[WRITE]或next_drq[READ]中，记录当前request的结束扇区
号，以便再进入本函数时判断下一个request是否和当前这个是连续的。最后
把这个请求从deadline算法内部维护的哈希表，红黑数和链表上面移除，放到
request_queue的queue_head链表上。

如果前面判断不进行批处理，则先看是否有读请求需要处理。若读写请求都
有的话，就把starved变量加一，表示忽略了一次写请求。如果忽略的写请求
次数超过了变量writes_starved的值（默认为2），那么就不再忽略写请求，
跳转到标签“dispatch_writes”的位置，将变量data_dir设为WRITE，表示提
交一个写请求。否则将data_dir设为READ，表示提交一个读请求。

现在已经选择了request的方向（READ或WRITE），接下来判断在该方向上最
先进来的request是否已经超时了，或者该方向上还有没有request的起始扇
区号比上一个请求更靠后的request了（这样的request即使不连续也可以让
磁盘的磁头大体上朝一个方向移动）。如果两个条件中有一个条件为真，就
选择该方向上时间最早的request提交。如果这两个条件都为假的话，即没有
任何请求超时，而且有一个起始扇区号比上一个request大的请求，就提交这
个请求。

完。

2011年10月18日星期二

linux的deadline io 调度算法分析