2010年10月24日星期日

linux内核的raid0驱动介绍

1 raid和md的介绍
~~~~~~~~~~~~~~~~~
linux内核有一个md层,用于组建磁盘阵列。你可以为它指定若干个块设备,
并指定一种组建磁盘阵列的方法(raid0,raid1或者raid5,raid6之类的)。
它会建立一个虚拟的块设备,使用者对这个虚拟的块设备进行操作,md层按照
指定的raid算法转换成对实际块设备的操作。其中最简单的是raid0算法。
raid0算法按照固定的大小将请求读写的数据拆成小块,分别存在组成磁盘阵
列的各个块设备中。用raid0组建的磁盘阵列总大小等于各个块设备的大小之
和。由于各个块设备可以并行操作,所以使用raid0组建磁盘阵列速度会很快。
raid0的代码在kernel/drivers/md/raid0.c中。

2 初始化
~~~~~~~~~
raid0的初始化函数是raid0_init,它很简单,仅仅是把一个
mdk_personality结构体注册到md层。
对于raid0来说,这个结构体的内容如下:
static struct mdk_personality raid0_personality=
{
.name = "raid0",
.level = 0,
.owner = THIS_MODULE,
.make_request = raid0_make_request,
.run = raid0_run,
.stop = raid0_stop,
.status = raid0_status,
.size = raid0_size,
};
它定义了几个接口函数。
raid0_run用于初始化。当有上层指令为md层指定了几个实际的块设备,并
让md层将它们组建为raid0的时候, md层将会调用该函数。
当md层受到读写数据的请求时,将会调用raid0_make_request函数。该函
数的作用是把md层收到的传输请求转换为实际块设备的传输请求。
当md层终止raid0设备的时候,会调用raid0_stop函数。
raid0_status函数用于输出调试信息。
raid0_size函数返回整个raid0设备的总大小,也就是实际组成raid0的
几个块设备的容量之和。
下面主要介绍raid0_run和raid0_make_request两支函数。

3 raid0_run
~~~~~~~~~~~~

3.1 程序主干
=============
首先进行一些错误检测以及对md层使用的结构体mddev进行一些初始化。
然后调用一个比较重要的函数create_strip_zones,初始化raid0的strip。
接下来对md层虚拟的块设备做一些限制,最后将填充好的mddev结构体注
册到md层。接下来重点讲解create_strip_zones函数。

3.2 create_strip_zones
=======================
create_strip_zones函数会针对md层提供的实际块设别的大小建立
strip_zones。

3.2.1 strip_zone 的建立规则
----------------------------
我们假设有3个块设备组成raid0,分别考虑如下几种情况:

三个块设备大小都一样,比如都是40M,那么一共需要一个strip_zones。
如图所示:






如果这三个块设备的大小分别是60M,50M,40M,那么需要建立三个
strip_zones。60M 设备的前40M,50M设备的前40M,和整个40M的设备组成第
一个 strip_zone,60M设备的40M到50M的部分与50M设备的最后10M组成第二
个strip_zone,60M设备的最后10M是第三个strip_zone。
如下图所示:









如果三个块设备的大小分别是60M,50M,50M,那么一共需要建立两个
strip_zone。两个50M设备的全部和60M设备的前50M组成一个
strip_zone,60M设备的最后10M组成另一个strip_zone。
如下图所示:

3.2.2 确定需要建立多少个strip_zones
------------------------------------
进入create_strip_zones后,首先是一个双重循环,用来判断一共需要建立
多少个strip_zones。代码如下:
list_for_each_entry(rdev1, &mddev->disks, same_set) {
printk(KERN_INFO "raid0: looking at %s\n",
bdevname(rdev1->bdev,b));
c = 0;

/* round size to chunk_size */
sectors = rdev1->sectors;
sector_div(sectors, mddev->chunk_sectors);
rdev1->sectors = sectors * mddev->chunk_sectors;

list_for_each_entry(rdev2, &mddev->disks, same_set) {
printk(KERN_INFO "raid0: comparing %s(%llu)",
bdevname(rdev1->bdev,b),
(unsigned long long)rdev1->sectors);
printk(KERN_INFO " with %s(%llu)\n",
bdevname(rdev2->bdev,b),
(unsigned long long)rdev2->sectors);
if (rdev2 == rdev1) {
printk(KERN_INFO "raid0: END\n");
break;
}
if (rdev2->sectors == rdev1->sectors) {
/*
* Not unique, don't count it as a new
* group
*/
printk(KERN_INFO "raid0: EQUAL\n");
c = 1;
break;
}
printk(KERN_INFO "raid0: NOT EQUAL\n");
}
if (!c) {
printk(KERN_INFO "raid0: ==> UNIQUE\n");
conf->nr_strip_zones++;
printk(KERN_INFO "raid0: %d zones\n",
conf->nr_strip_zones);
}
}
我们还是以实际例子来分析一下程序的运行过程。假设共有三个块设备,名
字分别叫做blk1,blk2,blk3。大小分别为60M,60M,40M。mddev->disks这个
链表中存放了全部三个块设备,假设三个块设备在链表中的存放顺序依次为
blk1,blk2,blk3,那么list_for_each_entry宏会按照blk1,blk2,blk3
的顺序取出这三个块设备,对于两重循环都是如此。首先,进入第一重循
环,rdev1指向blk1,计算出rdev1的sector数量,应该是60M除以512。然后
进入第二重循环,第一次也取出了blk1,存放在rdev2中。比较rdev1和
rdev2是否相等,当然会相等,于是跳出第二重循环,判断变量c是否是0,
注意,在进入第二重循环之前c被置0,然后没有变化,所以此时c是0,于是
将记录strip_zones的变量加一。然后第一重循环进入第二轮,rdev1指向
blk2,计算出blk2的sectors数量,进入第二重循环。第二重循环还是先取
出blk1,放在rdev2中。判断rdev1和rdev2是否相等,当然不相等,继续往
下进行。比较rdev1和rdev2的大小是否相等。我们先前假设blk1和blk2大小
都是60M,所以相等。此时,设置c=1,然后跳出第二重循环。在第一重循环
的结尾处,判断c是否等于0,c不等于0,所以nr_strip_zones维持原来的数
值,即1。第一重循环进入第三次,rdev1指向blk3,进入第二重循环,rdev2首
先指向blk1,rdev1与rdev2不相等,rdev1的sectors与rdev2的sectors也不
相等,第二重循环进入第二次,rdev2指向blk2,结果与上一次一样,第二
重循环进入第三次,rdev2指向blk3,此时rdev1与rdev2相等,跳出第二重
循环,检查c的值,是0,所以nr_strip_zones加1。双重循环全部结束。最
终nr_strip_zones的值是2。



3.2.3 分配内存
---------------
conf->strip_zone = kzalloc(sizeof(struct strip_zone)*
conf->nr_strip_zones, GFP_KERNEL);
有多少个strip_zones,就分配多少个strip_zone结构体。

conf->devlist = kzalloc(sizeof(mdk_rdev_t*)*
conf->nr_strip_zones*mddev->raid_disks,
GFP_KERNEL);
mddev->disks中记录着共有多少个实际的块设备组成raid0。比如前面一直
举例有三个块设备,那么mddev->raid_disks的值就是3。conf->devlist中
存放着被分块后的实际设备。比如三个块设备的大小都一样,那么就在
mddev->devlist中存放三个块设备。如果三个块设备的大小分别是
40M,50M和60M,那么40M,50M的前40M,60M的前40M分别作为3个块设备存
放在mddev->devlist中,50M设备的后10M和60M设备的40M到50M阶段,又作
为两个设备存放在mddev->devlistg中,最后,60M设备的最后10M又作为一
个单独的设备存在mddev->devlist中。因此一共需要6个。这里用
strip_zones的个数乘以实际设备的个数分配内存,有可能会比实际需要的
内存数多一些,除非三个块设备的大小相等,此时分配的内存刚好等于实际
需求。

3.2.4 找出最小的strip_zone
---------------------------
接下来又是一个循环:
list_for_each_entry(rdev1, &mddev->disks, same_set)
...
作用很简单,就是找出长度最小的strip_zone。然后把最小strip_zone里面
包含的设备全都放进conf->devlist里面,实际上也就是全部的设备,因为
最小的strip_zone肯定包含了全部的设备。

3.2.5 把其他的strip_zone里面的设备放入conf->devlist之中。
----------------------------------------------------------
依然是一个循环:
for (i = 1; i <>nr_strip_zones; i++)
...
把被strip_zone分割过的设备放入conf->devlist中。以40M,50M,60M,的
设备为例,就是50M设备的后10M,60M设备的40至50M,50至60M这些部分放
入conf->devlist中。并且设置好它们在原本的块设备中的起始地址和偏移
量。

3.2.6 creaet_strip_zones的其余部分
-----------------------------------
注册一些回调函数,再对md构造的块设备做一些限制,然后就结束了。

3.3 raid0_run的其余部分
========================
没什么可说的,raid0_run函数的精髓就在create_strip_zones函数里面。建
立好strip_zones之后,raid0_run的主要工作就完成了。

4 raid0_make_request
~~~~~~~~~~~~~~~~~~~~~
raid0_make_request函数是处理读写数据的函数。它把传递给由md虚拟出来的
块设备的读写请求转换为到实际块设备的读写请求。然后md层会依据
raid0_make_request的转换结果把实际的读写请求送到实际的块设备中去。

4.1 程序主干
=============
首先进行一些必要的错误检测。
然后判断md层传下来的请求有没有chunk。md设备的数据存取是以chunk为单
位的。chunk的大小存储在mddev->chunk_sectors中。它的单位是512byte。
比如mddev->chunk_sectors=128,那么chunk的大小是128*512byte=64K。
如果传输跨chunk了,就把传输请求分成两个不跨chunk的请求,再递归调用
raid0_make_request函数处理。
如果传输没有跨chunk,先调用find_zone函数确定传输请求在哪个
strip_zone中,然后调用map_sector函数确定实际执行传输请求的块设备。
最后将实际执行请求的块设备的信息填入到bio之中。

4.2 find_zone
==============
find_zone函数用于确定传输请求落入哪个strip_zone中。数组
conf->strip_zone中按照先后顺序记录了所有的strip_zone。而每个
strip_zone的zone_end位中又记录着该strip_zone的结束地址(以sector为
单位)。从zone_end最小的strip_zone开始依次与传输要求的起始sector比
较大小。第一个zone_end比传输请求的起始sector大的strip_zone就是我们
要找的。
另外,find_zone函数还把传输起始的sector由以md设备的起始地址计算转换
为在执行strip_zone中的偏移地址。

4.3 map_sector
===============
map_sector函数用于确定实际执行传输的块设备。出于运行效率上的考虑,
它首先判断mddev->chunk_sectors是否是2的整数次幂。
mddev->chunk_sectors是md设备的chunk大小(前面提到过,它是以512byte
为单位的)。如果chunk的大小是2的整数次幂,在计算中就可以以左右移位
来代替乘法和除法运算。最终,该函数会从conf->devlist中返回一个设备,
也就是我们前面举例中提到的“50M设备的最后10M”或者“60M设备的第40M到第
50M”这样的设备,而不是实际的块设备,然后,把要进行存取操作的起始
section相对于这个设备的偏移量放入sector_offset中返回。

没有评论:

发表评论