yupeng的博客: linux内核的raid0驱动介绍

1 raid和md的介绍
~~~~~~~~~~~~~~~~~
linux内核有一个md层，用于组建磁盘阵列。你可以为它指定若干个块设备，
并指定一种组建磁盘阵列的方法（raid0，raid1或者raid5，raid6之类的）。
它会建立一个虚拟的块设备，使用者对这个虚拟的块设备进行操作，md层按照
指定的raid算法转换成对实际块设备的操作。其中最简单的是raid0算法。
raid0算法按照固定的大小将请求读写的数据拆成小块，分别存在组成磁盘阵
列的各个块设备中。用raid0组建的磁盘阵列总大小等于各个块设备的大小之
和。由于各个块设备可以并行操作，所以使用raid0组建磁盘阵列速度会很快。
raid0的代码在kernel/drivers/md/raid0.c中。

2 初始化
~~~~~~~~~
raid0的初始化函数是raid0_init，它很简单，仅仅是把一个
mdk_personality结构体注册到md层。
对于raid0来说，这个结构体的内容如下：
static struct mdk_personality raid0_personality=
{
.name = "raid0",
.level = 0,
.owner = THIS_MODULE,
.make_request = raid0_make_request,
.run = raid0_run,
.stop = raid0_stop,
.status = raid0_status,
.size = raid0_size,
};
它定义了几个接口函数。
raid0_run用于初始化。当有上层指令为md层指定了几个实际的块设备，并
让md层将它们组建为raid0的时候， md层将会调用该函数。
当md层受到读写数据的请求时，将会调用raid0_make_request函数。该函
数的作用是把md层收到的传输请求转换为实际块设备的传输请求。
当md层终止raid0设备的时候，会调用raid0_stop函数。
raid0_status函数用于输出调试信息。
raid0_size函数返回整个raid0设备的总大小，也就是实际组成raid0的
几个块设备的容量之和。
下面主要介绍raid0_run和raid0_make_request两支函数。

3 raid0_run
~~~~~~~~~~~~

3.1 程序主干
=============
首先进行一些错误检测以及对md层使用的结构体mddev进行一些初始化。
然后调用一个比较重要的函数create_strip_zones，初始化raid0的strip。
接下来对md层虚拟的块设备做一些限制，最后将填充好的mddev结构体注
册到md层。接下来重点讲解create_strip_zones函数。

3.2 create_strip_zones
=======================
create_strip_zones函数会针对md层提供的实际块设别的大小建立
strip_zones。

3.2.1 strip_zone 的建立规则
----------------------------
我们假设有3个块设备组成raid0，分别考虑如下几种情况：

三个块设备大小都一样，比如都是40M，那么一共需要一个strip_zones。
如图所示：

如果这三个块设备的大小分别是60M，50M，40M，那么需要建立三个
strip_zones。60M 设备的前40M，50M设备的前40M，和整个40M的设备组成第
一个 strip_zone，60M设备的40M到50M的部分与50M设备的最后10M组成第二
个strip_zone，60M设备的最后10M是第三个strip_zone。
如下图所示：

如果三个块设备的大小分别是60M，50M，50M，那么一共需要建立两个
strip_zone。两个50M设备的全部和60M设备的前50M组成一个
strip_zone，60M设备的最后10M组成另一个strip_zone。
如下图所示：

3.2.2 确定需要建立多少个strip_zones
------------------------------------
进入create_strip_zones后，首先是一个双重循环，用来判断一共需要建立
多少个strip_zones。代码如下：
list_for_each_entry(rdev1, &mddev->disks, same_set) {
printk(KERN_INFO "raid0: looking at %s\n",
bdevname(rdev1->bdev,b));
c = 0;

/* round size to chunk_size */
sectors = rdev1->sectors;
sector_div(sectors, mddev->chunk_sectors);
rdev1->sectors = sectors * mddev->chunk_sectors;

list_for_each_entry(rdev2, &mddev->disks, same_set) {
printk(KERN_INFO "raid0: comparing %s(%llu)",
bdevname(rdev1->bdev,b),
(unsigned long long)rdev1->sectors);
printk(KERN_INFO " with %s(%llu)\n",
bdevname(rdev2->bdev,b),
(unsigned long long)rdev2->sectors);
if (rdev2 == rdev1) {
printk(KERN_INFO "raid0: END\n");
break;
}
if (rdev2->sectors == rdev1->sectors) {
/*
* Not unique, don't count it as a new
* group
*/
printk(KERN_INFO "raid0: EQUAL\n");
c = 1;
break;
}
printk(KERN_INFO "raid0: NOT EQUAL\n");
}
if (!c) {
printk(KERN_INFO "raid0: ==> UNIQUE\n");
conf->nr_strip_zones++;
printk(KERN_INFO "raid0: %d zones\n",
conf->nr_strip_zones);
}
}
我们还是以实际例子来分析一下程序的运行过程。假设共有三个块设备，名
字分别叫做blk1,blk2,blk3。大小分别为60M，60M,40M。mddev->disks这个
链表中存放了全部三个块设备，假设三个块设备在链表中的存放顺序依次为
blk1，blk2，blk3，那么list_for_each_entry宏会按照blk1，blk2，blk3
的顺序取出这三个块设备，对于两重循环都是如此。首先，进入第一重循
环，rdev1指向blk1，计算出rdev1的sector数量，应该是60M除以512。然后
进入第二重循环，第一次也取出了blk1，存放在rdev2中。比较rdev1和
rdev2是否相等，当然会相等，于是跳出第二重循环，判断变量c是否是0，
注意，在进入第二重循环之前c被置0，然后没有变化，所以此时c是0，于是
将记录strip_zones的变量加一。然后第一重循环进入第二轮，rdev1指向
blk2，计算出blk2的sectors数量，进入第二重循环。第二重循环还是先取
出blk1，放在rdev2中。判断rdev1和rdev2是否相等，当然不相等，继续往
下进行。比较rdev1和rdev2的大小是否相等。我们先前假设blk1和blk2大小
都是60M，所以相等。此时，设置c=1，然后跳出第二重循环。在第一重循环
的结尾处，判断c是否等于0，c不等于0，所以nr_strip_zones维持原来的数
值，即1。第一重循环进入第三次，rdev1指向blk3，进入第二重循环，rdev2首
先指向blk1，rdev1与rdev2不相等，rdev1的sectors与rdev2的sectors也不
相等，第二重循环进入第二次，rdev2指向blk2，结果与上一次一样，第二
重循环进入第三次，rdev2指向blk3，此时rdev1与rdev2相等，跳出第二重
循环，检查c的值，是0，所以nr_strip_zones加1。双重循环全部结束。最
终nr_strip_zones的值是2。

3.2.3 分配内存
---------------
conf->strip_zone = kzalloc(sizeof(struct strip_zone)*
conf->nr_strip_zones, GFP_KERNEL);
有多少个strip_zones，就分配多少个strip_zone结构体。

conf->devlist = kzalloc(sizeof(mdk_rdev_t*)*
conf->nr_strip_zones*mddev->raid_disks,
GFP_KERNEL);
mddev->disks中记录着共有多少个实际的块设备组成raid0。比如前面一直
举例有三个块设备，那么mddev->raid_disks的值就是3。conf->devlist中
存放着被分块后的实际设备。比如三个块设备的大小都一样，那么就在
mddev->devlist中存放三个块设备。如果三个块设备的大小分别是
40M，50M和60M，那么40M，50M的前40M，60M的前40M分别作为3个块设备存
放在mddev->devlist中，50M设备的后10M和60M设备的40M到50M阶段，又作
为两个设备存放在mddev->devlistg中，最后，60M设备的最后10M又作为一
个单独的设备存在mddev->devlist中。因此一共需要6个。这里用
strip_zones的个数乘以实际设备的个数分配内存，有可能会比实际需要的
内存数多一些，除非三个块设备的大小相等，此时分配的内存刚好等于实际
需求。

3.2.4 找出最小的strip_zone
---------------------------
接下来又是一个循环：
list_for_each_entry(rdev1, &mddev->disks, same_set)
...
作用很简单，就是找出长度最小的strip_zone。然后把最小strip_zone里面
包含的设备全都放进conf->devlist里面，实际上也就是全部的设备，因为
最小的strip_zone肯定包含了全部的设备。

3.2.5 把其他的strip_zone里面的设备放入conf->devlist之中。
----------------------------------------------------------
依然是一个循环：
for (i = 1; i <>nr_strip_zones; i++)
...
把被strip_zone分割过的设备放入conf->devlist中。以40M，50M，60M，的
设备为例，就是50M设备的后10M，60M设备的40至50M，50至60M这些部分放
入conf->devlist中。并且设置好它们在原本的块设备中的起始地址和偏移
量。

3.2.6 creaet_strip_zones的其余部分
-----------------------------------
注册一些回调函数，再对md构造的块设备做一些限制，然后就结束了。

3.3 raid0_run的其余部分
========================
没什么可说的，raid0_run函数的精髓就在create_strip_zones函数里面。建
立好strip_zones之后，raid0_run的主要工作就完成了。

4 raid0_make_request
~~~~~~~~~~~~~~~~~~~~~
raid0_make_request函数是处理读写数据的函数。它把传递给由md虚拟出来的
块设备的读写请求转换为到实际块设备的读写请求。然后md层会依据
raid0_make_request的转换结果把实际的读写请求送到实际的块设备中去。

4.1 程序主干
=============
首先进行一些必要的错误检测。
然后判断md层传下来的请求有没有chunk。md设备的数据存取是以chunk为单
位的。chunk的大小存储在mddev->chunk_sectors中。它的单位是512byte。
比如mddev->chunk_sectors=128，那么chunk的大小是128*512byte=64K。
如果传输跨chunk了，就把传输请求分成两个不跨chunk的请求，再递归调用
raid0_make_request函数处理。
如果传输没有跨chunk，先调用find_zone函数确定传输请求在哪个
strip_zone中，然后调用map_sector函数确定实际执行传输请求的块设备。
最后将实际执行请求的块设备的信息填入到bio之中。

4.2 find_zone
==============
find_zone函数用于确定传输请求落入哪个strip_zone中。数组
conf->strip_zone中按照先后顺序记录了所有的strip_zone。而每个
strip_zone的zone_end位中又记录着该strip_zone的结束地址（以sector为
单位）。从zone_end最小的strip_zone开始依次与传输要求的起始sector比
较大小。第一个zone_end比传输请求的起始sector大的strip_zone就是我们
要找的。
另外，find_zone函数还把传输起始的sector由以md设备的起始地址计算转换
为在执行strip_zone中的偏移地址。

4.3 map_sector
===============
map_sector函数用于确定实际执行传输的块设备。出于运行效率上的考虑，
它首先判断mddev->chunk_sectors是否是2的整数次幂。
mddev->chunk_sectors是md设备的chunk大小（前面提到过，它是以512byte
为单位的）。如果chunk的大小是2的整数次幂，在计算中就可以以左右移位
来代替乘法和除法运算。最终，该函数会从conf->devlist中返回一个设备，
也就是我们前面举例中提到的“50M设备的最后10M”或者“60M设备的第40M到第
50M”这样的设备，而不是实际的块设备，然后，把要进行存取操作的起始
section相对于这个设备的偏移量放入sector_offset中返回。

yupeng的博客

2010年10月24日星期日

linux内核的raid0驱动介绍

没有评论:

发表评论