2010年10月24日星期日

linux 内核 hash table 的使用

很早以前就想学习一下如何使用linux内核中的散列函数。google了几次,发现
网上有大量介绍有关hlist的东西。可找来找去也找不到究竟该如何使用散列。
原来,我先入为主的认为内核中的散列函数会像那些高级语言中实现的散列功能
类似:我提供一对对的(key value)给内核,然后再调用某一个api,传给它一个
key,就可以得到对应的value。

后来参考了一些内核中应用散列的实例才发现,原来根本不是这么回事。实际
上,对于如何将输入数据散列到一个指定范围的算法,需要使用散列的人自己决
定。内核只提供了一个发射碰撞时把碰撞的项链接到一起的hlist结构。

例如,你创建了一个长度为m的散列表,并且已经选择了一个将输入数据映射到
范围0 ~ m-1的散列函数。接下来,你就要在这个长度为m的散列表的每个表项内
放上一个hlist_head结构体。然后在每个输入数据的结构体中定义一个
hlist_node的结构体。每当把一个输入通过散列函数映射到0 ~ m-1的范围内时,就
把这个输入的hlist_node挂到散列表对应的槽的hlist_head上面。当给定一个
key,想获取它的value的时候,就先用散列函数算出这个key对应的槽的位置,
然后遍历这个槽的hlist_node链表,找到与key相等的项。把它的value返回。

例如,有这样一个数组:
0x01, 0x02, 0x04, 0x08,0x10, 0x20, 0x40, 0x80, 0x1d, 0x3a, 0x74, 0xe8,
0xcd, 0x87, 0x13,
其中每个元素对应的索引号为:
1, 2, 3, 4, 5, ... 15
也就是说,当输入0x01时,我希望得到索引号1,当输入0x08时,得到4,当输入
0x3a时,得到10...
这种从数值到索引号的转换,可通过散列来实现。

下面是实现该功能的一个内核代码,散列函数我选择的是:
value = ((104 * key + 52) % 233) % 15
(实际上,对于输入固定的情况,使用完全散列可以获得完全固定的访问时间,
上面这个散列函数就是我想使用完全散列时搜索一个全域散列族得到的第一级散
列函数,但我发先这个散列函数已经足够好,总共才只有一次碰撞。所以就没有
必要像完全散列那样使用二级散列了。)

#include <linux/init.h>
#include <linux/module.h>
#include <linux/list.h>

struct q_coef
{
    u8 coef;
    u8 index;
    struct hlist_node hash;
};

#define HASH_NUMBER 15
u8 coef[HASH_NUMBER] = {
    0x01, 0x02, 0x04, 0x08,0x10, 0x20, 0x40, 0x80, 0x1d, 0x3a, 0x74, 0xe8, 0xcd, 0x87, 0x13,
};
struct q_coef q_coef_list[HASH_NUMBER];

struct hlist_head hashtbl[HASH_NUMBER];

static inline int hash_func(u8 k)
{
    int a, b, p, m;
    a = 104;
    b = 52;
    p = 233;
    m = HASH_NUMBER;
    return ((a * k + b) % p) % m;
}

static void hash_init(void)
{
    int i, j;
    for (i = 0 ; i < HASH_NUMBER ; i++) {
        INIT_HLIST_HEAD(&hashtbl[i]);
        INIT_HLIST_NODE(&q_coef_list[i].hash);
        q_coef_list[i].coef = coef[i];
        q_coef_list[i].index = i + 1;
    }
    for (i = 0 ; i < HASH_NUMBER ; i++) {
        j = hash_func(q_coef_list[i].coef);
        hlist_add_head(&q_coef_list[i].hash, &hashtbl[j]);
    }
}

static void hash_test(void)
{
    int i, j;
    struct q_coef *q;
    struct hlist_node *hn;
    for (i = 0 ; i < HASH_NUMBER ; i++) {
        j = hash_func(coef[i]);
        hlist_for_each_entry(q, hn, &hashtbl[j], hash)
            if (q->coef == coef[i])
                printk("found: coef=0x%02x index=%d\n", q->coef, q->index);
    }
}
static int htest_init (void)
{
    hash_init();
    hash_test();
    return -1;
}

static void htest_exit (void)
{
}

module_init(htest_init);
module_exit(htest_exit);

MODULE_LICENSE("Dual BSD/GPL");

linux内核的raid0驱动介绍

1 raid和md的介绍
~~~~~~~~~~~~~~~~~
linux内核有一个md层,用于组建磁盘阵列。你可以为它指定若干个块设备,
并指定一种组建磁盘阵列的方法(raid0,raid1或者raid5,raid6之类的)。
它会建立一个虚拟的块设备,使用者对这个虚拟的块设备进行操作,md层按照
指定的raid算法转换成对实际块设备的操作。其中最简单的是raid0算法。
raid0算法按照固定的大小将请求读写的数据拆成小块,分别存在组成磁盘阵
列的各个块设备中。用raid0组建的磁盘阵列总大小等于各个块设备的大小之
和。由于各个块设备可以并行操作,所以使用raid0组建磁盘阵列速度会很快。
raid0的代码在kernel/drivers/md/raid0.c中。

2 初始化
~~~~~~~~~
raid0的初始化函数是raid0_init,它很简单,仅仅是把一个
mdk_personality结构体注册到md层。
对于raid0来说,这个结构体的内容如下:
static struct mdk_personality raid0_personality=
{
.name = "raid0",
.level = 0,
.owner = THIS_MODULE,
.make_request = raid0_make_request,
.run = raid0_run,
.stop = raid0_stop,
.status = raid0_status,
.size = raid0_size,
};
它定义了几个接口函数。
raid0_run用于初始化。当有上层指令为md层指定了几个实际的块设备,并
让md层将它们组建为raid0的时候, md层将会调用该函数。
当md层受到读写数据的请求时,将会调用raid0_make_request函数。该函
数的作用是把md层收到的传输请求转换为实际块设备的传输请求。
当md层终止raid0设备的时候,会调用raid0_stop函数。
raid0_status函数用于输出调试信息。
raid0_size函数返回整个raid0设备的总大小,也就是实际组成raid0的
几个块设备的容量之和。
下面主要介绍raid0_run和raid0_make_request两支函数。

3 raid0_run
~~~~~~~~~~~~

3.1 程序主干
=============
首先进行一些错误检测以及对md层使用的结构体mddev进行一些初始化。
然后调用一个比较重要的函数create_strip_zones,初始化raid0的strip。
接下来对md层虚拟的块设备做一些限制,最后将填充好的mddev结构体注
册到md层。接下来重点讲解create_strip_zones函数。

3.2 create_strip_zones
=======================
create_strip_zones函数会针对md层提供的实际块设别的大小建立
strip_zones。

3.2.1 strip_zone 的建立规则
----------------------------
我们假设有3个块设备组成raid0,分别考虑如下几种情况:

三个块设备大小都一样,比如都是40M,那么一共需要一个strip_zones。
如图所示:






如果这三个块设备的大小分别是60M,50M,40M,那么需要建立三个
strip_zones。60M 设备的前40M,50M设备的前40M,和整个40M的设备组成第
一个 strip_zone,60M设备的40M到50M的部分与50M设备的最后10M组成第二
个strip_zone,60M设备的最后10M是第三个strip_zone。
如下图所示:









如果三个块设备的大小分别是60M,50M,50M,那么一共需要建立两个
strip_zone。两个50M设备的全部和60M设备的前50M组成一个
strip_zone,60M设备的最后10M组成另一个strip_zone。
如下图所示:

3.2.2 确定需要建立多少个strip_zones
------------------------------------
进入create_strip_zones后,首先是一个双重循环,用来判断一共需要建立
多少个strip_zones。代码如下:
list_for_each_entry(rdev1, &mddev->disks, same_set) {
printk(KERN_INFO "raid0: looking at %s\n",
bdevname(rdev1->bdev,b));
c = 0;

/* round size to chunk_size */
sectors = rdev1->sectors;
sector_div(sectors, mddev->chunk_sectors);
rdev1->sectors = sectors * mddev->chunk_sectors;

list_for_each_entry(rdev2, &mddev->disks, same_set) {
printk(KERN_INFO "raid0: comparing %s(%llu)",
bdevname(rdev1->bdev,b),
(unsigned long long)rdev1->sectors);
printk(KERN_INFO " with %s(%llu)\n",
bdevname(rdev2->bdev,b),
(unsigned long long)rdev2->sectors);
if (rdev2 == rdev1) {
printk(KERN_INFO "raid0: END\n");
break;
}
if (rdev2->sectors == rdev1->sectors) {
/*
* Not unique, don't count it as a new
* group
*/
printk(KERN_INFO "raid0: EQUAL\n");
c = 1;
break;
}
printk(KERN_INFO "raid0: NOT EQUAL\n");
}
if (!c) {
printk(KERN_INFO "raid0: ==> UNIQUE\n");
conf->nr_strip_zones++;
printk(KERN_INFO "raid0: %d zones\n",
conf->nr_strip_zones);
}
}
我们还是以实际例子来分析一下程序的运行过程。假设共有三个块设备,名
字分别叫做blk1,blk2,blk3。大小分别为60M,60M,40M。mddev->disks这个
链表中存放了全部三个块设备,假设三个块设备在链表中的存放顺序依次为
blk1,blk2,blk3,那么list_for_each_entry宏会按照blk1,blk2,blk3
的顺序取出这三个块设备,对于两重循环都是如此。首先,进入第一重循
环,rdev1指向blk1,计算出rdev1的sector数量,应该是60M除以512。然后
进入第二重循环,第一次也取出了blk1,存放在rdev2中。比较rdev1和
rdev2是否相等,当然会相等,于是跳出第二重循环,判断变量c是否是0,
注意,在进入第二重循环之前c被置0,然后没有变化,所以此时c是0,于是
将记录strip_zones的变量加一。然后第一重循环进入第二轮,rdev1指向
blk2,计算出blk2的sectors数量,进入第二重循环。第二重循环还是先取
出blk1,放在rdev2中。判断rdev1和rdev2是否相等,当然不相等,继续往
下进行。比较rdev1和rdev2的大小是否相等。我们先前假设blk1和blk2大小
都是60M,所以相等。此时,设置c=1,然后跳出第二重循环。在第一重循环
的结尾处,判断c是否等于0,c不等于0,所以nr_strip_zones维持原来的数
值,即1。第一重循环进入第三次,rdev1指向blk3,进入第二重循环,rdev2首
先指向blk1,rdev1与rdev2不相等,rdev1的sectors与rdev2的sectors也不
相等,第二重循环进入第二次,rdev2指向blk2,结果与上一次一样,第二
重循环进入第三次,rdev2指向blk3,此时rdev1与rdev2相等,跳出第二重
循环,检查c的值,是0,所以nr_strip_zones加1。双重循环全部结束。最
终nr_strip_zones的值是2。



3.2.3 分配内存
---------------
conf->strip_zone = kzalloc(sizeof(struct strip_zone)*
conf->nr_strip_zones, GFP_KERNEL);
有多少个strip_zones,就分配多少个strip_zone结构体。

conf->devlist = kzalloc(sizeof(mdk_rdev_t*)*
conf->nr_strip_zones*mddev->raid_disks,
GFP_KERNEL);
mddev->disks中记录着共有多少个实际的块设备组成raid0。比如前面一直
举例有三个块设备,那么mddev->raid_disks的值就是3。conf->devlist中
存放着被分块后的实际设备。比如三个块设备的大小都一样,那么就在
mddev->devlist中存放三个块设备。如果三个块设备的大小分别是
40M,50M和60M,那么40M,50M的前40M,60M的前40M分别作为3个块设备存
放在mddev->devlist中,50M设备的后10M和60M设备的40M到50M阶段,又作
为两个设备存放在mddev->devlistg中,最后,60M设备的最后10M又作为一
个单独的设备存在mddev->devlist中。因此一共需要6个。这里用
strip_zones的个数乘以实际设备的个数分配内存,有可能会比实际需要的
内存数多一些,除非三个块设备的大小相等,此时分配的内存刚好等于实际
需求。

3.2.4 找出最小的strip_zone
---------------------------
接下来又是一个循环:
list_for_each_entry(rdev1, &mddev->disks, same_set)
...
作用很简单,就是找出长度最小的strip_zone。然后把最小strip_zone里面
包含的设备全都放进conf->devlist里面,实际上也就是全部的设备,因为
最小的strip_zone肯定包含了全部的设备。

3.2.5 把其他的strip_zone里面的设备放入conf->devlist之中。
----------------------------------------------------------
依然是一个循环:
for (i = 1; i <>nr_strip_zones; i++)
...
把被strip_zone分割过的设备放入conf->devlist中。以40M,50M,60M,的
设备为例,就是50M设备的后10M,60M设备的40至50M,50至60M这些部分放
入conf->devlist中。并且设置好它们在原本的块设备中的起始地址和偏移
量。

3.2.6 creaet_strip_zones的其余部分
-----------------------------------
注册一些回调函数,再对md构造的块设备做一些限制,然后就结束了。

3.3 raid0_run的其余部分
========================
没什么可说的,raid0_run函数的精髓就在create_strip_zones函数里面。建
立好strip_zones之后,raid0_run的主要工作就完成了。

4 raid0_make_request
~~~~~~~~~~~~~~~~~~~~~
raid0_make_request函数是处理读写数据的函数。它把传递给由md虚拟出来的
块设备的读写请求转换为到实际块设备的读写请求。然后md层会依据
raid0_make_request的转换结果把实际的读写请求送到实际的块设备中去。

4.1 程序主干
=============
首先进行一些必要的错误检测。
然后判断md层传下来的请求有没有chunk。md设备的数据存取是以chunk为单
位的。chunk的大小存储在mddev->chunk_sectors中。它的单位是512byte。
比如mddev->chunk_sectors=128,那么chunk的大小是128*512byte=64K。
如果传输跨chunk了,就把传输请求分成两个不跨chunk的请求,再递归调用
raid0_make_request函数处理。
如果传输没有跨chunk,先调用find_zone函数确定传输请求在哪个
strip_zone中,然后调用map_sector函数确定实际执行传输请求的块设备。
最后将实际执行请求的块设备的信息填入到bio之中。

4.2 find_zone
==============
find_zone函数用于确定传输请求落入哪个strip_zone中。数组
conf->strip_zone中按照先后顺序记录了所有的strip_zone。而每个
strip_zone的zone_end位中又记录着该strip_zone的结束地址(以sector为
单位)。从zone_end最小的strip_zone开始依次与传输要求的起始sector比
较大小。第一个zone_end比传输请求的起始sector大的strip_zone就是我们
要找的。
另外,find_zone函数还把传输起始的sector由以md设备的起始地址计算转换
为在执行strip_zone中的偏移地址。

4.3 map_sector
===============
map_sector函数用于确定实际执行传输的块设备。出于运行效率上的考虑,
它首先判断mddev->chunk_sectors是否是2的整数次幂。
mddev->chunk_sectors是md设备的chunk大小(前面提到过,它是以512byte
为单位的)。如果chunk的大小是2的整数次幂,在计算中就可以以左右移位
来代替乘法和除法运算。最终,该函数会从conf->devlist中返回一个设备,
也就是我们前面举例中提到的“50M设备的最后10M”或者“60M设备的第40M到第
50M”这样的设备,而不是实际的块设备,然后,把要进行存取操作的起始
section相对于这个设备的偏移量放入sector_offset中返回。