FastDFS详解

1.FastDFS是什么

FastDFS是一款类Google FS的开源分布式文件系统，它用纯C语言实现，支持Linux、FreeBSD、AIX等UNIX系统。它只能通过专有API对文件进行存取访问，不支持POSIX接口方式，不能mount使用。

准确地讲，Google FS以及FastDFS、mogileFS、 HDFS、TFS等类Google FS都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。

FastDFS的作者是余庆，现在淘宝网Java中间件团队从事Java基础平台研发工作。

以上文字引用自<<程序员>> 文章 <<分布式文件系统FastDFS架构剖析>> http://www.programmer.com.cn/tag/fastdfs-架构/

2.FastDFS的体系结构

3.FastDFS工作过程

1. Client询问Tracker server上传到的Storage server；

2. Tracker server返回一台可用的Storage server，返回的数据为该Storage server的IP地址和端口；

3. Client直接和该Storage server建立连接，进行文件上传，Storage server返回新生成的文件ID，文件上传结束。

1. Client询问Tracker server可以下载指定文件的Storage server，参数为文件ID（包含组名和文件名）；

2. Tracker server返回一台可用的Storage server；

3. Client直接和该Storage server建立连接，完成文件下载。

FastDFS从V1.20开始，支持通过HTTP协议下载文件。

1.用户浏览器访问Tracker server内置的Web Server，URL中包含文件ID（包含组名和文件名）;

2.Tracker server将这个HTTP请求redirect到一台可用的Storage server的Web Server上(可以是apache或nginx)；

3.用户浏览器直接与Storage server的Web Serverr建立连接，完成文件下载。

4．客户端访问方式

有两种客户端访问方式，一种直接访问前端tracker server ，tracker_server将请求redirect到后端能提供服务的storage server，storage server收到请求后直接返回文件给客户端

一种是客户端直接访问storage server请求得到结果，storage server 可以使用自己的简单HTTP服务，也可以用fastdfs-nginx-module和nginx、apache整合提供HTTP服务。

5.服务器端目录结构
FastDFS服务器端运行时目录结构如下：
${base_path}
      |__data：存放状态文件
      |__logs：存放日志文件
其中，${base_path}由配置文件中的参数“base_path”设定。
2.2.1 tracker server结构
tracker server目录及文件结构：
${base_path}
    |__data
      |     |__storage_groups.dat：存储分组信息
      |     |__storage_servers.dat：存储服务器列表
        |__logs
             |__trackerd.log：tracker server日志文件
数据文件storage_groups.dat和storage_servers.dat中的记录之间以换行符（\n）分隔，字段之间以西文逗号（,）分隔。
storage_groups.dat中的字段依次为：
(1) group_name：组名
(2) storage_port：storage server端口号

storage_servers.dat中记录storage server相关信息，字段依次为：
(1) group_name：所属组名
(2) ip_addr：ip地址
(3) status：状态
(4) sync_src_ip_addr：向该storage server同步已有数据文件的源服务器
(5) sync_until_timestamp：同步已有数据文件的截至时间（UNIX时间戳）
(6) stat.total_upload_count：上传文件次数
(7) stat.success_upload_count：成功上传文件次数
(8) stat.total_set_meta_count：更改meta data次数
(9) stat.success_set_meta_count：成功更改meta data次数
(10) stat.total_delete_count：删除文件次数
(11) stat.success_delete_count：成功删除文件次数
(12) stat.total_download_count：下载文件次数
(13) stat.success_download_count：成功下载文件次数
(14) stat.total_get_meta_count：获取meta data次数
(15) stat.success_get_meta_count：成功获取meta data次数
(16) stat.last_source_update：最近一次源头更新时间（更新操作来自客户端）
(17) stat.last_sync_update：最近一次同步更新时间（更新操作来自其他storage server的同步）

storage server
storage server目录及文件结构：
${base_path}
    |__data
    |     |__.data_init_flag：当前storage server初始化信息
    |     |__storage_stat.dat：当前storage server统计信息
    |     |__sync：存放数据同步相关文件
    |     |     |__binlog.index：当前的binlog（更新操作日志）文件索引号
    |     |     |__binlog.###：存放更新操作记录（日志）
    |     |     |__${ip_addr}_${port}.mark：存放向目标服务器同步的完成情况
    |     |
    |     |__一级目录：256个存放数据文件的目录，目录名为十六进制字符，如：00, 1F
    |           |__二级目录：256个存放数据文件的目录，目录名为十六进制字符，如：0A, CF
    |__logs
          |__storaged.log：storage server日志文件
.data_init_flag文件格式为ini配置文件方式，各个参数如下：
   # storage_join_time：本storage server创建时间；
# sync_old_done：本storage server是否已完成同步的标志（源服务器向本服务器同步已有数据）；
# sync_src_server：向本服务器同步已有数据的源服务器IP地址，没有则为空；
# sync_until_timestamp：同步已有数据文件截至时间（UNIX时间戳）；

storage_stat.dat文件格式为ini配置文件方式，各个参数如下：
# total_upload_count：上传文件次数
# success_upload_count：成功上传文件次数
# total_set_meta_count：更改meta data次数
# success_set_meta_count：成功更改meta data次数
# total_delete_count：删除文件次数
# success_delete_count：成功删除文件次数
# total_download_count：下载文件次数
# success_download_count：成功下载文件次数
# total_get_meta_count：获取meta data次数
# success_get_meta_count：成功获取meta data次数
# last_source_update：最近一次源头更新时间（更新操作来自客户端）
#last_sync_update：最近一次同步更新时间（更新操作来自其他storage server）

binlog.index中只有一个数据项：当前binlog的文件索引号

binlog.###，###为索引号对应的3位十进制字符，不足三位，前面补0。索引号基于0，最大为999。一个binlog文件最大为1GB。记录之间以换行符（\n）分隔，字段之间以西文空格分隔。字段依次为：
(1)timestamp：更新发生时间（Unix时间戳）
(2)op_type：操作类型，一个字符
(3)filename：操作（更新）的文件名，包括相对路径，如：5A/3D/FE_93_SJZ7pAAAO_BXYD.S

${ip_addr}_${port}.mark：ip_addr为同步的目标服务器IP地址，port为本组storage server端口。例如：10.0.0.1_23000.mark。文件格式为ini配置文件方式，各个参数如下：
# binlog_index：已处理（同步）到的binlog索引号
# binlog_offset：已处理（同步）到的binlog文件偏移量（字节数）
# need_sync_old：同步已有数据文件标记，0表示没有数据文件需要同步
# sync_old_done：同步已有数据文件是否完成标记，0表示未完成，1表示已完成
# until_timestamp：同步已有数据截至时间点（UNIX时间戳）
# scan_row_count：已扫描的binlog记录数
# sync_row_count：已同步的binlog记录数

数据文件名由系统自动生成，包括三部分：当前时间（Unix时间戳）、文件大小（字节数）和随机数。文件名长度为16字节。文件按照PJW Hash算法hash到65536（256*256，默认配置下）个目录中分散存储。

posted @ 2013-10-18 12:09 文彪阅读(4622) 评论(0) 收藏举报

刷新页面返回顶部

FastDFS详解

公告