转录组分析(六):数据准备——样本信息表

二、准备样本信息表

将测序文件重命名为更易理解的编号

1. excel上完成

(1)将run selector表格复制到excel,保留有用的列

image

(2)使用CONCAT合并字符串

image

2. linux命令生成

(1)样本名生成

image

# bash shell脚本
# 两组,每组4个时期,3个重复
for prefix in "BL0_" "KID_"; do
  for s in {1..4}; do
    for ld in {1..3}; do
      echo "${prefix}S${s}_LD${ld}" >>sample.txt;
    done;
  done;
done

# 4个时期,每个时期两组,3个重复
for s in {1..4}; do
  for ld in {1..3}; do
    echo "BL0_S${s}_LD${ld}" >>sample.txt;
  done;
  for ld in {1..3}; do
    echo "KID_S${s}_LD${ld}" >>sample.txt;
  done;
done

(2)SRR列表生成

image

image

ls *gz | awk -F. '{print $1}'   //使用点号作为分隔符,提取第一个字段(SRR号),即“.fast.gz”以前

(3)合并一一对应

image

paste sample_name.txt SRR_list.txt >sample_name_list.txt

(4)名字替换

image

while read new_name srr; do
    mv "$srr.fastq.gz" "$new_name.fastq.gz"
done < sample_name_list.txt

3. 记录分组、数据存储路径

awk '{print substr($1,1,3)"\t"substr($1,1,6)"\t"$1"\t"$2"\t/data1/home/Chennan01/RNA-Seq/data/"$1".fastq.gz"}' sample_name_list.txt > sample.txt

image

posted @ 2025-12-20 19:57  asaca_r  阅读(2)  评论(0)    收藏  举报