bedtools提取基因上游启动子区域序列

bed文件介绍

BED文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。

  1. 必须的列
  • chrom:染色体编号。
  • chromStart:feature在染色体上起始位置。需要注意的是,bed文件是从0开始编码的,即最开始的碱基编号是0,而gff文件则是1。
  • chromEnd:feature在染色体上的终止位置。
  1. 可选的列:
  • name:feature的名称。
  • score:得分,在0~1000之间。
  • strand:定义链的方向,‘+’或‘-’。
  • thickStart:绘制feature的起始位置。
  • thickEnd:绘制feature的结束位置。
  • itemRgb:是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为‘On’, 这个RBG值将决定数据的显示的颜色。
  • blockCount:BED行中的block数目,也就是外显子数目。
  • blockSize:用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目。
  • blockStarts:用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应。

bedtools的安装

  • 利用conda安装(推荐):
conda install -c bioconda bedtools
  • 通过源码安装:
wget https://github.com/arq5x/bedtools2/releases/download/v2.30.0/bedtools-2.30.0.tar.gz
tar -xzvf bedtools-2.30.0.tar.gz
cd bedtools2/
make
cd bin
export PATH=$PWD:$PATH

bedtools提取序列

  1. gff文件转换为bed格式
grep -w gene Osativa_323_v7.0.gene_exons.gff3 > gene.gff3
convert2bed  --input=gff --output=bed  <genes.gff >genes.bed #需要提前安装bedops
  1. 计算染色体长度
samtools faidx Osativa_323_v7.0.fa 
cut -f 1,2 Osativa_323_v7.0.fa.fai > ChrLen.txt
  1. 创建基因上游2kb启动子序列的位置bed文件
bedtools flank -s -i gene.bed -g ChrLen.txt -l 2000 -r 0 > gene_up_2k.bed
bedtools getfasta -s -fi Osativa_323_v7.0.fa -bed gene_up_2k.bed -fo gene_up_2k.fa -name