bed文件介绍
BED文件(Browser Extensible Data)格式是ucsc 的genome browser的一个格式 ,提供了一种灵活的方式来定义的数据行,以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。
- 必须的列:
- chrom:染色体编号。
- chromStart:feature在染色体上起始位置。需要注意的是,bed文件是从0开始编码的,即最开始的碱基编号是0,而gff文件则是1。
- chromEnd:feature在染色体上的终止位置。
- 可选的列:
- name:feature的名称。
- score:得分,在0~1000之间。
- strand:定义链的方向,‘+’或‘-’。
- thickStart:绘制feature的起始位置。
- thickEnd:绘制feature的结束位置。
- itemRgb:是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为‘On’, 这个RBG值将决定数据的显示的颜色。
- blockCount:BED行中的block数目,也就是外显子数目。
- blockSize:用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目。
- blockStarts:用逗号分割的列表, 所有外显子的起始位置,数目也与blockCount数目对应。
bedtools的安装
- 利用conda安装(推荐):
conda install -c bioconda bedtools
- 通过源码安装:
wget https://github.com/arq5x/bedtools2/releases/download/v2.30.0/bedtools-2.30.0.tar.gz
tar -xzvf bedtools-2.30.0.tar.gz
cd bedtools2/
make
cd bin
export PATH=$PWD:$PATH
bedtools提取序列
- gff文件转换为bed格式
grep -w gene Osativa_323_v7.0.gene_exons.gff3 > gene.gff3
convert2bed --input=gff --output=bed <genes.gff >genes.bed #需要提前安装bedops
- 计算染色体长度
samtools faidx Osativa_323_v7.0.fa
cut -f 1,2 Osativa_323_v7.0.fa.fai > ChrLen.txt
- 创建基因上游2kb启动子序列的位置bed文件
bedtools flank -s -i gene.bed -g ChrLen.txt -l 2000 -r 0 > gene_up_2k.bed
bedtools getfasta -s -fi Osativa_323_v7.0.fa -bed gene_up_2k.bed -fo gene_up_2k.fa -name