gffread提取外显子、cds、蛋白序列

gffread官网对其介绍为used to generate a FASTA file with the DNA sequences for all transcripts in a GFF file。利用gffread可以按照gff注释文件快速地从基因组中提取所需的序列。

gffread的安装

  • 利用conda安装:
conda install -c bioconda gffread
  • 通过源码安装:
git clone https://github.com/gpertea/gffread
cd gffread
make release

提取转录本(外显子)序列

# 提取转录本序列
gffread TEF1.gtf -g Soffic.genome-hic20191009.fasta -w TEF1.exons.fa

提取cds序列

# 提取cds序列
gffread TEF1.gtf -g Soffic.genome-hic20191009.fasta -x TEF1.cds.fa

根据cds翻译成蛋白序列

# 提取蛋白序列
gffread TEF1.gtf -g Soffic.genome-hic20191009.fasta -y TEF1.prot.fa