Linux初探
同一个目录中不允许出现文件及文件夹重名
查看文件
-  cat(Concatenate)查看文本文件内容,输出到屏幕(标准输出流)-  常用参数 - -A打印所有字符,包括特殊字符(换行符、制表符等)
- -n/-b标记行号,-n标记空行,-b不标记空行
 
-  常见用法 cat > file创建一个新文件file,并可以将简单内容写入文件。>为重定向符,意为把cat原本输出到屏幕的内容写入file的文件,会覆盖。>>追加符,可以继续写入文件,不覆盖。zcat可以读压缩文件
 tac倒着看文件(从倒数第一行开始输出)
-  
-  head查看文件的前n行(默认10行)tail查看文件的后n行(默认10行)-  常用参数 - -n设置看多少行的参数
 
-  常见用法 cat file.txt | head -n3等价head -n3 file.txt|管道符号
 
-  
-  more逐页查看文件,按空格翻页,按回车换行,q退出lessmore的升级版,常用的查看文件命令-  常见参数 - -N显示行号
- -S单行显示(可以上下左右翻阅)
 
-  常见用法 /keyword进行关键词搜索;n/N上下跳转关键词。
 
-  
-  wc(word count)统计文本-  常见参数 - -l统计行数(比较常用)
- -w统计字符串数,连在一起的字母是一个字符串。
- -c统计字节数,包括特殊字符,如换行符和制表符等。
 
-  常见用法 wc -l file1.txt file2.txt file3.txt输出三个文件行数及总计行数
 
-  
-  cut文本分割-  常见参数: - -d指定分隔符,默认\t;
- -f输出哪几列(字段fields)
 
-  常见用法: less -SN Data/example.gtf | cut -f 1,3-5 | less以默认制表符分割成列,取出1,3,4,5列(不会乱序)
 
-  
-  sort排序-  常见参数: - -n按照数值从小到大排序(默认是按照字符串理解数字的)
- -V字符串中含数值时,按照数值从小到大排序
- -r逆向排序
- -k按照哪一列进行排序
- -t指定分隔符
 
-  常见用法 less exp.csv | sort -k 3 -n| less -SN根据第3列按照数值排序
 
-  
-  uniq去除重复行,只能去除上下挨着的重复行,需要结合sort使用-  常见参数 - -C统计每个字符串连续出现的行数
 
-  常见用法 cat file.gtf | cut -f3 | sort | uniq -c将文件以制表符分割的第三列排序后统计出现了多少次(联想R的table)
 
-  
-  paste文本合并- 常见参数 - -d指定分隔符
- -s按行合并
 
- 常见用法 - paste file1 file2默认按列合并
- seq 20 | paste - - 很有意思!试一下!
 
 
- 常见参数 
-  tr字符替换-  常见参数 - -d删除
- -s缩减连续重复字符
 
-  常见用法 tr 'a' 'A'把小写a换成大写A,全部替换tr ' ' '\t'把空格替换成制表符tr '\n' ' '把换行符替换成空格
 
-  
MD5
-  生成md5值: md5sum file1
-  验证md5值: md5sum -c file1.md5
小TIPs
- 特殊符号:^I及\t制表符;$及\n换行符
- 把输入文件当作输出文件!会清空文件!需要存为另一个文件
生物信息学常见数据格式
fasta (fasta,fa,fna,faa,fas)
基于文本表示核酸序列的
特征:两部分, id行和序列行
- id行:以">"开头,有时候会包含注释信息,如chr1、chr2
- 序列行:一个字母表示一个碱基/氨基酸,ATCGN或二十种氨基酸
fastq
一种保存生物序列(通常核酸序列)及其测序质量得分信息的文本格式。
特征:四行组成(行内信息必须一行写完)
- 第一行:以@开头,之后为序列的标识符以及描述信息
- 第二行:为序列信息,如ATCG等
- 第三行:以+开头,之后可以再次加上序列的标识及描述信息(可无信息)
- 第四行:为碱基质量值,与第二行序列对应,长度相等
gff

gtf

-  gene_id和transcript_id非常重要!! 
-  强制对齐 column -t
引用自生信技能树课程~