生信自学网perl加密_PerlRPython在生物信息学中是怎样的角色

⑴ 如何自学生物信息学

先说一下自己吧，我硕士读的是细胞生物学，今年4月开始在boss要求下自学perl，打听了下，这本书不错，就买来开始看，等5月份去北京参加公司的培训班时，读了一遍，看了一部分。培训回来，我们的项目就开始做了，9月拿到所有原始数据和分析结果。然后，我对照着公司的分析报告，试着自己走一边分析流程，中间遇到问题，自己解决不了的，就发邮件求助。有几点需要注意：
1. 我能理解你想早些玩儿数据的愿望，但是在这之前，最好要有一个outline.需要知道数据从哪儿来的，怎么产生的?其实就是测序仪的工作原理。然后是数据质量检验，为什么需要数据过滤?接着是reads拼接和组装。总之，要对整个流程有一个认识，而后在学习的过程中，再不断回头对比这个流程，这样才不会有迷失的感觉。[这本书](BioInformatics for High Throughput Sequencing)推荐看一下。
2. 有了基础知识的铺垫，就可以尝试着自己做些练习了，paper上面都会给出他们的数据、原码地址，可以找来自己试试，先看看自己能不能做出一样的效果。当然，这时要是你手里正好有项目，那就更好了。
3. 学生物信息，paper肯定是要跟踪的。这两个网站可以经常看一下：
[homologous](Homologus - Frontier in Bioinformatics) 覆盖生物信息有趣的论文，算法，以及生物科学问题。这个网站还汇集了很多生物信息领域科学家的博客。再如BGI的主程罗瑞邦， SAMtools、BWA的作者Heng Li都有在这里出现。
[rna-seq Blog](RNA-Seq Blog) 推荐新的论文、工作、培训课程、大型会议等。
如果你是生物背景的，那么计算机方面的知识需要补一下：
- 需要能在linux环境下舒服的工作。比如从源码编译安装软件、PATH配置，再比如舒服地使用google找到问题的答案 :-)
- 学会使用python/perl。比如有的时候运行一个软件老是报错，可能就是因为在一个包含几十万行的文本文件里，有随机的那么几千行的末个位置，多一个冒号，[就像这里](using HTSeq | popucui), 这时候你知道需要怎么做了?
- 学会R。要从一大堆基因里面找出表达水平变化的基因来，需要统计分析和显着检验;而要把我们的数据更直观地展示出来，最好的方式就是图形了吧。这两个需要，R都能满足。当然matlab也是可以的，区别在于R是开源工具。
- 具备了上述技能，那么常用的软件就能用起来了。随着学习的深入，可能你的问题别人也没遇到过，这时候就需要自己动手，要么修改现成的工具，要么自己做一个出来。这时候，除了python/perl，或许还可以学学C/C++/java，或许需要研究下比如BWT、De Bruijn Graph背后的原理。

⑵ 如何系统的学习Perl语言

Perl是典型的脚本语言，短小精悍，非常容易上手，尤其适合处理文本，数据，以及系统管理。它在老一辈的生物信息学分析人员中非常流行，出于历史遗留原因大家肯定会或多或少地接触 Perl，即使你再怎么推崇Python或者GO等新兴编程语言。
1 入门资料
两个半小时入门指导：https://qntm.org/files/perl/perl.html
21天学完 perl，自己搜索下载pdf书籍吧！
大小骆驼书，建议都看完，以囫囵吞枣的方式阅读，只看基础知识来入门，难点全部跳过。
官网：https://www.perl.org/
函数如何用：都可以在http://perldoc.perl.org/perl.html 查到
论坛：http://www.perlmonks.org/
2 知识要点
在看书的同时，你必须记住和熟练使用的知识点是下面这些：
理解perl里面的三种变量表示方式
$ 表示单个变量
用单双引号区别，q(),qq()
@ 表示多个变量组成的数组，qw()
% 表示关系型变量-hash
变量不严格区分类型，没有int/float/double/char这样的概念
三种变量都有对应的操作技巧：
简单变量的操作函数
Numerical operators: <> >, <> >=, ==, !=, <=>, +, *
String operators: lt, gt, le, ge, eq, ne, cmp, ., x
数组操作(pop/push/shift/unshift/splice/map/grep/join/split/sort/reverse)
hash操作方式
(keys,values,each,delete,exists)
具体需要在实战里面体会：http://www.biotrainee.com/forum-90-1.html 生信人必练的200个数据处理任务(欢迎大家去练习)
变量内容交换，字符型转为数值型，字符串转为字符数组，字符串变量，heredoc，字符串分割，字符串截取，随机数生成，取整，各种概率分布数，多维矩阵如何操作，进制转换，hash翻转，数组转hash
上下文环境
这个比较复杂： http://www.perlmonks.org/?node_id=738558，就是需要理解你写的程序是如何判断你的变量的，你以为的不一定是你以为的。
正则表达式
这也是一个非常重要的一块内容，基础用法就是m和s，一个匹配，一个替换，比较有趣的就是1,2等等捕获变量。
内建变量
就是perl语言设计的时候定义了一大堆的全局变量($_ $, $0 $> $< $!="" $.="" @argv="" @f="" @_="" @inc="" %env="">)
。外表上看起来都是一个$ @ %符号后面加上一大堆的奇奇怪怪的字符，表示一些特殊变量，这也是perl语言饱受诟病的原因。但是有些非常重要，懂了它之后写程序会方便。下载一个表格，里面有近100个预定义变量需要学习的。
控制语句(循环/条件/判断)
if ... elsif ... else ...
unless/while/next/last/for/foreach
读写文件，脚本实战！
while(<>){
#do something !
}
这是我最喜欢的一个程序模板，读取文件，根据需要处理文件，然后输出。需要实现非常多的功能，然后就可以自己总结脚本技巧，也能完全掌握perl的各种语法。在生物信息学领域，需要实现的功能有！
perl 单行命令
我个人特别喜欢这个知识点，我也专门下载过一本书来学习，把这个教程看完就基本上能全明白：http://www.catonmat.net/blog/perl-one-liners-explained-part-one/。学习单行命令的前提是掌握非常多的奇奇怪怪的perl自定义变量和perl的基础语法，用熟练了之后就非常方便，很多生物信息学数据处理过程我现在基本不写脚本，都是直接写一行命令，完全代替了shell脚本里面的awk、sed/grep系列命令。(perl -p -a -n -a -l -i -F -M)
预定义函数
perl 是一个非常精简的语言，自定义的函数非常少，连min max这样常见的函数都没有，如果你需要使用这样的功能，要么自己写一个函数，要么使用加强版的包，perl的包非常多。
下面列出一些，我常用的函数：
程序必备： use/die/warn/print/open/close/<>/
数学函数：sin/cos/log/abs/rand/srand/sqrt
字符串函数：uc/lc/scaler/index/rindex/length/pos/substr/sprintf/chop/chomp/hex/int/oct/ord/chr/unpack/unencode
defined/undef
系统操作相关
perl语言是跨平台的，因为它的执行靠的是perl解释器，而perl的解释器可以安装在任何机器上面。所以可以用perl来代替很多系统管理工作。
系统命令调用
文件句柄操作(STDIN,STDOUT,STDERR,ARGV,DATA,)
系统文件管理(mkdir/chdir/opendir/closedir/readdir/telldir/rmdir/)
一些高级技巧
自定义函数 sub , 参数传递，数组传递，返回值
模块操作(模块安装，加载，模块路径，模块函数引用)
引用（变量的变量）
选择一个好的编辑器-编译器，editplus，notepad++，jEdit，编程习惯的养成。
搞清楚perl版本的问题，还有程序编码的问题，中文显示的问题。
程序调试
perl常见模块学习
perl和LWP/HTML做网络爬虫必备，重点是DOM如何解析；
perl和CGI编程，做网站的神器，重点是html基础知识；
DBI相关数据库，用perl来操作mysql等，当然，重点是mysql知识；
GD and GD::Graph 可以用来画图，但是基本上没有人用了，除了CIRCOS画圈圈图火起来了；
TK模块，可以编写GUI界面程序，但是也几乎没有人用了；
XML/pdf/excel/Json 相关的模块可以用来读取非文本格式数据，或者输出格式化报告；
socket通信相关，高手甚至可以写出一个QQ的模仿版本；
最后不得不提的就是Bioperl了，虽然我从来没有用过，但是它的确对初学者非常有用，大多数人不提倡重复造轮子，但我个人觉得，对初学者来说，重复造轮子是一个非常好的学习方式。大家可以仿造bioperl里面的各个功能，用自己的脚本来实现！
3 复习资料
如果你感觉学的差不多了，就可以下载一些复习资料，查漏补缺:
http://michaelgoerz.net/refcards/perl_refcard.pdf
https://rc.hms.harvard.e/training/perl/Perl%20Cheat%20Sheet.pdf
https://www.cheatography.com/mishin/cheat-sheets/perl-reference-card/
http://www.catonmat.net/download/perl.predefined.variables.pdf
http://www.erudil.com/preqr.pdf
https://www.cs.tut.fi/~jkorpela/perl/regexp.html
https://support.sas.com/rnd/base/datastep/perl_regexp/regexp-tip-sheet.pdf

⑶ Perl，R，Python在生物信息学中是怎样的角色

应该说Python/Perl是相互替代的脚本语言，但个人推荐用Python, 虽然很多老的生物信息软件是用Perl,Python学习曲线好，功能也更强大，是发展趋势。这两个语言主要是做数据预处理、文本处理和格式转换、对算法效率要求不高的分析软件开发，系统管理和pipeline搭建等工作。R语言主要的优势是大量的统计包的支持，数据统计分析中非常常用。Python和R有良好的接口。关于绘图很多人用R,其实Python的Matplotlib的绘图效果比它漂亮很多，也更强大。对pipeline的搭建shell编程更适合，是一个不可缺少的技能。与数据库相关的工作需要用到SQL， Linux : 操作系统，是基础。生物信息对Linux的要求其实并不高，并不是要做系统开发者或管理员，只需要会用就行。复制粘贴、处理数据、安装软件等。生物信息软件：标准数据分析。生物信息学的数据格式已经基本标准化，大部分工作可以直接用软件完成。Perl和Python：处理个性化问题、软件之间的对接。这两门语言至少应该熟练掌握一门自己写程序用，另外一门要能看得懂。写点小脚本感觉差别不大，但是perl写大程序不合适。很多人认为python是趋势，但至少截止目前更多生信软件是用perl写的。所以，如果刚开始学，建议主打python, 看懂perl。R ：数据处理、统计、绘图、数据分析。 R语言的数据结构跟其他语言差异较大、而且总感觉语法比较散，不好记。但是R的软件包却异常强大。数据处理的reshape2, dplyr；绘图的ggplot2；还有Bioconctor里的几千个包。不得不会。

导航:首页 > 文档加密 > 生信自学网perl加密

生信自学网perl加密

与生信自学网perl加密相关的资料