㈠ 我用到的Samtools介紹
記錄一下我用到的samtools的用法。
samtools的說明文檔: http://samtools.sourceforge.net/samtools.shtml
bam文件優點:bam文件為二進制文件,佔用的磁碟空間比sam文本文件小;利用bam二進制文件的運算速度快。
首先需要意識到的是samtools是一個非常強大的工具,想要熟練的使用它,還需要不斷的摸索。
samtools的用法
(1)View
samtools view -bS abc.sam > abc.bam #將sam文件轉換為bam文件
參數:
-b bam 輸出bam
-S sam 輸入sam
-@ 線程
在比對完成的sam文件中,包含著mapped reads 和unmapped reads
$ samtools view -bF 4 abc.bam > abc.F.bam #提取沒有比對到參考序列上的比對結果,步包含標簽
$ samtools view -bF 12 abc.bam > abc.F12.bam #提取paired reads中兩條reads都比對到參考序列上的比對結果,只需要把兩個4+8的值12作為過濾參數即可
$ samtools view -bf 4 abc.bam > abc.f.bam #提取沒有比對到參考序列上的比對結果,包含標簽
$ samtools view abc.bam scaffold1 > scaffold1.sam #提取bam文件中比對到caffold1上的比對結果,並保存到sam文件格式
$ samtools view abc.bam scaffold1:30000-100000 $gt; scaffold1_30k-100k.sam #提取scaffold1上能比對到30k到100k區域的比對結果
$ samtools view -T genome.fasta -h scaffold1.sam > scaffold1.h.sam #根據fasta文件,將 header 加入到 sam 或 bam 文件中
samtools的view不就可以進行格式轉換,還可以進行數據的提取
例:提取1號染色體上1234~123456區域的以對read
samtools view SRR3589957_sorted.bam chr1:1234-123456| head
samtools view SRR3589957_sorted.bam chr1:1234-123456 > sub.bam
使FLAG更具可讀性
samtools view -X sample.sorted.bam | head -n 5
計算總的比對數量
samtools view sample.sorted.bam | wc -l
顯示標題,-H選項
samtools view -H sample.sorted.bam
將bam文件轉換為sam文件
samtools view -h abc.bam > abc.sam
(2)Sort
samtools sort對bam文件進行排序,不能對sam文件進行排序。
以leftmost coordinates的方式對比對結果進行排序,或者使用-n參數以read名稱進行排序。將會添加適當的@HD-SO排序順序標頭標簽或者如果有必要的話,將會更新現存的一個排序順序標頭標簽。sort命令的輸出默認是標准輸出寫入,或者使用-o參數時,指定bam文件輸出名。sort命令還會在內存不足時創建臨時文件tmpprefix.%d.bam。
也就是說:samtools的排序方式有兩種(常用)
默認方式,按照染色體的位置進行排序
samtools sort test.bam default
參數-n則是根據read名進行排序。
samtools sort -n test.bam sort_left
usage: samtools sort [-l level] [-m maxMem] [-o out.bam] [-O format] [-n] [-T tmpprefix] [-@ threads] [in.sam|in.bam|in.cram]
例如:samtools sort abc.bam abc.sort
samtools sort -O bam -@ 2 SRR1909070.bam -o SRR1909070.sorted.bam
RNA-seq 的數據比對結果 BAM 文件使用 samtools 進行 sort 之後文件壓縮比例變化會比DNA-seq 更甚。另外,samtools 對 BAM 文件進行排序之後那些沒有比對上的 reads 會被放在文件的末尾。
參數:
-l INT 設置輸出文件壓縮等級。0-9,0是不壓縮,9是壓縮等級最高。不設置此參數時,使用默認壓縮等級;
-m INT 設置每個線程運行時的內存大小,可以使用K,M和G表示內存大小。
-n 設定排序方式按short reads的ID排序。默認下是按序列在fasta文件中的順序(即header)和序列從左往右的位點排序。
-o FILE 設置最終排序後的輸出文件名;
-O FORMAT 設置最終輸出的文件格式,可以是bam,sam或者cram,默認為bam;
-T PREFIX 設置臨時文件的前綴;
-@ INT 設置排序和壓縮是的線程數量,默認是單線程。
(3)index
samtools index 建立索引,在建立索引之前應該先對bam文件進行排序。必須對bam文件進行 默認情況下的排序後 ,才能進行index。否則會報錯。
建立索引後將產生後綴為.的文件,用於快速的隨機處理。很多情況下需要有文件的存在,特別是顯示序列比對情況下。比如samtool的tview命令就需要;gbrowse2顯示reads的比對圖形的時候也需要。
samtools index abc.sort.bam
如果想要建立索引的,具體可以看看比對的內部的演算法,鏈接具體是怎麼建立索引的
建立索引的目的應該是為了提高比對的效率
以下兩種命令結果一樣
$ samtools index abc.sort.bam
$ samtools index abc.sort.bam abc.sort.bam.
(4)flagstat
samtools flagstat 給出BAM文件的比對結果
samtools flagstat [options] <in.bam>
-@ 線程
-O FORMAT 設置最終輸出的文件格式,可以是txt,json或者tsv,默認為json,tsv;
samtools flagstat輸出結果解釋:
11945742 + 0 in total (QC-passed reads + QC-failed reads)
#總共的reads數
0 + 0 plicates
7536364 + 0 mapped (63.09%:-nan%)
#總體上reads的匹配率
11945742 + 0 paired in sequencing
#有多少reads是屬於paired reads
5972871 + 0 read1
#reads1中的reads數
5972871 + 0 read2
#reads2中的reads數
6412042 + 0 properly paired (53.68%:-nan%)
#完美匹配的reads數:比對到同一條參考序列,並且兩條reads之間的距離符合設置的閾值
6899708 + 0 with itself and mate mapped
#paired reads中兩條都比對到參考序列上的reads數
636656 + 0 singletons (5.33%:-nan%)
#單獨一條匹配到參考序列上的reads數,和上一個相加,則是總的匹配上的reads數。
469868 + 0 with mate mapped to a different chr
#paired reads中兩條分別比對到兩條不同的參考序列的reads數
243047 + 0 with mate mapped to a different chr (mapQ>=5)
#paired reads中兩條分別比對到兩條不同的參考序列的reads數,並且其中比對質量>=5的reads的數量
(5)depth
得到每個鹼基位點的測序深度,並輸出到標准輸出。
usage: samtools depth [options] in.bam [in.bam ...]
注意 :做depth之前必須做samtools index;
示例:
samtools depth in.bam > out.depth.txt
注意: in.bam 必須經過了排序。
(6)samtools rmp
NGS上機測序前需要進行PCR一步,使一個模板擴增出一簇,從而在上機測序的時候表現出為1個點,即一個reads。若一個模板擴增出了多簇,結果得到了多個reads,這些reads的坐標(coordinates)是相近的。在進行了reads比對後需要將這些由PCRplicates獲得的reads去掉,並只保留最高比對質量的read。使用rmp命令即可完成.
Usage:
samtools rmp[-sS]
-s對single-end reads。默認情況下,只對paired-endreads
-S將Paired-endreads作為single-endreads處理。
$samtools rmp input.sorted.bam output.bam
(7)mpileup
samtools還有個非常重要的命令mpileup,以前為pileup。該命令用於生成bcf文件,再使用bcftools進行SNP和Indel的分析。bcftools是samtool中附帶的軟體,在samtools的安裝文件夾中可以找到。
最常用的參數有2個:
-f來輸入有索引文件的fasta參考序列;
-g輸出到bcf格式。用法和最簡單的例子如下
Usage:samtoolsmpileup[-EBug][-CcapQcoef][-rreg][-fin.fa][-llist][-McapMapQ][-QminBaseQ][-qminMapQ]in.bam[in2.bam[...]]
$samtoolsmpileup-fgenome.fastaabc.bam>abc.txt
$samtoolsmpileup-gSDfgenome.fastaabc.bam>abc.bcf
$samtoolsmpileup-guSDfgenome.fastaabc.bam|\bcftoolsview-cvNg->abc.vcf
mpileup不使用-u或-g參數時,則不生成二進制的bcf文件,而生成一個文本文件(輸出到標准輸出)。該文本文件統計了參考序列中每個鹼基位點的比對情況;該文件每一行代表了參考序列中某一個鹼基位點的比對結果。比如:
(8)faidx
對fasta文件建立索引,比如基因組的文件,生成的索引文件以.fai後綴結尾。該命令也能依據索引文件快速提取fasta文件中的某一條(子)序列
Usage: samtools faidx <in.bam> [ [...]]
對基因組文件建立索引
$ samtools faidx genome.fasta
生成了索引文件genome.fasta.fai,是一個文本文件,分成了5列。
第一列是子序列的名稱;
第二列是子序列的長度;
第三列是序列所在的位置,因為該數字從上往下逐漸變大,最後的數字是genome.fasta文件的大小;
第4和5列不知是啥意思。於是通過此文件,可以定
位子序列在fasta文件在磁碟上的存放位置,直接快速調出子序列。
由於有索引文件,可以使用以下命令很快從基因組中提取到fasta格式的子序列
$ samtools faidx genome.fasta scffold_10 > scaffold_10.fasta
拓展:bcftools軟體
bcftools和samtools類似,用於處理vcf(variant call format)文件和bcf(binary call format)文件。前者為文本文件,後者為其二進制文件。
bcftools使用簡單,最主要的命令是view命令,其次還有index和cat等命令。index和cat命令和samtools中類似。此處主講使用view命令來進行SNP和Indel calling。該命令的使用方法和例子為:
$ bcftools view -cvNg abc.bcf > snp_indel.vcf
生成的結果文件為vcf格式,有10列,分別是:1 參考序列名;2 varianti所在的left-most位置;3 variant的ID(默認未設置,用』.'表示);4 參考序列的allele;5 variant的allele(有多個alleles,則用』,'分隔);6 variant/reference QUALity;7 FILTers applied;8 variant的信息,使用分號隔開;9 FORMAT of the genotype fields, separated by colon (optional); 10 SAMPLE genotypes and per-sample information (optional)。
參考鏈接:
原文鏈接:https://blog.csdn.net/u013553061/article/details/53179945
https://www.cnblogs.com/emanlee/p/4316581.html
http://events.jianshu.io/p/794d82bccf6c
http://blog.sina.com.cn/s/blog_13de3725c0102v7rd.html
https://www.cnblogs.com/shuaihe/articles/6802246.html
㈡ 又來找你了 幫我破解下SAM 文件 3個我都有 謝了 我已經發你郵箱了 還有 怎嘛壓縮的
㈢ sam說話都用什麼插件
門限,壓限,激勵,均衡,混音
1、下載壓縮包並解壓。
2、在控制台上插件欄點下旁邊的三角符號,在彈出來的菜單里選擇 VST/Directx/ReWire設置。。
3、點下右邊的文件夾圖標,選擇第二個「瀏覽VST文件夾。。」
4、選擇你剛剛下載解壓出來的那個目錄,選中,點確定
5、在點確定,等待掃描,掃描的時候SAM可能會出現假死幾秒。
㈣ 急求一個win8的無密碼或已知密碼的sam文件
前段時間電腦WIN8系統忘記開機密碼了,上網查了下很多破解方法都不能用,比如取下主板電池,按下Ctrl+Alt+Del鍵等,最後是用PE引導盤解決了這個問題。下面我就把這個過程說一下,方便大家採用。
工具/原料
U盤(4G)
方法/步驟
軟體下載
把U盤格式化,使用U盤製作工具和win8 -PE引導文件,可到網上下載下
製作引導盤
插入一個空的U盤,運行U盤製作工具,選擇ISO製作,保存路徑選擇剛解壓縮的win8 _PE ISO鏡像,點擊一鍵製作ISO文件,在彈出的對話框,點擊寫入文件,等待寫入完成。
3
密碼修改
將電腦設置為USB方式啟動,使用引導盤進入win8-PE,使用PE自帶的密碼破解工具破解密碼。
打開windows密碼修改器,選擇SAM文件位置,一般是C:\windows\system32\config\sam,打開文件之後選擇要修改密碼的用戶,選擇更改口令,填寫新的密碼,保存之後退出。
4
重啟電腦
重啟電腦,使用新的密碼登陸。
最方便的就是進入PE裡面用軟體破解密碼。
㈤ 把視頻文件加密以後 sam文件怎樣裝進u盤里用u盤打開視頻就可以了 那個高手能告訴我用哪個軟體能做的出
SAM文件壓縮後就可以移動到U盤了。
㈥ 誰給我發個台式機XP無密碼SAM文件
你好知友!
.
附件已上傳.請按下面的【點擊下載】按鈕.下載附件後.查看內容或運行程序.
.
(注:附件文件的後綴名是*.RAR或*.ZIP.*.7Z的.需要先解壓縮.)
.
如果我的解答對你有幫助.請點擊我的回答下方【選為滿意回答】按鈕.
.
你的及時採納和+好評+贊.會是我繼續解答的動力.
.
同時及時採納你也將回收到在提問時被預扣的5財富值.
㈦ 壓縮包解壓時需要密碼怎麼辦
壓縮包解壓時需要密碼,輸入解壓密碼即可。
一般,從網上下載的軟體或游戲的安裝包,密碼的獲取方式有以下幾種:
1、密碼是網站的網址。下載網站多數採用這個方法。
2、密碼是上傳人的ID或固定的密碼。這個需要在下載的時候看一下相關的說明。
3、密碼需要購買。有的網站是賣資源、軟體和素材的。需要注冊論壇,購買密碼附件才可以得到密碼。
㈧ SAM文件 + PLIST文件 + PNG文件怎麼播放動畫
文件後綴名:.sam,SAM(Sequence
Alignment/Map)格式是一種通用的比對格式,用來存儲reads到參考序列的比對信息。SAM是一種序列比對格式標准,由sanger制定,是以TAB為分割符的文本格式。主要應用於測序序列mapping到基因組上的結果表示,當然也可以表示任意的多重比對結果。【此文件不是一般性質的圖片文件,無法播放】
在進行iOS開發時,經常用到plist文件。它全名是:Property
List,屬性列表文件,它是一種用來存儲串列化後的對象的文件。屬性列表文件的擴展名為.plist ,因此通常被稱為 plist文件。文件是xml格式的。【此文件也不是一般性質的圖片文件,無法播放】
攜帶型網路圖形(Portable
Network
Graphics)是一種無損壓縮的點陣圖圖形格式[1] 。其設計目的是試圖替代GIF和TIFF文件格式,同時增加一些GIF文件格式所不具備的特性。PNG的名稱來源於「可移植網路圖形格式(Portable
Network
Graphic
Format,PNG)」,也有一個非官方解釋「PNG's
Not
GIF」。PNG使用從LZ77派生的無損數據壓縮演算法,一般應用於JAVA程序、網頁或S60程序中,原因是它壓縮比高,生成文件體積小。【此文件是圖片文件,但是支持編輯,不支持播放】
通常播放的圖片文件是GIF文件,後綴.gif。支持播放,是動態圖片。
㈨ sam格式的簡單了解
部分轉自生信菜鳥團公眾號
SAM的全稱是sequence alignment/map format。而BAM就是SAM的二進制文件(B源自binary)。
SAM 格式主要包括兩大部分:
1 .標頭注釋部分(header section)
2 .比對結果部分(alignment section)
SAM格式是用來來支持高通量測序數據分析:
(1):快速查找與坐標重疊的比對。例如,選擇與染色體2上的坐標323,567,334重疊的比對。
(2):根據read的屬性進行選擇和過濾。例如,我們希望能夠快速選擇能過比對到反向鏈上的read。
(3):有效地存儲數據。例如,從SAM格式轉化成BAM格式,單個壓縮文件包含所有樣本的數據,每個樣本都以某種方式標記。
標頭注釋部分
標頭信息可有可無,都是以@開頭,用不同的tag表示不同的信息
比對結果部分
每一列表示一個read的比對信息,包括11個必須的欄位和一個可選欄位,欄位之間用tag分割。必須的欄位有11個,順序固定。這11個欄位包括:
第一列: Query Name (QNAME) :
這一列代表著比對片段的(template)的編號
第二列:FLAG :
這是一種常用且高效的保存多個布爾特徵值的方法。
舉個簡單的例子: 在 SAM 格式中,當 flag 為 1,也即對應的二進制為 01 時,表示該 read 有多個測序數據 , 一般理解為有雙端測序數據 (另一條沒被過濾掉), 而 flag 為 2, 也即二進制 10 時, 表示這條 read 的多個片斷都有比對結果, 通常理解為雙端 reads 都比對上了, 那麼就可以推斷出 flag 為 3 時, 也即二進制的 11, 表示該 read 有另一端的 read 並且比對成功, 可以看到, 其實就是 01 加 10。
一般flag值不需要自己去算,直接將flag值導入網站即可
http://broadinstitute.github.io/picard/explain-flags.html
所有flag對應值的含義
1 : 代表這個序列採用的是PE雙端測序
2: 代表這個序列和參考序列完全匹配,沒有插入缺失
4: 代表這個序列沒有mapping到參考序列上
8: 代表這個序列的另一端序列沒有比對到參考序列上,比如這條序列是R1,它對應的R2端序列沒有比對到參考序列上
16:代表這個序列比對到參考序列的負鏈上
32 :代表這個序列對應的另一端序列比對到參考序列的負鏈上
64 : 代表這個序列是R1端序列, read1;
128 : 代表這個序列是R2端序列,read2;
256: 代表這個序列不是主要的比對,一條序列可能比對到參考序列的多個位置,只有一個是首要的比對位置,其他都是次要的
512: 代表這個序列在QC時失敗了,被過濾不掉了(# 這個標簽不常用)
1024: 代表這個序列是PCR重復序列(#這個標簽不常用)
2048: 代表這個序列是補充的比對(#這個標簽具體什麼意思,沒搞清楚,但是不常用)
第三列: Reference Name (RNAME) :
reference sequence name,實際上就是比對到參考序列上的染色體號。若是無法比對,則是*
第四列: Position (POS) :
比對上的位置,注意是從1開始計數,沒有比對上,此處為0
第五列:Mapping Quality (MAPQ) :
比對的質量;比對的質量分數,越高說明該read比對到參考基因組上的位置越准確
第六列:Compact Idiosyncratic Gapped Alignment Representation (CIGAR)
CIGAR 代表著簡要比對信息表達式,其以參考序列為基礎,使用數字加字母表示比對結果
例如 3S6M1P1I4M
前三個鹼基被剪切去除了,然後6個比對上了,然後打開了一 個缺口,有一個鹼基插入,最後是4個比對上了。
這里的總長度對應的就是測出來的一條序列的長度,如果是PE100,這里加起來就應該是100,如果是PE150,這里加起來就是150,這里的長度和第10列的長度是一致的
第七列:RNEXT :
雙端測序中下一個reads比對的參考系列的名稱。「*」是完全沒有比對上,「=」代表完全比對
第3和第7列,可以用來判斷某條reads是否比對成功到了基因組的染色體,左右兩條reads是否比對到同一條染色體
第八列:PNEXT :
如果是雙端測序,是指另一端匹配到參考基因組的位置,如果設置為0,那麼該列不可用
第九列:TLEN Template的長度
最左邊得為正,最右邊的為負,中間的不用定義正負,不分區段(single-segment)的比對上,或者不可用時,此處為0
區別於第6列和第10列是對應測出來的序列的長度。這里第9列的長度是對應插入片段的長度,insert size,也就是建庫時,將DNA片段打斷成的長度。
第十列:Sequence :
序列片段的序列信息,如果不存儲此類信息,此處為』*『,注意CIGAR中M/I/S/=/X對應數字的和要等於序列長度;就是read的鹼基序列,如果是比對到互補鏈上則是reverse completed。
就是測序的reads序列信息
第十一列:ASCII :
read質量值
其實很容易發現,如果將第1,10,11列提取出來的話,就能還原成我們常見的fastq格式信息。
第十二列:Optional fields :
可選的區域
格式如:TAG:TYPE:VALUE,其中TAG有兩個大寫字母組成,每個TAG代表一類信息,每一行一個TAG只能出現一次,TYPE表示TAG對應值的類型,可以是字元串、整數、位元組、數組等。
備注 :
看一下KPGP-00001這個韓國人的測序reads比對到hg38的其中一個lane的sam格式部分信息:
可以看出這個是用的PE90測序,測序read長度為90bp,建庫打斷成約490bp,這個read名稱是B80KJTABXX:4:1:1404:2065#CTAGTTAT,flag值是163,代表著
reads是比對到7號染色體,比對的位置是50962731,比對的質量值是60,"90M"意味著90個鹼基都match(當然可能是mismatch),「=」意味著雙端測序的另一條read也比對上,並且是比對到同一個片段,另一條read比對的位置是
50963137 ,這條read的序列信息是「
」
對應質量值分ASCII值為「gggggecgaQ_`X``BBBBB 」
以上。