導航:首頁 > 文件處理 > sam壓縮包

sam壓縮包

發布時間:2022-11-17 16:31:52

㈠ 我用到的Samtools介紹

記錄一下我用到的samtools的用法。

samtools的說明文檔: http://samtools.sourceforge.net/samtools.shtml

bam文件優點:bam文件為二進制文件,佔用的磁碟空間比sam文本文件小;利用bam二進制文件的運算速度快。

首先需要意識到的是samtools是一個非常強大的工具,想要熟練的使用它,還需要不斷的摸索。

samtools的用法

(1)View

samtools view -bS abc.sam > abc.bam    #將sam文件轉換為bam文件

 參數:

-b bam 輸出bam

-S sam 輸入sam

-@ 線程

在比對完成的sam文件中,包含著mapped reads 和unmapped reads

$ samtools view -bF 4  abc.bam > abc.F.bam       #提取沒有比對到參考序列上的比對結果,步包含標簽

$ samtools view -bF 12 abc.bam > abc.F12.bam   #提取paired reads中兩條reads都比對到參考序列上的比對結果,只需要把兩個4+8的值12作為過濾參數即可

$ samtools view -bf 4 abc.bam > abc.f.bam    #提取沒有比對到參考序列上的比對結果,包含標簽

$ samtools view abc.bam scaffold1 > scaffold1.sam     #提取bam文件中比對到caffold1上的比對結果,並保存到sam文件格式

$ samtools view abc.bam scaffold1:30000-100000 $gt; scaffold1_30k-100k.sam    #提取scaffold1上能比對到30k到100k區域的比對結果

$ samtools view -T genome.fasta -h scaffold1.sam > scaffold1.h.sam    #根據fasta文件,將 header 加入到 sam 或 bam 文件中

samtools的view不就可以進行格式轉換,還可以進行數據的提取

例:提取1號染色體上1234~123456區域的以對read

samtools view SRR3589957_sorted.bam chr1:1234-123456| head

 samtools view SRR3589957_sorted.bam chr1:1234-123456 > sub.bam 

使FLAG更具可讀性

samtools view -X sample.sorted.bam | head -n 5

計算總的比對數量

samtools view sample.sorted.bam | wc -l

顯示標題,-H選項

samtools view -H sample.sorted.bam

將bam文件轉換為sam文件

samtools view -h abc.bam > abc.sam

(2)Sort

samtools sort對bam文件進行排序,不能對sam文件進行排序。

以leftmost coordinates的方式對比對結果進行排序,或者使用-n參數以read名稱進行排序。將會添加適當的@HD-SO排序順序標頭標簽或者如果有必要的話,將會更新現存的一個排序順序標頭標簽。sort命令的輸出默認是標准輸出寫入,或者使用-o參數時,指定bam文件輸出名。sort命令還會在內存不足時創建臨時文件tmpprefix.%d.bam。

也就是說:samtools的排序方式有兩種(常用)

默認方式,按照染色體的位置進行排序

samtools sort test.bam default

參數-n則是根據read名進行排序。

samtools sort -n test.bam sort_left

usage: samtools sort [-l level] [-m maxMem] [-o out.bam] [-O format] [-n] [-T tmpprefix] [-@ threads] [in.sam|in.bam|in.cram]

例如:samtools sort abc.bam abc.sort

samtools sort -O bam -@ 2 SRR1909070.bam -o SRR1909070.sorted.bam

RNA-seq 的數據比對結果 BAM 文件使用 samtools 進行 sort 之後文件壓縮比例變化會比DNA-seq 更甚。另外,samtools 對 BAM 文件進行排序之後那些沒有比對上的 reads 會被放在文件的末尾。

 參數:

-l INT 設置輸出文件壓縮等級。0-9,0是不壓縮,9是壓縮等級最高。不設置此參數時,使用默認壓縮等級;

-m INT 設置每個線程運行時的內存大小,可以使用K,M和G表示內存大小。

-n 設定排序方式按short reads的ID排序。默認下是按序列在fasta文件中的順序(即header)和序列從左往右的位點排序。

-o FILE 設置最終排序後的輸出文件名;

-O FORMAT 設置最終輸出的文件格式,可以是bam,sam或者cram,默認為bam;

-T PREFIX 設置臨時文件的前綴;

-@ INT 設置排序和壓縮是的線程數量,默認是單線程。

(3)index

samtools index 建立索引,在建立索引之前應該先對bam文件進行排序。必須對bam文件進行 默認情況下的排序後 ,才能進行index。否則會報錯。

建立索引後將產生後綴為.的文件,用於快速的隨機處理。很多情況下需要有文件的存在,特別是顯示序列比對情況下。比如samtool的tview命令就需要;gbrowse2顯示reads的比對圖形的時候也需要。

samtools index abc.sort.bam

如果想要建立索引的,具體可以看看比對的內部的演算法,鏈接具體是怎麼建立索引的

建立索引的目的應該是為了提高比對的效率

以下兩種命令結果一樣

$ samtools index abc.sort.bam

$ samtools index abc.sort.bam abc.sort.bam.

(4)flagstat

samtools flagstat  給出BAM文件的比對結果

samtools flagstat [options] <in.bam>

-@ 線程

-O FORMAT 設置最終輸出的文件格式,可以是txt,json或者tsv,默認為json,tsv;

samtools flagstat輸出結果解釋:

11945742 + 0 in total (QC-passed reads + QC-failed reads)

#總共的reads數

0 + 0 plicates

7536364 + 0 mapped (63.09%:-nan%)

#總體上reads的匹配率

11945742 + 0 paired in sequencing

#有多少reads是屬於paired reads

5972871 + 0 read1

#reads1中的reads數

5972871 + 0 read2

#reads2中的reads數

6412042 + 0 properly paired (53.68%:-nan%)

#完美匹配的reads數:比對到同一條參考序列,並且兩條reads之間的距離符合設置的閾值

6899708 + 0 with itself and mate mapped

#paired reads中兩條都比對到參考序列上的reads數

636656 + 0 singletons (5.33%:-nan%)

#單獨一條匹配到參考序列上的reads數,和上一個相加,則是總的匹配上的reads數。

469868 + 0 with mate mapped to a different chr

#paired reads中兩條分別比對到兩條不同的參考序列的reads數

243047 + 0 with mate mapped to a different chr (mapQ>=5)

#paired reads中兩條分別比對到兩條不同的參考序列的reads數,並且其中比對質量>=5的reads的數量

(5)depth

得到每個鹼基位點的測序深度,並輸出到標准輸出。

usage: samtools depth [options] in.bam [in.bam ...]

注意 :做depth之前必須做samtools index;

示例:

samtools depth in.bam  >  out.depth.txt

注意: in.bam 必須經過了排序。

(6)samtools rmp

NGS上機測序前需要進行PCR一步,使一個模板擴增出一簇,從而在上機測序的時候表現出為1個點,即一個reads。若一個模板擴增出了多簇,結果得到了多個reads,這些reads的坐標(coordinates)是相近的。在進行了reads比對後需要將這些由PCRplicates獲得的reads去掉,並只保留最高比對質量的read。使用rmp命令即可完成.

Usage:

samtools rmp[-sS]

-s對single-end reads。默認情況下,只對paired-endreads

-S將Paired-endreads作為single-endreads處理。

$samtools rmp input.sorted.bam output.bam

(7)mpileup

samtools還有個非常重要的命令mpileup,以前為pileup。該命令用於生成bcf文件,再使用bcftools進行SNP和Indel的分析。bcftools是samtool中附帶的軟體,在samtools的安裝文件夾中可以找到。

最常用的參數有2個:

-f來輸入有索引文件的fasta參考序列;

-g輸出到bcf格式。用法和最簡單的例子如下

Usage:samtoolsmpileup[-EBug][-CcapQcoef][-rreg][-fin.fa][-llist][-McapMapQ][-QminBaseQ][-qminMapQ]in.bam[in2.bam[...]]

$samtoolsmpileup-fgenome.fastaabc.bam>abc.txt

$samtoolsmpileup-gSDfgenome.fastaabc.bam>abc.bcf

$samtoolsmpileup-guSDfgenome.fastaabc.bam|\bcftoolsview-cvNg->abc.vcf

mpileup不使用-u或-g參數時,則不生成二進制的bcf文件,而生成一個文本文件(輸出到標准輸出)。該文本文件統計了參考序列中每個鹼基位點的比對情況;該文件每一行代表了參考序列中某一個鹼基位點的比對結果。比如:

(8)faidx

對fasta文件建立索引,比如基因組的文件,生成的索引文件以.fai後綴結尾。該命令也能依據索引文件快速提取fasta文件中的某一條(子)序列

Usage: samtools faidx <in.bam> [ [...]]

對基因組文件建立索引

$ samtools faidx genome.fasta

生成了索引文件genome.fasta.fai,是一個文本文件,分成了5列。

第一列是子序列的名稱;

第二列是子序列的長度;

第三列是序列所在的位置,因為該數字從上往下逐漸變大,最後的數字是genome.fasta文件的大小;

第4和5列不知是啥意思。於是通過此文件,可以定

位子序列在fasta文件在磁碟上的存放位置,直接快速調出子序列。

由於有索引文件,可以使用以下命令很快從基因組中提取到fasta格式的子序列

$ samtools faidx genome.fasta scffold_10 > scaffold_10.fasta

拓展:bcftools軟體

bcftools和samtools類似,用於處理vcf(variant call format)文件和bcf(binary call format)文件。前者為文本文件,後者為其二進制文件。

bcftools使用簡單,最主要的命令是view命令,其次還有index和cat等命令。index和cat命令和samtools中類似。此處主講使用view命令來進行SNP和Indel calling。該命令的使用方法和例子為:

$ bcftools view -cvNg abc.bcf > snp_indel.vcf

生成的結果文件為vcf格式,有10列,分別是:1 參考序列名;2 varianti所在的left-most位置;3 variant的ID(默認未設置,用』.'表示);4 參考序列的allele;5 variant的allele(有多個alleles,則用』,'分隔);6 variant/reference QUALity;7 FILTers applied;8 variant的信息,使用分號隔開;9 FORMAT of the genotype fields, separated by colon (optional); 10 SAMPLE genotypes and per-sample information (optional)。

參考鏈接:

原文鏈接:https://blog.csdn.net/u013553061/article/details/53179945

https://www.cnblogs.com/emanlee/p/4316581.html

http://events.jianshu.io/p/794d82bccf6c

http://blog.sina.com.cn/s/blog_13de3725c0102v7rd.html

https://www.cnblogs.com/shuaihe/articles/6802246.html

㈡ 又來找你了 幫我破解下SAM 文件 3個我都有 謝了 我已經發你郵箱了 還有 怎嘛壓縮的

發給我[email protected]

㈢ sam說話都用什麼插件

門限,壓限,激勵,均衡,混音
1、下載壓縮包並解壓

2、在控制台上插件欄點下旁邊的三角符號,在彈出來的菜單里選擇 VST/Directx/ReWire設置。。

3、點下右邊的文件夾圖標,選擇第二個「瀏覽VST文件夾。。」

4、選擇你剛剛下載解壓出來的那個目錄,選中,點確定

5、在點確定,等待掃描,掃描的時候SAM可能會出現假死幾秒。

㈣ 急求一個win8的無密碼或已知密碼的sam文件

前段時間電腦WIN8系統忘記開機密碼了,上網查了下很多破解方法都不能用,比如取下主板電池,按下Ctrl+Alt+Del鍵等,最後是用PE引導盤解決了這個問題。下面我就把這個過程說一下,方便大家採用。

工具/原料
U盤(4G)
方法/步驟
軟體下載
把U盤格式化,使用U盤製作工具和win8 -PE引導文件,可到網上下載下
製作引導盤
插入一個空的U盤,運行U盤製作工具,選擇ISO製作,保存路徑選擇剛解壓縮的win8 _PE ISO鏡像,點擊一鍵製作ISO文件,在彈出的對話框,點擊寫入文件,等待寫入完成。

3
密碼修改
將電腦設置為USB方式啟動,使用引導盤進入win8-PE,使用PE自帶的密碼破解工具破解密碼。
打開windows密碼修改器,選擇SAM文件位置,一般是C:\windows\system32\config\sam,打開文件之後選擇要修改密碼的用戶,選擇更改口令,填寫新的密碼,保存之後退出。
4
重啟電腦
重啟電腦,使用新的密碼登陸。
最方便的就是進入PE裡面用軟體破解密碼。

㈤ 把視頻文件加密以後 sam文件怎樣裝進u盤里用u盤打開視頻就可以了 那個高手能告訴我用哪個軟體能做的出

SAM文件壓縮後就可以移動到U盤了。

㈥ 誰給我發個台式機XP無密碼SAM文件

你好知友!

.

附件已上傳.請按下面的【點擊下載】按鈕.下載附件後.查看內容或運行程序.

.

(注:附件文件的後綴名是*.RAR或*.ZIP.*.7Z的.需要先解壓縮.)

.

如果我的解答對你有幫助.請點擊我的回答下方【選為滿意回答】按鈕.

.

你的及時採納和+好評+贊.會是我繼續解答的動力.

.

同時及時採納你也將回收到在提問時被預扣的5財富值.


㈦ 壓縮包解壓時需要密碼怎麼辦

壓縮包解壓時需要密碼,輸入解壓密碼即可。
一般,從網上下載的軟體或游戲的安裝包,密碼的獲取方式有以下幾種:
1、密碼是網站的網址。下載網站多數採用這個方法。
2、密碼是上傳人的ID或固定的密碼。這個需要在下載的時候看一下相關的說明。
3、密碼需要購買。有的網站是賣資源、軟體和素材的。需要注冊論壇,購買密碼附件才可以得到密碼。

㈧ SAM文件 + PLIST文件 + PNG文件怎麼播放動畫

文件後綴名:.sam,SAM(Sequence
Alignment/Map)格式是一種通用的比對格式,用來存儲reads到參考序列的比對信息。SAM是一種序列比對格式標准,由sanger制定,是以TAB為分割符的文本格式。主要應用於測序序列mapping到基因組上的結果表示,當然也可以表示任意的多重比對結果。【此文件不是一般性質的圖片文件,無法播放】
在進行iOS開發時,經常用到plist文件。它全名是:Property
List,屬性列表文件,它是一種用來存儲串列化後的對象的文件。屬性列表文件的擴展名為.plist ,因此通常被稱為 plist文件。文件是xml格式的。【此文件也不是一般性質的圖片文件,無法播放】
攜帶型網路圖形(Portable
Network
Graphics)是一種無損壓縮的點陣圖圖形格式[1] 。其設計目的是試圖替代GIF和TIFF文件格式,同時增加一些GIF文件格式所不具備的特性。PNG的名稱來源於「可移植網路圖形格式(Portable
Network
Graphic
Format,PNG)」,也有一個非官方解釋「PNG's
Not
GIF」。PNG使用從LZ77派生的無損數據壓縮演算法,一般應用於JAVA程序、網頁或S60程序中,原因是它壓縮比高,生成文件體積小。【此文件是圖片文件,但是支持編輯,不支持播放】
通常播放的圖片文件是GIF文件,後綴.gif。支持播放,是動態圖片。

㈨ sam格式的簡單了解

部分轉自生信菜鳥團公眾號

SAM的全稱是sequence alignment/map format。而BAM就是SAM的二進制文件(B源自binary)。
SAM 格式主要包括兩大部分:
1 .標頭注釋部分(header section)
2 .比對結果部分(alignment section)

SAM格式是用來來支持高通量測序數據分析:

(1):快速查找與坐標重疊的比對。例如,選擇與染色體2上的坐標323,567,334重疊的比對。

(2):根據read的屬性進行選擇和過濾。例如,我們希望能夠快速選擇能過比對到反向鏈上的read。

(3):有效地存儲數據。例如,從SAM格式轉化成BAM格式,單個壓縮文件包含所有樣本的數據,每個樣本都以某種方式標記。

標頭注釋部分
標頭信息可有可無,都是以@開頭,用不同的tag表示不同的信息

比對結果部分
每一列表示一個read的比對信息,包括11個必須的欄位和一個可選欄位,欄位之間用tag分割。必須的欄位有11個,順序固定。這11個欄位包括:

第一列: Query Name (QNAME)
這一列代表著比對片段的(template)的編號

第二列:FLAG
這是一種常用且高效的保存多個布爾特徵值的方法。

舉個簡單的例子: 在 SAM 格式中,當 flag 為 1,也即對應的二進制為 01 時,表示該 read 有多個測序數據 , 一般理解為有雙端測序數據 (另一條沒被過濾掉), 而 flag 為 2, 也即二進制 10 時, 表示這條 read 的多個片斷都有比對結果, 通常理解為雙端 reads 都比對上了, 那麼就可以推斷出 flag 為 3 時, 也即二進制的 11, 表示該 read 有另一端的 read 並且比對成功, 可以看到, 其實就是 01 加 10。
一般flag值不需要自己去算,直接將flag值導入網站即可
http://broadinstitute.github.io/picard/explain-flags.html

所有flag對應值的含義
1 : 代表這個序列採用的是PE雙端測序

2: 代表這個序列和參考序列完全匹配,沒有插入缺失

4: 代表這個序列沒有mapping到參考序列上

8: 代表這個序列的另一端序列沒有比對到參考序列上,比如這條序列是R1,它對應的R2端序列沒有比對到參考序列上

16:代表這個序列比對到參考序列的負鏈上

32 :代表這個序列對應的另一端序列比對到參考序列的負鏈上

64 : 代表這個序列是R1端序列, read1;

128 : 代表這個序列是R2端序列,read2;

256: 代表這個序列不是主要的比對,一條序列可能比對到參考序列的多個位置,只有一個是首要的比對位置,其他都是次要的

512: 代表這個序列在QC時失敗了,被過濾不掉了(# 這個標簽不常用)

1024: 代表這個序列是PCR重復序列(#這個標簽不常用)

2048: 代表這個序列是補充的比對(#這個標簽具體什麼意思,沒搞清楚,但是不常用)

第三列: Reference Name (RNAME)
reference sequence name,實際上就是比對到參考序列上的染色體號。若是無法比對,則是*

第四列: Position (POS)
比對上的位置,注意是從1開始計數,沒有比對上,此處為0

第五列:Mapping Quality (MAPQ)
比對的質量;比對的質量分數,越高說明該read比對到參考基因組上的位置越准確

第六列:Compact Idiosyncratic Gapped Alignment Representation (CIGAR)
CIGAR 代表著簡要比對信息表達式,其以參考序列為基礎,使用數字加字母表示比對結果
例如 3S6M1P1I4M
前三個鹼基被剪切去除了,然後6個比對上了,然後打開了一 個缺口,有一個鹼基插入,最後是4個比對上了。

這里的總長度對應的就是測出來的一條序列的長度,如果是PE100,這里加起來就應該是100,如果是PE150,這里加起來就是150,這里的長度和第10列的長度是一致的

第七列:RNEXT
雙端測序中下一個reads比對的參考系列的名稱。「*」是完全沒有比對上,「=」代表完全比對

第3和第7列,可以用來判斷某條reads是否比對成功到了基因組的染色體,左右兩條reads是否比對到同一條染色體

第八列:PNEXT
如果是雙端測序,是指另一端匹配到參考基因組的位置,如果設置為0,那麼該列不可用

第九列:TLEN Template的長度
最左邊得為正,最右邊的為負,中間的不用定義正負,不分區段(single-segment)的比對上,或者不可用時,此處為0

區別於第6列和第10列是對應測出來的序列的長度。這里第9列的長度是對應插入片段的長度,insert size,也就是建庫時,將DNA片段打斷成的長度。

第十列:Sequence
序列片段的序列信息,如果不存儲此類信息,此處為』*『,注意CIGAR中M/I/S/=/X對應數字的和要等於序列長度;就是read的鹼基序列,如果是比對到互補鏈上則是reverse completed。
就是測序的reads序列信息

第十一列:ASCII
read質量值

其實很容易發現,如果將第1,10,11列提取出來的話,就能還原成我們常見的fastq格式信息。

第十二列:Optional fields
可選的區域
格式如:TAG:TYPE:VALUE,其中TAG有兩個大寫字母組成,每個TAG代表一類信息,每一行一個TAG只能出現一次,TYPE表示TAG對應值的類型,可以是字元串、整數、位元組、數組等。

備注
看一下KPGP-00001這個韓國人的測序reads比對到hg38的其中一個lane的sam格式部分信息:

可以看出這個是用的PE90測序,測序read長度為90bp,建庫打斷成約490bp,這個read名稱是B80KJTABXX:4:1:1404:2065#CTAGTTAT,flag值是163,代表著

reads是比對到7號染色體,比對的位置是50962731,比對的質量值是60,"90M"意味著90個鹼基都match(當然可能是mismatch),「=」意味著雙端測序的另一條read也比對上,並且是比對到同一個片段,另一條read比對的位置是
50963137 ,這條read的序列信息是「

對應質量值分ASCII值為「gggggecgaQ_`X``BBBBB 」

以上。

閱讀全文

與sam壓縮包相關的資料

熱點內容
dvd光碟存儲漢子演算法 瀏覽:757
蘋果郵件無法連接伺服器地址 瀏覽:963
phpffmpeg轉碼 瀏覽:672
長沙好玩的解壓項目 瀏覽:145
專屬學情分析報告是什麼app 瀏覽:564
php工程部署 瀏覽:833
android全屏透明 瀏覽:737
阿里雲伺服器已開通怎麼辦 瀏覽:803
光遇為什麼登錄時伺服器已滿 瀏覽:302
PDF分析 瀏覽:486
h3c光纖全工半全工設置命令 瀏覽:143
公司法pdf下載 瀏覽:382
linuxmarkdown 瀏覽:350
華為手機怎麼多選文件夾 瀏覽:683
如何取消命令方塊指令 瀏覽:350
風翼app為什麼進不去了 瀏覽:779
im4java壓縮圖片 瀏覽:362
數據查詢網站源碼 瀏覽:151
伊克塞爾文檔怎麼進行加密 瀏覽:893
app轉賬是什麼 瀏覽:163