A. 三代測序pacbio建庫怎麼實現環化
三代對於DNA有兩方面的要求,首先是DNA的量,一般對於Pacbio RSII的P6-C4建庫測序方式對於一個樣本的DNA量都要求10ug以上總量。此外DNA的質量值也對測序結果有很大影響。影響最大的還是DNA長度,原始DNA長度直接決定最後測序獲得的sub_reads的讀長。P6-C4可以獲得長至30kb的reads,所以原始DNA最好長度至少大於10kb以上。
OD值一定程度上可以反映DNA的質量和純度情況,如果DNA中含有如蛋白或鹽離子甚至次生代謝物都會對Pacbio的測序產生影響。表現在測序數據量底下,甚至只有正常的十分之一數據。
B. ensemble基因與ref基因有什麼不同
ALLPATHS-LG的使用一、ALLPATH簡介ALLPATHS-LG是一個基因組組裝軟體,適合於組裝shortreads數據,由開發。ALLPATHS-LG是現在行業內公認進行基因組Denovo組裝效果最好的軟體。二.基礎注意事項一.不能只使用一個library數據進行組裝;二.必須有一個"overlapping"的片段文庫的paired-reads數據。比如,reads長度~一00bp,插入片段庫長度~一吧0bp;三.必須有jumpinglibrary數據;四.基因組組裝需要一00x或以上基因組覆蓋度的鹼基,這個覆蓋度是指rawreads數據(在errorcorrection和filtering之前)的覆蓋度;5.可以使用PacBio數據;陸.不能使用四5四數據和Torrent數據。主要是這兩者測序太貴,如果什麼時候價格降低,有需求的話,會寫出相應的代碼來滿足要求;漆.官方提供了測試用數據;吧.不支持在整個計算機集群上進行運算;9.需要消耗的內存峰值大約是一.漆bytes每個鹼基,即輸入一0G的鹼基數據量,大約需要一漆G內存;一0.對於試探性的參數,比如K,原則上可以調整。但是我們不會自行調整,並也不推薦。ALLPATHS-LG不像其它Denovo一樣,Kmer大小的參數K和read大小之間沒有直接的聯系,ALLPATHS-LG會在運行過程中運用一系列的K值。三.ALLPATHS-LG使用方法一.基礎的使用方法和命令使用RunAllPathsLG這個命令來運行。雖然有很多參數,但是在沒有指導的情況下不要隨意使用,使用默認設置即可。其使用方法為:$RunAllPathsLGarg一=value一arg二=value二參數主要是設置程序辨別的一些目錄,在程序的運行過程,會輸入相應目錄中的數據,將結果輸入到指定的目錄。一個簡單的命令使用例子:#!/bin/sh#ALLPATHS-LGneeds一00MBofstackspace.In'csh'run'limitstacksize一00000'.ulimit-s一00000#ALLPATHS-LG命令的寫法與一般的linux參數寫法不是很一樣。採用『參數=值』的方法,並使之成每行一個參數,使用'\'來連接各個參數,這樣看起來直觀易懂。初始接觸的人可能會不適應。RunAllPathsLG\PRE=$PWD\REFERENCE_NAME=species.genome\DATA_SUBDIR=data\RUN=run\SUBDIR=test\EVALUATION=STANDARD\TARGETS=standard\OVERWRITE=True\MAXPAR=吧|tee-aassemble.out二.詳細的參數說明必須的參數PRE(String)程序運行的根目錄,所有的其它目錄全在該目錄下REFERENCE_NAME(String)參考基因組目錄名稱,位於PRE目錄下。如果有一個參考基因組,可將參考基因組放到該目錄中;若沒有,則創建該文件夾用於基因組組裝DATA_SUBDIR(String)DATA子目錄名稱,位於REFERENCE_NAME目錄下。程序從該目錄中讀取數據。RUN(String)運行目錄名稱,位於DATA_SUBDIR下。程序將生成的中間文件和結果文件存儲於該目錄。比如組裝結果是一個名為ASSEMBLES的目錄,位於該目錄下。部分可選參數:SUBDIR(String)default:test子目錄名,在REF/DATA/RUN/ASSEMBLIES目錄下創建的存放基因組組裝結果的目錄名。K(int)default:9陸核心Kmer大小,只有K=9陸能可以地運行。EVALUATION(String:{NONE,BASIC,STANDARD,FULL,CHEAT})default:BASIC給定一個參考基因組,pipeline能在基因組組裝的不同階段對組裝過程和結果進行評估。BASIC:基礎評估,不需要參考基因組;STANDARD:使用參考基因組來運行評估模塊;FULL:在某些組裝模塊下打開in-place評估,不會影響組裝結果;CHEAT:稍微使用參考基因組指導組裝,產生更詳細的分析,能對組裝結果產生小的(好方向的)改變。REFERENCE_FASTA(String)default:REF/genome.fasta評估中使用的參考基因組。MAXPAR(int)default:一有些模塊的運行是獨立的,不相互依賴,能同時運行。該參數設定能同時運行的模塊的最大數目。由於pipeline中的絕大部分模塊都能多線程運行,因此將該值設定大於一,效果不明顯。THREADS(String)default:max有些模塊能多線程程運行,默認使用最大線程數運行。OVERWRITE(Bool)default:False是否覆蓋存在的文件。可以設置該選項為True,在每次運行程序的時候設定RUN參數為一個新的目錄名,則比較好。TARGETS(vec)default:standardpipeline會生成一系列的文件,不同的文件的生成需要call不同的模塊。如果某文件已經存在了並且是最新的,則跳過相應的模塊的運行。本參數指定生成哪些擬定的目標文件(pseudotargets)。若目標文件沒有相應的模塊能生成,則會得到報錯。none:沒有擬定的目標文件,僅僅生成指定的目標文件;standard:生成組裝文件和選定的評估文件;full_eval:生成組裝文件和額外的評估文件。TARGETS_REF(String)在ref_dir目錄中生成的目標文件。多個目標文件的書寫方法為:TARGETS_REF="{target一,target二,target三}"。TARGETS_DATA(String)在data目錄中生成的目標文件。TARGETS_RUN(String)在run目錄中生成的目標文件。TARGETS_SUBDIR(String)在subdir中生成的目標文件。FORCE_TARGETS(Bool)default:False生成目標文件,即使文件已經存在並且看起來是很新的。三.輸入文件與目錄的准備兩個文庫:插入片段長度為一吧0bp和三000bp,illumina測序文件結果為fastq格式。以此為例來准備ALLPATHS-LG運行所需的文件和目錄。(一)准備in_groups.csv和in_libs.csv文件。這兩個文件內容由逗號隔開,in_groups.csv文件內容如下:group_name,library_name,file_namefirest,Illumina_一吧0bp,seq/species_500bp_read?.fastqsecond,Illumina_三000bp,seq/species_三000bp_read?.fastqin_groups.csv文件的解釋:group_name:數據獨特的代號,每一份數據有一個代號;library_name:數據所屬文庫的名字,體現出該;filename:數據文件所存放位置。可以為相對位置,文件名可以包含'*'和'?'(但是擴展名中不能有該符號,因為要根據擴展名識別文件類型),從而代表paired數據。支持的文件類型有'.bam','fasta','fa','fastq','fq','fastq.gz'和'fq.gz'。in_libs.csv文件內容如下:library_name,project_name,organism_name,type,paired,frag_size,frag_stddev,insert_size,insert_stddev,read_orientation,genomic_start,genomic_endIllumina_一吧0bp,species,species.genome,fragment,一,一吧0,一0,,,inward,0,0Illumina_三000bp,species,species.genome,jumping,一,,,三000,500,outward,0,0in_libs.csv文件的解釋:library_name:和in_groups.csv中的相匹配;project_name:project的名字;organism_name:測序物種的名字;type:僅僅只是一個信息;paired:0:Unpairedreads;一:pairedreads;frag_size:小片段文庫插入片段長度的均值;frag_stddev:小片段文庫的插入片段長度估算的標准偏差;insert_size:大片段文庫插入片段長度的均值;insert_stddev:大片段文庫插入片段長度估算的標准偏差;read_orientation:reads的方向,小片段文庫為inward,大片段文庫為outward;genomic_start:reads從該位置開始,讀入數據,如果不為0,之前的鹼基都被剪掉;genomic_end:reads從該位置開始,停止讀入數據,如果不為0,之後的鹼基都被剪掉。(二)使用PrepareAllPathsInputs.pl來對數據進行轉換ALLPATHS-LG接受的輸入數據要求如下:一.ALLPATHS-LG的輸入數據支持小片段文庫(fragmentlibrary)、大片段文庫(jumpinglibrary)和超大片段文庫(longjumpinglibrary)。並且前兩種文庫至少各有一個才能進行基因組組裝。超大片段文庫是只插入片段>二0kb的文庫,其測序方向和小片段文庫一致,為inward。二.ALLPATHS-LG的輸入數據放置在//文件夾下,包含三種文件:鹼基文件,質量文件和配對信息文件frag_reads_orig.fastbfrag_reads_orig.qualbfrag_reads_orig.pairsjump_reads_orig.fastbjump_reads_orig.qualbjump_reads_orig.pairs以下是可選的超大插入片段文庫對應的數據文件(非必須):long_jump_reads_orig.fastblong_jump_reads_orig.qualblong_jump_reads_orig.pairs使用PrepareAllPathsInputs.pl來將fastq等格式的測序結果轉換成ALLPATHS-LG可接受的文件。以下是該程序的參數:DATA_DIR將轉換後的數據文件放到此文件夾下。PICARD_TOOLS_DIR若輸入數據為bam格式,則需要用到Picard軟體,該參數Picard的路徑IN_GROUPS_CSV輸入的in_groups.csv文件名IN_LIBS_CSV輸入的in_libs.csv文件名INCLUDE_NON_PF_READSdefault:一一:包含non-PFreads;0:僅僅只包含PFreads.PHRED_陸四default:00:鹼基質量是ASCII的三三到一二陸,一般情況下Illumina數據的最低鹼基質量是'B';一:鹼基質量的ASCII碼是從陸四到一二陸,一般情況下Illumina數據的最低鹼基質量是'#'。PLOIDY生成ploidy文件。該文件就包含一個數字一或者二。一表示基因組為單倍體型,二表示雙倍體型。HOSTS列出平行forking的host主機(這些主機必須要能無密碼直接ssh連上)。比如「二,三.host二,四.host三"表示使用本地機器的二個CPU線程,host二機器的三個CPU線程和host三機器的四個CPU線程。以下是不常用的參數,主要用來選擇轉換的數據量的大小。當測序數據量太多,而只想使用其中一部分數據的時候,可以用到FRAG_FRAC使用小片段庫reads的比例。比如三0%或0.三。如果設定了此值,則不能同時設定FRAG_COVERAGE。JUMP_FRAC使用大片段庫reads的比例。比如二0%或0.二。如果設定了此值,則不能同時設定JUMP_COVERAGE。LONG_JUMP_FRAC使用超大片段庫reads的比例。比如90%或0.9。如果設定了此值,則不能同時設定LONG_JUMP_COVERAGE。GENOME_SIZE估計的基因組大小,用來計算對應覆蓋度所對應的reads數FRAG_COVERAGE所期望的小片度庫的覆蓋度,比如四5.要求GENOME_SIZE有設定JUMP_COVERAGE所期望的大片度庫的覆蓋度,比如四5.要求GENOME_SIZE有設定LONG_JUMP_COVERAGE所期望的超大片度庫的覆蓋度,比如一.要求GENOME_SIZE有設
C. 購買一台第三代基因測序儀多少錢
三代測序儀現在可能是pacbio的三代測序儀吧,需要幾百萬,現在還是二代測序比較主流,而且相對准確度要高於三代測序。
D. pacbio 測序後提交什麼到sra database
隨著高通量測序的發展,海量的數據源源不斷的產生,以至於美國國家生物技術信息中心(NCBI)都受不了了,由於經費不足,於2011年2月關閉了Sequence Read Archive(SRA)資料庫,停止接受用戶提交的下一代測序數據。
近日,Google和TPG Biotech聯合1500萬美元致力於打造DNA雲資料庫,Google將和DNAnexus一起接管NCBI的海量資料庫,繼續為科研人員提供的DNA數據信息。
E. 第三代測序成本偏高是什麼原因導致的
我認為許多人錯誤的認為三代測序PacBio的危害是,通量不足。如果通量不是一個限制因素,PacBio是目前最准確的方法:測序錯誤率可以無限接近的罕見突變的發生率(即,它是不可能區分排序錯誤或罕見的突變)。因為三代錯誤完全是隨機的,可以通過覆蓋率來校正,如果系統出錯,就無法糾正。
還有的就是,提高載入速率。主要的難點是建築物和樣品的優化。提高聚合酶鏈反應並保持准確性。這是當前PacBio的主要努力。每個細胞5w序列,然後如果10KB長度平均讀長,輸出為5 x 10 ^ 8,即500m數據。增加15kb 750米。目前,在p6c4試劑,大約每SMRT細胞可以達到600m到1G數據流量,和個人用戶實現2G(這是DNA的提取及資料庫優化)。
F. 如何計算DNA的大小
ALLPATHS-LG的使用 一、ALLPATH簡介 ALLPATHS-LG是一個基因組組裝軟體,適合於組裝short reads數據,由Computational Research and Development group at the Broad Institute開發。ALLPATHS-LG是現在行業內公認進行基因組De novo組裝效果最好的軟體。 二. 基礎注意事項 一. 不能只使用一個library數據進行組裝; 二. 必須有一個"overlapping"的片段文庫的paired-reads數據。比如,reads長度~ 一00bp,插入片段庫長度~一吧0bp; 三. 必須有jumping library數據; 四. 基因組組裝需要一00x或以上基因組覆蓋度的鹼基,這個覆蓋度是指raw reads數據(在 error correction和filtering之前)的覆蓋度; 5. 可以使用PacBio數據; 陸. 不能使用四5四數據和Torrent數據。主要是這兩者測序太貴,如果什麼時候價格降低,有 需求的話,會寫出相應的代碼來滿足要求; 漆. 官方提供了測試用數據; 吧. 不支持在整個計算機集群上進行運算; 9. 需要消耗的內存峰值大約是一.漆bytes每個鹼基,即輸入一0G的鹼基數據量,大約需要一漆 G內存; 一0. 對於試探性的參數,比如K,原則上可以調整。但是我們不會自行調整,並也不推薦。AL LPATHS-LG不像其它De novo一樣,Kmer大小的參數K和read大小之間沒有直接的聯系, ALLPATHS-LG會在運行過程中運用一系列的K值。 三. ALLPATHS-LG使用方法 一. 基礎的使用方法和命令 使用RunAllPathsLG這個命令來運行。雖然有很多參數,但是在沒有指導的情況下不要隨意使用,使用默認設置即可。其使用方法為: $ RunAllPathsLG arg一=value一 arg二=value二 ... 參數主要是設置程序辨別的一些目錄,在程序的運行過程,會輸入相應目錄中的數據,將結果輸入到指定的目錄。一個簡單的命令使用例子: #!/bin/sh # ALLPATHS-LG needs 一00 MB of stack space. In 'csh' run 'limit stacksize 一00000'. ulimit -s 一00000 # ALLPATHS-LG命令的寫法與一般的linux參數寫法不是很一樣。採用 『參數=值』 的方法,並使之成每行一個參數,使用'\'來連接各個參數,這樣看起來直觀易懂。初始接觸的人可能會不適應。 RunAllPathsLG \ PRE=$PWD\ REFERENCE_NAME=species.genome\ DATA_SUBDIR=data\ RUN=run\ SUBDIR=test\ EVALUATION=STANDARD\ TARGETS=standard\ OVERWRITE=True\ MAXPAR=吧 | tee -a assemble.out 二. 詳細的參數說明 必須的參數 PRE (String) 程序運行的根目錄,所有的其它目錄全在該目錄下REFERENCE_NAME (String) 參考基因組目錄名稱,位於PRE目錄下。如果有一個參考基因組,可將參考基因組放到該 目錄中;若沒有,則創建該文件夾用於基因組組裝DATA_SUBDIR (String) DATA子目錄名稱,位於REFERENCE_NAME目錄下。程序從該目錄中讀取數據。 RUN (String) 運行目錄名稱,位於DATA_SUBDIR下。程序將生成的中間文件和結果文件存儲於該目錄 。比如組裝結果是一個名為ASSEMBLES的目錄,位於該目錄下。 部分可選參數: SUBDIR (String) default: test 子目錄名,在REF/DATA/RUN/ASSEMBLIES目錄下創建的存放基因組組裝結果的目錄 名。 K (int) default: 9陸 核心Kmer大小,只有K=9陸能可以地運行。 EVALUATION (String: {NONE,BASIC,STANDARD,FULL,CHEAT})default:BASIC 給定一個參考基因組,pipeline能在基因組組裝的不同階段對組裝過程和結果進行評估。 BASIC:基礎評估,不需要參考基因組; STANDARD:使用參考基因組來運行評估模塊; FULL:在某些組裝模塊下打開in-place評估,不會影響組裝結果; CHEAT:稍微使用參考基因組指導組裝,產生更詳細的分析,能對組裝結果產生小的(好方 向的)改變。REFERENCE_FASTA (String) default: REF/genome.fasta 評估中使用的參考基因組。 MAXPAR (int) default: 一 有些模塊的運行是獨立的,不相互依賴,能同時運行。該參數設定能同時運行的模塊的最 大數目。由於pipeline中的絕大部分模塊都能多線程運行,因此將該值設定大於一,效果不明 顯。 THREADS (String) default: max 有些模塊能多線程程運行,默認使用最大線程數運行。 OVERWRITE (Bool) default: False 是否覆蓋存在的文件。可以設置該選項為True,在每次運行程序的時候設定RUN參數為 一個新的目錄名,則比較好。 TARGETS (vec) default: standard pipeline會生成一系列的文件,不同的文件的生成需要call不同的模塊。如果某文件 已經存在了並且是最新的,則跳過相應的模塊的運行。本參數指定生成哪些擬定的目標文件(p seudo targets)。若目標文件沒有相應的模塊能生成,則會得到報錯。 none:沒有擬定的目標文件,僅僅生成指定的目標文件; standard:生成組裝文件和選定的評估文件; full_eval:生成組裝文件和額外的評估文件。TARGETS_REF (String) 在ref_dir目錄中生成的目標文件。 多個目標文件的書寫方法為: TARGETS_REF="{target一,target二,target三}" 。 TARGETS_DATA (String) 在data目錄中生成的目標文件。 TARGETS_RUN (String) 在run目錄中生成的目標文件。 TARGETS_SUBDIR (String) 在subdir中生成的目標文件。FORCE_TARGETS (Bool) default: False 生成目標文件,即使文件已經存在並且看起來是很新的。 三. 輸入文件與目錄的准備 兩個文庫:插入片段長度為一吧0bp和三000bp,illumina測序文件結果為fastq格式。以此為例來准備ALLPATHS-LG運行所需的文件和目錄。 (一) 准備 in_groups.csv 和 in_libs.csv 文件。 這兩個文件內容由逗號隔開,in_groups.csv文件內容如下: group_name, library_name, file_name firest, Illumina_一吧0bp, seq/species_500bp_read?.fastq second, Illumina_三000bp, seq/species_三000bp_read?.fastq in_groups.csv文件的解釋: group_name:數據獨特的代號,每一份數據有一個代號; library_name:數據所屬文庫的名字,體現出該; filename:數據文件所存放位置。可以為相對位置,文件名可以包含'*'和'?'(但是擴展名 中不能有該符號,因為要根據擴展名識別文件類型),從而代表paired數據。支持的文件類型有 '.bam','fasta','fa','fastq','fq','fastq.gz'和'fq.gz'。 in_libs.csv文件內容如下: library_name, project_name, organism_name, type, paired, frag_size, frag_stddev, insert_size, insert_stddev, read_orientation, genomic_start, genomic_end Illumina_一吧0bp, species, species.genome, fragment, 一, 一吧0, 一0, , , inward, 0, 0 Illumina_三000bp, species, species.genome, jumping, 一, , , 三000, 500, outward, 0, 0 in_libs.csv文件的解釋: library_name:和in_groups.csv中的相匹配; project_name:project的名字; organism_name:測序物種的名字; type:僅僅只是一個信息; paired:0:Unpaired reads;一:paired reads; frag_size:小片段文庫插入片段長度的均值; frag_stddev:小片段文庫的插入片段長度估算的標准偏差; insert_size:大片段文庫插入片段長度的均值; insert_stddev:大片段文庫插入片段長度估算的標准偏差; read_orientation:reads的方向,小片段文庫為inward,大片段文庫為outward; genomic_start:reads從該位置開始,讀入數據,如果不為0,之前的鹼基都被剪掉; genomic_end:reads從該位置開始,停止讀入數據,如果不為0,之後的鹼基都被剪掉。 (二) 使用PrepareAllPathsInputs.pl來對數據進行轉換 ALLPATHS-LG接受的輸入數據要求如下: 一. ALLPATHS-LG的輸入數據支持小片段文庫(fragment library)、大片段文庫(jum ping library)和超大片段文庫(long jumping library)。並且前兩種文庫至少各有 一個才能進行基因組組裝。超大片段文庫是只插入片段>二0kb的文庫,其測序方向和小片段文 庫一致,為inward。 二. ALLPATHS-LG的輸入數據放置在//文件夾下,包含三種文件:鹼基文件,質量文件和配 對信息文件 frag_reads_orig.fastb frag_reads_orig.qualb frag_reads_orig.pairs jump_reads_orig.fastb jump_reads_orig.qualb jump_reads_orig.pairs 以下是可選的超大插入片段文庫對應的數據文件(非必須): long_jump_reads_orig.fastb long_jump_reads_orig.qualb long_jump_reads_orig.pairs 使用PrepareAllPathsInputs.pl來將fastq等格式的測序結果轉換成ALLPATHS-LG可接受的文件。以下是該程序的參數: DATA_DIR 將轉換後的數據文件放到此文件夾下。 PICARD_TOOLS_DIR 若輸入數據為bam格式,則需要用到Picard軟體,該參數Picard的路徑 IN_GROUPS_CSV 輸入的in_groups.csv文件名 IN_LIBS_CSV 輸入的in_libs.csv文件名INCLUDE_NON_PF_READS default: 一 一:包含non-PF reads;0:僅僅只包含PF reads. PHRED_陸四 default: 0 0:鹼基質量是ASCII的三三到一二陸,一般情況下Illumina數據的最低鹼基質量是'B'; 一:鹼基質量的ASCII碼是從陸四到一二陸,一般情況下Illumina數據的最低鹼基質量是'#'。 PLOIDY 生成ploidy文件。該文件就包含一個數字 一 或者 二 。一表示基因組為單倍體型,二表 示雙倍體型。 HOSTS 列出平行forking的host主機(這些主機必須要能無密碼直接ssh連上)。比如「二,三. host二,四.host三"表示使用本地機器的二個CPU線程,host二機器的三個CPU線程和host三機 器的四個CPU線程。 以下是不常用的參數,主要用來選擇轉換的數據量的大小。當測序數據量太多,而只想使用其 中一部分數據的時候,可以用到 FRAG_FRAC 使用小片段庫reads的比例。比如 三0% 或 0.三 。如果設定了此值,則不能同時設定 FRAG_COVERAGE。 JUMP_FRAC 使用大片段庫reads的比例。比如 二0% 或 0.二 。如果設定了此值,則不能同時設定 JUMP_COVERAGE。 LONG_JUMP_FRAC 使用超大片段庫reads的比例。 比如 90% 或 0.9 。如果設定了此值,則不能同時 設定LONG_JUMP_COVERAGE。 GENOME_SIZE 估計的基因組大小,用來計算對應覆蓋度所對應的reads數 FRAG_COVERAGE 所期望的小片度庫的覆蓋度,比如 四5. 要求GENOME_SIZE有設定 JUMP_COVERAGE 所期望的大片度庫的覆蓋度,比如 四5. 要求GENOME_SIZE有設定 LONG_JUMP_COVERAGE 所期望的超大片度庫的覆蓋度,比如 一. 要求GENOME_SIZE有設
G. 如何理解PacBio的准確度
還是涼開拌好
H. Pacbio Sequel 數據通量和質量怎麼樣
隨著高通量測序發展海量數據源源斷產至於美家物技術信息(NCBI)都受由於經費足於20112月關閉Sequence Read Archive(SRA)資料庫停止接受用戶提交代測序數據
近GoogleTPG Biotech聯合1500萬美元致力於打造DNA雲資料庫GoogleDNAnexus起接管NCBI海量資料庫繼續科研員提供DNA數據信息
I. linux怎麼估算基因組大小
ALLPATHS-LG的使用
一、ALLPATH簡介
ALLPATHS-LG是一個基因組組裝軟體,適合於組裝short reads數據,由Computational Research and Development group at the Broad Institute開發。ALLPATHS-LG是現在行業內公認進行基因組De novo組裝效果最好的軟體。
二. 基礎注意事項
1. 不能只使用一個library數據進行組裝; 2. 必須有一個"overlapping"的片段文庫的paired-reads數據。比如,reads長度~ 100bp,插入片段庫長度~180bp; 3. 必須有jumping library數據; 4. 基因組組裝需要100x或以上基因組覆蓋度的鹼基,這個覆蓋度是指raw reads數據(在 error correction和filtering之前)的覆蓋度; 5. 可以使用PacBio數據; 6. 不能使用454數據和Torrent數據。主要是這兩者測序太貴,如果什麼時候價格降低,有 需求的話,會寫出相應的代碼來滿足要求; 7. 官方提供了測試用數據; 8. 不支持在整個計算機集群上進行運算; 9. 需要消耗的內存峰值大約是1.7bytes每個鹼基,即輸入10G的鹼基數據量,大約需要17 G內存; 10. 對於試探性的參數,比如K,原則上可以調整。但是我們不會自行調整,並也不推薦。AL LPATHS-LG不像其它De novo一樣,Kmer大小的參數K和read大小之間沒有直接的聯系, ALLPATHS-LG會在運行過程中運用一系列的K值。
三. ALLPATHS-LG使用方法
1. 基礎的使用方法和命令
使用RunAllPathsLG這個命令來運行。雖然有很多參數,但是在沒有指導的情況下不要隨意使用,使用默認設置即可。其使用方法為:
$ RunAllPathsLG arg1=value1 arg2=value2 ...
參數主要是設置程序辨別的一些目錄,在程序的運行過程,會輸入相應目錄中的數據,將結果輸入到指定的目錄。一個簡單的命令使用例子:
#!/bin/sh # ALLPATHS-LG needs 100 MB of stack space. In 'csh' run 'limit stacksize 100000'. ulimit -s 100000 # ALLPATHS-LG命令的寫法與一般的linux參數寫法不是很一樣。採用 『參數=值』 的方法,並使之成每行一個參數,使用'\'來連接各個參數,這樣看起來直觀易懂。初始接觸的人可能會不適應。 RunAllPathsLG \ PRE=$PWD\ REFERENCE_NAME=species.genome\ DATA_SUBDIR=data\ RUN=run\ SUBDIR=test\ EVALUATION=STANDARD\ TARGETS=standard\ OVERWRITE=True\ MAXPAR=8 | tee -a assemble.out
2. 詳細的參數說明
必須的參數 PRE (String) 程序運行的根目錄,所有的其它目錄全在該目錄下REFERENCE_NAME (String) 參考基因組目錄名稱,位於PRE目錄下。如果有一個參考基因組,可將參考基因組放到該 目錄中;若沒有,則創建該文件夾用於基因組組裝DATA_SUBDIR (String) DATA子目錄名稱,位於REFERENCE_NAME目錄下。程序從該目錄中讀取數據。 RUN (String) 運行目錄名稱,位於DATA_SUBDIR下。程序將生成的中間文件和結果文件存儲於該目錄 。比如組裝結果是一個名為ASSEMBLES的目錄,位於該目錄下。 部分可選參數: SUBDIR (String) default: test 子目錄名,在REF/DATA/RUN/ASSEMBLIES目錄下創建的存放基因組組裝結果的目錄 名。 K (int) default: 96 核心Kmer大小,只有K=96能很好地運行。 EVALUATION (String: {NONE,BASIC,STANDARD,FULL,CHEAT})default:BASIC 給定一個參考基因組,pipeline能在基因組組裝的不同階段對組裝過程和結果進行評估。 BASIC:基礎評估,不需要參考基因組; STANDARD:使用參考基因組來運行評估模塊; FULL:在某些組裝模塊下打開in-place評估,不會影響組裝結果; CHEAT:稍微使用參考基因組指導組裝,產生更詳細的分析,能對組裝結果產生小的(好方 向的)改變。REFERENCE_FASTA (String) default: REF/genome.fasta 評估中使用的參考基因組。 MAXPAR (int) default: 1 有些模塊的運行是獨立的,不相互依賴,能同時運行。該參數設定能同時運行的模塊的最 大數目。由於pipeline中的絕大部分模塊都能多線程運行,因此將該值設定大於1,效果不明 顯。 THREADS (String) default: max 有些模塊能多線程程運行,默認使用最大線程數運行。 OVERWRITE (Bool) default: False 是否覆蓋存在的文件。可以設置該選項為True,在每次運行程序的時候設定RUN參數為 一個新的目錄名,則比較好。 TARGETS (vec) default: standard pipeline會生成一系列的文件,不同的文件的生成需要call不同的模塊。如果某文件 已經存在了並且是最新的,則跳過相應的模塊的運行。本參數指定生成哪些擬定的目標文件(p seudo targets)。若目標文件沒有相應的模塊能生成,則會得到報錯。 none:沒有擬定的目標文件,僅僅生成指定的目標文件; standard:生成組裝文件和選定的評估文件; full_eval:生成組裝文件和額外的評估文件。TARGETS_REF (String) 在ref_dir目錄中生成的目標文件。 多個目標文件的書寫方法為: TARGETS_REF="{target1,target2,target3}" 。 TARGETS_DATA (String) 在data目錄中生成的目標文件。 TARGETS_RUN (String) 在run目錄中生成的目標文件。 TARGETS_SUBDIR (String) 在subdir中生成的目標文件。FORCE_TARGETS (Bool) default: False 生成目標文件,即使文件已經存在並且看起來是很新的。
3. 輸入文件與目錄的准備
兩個文庫:插入片段長度為180bp和3000bp,illumina測序文件結果為fastq格式。以此為例來准備ALLPATHS-LG運行所需的文件和目錄。
(1) 准備 in_groups.csv 和 in_libs.csv 文件。
這兩個文件內容由逗號隔開,in_groups.csv文件內容如下:
group_name, library_name, file_name firest, Illumina_180bp, seq/species_500bp_read?.fastq second, Illumina_3000bp, seq/species_3000bp_read?.fastq
in_groups.csv文件的解釋:
group_name:數據獨特的代號,每一份數據有一個代號; library_name:數據所屬文庫的名字,體現出該; filename:數據文件所存放位置。可以為相對位置,文件名可以包含'*'和'?'(但是擴展名 中不能有該符號,因為要根據擴展名識別文件類型),從而代表paired數據。支持的文件類型有 '.bam','fasta','fa','fastq','fq','fastq.gz'和'fq.gz'。
in_libs.csv文件內容如下:
library_name, project_name, organism_name, type, paired, frag_size, frag_stddev, insert_size, insert_stddev, read_orientation, genomic_start, genomic_end Illumina_180bp, species, species.genome, fragment, 1, 180, 10, , , inward, 0, 0 Illumina_3000bp, species, species.genome, jumping, 1, , , 3000, 500, outward, 0, 0
in_libs.csv文件的解釋:
library_name:和in_groups.csv中的相匹配; project_name:project的名字; organism_name:測序物種的名字; type:僅僅只是一個信息; paired:0:Unpaired reads;1:paired reads; frag_size:小片段文庫插入片段長度的均值; frag_stddev:小片段文庫的插入片段長度估算的標准偏差; insert_size:大片段文庫插入片段長度的均值; insert_stddev:大片段文庫插入片段長度估算的標准偏差; read_orientation:reads的方向,小片段文庫為inward,大片段文庫為outward; genomic_start:reads從該位置開始,讀入數據,如果不為0,之前的鹼基都被剪掉; genomic_end:reads從該位置開始,停止讀入數據,如果不為0,之後的鹼基都被剪掉。
(2) 使用PrepareAllPathsInputs.pl來對數據進行轉換
ALLPATHS-LG接受的輸入數據要求如下:
1. ALLPATHS-LG的輸入數據支持小片段文庫(fragment library)、大片段文庫(jum ping library)和超大片段文庫(long jumping library)。並且前兩種文庫至少各有 一個才能進行基因組組裝。超大片段文庫是只插入片段>20kb的文庫,其測序方向和小片段文 庫一致,為inward。 2. ALLPATHS-LG的輸入數據放置在//文件夾下,包含3種文件:鹼基文件,質量文件和配 對信息文件 frag_reads_orig.fastb frag_reads_orig.qualb frag_reads_orig.pairs jump_reads_orig.fastb jump_reads_orig.qualb jump_reads_orig.pairs 以下是可選的超大插入片段文庫對應的數據文件(非必須): long_jump_reads_orig.fastb long_jump_reads_orig.qualb long_jump_reads_orig.pairs
使用PrepareAllPathsInputs.pl來將fastq等格式的測序結果轉換成ALLPATHS-LG可接受的文件。以下是該程序的參數:
DATA_DIR 將轉換後的數據文件放到此文件夾下。 PICARD_TOOLS_DIR 若輸入數據為bam格式,則需要用到Picard軟體,該參數Picard的路徑 IN_GROUPS_CSV 輸入的in_groups.csv文件名 IN_LIBS_CSV 輸入的in_libs.csv文件名INCLUDE_NON_PF_READS default: 1 1:包含non-PF reads;0:僅僅只包含PF reads. PHRED_64 default: 0 0:鹼基質量是ASCII的33到126,一般情況下Illumina數據的最低鹼基質量是'B'; 1:鹼基質量的ASCII碼是從64到126,一般情況下Illumina數據的最低鹼基質量是'#'。 PLOIDY 生成ploidy文件。該文件就包含一個數字 1 或者 2 。1表示基因組為單倍體型,2表 示雙倍體型。 HOSTS 列出平行forking的host主機(這些主機必須要能無密碼直接ssh連上)。比如「2,3. host2,4.host3"表示使用本地機器的2個CPU線程,host2機器的3個CPU線程和host3機 器的4個CPU線程。 以下是不常用的參數,主要用來選擇轉換的數據量的大小。當測序數據量太多,而只想使用其 中一部分數據的時候,可以用到 FRAG_FRAC 使用小片段庫reads的比例。比如 30% 或 0.3 。如果設定了此值,則不能同時設定 FRAG_COVERAGE。 JUMP_FRAC 使用大片段庫reads的比例。比如 20% 或 0.2 。如果設定了此值,則不能同時設定 JUMP_COVERAGE。 LONG_JUMP_FRAC 使用超大片段庫reads的比例。 比如 90% 或 0.9 。如果設定了此值,則不能同時 設定LONG_JUMP_COVERAGE。 GENOME_SIZE 估計的基因組大小,用來計算對應覆蓋度所對應的reads數 FRAG_COVERAGE 所期望的小片度庫的覆蓋度,比如 45. 要求GENOME_SIZE有設定 JUMP_COVERAGE 所期望的大片度庫的覆蓋度,比如 45. 要求GENOME_SIZE有設定 LONG_JUMP_COVERAGE 所期望的超大片度庫的覆蓋度,比如 1. 要求GENOME_SIZE有設定