設計 任務書 論文 開題 答辯 說明書 格式 模板 外文 翻譯 范文 資料 作品 文獻 課程 實習 指導 調研 下載 網絡教育 計算機 網站 網頁 小程序 商城 購物 訂餐 電影 安卓 Android Html Html5 SSM SSH Python 爬蟲 大數據 管理系統 圖書 校園網 考試 選題 網絡安全 推薦系統 機械 模具 夾具 自動化 數控 車床 汽車 故障 診斷 電機 建模 機械手 去殼機 千斤頂 變速器 減速器 圖紙 電氣 變電站 電子 Stm32 單片機 物聯網 監控 密碼鎖 Plc 組態 控制 智能 Matlab 土木 建筑 結構 框架 教學樓 住宅樓 造價 施工 辦公樓 給水 排水 橋梁 剛構橋 水利 重力壩 水庫 采礦 環境 化工 固廢 工廠 視覺傳達 室內設計 產品設計 電子商務 物流 盈利 案例 分析 評估 報告 營銷 報銷 會計
                   首 頁 機械畢業設計 電子電氣畢業設計 計算機畢業設計 土木工程畢業設計 視覺傳達畢業設計 理工論文 文科論文 畢設資料 幫助中心 設計流程 
                  墊片
                  您現在所在的位置:首頁 >>理工論文 >> 文章內容
                                   
                  墊片
                     我們提供全套畢業設計和畢業論文服務,聯系點擊這里給我發消息   914298682   
                  Apache SKAP分布式計算框架概述
                  文章來源:www.freehotlive.com   發布者:學生畢業作品網站  

                  在本文中,我們提出了一個增強到Apache SKAP,這是一個分布式計算框架,以適應高效的SQL查詢基因組數據集。雖然可以使用現有技術導入基因組數據集作為SQL表,但這些技術對常見基因組查詢的較差性能使它們成為下一代測序(NGS)數據的用戶中的一個不吸引人的選擇。

                  隨著測序成本的下降,越來越多的研究中心投入大量的測序項目,目的是建立成千上萬個基因組的龐大數據庫及其相關的表型特征。例如,俄勒岡健康與科學大學(OHSU)和多發性骨髓瘤基金會(MMRF)分別對1000例急性髓系白血。ˋML)和多發性骨髓瘤患者進行測序(1, 2)。在另一個例子中,國際癌癥基因組聯盟(ICGC)〔3〕正在對25000對腫瘤和正常樣本進行測序,以編目50種不同癌癥類型的遺傳異常。每一個全基因組測序與Illumina的技術運行產生超過200 GB的數據。

                  獲取這些數據,盡管對癌癥治療的進展至關重要,但對于研究人員和數據科學家來說仍然是一個挑戰。

                  今天有兩個層次的數據訪問:一個頂部和底層。頂層涉及從存檔中下載FASQ、BAM或VCF文件,如SRA〔4〕或CGHUB〔5〕,其中包含來自一個人或一個群體的排序的讀取或變體。盡管這些檔案利用了文件共享技術的技術來減少在因特網上的文件傳輸延遲——正如CGHUB使用GeEnTrOrn(6)的情況一樣,需要傳輸的文件的大小使得下載速度變慢。例如,在100 Mbps因特網鏈路上下載具有60X覆蓋全基因組測序(WGS)的250 GB BAM需要8小時。另一方面,底層涉及下載數據的子集的提取。用戶要么從頭開始開發軟件來導航數據,要么使用shell腳本結合VCFoToS、SAMoTo工具和BEAToO刀的命令進行組合。這種做法在數據和用戶之間增加了一層復雜性,原因有三:

                  1。必須創建腳本來分析這些實驗

                  2。它要求用戶在分布式環境中手動執行這些工具的執行,以適應日益增長的生成數據。

                  三。它通過創建用于轉換文件的中間文件來創建存儲開銷。

                  假設基因組數據以萬億字節和字節字節的順序駐留在分布式環境中(如7),我們建議更有效地替代兩層數據訪問是分布式數據檢索引擎。頂部接入層上的這樣的接口可以通過消除網絡流量和在用戶端進行二級處理的需要來提供按需數據。即使基因組數據庫的擁有者不愿意提供這樣的特征,數據檢索接口仍然對底層用戶的生產率有幫助。有了這樣的接口,最終用戶就不用擔心腳本的方式來檢索和比較來自不同來源的數據集(如原始讀取、變體和注釋數據)的數據。

                  在這項工作中,我們使用SPACK SQL,它是Apache Skine(8)框架的分布式SQL執行引擎。SCAPK是一種用戶友好的高性能框架,它抽象了對象的分布式集合,它提供了大約80個操作符,它們可以通過OPER來映射這些對象,例如MAP、過濾器和GROMPBY,或者通過操作符對它們進行操作,例如,減少、計數和每一個。SARK在主從架構中組織一個集群,其中驅動程序(即,主)執行主程序,并將代碼傳遞給工人(即奴隸),以執行它們所包含的分布式對象的那些部分。

                  數據模型

                  在這項工作中,我們假設所有的基因組數據是亞當格式。亞當(9, 10)是一個開源軟件,它將基因組信息從其底層表示分離出來,目前被用作NIH BD2K翻譯基因組學大數據中心的主要計算平臺[7 ]。這樣的分離消除了數據用戶如何表示數據的負擔。因此,亞當用戶可以在不需要解析復雜文件的情況下對分布式存儲進行操作,因為亞當支持并替換了目前由傳統FASQ、BAM和VCF格式表示的所有級別的基因組數據。

                  亞當記錄由以友好的基于列的格式存儲的可序列化對象組成。它使用Apache AVro(11)作為數據序列化系統,它依賴于模式并將它們與數據一起存儲。使用Apache Pald[ 12 ]系統存儲序列化數據,該系統是基于谷歌Delmi耳(13)的柱狀存儲系統。實木地板通過對記錄序列進行分組來創建存儲塊,并依次存儲每個塊的所有列。最后,假定實木地板提供了對Hadoop文件系統(HDFS)的寫入和讀取的內置支持,亞當透明地支持在HDFS上構建的分布式環境。

                  SpultSQL完全識別實木拼盤文件,并因此將亞當文件作為關系表,也推斷出它們的模式。這允許用戶從Sql SQL本地查詢亞當文件。

                  問題

                  雖然SCAPK SQL提供了令人印象深刻的表達能力,因此它可以執行任何基因組查詢,但是它的查詢基因組數據的主要障礙是它在兩個最經常遇到的查詢上的慢性能:1)隨機范圍選擇,和2)與間隔鍵連接。在一個對齊的讀取集合中,隨機范圍的選擇花費了幾分鐘的時間在一個小的集群中運行,這是非常困難的,因為SAMDoTS只需要幾秒鐘。幸運的是,我們使用的開源庫(特別是亞當文件所依賴的PoPoice和其API Spice SQL用于它們的過濾)的快速演進改進了這些查詢的執行順序,如我們在結果部分中所示。關于兩個表之間的間隔連接的執行,StaskSQL在其交叉產品上使用了明顯的過濾執行。然而,考慮到基因組數據所涉及的大小,這樣的方法是不現實的。例如,如果我們考慮10億個對齊的讀取與100萬個變體之間的間隔連接,它們之間的交叉積是1015個記錄,并且計算是非常緩慢的。

                  本文的貢獻解決了第二個性能瓶頸:加入區間密鑰。我們提出了一個修改SCAPK SQL,提高了間隔連接的效率,從而使它適合查詢基因組數據。為此,我們使用間隔樹來間隔在分布式設置中加入兩個表。

                  相關工作

                  訪問基因組數據的第一代工具涉及諸如SAMOToS[14 ]、VCFToo[[ 15 ] ]、BAMToo[ 16 ]和BEDoToo[ 17 ]之類的包。雖然功能強大,但這些工具需要廣泛的編程技術來打開和解析不同格式的文件、分配緩沖區和操作各種字段。此外,考慮到這些工具對單節點計算性能進行優化,用戶需要在分布式環境中手動并行化它們。

                  第二代相關軟件涉及基因組查詢語言(GQL)(18),它通過SQL類接口提供基因組數據收集的干凈抽象。然而,GQL的支持僅限于對整個山姆規范的一小部分字段的查詢,并且還需要額外的人工努力來支持分布式環境。

                  第三代利用Hadoop生態系統來輕松地提供分布式環境下的數據需求。例如,基因計量查詢語言(GMQL)〔19〕使用Apache PHOG,它是抽象地圖縮減操作的高級語言,以支持元數據管理和變量和注釋數據之間的查詢。在另一個例子中,NeXBIO(20)使用HASBASE(Hadoop的NoSQL關鍵值存儲)來支持類似性質的數據。然而,這些工具的范圍不包括FASQ或BAM格式中的原始數據。

                  實施

                  本節介紹了如何修改SCASTSQL以增加對基于范圍的連接的支持。修改的第一步涉及SCAPQSQL的語法,我們擴展了語法以簡化這些查詢的語法。接下來,在描述我們對SARK SQL執行引擎的修改之前,我們提供了該修改使用的間隔樹和間隔林數據結構的簡要描述。

                  句法

                  雖然SCALL SQL的現有語法足以滿足用戶在間隔重疊條件下描述兩個表之間的連接,但對于常規使用該操作的基因組集合的用戶來說,它看起來復雜和違反直覺。如果我們考慮表A(ASTAR:LUN,AUD:LUN,ACHR:String)和B(BSTAR:Load,Detri:Burn:BCHR:String),那么根據String SQL的當前語法,一個間隔連接看起來如下:

                  SELECT ∗ FROM A JOIN B ON ( aChr = bChr AND a S ta r t < aEnd AND b S ta r t < bEnd AND ( aStart < bStart AND aEnd > bStart OR bStart < aStart AND bEnd > aStart ) )

                  為了消除這種頻繁操作的復雜性,我們用兩個額外的關鍵字,即RangeJoin和Geang-Meple來增強SARKSQL的詞匯。在基于間隔的連接的情況下,前者關鍵字替換聯接,后者以兩個元組為參數,指定重疊條件,并且是ON條件的唯一參數。

                  使用這些新關鍵字,可以將前面示例的查詢鍵入如下:

                  SELECT ∗ FROM A RANGEJOIN B ON GENOMEOVERLAP( ( aS tar t , aEnd , aChr ) , ( bS ta r t , bEnd , bChr ) )

                  區間樹

                  連接評估中最昂貴的部分涉及搜索兩個區間數組之間的重疊。我們的實現利用區間樹數據結構,它是從O(n log n)時間中的N個區間的集合構建的二叉樹,并且需要O(log n)時間來找到其集合的哪個間隔與給定的查詢間隔重疊。注意,同一操作的SurvivSQL使用最新的強制執行需要二次時間。

                  在這一點上,我們提醒感興趣的讀者如何構建和搜索區間樹。

                  樹的每個節點包含兩個對象。第一個是鍵,它是存儲在子樹中的間隔集合的中間點,該子樹是根植在節點上的。第二個對象是包含與鍵重疊的那些間隔的重疊列表。例如,考慮圖1的存儲樹的間隔樹。

                  區間〔1, 5〕、〔7, 15〕、〔16, 19〕、〔20, 25〕和〔22, 28〕。根的關鍵是13,因為這是所有區間的結合的中點,即[1, 28 ]。此鍵僅與間隔[7, 15 ]重疊,這是根的重疊列表的唯一內容。

                  節點的子樹存儲那些不與其鍵重疊的間隔。左子樹包含所有端點小于密鑰的間隔;對稱地,右子樹包含所有起始點大于密鑰的間隔。

                  為了搜索特定間隔是否與間隔樹的任何間隔重疊,一個掃描根的重疊列表以搜索可能與查詢重疊的間隔,并根據查詢間隔的相關位置繼續遍歷樹。d遇到的節點的密鑰。當輸入間隔在節點的鍵之前結束時,搜索僅繼續到左子樹。分別在查詢間隔開始大于密鑰時,搜索僅繼續向右。在輸入間隔和密鑰之間的重疊的情況下,搜索繼續到兩個子樹。假設使用圖1的區間樹搜索具有[17, 23 ]的所有重疊區間。從根開始,在對根的重疊列表進行快速掃描后,返回空集,根和間隔之間的比較表明搜索應該繼續向右子樹,該根子樹植根于以22為關鍵字的節點。節點的重疊列表的快速掃描檢測到[20, 25 ]是解決方案的一部分,并且由于查詢間隔與節點的鍵重疊,所以搜索繼續向左和右子樹。以同樣的方式進行,查詢結果返回一組區間[20, 25 ]、[16, 19 ]和[22, 28 ]。

                    全套畢業設計論文現成成品資料請咨詢點擊這里給我發消息914298682      返回首頁 如轉載請注明來源于www.freehotlive.com  

                                   

                  打印本頁 | 關閉窗口
                  本類最新文章
                  歐亞新生活客流統計系統前端工程設 PLC模塊控制回轉工作臺在三軸數 適用于家庭環境的地板清潔機器人
                  企業網站設計—同方股份有限公司網 公司物流信息管理平臺設計概述 學校校內微信點餐系統設計小論文
                  | 關于我們 | 友情鏈接 | 畢業設計招聘 |

                  Email:biyeshejiba@163.com 在線QQ: 點擊這里給我發消息  914298682 學生畢業作品網站  
                  本站畢業設計畢業論文資料均屬原創者所有,僅供學習交流之用,請勿轉載并做其他非法用途.如有侵犯您的版權有損您的利益,請聯系我們會立即改正或刪除有關內容!
                  蜀ICP備10201305號-4

                  bestialityvideo另类最新_成年片黄网站色大全网站_日日摸夜夜添夜夜添破_一个顶流的诞生_25岁的女高中生_heyzo中文字幕无码