您的位置:首頁(yè)>基金 >

              做計(jì)算和存儲(chǔ)的中間層,「Alluxio」用“緩存機(jī)制”提高企業(yè)調(diào)取數(shù)據(jù)的效率

              2021-11-28 09:22:44    來(lái)源:創(chuàng)業(yè)邦

              著名的計(jì)算機(jī)專家David Wheeler曾說(shuō)過(guò),“在計(jì)算機(jī)領(lǐng)域所有的問(wèn)題,沒(méi)有任何一個(gè)問(wèn)題不能通過(guò)添加一層抽象來(lái)解決。”

              Alluxio創(chuàng)立于2015年,是全球首創(chuàng)開源云原生數(shù)據(jù)編排軟件開發(fā)商,為解決數(shù)據(jù)本地、數(shù)據(jù)抽象以及可訪問(wèn)等技術(shù)難題,Alluxio在計(jì)算和存儲(chǔ)的中間插入了一個(gè)數(shù)據(jù)編排層。該數(shù)據(jù)編排層就是Alluxio帶給計(jì)算機(jī)領(lǐng)域的一層抽象。

              Alluxio的創(chuàng)始人兼CEO李浩源本科畢業(yè)于北京大學(xué)計(jì)算機(jī)系,曾代表北京大學(xué)獲得大學(xué)生國(guó)際編程比賽(ACM ICPC)全球第11名。在康奈爾大學(xué)獲取碩士學(xué)位后,又繼續(xù)在加州大學(xué)伯克利分校AMPLab攻讀博士,博士期間,師從分布式系統(tǒng)和網(wǎng)絡(luò)領(lǐng)域的泰斗Ion Stoica教授和Scott Shenker教授。在SOSP/NSDI等國(guó)際頂級(jí)會(huì)議發(fā)表論文10余篇,Google Scholar 引用量達(dá)3000+。

              博士期間,李浩源在AMP實(shí)驗(yàn)室里孵化了Alluxio(曾用名Tachyon)的技術(shù)原型,并獲得了硅谷和中國(guó)著名風(fēng)投機(jī)構(gòu)的投資,而后正式成立Alluxio公司并致力于該技術(shù)的商業(yè)化。今年,依據(jù)Google在Github上發(fā)布的評(píng)選結(jié)果,Alluxio領(lǐng)導(dǎo)的開源社區(qū)項(xiàng)目被評(píng)為全球最重要的Java開源項(xiàng)目前十名。

              公司的核心產(chǎn)品Alluxio系統(tǒng),是全球首個(gè)分布式超大規(guī)模數(shù)據(jù)編排系統(tǒng)。自項(xiàng)目開源以來(lái),已有超過(guò)來(lái)自300多個(gè)組織機(jī)構(gòu)的1100多位貢獻(xiàn)者參與開發(fā)。Alluxio能夠在跨集群、跨區(qū)域、跨國(guó)家的任何云中將數(shù)據(jù)更緊密地編排,以接近數(shù)據(jù)分析和AI/ML應(yīng)用程序,從而向上層應(yīng)用提供了內(nèi)存級(jí)別的數(shù)據(jù)訪問(wèn)速度。

              如今,人們已經(jīng)身處信息爆炸時(shí)代,用大數(shù)據(jù)來(lái)引發(fā)一場(chǎng)新的革命不再是一次對(duì)幾年后的預(yù)言。越來(lái)越多的企業(yè)數(shù)據(jù)量已經(jīng)達(dá)到上億級(jí),數(shù)據(jù)源爆炸式增長(zhǎng)、數(shù)據(jù)云上遷移,以及大數(shù)據(jù)技術(shù)棧和廠商呈碎片化趨勢(shì)等問(wèn)題,對(duì)數(shù)據(jù)平臺(tái)的架構(gòu)提出了敏捷性、成本效益、性能等各種要求。面對(duì)如此龐大的數(shù)據(jù),企業(yè)如何更穩(wěn)定、快速的調(diào)取出來(lái)進(jìn)行計(jì)算和機(jī)器學(xué)習(xí),成了很多技術(shù)人員要去解決的問(wèn)題。

              SQL是一種訪問(wèn)、處理數(shù)據(jù)庫(kù)的計(jì)算機(jī)語(yǔ)言,MySQL、oracle這些都是SQL數(shù)據(jù)庫(kù),能夠快速查詢和處理數(shù)據(jù),但它們的不足之處是只能查詢和處理一些小規(guī)模數(shù)據(jù),碰到以億為單位的海量數(shù)據(jù)時(shí),性能和速度就會(huì)明顯下降。這種限制使得它們難以滿足當(dāng)下超大型企業(yè)的需求。

              而它們難以做到的,Presto可以做到。Presto是一款FACEBOOK開源的MPP架構(gòu)的OLAP查詢引擎,也是一款可以針對(duì)不同數(shù)據(jù)源執(zhí)行大容量數(shù)據(jù)集的分布式SQL執(zhí)行引擎。

              不同于傳統(tǒng)的數(shù)據(jù)庫(kù)去管理數(shù)據(jù)存儲(chǔ),Presto是一款分布式SQL執(zhí)行引擎,它將計(jì)算和存儲(chǔ)分離,將存儲(chǔ)交給了HDFS、GCS、S3等第三方平臺(tái),而自己只負(fù)責(zé)計(jì)算。如此,Presto就可以實(shí)現(xiàn)處理海量數(shù)據(jù)的功能。但也正是由于Presto不負(fù)責(zé)存儲(chǔ),導(dǎo)致了企業(yè)在調(diào)取數(shù)據(jù)時(shí),需要從儲(chǔ)存數(shù)據(jù)的源頭去讀取,在速度等方面表現(xiàn)較差。

              舉個(gè)例子,雖然大家都覺得互聯(lián)網(wǎng)的速度非常快,但當(dāng)你去國(guó)外旅行,跟家人視頻通話時(shí),就會(huì)發(fā)現(xiàn)視頻的清晰度和流暢度遠(yuǎn)不如你和家人都在國(guó)內(nèi)時(shí)。原因在于數(shù)據(jù)的傳輸距離,傳輸距離變長(zhǎng)了,就會(huì)有更多的網(wǎng)關(guān)、路由器,延時(shí)就會(huì)增長(zhǎng)。Presto沒(méi)有存儲(chǔ)自己的數(shù)據(jù),要查詢?nèi)魏螖?shù)據(jù),都需要將數(shù)據(jù)集讀出來(lái),將每行都掃描一遍,如此,讀取速度就非常依賴于網(wǎng)絡(luò)傳輸?shù)乃俣取?/p>

              現(xiàn)在很多新興的互聯(lián)網(wǎng)公司最常用的一種架構(gòu),就是將數(shù)據(jù)完全上云,放在云平臺(tái)上,這樣企業(yè)自己就不用建數(shù)據(jù)中心了。但從云上調(diào)取數(shù)據(jù),一方面費(fèi)用很高,另一方面調(diào)取速度很慢,更不用提如今有越來(lái)越多的將數(shù)據(jù)存放在硬盤上的企業(yè)了。

              Alluxio對(duì)此的解決方法是,在計(jì)算和存儲(chǔ)之間做一層緩存機(jī)制,將該緩存機(jī)制和Presto或其他的計(jì)算引擎部署到一起。由于這類計(jì)算引擎并不負(fù)責(zé)存儲(chǔ)工作,該緩存機(jī)制作為中間層來(lái)負(fù)責(zé)存儲(chǔ)工作,這個(gè)中間層就是Alluxio。

              Alluxio的數(shù)據(jù)編排層

              那么Alluxio具體是如何工作的呢?

              其實(shí),在第一次調(diào)取數(shù)據(jù)時(shí),Alluxio的速度會(huì)和Presto等計(jì)算引擎調(diào)取數(shù)據(jù)的速度是一樣的,真正的差別要從第二次開始計(jì)算。

              因?yàn)锳lluxio會(huì)在第一次調(diào)取數(shù)據(jù)后對(duì)數(shù)據(jù)進(jìn)行緩存,當(dāng)企業(yè)第二次調(diào)取同樣的數(shù)據(jù)時(shí),速度自然會(huì)成倍提高,加上如今企業(yè)的海量數(shù)據(jù)中,其實(shí)有很多數(shù)據(jù)都會(huì)被反復(fù)調(diào)取使用,緩存機(jī)制就大大提高了第二次調(diào)取后的效率。簡(jiǎn)而言之即如果數(shù)據(jù)在Alluxio集群里邊,從Alluxio中就可以拿到,不用去數(shù)據(jù)中心重新讀取,如果該數(shù)據(jù)沒(méi)在Alluxio集群里,就讓Alluxio到云上將數(shù)據(jù)拿回來(lái),并進(jìn)行存儲(chǔ)。

              此外,由于各種存儲(chǔ)方式的價(jià)格、不同地域?qū)?shù)據(jù)的管理政策不同,現(xiàn)在很多企業(yè)不會(huì)只局限于在一種云服務(wù)上,企業(yè)的數(shù)據(jù)就會(huì)分散在不同地區(qū)或者不同種類的數(shù)據(jù)存儲(chǔ)服務(wù)中。從不同的存儲(chǔ)服務(wù)中調(diào)取數(shù)據(jù),難免會(huì)存在一個(gè)“翻譯”的過(guò)程,Alluxio在該過(guò)程中起到了一個(gè)翻譯官的作用,可以支持用戶使用不同技術(shù)棧及訪問(wèn)接口,而無(wú)需關(guān)心究竟底層使用了何種數(shù)據(jù)存儲(chǔ)服務(wù),從而讓數(shù)據(jù)流動(dòng)更加透明和高效。

              無(wú)論企業(yè)的數(shù)據(jù)平臺(tái)位于本地、公有云、還是混合云的環(huán)境,無(wú)論使用什么樣的技術(shù)棧,Alluxio都可以讓任何的計(jì)算對(duì)存儲(chǔ)實(shí)現(xiàn)高性能的訪問(wèn)。通過(guò)把Alluxio部署在數(shù)據(jù)平臺(tái)里,企業(yè)可以靈活地測(cè)試和實(shí)施新技術(shù),從而保持敏捷性和競(jìng)爭(zhēng)力。

              李浩源告訴創(chuàng)業(yè)邦,“我們行業(yè)的演進(jìn)主要來(lái)自整個(gè)社會(huì)和各行業(yè)數(shù)字化進(jìn)程的驅(qū)動(dòng)。由于社會(huì)和行業(yè)都更加數(shù)字化,數(shù)據(jù)越來(lái)越多,基于數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等各式各樣的產(chǎn)品在增加,導(dǎo)致出現(xiàn)了一個(gè)分割的數(shù)據(jù)世界和復(fù)雜的數(shù)據(jù)平臺(tái),也就直接導(dǎo)致了數(shù)據(jù)調(diào)取的低效。”

              Alluxio為數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用和存儲(chǔ)系統(tǒng)構(gòu)建了橋梁,將數(shù)據(jù)從存儲(chǔ)層移動(dòng)到距離數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用更近的位置,從而不僅能夠更容易被訪問(wèn),還可以達(dá)到內(nèi)存級(jí)的訪問(wèn)速度。同時(shí),Alluxio還實(shí)現(xiàn)了應(yīng)用程序能夠通過(guò)一個(gè)公共接口連接到許多存儲(chǔ)系統(tǒng)。

              11月18日,Alluxio宣布正式發(fā)布其數(shù)據(jù)編排平臺(tái)2.7版本,2.7版本通過(guò)并行數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理和訓(xùn)練工作流,可將機(jī)器學(xué)習(xí)(ML)訓(xùn)練的I/O效率提高8-12倍,從而降低企業(yè)調(diào)取數(shù)據(jù)的成本。2.7版本還提供了更強(qiáng)的性能分析功能,能更好地支持Apache Hudi和Iceberg等開放表格格式,使得對(duì)數(shù)據(jù)湖的訪問(wèn)更易于擴(kuò)展,實(shí)現(xiàn)了Presto和Spark的數(shù)據(jù)分析能力的提速。

              李浩源針對(duì)此次的2.7版本表示,“Alluxio 2.7版本進(jìn)一步鞏固了Alluxio在云上人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面的重要地位。隨著數(shù)據(jù)集的增長(zhǎng)以及CPU和GPU計(jì)算能力的增強(qiáng),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已成為AI主流技術(shù)。這些技術(shù)的興起推動(dòng)了AI的發(fā)展,但也凸顯了數(shù)據(jù)和存儲(chǔ)系統(tǒng)訪問(wèn)中存在的一些挑戰(zhàn)。”

              當(dāng)前,Alluxio的合作伙伴超過(guò)九成都是世界五百?gòu)?qiáng)企業(yè),其所開創(chuàng)的數(shù)據(jù)編排技術(shù)已經(jīng)在不同垂直領(lǐng)域的國(guó)內(nèi)外頭部公司被廣泛應(yīng)用,其中不乏諸如Facebook、Amazon、騰訊、阿里巴巴、百度、聯(lián)通在內(nèi)的行業(yè)巨頭。全球十大互聯(lián)網(wǎng)公司中有八家已經(jīng)在生產(chǎn)環(huán)境中部署了Alluxio。

              騰訊大數(shù)據(jù)平臺(tái)研發(fā)負(fù)責(zé)人陳鵬表示,“隨著越來(lái)越多的大數(shù)據(jù)和AI應(yīng)用容器化,作為加速數(shù)據(jù)分析和模型訓(xùn)練的中間層,Alluxio正在成為大型企業(yè)和機(jī)構(gòu)的首選。”

              從行業(yè)的角度來(lái)看,Alluxio的客戶中,滲透率最高的是科技行業(yè),排在第二的是金融行業(yè),第三是電信行業(yè),第四是基因制藥行業(yè)。李浩源表示,出現(xiàn)這樣一個(gè)排序的原因在于當(dāng)一個(gè)行業(yè)數(shù)字化進(jìn)程越深,Alluxio的軟件價(jià)值就越高,滲透率就會(huì)越高,自然而然使用的客戶就會(huì)越多。

              值得一提的是,今年,在中國(guó)信通院發(fā)布的第二批32家開源供應(yīng)商名錄中,Alluxio憑借Alluxio云端數(shù)據(jù)編排平臺(tái)、Alluxio加速器和Alluxio虛擬數(shù)據(jù)湖,成功躋身云計(jì)算、中間件和大數(shù)據(jù)三大產(chǎn)品類型的開源供應(yīng)商。 

              鑒于“開源開放”有助于推動(dòng)我國(guó)數(shù)字化轉(zhuǎn)型和數(shù)字經(jīng)濟(jì)發(fā)展,“開源開放”已被列入我國(guó)十四五規(guī)劃和2035年遠(yuǎn)景目標(biāo)。

              在此背景下,今年,Alluxio 宣布將大力拓展國(guó)內(nèi)市場(chǎng)業(yè)務(wù),將北京設(shè)立為中國(guó)區(qū)總部,并成立本地化的研發(fā)團(tuán)隊(duì),以快速響應(yīng)并滿足眾多國(guó)內(nèi)企業(yè)的個(gè)性化需求,以及推動(dòng)扎根于中國(guó)的開源社區(qū)運(yùn)營(yíng)、治理和推廣,與行業(yè)一同搭建可信開源生態(tài)鏈,在國(guó)內(nèi)建設(shè)一個(gè)可持續(xù)發(fā)展的開源社區(qū)。Alluxio在其開源軟件Alluxio的基礎(chǔ)上進(jìn)行封裝,未來(lái),要向企業(yè)級(jí)客戶持續(xù)提供豐富的應(yīng)用場(chǎng)景,并不斷升級(jí)其軟件服務(wù)。

              關(guān)鍵詞: 做計(jì)算和存儲(chǔ)的中間層 「Alluxio」用“緩存機(jī)制”提高企

              相關(guān)閱讀

              亚洲视频在线观看网站| 亚洲欧洲自拍拍偷综合| 亚洲国产精品人人做人人爱| 7777久久亚洲中文字幕蜜桃| 亚洲AV无码一区二区乱孑伦AS| 亚洲综合伊人久久综合| 亚洲区日韩区无码区| 狠狠综合亚洲综合亚洲色| 亚洲色欲色欲www在线播放| 最新亚洲精品国偷自产在线 | 亚洲人成电影亚洲人成9999网| 亚洲人成网77777色在线播放| 久久久久久久亚洲精品| 亚洲精品国产福利一二区| 国产精品亚洲色婷婷99久久精品| 亚洲av日韩精品久久久久久a| 亚洲欧美日韩中文字幕在线一区| 亚洲日本久久久午夜精品| 亚洲熟伦熟女专区hd高清| 亚洲精品人成网线在线播放va| 亚洲人成色4444在线观看| 亚洲国产av玩弄放荡人妇| 亚洲国产成人AV网站| 亚洲AV中文无码乱人伦在线视色| 亚洲偷自拍拍综合网| 亚洲午夜未满十八勿入网站2| 亚洲精品制服丝袜四区| 亚洲av无码成h人动漫无遮挡| 亚洲av日韩av不卡在线观看| 亚洲自偷自拍另类12p| 亚洲精品不卡视频| 中文字幕在线观看亚洲视频| 亚洲日韩国产AV无码无码精品| 亚洲AV成人无码网天堂| 亚洲国产精品碰碰| 国产AV无码专区亚洲AVJULIA| 亚洲激情在线视频| 亚洲免费福利视频| 国产精品高清视亚洲精品| 亚洲AV日韩AV一区二区三曲| 亚洲成片观看四虎永久|