做計(jì)算和存儲(chǔ)的中間層,「Alluxio」用“緩存機(jī)制”提高企業(yè)調(diào)取數(shù)據(jù)的效率
著名的計(jì)算機(jī)專家David Wheeler曾說(shuō)過(guò),“在計(jì)算機(jī)領(lǐng)域所有的問(wèn)題,沒(méi)有任何一個(gè)問(wèn)題不能通過(guò)添加一層抽象來(lái)解決。”
Alluxio創(chuàng)立于2015年,是全球首創(chuàng)開源云原生數(shù)據(jù)編排軟件開發(fā)商,為解決數(shù)據(jù)本地、數(shù)據(jù)抽象以及可訪問(wèn)等技術(shù)難題,Alluxio在計(jì)算和存儲(chǔ)的中間插入了一個(gè)數(shù)據(jù)編排層。該數(shù)據(jù)編排層就是Alluxio帶給計(jì)算機(jī)領(lǐng)域的一層抽象。
Alluxio的創(chuàng)始人兼CEO李浩源本科畢業(yè)于北京大學(xué)計(jì)算機(jī)系,曾代表北京大學(xué)獲得大學(xué)生國(guó)際編程比賽(ACM ICPC)全球第11名。在康奈爾大學(xué)獲取碩士學(xué)位后,又繼續(xù)在加州大學(xué)伯克利分校AMPLab攻讀博士,博士期間,師從分布式系統(tǒng)和網(wǎng)絡(luò)領(lǐng)域的泰斗Ion Stoica教授和Scott Shenker教授。在SOSP/NSDI等國(guó)際頂級(jí)會(huì)議發(fā)表論文10余篇,Google Scholar 引用量達(dá)3000+。
博士期間,李浩源在AMP實(shí)驗(yàn)室里孵化了Alluxio(曾用名Tachyon)的技術(shù)原型,并獲得了硅谷和中國(guó)著名風(fēng)投機(jī)構(gòu)的投資,而后正式成立Alluxio公司并致力于該技術(shù)的商業(yè)化。今年,依據(jù)Google在Github上發(fā)布的評(píng)選結(jié)果,Alluxio領(lǐng)導(dǎo)的開源社區(qū)項(xiàng)目被評(píng)為全球最重要的Java開源項(xiàng)目前十名。
公司的核心產(chǎn)品Alluxio系統(tǒng),是全球首個(gè)分布式超大規(guī)模數(shù)據(jù)編排系統(tǒng)。自項(xiàng)目開源以來(lái),已有超過(guò)來(lái)自300多個(gè)組織機(jī)構(gòu)的1100多位貢獻(xiàn)者參與開發(fā)。Alluxio能夠在跨集群、跨區(qū)域、跨國(guó)家的任何云中將數(shù)據(jù)更緊密地編排,以接近數(shù)據(jù)分析和AI/ML應(yīng)用程序,從而向上層應(yīng)用提供了內(nèi)存級(jí)別的數(shù)據(jù)訪問(wèn)速度。
如今,人們已經(jīng)身處信息爆炸時(shí)代,用大數(shù)據(jù)來(lái)引發(fā)一場(chǎng)新的革命不再是一次對(duì)幾年后的預(yù)言。越來(lái)越多的企業(yè)數(shù)據(jù)量已經(jīng)達(dá)到上億級(jí),數(shù)據(jù)源爆炸式增長(zhǎng)、數(shù)據(jù)云上遷移,以及大數(shù)據(jù)技術(shù)棧和廠商呈碎片化趨勢(shì)等問(wèn)題,對(duì)數(shù)據(jù)平臺(tái)的架構(gòu)提出了敏捷性、成本效益、性能等各種要求。面對(duì)如此龐大的數(shù)據(jù),企業(yè)如何更穩(wěn)定、快速的調(diào)取出來(lái)進(jìn)行計(jì)算和機(jī)器學(xué)習(xí),成了很多技術(shù)人員要去解決的問(wèn)題。
SQL是一種訪問(wèn)、處理數(shù)據(jù)庫(kù)的計(jì)算機(jī)語(yǔ)言,MySQL、oracle這些都是SQL數(shù)據(jù)庫(kù),能夠快速查詢和處理數(shù)據(jù),但它們的不足之處是只能查詢和處理一些小規(guī)模數(shù)據(jù),碰到以億為單位的海量數(shù)據(jù)時(shí),性能和速度就會(huì)明顯下降。這種限制使得它們難以滿足當(dāng)下超大型企業(yè)的需求。
而它們難以做到的,Presto可以做到。Presto是一款FACEBOOK開源的MPP架構(gòu)的OLAP查詢引擎,也是一款可以針對(duì)不同數(shù)據(jù)源執(zhí)行大容量數(shù)據(jù)集的分布式SQL執(zhí)行引擎。
不同于傳統(tǒng)的數(shù)據(jù)庫(kù)去管理數(shù)據(jù)存儲(chǔ),Presto是一款分布式SQL執(zhí)行引擎,它將計(jì)算和存儲(chǔ)分離,將存儲(chǔ)交給了HDFS、GCS、S3等第三方平臺(tái),而自己只負(fù)責(zé)計(jì)算。如此,Presto就可以實(shí)現(xiàn)處理海量數(shù)據(jù)的功能。但也正是由于Presto不負(fù)責(zé)存儲(chǔ),導(dǎo)致了企業(yè)在調(diào)取數(shù)據(jù)時(shí),需要從儲(chǔ)存數(shù)據(jù)的源頭去讀取,在速度等方面表現(xiàn)較差。
舉個(gè)例子,雖然大家都覺得互聯(lián)網(wǎng)的速度非常快,但當(dāng)你去國(guó)外旅行,跟家人視頻通話時(shí),就會(huì)發(fā)現(xiàn)視頻的清晰度和流暢度遠(yuǎn)不如你和家人都在國(guó)內(nèi)時(shí)。原因在于數(shù)據(jù)的傳輸距離,傳輸距離變長(zhǎng)了,就會(huì)有更多的網(wǎng)關(guān)、路由器,延時(shí)就會(huì)增長(zhǎng)。Presto沒(méi)有存儲(chǔ)自己的數(shù)據(jù),要查詢?nèi)魏螖?shù)據(jù),都需要將數(shù)據(jù)集讀出來(lái),將每行都掃描一遍,如此,讀取速度就非常依賴于網(wǎng)絡(luò)傳輸?shù)乃俣取?/p>
現(xiàn)在很多新興的互聯(lián)網(wǎng)公司最常用的一種架構(gòu),就是將數(shù)據(jù)完全上云,放在云平臺(tái)上,這樣企業(yè)自己就不用建數(shù)據(jù)中心了。但從云上調(diào)取數(shù)據(jù),一方面費(fèi)用很高,另一方面調(diào)取速度很慢,更不用提如今有越來(lái)越多的將數(shù)據(jù)存放在硬盤上的企業(yè)了。
Alluxio對(duì)此的解決方法是,在計(jì)算和存儲(chǔ)之間做一層緩存機(jī)制,將該緩存機(jī)制和Presto或其他的計(jì)算引擎部署到一起。由于這類計(jì)算引擎并不負(fù)責(zé)存儲(chǔ)工作,該緩存機(jī)制作為中間層來(lái)負(fù)責(zé)存儲(chǔ)工作,這個(gè)中間層就是Alluxio。
Alluxio的數(shù)據(jù)編排層
那么Alluxio具體是如何工作的呢?
其實(shí),在第一次調(diào)取數(shù)據(jù)時(shí),Alluxio的速度會(huì)和Presto等計(jì)算引擎調(diào)取數(shù)據(jù)的速度是一樣的,真正的差別要從第二次開始計(jì)算。
因?yàn)锳lluxio會(huì)在第一次調(diào)取數(shù)據(jù)后對(duì)數(shù)據(jù)進(jìn)行緩存,當(dāng)企業(yè)第二次調(diào)取同樣的數(shù)據(jù)時(shí),速度自然會(huì)成倍提高,加上如今企業(yè)的海量數(shù)據(jù)中,其實(shí)有很多數(shù)據(jù)都會(huì)被反復(fù)調(diào)取使用,緩存機(jī)制就大大提高了第二次調(diào)取后的效率。簡(jiǎn)而言之即如果數(shù)據(jù)在Alluxio集群里邊,從Alluxio中就可以拿到,不用去數(shù)據(jù)中心重新讀取,如果該數(shù)據(jù)沒(méi)在Alluxio集群里,就讓Alluxio到云上將數(shù)據(jù)拿回來(lái),并進(jìn)行存儲(chǔ)。
此外,由于各種存儲(chǔ)方式的價(jià)格、不同地域?qū)?shù)據(jù)的管理政策不同,現(xiàn)在很多企業(yè)不會(huì)只局限于在一種云服務(wù)上,企業(yè)的數(shù)據(jù)就會(huì)分散在不同地區(qū)或者不同種類的數(shù)據(jù)存儲(chǔ)服務(wù)中。從不同的存儲(chǔ)服務(wù)中調(diào)取數(shù)據(jù),難免會(huì)存在一個(gè)“翻譯”的過(guò)程,Alluxio在該過(guò)程中起到了一個(gè)翻譯官的作用,可以支持用戶使用不同技術(shù)棧及訪問(wèn)接口,而無(wú)需關(guān)心究竟底層使用了何種數(shù)據(jù)存儲(chǔ)服務(wù),從而讓數(shù)據(jù)流動(dòng)更加透明和高效。
無(wú)論企業(yè)的數(shù)據(jù)平臺(tái)位于本地、公有云、還是混合云的環(huán)境,無(wú)論使用什么樣的技術(shù)棧,Alluxio都可以讓任何的計(jì)算對(duì)存儲(chǔ)實(shí)現(xiàn)高性能的訪問(wèn)。通過(guò)把Alluxio部署在數(shù)據(jù)平臺(tái)里,企業(yè)可以靈活地測(cè)試和實(shí)施新技術(shù),從而保持敏捷性和競(jìng)爭(zhēng)力。
李浩源告訴創(chuàng)業(yè)邦,“我們行業(yè)的演進(jìn)主要來(lái)自整個(gè)社會(huì)和各行業(yè)數(shù)字化進(jìn)程的驅(qū)動(dòng)。由于社會(huì)和行業(yè)都更加數(shù)字化,數(shù)據(jù)越來(lái)越多,基于數(shù)據(jù)的存儲(chǔ)、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等各式各樣的產(chǎn)品在增加,導(dǎo)致出現(xiàn)了一個(gè)分割的數(shù)據(jù)世界和復(fù)雜的數(shù)據(jù)平臺(tái),也就直接導(dǎo)致了數(shù)據(jù)調(diào)取的低效。”
Alluxio為數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用和存儲(chǔ)系統(tǒng)構(gòu)建了橋梁,將數(shù)據(jù)從存儲(chǔ)層移動(dòng)到距離數(shù)據(jù)驅(qū)動(dòng)型應(yīng)用更近的位置,從而不僅能夠更容易被訪問(wèn),還可以達(dá)到內(nèi)存級(jí)的訪問(wèn)速度。同時(shí),Alluxio還實(shí)現(xiàn)了應(yīng)用程序能夠通過(guò)一個(gè)公共接口連接到許多存儲(chǔ)系統(tǒng)。
11月18日,Alluxio宣布正式發(fā)布其數(shù)據(jù)編排平臺(tái)2.7版本,2.7版本通過(guò)并行數(shù)據(jù)加載、數(shù)據(jù)預(yù)處理和訓(xùn)練工作流,可將機(jī)器學(xué)習(xí)(ML)訓(xùn)練的I/O效率提高8-12倍,從而降低企業(yè)調(diào)取數(shù)據(jù)的成本。2.7版本還提供了更強(qiáng)的性能分析功能,能更好地支持Apache Hudi和Iceberg等開放表格格式,使得對(duì)數(shù)據(jù)湖的訪問(wèn)更易于擴(kuò)展,實(shí)現(xiàn)了Presto和Spark的數(shù)據(jù)分析能力的提速。
李浩源針對(duì)此次的2.7版本表示,“Alluxio 2.7版本進(jìn)一步鞏固了Alluxio在云上人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方面的重要地位。隨著數(shù)據(jù)集的增長(zhǎng)以及CPU和GPU計(jì)算能力的增強(qiáng),機(jī)器學(xué)習(xí)和深度學(xué)習(xí)已成為AI主流技術(shù)。這些技術(shù)的興起推動(dòng)了AI的發(fā)展,但也凸顯了數(shù)據(jù)和存儲(chǔ)系統(tǒng)訪問(wèn)中存在的一些挑戰(zhàn)。”
當(dāng)前,Alluxio的合作伙伴超過(guò)九成都是世界五百?gòu)?qiáng)企業(yè),其所開創(chuàng)的數(shù)據(jù)編排技術(shù)已經(jīng)在不同垂直領(lǐng)域的國(guó)內(nèi)外頭部公司被廣泛應(yīng)用,其中不乏諸如Facebook、Amazon、騰訊、阿里巴巴、百度、聯(lián)通在內(nèi)的行業(yè)巨頭。全球十大互聯(lián)網(wǎng)公司中有八家已經(jīng)在生產(chǎn)環(huán)境中部署了Alluxio。
騰訊大數(shù)據(jù)平臺(tái)研發(fā)負(fù)責(zé)人陳鵬表示,“隨著越來(lái)越多的大數(shù)據(jù)和AI應(yīng)用容器化,作為加速數(shù)據(jù)分析和模型訓(xùn)練的中間層,Alluxio正在成為大型企業(yè)和機(jī)構(gòu)的首選。”
從行業(yè)的角度來(lái)看,Alluxio的客戶中,滲透率最高的是科技行業(yè),排在第二的是金融行業(yè),第三是電信行業(yè),第四是基因制藥行業(yè)。李浩源表示,出現(xiàn)這樣一個(gè)排序的原因在于當(dāng)一個(gè)行業(yè)數(shù)字化進(jìn)程越深,Alluxio的軟件價(jià)值就越高,滲透率就會(huì)越高,自然而然使用的客戶就會(huì)越多。
值得一提的是,今年,在中國(guó)信通院發(fā)布的第二批32家開源供應(yīng)商名錄中,Alluxio憑借Alluxio云端數(shù)據(jù)編排平臺(tái)、Alluxio加速器和Alluxio虛擬數(shù)據(jù)湖,成功躋身云計(jì)算、中間件和大數(shù)據(jù)三大產(chǎn)品類型的開源供應(yīng)商。
鑒于“開源開放”有助于推動(dòng)我國(guó)數(shù)字化轉(zhuǎn)型和數(shù)字經(jīng)濟(jì)發(fā)展,“開源開放”已被列入我國(guó)十四五規(guī)劃和2035年遠(yuǎn)景目標(biāo)。
在此背景下,今年,Alluxio 宣布將大力拓展國(guó)內(nèi)市場(chǎng)業(yè)務(wù),將北京設(shè)立為中國(guó)區(qū)總部,并成立本地化的研發(fā)團(tuán)隊(duì),以快速響應(yīng)并滿足眾多國(guó)內(nèi)企業(yè)的個(gè)性化需求,以及推動(dòng)扎根于中國(guó)的開源社區(qū)運(yùn)營(yíng)、治理和推廣,與行業(yè)一同搭建可信開源生態(tài)鏈,在國(guó)內(nèi)建設(shè)一個(gè)可持續(xù)發(fā)展的開源社區(qū)。Alluxio在其開源軟件Alluxio的基礎(chǔ)上進(jìn)行封裝,未來(lái),要向企業(yè)級(jí)客戶持續(xù)提供豐富的應(yīng)用場(chǎng)景,并不斷升級(jí)其軟件服務(wù)。
關(guān)鍵詞: 做計(jì)算和存儲(chǔ)的中間層 「Alluxio」用“緩存機(jī)制”提高企
相關(guān)閱讀
-
全球視點(diǎn)!10余家A股公司三季度分紅,“...
10余家A股公司三季度分紅,“羊了個(gè)羊”背后公司分紅超10億 -
【全球市場(chǎng)晚報(bào)】10月28日
【全球市場(chǎng)晚報(bào)】10月28日 -
每日播報(bào)!中國(guó)石油化工股份:斥資約4080...
中國(guó)石油化工股份:斥資約4080萬(wàn)元回購(gòu)950萬(wàn)股A股 -
長(zhǎng)城汽車:回購(gòu)348.88萬(wàn)股A股 耗資約1億元
長(zhǎng)城汽車:回購(gòu)348 88萬(wàn)股A股耗資約1億元 -
熱點(diǎn)評(píng)!交通運(yùn)輸部:三季度交通運(yùn)輸經(jīng)...
人民網(wǎng)北京10月28日電(記者王連香)交通運(yùn)輸部今日發(fā)布前三季度交... -
環(huán)球速看:2021年中國(guó)創(chuàng)新指數(shù)達(dá)264.6 ...
圖片來(lái)源:國(guó)家統(tǒng)計(jì)局官方微博“中國(guó)統(tǒng)計(jì)”人民網(wǎng)北京10月28日電(... -
新消息丨4500多家飄綠,80多家跌停,A股...
4500多家飄綠,80多家跌停,A股到底是鬧哪樣? -
【獨(dú)家焦點(diǎn)】港股、A股10月表現(xiàn)全球墊底...
港股、A股10月表現(xiàn)全球墊底!A股到底差在哪兒?外資砸完內(nèi)資砸 -
焦點(diǎn)快播:阿維塔11交付即可享受“充電1...
?10月28日,阿維塔科技宣布,首座由阿維塔與bp合作共建的定制化高... -
君旗高山葡萄酒:陽(yáng)光如何影響葡萄酒的質(zhì)量
陽(yáng)光能提供熱能,溫度升高能加速葡萄的成熟。不僅如此,陽(yáng)光也能為... -
開心麻花公布演出排期 爆笑家庭舞臺(tái)劇...
近日,開心麻花公布演出排期,爆笑家庭舞臺(tái)劇《婿事待發(fā)》將于11月1... -
紀(jì)實(shí)訪談節(jié)目《這十年·追光者》收官 ...
紀(jì)實(shí)訪談節(jié)目《這十年·追光者》10月23日晚在湖南衛(wèi)視迎來(lái)收官。最... -
深足利用定位球扳平比分 拿到了最近5輪...
昨晚,在海口五源河體育場(chǎng),深圳隊(duì)以2∶1驚險(xiǎn)戰(zhàn)勝了陣容不整的河北... -
分時(shí)線怎么看?核電上市公司龍頭股有哪...
分時(shí)線可以這樣看:1、當(dāng)股價(jià)在均價(jià)曲線的下方往上運(yùn)行,觸碰均線,... -
兩部門:多措并舉保障多晶硅合理產(chǎn)量 ...
人民網(wǎng)北京10月28日電(記者申佳平)據(jù)國(guó)家發(fā)展改革委官網(wǎng)消息,為... -
當(dāng)前信息:A股大盤創(chuàng)近半年新低!行業(yè)板...
A股大盤創(chuàng)近半年新低!行業(yè)板塊全線下跌,超4500只個(gè)股飄綠 -
17公里、31個(gè)紅綠燈、全程零接管,毫末...
近日,毫末智行首席交付官甄龍豹與魏牌副總經(jīng)理喬心昱也親自上陣,... -
環(huán)球播報(bào):A股迎來(lái)緊急消息,下周將迎來(lái)...
A股迎來(lái)緊急消息,下周將迎來(lái)重大變盤時(shí)機(jī),給所有散戶提個(gè)醒! -
疑似特斯拉緊湊車型曝光 價(jià)格或下探至1...
近日,日本媒體曝光了一組疑似特斯拉緊湊型車型的路試諜照。新車貼... -
柬埔寨到店!雷丁芒果Pro開啟海外銷售
10月28日,芒果Pro作為登陸柬埔寨的第二款雷丁產(chǎn)品正式到店,海外銷...