您的位置:首頁>公告 >

              國內大模型迎來中場戰(zhàn)事

              2023-05-25 09:04:07    來源:微信公眾號:全天候科技

              由互聯(lián)網(wǎng)和科技界掀起的大模型浪潮,迎來了新戰(zhàn)事。

              自今年3月以來,國內已有超過20家企業(yè)入局大模型賽道。從百度“文心一言”、阿里“通義千問”的發(fā)布,到360“紅孩兒”、商湯“日日新”、網(wǎng)易“玉言”、科大訊飛“星火”、昆侖萬維“天工”等的推出,再到騰訊“混元”、京東“ChatJ”、華為“盤古”等的預告。互聯(lián)網(wǎng)巨頭、科技公司紛紛秀出“肌肉”,誰也不想在這場大模型混戰(zhàn)中掉隊。

              而在這場狂奔中,大模型的發(fā)展階段已經(jīng)從“通用”邁入“垂類”。


              (資料圖片)

              算力、大規(guī)模數(shù)據(jù)、高成本人才成為大部分企業(yè)入局通用大模型的攔路虎。但深度定制、廣闊的場景應用等訴求,催生了國內垂直領域大模型的開發(fā)。

              近兩個月來,不少醫(yī)療、金融、教育、繪畫等行業(yè)內擁有用戶數(shù)據(jù)積累的中小型企業(yè),已開始基于國內外大模型“底座”,訓練適配自身的垂類模型。同時,已發(fā)布通用大模型的公司,也推出了針對特有行業(yè)的模型。

              如果說通用大模型是大模型發(fā)展的初期階段,那么垂直場景應用則可以視作其“中場戰(zhàn)事”,在該階段,應用與場景先行,倒逼垂直領域的大模型飛躍發(fā)展,并率先在不同產業(yè)中實現(xiàn)了落地價值。

              路線分化

              短短兩個月,分化已經(jīng)出現(xiàn)。

              在5月23日舉辦的文心大模型技術交流會上,百度智能云AI與大數(shù)據(jù)平臺總經(jīng)理忻舟介紹:“文心千帆大模型平臺,是百度提供給客戶的企業(yè)級大模型生產平臺,不但提供包括文心一言在內的大模型服務及第三方大模型服務,還提供大模型開發(fā)和應用的整套工具鏈。”

              即文心千帆可以文心一言為核心,提供大模型服務,幫助客戶改造產品和生產流程;企業(yè)也可以在文心千帆上基于任何開源或閉源的大模型,開發(fā)自己的專屬大模型。

              多位接受全天候科技采訪的業(yè)內人士認為,當前國內大模型賽道主要包括三類:一類對標GPT的通用大模型,聚焦基礎層的公司;一類是在開源大模型基礎之上訓練垂類大模型,聚焦垂直行業(yè)的企業(yè);另一類則是專注具體應用的純應用公司。

              “剛開始大家是一窩蜂扎進通用大模型,現(xiàn)在分化已經(jīng)出現(xiàn),不管是分化到具體行業(yè)的,還是不做研發(fā)直接調用接口做產品運營的,這個趨勢是越來越清晰了。”前金山軟件副總裁兼人工智能事業(yè)部負責人、現(xiàn)AI領域創(chuàng)業(yè)者李長亮告訴全天候科技。

              通用大模型面臨算力需求大、訓練和推理成本高、數(shù)據(jù)質量不佳等挑戰(zhàn)。一個成功的且可對外商業(yè)化輸出的通用大模型大模型,要求廠商擁有全棧大模型訓練與研發(fā)能力、業(yè)務場景落地經(jīng)驗、AI安全治理舉措、以及生態(tài)開放性等核心優(yōu)勢。

              在百度智能云副總裁朱勇看來,基礎模型(通用大模型)的公司可能“只有那么幾家”,但是上面會長出很多專業(yè)領域的大模型。

              “訓練一個基礎模型,成本是非常高的,做一個千億級的大模型,需要單機群萬卡以上的算力。”朱勇說,從國內外來看,真正做通用模型的公司并沒有那么多。相反,訓練領域(垂類)模型所需要的代價和資源遠遠小于從零開始做通用模型。

              因而,從商業(yè)邏輯的角度來看,大部分公司不具備做通用大模型的能力,巨頭更適合做通用大模型,擁有豐富場景數(shù)據(jù)積累的公司更適合做垂域模型。

              垂類大模型以深度解決行業(yè)需求為主,即企業(yè)在自己擅長的領域訓練適合自己的“產業(yè)版GPT”。這類大模型生成的內容更符合特定垂類場景的需求,質量更高。

              當前,已經(jīng)可以看到不少垂類模型應用在金融、醫(yī)療、交易等場景中。比如,彭博社根據(jù)自身豐富的金融數(shù)據(jù)資源,基于GPT-3框架再訓練,開發(fā)出了金融專屬大模型BloombergGPT。

              除了上述兩種常見的模式,目前國內大模型創(chuàng)業(yè)賽道上還有一種專做應用的公司,它們沒有研發(fā)團隊,從現(xiàn)有大模型調用接口,做產品和運營。

              通用VS 垂域

              布局通用大模型的巨頭,需要的是生態(tài)。所以百度、阿里都希望成為“大模型的底座”去賦能行業(yè)與企業(yè)。但并不是所有企業(yè)都有這樣的能力。

              “現(xiàn)有大模型的算力和能耗挑戰(zhàn)會促使很多工作向領域專用化、輕量化的大模型方向發(fā)展,特別是金融、教育、醫(yī)療、交通等領域,大量的工作在試圖降低大模型的成本。”在日前舉行的第六屆數(shù)字中國建設峰會上,中國科學院自動化研究所副所長曾大軍表示。

              相比通用大模型需要高昂的開發(fā)訓練成本,基于開源模型進行垂類模型開發(fā)可兼顧開發(fā)成本和數(shù)據(jù)安全。

              事實上,挑戰(zhàn)之外,實際的場景需求也加快了大模型垂類化的過程。

              “中國擅長商業(yè)模式、應用上的創(chuàng)新。”一位AI領域創(chuàng)業(yè)者說,與此同時,國內不乏AI模型的落地場景、豐富的數(shù)據(jù),以及追風口的熱情。因而,短短兩個月時間,大模型領域化的發(fā)展飛速。

              以百度文心千帆這個“AI大模型底座”為例,當前正在共同測試研發(fā)的企業(yè)通常來自信息化和技術普及率較高的行業(yè),如金融行業(yè)、能源行業(yè)、泛互聯(lián)網(wǎng)行業(yè)等。

              “垂類模型是在通用大模型基礎上訓練的,撇開通用大模型的話,是不存在垂類模型的。”忻舟說,垂類模型強調領域的know-how,對于特定領域來說,需要針對該領域的任務做指令學習。

              行業(yè)不同,場景不同,指令學習的區(qū)別也極大。比如,泛互聯(lián)網(wǎng)行業(yè)更關注營銷、推薦的效果,金融更領域更關注風控、可信、以及營銷的效果。

              在李長亮看來,垂類大模型與通用大模型*的區(qū)別在于:垂類大模型在資源投入、成本投入等方面的要求下降了,但額外要求是行業(yè)known-how,即對這個行業(yè)的knowledge要求提高了。

              表現(xiàn)在數(shù)據(jù)方面,在特定的垂直領域,企業(yè)擁有私有數(shù)據(jù),這是別的企業(yè)花錢也買不到的核心競爭力和天然優(yōu)勢。

              表現(xiàn)在算力上,通過通用大模型微調實現(xiàn)的垂類大模型相較通用大模型是“幾何級別的下降”。

              根據(jù)國金證券的測算,在模型微調階段,由于訓練量級較小,僅為萬級,相關的算力成本相比之下可忽略不計。

              以斯坦福大學于2023年3月發(fā)布Alpaca為例,這是一個基于LLaMA-7B基座,應用5.2萬指令對模型微調訓練而來的對話類語言模型。該模型基于8塊A100微調,微調時長3小時,算力成本不超過300元。

              當然,并不是所有企業(yè)都可以在通用大模型的基礎上做微調。

              以百度文心千帆為例,要在該平臺上通過微調做自己的大模型需具備兩個條件:企業(yè)有沒有高質量的數(shù)據(jù)存下來;能否將自身業(yè)務根據(jù)對生成式AI的理解變成高質量的數(shù)據(jù),變成指定數(shù)據(jù)做指定微調。

              換言之,落地在企業(yè)端,那些有海量行業(yè)數(shù)據(jù)、懂行業(yè)know-how的企業(yè),做成垂類模型的機會更大。

              “因為有專業(yè)的數(shù)據(jù)、有行業(yè)know-how,結合不同類型的領域模型,這些領域模型將來會非常繁榮,支撐上層非常繁榮的領域應用。”朱勇說。

              “兩條腿”走路

              “GPT+行業(yè)專家系統(tǒng)”的模式產生了新的垂直領域大模型。

              大模型*的價值在于革新商業(yè)模式,改造商業(yè)組織的每一個環(huán)節(jié),進而起到降本增效的效果。這也是企業(yè)紛紛入局大模型的原因所在。

              而Meta旗下LLaMA模型等大模型的開源為垂類模型的發(fā)展裝上了加速器。

              公開信息顯示,LLaMA基于通用領域的開源數(shù)據(jù)集進行訓練,訓練數(shù)據(jù)涵蓋40種語言,包含約1.4萬億Tokens。LLaMA模型一經(jīng)發(fā)布就對外完全開源,吸引了廣大AI開發(fā)者。

              作為完全開源的*模型,LLaMA具備高度的靈活性、可配置性和泛化能力,可以作為垂類AI模型的通用基座。

              盡管LLaMA模型參數(shù)量較小,但性能絲毫不遜色于PaLM、GPT-3等大語言模型。并且較小的參數(shù)規(guī)模顯著降低了LLaMA模型的落地部署和二次開發(fā)難度。

              “基于LLaMA這種開源模型,我們喂自己的數(shù)據(jù),慢慢調試,就能調試出我想要的效果來。”一位AIGC領域的創(chuàng)業(yè)者告訴全天候科技。

              全天候科技了解到,當下不少企業(yè)采用的是“兩條腿走路”的策略,即:一邊接入大模型API,一邊在開源模型上煉模型,兩者構成反饋鏈,加速各自能力的提升,打造創(chuàng)新閉環(huán)。

              “調用API接口也是一個獲取數(shù)據(jù)資源的有效手段。”李長亮說,這部分數(shù)據(jù)將來可能在企業(yè)訓練模型的時候起作用。

              在不少業(yè)內人士看來,對于各行各業(yè)來說,垂直大模型是一種全新的生產力,各個行業(yè)的垂直領域大模型對所在行業(yè)可能產生重大甚至是顛覆性的影響。

              值得一提的是,在一級市場上,專注于垂類大模型的創(chuàng)業(yè)公司也是投資機構眼中的“寶藏”。

              在不久前召開的2023中國投資年會上,天堂硅谷高級合伙人王偉將“垂直領域大模型,掌握行業(yè)數(shù)據(jù)、懂行業(yè)Know-how的項目”列為其重點投資布局的領域之一。

              關鍵詞:

              相關閱讀

              久久精品夜色噜噜亚洲A∨| 久久夜色精品国产噜噜亚洲a| 亚洲成a人片在线不卡一二三区 | 亚洲午夜久久久精品影院| 在线观看亚洲成人| 亚洲免费在线观看| 亚洲人午夜射精精品日韩| 亚洲国产成人a精品不卡在线| 亚洲av无码专区青青草原| 亚洲男人的天堂网站| 亚洲精品无码久久| 亚洲高清毛片一区二区| 亚洲国产综合AV在线观看| 亚洲国产精品无码久久久秋霞1| 亚洲成AV人片高潮喷水| 久久水蜜桃亚洲AV无码精品| 狼人大香伊蕉国产WWW亚洲| 夜色阁亚洲一区二区三区| 亚洲男人在线无码视频| 久久久青草青青国产亚洲免观 | 亚洲爆乳大丰满无码专区| 人人狠狠综合久久亚洲| 色偷偷尼玛图亚洲综合| 亚洲福利视频一区二区| 国产性爱在线观看亚洲黄色一级片 | 久久精品国产亚洲av四虎| 亚洲国产精品一区二区久久| 亚洲视频中文字幕在线| 亚洲一级毛片视频| 亚洲精品第一国产综合亚AV| 国产亚洲Av综合人人澡精品| 亚洲最大av无码网址| 日本亚洲成高清一区二区三区| 久久精品亚洲一区二区| 亚洲理论在线观看| 亚洲一卡2卡3卡4卡5卡6卡| 国产精品自拍亚洲| 亚洲伊人久久精品影院| 亚洲伦理一区二区| 精品亚洲AV无码一区二区三区| 亚洲老熟女五十路老熟女bbw|