亚洲人成网亚洲欧洲无码_无码人妻h动漫中文字幕_人妻影音先锋啪啪av资源_美女航空一级毛片在线播放

在線咨詢
免(mian)費報(bao)價
免(mian)費評估
免費規劃(hua)
當前位置:首頁 > 資訊中心 > 物聯網開發

資本都在瘋投的向量數據庫到底是啥?能做啥?

來(lai)源:博(bo)觀科技日期(qi):2022-07-24 15:30:45

騰訊(xun)(xun)云的向(xiang)量(liang)數(shu)據(ju)庫是一種(zhong)針對處理高維向(xiang)量(liang)數(shu)據(ju)而設計的云數(shu)據(ju)庫服務。它基于騰訊(xun)(xun)云自主(zhu)研發的分布式存儲(chu)和計算技術(shu),在處理大規模向(xiang)量(liang)數(shu)據(ju)時(shi)提供(gong)高效(xiao)的存儲(chu)、索引和查詢能力。


向(xiang)(xiang)量(liang)(liang)數據庫(ku)在(zai)人工智(zhi)能(neng)、圖(tu)像識別、推(tui)薦(jian)系(xi)統等(deng)領域具有廣泛應用。它能(neng)夠高(gao)效存儲(chu)和(he)處理海(hai)量(liang)(liang)的(de)高(gao)維向(xiang)(xiang)量(liang)(liang)數據,如(ru)圖(tu)像特征、文本嵌(qian)入等(deng)。同時,向(xiang)(xiang)量(liang)(liang)數據庫(ku)還支持基于向(xiang)(xiang)量(liang)(liang)相似性的(de)快(kuai)速查詢和(he)檢(jian)索,可以(yi)方便(bian)地(di)進行相似向(xiang)(xiang)量(liang)(liang)搜索、推(tui)薦(jian)算法等(deng)操作。


向量數據庫


騰(teng)訊云的向量數據庫提(ti)供(gong)了可擴(kuo)展的存儲、高效的索引機制和(he)快速的查詢性能,能夠滿足用戶對大規模高維向量數據管理和(he)處理的需求。它為開(kai)發者(zhe)提(ti)供(gong)了簡單易(yi)用的API接(jie)口和(he)工具,以便更方(fang)便地(di)集成(cheng)和(he)應用于各(ge)種(zhong)應用場景。


向(xiang)量(liang)數(shu)據(ju)庫(ku)在大(da)模型時代中展現出(chu)了巨大(da)的商(shang)業機會。向(xiang)量(liang)數(shu)據(ju)庫(ku)市(shi)場(chang)空(kong)間巨大(da),目前(qian)處于從(cong)0-1階段。預(yu)測(ce)到2030年,全球向(xiang)量(liang)數(shu)據(ju)庫(ku)市(shi)場(chang)規(gui)模有(you)望達到500億美元(yuan),國(guo)內(nei)向(xiang)量(liang)數(shu)據(ju)庫(ku)市(shi)場(chang)規(gui)模有(you)望超過600億人民幣。


1、向量數據庫怎么就火了


近(jin)期,許多(duo)具備大模型技(ji)術(shu)(shu)棧研發實力的企(qi)業,都(dou)會不約而同(tong)地(di)提及“應用語言向量檢索(suo)技(ji)術(shu)(shu)用于模型訓(xun)練”。


在技術界,向量(liang)檢索并不是一個(ge)新(xin)名詞。但(dan)它的發展與人工智能浪(lang)潮的推動高度綁定。


向(xiang)量,顧名思(si)義Embedding,最開(kai)始(shi)的(de)(de)用于文本表達的(de)(de)詞向(xiang)量,到后來可用于表達圖片、視頻、語(yu)音等非結(jie)構化數據轉化的(de)(de)深層語(yu)義,通過數據向(xiang)量化可被計算(suan)機識(shi)別、使用,且在轉化的(de)(de)過程中不丟失信息。一開(kai)始(shi),向(xiang)量技(ji)術也(ye)基本使用于互聯(lian)網大公司的(de)(de)業務場景中。


例如,微軟Bing搜索引擎(qing),在(zai)2000年(nian)就曾(ceng)宣布(bu)使用向(xiang)量(liang)(liang)(liang)實(shi)現搜索引擎(qing)的(de)(de)增強,可處理(li)2000多億張(zhang)網頁的(de)(de)向(xiang)量(liang)(liang)(liang)數據。在(zai)那個時代,這個數據已經非(fei)常龐大了,但在(zai)更多的(de)(de)工(gong)業界或實(shi)驗室里(li),向(xiang)量(liang)(liang)(liang)數據仍處于小規模驗證(zheng)的(de)(de)階(jie)段。


真正的(de)改變則來自于2017年前后,伴隨深度學習在工業(ye)界(jie)的(de)廣泛落(luo)地,實際應(ying)用(yong)場景(jing)下的(de)數據量(liang)級開(kai)始直線增加。這一年,FAIR研究人員開(kai)源(yuan)了(le)(FAISS,Facebook AI Similarity Search)AI向量(liang)相(xiang)似(si)性檢(jian)索(suo)庫,在十億級數據集上創建(jian)了(le)鄰近搜索(suo)、且運行于GPU的(de)k-selection算(suan)法。2020年7月(yue),谷歌研究院開(kai)源(yuan)了(le)向量(liang)相(xiang)似(si)性搜索(suo)庫ScaNN,提出新的(de)數據集向量(liang)壓縮技術,以提高向量(liang)檢(jian)索(suo)的(de)準確性。


實際上,在(zai)此期間,國(guo)內(nei)的(de)互(hu)聯網公(gong)司也沒閑著,據說(shuo)阿里巴巴自研了Proxima,對(dui)于(yu)更(geng)多的(de)企業(ye)(ye),包(bao)括(kuo)創業(ye)(ye)廠商(shang)在(zai)內(nei),也會使用向量相似(si)性(xing)檢(jian)索技術的(de)相關開源組件如Faiss、Nmslib和Annoy等(deng)ANN庫,京東零售(shou)基于(yu)Faiss的(de)Vearch也已經(jing)在(zai)各自規模(mo)化業(ye)(ye)務場景中投入使用。


創業(ye)公司Zilliz從2018年開(kai)始布局做向量(liang)(liang)數據(ju)(ju)庫,2019年開(kai)源(yuan)了Milvus,單獨作為一個品類進行研發創新。其做法比較明確:開(kai)源(yuan)Milvus向量(liang)(liang)數據(ju)(ju)庫,持續運營積(ji)累大量(liang)(liang)社區開(kai)發者使(shi)用;在商業(ye)化方(fang)面(mian),推出云端全托管數據(ju)(ju)庫服務Zilliz Cloud,并(bing)與Milvus形成(cheng)插件化集(ji)成(cheng),與國產大模型進行對接。


不(bu)(bu)過,不(bu)(bu)同于2017年(nian)前后在(zai)行業風口(kou)和資本熱錢影(ying)響(xiang)下成立的(de)一(yi)批AI公司,一(yi)開始就瞄準向(xiang)量數(shu)(shu)據(ju)(ju)庫(ku)創業賽(sai)道的(de)企(qi)業其實寥寥無幾。即便Zilliz也并(bing)非是(shi)從創業之初(chu)錨定(ding)向(xiang)量數(shu)(shu)據(ju)(ju)庫(ku)——Zilliz創始人星爵在(zai)去年(nian)9月與鈦媒體(ti)交流時曾解釋:“AI時代(dai),數(shu)(shu)據(ju)(ju)處(chu)理(li)的(de)類型和計算體(ti)系架(jia)構(gou)都發生了較大變化(hua),但當時團隊對(dui)最(zui)終產品形(xing)態是(shi)什么,并(bing)不(bu)(bu)是(shi)很清晰(xi)。不(bu)(bu)斷交流的(de)過程中,我們意識到企(qi)業對(dui)海量非結構(gou)化(hua)數(shu)(shu)據(ju)(ju)管理(li)的(de)需求(qiu)。”


總結起來,在向量數據庫的發展過程中,技術進(jin)展和創(chuang)新起到了(le)重要的推動作用。


首先在數(shu)據(ju)層(ceng)面,向量(liang)作為一個新型數(shu)據(ju)處理(li)單(dan)元,其數(shu)據(ju)量(liang)達(da)到了一定規模,需(xu)要(yao)一個專用(yong)(yong)的管理(li)系統,對管理(li)的復雜度如分布(bu)式、高可用(yong)(yong)性、數(shu)據(ju)的一致性和備(bei)份等要(yao)求也越來越高。


其次,數據庫系統的(de)(de)研究(jiu)者和(he)(he)工(gong)程師們不斷改進(jin)和(he)(he)優化向量(liang)數據庫的(de)(de)存儲引(yin)擎、索引(yin)結構和(he)(he)查詢(xun)算法,提高了向量(liang)數據的(de)(de)存儲效(xiao)率和(he)(he)查詢(xun)性能。


此外,隨著(zhu)硬(ying)件技術的發展,如GPU、FPGA、ARM架構芯(xin)片的應用,也為向量數據庫的性(xing)能提(ti)升帶來了新的機會。


這(zhe)(zhe)三點(dian)因素共(gong)同(tong)促使(shi)了向(xiang)量數(shu)據(ju)庫系統的(de)誕生——想要高效處理(li)這(zhe)(zhe)些海量的(de)向(xiang)量數(shu)據(ju),就需要更細分、更專業的(de)數(shu)據(ju)基礎設(she)施(shi),為向(xiang)量構(gou)建(jian)專門的(de)數(shu)據(ju)庫處理(li)系統。


2、向量數據庫在當下的應用價值


從上面我們可以看到,向量(liang)數(shu)據庫的(de)(de)價(jia)值其實是伴(ban)隨著整個大模(mo)型(xing)的(de)(de)發展而發展的(de)(de),只要大模(mo)型(xing)在(zai)不斷發展,那么向量(liang)數(shu)據庫也會不斷發展,因為它們就像 CPU 和(he)存(cun)儲一樣(yang)。


而向量數(shu)據(ju)(ju)庫在當(dang)下的(de)(de)應(ying)(ying)用(yong),第(di)一個就是(shi)讓大(da)模型(xing)可以(yi)利用(yong)企(qi)業(ye)或者(zhe)(zhe)個人的(de)(de)私(si)域數(shu)據(ju)(ju),實(shi)現(xian)信息數(shu)據(ju)(ju)的(de)(de)連(lian)接(jie);或者(zhe)(zhe)反(fan)過來說,讓那些擁有大(da)量數(shu)據(ju)(ju)和(he)應(ying)(ying)用(yong)場景的(de)(de)企(qi)業(ye)利用(yong)大(da)模型(xing)的(de)(de)能(neng)力幫它解決問(wen)題(ti),同(tong)時還(huan)能(neng)保持(chi)自己(ji)對于數(shu)據(ju)(ju)的(de)(de)掌(zhang)控力。


我們都(dou)知道大(da)模(mo)型是(shi)基于公開(kai)數(shu)(shu)(shu)據進(jin)行預(yu)訓練的(de),它的(de)訓練周(zhou)期(qi)也比較長,無法獲取(qu)當(dang)下(xia)的(de)實時信息(xi)以及企(qi)業內部的(de)私(si)域(yu)數(shu)(shu)(shu)據,因此(ci)需要通過向(xiang)量(liang)數(shu)(shu)(shu)據庫這(zhe)個存儲來實現模(mo)型與這(zhe)些數(shu)(shu)(shu)據的(de)連接,此(ci)時只需把你的(de)私(si)域(yu)數(shu)(shu)(shu)據通過向(xiang)量(liang)數(shu)(shu)(shu)據庫進(jin)行索引即可。


而為(wei)了保(bao)護(hu)企(qi)業的(de)私有數據(ju)產權,大模型不能將你(ni)的(de)私有數據(ju)占為(wei)己有,它(ta)只(zhi)能在那(nei)一刻使(shi)(shi)用(yong)(yong),用(yong)(yong)它(ta)的(de)模型能力把你(ni)的(de)數據(ju)處理完(wan)并把結果(guo)返(fan)回給你(ni),它(ta)不能存儲,也不能將這(zhe)些(xie)數據(ju)拿來訓(xun)練優化(hua)其母模型,使(shi)(shi)用(yong)(yong)完(wan)即刪除。


在(zai)(zai)(zai)美國,這(zhe)(zhe)(zhe)一點(dian)是(shi)在(zai)(zai)(zai)法律上得到保證的(de),因此大(da)(da)家可以無所畏懼的(de)跟(gen) ChatGPT 等(deng)大(da)(da)模型(xing)進(jin)行合(he)作,而(er)不用(yong)擔心(xin)自己(ji)(ji)的(de)私(si)域數(shu)據被這(zhe)(zhe)(zhe)些大(da)(da)模型(xing)占為己(ji)(ji)有(you)(需(xu)要說(shuo)明(ming)的(de)是(shi),并(bing)非這(zhe)(zhe)(zhe)些大(da)(da)模型(xing)沒有(you)這(zhe)(zhe)(zhe)個(ge)能(neng)力,而(er)是(shi)法律不允許。這(zhe)(zhe)(zhe)也解答了我對于大(da)(da)模型(xing)的(de)一些疑(yi)惑,之(zhi)前以為像(xiang) ChatGPT 這(zhe)(zhe)(zhe)樣(yang)的(de)通用(yong)大(da)(da)模型(xing)會吃掉所有(you)能(neng)吃掉的(de)服務(wu),因為它能(neng)不斷吸收企業的(de)私(si)域數(shu)據,現在(zai)(zai)(zai)看來這(zhe)(zhe)(zhe)點(dian)無需(xu)擔憂了,或許也正是(shi)這(zhe)(zhe)(zhe)種(zhong)明(ming)確的(de)保護機(ji)制,促(cu)進(jin)了 ChatGPT 的(de)誕(dan)生)。


同理(li),其第二個應用就(jiu)是大模(mo)型對于(人類)新知識的(de)利用,人類每(mei)天(tian)都(dou)在產(chan)生新的(de)知識新的(de)數據(ju)(ju),大模(mo)型本身無(wu)(wu)論(lun)如何都(dou)無(wu)(wu)法實時將這(zhe)(zhe)些信(xin)息納入其模(mo)型的(de)訓練,一(yi)方面(mian)在于其訓練周(zhou)期,另一(yi)方面(mian)每(mei)時每(mei)刻(ke)產(chan)生的(de)這(zhe)(zhe)些新知識是一(yi)個龐大的(de)數據(ju)(ju)量,這(zhe)(zhe)在成本上也(ye)不(bu)可行。


如(ru)何(he)讓大模型(xing)的(de)能(neng)力應用于新(xin)知識?和私域(yu)數(shu)據一樣,需要通過向量數(shu)據庫(ku)這個存(cun)儲實(shi)現信息的(de)連接與索(suo)引。無論(lun)是(shi)(shi)私域(yu)數(shu)據還是(shi)(shi)新(xin)知識的(de)利用,向量數(shu)據庫(ku)在(zai)這里起到的(de)本質作(zuo)用都是(shi)(shi)解決記憶存(cun)儲的(de)問題(ti)。


而第三個應用價值,則和當下最熱門的(de)(de) AutoGPT 或者 BabyAGI 這樣的(de)(de) Agent 智(zhi)能(neng)體(ti)有關,它們和前面的(de)(de)私域數據以及新知(zhi)識(shi)(shi)不同(tong),它面向的(de)(de)是(shi)(shi)(shi) AI 自己生成的(de)(de)知(zhi)識(shi)(shi),而不是(shi)(shi)(shi)人類創(chuang)造的(de)(de)知(zhi)識(shi)(shi)。這些智(zhi)能(neng)體(ti)會(hui)(hui)把(ba)自己創(chuang)造的(de)(de)知(zhi)識(shi)(shi)保存(cun)下來,進(jin)而進(jin)行(xing)不斷的(de)(de)迭代(dai)演化,這會(hui)(hui)導致數據以指數級增(zeng)長,這些智(zhi)能(neng)體(ti)必需要求助于向量數據庫,因(yin)為(wei)這么大(da)體(ti)量的(de)(de)數據是(shi)(shi)(shi)無法(fa)通(tong)過模型本身來存(cun)儲(chu)的(de)(de)。


目(mu)前大家(jia)對于類似 AutoGPT 和 BabyAGI 這樣的(de)智能體的(de)認知(zhi)還處于玩具階(jie)段,但是它們很可能是 ChatGPT 后新的(de) Killer APP,前面的(de)智能體只是對人類已有知(zhi)識(包括私域數據和人類新知(zhi)識)的(de)記(ji)載,但 BabyAGI 這樣的(de)智能體可能逐漸會與人類的(de)知(zhi)識變得毫無關聯(lian)。


如(ru)果說這些智能體的(de)部(bu)署和生產(chan)的(de)成本(ben)越(yue)來越(yue)低的(de)話(hua),他們(men)甚至可能會產(chan)生人類(lei)的(de)數(shu)(shu)據(ju)(ju),這也(ye)就是很多(duo)人認為我們(men)人類(lei)已經到了(le)造物主(zhu)這個時(shi)刻(ke)。以(yi)前(qian)本(ben)質上這個世界的(de)信息(xi)都(dou)是人類(lei)的(de)生產(chan)經營(ying)活(huo)動造成的(de),但以(yi)后人類(lei)會創造一(yi)個東西,這個東西是自己的(de)自我演化,會產(chan)生遠比人類(lei)更(geng)多(duo)的(de)數(shu)(shu)據(ju)(ju),那么數(shu)(shu)據(ju)(ju)會爆(bao)炸,非結構化數(shu)(shu)據(ju)(ju)會爆(bao)炸,存(cun)儲(chu)數(shu)(shu)據(ju)(ju)也(ye)會爆(bao)炸,這也(ye)就是向(xiang)量數(shu)(shu)據(ju)(ju)庫未來的(de)巨大機會所在。


盡管在(zai)當下(xia)我(wo)們還想(xiang)不到這(zhe)(zhe)類智(zhi)能(neng)體(ti)(ti)的具體(ti)(ti)應用場景,以(yi)及人(ren)類是否需(xu)要那么多智(zhi)能(neng)體(ti)(ti),但(dan)是或許到某一天(tian)可能(neng)我(wo)們每(mei)個(ge)人(ren)都需(xu)要大(da)量這(zhe)(zhe)樣的 Agent,而(er)每(mei)個(ge) Agent 都伴隨著向量數據庫。


3、從技術棧的角度理解向量數據庫


如果從技術棧的(de)(de)(de)(de)角度來(lai)看,AI 時(shi)代(dai)的(de)(de)(de)(de)技術棧是(shi)(shi)(shi) CVP( ChatGPT-Vector Database-Prompt ),這(zhe)里的(de)(de)(de)(de) C 是(shi)(shi)(shi)指以 ChatGPT 為(wei)代(dai)表的(de)(de)(de)(de)大(da)模型(xing),Vector Database 就是(shi)(shi)(shi)向量(liang)數據庫(ku),Prompt 也就是(shi)(shi)(shi)提(ti)示詞。在實際應(ying)用(yong)過程(cheng)中,真正需要用(yong)到向量(liang)數據庫(ku)的(de)(de)(de)(de)并不(bu)是(shi)(shi)(shi)這(zhe)些大(da)模型(xing)本(ben)身或者(zhe)(zhe)說它們的(de)(de)(de)(de)需求量(liang)很小,而(er)是(shi)(shi)(shi)基于大(da)模型(xing)做開發的(de)(de)(de)(de)開發者(zhe)(zhe)。


 如果(guo)我們將(jiang)其對(dui)應(ying)到移動互聯網時(shi)代,開發者平臺 iOS 和(he) Android 就相當于 CVP 里(li)的(de)(de) C,而(er) mongoDB和(he) Firebase 這樣的(de)(de)數(shu)據(ju)庫就對(dui)應(ying)于 CVP 里(li)的(de)(de) V,各種前(qian)端應(ying)用對(dui)應(ying)于 CVP 里(li)的(de)(de) Prompt。


在每一(yi)個技術時代,都是(shi)類(lei)似(si)的技術棧,都需要相應的數(shu)(shu)據(ju)庫,而使用這些數(shu)(shu)據(ju)庫的并非類(lei)似(si) iOS 和 Android 這樣的平臺,而是(shi)開發者,這也就是(shi)為什么數(shu)(shu)據(ju)庫的市場如此大的原(yuan)因,因為最終的平臺可能(neng)也就幾家,但(dan)是(shi)開發者成(cheng)千上萬甚(shen)至上億。


而當下中(zhong)間層非(fei)常(chang)火(huo)的 Langchain 和(he) LlamaIndex 等產品,其(qi)角色是(shi)把 CVP 串聯起來,如果(guo)放(fang)到上一個時代的話,它(ta)有點類(lei)似 IDE,讓開(kai)發者可以更簡單地(di)開(kai)發應用。


無論怎樣,外界正在意識到向量數據(ju)庫作為一種新型數據(ju)庫存在的價(jia)值。不過,理解(jie)大(da)模(mo)型只是AI的其(qi)中一種形(xing)態,泛化能(neng)力變強,場(chang)景通用性也更(geng)強,以大(da)模(mo)型助(zhu)力AI落地(di)變得更(geng)順暢的過程(cheng)中,還有很多可(ke)優化空間。


鄭州博觀電子科技有限公司是一家提供科技類物聯網開發軟硬件定(ding)制化(hua)方案服務商(shang)、也是中原地(di)區(qu)(qu)領先的(de)物(wu)聯網(wang)終端設備解決方案提供商(shang)。致力共(gong)享換電柜、智(zhi)能充電樁、共(gong)享洗車機、物(wu)聯網(wang)軟硬件等服務平臺的(de)方案開發與運維。總部位于河(he)南省鄭州(zhou)市(shi)高(gao)新(xin)區(qu)(qu),已取得國家高(gao)新(xin)技術企(qi)業認證證書。經過10多(duo)年的(de)業務開拓,公司已經形成了以中原地(di)區(qu)(qu)為(wei)中心、業務遍布(bu)全國的(de)經營格局。