智源大会-2024-五-

智源大会 2024(五)

2024北京智源大会-大模型前沿探索 - P5:大模型下的机器学习理论研究反思与机遇-黄 雷 - 智源社区 - BV1yS411A73A

[音樂],喂 喂 喂,感謝李總和葉全博士的組織這次論壇,大家好 我是黃磊,來自北航人工智能研究院,現在是學院了,我的題目是,大模型下的機器學習理論研究,反思與機遇,給了這個題目的話大家在想。

大模型下到底有沒有理論,此人厲害 尤其是機器學習的理論,因為如果大家去聽各種報告,經常是關於數據方面,因為數據非常非常重要,其實模型基本上也就固定,那到底大模型下,有沒有可能有那個機器學習的理論。

還有一點就是,機器學習的理論,它到底有沒有用,因為以前的機器學習發展是非常快速,但是到了深度學習這個層面以後,慢慢緩下來,我今天的話我的報告就主要是,給大家回顧一下這段歷史。

然後再花一部分的時間來講一下,我在這個方向的一些工作,好了,那我們看一下機器學習問題的主要元素,這裡面有兩邊,先看主邊,主邊這一邊的話,一般是大家如果去上課的話,一般就是,講深度,如果,現在的機器學習。

基本上是往主邊這個方向講,有個數據集 輸入和輸出,我希望學一個函數,或者一個條件的概率分布,那麼我的目標是什麼,目標是發現數據中蘊含的規律,其實就定義一個Loss Function。

然後用優化的方式最小化,然後它期望會推廣到未見過的數據,這就是所謂的方法,這一般是,在深度學習這個背景下,大家講機器學習的時候,一般在主邊這個方式去講,那麼如果,我們再回到以前,大概深度學習出現之前。

應該是,2000年,像我以前當時讀書的時候,基本上按右邊那個方式去講,它會強調,我一個學習任務是什麼,它是來自一個未知的目標函數,就這個紅色的這一部分,然後我會採樣一個數據集,然後有了這個數據集以後。

我會有一個學習算法,然後這個學習算法從哪去學呢,就一個假設空間,這個假設空間其實就是,我們現在的一些模型,它給定了一個模型類,它從這裡面去,找出相關那些,它有可能是參數的模型,也有可能是非參數化的模型。

然後最終找到這麼一個假設,然後如果這個G,約等於這個F,那我就認為它是可學習的,這是以前,講機器學習基本上是這麼講,這個定義也非常明確,它有一個假設空間的概念,其實對應到現在假設空間,像大模型的話呢。

基本上就是一個transformer,你把那個參數給定了,就參數的數目給定了以後,包括它所有的連接方式給定了以後,它其實就形成了一個假設空間,然後它的每一個參數的配置,其實就是一個假設。

這是以前機器學習問題的一個主要元素,好的,那麼機器學習它的理論框架,它是怎麼建起來的,其實這個理論框架主要是,統計機器學習,從統計那個角度,因為它強調方化,那方化這個東西,它到底怎麼來。

這裡面就要從統計來,因為你想想,你未知的一些數據,那你能怎麼知道你這個模型,在未知的數據上效果好呢,所以這裡面就是統計它連接這麼一個概譜,那麼怎麼來的,其實就是大數據定律,但如果可以量化的話。

一般就是Hoff的不懂式,它基本上,這個,哦 這個有鼠標,這一部分,就是我訓練級的一個performance,這個就是我期望的outer,就是方化的那種performance。

所以這個不懂式它就確保了什麼,我現在有一個出入這個arrow吧,和它期望的出入它們之間這個概譜,它大於它的概率,它小於這麼一個項,這可以把它綁得住,但如果,這一項如果是一個小於1的值,其實是有意義的。

但是如果它很大,其實沒啥意義 為什麼,因為它概率大小於等於1,大家都知道,所以這是整個一個框架這麼來,所以這個理論框架它,它縮小了這個概譜,那麼之後,這個框架因為它是給定了一個H,那麼如果想把它擴展到。

在任意的假設空間裡面去做這件事情,那怎麼去弄,其實又,又有這麼一個把這個,用那個概率的一些方法,能夠得到這麼一個表達式,這裡面有個東西出來了,就是這個M,M是個假設的數目,這個假設的數目其實。

以前的簡單模型還好 是吧,它是可數的,那真實情況下,其實很多那個假設的數目是不可數的,最簡單的我們一個先行模型,你不同的參數配置,它就是一個假設,那肯定有無窮多種配置 是吧,所以它是不可數的。

所以這個也沒啥意義,注意啊 這個N是一樣的數碼,所以它其實有,GEM的這個陽力和這個performance之間的一個橋樑,好了 到這一步以後,接下來搞理論的又往前走了一步,好 這個是一個有限的 是吧。

那我如何把它搞成一個無限的,如果那個假設空間,其實就有,有那個什麼打散,包括打散 包括VCV的概念,這裡面我們就不細講了,基本上能夠得到這麼一個表達式,就是它的performance小於這個。

陽力 然後這麼一個表達式,這個DVC就是一個VCV,它是用來衡量這個模型打散數據的能力,其實就是它的一個表達能力,現在大模型的表達能力非常非常強,因為它可以打散各種各樣的陽力,所以從傳統來看。

基本上是到了這一步就行了,那麼之後如果讓它可用,就是從表達式上可用,那其實最終就得到了這麼一個表達式,這個表達式其實就建立了,機器學習的一個理論框架,那我們怎麼去看這個表達式呢。

它這個是它的一個方法誤差,這個是它的一個,就訓練級的一個誤差,然後如果你的訓練級的誤差,你得到一個小的performance,那你的方法誤差它肯定不會,它的差異不會超過這麼一個bond。

所以這個就建立了一個,方法誤差和一個訓練誤差之間的一個bond,這個bond它和哪些東西相關呢,和你的訓練陽力相關,和你的模型表達能力相關,然後這裡面這個Δ它是什麼,就是說你這個,因為它是概率的。

你說它小於它的這個概率,是這麼一個Δ,所以這是傳統的理論的,一個機器學習的一個框架。

好了 那麼我們,接下來我們講,沿著這個框架,就是在特徵工程時代,包括深度學習時代,包括現在大模型時代,它到底有哪些,就是哪些問題和哪些機遇,所以那麼沿著這麼一個表達式,其實搞機器學習的。

它之後就分成了三個理論方向,大致來看,第一個是它表達能力,就是你給了這麼個假設空間,它函數表達能力夠不夠,這個什麼意思呢,有這麼多訓練數據集,你可不可以把它分開,理論上你這個模型上能不能分開。

如果你分不開,那說明這個模型就不行,那麼第二個就是優化,你給了這個模型在這兒,你能夠,理論上能夠把它分開,你到底能不能找到這些相關的參數配置,這就是優化要解決的問題,叫參數能不能找得到。

然後最後一個就是,函數能不能舉一反三,這就是一個方法出入,所以這麼一個表達式,其實就把機器學習的三個方向給統一起來了,所以這是機器學習理論方向,好了 那我們現在講特種工程時代。

那麼機器學習理論按剛才講的話,其實它定義是什麼,它的輸入是一個相應空間,是一個固定的維度,是吧,它的輸出來它有可能是一個時數空間,如果是回歸,那有可能是分類的叫Binary空間。

所以這個表達式是基於在這上面建立的,這是機器學習要幹的一些事情,但我們人工智能的一些實際任務,自然語言處理,計算器視覺或者語音處理,我們先看它的輸入,它以前的輸入基本上都是分類問題,所以很簡單。

但是它輸入也不是那麼簡單,通常情況下,你如果這種表示成數的形式,有可能是一個相量,但是一個相量序列,所以那個M,注意這個M還是變化的,這是NLP 它比較麻煩,那麼同樣的圖像也是,這個H和W都是變化的。

然後是語音的話也是M,它也是變化的,那麼在這種情況下,感覺機器學習問題,在實際應用上感覺沒啥用 是吧,但還好 以前是特徵工程時代,為什麼呢,這些方向,它們有各自的叫一個研究領域。

它們要提個特徵工程以後,把它提完特徵以後,編成這個樣子,所以搞機器學習的人呢,我不管你是什麼樣的問題 是吧,我只管我的輸入是X屬於RD,並且我還可以給它一些假設,給了這些假設以後。

我就開始推我的一些理論,所以我可以用線性模型,然後可以各種各樣的,你可以加拉數 加各種係數,把那些參數那個,為什麼呢 都可以棒的做,可以能夠得到一些好的,表達能力的一些結果。

同樣 由於它是用了一些線性模型,它可以去優化,它有些是全局收斂的,屬於各種優化的那種收斂率,包括能不能達到那個,全局最優或者收斂率也是可以,同樣 用了這麼一個表達式,你可以引入更多的一些先驗。

能夠得到一些更精緻的,一些繁華的一些棒的,這一塊,那麼它把那些所有的,真實際問題,和這個它跟理論之間這個概譜,人給生了,人給搞計算機的 思覺的,人給搞NLP的,你們去提特徵吧,你們提到這以後。

然後我再來處理,你到底和理論的那個概譜,到底有多大,我不管,反正是你們的問題,這是傳統特徵工程的時代,好了 到了深度學習,深度學習這個來了以後,就有問題了,一個什麼樣的問題,就是,搞機器學習的人。

他會說深度學習,它是機器學習的一個方向 是吧,如果它是機器學習的一個方向,那麼這有一個問題是什麼,就是深度學習,它在處理這些視覺或者語言問題的時候,它是端到端的,它直接的處理的輸入,就是這些東西。

它的輸出有可能是分類,這是之前深度學習發展的不是那麼快的情況下,那麼之後發展的非常快的情況下,有各種,它那個輸出空間有可能比它還複雜,像各種深層模型,然後它也是變化的,所以在這種情況下。

機器學習它這個理論,它基本上就沒法子弄了,為什麼,首先之後我們再講一下,在這個背景下面,它到底有哪些問題,那麼當機器學習遇上深度神經網絡的時候,它首先有一個好的東西,就是深度神經網絡,它的表達能力很強。

所以在這個表達能力上,它是有很好的理論基礎的,最經典的是什麼,就是神經網絡的萬能近似理論,它基本上給出了,你給任意的一個函數,我都可以去理合,整個正面的思路其實也比較簡單,就像我們當時大學學數分的時候。

它用那種曲線理合,用折線或者用那種,把它分成一小段去證明,所以它無窮寬的或者無窮深的,或者有限寬有限深的都有一個結論,所以這個是可以去證明的,這是關於理論的一些結果,它表達能力非常強。

那麼表達能力非常強,它只是函數理合,那如何能夠這個東西給連上,其實也有一些方向,它是專門算神經網絡的V-server的,所以這個V-server它其實和那個參數數目,和那個乘數都有關係。

在這種情況下其實你那些參數的數目,其實就隱私地表達了一個模型的表達能力,這裡面是有一個理論的一個結果,當然同樣也有一個方向,就是就專門算這種linear region這個區域,但這塊我們就不展開講了。

所以這是表達能力,但表達能力這塊它的結果相對來說是比較穩定的,然後深入學習發展的過程當中,其實最重要的一點是什麼,就是優化,就是從2006年開始以後到2015年之間。

它從使用的角度發展的最有效的就是優化,因為以前的神經網絡學起來非常非常難,但是到了2015年以後,基本上咱們現在神經網絡的那些,勾架基本上都出來,比如說2015年的,2014年的話應該像BN出來。

然後2015年的話是殘差,殘差和BN的一個組合,這兩種的一種組合以後,就保證了它的訓練非常非常穩定相對來說,那麼在,但這裡面一個最核心的思想是什麼呢,其實就是我們做前向和反向傳播的過程當中。

這裡面有一個非常重要的哲學,就是在2015年之前,大家做的最多的事叫什麼,叫初始化,初始化它為了保證一個什麼效果呢,就是你每一層的,它之間的那個什麼一些統計量,比如說它的均值或者方差,他們希望他們是。

至少從初始化的情況下他們是相等的,那麼在這種情況下,你這個網絡才相對來說比較好訓,當然後面出了Luminar Racing,它直接在中間加了一些操作,的確就把這個結果給滿足了,但這個還不夠。

之後才有了殘差,才能夠訓到幾百層上千層,所以這是這麼一個問題,這在2015年之後解決了以後,其實深度神經網絡就發展得非常快,就各種各樣的應用,大家去解決任務的時候,那基本上都是什麼,都是根據一個任務。

然後設計點損失函數,然後或者改點模塊,反正能夠訓起來是吧,然後最終能夠得到一些好效果。

這是優化這一部分,那麼另外一部分,方化,這個東西的話基本上,首先第一機器學習,從深度神經網絡,從機器學習的角度有方化嗎,其實這個目前來看,基本上沒有一個什麼好的結果,只有一些empirical的結果。

但這裡面最經典的是,我記得是2017年的時候,艾克利爾的最佳論文,他們當時提的那個,讓大家去rethink,這個深度神經網絡的方化,但是rethink了以後,大家還是沒去think,因為這個很難。

所以這是從機器學習的角度去討論方化,但是從另外一個角度,搞計算器視覺的或者搞NLP的,其實是可以搞很多方化的,因為大家搞計算器視覺,尤其搞計算器視覺。

它本身就是在驗證級上去評價那個performance,包括它設計的一些模塊,它也會說這個方化效果好,那它的方化是怎麼來的,其實就把一些領域的知識給加進去,比如說像設計網絡架構的時候,用一些不變性。

網絡架構裡面設計,像平頁或者光照不變性,像Nominalization它可以做那種光照的不變性,還有一種是什麼,就是data augmentation,這個是最有效的,因為如果你看不到什麼。

那你先按這個方向,根據你的理解把它加點數據進去,然後能夠使得它方化,所以這是這個方向,好,那麼它的困難,這是它的困難,為什麼這個理論方向一直不好做,做不下去呢,其實這裡面最重要的原因是什麼。

就是剛才講的,它的輸入形式各異,因為你如果認為是機器學習要解決的問題,那它基本上,機器學習它只管它的理論,它只管它那個輸入是那個,一個低微的相量空間裡面,所以你這種,變化的這種維度它根本處理不了。

從數學上它沒有辦法刻劃,還有網絡架構各異,之前的所有升級網絡的,都在MLP上做的,這種簡單的,你一道循環升級網絡或者捲機,尤其加了各種殘差 全是FORM,每一個網絡你都要去分析一個理論。

所以那個非常非常複雜,所以整個東西也不好做,同樣它的輸出,更複雜,因為升級網絡效果出來了,然後做研究的人,把那個任務搞得越來越複雜,然後形式也更複雜,所以這個理論分析基本上就沒法做。

所以整個就形成了一個非常大的一個概譜,就是我們應用工程在往前走,但機器學習理論的,還是守著它那一畝三分地,那種傳統的方向,所以這個概譜會越來越大,導致中間就不太好弄,就是一些理論的結果大家就覺得。

好像深度神經網絡裡面好像沒啥理論的東西,好了 到了大模型時代,其實這是一個機遇,為什麼說這是一個機遇呢,大家想一想,大模型時代很重要的一個特徵,我們先不說它大那個參數,它最重要的一個特徵是什麼,統一。

它把所有的任務,你問的是什麼樣的輸入和輸出形式,你把它壓成那種輸入序列的形式,你用至少在NLP這裡面,它是Auto Regressive,輸入一直預測,它的輸入空間和輸出空間是一樣的。

這是從那個輸入輸出的一個表徵,這是一點,第二點,它那個網絡架構大家都用transformer,transformer在設計的時候,它每一層它的維度也是D,它每一層的維度,它的空間也是固定的。

所以其實你每一層之間,它其實有可能,從數學的角度,它們之間那種空間刻劃它是可以刻劃的,所以這個更簡化了以前深度神級網絡裡面,沒有法做的一些分析,那麼在這種情況下,然後第三個是什麼,就是它所有的。

我之前不是講,深度神級網絡有各種輸出嗎,那麼在大模型時代下,它的輸出全部,它的問題全部變成什麼,一種條件的分類問題,因為你真的是叫什麼,叫Predicted Next Token是吧。

你去遇上那個Token的時候,它本質上就是一個分類問題,它是一個分類問題,那只是我用了一些前面的一些上下文的一種條件,變成一種條件的分類問題,所以在這三種情況下,它三種都統一的方向下。

其實給出理論的研究,其實帶來的一些機遇。

這是,好了,那麼,機遇的話就是什麼,咱們,這是一方面剛才,還有一個就是,我們訓大模型的時候,通常強調是吧,數據量非常非常大,其實尤其像Scanning Law。

尤其是現在這些Empirical的一些結果,它發現,就是你只要把訓練Loss給降下去了以後,它基本上的翻滑效果也還不錯,那其實就,解決了一個什麼,也先不說解決,就這要從研究的角度,就把這個東西。

就是以前所有的機器學習理論,它通常要強調翻滑這個問題,你要強調翻滑這個問題的話,你如果,你不用統計那一套,你是沒法做翻滑的,好了 現在,既然你,數據量是無窮大是吧,那等於你能夠看到水流數據。

你最終把它變成一個優化問題,那如果你不去考慮翻滑,那其實機器學習的理論,那個方向發展,它其實還有更廣闊的一個空間,就以前就是被這個表是給束縛了,這個是我的理解,所以那麼在這種情況下。

最終其實你看現在的研究,無論是分析,其實就是表達能力和優化,它們之間的一個討論,從抽象的角度來看,就是你現在給的一個模型是吧,你是大的還是小的,你有沒有能力去擬合這些訓練數據級,有沒有能力。

好 你說現在這個階段是什麼,我大的相對來說,它肯定那個參數,從威懾為這個角度,它肯定擬合能力要強一點的,那麼第二個就是什麼,你有那個能力,我不見得好優化,這是以前會說,我網路越深我越難優化。

當然現在有了,有了lobalization叫殘差,這個也不一定,那麼現在,現在這個結果是什麼,你有了越大的模型,你會發現它優化起來,去擬合那個能力,它優化起來也很簡單,所以這裡面其實就變成了一個什麼。

就是一個表達能力和優化之間的一個tradeoff,就是你如果能夠有這個表達能力,你如果能夠很好的優化,那你整個東西是有意義的,所以這一塊的話,但從表達能力這個方向,其實它也有一些研究的空間。

就是因為你之前的表達能力,它只是去說一個先進層,一個非先進層,神經網絡它能夠無限的擬合,但是現在的神經網絡裡面,它有了各種lobalization層,包括殘差層,那麼這些分析在以前的理論裡面是沒有的。

同樣的,在訓練過程當中,如果我們能夠針對這種表達的空間,這種RD 這種固定的維度,我們能夠去設計,去研究它這個訓練的一個dynamics,這個對整個的網絡的一個訓練是有幫助的,所以基於整個這兩個點。

我在這裡面就快速地講一下,我們組織在這裡面的一些工作,首先第一,就是normalization,像neoliberalization或者arms norm。

我們理論上證明它的一個非先進表達能力,這個的話就是,我們知道層標準化,就是在全數form裡面這個基礎的模塊,但即使現在有些方向它為了提高效率,它用arms norm,它也是屬於它是一種推劃的方式。

就是這個方數操作,那麼方數操作它本質上是從這個,把壓力拉得到一個球的一個操球面,那麼我們從數學上,無論從算術推導還是幾何構造,我們證明這個neoliberalization,包括arms norm。

它是有一個非先進表達能力的,整個證明的思路簡單講一下,細節的話大家可以去看一下,證明的思路是什麼,我們提供了一個指標,然後這個指標我們證明了,你只要是先進層,和那些,只要是先進層吧。

你各種各樣的先進層疊加起來,它是沒法突破這個指標下限的,但是我們發現在中間,如果你加入一個neoliberalization,加入幾個層,它是能夠突破這個下限的,所以這一塊是證明了從算術推導方面。

這個指標也是挺有意義的,然後第二個方面是什麼,從幾何構造,這個就快點過一下吧,其實一何問題,大家說先進模型它是沒法去,就是你用先進分類器,它是沒法解決這個一何問題的,那麼我們發現。

你其實在這裡面用了這種投影,就是那個縮放,它可以通過這麼一種構造性的方式,能夠把這個一何問題給解決掉,所以這個縮放它肯定是非先進的。

這是一個類似一個開胃菜,但我們這裡面最重要的結論是什麼,它的一個,就是一個先進層,加一個neoliberalization層,就這種網絡架構我們叫LNNet,它的那種萬能分類能力。

這個是以前的所有理論裡面都沒有的,以前的話要不就是先進層加ylow,或加seqmoy的,證明我們說我們可以把傳統的非先進層給去掉,你只加neoliberalization。

加neoliberalization或者arms normal,那它可以有萬能的分類能力,那麼我基本上證明了什麼,就是無窮深的LNNet,注意啊,萬能機制裡面當時最早的話是無窮寬的。

無窮寬的RedRule只有兩層,那麼無窮深的LNNet,能夠完全真正分類任意給力的一個樣本,但有個要求就是每一個,每一層的,如果你是用neoliberalization去證明。

它每一層的節點數它要大於三個,如果用arms normal去證明,它大於兩個就行了,這個是能夠證明的,就是你給任意的點,給它任意的一種,無論是二分類還是多分類,你給它任意的一個標籤。

這麼一個網絡它是可以把所有的這些樣例都區分開來的,這就是它的一個表達能力,那麼我們證明了失落,我個人相對來說特別喜歡這個失落,就是我個人覺得是可以寫入教科書的,為什麼 因為它從構造性上。

它把這個機器學習的問題我們轉變成了一個什麼,就是一個算法的一個merge的問題,就是這些點,你給定這麼些點以後,我去找它們的哪些點,可以用一種方式找到這些點,我可以把它merge。

這種merge的過程當中,只用先行編劃和這個投影程,它就可以把它merge,然後每一步都最終變成一個低軌跌倒的問題,最終能夠證明,所以有了這個結果以後。

我們最終就可以直接很快能夠推出整個網絡的一個VCV,我們說如果你有一個L層的網絡,它的VCV它最少是L+2,這是一個理論的結果,這個理論其實還非常弱勢,就是其實剛出來,類似於萬能機師理論它剛出來的時候。

其實沒啥用,但是這個理論還有很多改進的空間,就是你能夠每一層的神奇元節點數目變多了以後,你那個乘數是不是可以減小,或者你用無窮寬的,你只用一個Layer Luminizer,或者給它分組。

是不是能夠給它一般化,所以這一塊,但我們還做了一點,就從使用的這個角度,就是我們把一個Layer Luminizer分組,用Group Luminizer方式去做的時候。

我們能夠理論上證明它能強化ARM的分線性,所以這裡面其實從網絡設計的一個角度。

這個是一個數學的一個說明,然後一些實驗性的一個說明,這種分組的數目,都是用隨機標籤,就是你給所有的這些數據,你隨機地打標籤,我這種一些簡單的這種網絡,它能不能把它分散開來,那麼在這種情況下。

其實對於大家去設計網絡的時候其實有幫助,就是有可能你把Layer Luminizer,你把它分成組,每一組以後你再做,它的分線性是變強的,但這裡面,在這種情況下它分線性變強,但有一個缺點是什麼。

因為你其實加了更強的約束,這裡面也有可能,去限制那個模型的學習或表達能力,所以這裡面有一個缺點,好 這是表達這方面,那我快速地講一下優化。

這個好像時間有點超,行 那我把那個簡單講一下思路,就在深度神經網絡訓練過程當中,有一個非常重要的一個分析,叫尺度不變性分析,這個就是把所有的Luminizer,就是你每一層,你每一層你把那個權重。

你把它編大alpha倍以後,我就希望這個模型它那個表示不變,這有什麼樣的好處呢,就能夠使得你的訓練相對來說非常穩定,這是Luminizer進行,包括後面的很多網絡設計。

它最重要考慮的一點,就是,好了 那麼在一個網絡裡面,我們會簡單給一個結果吧,就,就如果,如果你把每一層都放大alpha倍,就是你在訓練過程當中,那你其實你單層,就特定的層,它其實受各個層的一個影響。

它那個尺度,但是如果你用了Luminizer,或者用了一些其他技巧,表示它保證這個網絡是scale不變的,那它基本上,它的那個尺度只受這一層的影響,所以這個結果對於穩定神經網絡。

非常非常重要,這是,那麼這個結果它能夠穩定網絡的訓練,但是它會帶來一個什麼樣的問題呢,會帶來某些層,它其實有可能不會學,這是什麼意思啊,就是因為當你如果那個尺度變大的過程當中,你那個梯度變小。

當你的梯度遠小於那個全中的數目的,全中那個參數的尺度的時候,那你整個模型它就不會,它基本上就不怎麼學,那麼在這種情況下,你有可能那個網絡不會divergence,但是有可能一些層它基本上是沒用的。

這也是為什麼以前,有很多各種各樣的網絡減資,就是因為它本身在訓練過程當中,它由於這種性質,它基本上就不學了,但是它也不會發散,因為它別的層在學,尤其是加了殘差以後,所以這一種方式是很方便。

去幫助大家去診斷,你那個模型裡面有一些層,它是不是它沒有怎麼學,所以它不影響整個那個網絡的發散,好 這個是尺度,就是每一個,那個樣例就是每一個每一層。

它那個什麼數字的範圍,還有一個是什麼,最經典的,在機器學習裡面就是spectra,就是你那個數據的斜方叉矩陣的特徵譜,這個東西就比那個什麼尺度更近一步,這種特徵譜它既和優化相關,它又和那個表示相關。

如果你那個是滿字的,說明那個表示比較充實,如果你有很多都是低字的,就很多都沒有字 沒有rank,就是只有維度很小,說明那個表示其實不充足,這一方面,同樣 如果越rank越白話。

你會發現它那個優化起來它會更容易,這是在傳統的機器學習裡面的一個結果,那麼在深度學習裡面也有一個,就是每一層裡面,如果你也滿足這種屬性,那它基本上也會得到一個好的結果,我快速過一下吧。

所以你這種表徵的分布,對於整個學習過程當中非常非常重要,尤其像基於這種SAMS,就在視覺裡面的那種自見的標準學習裡面,它容易發生這種collapse,或者dimensional collapse。

如果我們為了解決這個問題的話。

其實有很多方法,這裡面我簡單講解一下白話順勢,這個的話就其實什麼,我在訓的過程當中,我期望它每一個,就表徵這一塊,它的coherence是期望它是identity的,這樣的話就限制它去collapse。

這是一個regularization的作用,這是一個大的框架,但去實現的時候有很多種,像VS-REG一樣,加一些soft的,還有一種就是直接做一個變換,然後加一個理論的結果。

這裡面我簡單分析一下就是,我們得到一個結果是什麼,如果你按照那種之前所謂的硬白話的方法,做了一個白話變換,然後加了一個順勢以後,它得到的這個表徵的rank,它只是鼓勵它是一個滿字。

並不是鼓勵它白話,但是實際上另外一種,像這種軟白話的方法,它其實最終它是鼓勵它是白話的,但是你會發現,整個表徵它並不一定要fully whitening,因為你fully whitening的時候。

你這個表徵雖然表徵的美化很強,但是你在解決任務的時候,你還期望它有一定的方法效果,所以你希望它的pure,是類似於那種alpha,alpha的那種演繹的那種方式,就是有大的 然後比較平緩的。

這種可以去幫助你去診斷。

你那個訓練過程當中的pure,它的這種效果,還有一個工作就是,我們有一個方法就是,關於這種whitening loss,我們證明了,就是如果整個訓練過程當中,如果你學習力無窮小的情況下。

那你整個pure你初始化了以後,它整個訓練過程當中這種slavery rank,它是不變的 有這種,行 好的,那我這裡面之後就講一下我們這個,基於這些分析,然後我們也快速訓練,我們也訓練一個。

小尺寸多模態的一個大模型,叫Taginoma,那麼主要是接近於,到4年1月份,這個最早文本裡面它出了小尺寸模型,然後我們很快就組織了很多人,然後訓練一個小的這種Taginoma 1。4B。

那是1月11號就傳到HugFace,然後現在已經超過了15000多次,可以直接在3080那種上無序量化就可以做推理。

這是最早的1。4B,然後我們就訓練各種各樣的模型,把它做了一個benchmark把它開圓了,然後基本上3。1B的話會比7。5B的要好點,這是小尺寸多模態的,然後基於在做的這個過程當中。

我們發現有一點很重要,就是那個代碼的質量非常非常重要,所以我們之後做完這個以後,我們就花了,就是組織了,就是包括和清華的一些老師。

組織開發了一個叫Taiwan Learning Factory的這麼一個項目,就是按照軟件設計的工廠模式設計理念,開發了一個模塊化一托展可複現的一個多模態,代碼一個平台,每個模塊集成器最新一種方法已經。

方便大家去定制多模態,然後這個Factory也開圓了,所以這是一個整體的架構,按照那種軟件工程,整個代碼的話我個人覺得是相對來說非常好用,特別適合高校,因為高校相對來說,卡比較少是吧。

我們的定位就不會遜3B以上的,因為為什麼,我們遜不了 這是事實,但是因為我們強調大模型,它最重要的一點是什麼,它那個統一表達能量,所以當我們把這個平台開發出來,如果大家再加入一些Feature以後。

很方便高校的人去做大模型的分析,甚至有可能做理論的分析的一個驗證,這是我們這個想法開源的一個平台,好 謝謝,感謝黃磊博士的精彩報告,下面有請觀眾提問,黃老師好,我有一個問題就是。

您在講座中講到了Transformer架構,它給我們帶來了很多,在機器學習理論上的優勢,比如說它統一了特徵的維度,統一了特徵維度都是D,這樣給我們有很大,給我們統一了這個維度之後。

我們有了很多分析上的便利,以及它的表達能力,達到了很大的增強,以及它可以增大它的規模,然後提升它的泛化能力,目前我們正在通往AGI的這樣一個道路上,但AGI的話它可能涉及,比如說我們人類。

會有更多的魔態的知識,我們會涉及語音,我們會涉及視覺,可能需要更多的魔態的知識,更多種感知的知識融合起來,才能達到這樣一個AGI的目的,您覺得Transformer這樣一種。

就是比較同質化的這樣一種模型架構,它是否是最終通往AGI的一條道路呢,你這個問題比較大,首先第一點呢,我不是說Transformer這個模型架構,它相對來說方便的理論分析,我是說在大模型時代下。

大家那種統一的思想,然後勾著這種統一的架構,然後它相對來說,包括任務統一,在這種架構下它相對來說方便了以前,在深度學習背景下,因為各種架構包括各種輸入形式,它比較難的那種分析,這是一方面。

但Transformer這個東西,其實它的理論分析也不容易,這是第一個,然後第二個就像您剛才說的,關於那個Transformer,它到底是不是通向AGI的一個架構,這個的話,我個人呢。

我覺得這個很難預測,因為至少目前來看,它有如果按機器學習那個道路,它有兩點是什麼,以前機器學習有兩類學習方式,一類叫參數化的模型,一類叫非參數化的模型,非參數化模型指的是什麼,就是你把那個數據存下來。

你用最精靈的方式去把它組合,其實Transformer裡面它本身,它含了這兩個東西,第一 它的碳性,本身就類似於KA的那種方式,去組合那些token,然後第二,它也考慮了參數化的模型。

像FFN它本身就是個全聯結層,就是個神奇網絡,所以這兩個的組合,至少從機器學習,如果大家覺得以機器學習這個方式往前走,能夠實現AGI,那我個人覺得Transformer,它其實從架構上它是沒問題的。

至少從表達能力,就像我剛才講的,你只要你的所有的任務,它是可以定義的,可以能夠,你知道可以定義你的數據組合好,它是可以把它的所有的任務解決的,至於我們大家構造的這些,任務的這些數據集。

它能不能涵蓋我們所有的AGI,這不是一個模型架構解決的事,這個偏哲學的,我也沒有辦法回答,好 謝謝,好 感謝黃磊博士。

2024北京智源大会-大模型前沿探索 - P6:无约束感知理解:从视觉垂域建模到多模态统一与多任务协同:赵 健 - 智源社区 - BV1yS411A73A

呃感谢呃叶泉老师的这个介绍,感谢永翔总和叶泉老师的这个精心组织呃,呃实际上这个刚才大家很多呃,专家老师呃介绍的都很全面了,然后从这个叶全老师一开始,介绍我们这个电信和智源研究院合作的。

这个全球首个稠密的大模型,到呃双勇老师介绍的这个呃,电信在大模型方面的一些呃,比较好的一些实践和探索,然后再到这个呃敖老师介绍的,大大小模型的这个协同,然后再到这个黄磊老师介绍的这个呃。

从机器学习到深度学习,再到这个大模型时代的呃一些理论分析嗯,所以我主要是结合着一个具体的呃,一个问题也好,或者是一个场景也好,或者是一个应用也好,来跟大家做一些我们在这个无约束感知理解呃。

从视觉垂域的建模,到多模态统一和多任务协同方面的一些呃,研究思考和体会,呃,刚才这个呃,叶璇老师已经呃对我做过了一些介绍,在这里我就不赘述了,那么人工智能发展到现在这个时期的话。

其实大家可能都有很多的这种感触,就是说以前我们的创新模式的话,实际上是学术界一直在引领工业界,那么现在大模型时代,多模态呃,生成式实际上就是很多的,很多程度上或者是某种程度上呃,是这个工业界在呃。

开始引领这个学术界,进行这种创新和应用的这种发展,所以这个我们电信的话呃,其实在这个数据,算力场景等等方面都有非常大的优势啊,那么我们现在也在呃,这个吸引这个一些人才的这个加盟呃。

所以如果大家呃有这个呃,自荐或者是推荐的一些优秀的候选人的话,欢迎呃跟我们取得联系,嗯然后呃这个视觉目标的感知理解的话,实际上是一个非常呃重要的,一个国家发展的这个需求呃,这个新时代的中国国防里面呃。

就指出这个复杂对抗环境下,国防安全任务艰巨繁重,那么需要重点发展视觉目标的感知理解呃,那么2022年,国自然的这个十四五的发展规划里面也指出呃,需要这个攻克多元异构信息的融合感知理解。

这个意义是十分重大的,所以迫切的需要呃,去这个视觉目标的感知理解呃,那么视觉目标的感知理解是什么呢,它实际上就是去获取我们图像,或者是视频里面呃,一些,比如说像人车物啊。

等等这样的一些目标的关键信息和关联属性呃,那么多年以来呃,他一直都是我们这个呃人工智能领域的,非常重要的这个科学问题啊,同时也在呃比如说像国防反恐,公共安全以及民生经济等等方面,有非常广阔的应用前景。

呃但是的话无约束条件下呃,我们的视觉目标感知理解,仍然面临很多的这种呃挑战,这是这些挑战,主要包括这个各种内外在因素的耦,合的这种影响,那么会对我们的这个呃视觉目标的感知理解呃。

造成这个呃求解建模上面的这种困难嗯,嗯比如说这个我们为了防患某个核心区啊,和它州界的这个安全威胁,那么我们需要对它的这个监控图像,视频里面的,这个重要目标的关键信息和关联属性。

而进行一种层次化的感知和理解,那么首先我们需要去对对这个态势信息,来进行这个感知啊,包括检测可疑目标的状态信息啊,来预测它的这个趋势信息,然后进而呃进行这个属性信息的关联啊,关联这个关注目标的属性信息。

得到它的这个属性的描述呃,再进而去这个理解它的这个精细化的,语义的信息啊,也也就是解析这个重点目标的呃,像素级的这个语义信息,来获取到他的这个呃精细化的这种特征呃。

那么实际上我们发现就是说在这个里面的话,在隐空间里面的话,他的这个各种挑战性因素啊,以及这个跟目标息息相关的,它的这种关键信息实际上是紧耦合的一个状态,那么这个不利于我们去对目标的它。

它所涉及到的一些信息,来进行这种呃感知和理解,所以这个里面一个关键的科学问题,就是说我们怎么去呃探究,在这个复杂要素耦合空间里面,来进行这个属性关系挖掘和识别的机理,呃。

所以我们也是呃这个围绕这样的一个科学问题,来提出了一个呃科学的呃思路,叫做数据与知识混合驱动的深度感知理解,那么我们也是呃进行了这个三项层层递进,相互支撑的呃研究工作啊。

包括这个多模融合学习的呃态势感知要素解耦,学习的属性关联啊,以及因果嵌套学习的呃语义理解,并且也分别进行了这个相应的这种呃创新嗯,首先我介绍一下这个第一项研究内容呃,也从一个每一个研究内容。

我都是从一个问题背景啊,来来来引入啊,呃这个第一项研究内容,他的这个问题背景,比如说我们现在这个国际上,大家都关注的一个问题,是这个反无人机的一个问题啊,就说为了保障某要地的低空安全。

我们需要对这个微小型无人机等等,一些可疑目标的这个时空关键信息,来进行这个感知取证啊,并且辅助一些这种呃反制的手段来进行管控嗯,那么在这个呃多模融合学习态势感知里面。

我们主要是研究怎么样去通过融合这个呃,红外呀,可见光啊等等一些多元信息,它的一些互补的优势,来实现这个目标的空间位置等等,状态信息的检测,和它的这个运动轨迹等等一些趋势信息的预测。

呃但是在这个里面其实存在很多挑战,比如说在我们所说的这个无约束条件下,或者是非配合条件下,那么目标它在运动的过程中会不断的受到速度,背景障碍物等等一些影响,那么会导致他的这个视觉观测会产生多变性。

那么会导致我们这个态势信息的获取啊不精确,那么呃针对这样的挑战呢,我们也是做了一系列的工作啊,那么在这个呃RGBT的这个呃,弱小目标跟踪的这样的一个场景下,那么传统方法呢,主要是针对这个基于这个。

一阶交互和静态模板的方式,那么呃会导致这个力度单一,表征低效,那么我们提出一个创新的思路,是这个双流知识迁移的多模融合,实力及目标跟踪呃,可以呃通过这个多接耦合双流极联呃。

联合着去感知它的这个全全局和局部的,这个信息,能够实现多接信息的这个融合互补呃,时空线索的联动建模和这个层级知识的呃,吉连迁移嗯,那么同时的话我们也构建了一个大规模的呃,这个多模融合的。

无人机跟踪的这个基准数据集呃,那么相比于此前呃,这个这个相关的一些这个数据的话,呃,我们有效标签实际上超服了35。9%,那么如果有有这个老师,或者是同学们关注我们这个方向的话。

我们这个方向叫NTUAV呃,如果有人关注我们这个方向的话,实际上也也会知道,就是说我们一直是围绕这个方向在进行深耕,国际上我们是首次提出来这个问题,就是反无人机这个这个这个问题。

然后我们也是多年来持续的在围绕这个方向,不断的在呃进行这个构建这个数据,然后不断的在这个像CVPRI,CCV这样的一些国际顶会上,是在组织这样的一些workshop和challenge。

来推动这个领域的发展和进步,然后接下来我们马上要依托CVP2025,组织这个第四届on t v v workshop and challenge,也也是欢迎大家关注和参参加呃。

然后我们的方法的话也是在这个复杂环境,复杂环境多重遮挡的这样的条件下呃,相比于此前这个呃最优的这个方法呃,呃这个呃相相对精度提升了有19。95个点,然后这个是国际上面的一些学者。

对我们方法的一些这个正面的一些评价,呃,然后我们的相关的算法也拿到了这个,比如说中国人工智能大赛A级证书,以及CVPR上面的一些比赛的奖项等等,呃,然后刚才我也介绍了,我也是这个呃。

多次作为第一负责人来在这个国际的顶会上,组织这样的这样的这个topic的一些呃,学术活动嗯,吸引了很多的这个国内外的这个机构,来进行这个呃参加嗯,然后我们的相关的成果,现在也落地到了这个一些呃。

包括一些国家的重要部门啊,我们也跟这个花样滑冰协会做了这个合作啊,开发了相关的一些系统,那目前估值也非常好,然后下面介绍我们的这个第二项工作呃,比如说我们在这个某个突发的公共,安全事件里面啊。

我们需要对这个实施违法行为的一些关注目标,他的这个面部的特征来进行这个感知呃,识别他的这个呃身份的信息呃,来实施这种追查布控,那么在这个要素解耦学习的属性关联里面,我们就需要研究。

怎么样去通过这个充分挖掘目标的呃,内在属性耦合的结构,和它的这种相互之间的这种关联关系,来发现属性和属性之间的这种复杂的依赖,来实现这个目标的身份啊,类别呀等等这样的一些信息的呃精确的识别呃。

但是在这个无约束条件下,实际上呃目标经常会受到这种呃姿态呀,等等一些内在属性的耦合影响,和这种视角啊,分辨率啊等等一些外在因素的干扰影响,那么就会导致它的这个属性识别的结果不够呃,精准呃。

那么我们也是做了很多的工作,来解决这样的一些挑战和难点咳。

那么传统方法的话主要是通过呃,比如说合成图像直接学习的方式,那么就会导致这个分布的差异和属性,耦合的一些挑战呃,我们提出这种规划,学习要素解耦的,属性及目标识别的这种呃解决思路呃。

通过这个多属性依赖的这种关系建模和归一化,学习要素解耦,可以充分的理清属性耦合的结构,然后统一的去处理各种各样的一些呃,挑战性的因素,然后实现这种呃各各种关联属性的归一化学习,我们的方法的话。

相比于呃这个之前马尔奖得主,and resistman的这个fisher,vector等等一些经典的算法,相对识别精度呃提升了超过50%呃,然后此外的话我们在呃一些大姿态,极端姿态等等一些条件下。

相比于之前的这个方法呃,相对识别精度也得到了大幅的这种提升,然后特别值得一提的是,我们呃也把我们的这个方法呃做了这个开源,在GITHUB上面。

我们release了一个rapper叫face evolve,呃,相信很多同学也都用过啊,目前在GITHUB上面反响非常好,有这个3000多次的这个star和700多次的fork,然后呢。

我们也对这个国产化的深度学习的这个框架,比如说百度的paddle,paddle以及清华的这个G图呃,进行了这种适配啊,并且被他们这个官方引入了呃,呃呃这个现在就是这个大家的反响和使用率啊,都非常的高。

也帮助了很多的学者,包括呃这个呃做了研究和转化,然后这个是国际上面的一些呃,评价的一些情况啊,然后我们的相关的算法的话也获得了呃,包括CCV2021的这个口罩,人脸识别竞赛的冠军呃。

因为当时正好赶上疫情呃,所以这个口罩人脸识别,也是一个比较热的一个话题,然后以及这个美国国家标准技术研究院呃,搞的一个无约束人脸识别竞赛,我们是在所有的track上面都拿到了冠军呃。

然后还有之前微软搞的这个,百万名人识别的一个呃比赛,我们也是在所有的track上面都拿到了冠军,然后也是因此我跟这个微软亚洲研究院的一,一些组织这些学术活动的老师呃,得到了这种很好的这种呃呃交往呃。

也成为了朋友,哈哈不打不相识,然后我们也是呃在这个方向上面,组织了很多的学术活动,我们组织了这个地面哨兵的挑战赛啊,以及WELS的这种系列的活动啊,然后我们的一些成果也成功的落地到了。

一些国家的重要部门,包括呃这呃,还有这个蚂蚁金服的这个可信,人脸识别系统里面呃,这个服务覆盖了1。2亿的用户,然后累计支持了150亿津贴的发放等等,咳然后呃下面介绍一下我们的呃这个第三项呃。

这个内容嗯啊比如说在某个聚集性的活动里面,我们这个重点目标通常是藏在人群里面的,那么我们需要分析不同目标的这种啊详细的呃,特征来这个理解他的这种精细化的语义信息,实施这个呃精细的这种检索。

所以这个因果嵌套的语义理解的话,主要是研究怎么样去逐步的呃,建建模这个复杂的场景,然后以及由自由粗到精信息的渐进式的反馈,把这种呃高复杂度的任务,向低复杂的任务进行这个分解和转化啊。

最终实现这种呃精细化的语义的理解呃,但是在无约束的条件下,因为呃人群里面这个目标的话,他可能这个距离比较远,会导致轮廓的这个模糊啊,并且这个呃,因为交互的问题或者是遮挡的问题呃,都比较严重。

会导致它的这个场景的复杂度呃,会产生这个多元性,那么就会呃导致我们最后的这个语义理解,不够精细呃,那么我们也是做了一系列的工作。

来解决这样的问题呃,传统方法呢主要是这种呃基于cascade的方式啊,就是多阶段呃相互独立,多阶段呃分开去进行这个处理,那么会导致这个特征没有关联,语义也容易混淆呃,那么我们提出这个局部全局信息关联的。

因果嵌套,像素及目标解析这样的一个方案呃,呃通过这个局部和全局的关联,以及因果嵌套的学习啊,可以实现这个特征的协同优化,和语义的因果推理呃,那么此外的话我们也是构建了这方面的一个。

大规模的细粒度的语义理解的数据集,呃,然后呢在这个数据的规模上,相比于之前的工作呃,超服了五倍呃,在这个数据标注的这个类别上呃,相比于之前工作超过了三倍,然后现在也被多个国际上面的。

知名机构所广泛的使用反响也非常好,然后我们的算法的话,相比于之前的,比如说m h passer等等一些这个经典的方法的话,在保证性能呃,基本呃有有这个呃些许提升的同时呃。

在个推理速度上也提升了这个十倍呃,相比于这个RESNET作者何凯明的一个,这个master r cn,我们的这个平均的精度提升了13。95个点,呃然后这个也得到了一些国际学者的这个评价。

呃然后我们的这个相关的这个算法的话,也拿到了一些,比如说像这个AC m multimedia的best student paper,然后以及这个新加坡模式识别协会的金奖,呃,然后同时的话我们也是呃。

组织了很多这方面的学术活动,来推动这个领域的发展和进步啊,我们的这个最后的学术成果,也成功地落地到了一些国家的重要部门啊,以及这个像奇虎,360啊等等这样的一些单位呃,取得了一些经济经济效益啊,咳。

Ok,那么我们在这个长期的这个,研究和实践的过程中,实际上发现就是说在视觉,视觉目标的感知理解方面的话,呃对只利用视觉信息,往往我们呃是获取到的这个有用的,这个呃信息的话,实际上是不全不够全面的。

然后只研究这个呃我们所谓的专用智能,或者是这个某个领域的这个针对某个问题的,所开发的这种呃模型的话,实际上他的这个认知能力是有限的,那么这样的话就是没有办法去应对这个多模态,非完整信息的呃。

感知理理解的这样的一个呃新的需求,因为我们人在感知这个世界的时候,实际上就是包括了呃呃触觉啊,听觉啊,嗅觉啊等等,它实际上本质上就是一个多模态的呃,但是在每种模态下,它所获取到的这些信息。

实际上呃更多的是这种非完整的信息,就是每种模态下面的这个信息是不完备的,那么怎么样去针对这种呃多模态非完整信息,这样的条件下获取到更精确的呃目标画像,来进行更好的感知理解,呃,实际上我们呃思考。

就是说从三个方面来进行扩展啊,一个是呃从视觉模态呃,来扩展到这个呃,各种各样的一些多模态相进行融合呃,另外一个呢是从这个从各个子问题,或者是各个垂域的专用模型来扩展到跨域的呃,通用模型。

然后呢呃面向的这个场景的话,实际上也是从这个之前的这种单一的场景,复杂度比较低的场景来,像这个多样化的一些场景呃,复杂度比较高的场景来进行拓展和延伸,那么最终的话呃,呃我们的目愿景的话是构建一个多模态。

多任务联合驱动的呃通用模型呃,那么实际上这个就是说从呃视觉垂域建模,到这个多模态统一和多任务协同,这个也是呃呃所谓的需求牵引突破瓶颈,有这样的属性,就是说它既符合这个国家的一些需求和指引。

那么同时的话也是呃,近几年这个国际上面的这个研究前沿,那么这个是我们所设计的一些呃,研究的这个思路性的一个一个架构啊,就是说呃针对这个探究多模态非完整信息,语义对齐和多任务协同机理,这样的一个科学问题。

我们从哪几个方面来入手,那么主要是从四个方面啊,一个是多元融合,就是解决这个呃多多模态理解的这个问题,然后再到这个通用模型的设计,解决模型的设计问题,然后再到这个多任务学习。

解决这个多多任务学习机理的这个这个问题嗯,再到这个增量学习呃,持续优化嗯,然后也分别呃去这个寻求一些不同层面的,这种呃创新,然后最后面向嗯比如说区域安防啊,聚神智能啊等等一些不同的应用的场景。

来进行这个呃验证和呃赋能呃,那么时间关系的话,我在这里面可能不会介绍一些特别细的,这种技术细节呃,主要是一些这种呃介绍这个不同呃,研究这个内容下面所面临的挑战,或者是一些呃这个纲领性的思路。

那么在这个多模态建模和语义对齐里面,实际上我们主要是想要解决这个,怎么样去实现呃,这个多元异构信息的优势互补和交互协作,那么得到各种各样的一些信息融合的这个,通用学习的这种啊框架,那么主要哦。

我们考虑的话就包括两个两个大的部分吧,一个是多模态数据的离散结构,表示一个是这个特征啊,语义空间的这种对齐嗯,呃就是把这个不同模态的数据来进行,隐空间的解耦啊,利用这个呃强鲁棒性的离散表征空间。

对这个数据进行建模,同时的话引入这个呃语义空间对齐的机制呃,实现这个呃多模态信息在这个隐空间的呃,真正的这种对齐呃,然后第二个这个内容的话,就是通用模型的设计和轻量化呃,这个里面主要是要考虑怎么去编码。

不同尺度的这个多模态的信号,来提取模态间和模态内的这个复杂的交互关系,并且在这个多任务学习呀等等呃,一些任务里面呃,来来这个减小我们的计算量啊,那么也是包括了两个部分,一个是多尺度的数据的长城建模。

还有这个多模态的呃联合表征学习呃,呃这个在多任务学习里面的话,我们主要是要考虑怎么去设计,这种多模态的输入和多类型任务的,一一种轻量化的这个模型的架构,来实现一体化的这个多任务联合的处理,呃。

实际上就是要研究清楚这个多任务学习的呃,机理和机制,因为大家都知道多任务学习的过程中,有些任务是相互促进的,有些任务是相互抑制的,呃我们要搞清楚这个机理和机制的话,才能更好的进行这个多模态呃。

多任务统一的这种呃学习和表示,然后最后一个的话是增量学习,就是说怎么去构建一个统一的优化框架,来不断的去处理我们这个现实世界里面的,这个连续的信息流呃,构建一个共享的这个表征空间。

来增强我们模型的呃小样本学习能力,零样本学习能力和泛化的能力,让我们的模型在实际的问题里面,能够呃不断的迭代,不断的进化啊,不断的这个变得越来越聪明啊,这个也是呃不管是学者也好。

还是这个呃产业界的这个这个同仁们也好,所关注的一个一个比较重要的一个问题啊,实际上我们现在就是在呃在基于这些方向的话,也在也在不断的去做一些研究和探索,然后很多研究成果的话,我们不久都会放出来。

嗯不久都会放出来,刚才这个双勇老师讲了一些成果的话。

实际上是里面的呃某一些维度,然后其他一些维度包括我刚才讲的呃。

后面我们不断的会有这个新的成果,会跟大家见面嗯。

然后最后的话做一个小的总结吧,就是说呃现在人工智能发展的非常快啊。

每一天都会有新的进展,每一天都会有新的呃这种啊突破啊,虽然这个未来可能呃是不确定的,但是我们相信这个未来一定会越来越好,然后呢我们也是希望跟各界的同仁们一起,我们一道呃,大家一起努力。

然后呃让一些不可能变成可能好谢谢。

感谢赵建博士的精彩报告呃,让更多的不可能变成可能,然后下面有请观众提问一个问题,有吗好嗯,刚才老师说的那个关于无无人机的那个,就是它的距离控制和那个识别的问题,我也关注过这个一点嗯。

我是用那个想用那个什么呀,透视空间了,这就是找坐标,就是它没法聚焦和坐标去控制它的距离,到底是哪里,当时我刚才看到那个视频里面也有用光谱,用光谱来做,但光谱它的甘肃干干扰的那个因素太大。

其实它就是可以用呃,建筑物的坐标用地标是吧,这样子的话我觉得可能会解决这个问题,对啊,您说您说的这个很好啊,就是说我们实际在实际应用里面啊,在实际应用里面去,解决这个反无人机的问题的时候。

实际上是包括了三个子系统啊,一个是预警探测,一个是防御处置,还有一个是指挥控制呃,实际上跟这个感知相关的,就是在这个预警探测里面,那么在预警探测里面的话,我们是本是一个多模态的,是一个多模态的。

就是说除了视觉的这个设备以外,视觉的设备就是指指的这个光电探头,带转台的光电探头,有有这个红外的市场,也有可见光的市场,然后它上面带激光测距的嗯,然后呢,此外的话我们还包括了这个雷达的探测设备。

和无线电频谱的侦测设备,所以实际上就是一个多模态融合,来解决这个目标位置信息,和他的这个其他的一些关键信息的探,测的这样的一个问题,当然我们在做这个学术研究的时候,因为我们可能更多的。

比如说涉及到这个多媒体呀,涉及到CVE呀这样的一些问题的时候,我们可能主要关注这个在在一些视觉领域,怎么更好的解决这个目标的这个呃,状态和趋势信息的感知嗯。

2024北京智源大会-大模型前沿探索 - P7:圆桌讨论;主持人 - 智源社区 - BV1yS411A73A

啊感谢各位讲者,然后能够参加我们的圆桌,在开始我们的圆桌之前呃,有人问过我一一个问题,我想分享给大家,是这样的,就说呃大家说大模型时代来临了以后,给各行各业带来了很多的挑战,很多人都说很多行业没有了。

或者说就业机会产生了大量的萎缩,那么对于我们来说,如何应对这个挑战,在这一个问题,我给了一个比较形象的比喻的回答,是这样的,大模型时代来了,就有点类似于,在以前马车时代和汽车时代的一个变化。

马车时代来的时候,很多马车夫,然后养马的人员会说,我们未来是不是职业会消失了,然后我给出的一个答案是说,虽然说马车行业会消失了,但是汽车行业发展起来了,汽车的上下游的产业链,包括城市快速路。

高速公路等新鲜的事物都出来了,我们可能要看得更长久一些,然后发掘出来更多的机会,然后可能会对这些时代变革带来的挑战,会有一个比较好的应对,然后呢在今天我们想呃,针对大模型对我们所有人带来的挑战。

展开一个探讨,我们接下来将会从大模型的科研,技术创新的角度以及产业的角度,最后对诶,我们每个人可能会产生什么样的变化的角度,三个方面来阐述,然后下面开始我们的第一个议题啊,是大模型的幻觉和安全问题。

大家都知道大模型发展至今呃,虽然说幻觉问题,较两三年前已经有了很大的进步,但是还是面临着很多的挑战,包括安全问题,即使大模型的各个厂商做出来了非常大的努力,但是仍然有非常多的安全问题被攻破被出现。

所以说想请各位嘉宾来分享一下,幻觉和安全问题的一些理解,好谢谢,然后我们接下来由双永博士,按照这种方式来进行,您先第一个嗯好的好的嗯嗯啊,叶璇博士说这个问题啊是关于呃幻觉和安全,其实幻觉和安全。

这个我个人认为从两个方向来讲吧,因为刚才其实呃我也在讲呢,电信其实在做很多的应用场景的落地,那其实从应用角度来讲呢,确实对于幻觉是呃这个肯定是要避免安全问题,肯定是要这个也是要避免的。

所以这个其实是要从一个产品维度,带着产品维度的思考,那么怎么样从问题的维度,甚至说产产品形态,它的输入控制上做很多的一些限制,还有包括从答案生成的结果上,那我们怎么样。

通过这个也是在产品和系统维度做很多的一些,限制来控制这个,当然模型本身的持续提升肯定是要继续的哈,但是就像叶娟博士也提到,虽然这个幻觉和安全的问题我们持续在提升。

但是现在离这个100分还只是说差距越来越小,但是并不呃,从目前这个模型本身的它的原理来看哈,是基本是不太可能实现100分啊,完全控制的,所以还是要从上下游的这种输入,输出的产品形态也好啊。

系统维度去进行很多的控制,那这是一个方面哈,从应用场景那其实在大模型呃,我这里边当模型可能我们单指这个语义,当模型啊,那语义大模型本身来讲,那安全和幻觉在有些维度上,它可能是不希望限制啊。

比如说在真正的一些长文写作,或者在文学创作上,他可能就是需要一些幻觉,甚至说一些安全问题呃,甚至在在我们一些场景上,可能叫反社会反人类的这种这种话语,但是在出现在一个小说里,好像可是可以接受的啊。

所以这个可是不同的应用场景,所以其实说我们要给它一些不同的呃,一些定义吧,所以我觉得从这两个角度来讲,当然我们现在目前可能更关注的是第一点哈,从这个问题本身来讲,其实我们更关注的是第一点。

然后在这个维度上,其实刚才呃在技术上也提到了,从SFT啊,到DPO等等各种维度的这些限定上,我们要持续的加强,因为有些时候其实我们的限定啊,包括这个安全和幻觉的场景的限定。

其实也是在一个呃一个特定的维度上,甚至在这个问题本身,它是有一些呃国家和地域的一些不同的对吧,那同样的一个言论可能在不同的这个模型,不同的这个呃地域上,他可能对它的理解也不一样,所以其实呃就目前来讲。

那可能一个是这个世界维度的统一模型,那在这个问题上估计就做不到对吧,他可能在一些数学能力上,全世界是统一的,但这个维度上就相对来讲就很很难去统一,所以这个这也是一个点。

那这个其实也就涉及到我们在使用一些,因为现在可能有的厂商是自己做模型哈,还有的是用掉一些GBT等等的接口,那在这个问题上,可能涉及到的处理方式就又会不同,那时间问题可能要不我就先说这么多啊。

好像博士对我是比较同意那个宋博士观点啊,因为这幻觉也好,安全也好,就是在我看来你是针对用户说的对吧,那幻觉有人觉得幻觉不好,那幻觉还意味着创造力呢,就你从那个而且你从那个机理上看对吧。

他就是next token prediction对吧,我的预测空间放窄了,可能幻觉就小了,但我有的时候我就要它在很大的空间里面预测,所以看的是你要他什么能力吧,所以就是说反正我建议啊就是从技术上改进。

也没有必要对吧,那就是你像一个人读了好多书的时候,你人脑有的时候都记错了,都会生成幻,都会生成这个出现幻觉,你还还非要这个要求机器就是绝对不出现,那可能就没不太有必要吧。

对然后你又从那个应用的场景上对吧,那我们就可以挑一些,这个幻觉没那么大危害的场景,优先用一用对吧,然后你要说这个特别特别严格的这个场景,那我就干脆就不用或者是少用对吧,那那只能是从这个方向来限制。

就安全也是一样的,就有的时候可能叶璇你觉得安全,然后我觉得不安全,那我就说这模型不安全,那其实不是这样的,我们对这个模型来讲也是不公平的对吧,就还是针对用户来讲呢,就我个人观点啊,先说这么多啊,喂好啊。

刚才松博士和哦,不是刚才讲了,从从用户从应用那个角度来讲,那我就从基数这个角度来思考一下,幻觉和安全啊,首先是先讲幻觉啊,首先我个人觉得吧,幻觉这个词该怎么去定义大模型,如果纯N2P的大模型。

他他有他幻觉也许也许吧,但是像多模态的,就说你给个视,给个视觉的输入,然后让你去回答其他,这里面幻觉他有可能又不一样,为什么你去说是吧,你有可能你说的东西和那个图没啥关系,那这种算不算幻觉。

所以有些东西就看从技术上看如何去定义啊,那至于像刚才而不是说的,其实就是那个next predict,有可能你就像我们做成与兼容,从技术角度,你接错了一个词,那有可能后面接接接接接击鼓传花是吧。

你后来就传着传传传走了,你反正是找那些比较比较比较接近的,有可能在训练过程当中,有可能你船走了一步是吧,到后面就走走走走,然后他就产生那种幻觉,这是技术角度,但是是不是可先不从用户找到。

是不是可以解决呢,呃我觉得这个就在于什么,其实如果啊假设啊,假设你如果只是希望他是记这个东西啊,只是把那些数据集给记住啊,你的模型非常大,你那个数据集是有限的,如果记住你训练那个损失降得非常非常低啊。

并且你给的那个题目是一个ACTLY,就是一模一样的啊,如果你损失降低了,那这个东西其实它是不会产生幻觉的,但是在不会产生这种幻觉的过程当中,就像刚才而不是说的,有可能他没那个发发散力啊。

它有可能在做的过程当中,他没有那个diversity,有没有那种随机性,像很多生成模型,它其实要强调一个随机性,就像大家如果现在要做视觉,做扩散模型,为什么扩散模型它会比那个干效果好嘞。

是因为扩散模型它每一步它都有个APACTION,加加了点NOIZE,它那个信息量会大一点,传统的干它只是在刚开始的时候随机采样一个,之后就是个函数映射啊,属于这个diversity啊。

所以这里面要有个trader of,所以从技术的角度来看,我个人觉得幻觉这个问题,首先第一你要要很好的定义好是吧,你要要定义好了,你才知道它到底是不是问题啊,然后再帮你解决。

如果咱们要再去把它定义好了以后之后的话,要从技术手段,其实有可能是从那个什么优化,从礼盒或者从数据集有可能去往前去走的,而不是一个宽泛的,在从用户那个角度,他是个幻觉点,至于安全性这个问题。

这个就比较大了啊,安全的话它分两个层面吧,就是像王博士我们做那个项目,科技项目安全的话,如果从它有个呃security和一个safety,safety有可能是指什么,它有可能是指有些一些描述。

它有可能不是安全,这个安全对对A是有安全的,就比如说有些言论是吧,但是对B是不安全的,那另外一个安全性是什么,就从技术上像神经网络种脆弱性,它那种对抗鲁棒性,它本质啊本质上它有一些脆弱性。

像以前大模型出现之前啊,对对抗攻击,这个其实是一个非常active,至少在高校它是一个active的方向,是因为那个成本比较低,相对现在大部新来的一样,也是啊做做这个方向,相对来说你不需要训,你。

就只要用它,你去分析它就行了,所以在这个方向上,它其实就是本质上还是那个模型,那个鲁棒性啊,它本质上就是因为你我们需要梯度是吧,如果你能够超过那个梯度和最后的落实,那你这个东西解决不了的话。

他肯定会有方式,无论你是让他越狱还是对它进行攻击,还是进行一些其他的,让他想,你指定他去说什么还是下毒,他都有一种方式,从技术上能够使得它不安全啊,好这是我的一个见解啊,谢谢啊,好再见博士嗯。

这个大模型的这个幻觉问题,就是可能大家就是通常所说的,就是说在生成一些结果的时候,它可能会产生一些不准确的,或者是一些虚构的这样的一些信息,那么可能对于某一个领域的话,呃,某些领域的话确实会是这种挑战。

呃,刚才各位专家说的,我也都同意,那么呃这个幻觉问题是怎么产生呢,可能主要是因为就是说他在,它是在这个大规模的多样化的,这种数据上进行训练,然后呢呃这个模型的话呃。

是通过这个模仿这个数据里面的一些pattern,来来生成这个最后的结果,那么这样的设计的话,就会导致我们的呃这个模型在一些领域上面,它可以表现出来比较强大的,这种语言处理的能力啊。

比如说我们刚才呃也有专家讲到,就是在一些吟诗啊,或者是写作呀这种这种呃一些任务上面呃,这个可能幻觉问题反而是一个好事,嗯但是呢就是说在有些领域啊,比如说像我们这个问题里面提到的这个财务啊,金融融啊。

呃包括我们的一些医疗啊等等啊,包括决策呀等等一些领域,可能这个幻觉问题它是一个致命的问题,所以我们呃可能也需要一些策略,或者是一些措施来来缓解幻觉,或者解解决朝向。

解决这个问这个这个问题去去去做一些事情,那么比如说我们可以结合一些呃专家系统,或者是呃集成一些领域的这种呃专家知识呃,呃设定一些规则来来去缓解这样的一些问题,因为现在已经呃有这样的一些方式了。

比如说呃让这个大模型在输出结果的同时,也给出它所呃这个依据和参考的这个出处,那么这样的话可以在一定程度上缓解他的,这个呃缓解缓解问题嗯,嗯所以我们确实也还是需要在这个方向上面,做一些呃研究和探索呃。

来就是发挥这个大模型在呃处理这个大数据啊,处理一些复杂计算它的上面的一些优势的同时,然后呢也能够去降低它在一些领域上面,可能存在的一些风险和隐患,好谢谢好,谢谢谢谢,十位专家呃,我感到非常的开心。

是这样的,就是说在以前的时候,比如说去年的时候,大家讨论幻影的时候,很多观点都是说,幻觉安全问题是一个必须要解决的问题,但是今天的社会专家让我学习到了,可能幻觉安全之类的问题,我们要辩证性的看待。

甚至来说有些情况下,幻觉可能是属于创造力的源泉所在,在不同的场景,不同的应用中,我们可能要辩证性的看待这些问题,以及我们如何定义好幻觉问题,包括我们定义好这个问题以后,然后用什么样的技术方法。

技术手段去有针对性的解决缓解等等,甚至利用这一个信维度的信息,来去做好我们的应用,做好我们的科研工作等等,呃非常开心能够学到这些,然后下面一个问题,可能也是目前啊大火的一个问题,就是多模态方面。

目前的话啊,open AI在今年年初的时候领先发布了骚扰,然后目前一个趋势是,无论是国内还是国外,有实力的厂商都在大量的跟进,然后我想请问几位专家呃,如何看待这个方向,是跟进还是说不跟进。

是坚持语言模型还是要坚持多模态走巨神智能,还是说哪条路线,然后这次问题我们从赵建博士开始,然后反过来顺序,谢谢呃,我觉得这个现在确实是这个open i呃,一直在引领着这个全世界的这个人工智能呃。

前沿的这个发展和进步,然后这个国内的话还就是这个智远,一直在引领这个前沿的这个方向啊,嗯实际上我觉得呃,其实这个呃,我们也有很多很多独独特的这个优势呃,在国际上呃,我们现在的这个呃创新的能力啊。

创新的这个人人才也都在不断的呃提升呃,所以一方面我们是跟进他们的一些技术发展的,这个呃潮流和趋势,另外一个是也是利用我们的,一些既有的一些优势,比如说我们呃大场景嗯,大数据嗯。

我们我们在很多的这个子领域上有快速落地,有快速迭代的这样的一些呃这样的一些能力,所以我们也是可以在很多的这个实际应用里面,不断的去找到新的问题,然后呢不断的去找到新的方法,呃。

我我我觉得相比于这个国外的话,我们在这些方面是有是有优势的,然后也坚信我们后面会走出来一条,谢谢黄磊博士啊,这个问题好像有点大,比较偏前沿去预测,首先第一就是嗯大模型,其实多模态呃,在讲多模特态之前。

我还是再强调一下大模型,这点就是首先大模型它能统一的原因是什么,我们语言能够描述各种各样的任务,我们以前人工智能它是强调要任务,分任务是吧,现在我们语言能够描述任务,那么它其实至少语言这块它是个B级。

它的输入是语言,输出是语言,这个是个close的解压,所以大大我先先从圆这个方向走那么多模态,那这个就不一样,因为你动物态你看怎么定义你的,如果输出输入全部是动物态,你的输出是语言。

其实这一条路其实是没啥问题啊,为什么,因为现在大家的一个思路,至少在我做小尺寸读模态,大模型的时候,我发现你其实一个一个pipeline是怎么做嘞,就是利用现有的语言能力。

然后你自己做多模态的每一个模态,它和哪个它和语言之间,我做一个数据的一个ALAN这种非对比的,无论什么,这种是数据集是可以构造的啊,也不搞,就像克里普最早这么弄啊,然后再再去顺一遍啊。

再用无论是像语言模型训一样,把对齐了以后,用transform门,这套基本上是能够走通的,其实难就难在什么,你的输入是多模态的,你的输出是语音和多模态啊,如果你不经过语言这个枢纽。

就是现在有很多你经到了语言,然后语言在条件到到到到到输出是吧,那你难的难点是什么,你的那些动模态你能不能描述你的那个任务,这是一个最核心的一个难点,你如果描述不了那个,或者你有可能能够描述任务。

但是你那个信息量就是你那个有譬如说图像,因为我我最早做视觉是吧,视觉他那个描述它就非常不精确啊,你没法没法精确的描述,你就是现在有一些方向做纯视觉的大模型啊,只是说就是只把所有的任务的问题。

全部把它变成图像,就是你目标检测的话,我也不说什么,我就直接那个框给框出来,只以以视觉那个方式去做,的确是可以能够类似于那种接龙一样的方式,做出个效效果,但是那个效率非常低啊,训起来就会要非常多的数据。

然后效果也没那么好,但是一旦把语言介入,把语言做个输入,你会发现它的效率会非非常非常高啊,所以我个人觉得如果按照人去,按照以要通往AGM吧,我觉得语言还是个枢纽啊,虽然我不是做N2P的。

但是我我我我我不不可否认,的确语言是个枢纽啊,因为语言的话,至少我们从历史上文字是吧,我们是有了文字,我们才有个传承文字,那个信息量就非常大,我们能够能够读读读古是吧,同样的我们能够和人去交流。

也是语言啊,所以当那个信息量非常大的情况下,所以以它作为一个接口,我觉得再把动模态给接进来,我觉得这个我先不说是AJI,但是我觉得这应该是一个不错,应该是一个不错的一个方向,至少啊哦这是我的一个理解啊。

啊好像不是对我的观点是这样的啊,就是如果一味的跟进美国,那就一直被牵着鼻子走对吧,人家发布SORA也好对吧,GBTFO也好,人家可能有更先进的对吧,已经基本上ready了啊,然后过一阵就一发布。

然后咱就乌泱乌泱跟着去,这个就会就很被动啊,我感觉啊呃就刚才我其实特别同意,刚才黄老师讲的就是语言啊,是人类对这个世界的一种编码,嗯嗯而且编的还挺好对吧,就是比较高阶的一种编码,比你多模态对吧。

现在大家一说多模态就是啊视觉语音啊,语音可能跟文字还比较相关,特别是视觉视觉,可能是就是某种程度的低阶编码,我理解啊就至少没有语言编的那么好,所以就是说多模态模型,大模型我觉得可以做。

但是呢不一定是按照老美的那一套理解啊,就我的理解大概是说,你看如果说这个多模态的大模型是世界模型,是对世界的一种什么sam how,这个仿真也好,或者这个那个的那谁是生活在这个世界上的呢,是我们人啊。

就我们人每天感知世界的这个角度对吧,视觉也好,语言也好,那我们其实在这个世界上生活,还产生了好多数据,比如说咱们每天衣食住行轨迹的这些数据对吧,这些数据咱们中国比老美多多了对吧,那这也是一种模态啊。

那人在地球上生活所产生的这些数据,那也是对世界的一种编码对吧,那是不是我们可以去主导,就是训练一些,至少在这个模态上还增加一些轨迹类型的呀,或者是就是人在社会上生活所产生的这些数据。

这些数据可能一是美国没有我们多,第二就是人家可能也不想不能用对吧,隐私这那的啊啊,当然我们可能对这方面的要求,没有人家那么那么高对吧,就咱们可能对隐私的这个要求低一些,而且咱们有隐私计算框架嘛哈。

还是能保护咱们个人隐私的,就把这些东西拿起来,那是不是就可以扭转过来这个局势对吧,我们可以产生另外一种定义的多模态大模型啊,里面包含了人在社会上生活,所产生的这些数据啊,然后训练出来了以后。

是不是就能够牵着美国鼻子走啊,这是我的观点啊,啊好的呃,首先我是觉得哈多模态这个方向肯定是要做的,但是我非常同意郝老师说的,这个我们是不是要呃出SORA就学SORA,出SOO就学SOO。

这个可能一直就追不上这个例子,我在想这个可能举一个另外一个例子哈,比如这个中国的汽车,刚才您提到的是马车和汽车,我们现在提到是这个,我想提到的是这个传统汽车和新能源哈是吧,那真的按照原来的这个发展路径。

我们在这个燃油机,发动机,还有这个这个这个安全上,其实如果真的按传统汽车去追赶的话,那可能到现在我们就现在这个哎,追SORA和追SOO一样,但其实在新能源这个方向,其实走出来一个自己自己特色的路。

那其实在这个维度我也在想哈,照这样的追赶可能一直是在追赶,那其实在别的维度上,是不是有一些呃新的切入点呃,其实我自己想的是,比如就在无人机这个场景,那针对无人机它的这种感知上。

它可能不是这种像像语言类的哈,它可能就是各种声音类的,因为如果是战争无人机,它可能要对这种炮火声是吧,枪弹声它有更更更多的感知,那针对民用的话,可能是一些比如这个汽车鸣笛等等,避免碰撞等等。

其实在这个维度上,我们是不是可以有一些特色的这种,多模态的能力去产出,我就适配在无人机上,然后我就这个比如中国的这个假设,就比如大江这个品牌,那之后可能就是搭载了最适合无人机的。

这种多模态模型的一个更先进的一个,一个这样的一个一个能力,那其实我们在这个某些维度上去追去去去超越,其实还好,如果真的是在通用的这种呃文声视频也好,或者是这种多模态输入,多模态输出方向上。

那可能首先最难的一点就是在数据积累,因为这个数据积累其实不是说呃,比如像刚才我提到这个语义大模型那样,可能大段大段的文本拿过来做基础模型,这个以以前有的问答拿过来直接做SFT,它可能不是现成的。

好多数据是要重新去构建的,光是在数据构建这块可能追赶的时间就很长,所以我觉得是可以想别的切入点啊,这是我的一个输入,好感谢几位嘉宾啊,呃解答非常精彩,就比如说我举个例子。

然后敖博士刚才您提到的就是属于方向,是否要追随孙永博士提到的这个新能源汽车,确实可能对于我们来说呃,既要脚踏实地,还要仰望星空,我们可能要发现,对于我们来说,对于我国来说,我国的优势是啥。

我们的电子支付等等各种方面,生活娱乐方面都做的非常好,那么把这些相关的数据给收集整理起来,是不是就能够开辟一种新的路线,然后是不是可能会引领一下大模型的发展,我觉得这是属于我们在座的呃,青年科技工作者。

我们在座的都属于青年科技工作者了,可能都要常思考这些问题,有可能会走出来一条不一样的道路,最后达成商用模式,提到最后的目标,是不是我们也能在大模型领域能诞生出来,我们的一个大疆,如果能诞生出来。

那绝对是属于我们非常好的一个进步好,然后那我再接下来那个呃,跟各位嘉宾探讨下一个问题啊,呃也是一个比较宏大的问题,就是AGI它路在何方,然后像是昨天开复博士提到了一个问题,呃。

它目前像是聚神智能从来不投,然后他只投一些他认为现在能发展到的角度,但是呢呃有另外一些专家学者的观点,是属于可能是属于聚神智能,就是未来需要全部的凹进进去,那么呃以及是否还有其他的道路呢,有军事智能。

有其他的录制,有可能这个巨神智能不是人形的,也有可能是人形的,还是说其他形态,还是说各种其它的可能性,还是说一个纯物理呃,或者说纯信息时代的一个这种形态呢,比如说大家看过头号玩家这部电影。

它就是一个纯信息的一种形式上的这种AGI,不知道这一个问题大家怎么看,这次由那个双鱼博士来开始啊,好的,其实感觉这两个问题还是有很多的相关性哈,因为其实AGI呢通用人工智能。

那最开始语言大模型让大家看到这个希望,但其实现在感觉越来越不满足于这个,这个单模态哈,后来这个从文生视频到这个呃,文本语音和图像视频,但其实在我看来,好像这些模态先加入到这个AGI这个方向。

或者叫多模态大模型里面,是因为这些之前在机器学习领域做的比较深,但真的要谈到AHI或者叫聚生智能这个方向,或者叫世界模型,那我们模仿人类哈,人类其实听到的不光是别人说的话啊。

看到这个文字以及一些呃这种这种呃视频,其实在我看来,他可能听到的很呃,他可能吸收入到的信息是非常多样的,非常多样的,因为其实包括人的联想,那我看到这个视频,可能我想要后面有大屏幕,还有包括这个声音。

我可能听到的声音不光是大家在说话哈,可能这个各种什么汽车鸣笛啊,甚至惨叫对吧,都能让我想起什么古代的一首诗,其实这种维度,所以其实我们现在的这个多模态,离这个屈臣智能在我看来可能还是比较远。

它没有实现人的这种全面的一个功能哈,包括对我对自己,包括人其实还有一个点在于对历史的一个理解,那其实我对历史的理解是可能过去30多年,好多事情的一个总结,但是现在就这个模型本身来讲。

它的输入的限定长度是非常有限的,他不可能做到这一点,所以其实很多很多问题都还没有解决哈,呃所以可能只是在这个路上的一个,初步的探索啊,可能现在欢呼还有点早,好像不是我是我,我个人反正比较看好剧深嘛。

就是我觉得巨深,是这个把不同调技术路线给统一了,就其实就是咱们就是计算机学科,然后现在讲这个embody力的AI是吧,那人家那个机器人学科就一直都在做这个事,都多少年了啊,然后还有包括控制的。

那现在就是大家好不容易,就相当于是一个共识了对吧,但我觉得就是说embodied这个内涵,倒是可以探讨一下,就是他到底是说是呃人形的一个什么AI,然后去替代人,还是说跟人更好的什么那个叫做共生啊。

或者怎么样,就包括呃这个原来就很多人研究什么脑机接口,我觉得都可以纳入到所谓的这个,巨深的范畴里面来啊,然后可能更需要的是说呃,就特别是科研界吧,我就我这个自黑一下哈。

就科研界总是说哎我要去当那个老大对吧,就是就embodied,就我计算机学科要先做出来,而不是你控制领域,或者是你不能是你机器人领域,那其实到了现在这个阶段,我觉得大家还是应该这个合作吧。

就为了所谓的什么人类命运共同体也好,各个学科应该是贡献出来对吧,你擅长这个机械控制,你擅长机器人的,然后我们擅长算法的合作起来,大家共同实现这个东西,可能会加快这个所谓通向AJI吧。

否则的话还是各做各的,然后自己想呃,从自己的优势出发,把别人的这些全都包圆,那可能会比较低效啊,好啊哈哈哈,这个问题比较宏大,首先第一AGI这个概念这个定义啊,这个反正肯定有定义,这个本来是最最难的。

所以它本身就,但是我就感觉,现在我和我们好像对AI的要求太苛刻了是吧,又希望他能干啥都又需要比人好,各种各样的能力都好,都有是吧,我就这是这是这但这个是好的,这是什么,至少我们有一个目标在那啊。

这是这是这是这是好的,那么至于embodied,是不是通向AGI那条路或什么音,但我个人觉得就是embodied就是每一个技术,它它它的发展它肯定有个史,就是有个历史感啊,就到了这个点的话。

的确应该是EMBODIAI了,为什么这么说呢,就是如果我们是按照人AI是啊,我们是按照模仿人去的话,人的话其实叫什么,我们我们我们学院经常会提的就是感知,认知决策啊,这个我们经常说的那感知的东西是吧。

就视觉给它接进去认知的这块东西的话,也有可能有知识表示,但是N2P这块东西,它是能够得到一个输出是吧,就是像deep DeepMind他们做的时候,像他在做决策的过程当中,他也是把语言模型借出去。

有有那种action也是当这种语言的这种输出啊,所以之后就是真正的决策,决策的过程当中,你做完决策,你不是说我嘴巴说出来,或者写了一段字就行了是吧,但还得要一个actor,一个行动,就像我们人是吧。

我们嘴巴得动一下,我的声音才出去,我手动一下是吧,我才能够才能够干个啥是吧,那搅动一下才能够走啊,所以这个行动肯定是要必然的,如果按这个方向,那么那为什么那是这个时间点。

就是为什么in my body i,为什么红白是因为我们感知和认知,在大模型这个驱动下,大家觉得诶好像差不多了是吧,你如果你的输入实际上我像刚才讲的啊,如果你的输入呃是视觉的或者语言的。

你的输出是语言这个东西其实的应该是很快啊,我我这这个我不能这么说,但肯定是比较快,所以你只要你的决策,因为我们人去想这个决策的过程当中啊,你肯定是能够用语言能够能能描述的,这是可表达的,那这样一来。

那之后就是你一个行动了,所以这样串起来在这个时间点它就火,这也make个sense啊,所以这是我的一个理解啊,啊好赵建博士嗯,对这个AJI的话,可能大家就是普遍认为是。

它是跟人类的这个智力水平相当的一种,呃智能的这种呃状态,或者是能够完成人类所能完成的,一些这种智力水平的呃一些任务呃,这样的一个智能化的这种呃系统啊,嗯然后呢呃也有很多说法认为这个大模型啊。

或者是世界模型啊,是通往这个API的一些必由之路,嗯但是呢可能现在大家也都或多或少的认识到,大模型有这样那样的一些问题,然后世界模型它可能实现起来,就是说他要跟世界,他要能够理解世界。

然后要能够呃跟这个环境来进行一些交互,要有这个物理规律的这种认知呃,它可能实现起来是非常困难的,所以我认为这个AGI,它它的这个实现路径的话,可能呃嗯肯定是一个渐进式的,是一个分阶段的一个过程。

在不同的时期会有不同的呃代表性的,或者是大家聚焦的一些方向,来朝着这个这个这个最终的这个目标来,来这个演进呃,来演进呃,但是我觉得现阶段的话,跟这个AGI的这个目标还距离还是挺远的。

其实嗯就是从这个底层的这个学习机,机理或者是机制来讲的话,我觉得可能现在展咱们这个模型的,训练和学习的方式,跟人的这个学习方式就是有很大的区别的,现在大模型的这个,就包括咱们之前专家们做的这些报告。

现在大模型学习的这个方式,还是读万卷书的方式,可能人并不是这样的人,不需要去读一堆的书,我才能认识一个事物嗯,然后也不需要花费那么多的呃,这个所谓的算力或者是资源的开销,来去认识一个事物嗯。

它可能是一个长期的这个知识和经验的积累,然后再加上对于一些新事物的呃一些理解呃,但是这些理解可能是一些模糊的嗯,然后呢他他就会呃获取到这种呃新的知识,或者是新的技能。

所以我觉得现在咱们这个优化或者是学习的,这个呃方式的话,可能还是需要这种颠覆性的创新,那么未来才会有一个通往AGI的一个,更好的方式,好谢谢感谢感谢几位嘉宾啊,呃我觉得这几个问题我我我问的问对了。

然后学习到了很多啊,是这样的,就是说呃包括AGI,目前的话大家已经有了一个目标,但是呢如何实现它目前的路径是否可行,是否有更多的路径,是否可以探索出来,其它的形态,包括多和学科的融合。

不同技术的交互等等各种方式,目前的话确实是没有一个达成一个统一的状态,但是这正是我们巨大的机遇,如果像其他的一些已经成熟的技术那样,那可能这个对于我们来说,尤其对于我国现在的状态而言。

反而是一个呃不是那么有利的状态,但是现在这种状态下,反而这一个事情能成为一个有效,激励我们所有人长期前行的一个方向,下面那个向各位嘉宾请教一个产业呃,方向的一些问题啊,主要是两个方面。

第一个是属于产业的方向,然后目前的话大家都在,很多人都在讲AI加的场景,那么大家认为有哪些场景,会兼具这种研究和落地的价值,这是一个方向性的问题,然后另外有了方向很重要的一个点就是风险。

那么我们选中的方向,有哪些潜在的可能性的风险呢,会带来什么样的危害呢,以及有了这些风险,那么可能在座的各位专家,有什么应对风险的建议呢,好这一个问题请啊赵建博士那边呃,这个方向的话。

我觉得其实有很多方向都是非常有价值的,然后前期的话我们也经过了一些思考,和和这个论证,呃,我们觉得呃现在我我这边的话主要有三个呃,这个这个方向也在在探索啊,一个是刚刚才我也在报告中介绍过了。

就是这个呃无人机的这个综合管控,那么不管是呃,呃从这个反无人机的方向来来来来思考,还是说从这个低空经济运维的方向来思考,就是因为这个后面,咱们国家的这个低空资源也逐步放开了以后。

肯定也要建立一套空中的这种交通规则,那么需要这个对空中的这个目标,它的这个运行啊,包括这个一些情况来进行这个探测,来进行这个管控运维嗯,所以这个可能也是一个很好的方向。

包括跟各个领域的一些技术做一些结合,然后第二个的话就是这个林地安防,林地安防,我们认为仍然具有很大的,这个研究和落地的价值,因为现在不管人工智能,发展到什么样的一个程度呃。

大家都在做一些呃这样那样炫酷的一些研究,但是实际上人工智能最好落地的一些场景,还是在安防上,安防能够创造很大的价值,嗯包括在电信这边,我们有很多很在全国各地有很多很多的摄像头。

然后呃这个安防仍然是其中一个很重要的一个,一个一个一个方面嗯,然后在这个里面,就是刚才我讲的这个无约束条件下,其实还是存在很多种这个挑战,我们需要去解决,然后第三个的话,就是我们现在也是在结合大模型。

多模态和生成式做一些事情,就是做一些agent相关的这个,智能体相关的一些一些工作,因为这个呃文达不是也指出,这个智能体研究,可能有四个方面是比较有价值的嘛,啊一个是反思啊,一个是这个这个规划啊。

一个是使用工具的能力,然后还有一个是多智能体的协同嗯,我们现在主要是在做这个呃,利用大模型来做一些工具使用的一种呃,我们认为这这这些方向的话,可能未来构建这种智能化的私人助手呃,智智能化的这种助理呃。

会是一个很好玩很有价值的一个方向啊,然后这个安全风险的话呃,可能存在几个不同的方面吧,呃昨天我在那个新同苑开这个呃,开这个人工智能伦理方面的一个会,就是这个工信部那边制定了一个,关于这个人工呃。

人工智能科研和开发的一个人工智能呃,伦理方面审查的一个一个一个办法,然后在里面我们也提到了很多,这个可能潜在的风险和解决的对策,可能主要包括几个方面啊,一个是呃简要说一下,一个是数据的安全和隐私啊。

一个是模型的误导和不实信息的传播,还有一个是网络的攻击和模型的安全,然后还有一个是这个偏见和不公平,那么针对这样的几个呃风险的话,我们认为可能从几个方面来来进行,这个采取一些措施呃,可能有一些缓解呃。

一个是净化我们的这个训练数据的这个来源啊,还有一个是提升模型的准确性和透明度,然后再有一个是加强模型的安全性,测试和伦理安全方面的监管,好谢谢哈哈哦,我我在高校也不在产业,所以我这个没法给一个具体的。

那我就讲点虚的是吧,讲我感觉啊就是首先第一在咱们国家是吧,首先你要说产业方向,其实看上面那个文件一般是面向国家战略需求,面向人民的生命健康是吧,但还有一个像我们高校还是面向世界科学,科技前沿。

这个不是产业的事啊,所以这是一个虚的,那么之后如果要真要去要真要考虑方向的话,怎么去思考呢,这个我个人觉得就是,首先你得要知道你那个场景,那个产业的场景,因因为我我没做产业。

所以我只能只能根据我自己的理解,你那个产业的场景对于这个效果,就是它那个精度或者那种可控要求有多高啊,如果你是一个非常对于精度啊,就是让它回到非常就不能让他出错,或者不能让他弄的话。

我个人觉得目前大模型还没到这个,这个这个水平啊,这就是传统的那种小的小模型,专业化的模型,它其实也还还没到那个水平啊,所以这是这个,但如果你能够容忍他出错,有时候它还能够他出错,它还能够比较有趣是吧。

那种娱乐性质的,我个人觉得这是这是肯定是没什么问题的,但只要你能够让他输出控制啊,控制它输出的那些内容啊,不违反法律或者不违反一些什么样的事情啊,这个是这个是可以的,但这里面最重要的原因是什么。

还是从技术那个层面啊,就现在虽然这些模模型效果是不错,但是如果当你玩多了以后,他其实很大重大的一个问题是什么,它很多东西它不可控啊,这是一个最这是一个其实这是个技术问题啊。

但也有可能通过一种什么产品那个方式,像以前咱们做搜搜索引擎是吗,可以什么名单那些东西可以控制,但从技术手段上,从模型那个训练,包括他那个优化技那个层面,这个可控性的确是很难的一个问题啊,至少从技术上啊。

现在这个这个是我的一个理解啊,谢谢对我的理解就是反AI包罗万象啊,就我还是拿大模型举例子吧,然后同样是来自这个科研院所,所以场景举不出来,我就举行业吧,就反正我个人个人认为,就是行业数字化程度高的。

然后数据格式比较统一,规整的,肯定是优先落地的,然后就比如说金融啊,电信啊肯定是优先的对吧,然后相比其他的可能更传统的,比如说什么农业,可能的他可能就要稍微滞后一些啊,然后对我现在这一个风险。

我自己个人挺担心的啊,就是现在我看嗯,反正我接触到的啊,各个行业的这个同仁,都说我们要搞这个行业大模型啊,我我我跟金融企业合作比较多哈,就是这个四国有四大行,都要做自己的所谓的行业大模型啊。

每个行搞一个,就将来你真的说一旦这个大规模落地了以后,我对能源就很担心啊对吧,所有的你想所有的这个这个这个实体市场主体,然后都有自己的一个所谓什么垂玉大模型,然后每天跟那跑对吧。

那我们消耗的最多的其实最后是电力哦,那可能整个对这个国家的民生都造成影响对,所以我的建议就是说,大家在这个行业大模型的这个构建上,还是要稍微审慎一点,或者说得有一个统筹吧。

啊就就其实这个重复建设也没不太有必要,还是大家联合起来,可能比如说电信行业的一个大模型行不行对吧,这个银行业的就一个嘛,然后完了用的时候也是类似于共享,那这样的话可能也会造成避免嘛。

避免造成一些这个资源的浪费哦,我就说这么多啊,我个人理解其实AI加可以分成两个维度哈,第一个就是之前完全没有这个呃,使用AI的场景,那么现在添加到AI,然后还有就是之前其实已经是AI化的。

只是现在因为这种大模型啊或者技术的提升,把AI的能力的做进一步的也是对应的提升,可能分成这两个方面,那第一个呃我先说这个提升吧,其实现在因为大模型,最开始大家可能引起大家的这个注意呢。

就是在这个交互方式上,那突然他能这个问什么问题都能回答了,然后现在包括又添加了各种的模态,那其实我觉得在各类的传统的对话,相关的维度上都可以做一个AI加,相当于是AI技术的一个提升。

那比如像刚才提到智能客服,比如像这个家庭陪伴,还有甚至像这个博物馆讲解等等,但凡涉及到交互的,其实都可以做在这个AI维度上一个提升,然后另外一个点的话,就是这个之前完全没有AI。

现在要这个基于大模型也好,或者更新的这个AI技术的一个一个呃添加的话,其实现在反而倒不是很有明确有这样的方向哈,因为确实即使没有大模型出现之前,AI已经发展了很多年,但凡能AI化的。

其实都已经得到很多的探索,所以我觉得更多的还是一个AI技术的提升啊,这个AI加,我觉得是在原有AI的基础上,去加更多的AI的一个深度,就是这样一个点,然后我就补充这么一啊一点好,谢谢宋云博士呃。

感谢几位嘉宾啊,就是说各位嘉宾从AI家,从行业,从能源以及大模型的这个行业,大模型等等各种角度来分析了这个问题,让我感受到行业大模型目前的发展,探索之路可能还很漫长,需要我们所有人共同努力,然后接。

然后接下来的话,我们那个呃收集了现场的一些问题,然后这些现场的问题是针对每位嘉宾的,然后请为了节省时间,我们就每位嘉宾,然后直接简短的回答一下呃,第一个是给宋博的一个问题,在产业应用的层面。

强化学习是必要的吗,相对SFT有什么优劣势,怎么学习啊,强化学习强化学习啊,强化学习,这个其实跟我刚才讲的内容是很相关的哈,那其实在我们实践来看,强化学习确实是非常有必要的,因为呃就像我刚才也提到。

可能在不同的场景,我们对模型的要求也是不同的,而不管是电信也好,其他各个这个呃做这种产业化的厂商,那其实我们提供的能力,不管是对内对外,甚至就包括对内来讲,其实在不同的场景,我们也需要有不同能力呃。

模型能力的限定,那其实在这个基础上,我们不管是这个呃场景化的SFT,还是场景化的这种强化学习,包括这种PPO和DPO,其实都是非常有必要的,我们需要针对某些特定的场景化的能力,做定向的提升。

那这个时候的话就是呃,就会涉及到这样的一个点,所以我觉得这个问题的答案肯定是是啊,是是肯定的啊,嗯好对,谢谢邵云博士,下一个给敖翔博士的问题,请问在算力有限的情况下,您在大模型应用。

尤其是聚焦于对小模型的应用方面,有什么更多的思考与启发,对呃报告里展望也也提到嘛,就是说将来如果能够在这个参数训练层面,能够结合的话,可能是一种更好的方式,简短回答就是这些啊,哈哈好的,谢谢翱翔博士呃。

给黄雷博士的一个问题,在回归和生成任务上,LN网络是否有万能学习能力,在回归和生成是吧对哦,首先第一就是因为我刚才讲的那个是一个分类,然后因为机器学习就两个问题啊,因为包括数据也就只有两个。

一个是离散的,一个连续的离散的问题,基本上是分类,然后连续的问题是回归啊,回归这个问题,现在我们这个结果是没有,但是我们现在学生在做的,在过程当中,基本上从直观上应该是可行的,但是那个不是无穷深了。

有可能是无穷宽,还有一些别的机制,这里面简单透露一下,但是还在做,因为那个整个数学的证明非常非常长啊,所以这这是这是这一个结果,至于生成这块,因为刚才我讲的,因为生成这块的话,这怎么去定义啊。

因为我说过经济学就两个问题吧,一个回归和一个那个分类啊,如果你的生成如果是一个,如果像那种predict,像像token这种预测,它一个分类一个分类的一个那种,他就是个分类问题。

如果你是像那个什么视觉那种直接去拟合那个,那它就是个回归问题啊,所以你是可以拆解的,但至于这个拆解过程当中,如何把那个条件信息把这个理论给加进来,这个其实是也是一个理论的一个研究问题啊。

这种关于条件的这种主从数学上往上走啊,这是这是我的一个回答啊,谢谢啊,好谢谢,黄磊博士给赵建博士的问题,大模型会给各行各业赋能,当下呃,未来大模型行业会增加哪些就业岗位,对个人的技能学历有哪些基本要求。

最后一个是什么,对个人对个人的技能和学历有哪些基本要求啊,呃一个直观的感受,我觉得呃,现在我我不知道大家以前看deep learning的paper的话。

可能大家发现这个deep learning的paper里面的公式非常少,然后现在如果看大模型的配分的话,或者是跟看这个基于大模型做一些呃,其他问题的一些paper的话,可能基本上就找不到这个数学建模了。

嗯所以我觉得可能更多的这个技能的需求的话,是一个系统工程方面的这种技能,或者是系统工程方面的思维,就是说从一个呃解决问题的视角,问题导向或者是需求导向,然后去去做这个科研也好,或者是应用的创新也好。

嗯嗯未来的这个可能比较好的一些方向的话,我们现在是在做一些基于agent的方面的,一些研究和应用,就是围绕这个衣食住,行用等等不同的方面来构建这种呃智能体呃,或者是叫智能的私人助手。

那么实际上在不同的领域的话,都有一些关键的技术,可以去跟大模型做一些结合,然后呢捆绑在一起呃,构成一个整个的pipeline呃,来这个给老百姓的这个日常生活中,所面临的这个方方面面。

来提供这种呃赋能和智能化的支撑,实际上现在也有很多这方面的呃,研究在不断的涌现出来,包括这个智能医疗啊,智能法律顾问啊,嗯然后这种呃智能穿搭呀,呃智能剪辑呀等等,实际上我们也是呃现在不断的在。

在这些垂直的领域要结合大模型,多模态理解和生成式等等嗯,来做一些这种呃前沿的探索和应用的创新,嗯也是欢迎大家如果呃感兴趣的话,呃到我们电信研究院这边来,我们一起来这个做这这些方面的一些,有价值的事情。

谢谢好,谢谢赵建博士啊,最后一个问题是给我的,如何客观评估数据的质量,然后这个地方我的看法是这样的呃,首先你自己要定义好什么是高质量的数据,我举个例子,广告黄赌毒这类信息是你需要的数据吗。

很多人可能答案是否定的,但是我们从另外一个角度来思考这个问题,广告本质上来说是属于人类创意的一个结晶,很多广告的创意都非常好,那么你适当的学习下自己创意性比较行的广告,会对你的模型能力是否有提升。

这是第一个角度,第二个角度,黄赌毒相关的信息,我们举一个例子啊,一个小朋友,他在他的这个生长过程中,比如说从小学到大学,如果完全没有接触到黄赌毒的信息,那么当他步入社会以后,对黄赌毒信息之类的。

这种分辨力以及抵抗力会是什么样子的,但是如果在他的成长过程中,我们适当的教导他这方面的信息,告诉他什么是好的,什么是不好的,那么当他步入社会以后,会不会有其他的表现呢,这一个问题也可以反映在。

这个大模型的训练过程中,你对数据的理解好,我就讲这么多,最后非常感谢呃,全场的所有的观众和全场所有的嘉宾,谢谢大家。

2024北京智源大会-大语言模型 - P1:论坛背景与嘉宾介绍-赵鑫 - 智源社区 - BV1zE421N7UJ

尊敬的各位来宾,大家下午好,嗯非常嗯非常欢迎大家来到我们这个呃,大语言模型这个论坛啊,相信大模型啊,这个名词可能几乎来在座的所有所有的听众,应该都很清楚啊,这是是这个这两年最前沿的一个技术。

也是最有可能呃实现AGI到目前为止吧,最有可能实现AGI的一条技术路径啊,但同时就是我相信可能很有很多人,也有很多的一个疑问,比如说大模型是如何去训练出来的,然后大模型底层的工作机制是如何去建立的啊。

所以我我们今天这个论坛啊,就是不能对于针对所有的问题都给出,非常清楚的呃非常确切的一个答案,但是我们试图针对这些核心的问题去做一次,深入的一个呃探讨啊,所以我们这次技术论坛。

我整体上定位还是技术上应该是比较硬核的啊,我们也是邀请了可能呃全国这个呃顶尖高校,包括呃训练大模型的顶尖公司来的,青年的技术人呃,技术人员为我们来讲解呃,包括后面我们还有一个PO讨论。

去探讨这些最底层最核心的一些技术问题呃,那我们首先就先开始我们的第一个报告嗯,我们第一个报告是来自于北京大学的赫迪老师,我先简单介绍一下赫迪老师嗯,赫迪是赫迪老师,是呃北京大学智能学院助理教授。

然后前微软呃亚研院主管研究员,那么他所从事的方向主要是积极学习呃,算法与理论方向的研究工作,然后已经在呃呃重要的期刊会议上发表论文,多篇引用次数超过了8000啊,然后他所设计的模型和算法。

多次被deep man的open i呃,微软meta等国际顶尖机构所使用,然后也曾经获得机器学习顶级国际会议,ICLR的杰出论文奖,和ICLR2024的杰出论文提名奖啊。

那下面我们就呃邀请嗯请这个赫迪老师。

2024北京智源大会-大语言模型 - P2:是否所有Transformer结构都具备思维链推理能力?-贺 笛 - 智源社区 - BV1zE421N7UJ

呃大家好,我叫贺迪嗯,我们知道大语言模型实际上是一个,现在非常非常火热的话题,不仅是在工业界的时候在讨论这个问题,在学术界,甚至是在这种创业界都是在讨论大语言模型,它的问题是什么。

并且大语言模型它能够解决的东西是什么,如果让我们去说这里面的几个说好,现在大语言模型发展得这么迅速,那么它背后最重要的一些技术是什么,那么对于我来说,我可能会说。

transformer这样的一个模型结构,是让大语言模型表现出这么强大的实力的,这样的一个最重要的环节之一,当然除了穿梭门这样一个模型结构呢,还有像英伟达这样,提供了非常非常多的这种训练资源的这种支持。

那对于穿梭门来说,实际上它也并不是没有竞争对手,或者是说现在其实有很多很多的工作,不仅是来自于国外,也是来自于国内的,很多很多的工作都在试图挑战穿梭门的王座,为什么这么说呢。

因为transformer本身它的确是有些问题的,其中一个最大的问题就是它的效率的问题,我们知道transformer,它里面有self attention这样的一个机制。

那么当他去放在这种比较长序列的上面的时候,self attention在处理长序列问题上的速度,实际上是非常非常慢的,这样就会导致你的序列非常长的时候,穿梭门需要花非常非常多的时间去理解。

或者是去生成这样的一个长序列的东西,那为了解决这样一个问题呢,其实学术界和工业界设计了非常非常多的方法,这些方法每个方法都有各自的名字,但是总体来说他们有一个字体,整体的一个名字。

他们都叫做这个efficient transformer,这种高效的穿梭门,大家会采用不同的技术路线,比如说第一种办法是说,我去减少一下这个key value pair的数量。

那么一般时候我们会管这样的模型叫做sparse,Transformer,他的代表工作呢是g b t two,比如说第二类方法,我是去reduce1些dimension。

尤其是涉及到长度的dimension,这样它对应的模型呢叫做low rank transformer,比如说像呃meta的informer就是类似的方法。

第三种呢是去reduce这个这个soft max,里边的一些computation,那这样对应的方法呢,一般我们叫做linear transformer,当然了,上面的三种方法是非常非常基础的方法。

它们之间可以相互之间的复合使用,那么会构造出非常非常多的模型的变种,比如说像我们现在知道的这个s four,包括像最近非常非常火的曼巴,包括曼巴two,包括国内的一些模型,像RWKV。

包括像微软的模型叫做RENET,都是围绕着类似的方法,试图去降低transformer的计算效率,但这个时候就会出现一个问题,就是当我们看到这么多的模型,有这么多的穿梭的变种。

那当我们面对一个实际的任务的时候,我们到底该如何选择模型去完成我的任务呢,或者问一个更本质的问题,就是有这么多的模型,到底哪一个模型是我们的真命天子,它可以真正的完美替代,传送门这样的一个结构呢。

那这个实际上就是一个非常非常重要的问题,那为了回答这样的问一个问题,我们先去看一下我们有可能得到什么样的答案,比如说我们现在面临一个task,我们管这个task叫AOK。

我们的目标是使用类似transformer这样的结构,去解决这样一个task,那我们可能碰到的第一个情况是说,所有的这些模型OK我采用相同宽度,相同深度这样的模型,这样的模型我都可以去解决。

这样的它一个task a,那在这种情况下,显而易见的,作为刚才我们提到的这些efficient transformer,它显然是能够解决task个A,并且它的速度比TRANSER快。

那这个时候毫无疑问的,我会选择这样的一个efficient的穿梭门,作为我的transformer的替代品,但第二种情况是什么呢,第二种情况是说以fusion的穿梭,而不管上面说的哪一种穿梭门。

它都没有办法解决这样一个task a,但是有可能transformer可以解决,那在这种情况下,我们显然就会得到一个结论,就刚才我们说的这些efficient transformer。

实际上它都并不太work,换句话说,如果这个task a是一个我们非常关心的task,我如果能够从理论上告诉大家,以pn transformer就是做不出来,那这条路可能就是走不通的。

那还有第三种比较tricky的setting,这个setting就是说,efficient的transformer也能够解决,但是呢只不过它需要的参数量,可能要比标准的穿梭门要大一些。

比如说它可能需要更多的层数,或者是更宽的宽度去解决这件事情,那对于这种情况下,我们就需要仔细地去算一下,以vision的transformer,去解决这个任务所花的计算时间。

和transformer解决这个任务所花的计算时间,到底哪个多,哪个低,哪个多哪个少,那这个实际上就引出了一个理论上,大家比较关心的问题,就是K我们看到了这么多的网络结构。

transformer r w k v曼巴,包括RTNET这样的结构,那这些结构他的表达能力到底是什么,他表达能力的上限到底是什么,它到底哪些任务他可以做哪些任务,他做不出来,那这样就引发我们去思考。

OK我看到这么多的模型,它的表达能力到底是什么,表达能力,实际上是在深度学习理论里面的一个,非常非常经典的问题,我觉得像呃,大概在座的所有人,应该都是做和深度学习相关的呃呃呃领域。

但是我觉得可能并不是所有的人都比较关心,穿梭呃,都比较关心深度学习的理论,因为深度学习理论这个东西,其实它真的指导实际的作用,相对来说是比较弱的,比如说在80年代的时候。

当我们知道的第一个深度学习的理论,实际上就告诉我们是说,OK深度学习的这些模型或者神经网络,它有着非常好的表达能力,因为它可以去拟合任何一个连续空,间的连续函数,当然我们会管这样的一个定理。

叫做universal approximation,也就是说我一个神经网络,只要你的足够宽足够深,不管是你是MLP还是什么复杂的网络,它都可以在一个连续的空间内去拟合,任何一个连续函数。

那这样的一个结论,大家去想它有什么实际的意义,或者是说它能够指导我们去设计,或者是理解我们现代的神经网络吗,那这个里边的指导意义可能相对来说比较小,但相对来说比较小的原因。

一个是说它这个这个这个考虑的网络,可能比较简单,但另外一个其实主要的原因是说,它所使用的这个假设相对来说是比较强的,所以比如说在这个里面我突出了两个地方,它都是假设continue。

也就是说我关心的是在一个连续的空间内,我的一个神经网络,我去逼近一个连续函数的能力,但是如果我们去看现在我们的大模型,实际上它这两个假设都是不满足的,比如说我们在大模型里面,我们的setting是什么。

我们的输入是离散的token,我们的输入是一个vocabulary,里面的一个一个token,而我们输出的也是这个WORKERLI空间里面的一个,一个token,那所以从这个角度上讲。

它实际上是一个sequence to sequence的mapping,那显然它不是一个这样的连续的空间,连续的这种抖妹上面的一个mapping,那它就满足不满足我们后面的这个continue的这样的。

一个要求,第二个很重要的问题是啥呢,第二个很重要的问题是说,我们所有现在训练大模型或者使用大模型,我们都实际上是用的finite precision,比如说你如果要训练非常大的模型。

你可能需要用BF16这样的一个精度去做,当然你如果训练一个比较小的模型,你可可能可以用这种FP16的精度去做,那在你这种精度限制的情况下,相当于是说不管是你的中间的输出,还是你的输入。

还是你最终得到的结果,在某种意义上,它实际上都不是连续的,那在这种情况下,实际上K我也不是一个连续的函数,那如果从这两个角度上来看好,我的模型,我不是一个连续的这样的一个映射。

我本身任务也不是一个连续的任务,那这个就相当于意味着我们80年代的时候,以为的这种万能的这种神经网络的表达能力,万能的这种神经网络逼近任何一个函数的能力,在我们现在的这样的一个setting下。

实际上它的意义并不是很大,那换句话也就是告诉我们说,我们其实现在对现在的我们的所使用的,这种language model,它的表达能力,它的上限是什么,它的limitation是什么。

我们实际上一无所知,那过去的这些theory,或者是一些theoretical的一些analysis,它其实在某种意义上也不一定说它是严格的,非常的适用于我们现在的这种实际的,这种使用的情形。

那我们也需要去开发一些新的SIRI出来,那讲完80年代的工作以后,我们再讲一些最新的工作,那最新的工作实际上主要都是围绕着,去理解这种大模型的表达能力,那大模型的表达能力很多,它可以做很多的事情。

那比如说我们最新在学术界,比较关心的就是大模型,它去解决推理问题,他去解决数学问题,他去解决这种规划问题的能力,因为这些问题实际上是大模型,相比过去的BERT所展示出来的新的东西。

嗯说BT已经解决了很好,相对来说比较好的解决了一些语义的理解,当然我们看到大模型里面,他做出了很多的这种推理呀,规划的能力,那我们会关心,为什么大模型可以做这样的一些,非常复杂的事情,那第一件事是。

我们在刚才我们讲述的这些更新的假设下,也就是说考虑到了这种sequence to sequence mapping,同时我们也考虑到了,整个我们的训练是在一个低精度下的训练。

我们最新得到的理论结论是什么呢,我们最新得到的理论结论是说,OK在我们的language model里面,这种思维链,它对于planning和reasoning是非常非常重要的,为了得到这件事情。

我们需要用两件事情来说明,第一件事情是说如果给了一个穿梭门,这个穿梭门是一个非常非常大的模型,我如果希望这个transformer能够直接生成,答问题的答案,比如说我们关心一些比较典型的问题。

比如像右边图里面展示出来这样的问题,就是一个典型的四则运算问题,那理论上我们可以证明,如果我们希望一个transformer,它能够直接生成一个四则运算问题的答案,这件事情在理论上面是没有任何可行性的。

为什么呢,理论上我们可以证明,如果一个transformer,我希望你这个transformer,直接去解决这个数学问题K的话,那我们可以得到的第一个东西是说,穿梭他的表达能力。

如果让他直接去解决这样的一个问题,的表达能力,它所对应的计算复杂度的类叫做TC0,TC0实际上是一个计算复杂度的类,它可以类比于P和NP,但实际上TC0是一个非常非常小的,计算复杂度的类。

并且很多很多的这种推理问题和,规划问题和数学问题,它们所对应的计算复杂度,是要远远比TC0大的,因此经过这个两个结论,我们就可以得到一个第一个比较重要的结论,就是说transformer。

你让他去解决这样的数学问题,你让它直接生成答案,这件事情是根本不可能,原因就是说因为它本身让它直接生成答案,所对应的计算复杂度是TC0,而其他的很多的这种planning和reasoning的问题。

它的计算复杂度都会远远超过这样的一个,TC0的这样的一个类,第二个结论是什么呢,第二个结论是说,我们可以证明对于很多的问题,比如说一些数学的这种这种K4则运算的问题,或者解线性方程组的问题。

我们都可以证明,如果我对transformer,我不是试图让它直接生成答案,而是说我希望你能够一步一步的帮我生成答案,也就是说我可能去生成第一个等号,后面我只是解决了这个整个的四则运算的。

最高优先级的一些操作,然后第二个等号呢,我是去解决第二优先级的一些操作,然后这样不断的等号下来,然后我们可以证明的一件事情是说,在你使用COT的情况下,如果transformer能够使用COT的话。

那它的表达能力,它能够解决的问题,实际上会远远的超过这样的一个TC0的class,这个大概想法是说,因为在CUT下,我实际上模型每次只需要吐出一个中间的步骤,比如说我给我一个问题以后。

我先生成第一个位置的token,然后把第一个位置的token丢进来,然后再生成第二个位置的token,然后经过一个很长很长的思维链,我最终才生成最终的结果,那在这个过程中,大家可以想象。

我从我的输入到最终的结果之间,实际上执行了非常非常多次的这样的,transformer的操作,那它所带来的非线性性的提升,实际上远远的比你让一个穿送门直接生成答案,要大得多的,那这个实际上也是告诉我们。

COT在让大语言模型去完成推理上面,是一个必不可少的环节,那同学可能会问说好,我如果是transformer和cot合在一起去做,那它能够解决的问题的上限是什么,这个实际上也是最近一个工作。

这个工作的结论是说,transformer加上思维链了以后,它能够解决所有的P问题,并且是在polynomial step下面,那这个实际上就是给整个的transformer的,表达能力。

以及transformer和COT合在一起的表达能力,给了一个非常非常强的刻画,也就是说比如说我们关心它解决问题,那所有的在图灵意义下,可能大家关心的都是P问题,那现在的结论实际上是会告诉你们。

是说OK我有一个大语言模型,然后我加上这种step by step的这种chal salt,那我其实理论上边说,我可以解决所有的POLYNOMIO的问题,那我们刚才讲的所有的结论。

都是围绕着穿出门这样的结构的,但是我我们也记得,在我们在一开始的几页slides里面的时候,我们说的是说除了transformer以外,实际上它有非常非常多的竞争对手,那我们关心的下一个问题。

就是说可刚才的理论相对来说比较清楚了,transformer本身自己能够解决的问题,和transformer加上COT以后,它能够解决的问题是什么,那我们下一个需要关心的问题。

其实就是对于我们刚才说的那些,efficient的transformer,那它到底是不是能够去解决,上面说的所有的问题,比如说一些reasoning的问题,比如说一些数学推理的问题。

那我们采用的这个看的问题的切入点是什么,我们选了一个比较有代表性的问题,也就是所有dynamic programming的问题,动态规划,我们如果假设这个reasoning length是L的话。

那么对于一个标准的穿梭门来说,它如果去完成整个的这样的一个,动态规划的推理来说,那它的计算复杂度是OL方,这个我们其实刚才也展示了,transformer加上chem so的。

它是完全可以解决DYNAMI个programming的,但是我们会比较关心以fusion的transformer,刚才我们提到的这些模型,它是不是足以去解决这样的dynamic programming。

但是非常遗憾的是什么,非常遗憾的是说,我们刚才提到的很多的efficient transformer,它本身是不具备解决任何一个dynamic programming,问题的能力,那换句话说。

我如果已经有一个EVISION的transformer,不管是说我刚才提到的一些中的一个还是什么,那我假设我的这个模型,我已经的size我已经定好了,比如说我模型的深度已经定好了。

我模型的宽度都已经定好了,那我们在理论上可以证明,这样的一个以皮神的transformer,它是不能够解决所有的dynamic programming的问题的。

那这个实际上是一个比较negative result,换句话说它相当于告诉我们,我们过去可能认为很多EVISION的结构,它实际上在解决一些复杂推理问题上,他会都遇会遇到一些本质的困难。

而且很有可能这些本质的困难,是没有办法被解决的,OK第一个点是说,一个constant size的EFUSION的transformer,没有解决这个问题,那没有办法解决这样的问题。

那到底一个什么样的efficient的transformer,有可能能够解决这样的一个问题呢,我们给出了一个结论是说,如果你希望一个efficient的transformer。

能够解决这些reasoning的问题,那么它的模型的大小,要比一个标准的transformer要稍微大一点,比如说我们给了两个结论,K展示了两种非常特殊的efficient transformer。

第一个是spars transformer,第一篇spars transformer,也是第一篇linear transformer,我们给出的结论是说。

如果这样的两个efficient transformer的结构,你期望它能够具备解决reasoning问题的能力,那么你需要这种模型的宽度,也就是说它的hidden dimension的宽度。

是要随着L有一个增长的,其中这个增长的skill大概是根号L,如果感兴趣的同学可以去算一下,如果你这样的一个以替身的穿梭门,如果你能够让它的模型的宽度,随着长度是去增加的,即使是在这种情况下。

你会发现这样的一个EFFICI的transformer,在这样的一个宽度设计下,实际上它去解决所有的dynamic programming的问题,它的计算复杂度你会发现它也是L方,那换句话说你会发现。

如果你要是为了去解决这样的推理问题,如果你希望一个efficient transformer,它足以去解决一个推理问题,那它的计算时间其实和标准的穿梭,没有任何区别,那这样意味着什么。

其实意味着我们刚才提到的很多的一批,TION的transformer,它首先本身不具备推理问题,第二如果你希望它具备推理问题的话,它实际上并不会节约任何的时间,我们针对这样的一个问题。

实际上也做了一些实验,但我们都做了些一些相对来说比较简单的实验,比如说我们会做四则运算这项的实验,那在一个比较简单的这样一个,四则运算的setting下,OK我的横轴是我的dimension。

而我的纵轴是我问题的难度,然后呢我把它是否解决这个问题,用颜色标出来,如果这个颜颜色越亮的话,就代表着我这个模型解决了这个问题,而我如果这个颜色越暗的话,就代表着我这个模型没有解决这个问题。

然后我们也比较了三种不同的模型结构,分别就是我们刚才说的一个标准的transformer,一个linear transformer,以及一个spars transformer,从这三张图里面。

从这三组图里面大家可以清楚地看到,首先一个标准的transformer,它这一横行,实际上它的黑上黑色的点非常少,那实际上就意味着是说,我可以在一个相对来说比较dimension,比较小的维度上面。

我可以比较EFFICI地解决所有的问题,但是大家也可以看到,对于这样的一个linear transformer,和对于一个spars transformer,他们去解决这样的推理问题,所需要的这个宽度。

会比标准的transformer更宽多一点,体现在就是下面的两张图里面,黑色的点非常多,而第一行的时候黑色点非常少,那实际上就显示K比如说最后一个,我如果看sparse transformer。

去解决最长上升子序列这样的问题,你会发现它的dimension,即使到了512或者1024,它都没有办法去解决,但是你如果看标准的穿梭门的话,他去解决最长上升子序列这样的问题。

DEM犬只要256就可以做到,这个实验基本上也佐证了我们的理论的发现,换句话说,如果你希望一个更快的transformer,你希望它去解决一些比较复杂的推理问题,那你就不能够使用的模型的size。

和一个标准的transformer一样,你就需要一个更大的size,然后以期望它能够去解决它,但是你当你size比较大的时候,那实际上这些更快的模型也失去了,他的这个这个所谓的这个效率的这个好的地方。

所以刚才所讲的内容,就是我今天想跟大家分享出来的内容,我们第一个想分享出来的东西,实际上就是说,我们可能对我们自己以为的,那些以fusion的transformer的能力过于乐观。

然而这句话也实际上也不是我说的,最近实际上有非常非常多的一系列的工作,那一系列的理论工作,这里面也包括我们自己的工作,都说明了一件事情。

就是efficient transformer实际上并不efficient,它其实跟标准的transformer,之间的差距是非常非常大,甚至这个差距是没有办法跨越的,第二个事情是什么呢。

第二个事情也是最近另外的一条路,也是最近比较火的一个东西,就是采用这种hybrid的model,比如说对于AI two,实际上他们design了一个hybrid的model。

如果大家真的去看微软的FI3,它的这个这个这个技术报告,然后它里面也会说它使用的是一个hybrid mode,这里的hybrid指的是说efficient layer。

和标准的dance attention layer相互叠,相互去这种交替的使用,但是它的优点是说好,它里面有相对来说比较少的这种DSLAYER,所以它相对比较快,同时呢从理论上讲它也能够避免很多的问题。

包括如果大家感兴趣的话,去看昨天挂出来的一个RKB,我也是刚刚看到,然后也是曼巴团队他们做的,他们实际上做了一个model,他们claim的效果是发现最好的,是一个曼巴hybrid,如果没有记错的话。

曼巴hybrid里面用了45%的,Mana layer,5%的dance attention layer,以及50%的MLPOK,他说这样的一个模型,他发现能够达到最好的效果。

并且也是一个比较好的EFUSION,自己的一个trade off,所以今天OK跟大家想share的,主要就是这样的一个东西,主要是关于transformer的一些理论的,能力的上限。

以及以fusion的穿梭门的理论的能力的上限。

2024北京智源大会-大语言模型 - P3:理解与探索大模型能力涌现--东昱晓- - 智源社区 - BV1zE421N7UJ

然后大家下午好,我是来自清华计算机系的东云晓,然后今天给大家分享,我们其实在其实是我们做JL模型,系列模型做了很长一段时间,但是今天的报告可能更多的是过去半年的一些,呃成果,KOK那首先大家知道。

其实我们做大模型其实其实需要算力,需要数据,需要所有的这些,其实最终的一个前提是需要人对吧,需要我们过去呃,呃大约34年四五年的时间吧,很幸运,其实跟呃很多青年的同学,青年的同事呃,青年的老师。

还有那个那个在唐杰老师的带领下,其实我们一直在折腾大模型,然后我今天介绍的工作,其实主要是呃这几位年轻的同学和学者呃,在过去一段时间的一些成果,可那我们直接直入主题,其实我特别开心,那个赫迪老师。

刚才关于最后一个问题的那个答案,他如果说理论上已经证明了,我们我们应该怎么堆积木,或者是不需要堆积木,或者是怎么堆啊,堆多少,我觉得今天我这个报告就可以就轻松了,或者说我们接下来的这个这个工作就轻松了。

就不用像过去很长一段时间,相对来说非常焦虑的,这个跟大家就不得已的这种互卷大模型,互卷训练,互卷对齐等等一些情况,可那呃首先直入主题的话,大模型其实这张PPT或者这个截图。

应该大家在过去从ChatGPT出来之前吧,大家应该都经常看到这个图,就是那个JASONWEI他们在呃,那个在google和STANFORD一起合作的一个研究,他当时实际上就是empirical的呃。

揭示了一个现象,就是说随着就是比如说在这张图里,随着横坐标这个这个这个参模型参数量的大小,或者说计算量的大小,对相关的一些呃,这个学术的benchmark或者test set的一些成果呃。

一些这个这个所谓的performance性能,大家可以看当时的一个结论,核心它的一个imperial的一个核心的结论,就是说随着参数量的变大,实际上呃模型在呃达到一个阈值之前。

参数量或者是计算量达到阈值之前,效果其实没有呃,比随机猜,或者是这个普通的模型取得更好的一个呃,这个效果,那但是达到一个阈值,大约是一个百亿到接近千亿的一个规模时,大家就发现了所谓的这个量变引起质变。

这个现象,就所谓的他在论文中叫所谓的这个,Emergenability,咱们翻译成一般翻译成这个这个这个叫呃,大模型的这个能力涌现呸,那当然大家可能也知道。

去年的那个neurope outstanding paper,实际上是给了这篇这篇paper,核心也也当然也是来自STANFORD团队,他当他核心研究的一个,或者说它核心的一个结论是说。

实际上它从某种意义上是想说明说,其实这个emoderate ability,或者大模型的涌现能力,实际上可能与这个model的size,Model skill。

无论是by model size这个参数量的size,或者是by这个computer size,其实关系都不是很大,这是呃最上面那个title,实际上它是原文中的一句话,他就是说。

实际上可能更多的是我们使用的MATRIC相关诶,比如说他就说可能是,比如说左边的图和右边的图的对比,他就说如果我们用非线性的,或者这个非呃这个连续的这种metric。

实际上我们可能会观测到这个所谓的emergent,Ability,但是呢如果我们把它变成linear的这种score,或者是说呃连续的score这种metric的话。

实际上这个好像是随着模型的这个scale,up起来之后,其实效果并没出现所谓的那个faze transition,那个那个那个那个月变的那个过程,或者那个那个那个节点,可OK这是他们的一一个核心结论。

实际上对于我们来说,我们过去一段时间就是一直在训模型,其实也一直想了解说到底什么能够盖的,我们或者说决定帮我们做这个各种decision,当我们训练一个模型的时候,训多大,训多久,训多少数据量。

用多少计算量,实际上我们在做这个过程,最近呃应该是去年下半年,当然我们放出来是今年年初呃,我们有个同学叫郑晓,实际上他咳实际上也是GM的一作,它实际上就在呃训练大模型的前线呢,实际上就发现了一个规律。

那具体来说是,它实际上CONFIGU了大约七个不同的模型大小,比如说从3E参数55。400000000参数,一直到320亿参数,然后用不同的这个数据量的大小来训了,From scratch。

训了30几个这个所谓的大模型,然后看呃fix很多factor之后,看这个模型在这个这个downstream的各种task上,各种奔驰Mark上的一个效果,然后试图发现有没有一个潜在的规律,来帮我们呃。

指导我们更好的在做模型训练的各种decision诶,这是核心的呃一个结论或者一个观察吧,就大家可以看这个图的,每张图的横坐标是这个预训练的这个loss,就是loss是越来越呃越小。

然后纵坐标呢是在不同的benchmark上,它的一个效果,大家可以看上面四行呢,比如说在这样的数据集上,实际上大家可以看模型的效果,实际上与这个loss,当然这个是非常intuitive。

就是说非常直观的,随着loss的降低,效果其实是一个呃提升的呃一个现象,当然更重要的是大家可以看,实际上如果我们fix瑞星的话,大家如果忽略图中的颜色对吧,一点55亿模型呃,60亿320亿参数的模型。

如果大家完全忽略这个颜色的话,大家可以看,基本上这不同这个parameter size的模型,随着这个loss的这个降低,实际上它取得了不同的模型,在同样的loss情况下,实际上取得的效果是一样的。

K实际上某种程度上,我们如果想在某个奔驰Mark或者某些呃任务上,取得一个target的目标的话,target performance目标的话,实际上实际上最终一个中间的factor是这个loss。

但是当然loss又是由这个模型参数,当然计算量能够根据skin law能够决定出来的,K那更重要的是是下面这行大家可以看,当这个在相对相对来说比较复杂的一些任务,比如说MMLU呃。

还有GSM8K这些偏数学,偏推理的一些任务上,数据集上这个模型的loss随着模型loss降低,其实在前期我们发现它这个效果跟这个虚线的,黑色的虚线随机猜是差不多的,也就是说其实模型也没有产生相应的能力。

但是随着loss大约降到2。2到22。1之间,大家可以看这个模型的效果,其实突然有一个所谓的跟那个JSON,we第一页slide类似的现象,就有一个所谓的涌现的情况,就是模型突然开始有某种能力。

随着loss降低,不管你这个模型是320亿,还是这个这个15亿参数对,就是说,这个本质上其实与模型参数量大小没有关系,实际上更多的是与loss有关。

OK当然我们再回过头看去年NEUROX那篇best paper的,那个结论是说,实际上我们这个观察的现象,很有可能与我们所用的metric呃的连续性,metric的这个线性非线性与非线性相关是吧。

那我们经过这个所谓的算是abolition,也不算abolition吧,就算是一个对比实验,我们可以发现实际上按照NEUROPE那篇paper,Best paper。

outstanding paper的这个实验方法,我们采取不同的metric,实际上核心结论是没有变的,也就是说这个模型随着loss呃,我们预训练loss,降低模型的这个所谓的涌现能力。

仍然可以被观察到,可以,那因此的话,实际上我们就可以根据loss以及这个模型的size,当然结合之前那个open i的或者DeepMind的skin law,我们实际上可以把两个事结合起来。

就可以得到一个非常简单的,根据loss和模型size相关联的一个,关于EMERGENABILITY的一个定义,那最直接来说就是说,当模型loss小到一定的程度上,它才能涌现出来的能力。

我们叫做呃这个IMMORGAN呃ability,而不是原始paper当中,是说,当模型的大小,或者模型的计算量达到一定程度上,我们来呃这个出现的能力,才叫呃这个emergent ability,诶。

这是我们在呃这个模型,某种能力出现或者某种能力提升呃,前期做了很多观察,很多实验,但有了这个观察,实际上接下来我们就想,我们怎么真正的提升模型的能力,诶,那我们实际上从22年年初训这个千亿的GM。

130B模型,一直到呃去年年初的一代的对话模型,chat gm到二代到三代呃,其实上整个过程我们尝试把这个这个context sense,提升,尝试让模型有function call。

有这个多呃这个agent智能体的能力,那其实从诶其实在那之后呢,去年10月之后,我们其实更多是想怎么能够让呃,我们自己的GM系列模型,可以有更强的智能体系能力,可以在呃这个这个智能体相关的任务上。

取得更好的一个效果,其实主要的一个出发点或者动机,也是因为我们去年暑假其实想试一下,我们当时这个这个,这个整个LIM大模型的研究,或者是这个探索,其实关于这个智能体方面的这个理解,或者是是探索非常少。

然后我们发现就自己做了一个本benchmark,叫agent bench,就是说来看这个我们自己的模型,在这个智能体的各种任务上到底怎么样,然后做完发现,即使我们的模型包括其他开源的很多模型。

其实就是说在很多比如说MMU在gm m8K,在这个这个CEO等等数据集上,我们都可以取得接近或者差不多的一个效果,但是在智能体上,我们发现我们明显比,比如说当时的GB4那个版本。

当时的cloud那个版本有非常大的一个差距,但是我们就在想,怎么让我们模型可以有智能体的能力诶,那具体来说,比如说我们以GEM为例,如果想让它有智能体能力,有agent的能力,实际上就是说那类不同于呃。

也不能今天也不能叫传统的,不同于去年年初的那种对话模型,chat模型的话,实际上给定一个query,给定一个prompt,我们这个模型给一个呃。

next token prediction这样的一个任务呃,给呃一个response对吧,我们是希望这个模型本身,如果能不能基于这个模型作为一个智能体,然后如果我们问他相关的任务。

如果他自己能够判断说第一他能不能干这件事,如果不能干,他能不能自己planning,自己来靠外部的function,外部的工具来解决相应的任务,K这里图中是一个相应的例子,比如说我们让这个模型呃找呃。

找到从2000年到2023年全球的人口,并且把呃这个年均平呃,人口的这个平均呃年均增长率呃,呃这个年度增长率计算出来,K,那这个模型,首先如果不确定它是否有相关的信息,或者相关信息准不准。

这个模型可以自己做个判断,说我可以去上网搜,利用browser search engine来做,然后搜到了之后,自己可以打开相关的网页,自己决定打开哪些网页,拿到相关的结果,拿到相关的结果。

当需要算这个平均增长率的时候,他能够说我这个时候做一个DEDECISION,我需要自己写的代码,并且调这个外部的工具,把代码的执行了,得到相应的结果,然后返回来给我们这个用户呃。

这个以自然语言的方式返回相关的呃结果诶,这是我们的目标,那做这件事的呃怎么形容呢,做这件事要实现这件事,实现模型除了要有这个智能体的能力,或者是说这个这个这个这个感感知环境。

或者说planning action这个能力之外,其实一个前提条件是,模型需要有相对来说非常长的context length对吧,就刚才所有的这些信息,如果按照这个流程走一遍的话。

实际上模型所process这个context length非常非常长,可那实际上在这个过程中,我们就呃呃其实也探索了很多路径吧,当然开源社区有很很多各种各样的探索。

如何把模型由四K8k exchange得到,比如32K呃,128k,甚至最近这个疫苗领,那我们实际上在探索的过程中,有几个核心的发现吧,或者主要的发现,第一个就是说呃。

我们做long context的这个这个事情的时候,让模型有这个处理更长context能力的时候,其实除了在预训练阶段,需要让这个模型呃不停的外推,有处理这个long context能力。

其实在对齐的阶段,尤其instruction阶段,我们发现其实这个对最终模型的效果也很重要,所以我们在这个时候就呃呃提出了这个la land,这个strategy,本质上就是说怎么让模型更好的。

在长数据上做对齐,那同时还要保证,大家可能知道说今天对大模型做领域呃,微调或者相关的一些任务的微调的时候,很重要的一个挑战,就是说,当你当我们尝试把某一项能力提升的时候。

在这里就是超文本这个能力提升的时候,其实很多时候可以赢,很多时候会negatively的影响,模型在其他尤其是通用任务上,它已有的任务上的一个一个性能对吧,那在这个过程中,我们实际上是需要保证。

模型在长短和短文身上的这个能力,能够同时提升的很高,或者说至少在成本提升的时候,能够保证短文本的能力不被降低诶,那第二点就是说很自然的,当我们比如说以这个instruction,或者对齐数据为例的话。

我们在做这个微调的时候,或者做instruction tuning的时候,实际上在需要很精细的模型呃,这个数据配比,把这个长文本,短文本的数据能够很好的这个这个结合,然后在这个结合的过程就自然产生了。

这个当这个这个这个这个这个在一个batch里,不同的这个instance它这个长度不不同的时候,其实在计算的过程中会容易产生这个ADOTIME,也就说这所谓这个气泡。

那实际上这里我们就需要采用呃packing和soft呃,呃sorted batting的技术,然后尝试让这个这个尽量减少气泡的时间,那又同时我们知道在训练的时候,这个短文本和长本。

如果正常的把它这个在求算loss时候,正常的算一起的时候,其实合并在一起的时候,其实它会导致这个这个这个这个对loss的,contribution实际上是一个不均衡的状态,只要在这个时候。

我们也需要对于长文本和短文本对loss的影响,产生呃做一个所谓的这个waiting,或者做一个balance诶,那呃通过采用相呃相关的这些呃策略的话,实际上我们最终可以让我们这个模型的。

在成本这个instruction阶段,比如说训练的时候,能够大约有两到三倍的一个,训练效率的一个提升,OK这是呃基于这个技术呃,Framework,我们最近呃几个月又呃。

进一步把这个模型的context length,有128K,64k128 k,其实上个周我们刚开源了一个9B的模型,把这个context length推到了这个E没有那token,就是说如果汉字的话。

按照那个那个那个那个我开播的那个那个那个,token nether那个情况的话,其实也接近,是这个200万的一个汉字的一个情况,可然后这是我们自己在benchmark上测的一个结果。

大家感兴趣也可以试一下,就是说呃比如说那个9B的one million,就是下面最上面那个那个高亮的GM4,9b chat one million,这个模型呃,目前是上个周是开源了K嗯。

然后这是模型有了long context能力,那有了long context能力,现在我们就要专注于说,如何让模型的这个智能体agent能力进一步提升,对吧,那我们刚才提到了。

我们去年暑假发现我们自己的模型,在智能体的任务上,其实相比这个这个其他这个尤其是open i的模型,安索尔pk模型有相当大的一个差距,那在这个过程中,我们就发现其实核心的一个难点还是数据。

就是说我们设计或者说收集智能体数据的时候,其实非常难,那大家知道,那你如果做简单的SFT,做简单的对话的,实际上一个一个问题,你给一个这个写一段答案,当然这个一般也不是很容易,当然至少它是一个一对Q呃。

这个这个这个所谓的q repair问答,对对吧,那对于agent来说,我们可以想象一下,我们让这个模型尝试解决一件事,如果我们要让它通过调外部工具,通过function call的方式。

实际上某种程度上,在整个这个模型解决这个问题,它这个trajectory当中有很多很多的分支,比如在某一步失败了,在第二步失败了,在下一步成功了之后又失败了等等。

实际上这个对数据的设计以及数据的这个收集,有很大的挑战,实际上我们在这个过程中是设呃,设计并开源了这个agent instruction,呃。

instruct这个智能体的一个trajectory的数据集,本质上我们是呃simulate的六个这个智能体的,或者说六个这个环境,然后让这个模型在里面探索自己,这个这个这个也不能叫随机游走吧。

这个模型在里面产生相关的一些数据,然后当然也有些人类的呃,这个这个标注的辅助,然后让收集到相对来说还比较有效的,这个智能体轨迹的数据,然后通过混合训练的方式,可以通过少样本让模型有呃。

这个很强的智能体泛航能力,实际上最终我们只需要1800多条智能体,这个轨迹数据,就可以让模型取得非常好的,这个这个处理智能体任务的能力,诶,那当然同样的我们是声明的是六个环境。

在60个环境里很很直很直接,我们的这个模型取得了一个不错的效果,但实际上在这个这个这个其他的智能体任务上,它没有过经过微调的任务上,我们也可发现中间这个图,也就是说所谓的在外分布上。

实际上它这个泛化性也非常强,然后用1000多条的数据,智能体的轨迹,数据,就可以让模型在其他的这个智能体任务上,取得一个不错的效果,当然呃对我们来说,可能更重要的一件事是。

我们需要确保模型在智能体能力提升的时候,它的通用能力,比如说MMLU代码,数学推理等等能力不能有所降低,这是最右边那个图所展示的,就是说我们确保了在智能体能力提升的时候。

我们最关心的基础通用能力不被呃损伤,OK那有了这个line online和agent tuning,实际上是某种程度上,让我们的模型有更长的context length。

然后在这个context length上可以处理呃,这个有更强的这个这个智能体的能力,然后能够取得呃,对我们来说还不错的一个呃效果诶,那这是我们去年呃,今年年初一月份发布的推出的GM4奥拓子,这个模型。

实际上大家感兴趣也可以在智谱清源尝试,就是说比如说我们让模型解决一些相对来说,对于next token prediction非常复杂的任务,当下对next token prediction非常复杂的。

比如说这个X3次方加AX方减五,X加九除以X加四,一商是X方加BX减一,然后余数是13,计算AB的值,实际上模型在处理这个任务的时候,他前期通过整理,把这个问题转化成中间那个等式。

然后它自己做了一个decision,这个时候我需要写一段代码,把这个任务完成,它实际上是写了这个代码,并通过Python解释器把这个代码运行,得到了A和B的值,最终通过这个语言的方式。

把这个相应的结果返回诶,那类似的还有比如说多工具的一个混合调用,比如说通过就是类似于刚才那个例子,比如说查一下呃,全球过去十多年GDP画出趋势图,如果哪年GDP下降,在趋势图用红色标出来。

就右边那个图实际上就是模型,在网上拿到了相关的数据之后,写了段Python代码,通过嗯matt plot lib把这个图画出来,而且还满足我们的要求,如果哪一年的这个增长率下呃,GDP下降的话。

用红色的点标出来诶,OK然后呃我们相关的模型实际上也刚才提到,上线了质朴青研,然后其实用户现在可以自己,基于我们这样的一个通用模型,可以创建各种各样的智能体,目前大约呃用户创建了30多个。

30万多个智能体,然后更重要的是,除了通过这种界面式的方式access这个智能体之外,实际上每个智能体也通过,也可以通过用户创建的智能体,也可以通过API的方式访问,然后处理哎,某种程度上。

我们在尝试实现通过零代码创建智能体,以及呃通过智能体AAPI的方式提供服务。

K呃这是我们这个在语言模型上做了一些尝试,当然呃在这个过程中,我们也逐渐意识到,实际上如果以我们人为例,我们每天大部分的时间,可能都花在这两个屏幕上,移动手机或者说这个电脑上对吧,然后我们就想模型。

某种程度上能不能像我们人一样,在处理相关的这个这个这个故意或者,图形界面的问题时候。

能够有智能体的能力,可那首先呃我们团队的呃,丁明同学实际上带着很多年轻的同学呃,开发了这个coo v l模型,实际上就是一个呃vision language model,然后这个模型其实核心的想法。

跟当时在当时提出这个模型时候,其实核心的一个想法,或者当时面临的一个问题,就是说如何将视觉或者image,这个这个这个这个这个空间能够跟language model,能够很合理的对齐在一起。

同时让这个训练被cost不要太大,可那一般的假设是说,我们希望这个语言模型经过很长期的预训练,甚至对齐之后,这个语言模型是fix住的,或者说尽量不要对这个原模型做大的,然后在这个时候。

如何让这个视觉的这个这个信号,或者视觉的space能够呃,跟这个原模型的这个space alan起来,那我们的同学实际上就提出了在这个语言模型,就是右边这个呃架构图上。

在这个标准的transformer这个架构上,实际上外接一个紫色的,也就是说这个视觉模块视觉的export,让这个视觉模块,然后处理新来的这个这个呃email的图像诶,呃email的数据。

那在此进一步的话,实际上基于这个模型,我们的同学呃团队又提出了这个cover agent,实际上就是尝试解决这个视觉语言模型,在处理这个呃,比如说agent能力,尤其是处理我刚才提到的这个手机或者电脑。

界面的时候,其实它那个那个里面的这个视觉的这个,比如说各种图标啊,各种像素啊,各种信息,有的时候非常非常小,如果这样,这个模型在计算量或者说这个训练量不很大,提有很大提升的情况下。

保证这个视觉模型可以呃很好的处理,这种呃这种这种呃,这种需要高清晰度表示的一些任务,比如说呃,在1000 1120×120,这样的一个像素级别下,如何让这个模型在训练量不提升的时候,同时取得这个呃。

我们期待这个模型取得的一个效果,实际上呃在这个模型当中,我们的同学就提出了这个cross attention的机制,通过一个cross attention的model,然后让这个模型在能够处理。

低这个分辨率图像的时候,同时也可以用较小的计算开销,能够对这个这个这个这个所谓的这个,高清的图片能够进行同步处理,诶,呃这个是基于我们这个模型最新做出的一个demo,当然大家可能上周或者上周看苹果和呃。

微软的发布会,可能呃见过类似的,但是我们这个完全是作为一个第三方,从模型的视角没有利用windows API,没有利用IPHONE安卓API的情况下做出了demo,完全是模型,像我们人一样看着这个屏幕。

无论是电脑还是手机屏幕,做出的相关的一些呃反应,感觉卡住了,好像,比如这个是让他在呃就是给模型的指令,就是删除PB中的个人信息,目前的整个操作过程都是模型自己在操作,可关于点什么怎么点。

点完了之后该干什么,可,咦感觉这个电脑有点卡住了是吗,还是,OK那我们先看下一个,Ok,那接下来呢,呃进一步在手机上能够处理网页相关的任务时,我们又提出这个呃。

这个诶我时间可能差不多auto web g m,然后通过create rome,learning DP o以及拒绝采样等等相关的技术,我们搭了这样的一个框架,让模型的处理这种agent ent的能力呃。

更强的一种呃呃方式,OK然后这是我们最新出的一个demo,是其实是那个下面团队刘潇同学,带着大家一起呃最近折腾的一个情况,比如说任务是为我筛选出价格在100~300原,同时包邮的女性钱包产品,接下来。

其实整个过程完全是模型在操纵这个手机,可就每一步他根据他看到的结果,然后一步步操作这个手机得到的呃,相关的一些情况,比如这个时候他知道他要筛选,点开这个界面,他知道他要填什么,选包邮。

在那个价格框里选上相应的额价格,OK但是呢即使我们今天做的其实相对来说,在具体的这个task上,这个任务上做到跟GBT4O或者4turbo,差不多的一个任务呃情况。

然后我们最新的那个版本g m o s web,这个system其实也可以做到接近50%,但是其实离人类performance78%,还有相对较大的一个差距,K呃,接下来三个例子,包括在微信里,在地图里。

在美团订单里,我我们就快速跳过。

呃然后最后的话,实际上在我们开发各种模型的时候,大家知道就是各种各样的benchmark,各种各样的evaluation,其实都大多时候都不太靠谱,实际上我们也在内部。

也开发了很多的相关的benchmark,其实更好的get得我们指导,我们在我们做各种开发训练决策的时候。

能够更好的呃做design o k,然后最后一页的话,我实际上是想说呃,刚才那个鹤迪老师也讨论过呃,简单提到刚才有观众也问到相关的一个问题,就是说呃左边这个图呢是google deep man的。

我一个截图,当然大家都有各种各样的类似的一个plot的,核心就是说transformer或者是神经网络,给了我们一个SKILLING的可能,然后目前来说,至少我们自己不知道spilling的尽头在哪里。

从算法从数据的角度对吧,那目前来看模型,随着模型的这个SCALLING,模型的参数或者计算量越来越大的情况下,我们并不知道这个这个拐点,或者是那个那个地面。

should return的那个那个turning point在哪,可那从另一方面,从算力的角度,大家知道大家可能经常会说摩尔定律放缓,然后但是从英伟达最近几年,两三年给我们的这个输出来看。

像这个英伟达单卡的性能在提升,英伟达的这个GPU,在这个从系统层面单卡提升之后,把多个卡连在一起组成一个系统,像它的这个这个计算,flops或者计算性能,也在不停的这个成倍数的增长,比如这里提到的说。

8年有1000倍的这个计算效率的一个提升,那在这两个词scaling的这个拐点,目前我们还没看到的时候,我们接下来做一个,无论是从呃呃一个团队的角度,还是大家对大模型感兴趣的一个角度,大家怎么能够一起。

能够让这个模型继续死scaling下去,以及SCALLING的更有效率,skill in的更好,取得更好的效果,当然在这过程中,很多时候其实不仅需要工程上的技术上的探索,还有需要可能理论上的一些突破。

其实都需要呃,我们大家一起来一起来讨论,一起来探索,那其实也是个开放性的问题,留给大家,然后那我今天的分享就到这里。

2024北京智源大会-大语言模型 - P4:大语言模型知识机理与编辑问题:张宁豫 - 智源社区 - BV1zE421N7UJ

我是来自浙大的张宁玉啊,然后呃我今天介绍的这个topic,其实前面两个老师都有这个关注过,就是提到过,就是啊我们现在都知道大运行语言模型啊,它给我们带来很大的冲击啊。

它的效果其实在很方面都很多方面都非常好,很多以前的自然语言任务啊,基本上它的效果都已经达到了,一个非常高的一个高度,但它背后的这个原理又是什么啊,其实我今天这个PPT题目应该加两个字啊。

应该叫加上假说啊,因为我们团队其实在这方面,其实做了一些的这个探索和思考啊,但其实背后呢呃很难讲清楚,这个到底是不是一个真正的一个原理,或者真理啊,其实我们最后讲的很多都是假说。

那我今天主要会分析一下这个大型语言模型,从知识的这个视角,它背后的这个机理啊,可能是什么啊,以及我们如何去操作它背后的知识,也就是去编辑它的背后的这个知识啊。

那我主要介绍两个问题呃,一个就是语言模型,它去存储以及表达啊,我们的这些这个啊像人类的一些很多的知识,那语言模型到底是如何去存储跟表达,这类知识呢,啊这个是第一个问题,那么在这个如果这个问题能够回答好。

或者是能够有一些初步理解的话,那我们进一步又如何去比较精准的高效的去啊,更新它里边的这个知识呢,这是我今天可能要啊介绍的第二个问题啊,其实第二个问题也能够促进我们去实现,更加可信可靠的一些这个啊应用。

那围绕这个方面啊,其实呃我们都知道,这个其实有很多实际的应用啊,比如说这个语言模型,它有些时候它会有一些知识是过时的啊,还有很多啊有偏见的,甚至是有一些有毒的信息,这些其实这些问题。

其实对于我们实际的大模型的应用,其实带来了很多的这个困扰,所以有很多很多的这个呃技术一直在探讨,这个如何去更新,或者是如何去啊,修正语言模型中的这个知识谬误,这些背后的一个本质的问题。

还是我们需要理解语言模型中的这个知识,它到底是如何的去存储跟表达的,其实在这个方面啊,其实像呃我们国外的很多的这个公司。

他们其实已经在做一些很初步的一些探讨了,比如说像ASSOPPIC,他们前段时间啊有一篇工作啊,就是从可解释的角度啊,分析了这个像啊cloudy的一些大型模型中,它这个在呃里边的一些区域。

到底是如何存储一些表征,一些相关的一些知识的信息的啊,他们甚至把这些相关的技术应用在一些啊,安全啊,安全的模型更加安全的一些领域,那么其实open i在前段时间也做了一篇啊,放出来一篇文章啊。

他们其实是啊,通过一些sps out to encoding的方式啊,提取扫描了其中的啊带海量的特征,其中很多特征其实都跟我们啊人类所熟知的一,些knowledge是非常相关的啊。

它从里边特征的角度去发现,里边有一些特征,可能表致了某某一部分的这个信息,那么从更深层次的角度啊,原模型到底是如何去表征这些复杂的。

这种知识呢,啊那么我们从这个分析一个事物的一个角度啊,其实有两个呃维度,一个是从底向上,也就是说从神经元底层开始去分析。

还有一个角度是从顶向下,那么从底向上的这种做法呢,其实是啊从哲学领域叫做还原论的这种思想,之前有很多工作都在思考,就是说啊我们其实可以去分析分析,这个神经元或者这一个组件到底是什么,围绕这个视角。

其实前期已经有很多学者提出了,一些非常优秀的一些假说,比如说像知识神经元的这种假说啊,比如说某一些神经元,或者是transformer中的MLP,某一些layer可能表征了某一个事实的这种知识。

那么其实还有这里边存在一个问题,就是我们想象一下,其实呃知识是非常复杂的,他们知识与知识之间,其实存在很多很多的这个关联啊,其实像左边这个图的这个有一篇去年的呃,前两年的一篇science s工作里。

他其实发现人类人脑在思考或者是做一些记忆,或者一些深度思考的时候啊,不同的区域之间是有一些linkage,有些关联的,那么语言模型,它的这个区域之间,是不是也存在一个明显的关联性,我们是不是可以啊。

从一个整体论的视角,从自顶向下来去分析,这个知识到底是如何去存储跟表征的啊,那围绕这个视角的话,其实我们团队最近做了一个啊,比较初步的一个思考啊,就是我们从这个整体论的视角来思考这个知识,是不是可以啊。

从整体的视角我们把它叫做这种知识的回路,那么这个回路其实啊啊是其实是一个很古老,很早就有的概念,在可解释领域,就是以前在解释这个原模型,包括很多深度学习框架里边,有一些很多学者他们提出了啊。

可以去造一个特定行为的一个子图,来去解释这个原模型这些行为。

那么我们其实做了一个视角,就是我们从这个知识的维度啊,来去提出了一个知识回路的一个这个假说啊,其实这个词其实老早就有啊,我记得好像去年啊张俊领导上提过这个词,其实啊在很多其他领域。

也有知识回路的这个说法,那么语言模型特别是大型语言模型,他的这个知识回路到底长的什么样子啊,那这张图其实就是有一个动图,就是可啊比较形象的把它展示出来,我们其实发现围绕一个事实知识。

可能中间有一些比较关键的MLP层,或者是attention层,或者是一些其他的一些组件,甚至是一些node等等,这些组件有一些组件表达了一个关系,有一些组件表达了某一个实体。

有一些组件可能表达了些其他的东西啊,甚至我们人类还不一定能理解这些东西,但他们共同一起来运作,然后最后来去实现了这一条知识的一个表达,也就是说可能啊这个通过这种模块化的组合,而不是单个神经元。

而是多个神经元之间共同的一个组合,去完成了一条知识的一个表达,那么具体的其实里边有很多,这是一个呃我们团队在这个GPT2啊,因为这个太大了,模型高效不太好去做,我们就围绕像GPT2。

甚至是tiny la等等模型去啊挖掘,去分析它的一些回路,那这个就是一个啊真实的一个在GBT2中的,一条事实知识的一个这个回路,然后右边这个图呢是这个回路的简化版本,我们可以发现啊。

其中啊有大量的MLP,也就这个就是那个FINN层,也刚好也印证了以前的这个知识神经元的假说,MLP层其实对于很多视知识是非常重要的,但其实里边有很多像其他层的,包括注意力等等。

这些其他的一些这种组件的信息,也就说明在表征这条知识的时候,其实有很多很多组件共同一起协作,来完成了这条知识的一个表达,那么这里边有很多关键的组件,比如说像这个move head啊。

它可能我们其实发现可能啊,它其实把这个投实体的信息,通过这个move head,把它转移到了这个下一个叫LETOKEN的等等信息,还有一些像relating head的。

我们其实发现了很多啊知识共享的reacing head,有一些head可能表征了很多很多共同的一些。

这种事实的这个知识啊,这也是比较有趣的一些这个发现啊,那我们其实围绕这个发现的这个啊这个回路,我们就去干脆做了一些实验,我们发现纯用这个发现的这个回路,其实就能够维持大约70%的这个模型的,这个性能。

甚至是我们拿这个回路去带一些其他的,就是跟它相相关的一些测试集上,甚至还有一定的提升,这也说明了,其实回路可能表征了已经表征了这个老知识,非常很多,很多组成部分就是靠这条回路来表征的。

甚至其他部分能还起到了一个副作用,这也是我们在猜想,为什么在测试集上还有提升的,一个可能的一个因素啊,那除了这个之外呢,我们进一步的去分析这个啊。

有一些呃我们都知道,众所周知的大模型的一些现象到底是怎么回事,我们其实探讨了几个问题,一个是幻觉问题,在幻觉情况下,这个回路到底是怎么回事啊,我们发现了一个有趣的现象,就是幻觉情况下。

这个回路可能是个错的,就比如说像左边这张图里边啊,在这个L15这层啊,出现了一条错误的一个流向信息,导致了这个啊某一个值急剧的下降,也就是说可能是因为这个这条知识,之所以有幻觉。

是因为L15H0这个节点,直接导致了整个模型就留下了一个错误信息,但是对于一些正常的事实来说,它是没有经过这个错误流向的,它是流向另外一条这个节点的啊,当然这只是个假说啊。

这是我们只是在实验中发现的一些这个现象,另外一个比较有趣的。

我个人觉得比较有趣的现象是在in contest learning的,这个时候,就我们都知道in contest learning,甚至现代的很多的这种red啊,我们加一些prompt的这个模型。

好像就一下子就会了这个答案了,就感觉很多新知识就会了,那它背后的原理到底是什么,那右边这张图呢,就是我们当时在做回路分析的时候,发现了一个有趣的现象,就说加了这些prompt以后,或者DEMC信以后。

这个突然之间冒出了一些特定的注意力头啊,这些注意力头关注到了这个demo session的信息,然后是让这个模型走向了正确的这个答案啊,这个也是一个有趣的一个发现啊,其实我印象中其实同期还有一篇工作啊。

把这个注意的可能称之为检索头啊,其实都是一些类似的现象,就说这个回路中是不是会有一些特定的信息,它会关注这个ICL的一些弹幕STRATION,然后让这个模型能够去啊。

相当于就临时就获得了这个新的这个知识等等,这都是一些些有趣的这个现象好。

那么啊有了这个现象以后啊,其实我们就可以有一个初步假设啊,原模型中间的这个知识,可能还是有一些这个规律的,那么这个规律可能能够帮助我们去解释它的,一些这个现象啊,那我如何去这个啊,在这些规律下。

如何让去更新,如何去更新,以及这个呃去精准的去操作这些中间的知识呢,那就是我今天要探讨的这个啊。

第二个问题就是五大模型的这个,知识的这个编辑啊,其实编辑这个问题很难啊,其实有很多同行都在跟我交流的时候,都考虑到一个问题,就说我们如果去改了这个模型中的一些问题,是不是这个模型就坏掉了。

这个模型可能就根本就不work了啊,但这里边其实有很多很多值得探讨的问题,假如说我们能够去理解它背后的,这个机理的话啊,其实我们可以在一个很小的待定代价,代价下去更新。

或者是擦除它中间的一些这种knowledge,来更好的去啊服务的这个应用,那我们团队最近其实做了一些这些思考,做了一个比较新的工作啊,就是我们考虑到一个情况,就是原模型。

其实啊我们在更新它的这个知识的时候,不可避免它肯定会影响,那么我们就在想这个怎么样去,更高效的去尽量避免这个模型在更新的时候,对它原有性能的一个这个影响,那我们就考虑去借鉴这个啊。

人在认知的时候的一个过程啊,人在认知的过程的时候,他的记忆其实是存在一个工作记忆,和一个这种长期记忆的,一个一个一个一个一个区分的啊,就比如说啊,其实啊今天各位来参加这个纸园大会对吧。

我们可能今天听了这个报告,可能大家还今天能够记得很清楚,那过段这个其实就是将来当天的一个呃working memory,那么可能有些信息呢,经过啊大量的这种这种消化吸收以后。

可能就固化在啊你的这个长期记忆里边,那就可能进行了一个长期的这个记忆,那么我们其实类比这个核心那个想法啊,我们其实在做编辑的时候,如果去直接去修改这个模型的核心参数,本身,它会影响到模型的长期记忆。

可能会对这个模型的performance,产生一个非常这个重大的一个影响,就有可能把模型搞崩掉了,那么我们就尝试想,是不是可以给大模型去做一个工作的,一个记忆啊,而去直接操作这个工作记忆。

来去实现这种模型的一个自我的一个编辑,和长期的一个更新啊,这样子也可以更好的去避免它的一,些这个副作用,那么我们最近就做了一个探索啊。

就提了一个工作叫做这个wise啊,这个工作其实思路非常简单,也是啊结合了刚才所提的知识机理的这个假说,中的这个MOP,可能代表了很多比较重要的知识,那我们对对这个MOP这层啊,从左往右看,这个MLP。

这个绿色就是它原有的这个原模型的,这个支持的这个记忆的一个核心的一个区域,那我们旁边给他造了一个旁支回路,这个回路其实就是我们把它假称称为工作,工作工作的一个记忆,它可能是一个临时的一个记忆啊。

这个新知识来了以后,我们把它给存储在这个MLP的旁支的,这个回路里边,那这个回路的原始的参数,是从这个绿色部分拷贝过来的,相当于它是啊基于已有的这个知识,然后我们去对它进行这个蓝色区域。

进行一个啊更新啊,那么这样的话我们再设计一个门控的机制,来,去决定它什么时候是使用以前的固有的,这个记忆来,什么时候使用这个长期的工作记忆,这样就可以保证模型在持续时间很长的一段,知识的编辑的过程中。

它的固有记忆是不会发生太大变化的,同时他也学会了一些新的一些这种知识。

那具体啊其实这里边有一些技术细节啊,就是我们如何去让他这个学习到新的知识呢,我们又把这个知识啊进行了若干个,这个随机的一个这种分区啊,这个经历形象起来非常简单,就比如说我们都知道呃,这个比如说前天昨天。

今天我各位大家都会发生不同的事情,经历不同的事情,那我们对每一个time step的情况下,都给他啊,copy1份这个相关的一个知识的一个分区啊,每个分区都是从原始的这个MFI,MMLOP那个层来的。

那么每个分区都可以去更新它当前状态的,这个知识啊,然后都会得到了若干个知识的一个分片,就像我们昨天发生什么事情,前天发生什么事情,就像这个左边这张图里展示的这样子,那么有了这个分区以后啊。

我们如何让这个模型根据这些记忆,去这个这个去完成这些任务呢,比如说我这个今天开了职员大会,大家听了这个报告,那这个报告里边有哪些信息呢,那模型该怎么知道这些新发生的这个信息呢。

我们这里提供了两个这个技术的一个思路,一个是直接对过去这个知识分区里边的,所有信息进行一个墨迹,进行一个合并操作,也就是说不管你昨天发生了什么,前天发生了什么模型,都不管372 11的把它给墨迹在一起。

然后共同的去作为一个外部的一个memory,然后这模型去啊得到这些信息啊,另外一个思路非常简单,另外一个思路就干脆直接检索,因为不同时间段发生的信息,可能是重要性是不一样的,所以我们也提供了一个知识。

继续检索的一个思路来去让这个模型去这个啊。

对这个知识进行一个这个区分好,那么呃,另外一个就是比较关键的就是门控机制了,这个门控机制其实就快,决定了这个模型,什么时候使用它固有的这个记忆,那什么时候又会使用它这个外面经过编辑好的。

这个相关的这个记忆,那这里边我们其实设计了一个非常简单的一个,优化目标,来让模型啊相当于去学习到这个,如果这个知识啊相当,如果假如这个知识可能是跟这个啊,前两天发生的信息有关的。

那么可能就倾向于这个一个啊,或者是今天相相关的,可能倾向于这个旁边这个回路,如果是跟这个模型本身它自己会的知识相关的,那就倾向于走上面这条烂路,就会直接走这个绿色的这个链路。

这样的话也是尽可能去避免这个模型,去影响到他的这个performance好。

那么它的效果怎么样呢,呃我们其实做了很多大量的这个实验啊,我们做了一个这个,相当于持续对进行大模型进行,编辑的一个实验啊,从编辑一条到编辑第二条,到一直到编辑到1000条。

相当于就从12341直编辑可以看到啊,其实啊编辑添千条以后,这个模型还没有崩掉,就是模型能够去啊,几乎保持很高的这个原有的这个performance,同时它的准确率也挺高的啊。

虽然说好像这个有些结果上没有,这个有一个baseline高,但是啊大部分情况下,它能够在这么经历过这么多次模型编辑以后,它还能够保持到一个相对更高的一个准确率,另外的话就是我们也去做了一些。

对幻觉数据上进行分析,就看下这个方法能不能去用来减轻这个幻觉啊,也是可以发现它能够去修改,比如说在接近600条的这个啊编辑以后,它还能够去保持一个比较低的一个困惑度,也就这个模型还没崩掉啊。

因为以前有很多工作,其实包括我们自己团队也做过啊,编辑久了以后,这个模型就崩掉了,就基本上不work了,这也是很大的一个问题,还能有一个问题,就是还能泛化到一些啊。

这个没有见过的一些自然语言的这个这个事例,也就是说它还有一定的这个泛化的这个情况,好啊,当然这个它也会带来一些这个代价啊,就是说会增加这个我们的这个计算成本,但相对还是在一个可控的一个范围内。

还会增加3%到四的一个计算。

跟这个推理的一个这个成本,而我们也其实也发现它有些可以改进的地方,比如说这个检索的这个思路啊,其实检索它有个天花板,就是目前呢其实检索的方法,其实可能还,这个。

我们使用的是比较NA业务的一些检索的方法啊,也就是说他可能没有找到一些啊,记忆中比较重要的一个一个一个一个一个区域,所以说可能就检索的事,还有很大的这个提升的好,那以上其实都是围绕这种啊。

我们给模型去新增一个知识的一个一个一个,编辑的一种情况,那么我们有没有可能去啊,把模型中的某一部分知识给它擦除掉,或者是说让模型让语言模型去忘掉一些知识,这个场景其实对于这个啊搞大模型安全。

其实非常有用的,因为我们都知道这个模型有些时候会吐出来,一些我们不想让它吐出来的话,包括一些这种安全的或者是隐私的一些信息,那我们也尝试了去如何用编辑技术来去做这种,大模型的这个去读来。

去让大模型变得更加这个安全的这个可信,那这个工作其实啊非常好理解啊,就是我们当时去探索这个语语言模型,假如是一个常规的语言模型啊,我们可以看到其实可以通过一些越狱的prompt,让它吐出来一些这种嗯。

有些时候会有一些这个非常敏感的一些内容啊,其实我们也试过像包括像DPO等等一些方法,甚至对齐的方法,其实对齐后的这个模型还是有可能会被这个啊,prompt给它攻击到的,就模型本身其实还是有这种情况的。

那么有没有可能有一个比较精准的方案,直接找到这个原模型中间的,跟这个有毒信息的这个区域,然后我们把这个区域的信息给它改掉,让它这个变得更加安全呢,那我们只是做了一个比较初步的一个探索呃。

这个工作,因为其实这个这个场景没有现成的数据集,所以我们首先干了一个事情,就是先构建了一个数据集,这个数据集叫做safe editor啊,我们当时收集了一些已有的公开的学术,数据集啊。

啊这个其实这个领域还是有很多公开的数据集,还有公开的一些BROM的,我们就收集了很多数据集,然后去自己构建了一个啊新的数据集,那然后接着我们就去尝试了一些已有的方法。

并且设计了一个非常简单的一个这个基线啊,这个机线啊其实思路非常简单,是个非常simple的机线,就是我们先做一个定位,我们根据这个安全的表征输出,和不安全的表征输出,我们假设啊。

但这个假设也不一定非常严谨啊,就假设它之间如果是差距非常大的,那么可能这个区域就表征了这些,非常有毒的这个信息,然后接着就是一个思路,就是我们直接去修改这个区域的这个参数,让它实现这个模型的一个剧读。

当然去读的时候,我们也为了保证它的通用能力,也会去设置一些通用能力的这个数据的,这个这些正则项,来保证它通用能力不会掉的特别厉害好,那效果上其实也是非常不错的,就是虽然说还是有一些副作用的。

可以看到我们当时测的,在三个这种公开的performance数据啊,去测了一下,结果发现还是会掉一些点的,但是相对还是可以去啊,保证一些这个副作用的副作用的,这个相对比较小的控制范围内。

同时它也可以在呃相对其他的一些机械来说,也是能够有一定的程度的这个提升的,那么这个思路它背后和一些传统的一些做法,它到底有一些什么有些本质的区别呢,啊我们又去做了一个比较深度的一个分析,就是发现。

其实像传统直接去T或者是做对齐的方法,就像这个啊下边的这样图例展示,可能这个读的信息还在里边,但是它可能被绕过去了,就是模型遇到这些输入的时候,它可能一些有毒的信息,仅仅是绕过了这个一些信息而没有啊。

像然后然后吐出来一些信息都是相对安全的,但是这个呃编辑的做法呢,他直接把那部分信息给改掉了,相当于是他因为做了一些梯度的一些操作,所以它被信息被改掉了,所以相对而言,整个毒性的这个权重就被降低了啊。

但是这个客观来讲啊,其实也没有被彻底擦除掉,因为这个呃为了保证这个模型的通用能力,不受太大影响,我们只是呃略微的让它这个信息,相当于略微的为它降低它的这个权重,但是事实上还是存在的啊。

但这个只是一个初步的一个探索,那这里是我们当时做这个编辑,做了一个比较简单的一个demo啊,这个在我们的这个呃这个代码也是开源的,如果呃有感兴趣的可以去尝试一下。

就是我们可以看到这里边就是对于给定的输入,跟这个输出的一个不安全的回复,和一个安全的回复,我们去首先做了一个这个相关的一个定位啊,可以看到这个它很快就可以定位到,这个这个层的这个这个区域啊。

大概是这个是在32层啊,然后后面的话就是进行一个这个,编辑的一个操作啊,因为时间有限,边际操作我就后面就不展示了,这个编辑,它可以成功的去让这个模型去突出些啊,相对啊这个这只是这个结果。

就相对于把一些原来的不安全的输出,变成一个安全的这个输出,好啊,我们把刚才所讲的这些工具跟方法,都集成在我们的一个团队的一个开源工具里,叫做这个easy editor啊。

它目前其实也支持我们很多的国产的这个模型,包括像这种百川通义啊,啊GLM下了GLM啊等等。

也包括一些国外的一些这种主流的一些,这种模型等等,好,那最后做一个简要的这个总结与展望啊,其实总结和展望主要介绍的信息,都是这个我们现有工作的一些,这种局限性跟limitation啊。

虽然看到其实刚才我所讲的这个编辑新增知识,擦除知识啊,看上去效果还行,但实际上它还是有很多问题的啊,就比如说啊,我们如果在1000条之后再继续进行编辑的话,这个模型其实还是有可能会崩掉,也就是说。

其实目前啊这个我们当时做了一个实验,就分析,假如说把一条知识啊,比如说以例子,比如说就以这个美国总统这个例子为例啊,假如说这个美国总统从这个A换成B,然后我们如果有一天这个这个这个B又变成A。

就相当总统又变成A了,那这个这个知识,这个模型还是不是原来那个模型呢,其实我们从这个左边这张图里比较,其实可以发现啊,参数化的这种知识的一个更新编辑,跟以前的像符号主义的这种知识图谱的啊。

知识的更新机理是完全不太一样的,就是很可能模型通过一些其他的机制,比如说下面红色的这个神经元,来实现了这个新知识的一个表达,但是这个蓝色神经元这个还在,就这里边说明一个很难的问题。

说明我们其实对这个知识的机理,了解的还是比较浅的啊。

哪怕用这个回路的思想来去解释,其实里边还有很多很多的这种问题啊,就背后带来了一个问题,就是现在目前其实还很难去实现,一种比较精准的终身的这个知识的编辑,但是呢其实这方面还是有很多。

我觉得比较有趣的一个方向的,比如说最近有一个工作叫做表征的这个编辑,或者表征工程啊,其实我们如果假设把这个参数化的知识,其实都用这种表征来去理解的话,其实我非常看好这个思路啊。

其实里边有很多很多有趣的现象可以发生,我们可以通过去编辑它的表征去控制它,让它这个变得更加安全啊,常常掌握一些新知识,让他尽量避免幻觉啊等等,这都是我觉得是一个非常有趣的一个这种视角。

但是整体而言啊,其实我们现在啊对这个方面的研究,有点像以前的这种物理学的研究一样,就是现在其实这个大黑盒,而且参数量很大,我没有办法去精确到每一个神经元,去分析它到底是什么样,很多的时候都是做一堆实验。

外部干预的实验,比如说我们就设计一些problem的,设计一些探针,或者设计一些啊机理分析的一些,这种可视化的一些角度等,去分析这个到底是什么,但这里边其实很难去非常完备的去理解,它到底背后是什么啊。

其实右边这张图是我最近看到一篇工作,他非常有趣啊,一篇ICMN工作,他把大模型的机理,跟人脑的机理来进行了一个类比,也就说明其实我们大模型很多分析现在有点像,跟人脑的分析越来越像了。

这背后有很多问题,其实都是有一些共性的这种问题的,那最后一页啊就是呃,当然这个其实也是这个一个一个一个,一个DISCANNER,就是我今天其实讲的东西呢,其实很多都是一些假说啊。

因为啊像刚才这个贺老师也提到,现在有很多新的架构,比如说MUA,它背后的这个机理是不是和transformer一样的,很难讲,不一定一样,也可能一样的啊,最近有一篇工作,提出了一个叫柏拉图的表征的假说。

他就说可能不同的架构啊,甚至不同的模态的模型,最后都是在去逼近一个可能是一个世界模型,但这个给我们带来一个很好的希望啊,就是可能假可能是一样的,但是未来还需要很多呃同行去探索啊。

如何去建立一个非常完备的知识存储,表达更新的一个理论体系。

好以上就是我的报告。

2024北京智源大会-大语言模型 - P5:小钢炮MiniCPM是如何炼成的?-曾国洋 - 智源社区 - BV1zE421N7UJ

大家好,我是曾国阳,然后非常高兴今天能跟大家一起分享一下,我们在训练啊,mini c p m系列模型中的一些技术发现,以及最后的一些经验啊,然后呃正好也开个场,就是前前几天呢。

其实发生了一个还比较大的事情,就是苹果在2024年的开发者大会上,推出了apple challenges,然后也是标志着成呃苹果也是正式的开始去啊,做自己的端测的AI啊,其实在苹果之前的话。

也有不少的国内外厂家就已经开始布局啊,端测的模型了,然后在这个方面的话,其实我们也是做的比较早,所以今天也正好能有机会跟大家分享一下,我们在探索端测模型中的一些发现,其实从我们的一些之前的结果来看。

端测模型的出现,基本上是大模型发展历史中一个,比较必然的事情,我们呃图上边有两张图,左边那张图的数据来源是papers code上呃,和MMU数据集的相关的水平啊,然后我们以GBT三一百七十五。

B就是最早20年那个版本的那个指标,作为一个参考的话啊,我们把那个图中红色的点,其实就是呃,水平大于等于GPA三一百七十五B的模型,然后浅色点就是小于的模型,然后画了这样一张图。

我们可以发现随着时间的推移,然后呃达到最原始的GPA3,175B的知识水平的模型,尺寸在逐渐的减小,并且非常巧妙的是,它满足了一个规律,就是我们发现他差不多每八个月时间嗯,模型的知识密度其实会提升一倍。

也能看出来啊,随着模型训练技术的发展,模型能够将越来越多的知识给保存在,越来越小的参数量上,如果我们把这个理解为模型的一个制程的话,其实也可以啊,看出来就是像计算机领域最开始出现的计算机。

像AI arc其实好几个房间那么大,但是随着制程的发展到现在,我们可以把呃这样一个计算机给拿在手上,像手机一样去使用它啊,这也是我们推测大模型啊,在这个发展历程上,端测模型未来一定也会这样出现。

然后同时除了在文本领域,我发现在多模态领域的话,其实也存在这样一个大的趋势啊,然后它和那个啊文本领域会比较像,然后这就不多讲了,在今年早些时候,然后我们其实发布了mini c p m系列的模型。

包括最早的mini c p m呃,1。0就是它的2B版本和1。2B版本,以及mini c p n杠V,还有mini c p m啊,杠V的2。5版本啊,然后今天主要就是介绍一下这些版本中。

模型所使用的一些技术,以及它取得实际效果啊,今年最早的时候其实我们发布了mini CPU两币啊,其实发布这个模型,最开始我们没有想过要训练一个两币的模型,只是因为我们在实验过程中。

然后这个两币模型是我们产出了一个中间版本,然后这个中间版本呢它达到什么效果啊,相比于就是他之前的比较知名的模型,像MISTRO啊,甚至在他后边发布的google的GA啊。

它都能够呃取得和就是和他们相当的水平,同时啊在这样一个小的规模的参数量上啊,这样的模型它能达到这样的效果,在之前看来也是非常不容易的,在这里边的话,其实我们主要做了非常多方面,在训练方法上的一个探索。

比如呃在模型训练的时候,其实大家都会涉及到调整非常多的超参数啊,当我们训练更大规模模型的时候,要调整超参数,它的成本也会更高啊,而且呃就是对于不同规模的模型来说,其实它的自由超参数也是不一样的。

在一个之前的工作中,其实有相关的研究,应该叫就说在我们这里边,其实使用的mp这样一个框架啊,之前的工作一叫什么tensor programs,我有点忘了具体是啥名字了啊,然后在这个框架中。

然后他提出的方法能够对参数进行一些归一化,然后能够通过规划之后,然后就能够确保在不同规模上,模型能够共享一套最优的超参数,然后在我们的实验中,我们也对它进行了验证,其实除除了那个呃。

这个图是一个learning rate,其实除了learning rate之外的话,我们对其他的一些指标也做了一些测试啊,包括像啊模型的什么深度,还有模型的宽度之类的,还有一些其它的超参啊。

然后最终发现,其实在对模型最终效果影响比较明显的,其实就是这个learning rate,选择一个合适的learning rate,不仅能让模型训练的更更快。

同时当learning rate选择的不好的时候,它最终收敛到的位置也不会那么好,然后我们在复现了mu的工作之后,我们发现一个非常巧妙的值,就是learning rate使用0。01是非常的好啊。

所以这是我们在mini se分训练中,选择0。01作为learning rate的一个啊实际的原因,然后在确定了完learning rate之后呢,然后大家也会遇到,就是在实际训练过程中。

我们都会有learning rate schedule啊,这个schedule的话,其实也是一个非常重要的一个指标啊,从最开始训练BERT,大家用的是那个NO arm的那个方法,然后再到后边来。

大家普遍会使用cosine的一个啊调度器啊,但是我们对cos的调度器做了更深入的研究,其实在cos in调度器设置的时候,它最重要的是要设置一个最终截止的部署啊,然后我们对不同的截止步数的cos调度器。

都做了实验,上边那个N是指那个模型的参数量,20N是指训练20倍模型参数量的数据量啊,或者叫token量啊,然后通过设置不同的截止步数,我们可以发现,其实呃当一个cos inerrate。

它呃它取得在它曲线中啊,效果最好,loss最低的位置往往是它到达郭谷的那个位置,是他的那个呃,最终的那个那个那个那个值,就是应该叫最最终的LR最小的那个位置啊,同时的话我们发现就是呃。

我当我们能够给那个cos的learn rate给它切,就是当当它能让它重复足够多次次的时候,我们发现它其实在越往后的话,它其实最终也会达到一个差不多的水平,所以基于这个话,我们就进行了一些进一步的探索。

我们把这个learning rate上,learn rate schedule做了很多的不一样的实验,然后后来我们就试出了一个叫WSD的一个啊,Schedule,然后它非常简单。

就相比于传统的那个cos各种曲线来说,它就很粗暴,它就包含三个阶段,第一个阶段warm up,第二个阶段是stable,第三阶段decay,warm up的话,其实是现在所有scale的会自带的。

就是前期从最开始LR是零,然后通过训练持续增加到我们最终的初始LR,然后同时呃和COSN不一样的是,就是COSN的schedule,它会在那个训练过程中持续的下降,而对于我们WSD来说。

它会在中间保持相当长一段时间的,stable的一个啊学习率,我们发现通过一个更大的学习率,其实模型能够实现更快的学习啊,而为什么最后又会有个decay的阶段呢,啊是因为我们发现。

当我们一直保持比较大的LR的时候,模型确实会学的比较快,但是它最终到达的那个loss的水平,其实并没有那么高,但是当我们去降低R这个过程中,然后它loss会出现一个快速的下降,在这个过程中。

我们就是实验得到了右边那张图,我们可以发现呃,通过那个WSD的优化器,然后它在STL阶段,虽然它的那个loss会比cos更高啊,但是呢就是随着我们在不同阶段,使用decay的方法的话。

然后它就可以在decay阶段实现loss快速下降,甚至在后期是可以在那个decay阶段完成之后,他得到那个模型的loss是会比那个呃使用cos in,使用cos in的那个学习率。

在对应时间得到loss会更低啊,同时的话WSD的优化器也有个好处,是啥呢,就是当我们训练模型的时候,可能通常要呃就是其实数据训练的过程中,可能数据会发生各种各样的变化,甚至我一个模型训训完了之后。

还想再训一段时间,这都是很常见的问题,所以对于cosine学呃的schedule,它需要在训练之前呢,预先设置好一个他的那个呃截止时间啊,但是对WSD它是不需要的,当你随时要用的时候,你随时把它拿出来。

然后训一下它的decay阶段,就能得到一个非常好的模型,这个对于大模型的持续训练来说,也是非常有用的啊,然后右边是一个我们实际训练时候的那个lost,的一个情况,可以看出比较明显的一个变化。

就是它从从大概那个2万5000到3万中间,那个步数的时候,然后我们开始进入DK阶段,然后他的那个LR会呃,就是它的那个LR,在那个阶段会发生快速的下降,就对应的带来也是loss会发生快速的下降。

然后呃其实还有一些比较有意思的呃,结论就是其实在之前那个包括欧派的研究中,就是batch size的选择会和你最终的learning rate呃,会和你最终的loss收敛到的位置会相关啊。

但是在这里边理论上它应该在那个decay阶段,选择更大的lo呃,选择更大的batch size,但是我们做了一些实验,发现好像并没有什么效果啊,那反正也感觉挺奇怪的啊,然后嗯针对这样的模型的话。

我们也对它实际进行了一些评测,就说在之前的话,在模型训练阶段,其实有个叫CHAN区love optimal的一个说法,就是说呃当我们训练多少token的时候,能达到一个最最最有效的就是在在这个训练。

在这样一个呃运算量下,会最有最高效的一个模型的size,和它要训练的数据量,然后我们我们使用了相同的数据配方,然后去训练了那个change cha呃,根据群区up型模去训练一系列模型。

可以发现使用我们这样的方法啊,训练出了模型,最终能够超越呃,大概是我们mini c p u2B的一个模型,它最终loss是2。4,大概的水平,其实等于全区loft tm9B规模的模型。

这也是为什么mini c p m,可以在一个更小的规模上去,战胜更大规模模型的一个原因,然后这个是一个最终的效果,然后我们将mini CPU这个两臂模型,最终也只能跑在手机和啊各种的呃,就是PC上。

然后同时能够有一个比较高的一个速度啊,然后这个的话也是,而且这个速度其实当时我们最开始适配的时候,也还没有做任何的优化,就单纯利用手机的CPU,其实就能跑到一个比较快的效果啊,然后因为实验原因。

我就不放太多啊,嗯对然后有了mini c屏幕之后,我们又在mini c屏幕上面加入了多模态能力,就是我们的mini CPU杠V的2。0版本啊,相比于那个其他多模态模型,我发现在我们的实验过程中。

我们发现就是呃多对一个支持图文,多模态书的模型来说,文本模型文本的基座模型的水平其实会比较大,影响它在多模态最终的一个效果,所以在这里边的话,我们也是将mini c p这样一个比较强力的模型。

应用到了呃,应用到了这个多模态啊场景下边,然后可以发现通过一个更强的文本技术,我们能够超越数倍于我们规模的一个模型,然后这个是其实是一个比较旧的图了,就是当时发布的时候一个图,然后可以看出来就是啊。

mini c p m能够全方位的超越,甚至一些比自己大好几倍的模型,这也其实也是在我们实验中发现,是依赖于啊文本模型的一个强大的能力,然后在mini CPU杠V2。0中,我们能够做到对啊。

就是我们对那个我们能够做到,对于那个高清图片的各种的理解,同时还还能够把图像中那些比较小的字,都给识别出来啊,同时的话也能够识别,就是也能够做非常长的图片来理解,这个在文本领域。

其实有个常见的任务叫做长文本啊,就是我们给他一篇很长的文章,然后问一些问题,我们有意思的是,我们发现其实把这些文字转换成图片,然后通过图片这种多模态的形式输入进去,模型也能够做一些啊。

也能够做一些这种长文本的一些问答的问题啊,那么在这里边的话,其实我们主要应用到的技术就是呃一个呃U呃,就是lava u h d论文里提到,就是我们的那个多分辨率高清解码的一个技术,在这里边的话。

其实我在这个工作中,我们也是对多模态领域最最常见的一个问题,是对于不同输入尺寸的图片,然后它很难用统一的形式去编码,然后做出了一些相应的探索和研究,在图文多模态领域的话,其实比较知名的模型。

像GGPT4V啊这样一个模型的话,然后我们也对它做了比较细致的实验,左边是一个我们的实验,我们发现在GV4V,它可能应用了某种,就是将更到高清的图片切块的一个方法,同时它在块和块之间会有一些重叠啊。

然后来做的一个图像编码,然后这样的一个方案的话,我们也发现,就是他会经常在就是做一些数数的任务中,然后它会数错个数啊,左边是一个比较明显的示例,就是我们构造了一个九个小球的一个图片,然后我们发现。

以不同的尺寸将它放入到模型里边,然后GV4V它会数出不一样的数量啊,当那个它的那个当几个小球,它的大小是比较合适的时候,模型能够正确的数出是九个球啊,但是随着它的规模放大。

可以看出来它会逐渐从九变成12,再变成16啊,为什么变成16轮,其实我们会猜测它在这里边,它在那个实际处理过程中呢,它会包含一些就是呃就是切,就是把大的图像切片成小的图像。

然后在小图小的切片中会有重合的部分,所以导致有些呃,有些有些小球它会被重复的计数了啊,然后呃除了基弗四以外,我们也探寻了就是拉瓦1。5,它对于那个呃那个呃不不同,分辨率图像的一个编码方案。

然后发现它这样基于一个padding的方案,其实在一些比较极限的长宽比下的话,也会存在一些问题,所以在这个工作中的话,我们是综合的提出了,就是说我们要做一个动态分辨率的,一个编码方法。

然后具体的方法呢其实也比较简单啊,对于一个图像来说的话,它其实会存在多种切分方法,比如一个呃一一个一个就是啊,好非常高清的图片,我们可以直接竖着切,也可以直接横着切,也可以切2×3,也可以切3×2。

它有很多种切法,但是在这里的话我们经过实验发现呃,要达到最好的效果,其实是需要尽量去保证和原始训练的时候,每个就是原始训练时候那个v t encoder,它的一个呃,训练的一个长宽比最合适的一个情况下。

然后它能达到最好的效果,所以在这里的话,我们其实采用了一种比较精妙的方法,就是我们去通过给那个呃通通过计算,就是图像的一个高清图像的一个像素数量,是我们训练时候像素数量的多少倍了。

能确确定大概要分的块数就是那个N,然后根据N的话,我们能枚举出所有可能切块方法,然后在所有潜能可能的切块方法里边,再去找到一个,长宽比和训练时候最接近的一个方案,然后作为我们的切分方案。

基于这样的一个算法的话,我们最终能实现一个啊,就是能实现多,就是能实现多种不同分辨率下,这个图像的一个啊高高清图像的一个识别啊,同时包括传统比较难处理的长途,也是能比较好的解决,然后在这个的基础上。

然后后来因为拉玛三推出之后,然后我们又继续拉A3,然后将一样的技术移植了上去,然后发现确实跟基于一个更大更强的模型的话,在多模态的能力也会得到一个比较明显的提升,而在这个模型中的话。

我们在很就是在多种任务上,其实最终综合能力是达到了,GPT4V的一个水平,同时在OCR能力上,都会有一个比较强的一个啊体现,然后呃这个是一个例子,我们发现就是呃在这样一个模型中的话。

它能够比较好的去识别,就是包括中英文的一个识别,然后包含也能比较好的去识别,像图像中的票据的信息,同时也能做信息的抽取,比如让它按照JSON格式做输出对,然后像传统GPT4维有些大。

让大家觉得是比较难实现的能力,我发现当模型的就是特别是机动模型呃,能力起来之后的话,它都能够得到比较好的解决,比如像一个复杂流程图的理解,这个其实是对于啊,之前很多多模态模型来说是非常困难的。

但是随着模型能力的增强的话,这些也是可以解决的,还有就是一些表格信息的提取,对然后除了这个之外的话,我们还发现呃,在当模多模态模型,具有那个OCR能力之后的话,它能够有效的将文本空间和那个图像空间。

给更好的联系到一起,然后就能够利用语言模型的多种能力,然后能实现各种不一样的效果,比如啊在这里边的话,我们因为拥有OCR能力,然后我们还能就是我们就能和语言的跨语言,模型的。

跨跨语言的那个多语言能力给融合到一起,导致我们能够通过这样的方法去实现,对于各种不一样的主流语言的一个,多模态支持啊,最后这个发布的话,其实也在那个社区上受到了比较广泛的好评。

包括在hi face上的话也是啊受到非常多的关注,然后包括前段时间其实也出现那个呃,被被那个套壳的问题啊,然后同时的话除了呃mini c平衡系列,我们在开源社区的话,也是有很多其他相关的工作啊。

包括大家可能了解的比较多的就是开源模型,那些还有底层的训练框架,还有高更往上一层的就是agent的相关的框架,然后我们都是有啊涉及到,然后也非常啊,也非常希希望大家能够持续关注。

我们一些啊更新的工作,然后最后呢就是端测模型下一步我们会做什么,对我们目前来说,我们还会继续去沿着我们最开始提出的那个,大模型的摩尔定律继续走下去啊,同时的话,我们也是想要让一个GPT3。5水平的模型。

能够真正的运行在端侧,能够运行在手机上,同时我们也会为我们的模型去,添加更多的模态啊,我们可以,我们能够感受到端测的AI是大势所趋啊,并且端测的AI能力,也会随着硬件的发展和普及变得越来越强。

对然后以上就是我今天说的内容。

2024北京智源大会-大语言模型 - P6:大语言模型预训练的效率优化-王炳宁 - 智源社区 - BV1zE421N7UJ

是来自百川智能的王笔,然后今天给大家分享一下,我们在那个大预言语言,大语言预训练的一个模型上的一个效率,优化上的一些一些探索,可能今天主要聊的是一些已经有的一些工作,包括我们的一些思考呃。

而且今天可能我这边主要给大家讲的都是一些,可能跟本质是预训练相关的一些东西,可能像类似于下游的一些对齐,有些agent的这个可能不会涉及到对,首先是先介绍一下background吧,就是因为我们刚才。

其实前面几位讲者也都介绍到了,其实现在我们的大模型,已经进入到大模型时代了,然后他的一个比较显著的特征就是它大,然后大模型的提升能力的一个非常关键的方法,其实就是scaling law。

就不断扩展它的一个呃模型的大小,不断扩展它其中训练的数据的大小对,但实际我们发现其实在真正训练中,其实本身我们除了说无脑,就是无限制的去扩展我们的参数,大小和数据的字,这个这个之外。

其实我们还有一个非常需要去做的事,就是我们怎么在单位时间内提升对我们的数据,比如我们的模型更好的一个一个压缩,就实现更好,就是单位时间内更高的一个智能,这可能是我们现在很多在做大语言模型。

不管是预训练还是这个反听令阶段,这种都在做的这样一个事情对,所以其实我们今天就主要给大家介绍一下,这些一切的一个方法,但可能有些局限啊,因为可能我们就讲了,只是一些理训练的一个方案,而且是主要关不呃。

当前的一些一些短暂的可能的一些结论,可能对对长期long term这些结论是不是有效,可能还是有些疑问了对,所以其实可能从几个方面来去做这个,来去进行一个分享对,首先是为什么要做这样一个优化。

其实语言模型我这里就简单介绍一下,它其实说白了就是语言模型,就是language model,就是对这个language进行建模,这样的一个方法,对它其实核心就是你根根据一个把一个句子的。

一个概率进行一个一个统计建模,然后由前面的一些句子,得到下面一个词单词的这样的一个概率,就是next token prediction,这是一个非常经典的这样的一个,一个一个预测的一个方案。

但其实我们知道现在大这有传统的,其实语言模型不是个新的事情,它传那方法有类似这种n gram,就靠之前前面几种几个单词,然后来预测下一个单词对,然后当然现在其实我们知道大模型来的时候,之后。

基本上现在都会都会落脚到这种所谓的auto,aggressive这种model里,也就是说我们如何根据前面呃,前面若干个单词直接去后预测后面这个单词,这样的一套范式也依靠神经网络啊。

确实是网络有点问题,那我就稍微讲的把一些重点讲讲的慢一些哈,然后可能这个现在能听清楚了吧,赵老师,哦好的好的,那我继续,然后可能现在的一个语言模型,发展的一个比较重要的特征就是它越来越大。

就是不管语言模型训练的数据,还是说本身的参数规模,Scalling,其实就是我们现在基本上取得所谓的,现在AGI通往AGI之路上,可能是最重要的一个突破的一个关键因素。

然后右边其实是左边是一个那个英伟达。

他们那个黄仁军,他在那个GDC2024上面,keynote可以看看到,最近几年,其实对AI发展其实最重要的一个一个变化,就是我们的一个模型的参数量,还有它训练的总共的一个flops,是非常非常夸张的。

在提升的,从之前很少的一个transformer g p T1,到现在可能GP4,它可能是一个万亿的这样一个MOE了,然后对于我们整个发展历程来看,我们可以看到,我们之前在很早一段时间。

在做这种各种各样的语言医疗,这种各种各样的feature engineering的模型,到后面可能是2010年之后,随着深度学习的发展,我们都在研究怎么把这些目这些不同的任务,用一个模型给做起来。

都是在研究一些模型,但其实现在特别是202022年之后,我们发现了scaling lash是一个非常重要的因素,现在大家都在做所谓的就是大,我们怎么把这个模型做大,然后把所有这些东西进行一个统一对。

所以其实这是一个我们认为是现大圆妈,现模型发展的最重要的一个原理,就是scaling law,其实scaling law,如果是我们把它形式化的表达一下的话,它可能就是一个非常简单的。

就是对loss的一个进行了一个预测,其实我们刚才讲的语言模型,其实就是对一个句子的的概率进行建模,然后呢,我们那个概率一个loss可以分为1reduce bloss,还有一个reduce bloss。

就是说诶我一个本身一个模型,对我们整个的数据进行一个建模,其实达到了,就是我要让在这些数据上得到,我最最小的一个预测的一个损失,然后当然了,我不管是模型有多大,还是我的数据有多少。

我最后肯定是有一个下界的,就是这个L的这样的一个无穷大的这样的一个,他其实就是说我有一个下界,就是我无无无论怎么去优化我的模型和数据,它其实会有一个夏季的一个损失。

但除了这个下界之外的是reduce blows,就是我最后需要去做的这样的,不管是我通过过大量的把参数扩大,还是把我的数据量训练的时间更长,都可以让这个loss变得更低,所以其实这就是skin law。

一个基本的一个简单的表示吧,当然其实对于scaling law,其实现在有很多不同的一种表达的方法,比如说有左边的最开始就是OpenAI,他们发的一个所谓的这种,基本上跟三个指标跟数据量。

跟我的训练资源,跟我的参数量相关的几个指标的,而且他他们通过训练不同的模型,可以把这个skin law给拟合出来,当然还有一个比较经典的就是CHENCHALT,他们的一个still in law。

他是把它当做也是一个所谓的power law,就是一个指数函数的一个拟合方式,E其实就刚才上面的ERISTENCE扫,就是不可去降低的,然后ABND其实都是一些超参数,我们可以进行去呃。

阿尔法贝塔都是可以去进行优化的,N和D就是我们的模型的参数量,和我们的数据量对,大概就是这样的一个情况,所以其实我们今天其其实在优化了很多,很多的动作,都是在,不管是我们模型结构的优化还是什么样优化。

其实都在去优化这样的一个scanning log,如何让我们的loss变得更低,所以其实你看现在我们很多情况下,不同的模型设计不同的训练方案,刚才其实那个呃曾老师其实也在介绍了。

就mini c ham他们在做了很多的这种优化,其实都是为了让我们这个string la去更好的去,你去做做优化,我们这个scaling law,让我们的这些参数去发生一些变化对,然后呢。

当然在提到我们scn law是我们今天要做报告,就是最根本的一个原理,或者其实就是大模型的一个最基本的原理,但是我们要首先要假设Scout是存在的,但对它的估计可能是非常脆弱和可能粗略的。

其实最近有一篇文章,就我们大家都知道,skin law肯定本身这个公式是对的,但对它的拟合,比如我真要把这个阿尔法贝塔A和B拟合出来,其实是个非常困难的事情,然后这篇工作大家回头可以去看一下。

其实他们就发现,其实拟合不管是现在请求大的,还是市面上基本上大部分的工作,对这个数据的拟合,对这个超参数的拟合其实是很弱的,你你需要可能非常非常多的这种参数样本。

才能把这个给这个skin lag给拟合出来,对所以这个是skin lag,可能是它本身是正确,但是要把它真正的拟合出来,可能是有一些困难和难点对,然后他但是呢如果我们拟合错了,就会发现。

其实很会对我们的结果和预估,会造成很大的影响,我举个简单的例子,对于这个scaling law这个本身来说,就是我们刚才讲的这个CHANGA,就是这个是就是不可去减小了这个loss。

然后后面两项一个是参数,这个D是数据量,然后这里去估计A和B阿尔法贝塔,然后我们其实对这个模型结构优化,其实可能就会把这个阿尔法进行优化,因为N就是参数嘛对吧,或者跟模型相关的。

然后我们假设能把这个从0。34,优化到0。35,就这个越大了,我们肯定是让这个loss可能变得更小,但其实你知道我们可以看到,如果你对这个估计估计差一点,其实对整个loss来说。

它是一个非常非常大的一个差距,所以说其实呃这个想讲的就是,skin lop本身一定是正确的,但对他的估计可能就是差之一点一点,人谬以千里,对可能是一个非常一个一个多的,所以其实我们今天现在很多的。

不管是我们的做法,其实还是说我们的很多的一个所谓的经验呃,其实就是在不断的增大模型的尺寸,提升我们的这个N就可以让我们模型变得更好,还有就是说像我们知道拉玛三,用了更多的是15T的数据去训练它。

就是用更多的这个data去来降低这个loss,但其实还有另外一个方面,除了这种比较原始吧,或者我们认为是可能是比较暴力的方法,其实我们还有就是我们上面标出来的,红色的部分,我们可以设计更好的模型结构。

比如像分词器啊,或者是类似各种各样的这种tension啊,优化结构去提升这个阿尔法或者降低A,然后可能是我们可以用更好的数据,比如说提升数据的质量配比,然后提升BB对,就提升去贝塔。

或者说降低被降低这个B,但也可以,最后就跟刚才那个WSD那种方法一样,就是我们用更好的训练技巧,然后同时去优化我的这个参数和这个D,所以所以它这其实是一个去,在这个固定的这个参数。

或者或在这我们固定的这个lo下,去优化这几个结构的这样的一个过程对,所以其实今天讲的主要就是这几块,一个是从数据,然后模型结构的设计,还有训练方法的优化,去来去对这几个进行一个统一的。

一个优化的一个过程,对首先是一个效率的优化,其实刚才第一个呃,这这赫迪老师其实也讲了,现在有很多这种效率优化的方法,包括包括linear attention,包括很多的,它其实核心就是想解决本身。

transformer里面最核心的这个框架attention,它里面的一个问题,比如说像最左边,就是我们标准的这样的一个attention,它的一个结构可以看到它是一个全连接的,就是说你有更长的话。

它就是下三角一个矩阵嘛,所以所以它其实计算的一个复杂度是N方的,那所以说这个N方当你的长度很长的时候,就会有很大的问题,所以后面有很多的工作都是对它进行一个降低,比如说把这个N方的复杂度降低到更小的。

比如说第一个常数项这样的一个工作,比如像sparse transformer这样,我们知道最近有很多的工作,包括five,但他也用了,包括刚刚才介绍到的block bus这种方法,但核心其实相相将于。

我们如何在这方面,把这个N方的这样的一个效率进行一个提升,对当然最近还有一些很多的这种去提升,不管是他的目标是长文本,还是说他就是提升这个本身transformer,建模能力的。

他其实就是去来提提升这个优化这个attention,它这个结构比如说像DTH,就是像streaming r m里面提升的,这提出了这个事,就是attention think,因为他也是发现。

现在的模型好像对第一列的这种attention,关注的非常多,也就是说不管你后面是什么样的词,它其实对第一个单词或头部几个单词,关注的非常多,所以由这发展出来一个,对这对attention进行一个改造。

提出了一个非常不错的一个效果,叫streaming2M,然后最后效果还是还是挺好的,当然除了这个我们讲了attention这个优化之外,就有很多的工作哈,还有一些其实就对本身只整个这个模模型结构。

进行一个优化的,比如说现在比较新的,可能大家也看到,前两天就是经常出来的叫MANA或者java,这个就是它其实本质上是一个,类似于这种循环的神经网络,其实我们知道循环神经网络。

就是在现在的大语言模型时代,它其实被忽略了,因为可能在前几年最开始,比如10年左右,其实大人家做了对于文本处理,都是用循环神经网络,因为它本身有这种递归的这种性质,你看文本也是从左到右一个词一个词的说。

其实循环神经网络也是这样,它可以一段不就是递归的进行建模,把之前的信息引入到后面的信息,所以本身以结构来看,它是一个非常好的,只不过可能transformer出来之后,他靠他的更好的性质。

然后得到了很好,但其实现在RN现在反而在这个大模型时代,被淡忘了,但最近大家发现了这种RN的这种效果,可能是嗯,可能它的一个效率上是会有更好的,相比于transformer,所以大家很多人包括MANA。

很多RWMKTV都在做这样的一个优化,首先先讲一下,为什么之前的很多模型结构没办法代替,Transformer,就是为什么像LSTM这种方法没办法替代,其实可能也不是说。

但它的嗯它的什么就是效果差或者什么样,它核心的一个缺陷是它的一个scaling property,就说如果我把我的这个模型,参数变得更大了之后,transformer是可以很好的进行一个扩展的。

但是像LSTM或者传统类似于这种convolution,这种方法,它也有在用文本上做CONOLUTION,他可能很难去做扩展,比如说两层三层,四层或者更多的,它其实可能效果就已经达到瓶颈了。

这可能就是LSTM,或者其他的这些很多宣传水平,它的一个非常大的一个一个痛点吧,就是他很难做scaling,这个当然是很早之前的一些工作了,就对研究,不管是ALBERT这种很多其他的工作的方法上。

对比这种呃他的SCALLING的性质,可以发现其实还是transformer是scale最好的,当然现在有一种新的结构RWKV,这也可能是在大模型时代出的一种,RN的一种形式。

大家就发现它其实还是可以做到很好的一个,spelling的性质的,但它本质其实也是一种RN的,这种这样的一个结构,对或它其实本质叫state state space model,就空间状态机嘛。

但核心还是RN的一种形式呃,但但他的一个做法其实也以,如果你以图的形式可以看的话,它其实就是把之前的一些信息引入到当前信息,并且有一个类似于这种time miss的一个方法,就可以引入了一个持续信息。

但它的一个建模是一个不会像R那个,就是像transformer这种平方向的一个增长,就是会把它固定在一个空间时态里面对,所以这个可能在现在里面如果做长文本处理,做时效性可就做实时。

就是效率优化是很好的一个结构对,然后他当然他也做了很多SCALLING的,这样的一个做法,可以看到,我们发现这RWMKV在大模型时代,也是会有一个不错的一个SCALLING的一个性质。

然后当然现在也有很新的吧,像曼巴呀什么,它都是基于这种SSMRN的依靠递归机制,将信息进行压缩在一个状态里面,然后不断的进行递归更新,它其实都是依靠这种,其实跟RN的思想是非常像。

就不要让它是平方向的增长这样的一个思路,其实第二种还有一种叫做memory based的,就是将信息依靠一个固定的婚比,不管是内部还是外部的一个memory,已经存储减少历史的信息。

然后防止它是一种N方的一个一个增长,这样其实就是一种相当于,我不管是你上下面有多长,我都把你固定到一个一个固定的一个空间里面,所以这个其实也是一种很多方法,都在做这样的一个优化。

但其实这个不管是结构优化还是attention优化,其实我们都会发现,现在的大语言模型都会存在一个问题,就是非常冗余,我们知道我们现在不管是transformer,还是一个LSTM还是各种各样的方法。

其实它都是一个一个语言模型,它都是一个深度网络嘛,神经网络,但其实我们这也是我们百川,前段时间刚发现的一个问题,就是现在的大语言模型可能非常非常容易,这个例子我们举左边的这个图。

就是它是一个就是拉马拉马尔的一个,7B的一个模型,当我们直接就是非常简单的,把模型最后面的一些层把它直接砍掉,然后让它输输出,意思就是你最后几层就不用了,直接让比如说他总共有30层的话,32层的话。

你直接可能把最后四层全部砍掉,它基本上在MMU或的效果,基本上没有什么影响,所以这个从这个角度来看嗯,现在就可以发现嗯,现在的模型其实非常冗余的,所以我们提了一个这样一个一个方法吧。

但是其实从这另外一个角度就是模拟模型冗余,它可能是现在大众优化的一个一个痛点,或者一个必然点,依靠,类似于之前有一个叫深度学习,里面有个叫做叫lottery ticket hypothesis。

就是叫彩票模型假说,就是只有模型够大之后,你才能找到一个比较好,小的空间来去作为一个本征的表示,但如果找到这个本征空间是需要很复杂的,所以其实如果后面的模型优化,我认为可能是需要去找到这个。

比较好的本质空间,然后来降低这样大模型的训练的一个代价,然后当然前前面提到了一个效率的结构,上面的方法,其实还有一个方法上的一个一个一个提升,这方面的工作就其实比较多了。

其实我们本身看本身就是这个大模型发展,或者本身这个原模型发展,它就开始,我们之前是没有预训练和强化,只有一个有限度微调,就是你有一个数据想一个model就可以了,但后面发展到像贝尔时代来临之后。

就有预训练这样的一个事情,你可以先预训练完之后再进行有限度微调,但其实现在就更多了,就是我们如果把它apply到真实的场景里面,我们可能还需要让他去跟这个environment,进行交互。

所以从范式来说,这个整个我们训练或者大大模型发展的,这个范式,就是在不断的进行一个效率提升的一个过程,开始这个可能是很低效,到后面他这几个有预训练之后,有这个人类反馈之后。

他可能是一个效率很高的一个事情,对然后提到这个效率,训练效率,当然我这里面有很多很多了,就是我们怎么去训练好,出来一个好模型,我们结构已经确定了,data已经确定了,怎么好。

其实第一个就要提到的是我们优化器,现在其实大家谈这个很少了哈,大家基本上默认的基本上就是ADAMM,或者加一个with it decay这样一个方法,但实际上对这个事情研究,几乎现在基已已经没有了吧。

但其实在传统里面其实对这个研究是非常多的,比如说像传统的里面,他们就认为可能在阿达姆,他对SGD它的一个优化,它对比它的有些认为ADAMM是比SGD要好的,但有些人认为ADAMM是没有SGD。

比如像我记得他们在图像里面,比如说你MEGNET,如果你要想调一个比较好的模型,你最后基本上都用SG来做最后的一个优化,但其实现在的模型我们知道,其实在语言模型里面啊,DM可能更好。

所以其实对优化器这个事情来说,其实没有一个定论,到底应该是什么,是一个比较好的这样的一个模型对,所以其实这个是,我们现在可能不是说有一个定定论,说阿达姆就已经完全是解决了这个问题。

然后但是alarm可以从另外一个一个视角来看,它为什么会比SDD,在现在大比原模型时代可能更好,原因就是因为它引入了一个所谓的二阶的这样,一个优化,我们知道其实我们如果对泰勒展开的话。

可能就是一个一个时刻,它的一个一阶加上一个二阶的信息,加上后面一些冗余项,可能SG它的问题就是他这个二阶,我们把它称为一个sharpness,它的一个问题就是它的二阶太sharp了。

就说他的那个抖动会特别大,然后ADAMM还一个好处,就是会他会把这个二阶的sharp变得更小,所以说这是一个它的一个优化的一个,一个一个方法,这也是为什么它可能在大圆模型去搜参的,这个过程中。

取得更好的优势的一个一个关键的一个因素吧,对所以其实现在很多的方法,不管是在记忆翻译还是真实在就是auto progressive,这种自回归的预测里面,都可以发现。

ADAMM确实是要比这个就是SGD要好,非常非常多的,然后其实这个里面ADDUM现在当然研究的少了,但但其实我们发现其实在大圆模型时代,应该也不能把它忘忘忘略掉,因为可能SGD这个。

咱们知道他之所以没有阿达姆表扬好,其实有很多工作发现,比如说这个黄色是长尾的,高频的,就哎就所谓低频吧,然后蓝色深色的就是高频的,这些,可以看到阿dam,可以把高频和低频都进行一个很好的优化。

越下降就是它的loss,但是SGD可能低频的东西,它就处理的非常差了,所以从这个角度来看,我们认为可能还是要因就阿达姆,他可能对低频的这种优势是非常非常大的测试,如果是我们大语言模型时代有很多。

比如说小数民族语言,或者说很低频的一些pattern,它可能有用RARM,可以很好的去对它进行一个学习,对,然后当然二阶的一个优化就优处优势,我们就不用讲了嘛,他肯定是比一阶的好,不管是从它的找了这个。

最后找到极小值点的一个速度来说的话,它都是会比纯一阶的这种啊SGD要好很多的,最近其实有一些在大语言模型时代,对这个优化器进行优化的一个方法,比如像索菲亚,它其实就是对这个优化器进行了一些。

比如二阶的一些近似,然后达到了非常不错的一个效果,然后可以看到他具其实就是一个效率源,就同等时,他能去取得比更快的一个速度的一个加速,对,然后当然其实除了这个之外,其实最后一个就是跟训练方法了。

就是超参数,刚才其实上面前前面一个就是面壁的这个,同一个一个一个一个一个同事,其实也已经介绍到了,其实很多超三是我们现在需要去调了,你看不同的模型有很多不同的超参数。

像gp three跟lama two,他们有很多很多参数,好像大家都是不太一样的,有长度啊,超learning rate,还有by size,所以其实有很多这种方法,像milk这种呃。

就是叫tensor gram,这个是也是呃,现在他们之前有很多去搜参的一种方法,就是我如何去初始化这样的一个模型,让他最后不管是什么学习方法,在这个模型上人都能去起作用。

所以其实他们就提了一个依靠小模型的初始化,通过比它其实核心就是说我那些MMP层,我的输入和输出应该以什么方法来进行初始化,然后最后可以发现通过这种初始化方法,它能达到一个非常好的一个极小值。

这样的一个效果对,当然跟这个也是他们最后实验中和最后理论中,都发现,确实依靠这种非常好的初始化和超参数的调节,就可以达到同等的时间内,可以达到最好的这样的一个loss的一个水平。

这样其实就在同样时间内去降低,就提升那个死亡了,当然除了这个之外,还有一些嗯,By side learn rate,这个当然也是面壁,刚才那个mini c p m他们团队的工作,刚才这个曾已已经介绍过。

就是我他如何去找到这样的一个better side,和这个learning rate的一个关系,让他最后的一个下游的表现是更好的,通过这样不断的做scn lag,然后去拟合出来这样的曲线。

找到这样的一个一个关系对,所以其实它这几里面,其实还是会有一些搜索的过程,但其实现在可能大家认为这个里面,可能它没有绝对的关系,可能反而是他这种策略,就是这种所谓的learn it it。

它可能在一个很大的区间内,都可以达到一个很好的一个优优势,他不是说我必须得到设到一个一个多,具体的值,可能是在一个空,一个一个范围内都可以达到不错的一个效果,对,然后当然刚才这个就是SCALLING了。

也就是他的一个schedule,就是我其实对比那些超参数来说,这些本身训练的方案不是cosine learn read,还是说我的一阶段,二阶段这样的训练可能是更重要的。

所以现在有很多方法都是把它分为几阶段,我有什么warm up,有stable,然后有最后decay这样的一个阶段,这个可能是一个比较新的,而且可能是在大模型时代非常有用的。

这样一个一个schedule吧,对然后就总结一下,其实就是效率提升外,有很多就优化器呀,科学数据啊,还有一些不就是科学的超参数设置,还有学习方案,但可能要去都可以提升,我们刚才讲的这些。

在同样的单位时间内,降低我们这个呃训练的一个一个代价,但可能有一个问题,就是可能我下面也是也是也是要讲的,就是说呃,就是所有的方案其实都在一个,可能都是在小尺寸,或者说一个一定规模下调试得到。

而当尺寸变大之后,这个是不是能完全scale上去,或者这些它我们不能把它叫trick吧,它可能是一些一些empirical的东西,是不是能起到预期的作用,其实现在其实我我现在看到很多。

不管业界还是学工业界,其实都没有一个完全的一个定论对,所以这可能是一个风险,最后其实还有一些精度上的优化,比如说用FP8的训练啊,这肯定都是可以提升优势的,这个当然是一个GPU跟硬件相关的一个方法。

对基英伟达这几年也在不断优化,最近他们TH200经发展到非常好了,最后就讲一下,简单讲一下数据工程吧,其实数据工程就是和,也是刚才那个我记得是一个观众在问的,就说除了你说你改模型结构训练参数。

你是不是数据上能做些优化,能让最后同时同样训练,同样时间,能让最后效果很达的很好,其实确实是,我们现在其实数据工程也是一个非常好的,一个一个一个一个作作用,当然现在数据其实对它优化无非就是筛选采样。

还有一些合成的方法,包括一些组织的方法。

对今天简单介绍一下采样这个方法,其实采样是一个很重要的,我们数据你看这不同的模型,有不同的这种采样的方法,但实际上其实没有一个科学的方法,大家可能都是拍脑瓜启发式的,但其实最近就有一篇工作。

其实就是说我如何去确定性的依靠scaling law,就是我把这些不断的用小的方法拟合出来,大的这种东西呢,它其实就是把这个不同的领域的配比,然后进行一个科学的一个一个调配,先去训一个小模型。

然后训一个大模,最后然后把它拟合到一个大模型上,最后他去发现哎,可能我用更少的这样的一个数据量,就可以达到更好的perplexity,这个比一个,就是我找了一个这样好的一个采样的一个方法。

当然还有一些工作,是我通过这种细粒度的数据的采样,就它不是这种大领域的采样,而说我的token,我一句话可能有些很重要,有些不重要,通过这些token上的采样对它进行一个优秀优化。

这个里面应该是介绍对它,它应该叫做real1,它这种方法其实就是一个优化的一个过程,对,然后当然这个方法,它里面做了一个一个一个一一个方法,其实发现已经可以在很短的时间内,就可以训练出来一个很好的模型。

然后让他最后的下下游任务中,达到一个很理想的状态,得到了一个不错的结果,所以其实最近对这种采样的优化,其实大家发现也是非常非常重要,我们单位时间内提升很强的,这样的一个模型的效率对。

然后除了这个之外的话,最后就总结一下吧,因为时间关系,其实我们现在发现,其实我们所有的这种动作,不管是我们结构上的优化,还是我们数据上优化核心,就是我们要去优化这个scorning lots。

几里的这个几个参数,然后其实不管是数据的优化参数,它其实都在单位时间内,我们都想让这个东西降下来,但其实这个东西要涉及到最后一个,就因为这些所有的这引入了这种,不管是我们的trick还是技巧。

还是这些二阶三阶的很多东西,它可能本质都是人类所谓的叫inductive bias,就说我们人类想故意改变这种客观规律,而引入的,像让它加速的这种叫BIOS。

但其实可能是一个就richard so就sultan,他去在是他是一个是强化学习之父吧,他就想其实你纵观可能AI这些年的发展,它最重要一个原理就是你不要把人的鲜艳,那这个里面太多,最好是把它给排除掉。

这个就是所谓的一个better lesson,就是我们不要去把人引入更多人的BISS,就是让他以scale为第一性原理来做,所以可能未来的话,我可能我个人认为呃这些虽然重要,但可能最重要的事情。

还是把它无限制的去把它扩大,然后去做spelling up,这个可能涌现的出来的,是更更高级别的一个智能吧,对今天我的报告就到这。

posted @ 2024-09-25 08:06  绝不原创的飞龙  阅读(55)  评论(0)    收藏  举报