欧美日韩中文字幕精品_国产乱码在线观看_视频一区国产视频_变态另类丨国产精品_久久久久综合_蜜桃视频最新网址_搞黄网站在线观看_7777精品伊人久久久大香线蕉最新版_99re热视频

登錄
首頁 > 汽車測評 > Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

發布時間:2025-09-13 12:07:07

Meta超級智能實驗室(MSL)又被送上爭議的風口浪尖了。

不過,這次不是人事風波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質疑忽視前人研究、缺乏創新

究竟是啥論文?

讓模型在博弈中學習

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓練數據的情況下實現自我提升

這一方法旨在應對當前大語言模型高度依賴大規模、高質量訓練數據,且訓練數據有限所帶來的困境。

為此,LSP將模型的學習過程設計成一個博弈框架,讓同一個語言模型扮演兩個角色進行對抗,從而實現無數據訓練。

具體來說,這兩個角色分別是:

  • 挑戰者:負責生成越來越有挑戰性的問題或指令。
  • 解決者:負責回答或執行這些指令。

在對抗過程中,挑戰者不斷生成越來越刁鉆的問題或指令,以降低解決者的預期回報;而解決者則必須努力理解并回答這些指令,以最大化自身回報——這其實就是我們熟悉的極小極大博弈(minimax game)。

通過這樣的對抗訓練,模型能夠在不斷博弈中持續改進,逐步提升能力。

此外,與傳統對抗訓練不同,LSP讓單個語言模型同時扮演“挑戰者”和“解決者”兩個角色,研究人員給模型設計了一個特殊的“挑戰者提示”(Challenger Prompt):當接收到該提示時,模型進入挑戰者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設計避免了訓練獨立對抗模型所帶來的額外開銷和不穩定性。整個過程完全自主,模型在自我對抗中不斷迭代,從而在沒有外部數據輸入的情況下提升自身能力

為了將這個博弈轉化成模型強化學習的過程,研究中采用了GRPO技巧,讓模型在每輪訓練中進行如下操作:

  • 挑戰者生成問題:每輪生成N個問題。

  • 解決者回答問題:對于每個問題,解決者生成一定數量的答案,并分別計算獎勵。

  • 計算組價值與優勢:把解決者對同一個問題的所有答案的獎勵進行平均,得到這個問題整體的難度或表現水平。然后用每個答案的實際獎勵減去組價值,判斷這個答案比平均水平高還是低。 - 更新挑戰者優勢:通過計算優勢函數獲得問題和答案的反饋,優化自己出題的策略。

通過這種獎勵機制,挑戰者生成的問題會針對解決者的薄弱環節,從而推動模型不斷改進。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實踐中,研究者發現LSP-Zero有時會退化,例如模型為了獲取獎勵而生成無意義但能獲得高分的內容(即獎勵 hacking)。

針對解決這個問題,他們在LSP算法中引入了“自我質量獎勵”(RQ),引導博弈朝高質量交互發展,使訓練可長期進行。

(注:LSP的具體算法如下表)

最后,為了驗證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準上進行了兩組實驗。

實驗一將算法與基礎模型本身以及一個通過傳統強化學習微調的大語言模型進行比較。

實驗結果顯示,沒有使用任何數據的LSP和LSP-Zero和使用了數據的GRPO相當,并且顯著優于原始模型。而在 Vicuna這類對話型和開放式指令的數據集上,LSP 的表現遠超GRPO。

實驗二以實驗一中通過數據驅動 RL(GRPO)訓練得到的模型為起點,進一步使用 LSP-Zero 和 LSP 進行訓練,計算這些模型相對于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進行對比。

實驗顯示,經過LSP的進一步訓練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數據集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數據驅動的訓練之后繼續挖掘模型潛力。

總的來說,實驗結果表明,LSP-Zero和LSP算法能夠在無需訓練數據的情況下提升預訓練LLM的性能,尤其是在對話類任務上表現顯著,而這可能意味著AI正在從依賴人類數據過渡到自主學習系統。

網友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經發布后,在網友們這倒是出了些小插曲。

一位推特網友直言:LSP自稱是突破性工作,但實際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級智能”實驗室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯合最大化還是極小極大,不管是驗證器還是獎勵模型。為什么要把這說成是突破呢?你們在Vicuna上的評測確實做得不錯,簡直是2023年LLaMA社區的典型操作。

而且,就連失敗的模型也大同小異。

評論區有網友表示這可能是一篇老工作,然后拿到MSL發的:

Copyright 2017-2025 新車測評網 版權所有  ICP備18049689號-30
亚洲日产国产精品| 在线看欧美日韩| 裸体一区二区| 99电影在线观看| 三级毛片电影网站| 久久精品一区二区三区av| 91精品国产色综合| 午夜免费福利视频| 亚洲经典在线看| 日韩av影视| 国产精品免费播放| 国产在线观看一区二区| 一区不卡字幕| 少妇性bbb搡bbb爽爽爽欧美| 懂色av一区二区三区| 亚洲av网址在线| 国产日产一区| 一本色道久久加勒比精品| 中文字幕求饶的少妇| 国产精品香蕉| 97人人模人人爽人人喊38tv| 亚洲久久在线观看| 亚洲黄网站黄| 国产一区二区视频免费在线观看| 人人草在线视频| 久久国产精彩视频| 免费观看的成年网址| 天天综合色天天综合色h| 妖精视频在线观看免费| 18网站在线观看| 午夜精品视频网站| 亚洲天堂男人的天堂| 制服丝袜av在线| 93在线视频精品免费观看| 国产一区二区三区四区五区在线| 不卡在线视频| 神马国产精品影院av| 成人亚洲国产| 91精品黄色片免费大全| www日本视频| 亚洲一级片在线观看| jizz中国少妇| 婷婷一区二区三区| 午夜成人鲁丝片午夜精品| 亚洲精品久久久蜜桃| 91欧美日韩麻豆精品| 91香蕉视频mp4| 杨钰莹一级淫片aaaaaa播放| 日本一道高清亚洲日美韩| 97se视频在线观看| 大菠萝精品导航| 日本不卡二区| 澳门成人av| 欧美亚洲日本黄色| av在线第一页| 国产欧美日本在线| 亚洲午夜免费| 日本不卡在线观看视频| 自拍偷拍精品| 天天爽夜夜爽视频| 国产原创一区二区| 国产精品第5页| 天天综合网 天天综合色| 国产自产视频| 久热爱精品视频线路一| 中文字幕乱在线伦视频乱在线伦视频| xxx一区二区| 黄色成人在线观看| 一区二区免费电影| 欧美激情五月| 日韩高清精品免费观看| 欧美午夜片在线免费观看| 免费黄色成年网站| 69精品小视频| 91成人精品观看| 91精品999| 高清久久久久久| 中国女人精69xxxxxx视频| 亚洲人成在线观| 欧美少妇网站| 亚洲自拍第三页| 国产亚洲精品超碰| 再深点灬舒服灬太大了添少妇视频| 久久久久中文字幕| 欧美日韩大片在线观看| 无码av免费一区二区三区试看 | 国产大片在线免费观看| 欧美一区二区三区四区在线观看地址| 欧美综合久久| 视色视频在线观看| 99久久久国产精品免费蜜臀| 寂寞护士中文字幕mp4| 久久久电影免费观看完整版| 欧美精品videossex少妇| 黄色手机在线视频| 国产精品乱码人人做人人爱| 小小的日本在线观看免费色网| 亚洲中国色老太| 偷拍自拍在线| 日韩a级在线观看| 婷婷五月色综合香五月| 青青青国产在线观看| 国产精品素人视频| 黄网站app在线观看大全免费视频| 日日噜噜夜夜狠狠久久丁香五月| 国产成a人亚洲精品| 91www成人久久| 黄色污污在线观看| 中文字幕一区在线观看| www.成人.com| 亚洲精品乱码久久久久久蜜桃欧美| 亚洲成在线观看| 激情视频在线观看| 亚洲天堂精品一区| 一区二区三区高清国产| 欧美一级淫片| 亚洲欧洲成人在线| 欧美三日本三级少妇三99| 国产亚洲精品资源在线26u| eeuss影院在线播放| 青青草自拍偷拍| 欧美激情手机在线视频 | 91啦中文在线观看| 最近2018年手机中文在线| 向日葵污视频在线观看| 亚洲成人精品视频在线观看| 秋霞在线一区| 欧美videos另类| 亚洲一区免费看| 欧美性猛交xxxx乱大交退制版| 欧美v亚洲v综合v国产v仙踪林| 国产一级片av| 日韩手机在线导航| 久久综合久久网| 欧美自拍偷拍午夜视频| 成人在线爆射| ,亚洲人成毛片在线播放| 国产精品极品在线| 91麻豆国产香蕉久久精品| 色图在线观看| 精品一区二三区| 美女扒开大腿让男人桶| 成人一区二区三区| 精选一区二区三区四区五区| 日日夜夜亚洲精品| 国产小视频免费观看| 欧美视频在线播放一区| 亚洲精品720p| 国产精品一区二区三区www| 日本电影二区| 中文字幕 日韩 欧美| 中文字幕无线精品亚洲乱码一区 | 加勒比视频一区| 国产精品久久久视频| 国产成人涩涩涩视频在线观看| 亚洲图片激情小说| 欧美freesex8一10精品| av电影在线观看| 亚洲成人偷拍自拍| 日本久久亚洲电影| 中文字幕一区日韩精品欧美| 激情欧美一区二区三区| 欧洲亚洲精品视频| 亚洲经典一区二区三区| 日韩视频免费在线观看| 久久婷婷影院| 国产在线免费观看| 久久国产视频精品| 久精品国产欧美| 日韩av中文字幕在线| 国产91在线|亚洲| 色橹橹高清视频在线播放| 欧美一区二区三区观看| 人人妻人人澡人人爽欧美一区双| 亚洲国产精品系列| 成人免费av资源| av中文字幕一区二区| 国产一区二区三区成人| 国产免费一区二区三区最新6| 9.1国产丝袜在线观看| 国产日本欧美一区二区| 国内精品久久久久国产盗摄免费观看完整版 | 午夜网站在线观看| 福利在线一区二区| 欧美在线观看视频| 狠狠色噜噜狠狠狠狠97| 久久成人亚洲| 狼人天天伊人久久| 白白色在线观看| www.成人69.com| 一区二区三区免费视频播放器| 超碰人人人人人人人| 先锋影音日韩| 91精品国产综合久久久久久久久| 亚洲人午夜色婷婷| 日韩欧美一级在线播放| 亚洲综合色婷婷| 成人精品一区二区三区四区| 精品999网站| 精品一区在线|