久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來(lái)市場(chǎng)!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來(lái)

卡帕西“大模型議會(huì)”新玩法:四大AI匿名互評(píng),誰(shuí)是最強(qiáng)引熱議

   時(shí)間:2025-11-25 21:17 來(lái)源:快訊作者:蘇婉清

編程界又迎來(lái)一項(xiàng)創(chuàng)新成果——知名技術(shù)專家卡帕西推出了一款名為“大模型議會(huì)”(LLM Council)的Web應(yīng)用。這款應(yīng)用雖然外觀與常見(jiàn)的聊天機(jī)器人界面相似,但背后卻藏著獨(dú)特的運(yùn)行機(jī)制:當(dāng)用戶提出問(wèn)題后,系統(tǒng)會(huì)借助OpenRouter同時(shí)喚醒多個(gè)大模型,讓它們共同參與問(wèn)題解答。

這款應(yīng)用的流程設(shè)計(jì)頗具巧思,主要分為三個(gè)步驟。第一步是“群策群力”,系統(tǒng)會(huì)同時(shí)調(diào)用GPT-5.1、Gemini 3 Pro Preview、Claude Sonnet 4.5和Grok-4等多個(gè)大模型,讓它們針對(duì)同一問(wèn)題各自生成回答,并將這些回答以標(biāo)簽視圖的形式呈現(xiàn)給用戶,方便對(duì)比查看。第二步是“匿名互評(píng)”,所有模型的回答會(huì)被匿名處理后分發(fā)給彼此,每個(gè)模型需要根據(jù)回答的準(zhǔn)確性和洞察力進(jìn)行評(píng)分,并附上詳細(xì)的評(píng)價(jià)理由,避免因模型身份產(chǎn)生偏見(jiàn)。第三步是“主席匯總”,系統(tǒng)會(huì)指定一個(gè)主席模型,將所有模型的回答和評(píng)分進(jìn)行整合,最終生成一個(gè)綜合答案反饋給用戶。

在實(shí)際測(cè)試中,卡帕西發(fā)現(xiàn)了一些有趣的現(xiàn)象。例如,當(dāng)多個(gè)模型共同評(píng)價(jià)彼此的回答時(shí),GPT-5.1的答案被一致認(rèn)為最具洞見(jiàn),Claude的回答則被認(rèn)為最弱,Gemini 3和Grok-4的表現(xiàn)處于中間水平。不過(guò),卡帕西個(gè)人并不完全認(rèn)同這一結(jié)果:他認(rèn)為GPT-5.1的回答雖然內(nèi)容豐富,但結(jié)構(gòu)不夠緊湊;Gemini 3的答案更簡(jiǎn)潔凝練,信息處理更到位;而Claude的回答雖然簡(jiǎn)略,但也有其獨(dú)特之處。更令人意外的是,模型們?cè)诨ピu(píng)時(shí)很少表現(xiàn)出明顯偏見(jiàn),甚至?xí)鲃?dòng)承認(rèn)自己的答案不如其他模型。

這一項(xiàng)目在GitHub上公開(kāi)后,迅速吸引了大量關(guān)注,目前已獲得1.8k顆星。有網(wǎng)友認(rèn)為,這種模型互評(píng)的模式或許能成為一種新的“自動(dòng)基準(zhǔn)測(cè)試”,為評(píng)估大模型性能提供全新思路;暢銷書《Python機(jī)器學(xué)習(xí)》的作者也對(duì)該思路表示看好。卡帕西表示,雖然模型自評(píng)的結(jié)果可能與人類主觀感受存在差異,但這種多模型協(xié)作的方式無(wú)疑為大模型的應(yīng)用開(kāi)辟了新的可能性,未來(lái)或許會(huì)成為L(zhǎng)LM產(chǎn)品的重要發(fā)展方向。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容