久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來

阿里千問APP公測“小插曲”:9.9與9.11之爭后展現(xiàn)自我糾錯(cuò)力

   時(shí)間:2025-11-21 02:18 來源:快訊作者:蘇婉清

一道看似簡單的數(shù)學(xué)題——比較9.9與9.11的大小,竟成為考驗(yàn)人工智能模型能力的試金石。近日,阿里巴巴最新公測的千問APP在回答該問題時(shí)出現(xiàn)失誤,引發(fā)業(yè)界對AI模型基礎(chǔ)運(yùn)算能力的關(guān)注。測試中,千問首次回答稱"9.11更大",隨后在問題拆解階段又正確指出"9.9大于9.11",最終通過自我糾錯(cuò)機(jī)制修正了答案。

據(jù)技術(shù)團(tuán)隊(duì)分析,此次錯(cuò)誤源于雙重因素:一方面,模型在推理過程中雖正確拆解了小數(shù)比較規(guī)則(9.9的十分位為9,9.11的十分位為1),但最終結(jié)論出現(xiàn)筆誤;另一方面,"9.11"的三位數(shù)形式引發(fā)了數(shù)字長度錯(cuò)覺,導(dǎo)致潛意識(shí)干擾。這種認(rèn)知偏差在語言模型處理數(shù)值問題時(shí)尤為常見,因其本質(zhì)是通過統(tǒng)計(jì)相關(guān)性而非嚴(yán)格邏輯推理進(jìn)行判斷。

該問題最早由艾倫研究機(jī)構(gòu)成員林禹臣發(fā)現(xiàn)。他曾在社交平臺(tái)曝光ChatGPT-4o將13.11誤判為大于13.8的案例。隨后,Scale AI工程師萊利·古德賽德設(shè)計(jì)變體問題"9.9與9.11誰更大",導(dǎo)致包括ChatGPT-4o、谷歌Gemini Advanced在內(nèi)的多個(gè)主流模型集體"翻車"。這一測試迅速成為衡量AI基礎(chǔ)能力的標(biāo)志性案例。

盡管在常識(shí)性運(yùn)算上存在短板,中國AI模型在全球化競爭中已展現(xiàn)強(qiáng)勁實(shí)力。以阿里巴巴Qwen系列為例,其全球下載量突破6億次,在技術(shù)積累與生態(tài)布局方面形成獨(dú)特優(yōu)勢。愛彼迎CEO布萊恩·切斯基公開表示,公司已大規(guī)模采用Qwen模型替代部分OpenAI服務(wù),因其"速度更快、成本更低"。這種選擇折射出商業(yè)場景對模型實(shí)用性的考量正在超越單純的技術(shù)參數(shù)競爭。

阿里巴巴日前正式宣布全面進(jìn)軍AI消費(fèi)級(jí)市場,將地圖導(dǎo)航、外賣訂餐、票務(wù)預(yù)訂等20余個(gè)生活服務(wù)場景接入千問APP。該平臺(tái)基于開源模型Qwen3構(gòu)建,被管理層視為"AI時(shí)代的關(guān)鍵戰(zhàn)役"。此舉不僅意味著中國科技企業(yè)正借助開源生態(tài)擴(kuò)大國際影響力,更標(biāo)志著AI競爭從技術(shù)層面向應(yīng)用層面全面升級(jí)。值得關(guān)注的是,千問項(xiàng)目在修正基礎(chǔ)運(yùn)算錯(cuò)誤的同時(shí),正通過多模態(tài)交互與場景化訓(xùn)練持續(xù)提升模型泛化能力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容