滾動資訊

DeepSeek-OCR 2革新登場：模擬人類視覺邏輯，解鎖復雜圖像理解新境界

時間：2026-01-28 14:27 來源：快訊作者：馮璃月

DeepSeek近日推出新一代OCR模型DeepSeek-OCR 2，通過引入創(chuàng)新的DeepEncoder V2架構，突破了傳統(tǒng)視覺-語言模型（VLM）的機械處理模式。該模型能夠模擬人類視覺邏輯，動態(tài)解析圖像內容結構，在復雜排版場景中展現(xiàn)出顯著優(yōu)勢。這一技術突破標志著OCR領域從"像素識別"向"語義理解"的范式轉變。

傳統(tǒng)VLM模型普遍采用光柵掃描順序處理圖像，即從左上角到右下角逐塊掃描。這種處理方式在面對多欄文檔、混合排版報表等復雜場景時，往往難以準確捕捉內容間的邏輯關系。例如在處理包含公式與文字混排的科研論文時，傳統(tǒng)模型可能將公式編號與相鄰段落錯誤關聯(lián)，導致語義理解偏差。

DeepSeek-OCR 2通過動態(tài)重組圖像模塊的創(chuàng)新機制，實現(xiàn)了真正的語義感知處理。該模型不再拘泥于固定掃描路徑，而是根據(jù)內容語義自動調整處理順序。在OmniDocBench v1.5基準測試中，新模型以91.09%的準確率刷新紀錄，較前代提升3.73個百分點，在金融報表、法律文書等結構化文檔處理中表現(xiàn)尤為突出。

技術團隊通過優(yōu)化視覺Token生成機制，將計算成本控制在合理范圍。模型視覺Token數(shù)量嚴格限定在256-1120區(qū)間，與Google Gemini-3 Pro保持同等效率標準。實際生產(chǎn)測試顯示，該模型處理在線用戶日志的重復率下降2.08%，PDF預訓練數(shù)據(jù)重復率降低0.81%，展現(xiàn)出卓越的工程實用性。

DeepEncoder V2架構的探索具有更深層的行業(yè)意義。該架構創(chuàng)新性地將語言模型架構應用于視覺編碼，天然繼承了大型語言模型（LLM）在混合專家（MoE）架構和高效注意力機制等方面的優(yōu)化成果。這種跨模態(tài)架構融合為多模態(tài)大模型發(fā)展提供了新的技術路徑，特別是在處理需要邏輯推理的視覺任務時展現(xiàn)出獨特優(yōu)勢。

更多>同類內容

澎湃OS 300版暗藏玄機：自研生態(tài)布局初顯，小米高端突圍有底氣？

雷軍這是在給蘋果用戶修橋，只要你買了小米手機，你手里的iPad和iPhone依然是好搭檔，這種“無縫平替”的誘惑力真的很大。那么最后我想問問屏幕前的資深米粉們，看到這次連iPhone都能完美互聯(lián)的澎湃OS…

01-28

2026年AI硬件賽道激戰(zhàn)正酣：巨頭入局，誰能率先突圍成新一代入口？

2025年下半年到2026年年初，國內辦公巨頭釘釘和飛書先后推出了AI錄音硬件產(chǎn)品，雖然在產(chǎn)品形態(tài)上有所不同，但本質上都是打通各自軟件生態(tài)的語音轉錄設備。例如阿里不僅自己做AI眼鏡，也把千問大模型整合進R…

01-28

女富豪熊海濤涉嫌犯罪被留置旗下三家上市公司市值近350億

據(jù)東材科技公告，公司于1月27日收到高金技術產(chǎn)業(yè)集團有限公司(以下簡稱“高金集團”)通知，高金集團于近日收到四川省監(jiān)察委員會簽發(fā)的關于公司實際控制人、副董事長熊海濤被留置、立案調查的通知書。據(jù)披露，熊?！?/div>

01-28

山東金融監(jiān)管局批復：賀敬正式履新山東省商業(yè)集團財務公司董事長

01-28

階躍星辰工商變更：印奇接任法定代表人，公司完成超50億B+輪融資

01-28

iPhone Air 2影像升級搭載雙攝，蘋果攻克超薄Face ID難題或拓展至MacBook

01-28

通用汽車“降本”雙管齊下：低成本電池與軟件架構齊發(fā)力謀發(fā)展

01-28

河南“空中絲綢之路”添新彩鄭州機場將啟全省首個機場口岸進境免稅店

01-28

英偉達CEO黃仁勛深圳吃火鍋皮衣造型亮相贊牛肉新鮮美味

01-28

2025年工業(yè)企業(yè)利潤增長0.6% 工業(yè)新動能驅動發(fā)展質效雙升

01-28

2025年銀行理財市場穩(wěn)健前行：規(guī)模擴張收益穩(wěn)健助力實體

01-28

寧波富邦業(yè)績飆升：主業(yè)發(fā)力疊加股權轉讓，去年凈利潤預增超30倍

01-28

馬斯克“光伏上天”計劃引關注異質結憑啥成其太空布局優(yōu)選？

01-28

上海發(fā)布全球最大“視觸覺”數(shù)據(jù)集助力機器人突破感知瓶頸邁向精細操作

此次發(fā)布的白虎-VTouch數(shù)據(jù)集，由國家地方共建人形機器人創(chuàng)新中心（下稱“國地中心”）聯(lián)合上海緯鈦科技有限公司共同發(fā)布，核心目的就是要補齊具身智能缺失的“觸覺與接觸”數(shù)據(jù)拼圖，為構建真正具備物理理解與精細…

01-28

前毫末智行CEO顧維灝再出發(fā) 攜百度與Momenta舊部進軍酒店服務機器人領域

顧維灝2019年從百度離職，并于2021年加入毫末智行擔任CEO。但由于種種原因，2025年毫末智行突然陷入經(jīng)營困境，顧維灝也隨之離開毫末，在另一條賽道尋找新的可能。在這一背景下，顧維灝的新故事更加令人期待…

01-28

點擊查看更多 +

全站最新

2026年AI硬件賽道激戰(zhàn)正酣：巨頭競逐新入口，誰能率先定義下一代智能終端？

2026年AI硬件賽道激戰(zhàn)正酣：巨頭入局，誰能率先突圍成新一代入口？

iPhone18系列或全系不漲價？庫克頂住存儲漲價壓力，銷量有望再攀升

女富豪熊海濤涉嫌犯罪被留置旗下三家上市公司市值近350億

追覓CEO俞浩談個人IP：理解目的才有效，垂直品牌重產(chǎn)品技術

追覓CEO俞浩直面“斷指計劃”傳聞：薪資漲幅可控，穩(wěn)定團隊才是關鍵

熱門內容

本欄最新

2026年AI硬件賽道激戰(zhàn)正酣：巨頭入局，誰能率先突圍成新一代入口？

女富豪熊海濤涉嫌犯罪被留置旗下三家上市公司市值近350億

中意財險2025年保費17.97億，增資3.92億，合資轉獨資后迎新董事長

對話Mobileye CEO：物理AI雙賽道布局，汽車與機器人雙引擎驅動未來

舜宇智行沖刺港交所IPO：車載光學龍頭領航董事長王文杰榮譽加身

追覓科技俞浩否認“斷指計劃”：穩(wěn)定團隊比短期挖人更重要

發(fā)現(xiàn)者網(wǎng) - 深度洞察行業(yè)動態(tài) 引領市場先鋒平臺 - 發(fā)現(xiàn)商業(yè)評論旗下網(wǎng)站北京·通州天津·濱海山東·濟南
發(fā)現(xiàn)者網(wǎng)（m.ruruan.com.cn）所有稿件免費開放轉載，轉載請務必保留版權。
合作微信：netspread（注明:發(fā)現(xiàn)者網(wǎng)）
Copyright ? FXW 2012-2023 m.ruruan.com.cn All rights reserved. 魯ICP備2022032383號-3