王銘俊 湖南日報 2025-09-10 22:34:32
DeepSeek推出了新一代大語言模型DeepSeek-V3.1引人注目。亮點之一是上下文長度從64K擴展到了128K。
這個數(shù)字聽起來很技術,但它實際上關乎人工智能如何“理解”和“回應”人類——它不僅是一次參數(shù)提升,更是大模型能力邊界的一次突破。
如何理解?
今日科普,為你解答。
湖南日報全媒體記者 王銘俊
【知識多一點】
什么是上下文長度?
簡單來說,上下文長度決定了模型在一次交互中能“記住”多少內(nèi)容。它包括了你的問題、之前的對話歷史、你提供的參考資料以及模型已經(jīng)給出的回答。就像人在聊天時能回顧剛才說過的話一樣,模型的“記憶力”越強,它的回答就越連貫、越精準。
技術上,這個長度以Token為單位計算。一個Token可以是一個英文單詞或詞綴、一個漢字或詞語的一部分。比如“湘繡”可能被拆成“湘”和“繡”兩個Token。128K大小的Token大約相當于十萬漢字,比一本約7萬字的《邊城》還要多。
這次升級,意味著模型不僅可以深度處理超長文檔,它在長對話中的表現(xiàn)也更可靠。這將減少模型“幻覺”,即胡說八道的風險。
當然,上下文拉長也帶來挑戰(zhàn),尤其是對算力的要求上升。而且,模型的記憶仍是“會話級”的,一旦對話重啟,它就會“忘記”之前的內(nèi)容。
行業(yè)也在通過探索更高效的架構,比如優(yōu)化注意力機制、引入外部記憶庫等,讓模型既能記得多,又不用付出過高的計算代價。
大語言模型中的注意力機制就像讀書人手里的高亮筆和智能放大鏡,讀書人不會平均用力地去讀桌上所有的書,而是通過“高亮筆”和“放大鏡”快速掃描整張書桌,并決定應重點關注哪些部分。
外部記憶庫則給大語言模型配了一個隨叫隨到的“秘書”,網(wǎng)友一問問題,它就立刻去龐大的資料庫里將相關的文件找出來、劃好重點,然后只把這些關鍵信息遞給AI。
指導:湖南師范大學人工智能系副主任江沸菠
責編:周倜
一審:王銘俊
二審:楊丹
三審:楊又華
來源:湖南日報
我要問