今日科普｜大模型增加上下文長度，意味著什么？

王銘俊湖南日報 2025-09-10 22:34:32

DeepSeek推出了新一代大語言模型DeepSeek-V3.1引人注目。亮點之一是上下文長度從64K擴展到了128K。

這個數(shù)字聽起來很技術，但它實際上關乎人工智能如何“理解”和“回應”人類——它不僅是一次參數(shù)提升，更是大模型能力邊界的一次突破。

如何理解？

今日科普，為你解答。

湖南日報全媒體記者王銘俊

【知識多一點】

什么是上下文長度？

簡單來說，上下文長度決定了模型在一次交互中能“記住”多少內(nèi)容。它包括了你的問題、之前的對話歷史、你提供的參考資料以及模型已經(jīng)給出的回答。就像人在聊天時能回顧剛才說過的話一樣，模型的“記憶力”越強，它的回答就越連貫、越精準。

技術上，這個長度以Token為單位計算。一個Token可以是一個英文單詞或詞綴、一個漢字或詞語的一部分。比如“湘繡”可能被拆成“湘”和“繡”兩個Token。128K大小的Token大約相當于十萬漢字，比一本約7萬字的《邊城》還要多。

這次升級，意味著模型不僅可以深度處理超長文檔，它在長對話中的表現(xiàn)也更可靠。這將減少模型“幻覺”，即胡說八道的風險。

當然，上下文拉長也帶來挑戰(zhàn)，尤其是對算力的要求上升。而且，模型的記憶仍是“會話級”的，一旦對話重啟，它就會“忘記”之前的內(nèi)容。

行業(yè)也在通過探索更高效的架構，比如優(yōu)化注意力機制、引入外部記憶庫等，讓模型既能記得多，又不用付出過高的計算代價。

大語言模型中的注意力機制就像讀書人手里的高亮筆和智能放大鏡，讀書人不會平均用力地去讀桌上所有的書，而是通過“高亮筆”和“放大鏡”快速掃描整張書桌，并決定應重點關注哪些部分。

外部記憶庫則給大語言模型配了一個隨叫隨到的“秘書”，網(wǎng)友一問問題，它就立刻去龐大的資料庫里將相關的文件找出來、劃好重點，然后只把這些關鍵信息遞給AI。

指導：湖南師范大學人工智能系副主任江沸菠

作者：王銘俊

責編：周倜

一審：王銘俊

二審：楊丹

三審：楊又華

來源：湖南日報

我要問