當(dāng)AI開口說話時,機(jī)器在思考什么? 凌晨三點的服務(wù)器機(jī)房,數(shù)以萬計的顯卡矩陣在黑暗中閃爍著幽藍(lán)微光,神經(jīng)網(wǎng)絡(luò)中奔涌著每秒數(shù)萬億次的矩陣運算。當(dāng)ChatGPT為你寫出一首精巧的俳句,當(dāng)Comfy UI的工作流生成令人驚嘆的數(shù)字藝術(shù),這些看似充滿”靈性”的創(chuàng)造行為背后,實則運行著一套精密如鐘表般的機(jī)械邏輯。 當(dāng)你仔細(xì)研究一下會發(fā)現(xiàn),大模型并不是常人所想象的那么簡單。 例如我們在用「Deepseek」充值A(chǔ)PI的時候會發(fā)現(xiàn)明確標(biāo)注著“每百萬token輸入xx元“又或者說本地部署時候總能提到的「滿血版」「32B」等。這些到底是什么東西呢? 接下來就讓我這個自詡站在大模型前沿的作者帶你揭開大模型的神秘面紗,帶你揭秘大模型背后的秘密。 Chat的含義從23開始由于AI的井噴式爆發(fā),導(dǎo)致市面上出現(xiàn)了數(shù)不過來的大模型,單說國內(nèi)的大模型已經(jīng)達(dá)到了百家以上,但細(xì)心的小伙伴會發(fā)現(xiàn)一個問題,就是大模型的網(wǎng)址域名里面會出現(xiàn)一個單詞「Chat」
而Chat在大模型中的真實含義指的是模型具備的對話能力,即能夠像人類一樣進(jìn)行自然流暢的交流 1)Chat=對話在大模型中,“Chat” 表示模型具備與用戶進(jìn)行多輪對話交互的能力。 這種對話不僅僅是簡單的問答,而是能夠理解上下文、記住對話歷史,并做出自然、連貫的回應(yīng)。 2)Chat 也代表模型的應(yīng)用場景 比如 ChatGPT,“Chat” 就是強(qiáng)調(diào)它的主要功能是聊天和對話,而 GPT 是 “Generative Pre-trained Transformer”(生成式預(yù)訓(xùn)練變換模型)。
總結(jié)來說就是,在AI大模型中,Chat代表了模型的“對話交互能力”,讓模型不僅能“生成文字”,還能與用戶連貫且智能地交流,提升互動體驗。 LLM又是什么?LLM是Large Language Model的縮寫,意思是大型語言模型。在平時生活中習(xí)慣性叫縮寫,「LLM」 1)核心特點
2)如何工作
3)代表模型
什么叫做Token在提到token的時候,很多人會不陌生,比如在使用用「Deepseek」充值A(chǔ)PI的時候會發(fā)現(xiàn)明確標(biāo)注著“每百萬token輸入xx元,每百萬輸出tokenxxx元”。那這個token到底是什么東西呢,使用大模型所花的錢為什么要按照token計算呢。 下表為「Deepseek」的token計費方式。
1)Token的含義 在大模型中,Token(標(biāo)記)是模型處理文本時的最小單位。大模型在訓(xùn)練和推理時,不是直接處理整段文字,而是將文本拆分成一系列的 Token,再進(jìn)行分析和生成。 Token 是什么? Token ≠ 字符,Token 可以是一個字、一個詞,甚至是詞的一部分。 Token 的拆分方式依賴于模型所使用的分詞算法,常見的有以下兩種
2)token的計算方式標(biāo)準(zhǔn)是什么? token其實沒有固定的字?jǐn)?shù)限制,2個字可能是一個token、3個字可能是一個token、4個字也可能是一個token。 并且英文的token計算方式和中文的計算方式還不一樣。 例: 英文句子 句子:ChatGPT is amazing! Token 拆分(按 BPE 算法可能是):[‘Chat’, ‘G’, ‘PT’, ‘ is’, ‘ amazing’, ‘!’] 英文中ChatGPT 被拆成了 ‘Chat’、’G’ 和 ‘PT’,is 和 amazing 也分別作為獨立的 Token。 中文句子 句子:大模型很厲害。 Token 拆分(中文一般按字拆分):[‘大’, ‘模型’, ‘很’, ‘厲害’, ‘?!痌 中文中,模型 和 厲害 可能會被作為整體 Token,也可能被拆開,取決于模型的訓(xùn)練數(shù)據(jù)。
經(jīng)過本人的調(diào)研以及詢問身邊做AI的小伙伴來看一個普通人正常問一個問題大概在10-30個字之間。一個漢字算下來約等于0.6token,具體看漢字的復(fù)雜程度,最高是一個漢字一個token。上下聊天記錄也算token,輸出也算token 為什么 Token 重要?
大模型依靠什么計算token呢 上邊提到大模型會把問題的字?jǐn)?shù)分為不同token,那他是依靠什么來把字?jǐn)?shù)分為不同token呢? 分詞器 提到token就不得不提到一個東西那就是「分詞器」 分詞器(Tokenizer):是將自然語言文本拆分為 Token并將其映射為模型可理解的數(shù)字 ID的工具。 分詞器和token關(guān)系
總結(jié):分詞器 = 把文本變成 Token 的工具,Token 是模型理解和處理的基本單元。分詞器的效率和準(zhǔn)確性,直接影響模型的性能和效果。
工作流程圖 流程整體對比
蒸餾模型是什么?蒸餾模型(Knowledge Distillation Model)是一種模型壓縮技術(shù),通過將大型模型(教師模型,Teacher Model)的知識“轉(zhuǎn)移”到一個更小、更輕量的模型(學(xué)生模型,Student Model),從而提升小模型的性能,同時減少其計算資源消耗。 通俗點解釋就是在原有大模型基礎(chǔ)上提取出來的小模型。Distill蒸餾意思,蒸餾出來的更小、清量、便捷。 為什么需要蒸餾模型?
例子 :本地部署Deepseek-R1-(滿血)671B → Deepseek-R1-Distil-70B
參數(shù)是什么?在大模型(如大型語言模型,LLM)中,參數(shù)(Parameters)是模型中可學(xué)習(xí)的權(quán)重值,用于定義模型如何處理和理解輸入數(shù)據(jù)。 主要作用
舉例
思維鏈?zhǔn)鞘裁矗瑸槭裁茨敲措y?思維鏈(Chain of Thought,簡稱 CoT)是一種提升大模型推理能力的技術(shù),指引模型在回答復(fù)雜問題時,逐步展示中間推理步驟,而不僅僅給出最終答案。 重要性 在傳統(tǒng)的模型推理中,模型通常直接給出答案,但面對邏輯推理、數(shù)學(xué)計算、復(fù)雜問答等問題時,單步回答容易出錯。 思維鏈通過引導(dǎo)模型分步驟思考,可以:
例子 : 問題:小明有 3 個蘋果,他又買了 5 個蘋果,然后吃掉了 2 個。請問他現(xiàn)在有多少個蘋果? 普通回答:6 個。 思維鏈回答:
答案:6 個。 目前市面上支持思維鏈的模型有哪些
原生支持:如GPT-4、Claude 3、Gemini 1.5、DeepSeek-R1、通義千問,無需特別優(yōu)化即可高效進(jìn)行思維鏈推理。 部分支持:如Llama 2、Mistral,需要通過提示優(yōu)化或額外訓(xùn)練才能實現(xiàn)高效的思維鏈推理。
結(jié)尾以上就是作者本人所了解到的大模型的知識,在這個AI時代,應(yīng)該多了解一些AI的知識。 下期再見 本文由 @A ad鈣 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)作者許可,禁止轉(zhuǎn)載 題圖來自Unsplash,基于CC0協(xié)議 該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務(wù) |