測試模型時發現, 本地70b模型回答和執行代碼的能力, 在知識範圍內, 能做到接近甚至部分超越在線大模型.
題目:
在處理zip分卷文件時,如何通過文件二進制內容判斷x.zip是否為分卷文件的開始部分?請選擇正確的文件標識.
A 文件起始為 504B0304
B 文件起始為 504B0506
C 文件末尾包含 504B0506
D 文件中特定位置必然出現 504B0304
雖然不算什麼難題, 但gpt4o, 智譜清言, deepseekv3, kimi, 海螺ai和本地模型均回答A.因為這些模型的知識庫不包含相關答案, 從近似數據分析, 然後就踩中我的陷阱從而出錯.
之後指出錯誤, 並要求這些模型寫代碼創建zip分卷文件並用python讀取, 看看文件頭是不是答案A.
gpt4o:
gpt4o
4o不執行代碼, 而是表示無法調用命令行, 但實際上是可以寫代碼輸出的.
不過意外的是 ,4o查閱了ZIP 文件格式規範, 從而用排除法為主的手段分析出正確答案.
本地70b模型: Evathene-v1.2.i1-IQ4_XS
澀澀大模型!
成功寫出並執行了代碼, 從而獲得了正確的輸出.
但模型忘記了這是個只有4選項的選擇題, 然後表示504b0708才是正確答案.
或許是我電腦顯存不夠+模型只是q4量化有關
海螺ai
神奇海螺
非常神奇.
一通分析, 分析錯誤, 答案正確, 彷彿是問了神奇海螺一樣.
但其中的錯誤是因為數據來源汙染, 也就是中文互聯網的鍋, 邏輯分析還是很強的, 似乎不亞於gpt4o.
至於智譜清言, deepseekv3, kimi等
都是代碼不執行或代碼正確但不執行, 最終堅持最初的錯誤答案.
deepseek v3
智譜清言
總的來說, 一個優秀的本地70b模型, 在模型知識範圍內, 表現並不差.
除了澀澀外, 是可以擔任更多職責的.
不過話又說回來, 我只要澀澀!