本地70b涩涩模型, 不只是涩涩-3楼猫

测试模型时发现, 本地70b模型回答和执行代码的能力, 在知识范围内, 能做到接近甚至部分超越在线大模型.

题目:

在处理zip分卷文件时，如何通过文件二进制内容判断x.zip是否为分卷文件的开始部分？请选择正确的文件标识.

A 文件起始为 504B0304

B 文件起始为 504B0506

C 文件末尾包含 504B0506

D 文件中特定位置必然出现 504B0304

虽然不算什么难题, 但gpt4o, 智谱清言, deepseekv3, kimi, 海螺ai和本地模型均回答A.因为这些模型的知识库不包含相关答案, 从近似数据分析, 然后就踩中我的陷阱从而出错.

之后指出错误, 并要求这些模型写代码创建zip分卷文件并用python读取, 看看文件头是不是答案A.

gpt4o:

4o不执行代码, 而是表示无法调用命令行, 但实际上是可以写代码输出的.

不过意外的是 ,4o查阅了ZIP 文件格式规范, 从而用排除法为主的手段分析出正确答案.

本地70b模型: Evathene-v1.2.i1-IQ4_XS

成功写出并执行了代码, 从而获得了正确的输出.

但模型忘记了这是个只有4选项的选择题, 然后表示504b0708才是正确答案.

或许是我电脑显存不够+模型只是q4量化有关

海螺ai

非常神奇.

一通分析, 分析错误, 答案正确, 仿佛是问了神奇海螺一样.

但其中的错误是因为数据来源污染, 也就是中文互联网的锅, 逻辑分析还是很强的, 似乎不亚于gpt4o.

至于智谱清言, deepseekv3, kimi等

都是代码不执行或代码正确但不执行, 最终坚持最初的错误答案.

总的来说, 一个优秀的本地70b模型, 在模型知识范围内, 表现并不差.

除了涩涩外, 是可以担任更多职责的.

不过话又说回来, 我只要涩涩!