让8个国产主流大模型做做小学一年级的数学题看看?
这是今天的新闻,上面提到的这些模型目前大部分都可以找到在线体验入口,想起前几天给我们家小孩讲过的小学一年级数学练习册里的一道题目,拿来考考这些大语言模型,看看它们的表现。
题目:15个圆球从上往下排列,其中只有1个是红色的,从上往下数,红色圆球位于第6个,这时,从最尾部拿走一个球,此时,请问从下往上数,红色圆球在第几个?
(小伙伴反馈「最尾部」不好理解,我换成「最下面」重新试了一下,除了讯飞星火,其他7个大模型仍然没有回答对)
中科院的紫东太初大模型、上海人工智能实验室的书生通用大模型、华为的盘古大模型、腾讯的混元大模型,这四个我没有找到在线体验入口。另外,阿里的通义千问虽然没有在上述11家里,但因为知名度的关系,我也测试了。
先说结论,挺出乎我意料的,国产大模型在这道相对简单的推理题上全军覆没,字节云雀和讯飞星火算是勉强摸到边,其他模型的回答都很糟糕。最后一张截图是我调了一下OpenAI的gpt-turbo-3.5-0613模型,它给出了正确的答案。
文章最后附上了各个模型的入口,有兴趣的同学可以自己去体验一下。
百度文心一言
字节云雀(豆包)
智谱AI
百川智能
商汤日日新(商量)
MiniMax ABAB
科大讯飞星火
阿里通义千问
GPT-TURBO-3.5-0613
附:各模型的体验入口
百度文心一言:https://yiyan.baidu.com/
字节云雀(豆包):https://www.doubao.com/chat/
智谱AI:https://open.bigmodel.cn/trialcenter?modelCode=chatglm_pro
百川智能:https://chat.baichuan-ai.com/home
商汤日日新(商量):https://chat.sensetime.com/wb/#/
MiniMax ABAB:https://api.minimax.chat/examination-center/text-experience-center
科大讯飞星火:https://xinghuo.xfyun.cn/desk
阿里通义千问:https://qianwen.aliyun.com/chat
ChatGPT:可扫描文章下方二维码关注公众号,自动获得本人自建的免费跳板地址
🔻欢迎扫描文章下方二维码关注公众号,可自动获得ChatGPT访问地址(本人自己搭建的跳板,可免费使用)🔻