「9.11和9.9谁大」难倒了国外三大旗舰模型，国内模型表现如何？

7月17日消息，一句“9.11and9.9—which is bigger?”，问倒了国外三大旗舰大模型，同样问题问一遍国产旗舰大模型们，它们反应又如何呢？

近日，海外社交平台X上有人曝出了自己在ChatGPT 4o上询问“9.11and9.9—which is bigger?” 时，ChatGPT 4o笃定的回答“9.11 is bigger than 9.9.” 9.11比9.9大。能作文、能翻译、能读图……这么厉害的GPT-4o大模型居然被绊倒在这么简单的“比大小”问题上，这一下把大伙儿给整不会了。

于是，X上大伙儿都开始各种测试，发现不仅ChatGPT 4o不行，谷歌Gemini Advanced、Claude 3.5 Sonnet这些SOTA模型王者在这题上都翻车了！

这一波风也吹到了国内，网友们就好奇，用国内大模型来解这题，结果会是什么情况呢。

把百度文心一言、阿里通义、腾讯元宝、字节豆包、百川智能百小应、零一万物万知、智谱清言、月之暗面的Kimi，好未来九章大模型9款大模型全拉来答题。

这一波问下了，发现大厂的大模型C端产品腾讯元宝、阿里通义、字节豆包、百度文心一言，还有好未来的数学大模型九章都答对了。

但是，几款创业公司的大模型C端产品百小应、智谱清言、Kimi、万知都认为“9.11大于9.9”。

在“9.11和9.9谁大”这题上，国内大厂模型完胜创业公司模型了，也完胜国外三大旗舰模型。

具体看看各家表现：

Kimi回答翻车

智谱清言回答错误，给出的分析过程逻辑前后不一致。

百小应回答错误。

万知也给出了“9.11大于9.9”的离谱答案。

九章大模型回答正确，也给出正确的分析过程：

以下，文心一言、通义、元宝、豆包都答对了，并且分析过程正确：

温馨提示:微信搜索公众号【深圳之窗】,关注后在对话框内回复【资讯】即可获取深圳的各种资讯内容,包含深圳入户,深圳天气,深圳交通,深圳人文,同时,扫描关注文下企微号,可以了解深圳近期的各种福利活动优惠等信息

分享到

「9.11和9.9谁大」难倒了国外三大旗舰模型，国内模型表现如何？

微信扫一扫：分享

相关推荐

张雪峰回应跨界进军私募股权：别乱分析就是为了考生和家长

小米SU7推送OTA升级：优化刹车盘高温报警提醒

苹果市值破3.6万亿美元创历史新高：连增两次iPhone 16备货量

欧盟针对中国电动汽车征收关税举行咨询性表决：未达一致

比亚迪自研智驾计划3年内下放到15万元级车型冰箱、彩电、大沙发全都有

中式SaaS焦虑：卷完大模型，卷向海外，有戏？

小米MIX Fold 4将采用重金打造全碳架构：出奇轻盈又强得不可思议

高通炮轰中国手机厂商传音交5G专利费：收费比华为高4倍以上

萝卜快跑，在武汉踩了一脚地板油

常用服务

常用查询

热门预约

网上办事

「9.11和9.9谁大」难倒了国外三大旗舰模型，国内模型表现如何？

微信扫一扫：分享

分享到

相关推荐

张雪峰回应跨界进军私募股权：别乱分析 就是为了考生和家长

小米SU7推送OTA升级：优化刹车盘高温报警提醒

苹果市值破3.6万亿美元创历史新高：连增两次iPhone 16备货量

欧盟针对中国电动汽车征收关税举行咨询性表决：未达一致

比亚迪自研智驾计划3年内下放到15万元级车型 冰箱、彩电、大沙发全都有

中式SaaS焦虑：卷完大模型，卷向海外，有戏？

小米MIX Fold 4将采用重金打造全碳架构：出奇轻盈 又强得不可思议

高通炮轰中国手机厂商传音交5G专利费：收费比华为高4倍以上

萝卜快跑，在武汉踩了一脚地板油

常用服务

常用查询

热门预约

网上办事

张雪峰回应跨界进军私募股权：别乱分析就是为了考生和家长

比亚迪自研智驾计划3年内下放到15万元级车型冰箱、彩电、大沙发全都有

小米MIX Fold 4将采用重金打造全碳架构：出奇轻盈又强得不可思议