【AI小杂谈】语言模型与推理
2023-08-27 20:20:10 来源:哔哩哔哩
最近出来了一个MathGPT,据说数学能力非常强,并且已经开始测试了。我个人使用的体验还可以,毕竟这个东西主要是为了中小学数学题服务的,难度不至于特别高。
然而,自从大语言模型(LLM)出现以来,推理和数学能力就一直是关注的焦点,毕竟这里面涉及到的东西就多了,例如如何理解当前的问题、在数学问题中如何避免幻觉、推理过程中对之前信息的记忆能力等等都会被考察到。不过,很遗憾的是,对于目前的LLM来说,数学和推理依然是弱项。
(资料图)
我们首先从最基本的一些知识来分析,这也是之前一个朋友在某个动态的评论中和我讨论了好几轮的一个话题。
以ChatGPT为代表,现在大部分语言模型都是基于Transformer架构的,并且训练方式简单来说就是“预测下一个token”,token一般翻译成“词元”、“子词”等,例如apple可能被拆分为“app”和“le”,这俩都是token。当然,如果你觉得理解起来有些难度,那么就简单理解成“预测下一个词”就好,两者只是粒度上的差别,所以后面以中文为例的话,我就当做“预测下一个汉字”来举例了。
举个例子,假设我问ChatGPT“在中国一般旺财指代哪种动物?”,ChatGPT会把这段话作为输入,首先预测并生成下一个字“旺”,然后把“在中国一般旺财指代哪种动物?旺”作为输入预测并生成“财”,就这样一步步地生成整个回答“旺财在中国一般指代狗”。在使用的时候是这样,训练的时候也是这样,也就是说,在ChatGPT“预”训练期间它所做的就是使得预测下一个词的精度尽可能高。
所以从根本上来说,ChatGPT并不会像我们学习一样,一开始掌握概念、掌握方法,然后一步步分析问题,他所做的只是根据当前的输入预测出下一个词罢了。
那么问题来了,为什么ChatGPT能够有很惊艳的表现,而且看起来至少能做很多低难度的数学题呢?
关键就在于巨量的训练语料,因为“1+1=2”这样的东西在训练语料中反复出现,ChatGPT从中学到了“1+1=”后出现“2”的几率更高,或者说,仍然是基于统计的。
当然,大模型还有很多神秘的地方,例如很多研究都表明语言模型不是只会停留在简单的统计和记忆阶段,他们也会在内部模拟一些很抽象的东西,一个例子就是代码追踪。
这里举个简单的例子:“a=10;b=20;c=a+b;d=c/2”这段话中并没有显示给出c的值,但是我们是可以发现ChatGPT在内部一些地方模拟出c的值的(这是MIT的一篇研究论文,实际上比这个复杂,这里为方便理解做了简化),这说明大模型是超越了简单的统计的,当然究竟超过了多少仍然是一个有待研究并且要研究很久的的问题。
当然,虽然“大模型学到了一些抽象的东西”基本上可以算的上是共识了,但这并不意味着当前的大模型就会推理了,有篇文章的标题就很直白《GPT-4 can't reason》,说明大模型在解决一些推理问题(大部分都是数学题)时会犯很多人类完全不会犯的奇怪的错误,所以即使很多时候我们可能觉得ChatGPT能解决一些复杂问题,也不意味着它真的在做推理。
当然,这事情还可以继续“滑坡”,甚至直接滑到哥德尔不完备性定理这堵叹息之墙那里,当然这里就不展开谈了。
从我的观察来看,目前很多人看待AI都陷入了两个极端,要么直接批判AI什么都做不到,要么把AI目前亮眼的表现捧得很高。
不过很多时候也只是视角的问题,有些人预设了“AI能解决一切问题”,然后发现它从理论上就做不到,然而如果预设了“AI什么都做不到”,那“为什么AI有时候确实能有亮眼的表现”这个问题就值得研究了。算了,这个问题要谈起来确实太复杂了,杂谈就懒得展开了
最后还是需要说,不要无条件相信大模型的输出,这是“尽信书则不如无书”的最好的试金台。
关键词:
[责任编辑:xwzkw]
相关阅读
- (2023-08-27)【AI小杂谈】语言模型与推理
- (2023-08-27)龙龙高铁福建段首座牵引变电所成功受电
- (2023-08-27)北京优化受灾市政交通基础设施恢复重建项目审批
- (2023-08-27)美美哒!广东女篮球员卓识晒海边游玩照
- (2023-08-27)口碑优秀之作!《装甲核心6》发布媒体荣誉宣传图
- (2023-08-27)交城庞泉沟镇:皎白木耳温如玉 “菌中美人”喜丰收
- (2023-08-27)泰和新材:公司可根据客户的需求及用途,采用不同的基膜及涂层为客户进行订制,提供高性价比的产品和服务
- (2023-08-27)起猛了!赵丽颖谢娜一起看张杰演唱会,还现场解锁了新技能蹦迪
- (2023-08-27)亮进度|滨州市退役军人事务局:深化实施思想铸魂、服务润心、攻坚筑基、军地聚力、对标提升“五大行动” 奋力推动新时代滨州市退役军人工作高质量发展
- (2023-08-27)国家统计局:1—7月份全国规模以上工业企业利润下降15.5%
- (2023-08-27)男篮惨败42分周琦被点赞:6中6轰12+5状态火热 乔帅看人真准
- (2023-08-27)盈利能力突出,布局母线持续优化成本
- (2023-08-27)福斯特(603806):需求超预期增长带动二季度业绩环比提升明显
- (2023-08-27)中科飞测(688361):中报业绩大幅增长 新品研发持续推进
- (2023-08-27)【金融街发布】2023年1-7月份全国规模以上工业企业利润下降15.5%
- (2023-08-27)DC粉丝集体消失? 《芭比》恐难再现冠军地位
- (2023-08-27)企业库存过剩、运力持续大增 航运业夏季“遇冷”
- (2023-08-27)石家庄平山周边凉快自驾游景点推荐
- (2023-08-27)⚡梅西登场30分钟,跑动2.75km,最高速28.97km/h
- (2023-08-27)证监会同意烧碱、对二甲苯期货及期权注册
- (2023-08-27)期待反弹!李凯尔社媒:我喜欢逆境 敬请期待中国
- (2023-08-27)赛百味,卖了!
- (2023-08-27)美国夏威夷应急管理局发布毛伊岛西部地区疏散令
- (2023-08-27)微软成功收购动视暴雪 游戏界巨子归位
- (2023-08-27)巴克利:尽管我很爱库里 但他遇到坏小子军团会被打崩溃
- (2023-08-27)发行冰点!“反复延募”频现
- (2023-08-27)拳头高级总监:《LOL》电竞部门仍未能实现盈利
- (2023-08-27)美国杂货配送集团Instacart申请在美国IPO
- (2023-08-27)我国迎新能源汽车电池“退役潮” 必须要报废吗?还能重组再利用
- (2023-08-27)佳兆业健康(00876.HK)盈喜:预期中期净利不少于3500万港元