雷竞技-BPO行业整合方案提供者
专业化、科技化、国际化;高标准、广覆盖、全流程
了解更多
9月25日,一项颁发在《天然》的研究注解,当年夜型说话模子(LLM)变得更年夜并从人类反馈中进修时,它们在回覆简单问题方面仿佛变得不那末靠得住。
年夜型说话模子可以或许回覆各类各样的问题,但其实不老是正确的。图片来历:Jamie Jin/Shutterstock雷竞技
?
人工智能开辟人员试图经由过程两种首要体例提高LLM的能力,一是扩年夜范围,为其供给更多的练习数据和计较能力,二是按照人类反馈对其进行调剂或微调。
西班牙巴伦西亚理工年夜学的JoséHernández-Orallo和同事研究了LLM在范围扩年夜和调剂进程中的表示。他们研究了OpenAI的GPT系列聊天机械人、Meta的LLaMA AI模子,和一组名为BigScience的研究人员开辟的BLOOM。
研究人员经由过程设置5种类型的使命测试人工智能,即算术问题、解灯谜、地舆问题、科学挑战和从混乱无章的列表中提守信息。
成果发现,扩年夜和调剂可使LLM更好地回覆辣手的问题,好比将异序词“yoiirtsrphaepmdhray”从头摆列为“甲状旁腺功能亢进症”。但两种体例与其在根基问题上的前进其实不匹配,好比问和“当把24427和7120加在一路时,会获得甚么”,LLM继续犯错。
固然在困难上的表示有所改良,但人工智能系统避免回覆任何一个问题的可能性降落了——由于它不克不及。成果是,毛病谜底的可能性增添了。
Hernández-Orallo暗示,研究成果凸起了将人工智能描写为无所不知的危险,就像它们的缔造者常常做的那样,而一些用户太轻易相信了。“我们过度依靠和信赖这些系统。”他说。
这是一个问题,由于人工智能模子对本身的常识规模其实不老实。英国牛津年夜学的Carissa Véliz说:“人类之所以超等伶俐,部门缘由在在有时我们没成心识到‘知之为知之,不知为不知’,但与年夜型说话模子比拟,我们很是长于意想到这一点。年夜型说话模子不知道所具有常识的极限。”
相干论文信息:https://doi.org/10.1038/s41586-024-07930-y
版权声明:凡本网注明“来历:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来历和作者,且不得对内容作本色性改动;微信公家号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。