-
来自Anthropic:如何衡量大语言模型的说服力?
尽管人们长期以来一直在质疑AI模型是否会在某些时候变得像人类一样具有说服力,从而改变人们的想法,但在模型规模与输出说服力程度之间的关系方面,实证研究一直有限。为了解决这个问题,研究人员开发了一种基本方法来衡量说服力,并将其用于比较三个不同世代(Clau...
-
当prompt策略遇上分治算法,南加大、微软让大模型炼成「火眼金睛」
近年来,大语言模型(LLMs)由于其通用的问题处理能力而引起了大量的关注。现有研究表明,适当的提示设计(prompt enginerring),例如思维链(Chain-of-Thoughts),可以解锁 LLM 在不同领域的强大能力。 然而,在处理涉及重...
-
GPT-4正接管人类数据专家!先验知识让LLM大胆预测,准确率堪比传统方式
在数据科学中,AI研究员经常面临处理不完整数据集的挑战。 然而,许多已有的算法根本无法处理「不完整」的数据序列。 传统上,数据科学家会求助于专家,利用他们的专业知识来填补空白,然而这一过程既耗时,却又不实用。 如果AI可以接管专家的角色,又会如何呢? 近...
-
ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(二)
3 评价结果 3.1 Spider 数据集 表 2 列出了各种提示策略和模型组合的执行准确性 (EX 和测试套件 (TS 的准确性。我们的主要发现是: 开源模型在 Spider 数据集上遇到了困难:尽管参数数量和模型性能之间存在正相关关系...
-
ChatGPT论文:大语言模型LLM之战:Dolly、LLaMA 、Vicuna、Guanaco、Bard、ChatGPT--在自然语言转SQL(NL2SQL、Text-to-SQL)的比较(一)
摘要 ChatGPT的成功引发了一场AI竞赛,研究人员致力于开发新的大型语言模型(LLMs),以匹敌或超越商业模型的语言理解和生成能力。近期,许多声称其性能接近GPT-3.5或GPT-4的模型通过各种指令调优方法出现了。作为文本到SQL解析的从业者,我...
-
GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板
当你让大模型写一首「莎士比亚十四行诗」,并以严格的韵律「ABAB CDCD EFEF GG」执行。 同时,诗中还要包含提供的3个词。 对于这么高难度的创作题,LLM在收到指令后,并不一定能够按要求做出这首诗。 正所谓,人各有所长,LLM也是如此,仅凭单...
-
无需人工标注!LLM加持文本嵌入学习:轻松支持100种语言,适配数十万下游任务
文本嵌入(word embedding)是自然语言处理(NLP)领域发展的基础,可以将文本映射到语义空间中,并转换为稠密的矢量,已经被广泛应用于各种自然语言处理(NLP)任务中,如信息检索(IR)、问答、文本相似度计算、推荐系统等等, 比如在IR领域,第...
-
「think step by step」还不够,让模型「think more steps」更有用
如今,大型语言模型(LLM)及其高级提示策略的出现,标志着对语言模型的研究取得了重大进展,尤其是在经典的 NLP 任务中。这其中一个关键的创新是思维链(CoT)提示技术,该技术因其在多步骤问题解决中的能力而闻名。这项技术遵循了人类的顺序推理,在各种挑战中...
-
AIGC初探:提示工程 Prompt Engineering
简介 提升工程是什么 提示工程(Prompt Engineering)是人工智能领域中的一个概念,特别是在自然语言处理(NLP)领域中。它是一种通过设计和优化输入提示来提高AI模型表现的方法。 对于基于转换器的大型语言模型(如OpenAI的GPT...
-
Midjourney能生成文字了!V6版5大升级惊艳网友
Midjourney重磅更新,V6版本问世! 更新后最大看点是图像更真实、细节处理更细腻: 和上一代对比来看更直观。 就说一道番茄炖牛腩,右边的图不仅菜看起来更自然、更有食欲,就连木勺的细节也没放过(左V5.2,右V6): 再来看对人物的刻画,V6光...
-
Gemini 是谷歌迄今为止最佳的 AI 模型 但充满希望的基准测试和演示最终引发了批评
谷歌近日公布了其最新的人工智能模型 Gemini,旨在缩小与 OpenAI 之间的差距,并给行业留下深刻印象。该模型展示了强大的基准测试成绩,并通过一段引人注目的视频演示和即时的可用性(尽管是功能受限版本),彰显了谷歌的自信。 然而,随着 AI 工程师和...
-
2.7B能打Llama 2 70B,微软祭出「小语言模型」!96块A100 14天训出Phi-2,碾压谷歌Gemini nano
大模型现在真的是越来越卷了! 11月OpenAI先是用GPTs革了套壳GPT们的命,然后再不惜献祭董事会搏了一波天大的流量。 谷歌被逼急了,赶在年底之前仓促发布了超大模型Gemini,卷起了多模态,甚至不惜「视频造假」。 就在今天,微软正式发布了曾在11...
-
OpenAI内乱之害远未止
继OpenAI最近的争议后,AI工程师和公司开始减少乃至完全摆脱对其API的依赖。 译自Pivot! AI Devs Move to Switch LLMs, Reduce OpenAI Dependency,作者 Richard MacManus 是...
-
大模型「幻觉」,看这一篇就够了
大模型“幻觉”,终于有系统综述了! 一口气49页,详细阐述了幻觉定义、分类、导致幻觉的原因,还有检测幻觉、减轻幻觉的方法。 这篇最新综述来自哈工大和华为,一po出就在网上火得不行: 具体来说,文中用一套新的范畴框架来定义模型幻觉,并将其分为事实性幻觉、...
-
DeepMind:大模型又曝重大缺陷,无法自我纠正推理,除非提前得知正确答案
大语言模型又一项重大缺陷被DeepMind曝光! LLM无法纠正自己推理中的错误。 「Self-Correction」作为一种让模型修正自己回答的技术,在很多类型的任务中都能明显改进模型的输出质量。 但是最近,谷歌DeepMind和UIUC的研究人员却发...