语料库第4页 - AIGC资讯

请查收使用OpenAI的Whisper进行语音识别的攻略

Whisper是一种令人激动的新型语言模型，采用了全新的语音识别方法，即使是低质量的音频，Whisper也能产生高质量的结果，并且对各种声音和语言的适应性极强，无需进行微调。 Whisper是开源的，有一系列可用的模型尺寸，可以作为众多语音转文字应用的有...

AIGC 2024-01-16 人工智能

1421阅读

AIGC报告专题：2023智能时代的生产力变革AIGC产业应用实践

今天分享的AIGC系列深度研究报告：《AIGC报告专题：2023智能时代的生产力变革AIGC产业应用实践》。（报告出品方：亚洲数据集团）报告共计：49页认识 AIGC AIGC（Artificial Intelligence Ge...

人工智能 2024-01-16 人工智能

1050阅读

GPT-4、百度文心一言摆擂，AI大模型将掀起新一轮AIGC军备竞赛？

科技云报道原创。一觉醒来，万众期待的GPT-4来了。OpenAI老板Sam Altman直接开门见山地介绍说：“这是我们迄今为止功能最强大的模型！”仅隔一天，“中国版ChatGPT”百度文心一言正式发布，双方大有摆擂之势。当深度学习推动AI技术...

生成式AI 2024-01-16 人工智能

928阅读

AIGC: 关于ChatGPT这个智能工具带来的几点思考

ChatGPT的出现 2022年11月底，ChatGPT 上线，引爆 AI 圈和科技圈，2023年春节后, 人人都开始关注并讨论这项新技术它是 OpenAI 研发的智能聊天工具, 基于GPT语言模型，模拟人类的对话方式默认只能用文字进行交互，...

生成式AI 2024-01-14 人工智能

929阅读

为大模型恶补数学，上交开源MathPile语料库，95亿tokens，还可商用

在当前智能对话模型的发展中，强大的底层模型起着至关重要的作用。这些先进模型的预训练往往依赖于高质量且多样化的语料库，而如何构建这样的语料库，已成为行业中的一大挑战。在备受瞩目的 AI for Math 领域，由于高质量的数学语料相对稀缺，这限制了生成式...

AIGC 2024-01-13 人工智能

875阅读

为什么人工智能如此需要资源？

截至2023年底，任何关于生成式人工智能需要多少能源的预测都是不准确的。头条新闻倾向于猜测“人工智能需要5倍、10倍、30倍的电力”和“足够运行10万个家庭的电力”等。与此同时，数据中心新闻等专业出版物的报道称，功率密度将上升到每机架50千瓦或100千...

人工智能 2024-01-13 人工智能

824阅读

2024年大数据展望：数据满足GenAI

去年初，谁能想到GenAI和ChatGPT会抢占先机? 一年前，我们预测数据、分析和AI提供商最终会抽出时间来简化和重新思考现代数据堆栈，这是一个我们已经接近和热爱了一段时间的话题。作为分布式企业中数据治理的解决方案，也有很多关于数据网格的讨论和担忧，...

AIGC 2024-01-06 人工智能

876阅读

模型A：幸亏有你，我才不得0分，模型B：俺也一样

琳琅满目的乐高积木，通过一块又一块的叠加，可以创造出各种栩栩如生的人物、景观等，不同的乐高作品相互组合，又能为爱好者带来新的创意。我们把思路打开一点，在大模型（LLM）爆发的当下，我们能不能像拼积木一样，把不同的模型搭建起来，而不会影响原来模型的功能，...

人工智能 2024-01-06 人工智能

773阅读

AI点燃社交“二战”

“你能感觉我在陪着你吗?” 由斯派克·琼斯执导，上映于2014年的科幻电影《她》的故事中，只有声音而无实体的人工智能操作系统（AI OS）“萨曼莎”这么对男主说。作为一部讲述人与人工智能相爱的电影，内容如同预言了当下大厂押注AI社交一般。自ChatGPT...

AIGC 2024-01-05 人工智能

832阅读

图解tinyBERT模型——BERT模型压缩精华

译者 | 朱先忠审校 | 重楼简介近年来，大型语言模型的发展突飞猛进。BERT成为最受欢迎和最有效的模型之一，可以高精度地解决各种自然语言处理（NLP）任务。继BERT模型之后，一组其他的模型也先后出现并各自展示出优秀的性能。不难看到一个明显趋势...

AIGC 2024-01-05 人工智能

1051阅读

最强开源大模型？Llama 2论文解读

标题简介模型预训练预训练设置硬件资源与碳排放模型评估模型微调有监督微调基于人工反馈的强化学习（RLHF）人类偏好数据的收集奖励模型迭代微调过程多轮对话控制 RLHF 结果模型回答的安全性一直...

生成式AI 2024-01-03 人工智能

1298阅读

大模型幻觉问题无解？理论证明校准的LM必然会出现幻觉

大型语言模型（LLM）虽然在诸多下游任务上展现出卓越的能力，但其实际应用还存在一些问题。其中，LLM 的「幻觉（hallucination）」问题是一个重要缺陷。幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来，研究人员...

生成式AI 2024-01-02 人工智能

860阅读

百度正式推出「文心一言」，然而港股股价已暴跌近 10%，客观来说其能力与 ChatGPT 相较如何？...

击上方关注 “终端研发部” 设为“星标”，和你一起掌握更多数据库知识本文首发于我的知乎：- 终端研发部的回答 - 知乎 https://www.zhihu.com/question/589941496/answer/293924...

生成式AI 2024-01-01 人工智能

857阅读

LLM之RAG实战（七）| 使用llama_index实现多模态RAG

一、多模态RAG OpenAI开发日上最令人兴奋的发布之一是GPT-4V API（https://platform.openai.com/docs/guides/vision）的发布。GPT-4V是一个多模态模型，可以接收文本/图像，并可以...

生成式AI 2023-12-29 人工智能

911阅读

AIGC专题报告：ChatGPT的工作原理

今天分享的AIGC系列深度研究报告：《AIGC专题报告：ChatGPT的工作原理》。（报告出品方：省时查）报告共计：107页前言 ChatGPT 能够自动生成一些读起来表面上甚至像人写的文字的东西，这非常了不起，而且出乎意料。但它是如何做...

人工智能 2023-12-23 人工智能

841阅读

一个算命准确度高达78%的AI，让网友都当上了赛博阎王

咱中国人爱算命这事，是刻在骨子里的执念。出门前要看看黄历、办公室要讲风水、就连谈恋爱换工作也要算算领导和对象的星座和八字合不合适。算命姿势也是无奇不有，用八字星座塔罗牌已属过去式，寺庙求签不够潮。这不，有位中国人就在ChatGPT上训练了一个“算命专...

大数据 2023-12-22 人工智能

1491阅读

Copilot 简介背景,优势与快速开始

Copilot 简介: 背景,优势与上手 Copilot是什么 Copilot是一个人工智能代码生成器，由OpenAI和GitHub合作开发，可以根据用户提供的代码输入和上下文，自动生成相应的代码，帮助开发人员提高效率。Copilot利用机器学习技...

大数据 2023-12-22 人工智能

1921阅读

【前沿技术】文心一言 PK Chat Gpt

目录写在前面一、文心一言二、Chat GPT 三、对比四、总结写在前面随着人工智能技术的不断发展和普及，越来越多的智能应用走入了人们的日常生活，如智能语音助手、智能客服、机器翻译等等。在这些应用...

生成式AI 2023-12-21 人工智能

1115阅读

Meta发布全新AI翻译大模型，实时语音转换不超2秒

Meta最新发布了一系列AI翻译大模型，标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为Seamless Communication，包括SeamlessExpressive、SeamlessStreaming、SeamlessM4T v2...

大数据 2023-12-21 人工智能

924阅读

大语言模型训练数据常见的4种处理方法

本文分享自华为云社区《浅谈如何处理大语言模型训练数据之一常见的数据处理方法》，作者：码上开花_Lancer。大语言模型训练需要数万亿的各类型数据。如何构造海量“高质量”数据对于大语言模型的训练具有至关重要的作用。虽然，截止到2023 年9 月为止，还...

人工智能 2023-12-20 人工智能

1338阅读

MosaicML 推出 30B 模型 — 挑战 LLaMA、Falcon 和 GPT

MosaicML正在推出其第二个开源大型语言模型（LLM），称为MPT-30B，这是继五月份首次推出的较小的MPT-7B模型之后。为了讨论新模型及其对开发人员的意义，我采访了MosaicML联合创始人兼首席执行官Naveen Rao。他之前的创业公司是...

生成式AI 2023-12-20 人工智能

906阅读

文心一言4.0使用指南

文心一言4.0使用指南在线体验：体验地址一、文心一言能力如何不管百度公司如何，就AI大模型来说，文心一言和其他国内产品相比，还是具有相当大的优势的，可以说是在个人的使用方面，我认为是最顶级的。但是和ChatGPT4相比，确实还是有很大的...

生成式AI 2023-12-19 人工智能

1626阅读

word2vec作者爆料：seq2seq是我的想法、GloVe抄袭技巧，反击来了

随着 NeurIPS 2023 获奖论文的公布，十年前的词嵌入技术 word2vec 可谓是实至名归的获得了时间检验奖。这篇论文「Distributed Representations of Words and Phrases and their Com...

大数据 2023-12-19 人工智能

780阅读

将ChatGPT变成Midjourney提示生成器

已经有人总结过可以让ChatGPT作为Midjourney图像生成的模板。在本文中，我们将展示如何根据个人用例创建这些提示，这可以让ChatGPT生成的提示可控性更高。选择提示模板 Midjourney的模板结构性很强，所以我们这里使用一下的结...

人工智能 2023-12-18 人工智能

857阅读

亚马逊云科技【云上探索实验室】第三季”——codewhisperer“码”上带来的“爽”体验

前言敲完回车换行键后，自动提示代码，而且大概率还是正确的，这是一种什么样的编程体验，这必然是一种很“爽”的体验。这是最近两天，我在写代码时遇到的新奇事。仔细看了一下，原来是参加“亚马逊云科技【云上探索实验室】第三...

AIGC 2023-12-18 人工智能

814阅读

文心一言的优缺点分析及改进思路

随着人工智能技术的不断发展，越来越多的人们开始关注如何利用人工智能技术提高写作效率和质量。而文心一言作为一款基于深度学习算法的智能写作工具，已经成为日常写作中广泛使用的一种工具。但是，任何一种工具都有其优点和缺点，在使用文心一言时也需要认真考虑它的优缺点，...

AIGC 2023-12-17 人工智能

3975阅读

源代码is all you need！7B代码小模型同尺寸无敌，性能媲美ChatGPT和谷歌Gemini

Hugging Face 技术负责人 Philipp Schmid 表示：“代码自动补全工具，如 GitHub Copilot，已被超过一百万开发者使用，帮助他们的编码速度提高了 55%。看到像 Magicoder 和 OSS-INSTRUCT 这样的开...

AIGC 2023-12-17 人工智能

1000阅读

AIGC和ChatGPT的区别是什么？

当谈到人工智能的聊天机器人时，人们不可避免地会想到AIGC和ChatGPT这两个备受关注的模型。虽然两者都能够进行自然语言处理，但是它们之间存在一些重要的区别，我们可以从以下几个方面来进行分析：首先，AIGC采用的是基于规则的方法，而ChatGPT则是...

大数据 2023-12-17 人工智能

1162阅读

论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models

论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 预训练Pretraining 3.1.1 预训练细节 3.1.2...

AIGC 2023-12-16 人工智能

1063阅读

ChatGPT和文心一言的优缺点比较

ChatGPT和文心一言都是自然语言生成技术的代表，下面是它们的优缺点比较： ChatGPT的优点：自由度高：ChatGPT生成的文本与给定的话题没有紧密的关联，可以灵活地生成多种不同的文本。多样性高：ChatGPT可以生成多样性高的文本，因为其...

AIGC 2023-12-15 人工智能

966阅读

Beezy 实测：Bard Google vs ChatGPT，你该怎么选？

随着人工智能技术的不断发展，越来越多的创新型公司开始加入这场“智能化”竞赛。在众多的AI企业中，Bard Google和ChatGPT无疑是两大巨头。两家公司都拥有自己独特的技术，同时也面临着自己的挑战。在本文中，我们将通过交互功能、文本生成、逻辑推理...

AIGC 2023-12-15 人工智能

869阅读

微软小模型击败大模型：27亿参数，手机就能跑

上个月，微软 CEO 纳德拉在 Ignite 大会上宣布自研小尺寸模型 Phi-2 将完全开源，在常识推理、语言理解和逻辑推理方面的性能显著改进。今天，微软公布了 Phi-2 模型的更多细节以及全新的提示技术 promptbase。这个仅 27 亿参...

人工智能 2023-12-13 人工智能

823阅读

ChatGPT的训练数据可以通过“偏离攻击”进行泄露

ChatGPT等大语言模型（LLM）使用来自图书、网站及其他来源的海量文本数据进行训练，通常情况下，训练它们所用的数据是一个秘密。然而，最近的一项研究揭示：它们有时可以记住并反刍训练它们所用的特定数据片段。这个现象名为“记忆”。随后，来自谷歌Deep...

生成式AI 2023-12-12 人工智能

851阅读

BlueLM蓝心大模型好不好用手机AI大模型推荐

BlueLM 蓝心大模型是 vivo 研发的一种通用人工智能语言模型。它是基于 Transformer 架构的，并使用了大量的文字和代码数据进行训练。蓝心大模型软件的体验入口在哪呢，这里我们来看下蓝心大模型的官方体验入口。 >>>点击前...

AIGC 2023-12-11 人工智能

779阅读

基于 AIGC，RocketMQ 学习社区探索开源软件学习新范式

AIGC 持续火爆全球，越来越多的场景开始接入并体现非凡的价值。其中应用广泛的场景之一就是智能知识问答，它改变了人们学习的方式，从阅读式到问答式，让知识的获取更加精准有效。开源软件拥有着广泛的求知群体，AIGC+ 社区的结合是学习型社区未来演进...

人工智能 2023-12-11 人工智能

886阅读

当我让文心一言写个代码来庆祝1024程序员节，它写的代码是……

先让它写个自我介绍吧~ 大家好，我是一个人工智能语言模型，我的中文名是文心一言，英文名是ERNIE Bot。我可以协助您完成范围广泛的任务并提供有关各种主题的信息，比如回答问题，提供定义和解释及建议。如果您有任何问题，请随时向我提问。我的能力不仅仅局限...

AIGC 2023-12-11 人工智能

759阅读

【原创】AIGC之ChatGPT工作原理

AIGC是什么 AIGC - AI Generated Content （AI生成内容），对应我们的过去的主要是 UGC（User Generated Content）和 PGC（Professional user Generated Content...

人工智能 2023-12-10 人工智能

880阅读

【多模态】5、BLIP | 统一理解与生成任务为图像生成更高质量的文本描述

文章目录一、背景二、方法 2.1 模型结构 2.2 Pre-training Objectives 2.3 CapFilt 三、效果 3.1 训练细节 3.2 CapFilt 的效果 3.3 样本多样性是文本合成器的关键 3.4 参数...

AIGC 2023-12-09 人工智能

2080阅读

更强的Llama 2开源，可直接商用：一夜之间，大模型格局变了

已上微软 Azure，即将要上 AWS、Hugging Face。一夜之间，大模型格局再次发生巨变。一直以来 Llama 可以说是 AI 社区内最强大的开源大模型。但因为开源协议问题，一直不可免费商用。今日，Meta 终于发布了大家期待...

生成式AI 2023-12-09 人工智能

887阅读

是时候开始拥抱大模型和AIGC了

“不要和我竞争大模型，请用文心一言和别人竞争。“ ——李彦宏文章目录前言国内外主要大模型盘点 AI生成网站 AI 创作音乐 AI 写诗 AI 写小说古文创作 AI 作画 AI出题和解题辅助编码附录大模型相关链接 AI编...

AIGC 2023-12-07 人工智能

930阅读

关于语言模型私有化部署的讨论 | AIGC实践

上周在与TC同行关于AIGC实践的线上交流中，大家普遍比较关心的一个实践切入点是：语言模型的私有化部署——简单来说，就是在企业内部，部署一个属于自己的“ChatGPT”，对于本行业/专业知识，以及企业独有的产品和技术信息有充分的了解，并且提供用户接口...

人工智能 2023-12-05 人工智能

976阅读

专注图表理解，腾讯、南洋理工等开源图表羊驼大模型ChartLlama

在图像理解领域，多模态大模型已经充分展示了其卓越的性能。然而，对于工作中经常需要处理的图表理解与生成任务，现有的多模态模型仍有进步的空间。尽管当前图表理解领域中的最先进模型在简单测试集上表现出色，但由于缺乏语言理解和输出能力，它们无法胜任更为复杂的问答...

大数据 2023-12-03 人工智能

930阅读

LLMs之Colossal-LLaMA-2：Colossal-LLaMA-2的简介(基于LLaMA-2架构+中文优化+扩充词表+仅千美元成本)、安装、使用方法之详细攻略

LLMs之Colossal-LLaMA-2：Colossal-LLaMA-2的简介(基于LLaMA-2架构+中文优化+扩充词表+仅千美元成本、安装、使用方法之详细攻略导读：2023年9月25日，Colossal-AI团队推出了开源模型Colos...

AIGC 2023-12-02 人工智能

1077阅读

【AI写作助手的创作能力评估】

这些工具可以大大提高写作效率，并且在某些情况下，可以自动生成一些简单的文章和内容。此外，它们使用的机器学习算法和自然语言处理技术也越来越成熟，使得它们可以生成更加逼真和灵活的文本。这些AI工具依然存在一些局限性。例如，它们无法完全替代真正的人类写手，因...

大数据 2023-12-02 人工智能

828阅读

解读Lawyer LLaMA，延申专业领域大模型微调：数据集构建，模型训练

解读Lawyer LLaMA，延申自己领域大模型微调：数据集构建，模型训练项目地址link 自己领域的大模型微调，实现思路大都和这篇文章是一样的，有的是基于LLaMA,或者有的是基于Chinese-LLaMA,或者是其他开源的大模型，本文基于自己训...

人工智能 2023-12-01 人工智能

1087阅读

22LLMSecEval数据集及其在评估大模型代码安全中的应用：GPT3和Codex根据LLMSecEval的提示生成代码和代码补全，CodeQL进行安全评估【网安AIGC专题11.22】

LLMSecEval: A Dataset of Natural Language Prompts for Security Evaluations 写在最前面主要工作课堂讨论大模型和密码方向（没做，只是一个idea）相关研究提示集目...

人工智能 2023-11-30 人工智能

1097阅读

文心一言话题的思考

⭐️我叫忆_恒心，一名喜欢书写博客的在读研究生?‍?。如果觉得本文能帮到您，麻烦点个赞?呗！近期会不断在专栏里进行更新讲解博客~~~ 有什么问题的小伙伴欢迎留言提问欧，喜欢的小伙伴给个三连支持一下呗。?⭐️❤️ 目录...

生成式AI 2023-11-29 人工智能

945阅读

【LLM系列之LLaMA2】LLaMA 2技术细节详细介绍！

Llama 2 发布！ Meta 刚刚发布了 LLaMa 2，它是 LLaMA 的下一代版本，具有商业友好的许可证。?? LLaMA 2 有 3 种不同的尺寸：7B、13B 和 70B。 7B & 13B 使用与 LLaMA 1 相同的架构，并且是...

大数据 2023-11-29 人工智能

1493阅读

PubMedBERT:生物医学自然语言处理领域的特定预训练模型

今年大语言模型的快速发展导致像BERT这样的模型都可以称作“小”模型了。Kaggle LLM比赛LLM Science Exam 的第四名就只用了deberta，这可以说是一个非常好的成绩了。所以说在特定的领域或者需求中，大语言模型并不一定就是最优的解决...

AIGC 2023-11-27 人工智能

847阅读

大模型的实践应用6-百度文心一言的基础模型ERNIE的详细介绍，与BERT模型的比较说明

大家好，我是微学AI，今天给大家讲一下大模型的实践应用6-百度文心一言的基础模型ERNIE的详细介绍，与BERT模型的比较说明。在大规模语料库上预先训练的BERT等神经语言表示模型可以很好地从纯文本中捕获丰富的语义模式，并通过微调的方式一致地提高各种NLP...

生成式AI 2023-11-27 人工智能

925阅读