训练数据第15页

南大俞扬深度解读：什么是「世界模型」？

随着媒体狂炒Sora，OpenAI的介绍材料中称Sora是「world simulator」，世界模型这个词又进入视野，但很少有文章来介绍世界模型。这里回顾一下什么是世界模型，以及讨论Sora是不是world simulator。什么是world...

大数据 2024-02-27 人工智能

841阅读

跨越千年医学对话：用AI技术解锁中医古籍知识，构建能够精准问答的智能语言模型，成就专业级古籍解读助手（LLAMA）

跨越千年医学对话：用AI技术解锁中医古籍知识，构建能够精准问答的智能语言模型，成就专业级古籍解读助手（LLAMA）介绍：首先在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材、中医各类网站数据等语料库，训练出一个具有中医知识理解力的预...

大数据 2024-02-27 人工智能

905阅读

AI写作的疑似度：一场探寻真相与未来的冒险

大家好，今天来聊聊AI写作的疑似度：一场探寻真相与未来的冒险，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：标题：AI写作的疑似度：一场探寻真相与未来的冒险在这个AI技术日新月异的时代，A...

生成式AI 2024-02-27 人工智能

857阅读

高质量论文中文翻译：Lag-Llama: 朝向基础模型的概率时间序列预测 Lag-Llama: Towards Foundation Models for Probabilistic Time S

Lag-Llama: 朝向基础模型的概率时间序列预测Lag-Llama: Towards Foundation Models for Probabilistic Time Series Forecasting 文章目录摘要介绍我们的贡献...

AIGC 2024-02-27 人工智能

1093阅读

全球最强开源大模型一夜易主！谷歌Gemma 7B碾压Llama 2 13B，今夜重燃开源之战

一声炸雷深夜炸响，谷歌居然也开源LLM了？！这次，重磅开源的Gemma有2B和7B两种规模，并且采用了与Gemini相同的研究和技术构建。有了Gemini同源技术的加持，Gemma不仅在相同的规模下实现SOTA的性能。而且更令人...

AIGC 2024-02-27 人工智能

866阅读

AI写作的奥秘：如何掌控Perplexity与Burstiness的魔力

大家好，今天来聊聊AI写作的奥秘：如何掌控Perplexity与Burstiness的魔力，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：标题：AI写作的奥秘：如何掌控Perplexity与B...

大数据 2024-02-26 人工智能

1227阅读

Sora训练数据疑暴露，网友：绝对用了UE5

好消息，好消息，真·Sora视频上新了！走过路过不要错过！（不用苦苦等候，或撑大眼睛费劲吧啦鉴别真假Sora产品了）。就在过去短短几个小时里，包括Bill Peebles、Tim Brooks两位负责人在内的工作人员唰唰唰N连发。（好了好了，知...

大数据 2024-02-26 人工智能

870阅读

用扩散模型生成网络参数，LeCun点赞尤洋团队新研究

如果你有被 Sora 生成的视频震撼到，那你就已经见识过扩散模型在视觉生成方面的巨大潜力。当然，扩散模型的潜力并不止步于此，它在许多其它不同领域也有着让人期待的应用前景，更多案例可参阅机器之心不久前的报道《爆火Sora背后的技术，一文综述扩散模型的最新发...

AIGC 2024-02-26 人工智能

791阅读

Sora神图惊掉下巴，好莱坞导演急撤掉8亿美元摄影棚！ Sora「内测」提前开放，影视失业潮将至

就在昨天，Sora又有全新「神作」炸出了！两位Sora作者，Bill Peebles、Tim Brooks纷纷甩出全新图片。（顺便还秀了一把基友情？）「一只小熊猫和一只巨嘴鸟是最好的朋友，在蓝色时刻漫步在圣托里尼岛」，Peebles称这个场景简直就和...

AIGC 2024-02-26 人工智能

895阅读

AI和RPA：它们如何协同工作，以及为什么你的企业需要两者

根据高盛的一份报告，AI可以使全球劳动生产率每年提高1%以上，到2025年可能吸引超过2000亿美元的投资，与此同时，虽然RPA市场活跃在比无所不在的AI窄得多的领域，但到2029年，RPA市场的规模将超过140亿美元。就个人而言，这两项独立的技术重...

生成式AI 2024-02-26 人工智能

888阅读

VideoPrism官网体验入口 AI视频理解编码器使用介绍

VideoPrism是一个通用的视频编码模型，可在各种视频理解任务上取得领先的性能，包括分类、定位、检索、字幕生成和问答等。其创新点在于预训练的数据集非常大且多样，包含 3600 万高质量的视频-文本对，以及5. 82 亿带有嘈杂文本的视频剪辑。预训练采用...

AIGC 2024-02-26 人工智能

866阅读

GPT-4、Gemini同时被曝重大缺陷，逻辑推理大翻车！DeepMind上交校友团队发现LLM严重降智

最近，谷歌DeepMind和斯坦福的研究人员发现：大模型在处理逻辑推理任务时，问题中信息呈现的顺序对模型的表现有着决定性的影响。论文地址：https://arxiv.org/abs/2402.08939 具体来说，当信息按照逻辑上的自然顺序排列时，模...

AIGC 2024-02-26 人工智能

891阅读

人工智能和数据中心：为什么人工智能如此需要资源

到2023年底，对生成式人工智能将需要多少能源的任何预测都是不准确的。例如，头条新闻倾向于猜测“人工智能需要5倍、10倍、30倍的电力”和“足够运行10万户家庭的电力”等。与此同时，数据中心新闻等专业出版物的报道称，每机架的功率密度将上升到50kW或1...

生成式AI 2024-02-26 人工智能

832阅读

NUS尤洋团队开发扩散模型p-diff 像Sora一样直接打入AI底层

新加坡国立大学尤洋教授团队联合其他机构开发的p-diff扩散模型在AI领域引起热议。这项模型能以44倍的速度生成神经网络参数，得到了深度学习领域的重要人物LeCun的点赞。该模型的研发结合了自编码器的设计，通过正向和反向过程学习参数的分布，生成高质量的神经...

生成式AI 2024-02-26 人工智能

784阅读

出门问问开放大模型“序列猴子”开源数据集

出门问问宣布，将向公众开放其超大规模语言模型“序列猴子”的部分训练数据集，命名为“序列猴子开源数据集1.0”。序列猴子，作为出门问问的核心技术之一，具备强大的通用表示与推理能力，已在问答系统、自然语言处理、机器翻译、文本摘要等多个领域展现出其卓越的性能，...

大数据 2024-02-26 人工智能

866阅读

打入AI底层！NUS尤洋团队用扩散模型构建神经网络参数，LeCun点赞

扩散模型，迎来了一项重大新应用—— 像Sora生成视频一样，给神经网络生成参数，直接打入了AI的底层！这就是新加坡国立大学尤洋教授团队联合UCB、Meta AI实验室等机构最新开源的研究成果。具体来说，研究团队提出了一种用于生成神经网络参数的扩散模...

AIGC 2024-02-26 人工智能

794阅读

人工智能、机器学习、深度学习，到底是个啥？

说到近些年的火热名词，“人工智能”必须榜上有名。随着去年ChatGPT爆火出圈，“AI（Artificial Intelligence，人工智能）”屡次霸屏热搜榜，并被英国词典出版商柯林斯评为2023年的年度词。除了“人工智能”，我们还经常听到“机器学...

生成式AI 2024-02-26 人工智能

907阅读

谷歌AI视频再出王炸！全能通用视觉编码器VideoPrism，性能刷新30项SOTA

AI视频模型Sora爆火之后，Meta、谷歌等大厂纷纷下场做研究，追赶OpenAI的步伐。最近，来自谷歌团队的研究人员提出了一种通用视频编码器——VideoPrism。它能够通过单一冻结模型，处理各种视频理解任务。图片论文地址：https://a...

大数据 2024-02-26 人工智能

886阅读

补齐Transformer规划短板，田渊栋团队的Searchformer火了

最近几年，基于 Transformer 的架构在多种任务上都表现卓越，吸引了世界的瞩目。使用这类架构搭配大量数据，得到的大型语言模型（LLM）等模型可以很好地泛化用于真实世界用例。尽管有如此成功，但基于 Transformer 的架构和 LLM 依然难...

大数据 2024-02-26 人工智能

821阅读

GPT-4正接管人类数据专家！先验知识让LLM大胆预测，准确率堪比传统方式

在数据科学中，AI研究员经常面临处理不完整数据集的挑战。然而，许多已有的算法根本无法处理「不完整」的数据序列。传统上，数据科学家会求助于专家，利用他们的专业知识来填补空白，然而这一过程既耗时，却又不实用。如果AI可以接管专家的角色，又会如何呢？近...

大数据 2024-02-26 人工智能

775阅读

谷歌Gemini生图功能紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

去年年底，谷歌 Gemini 震撼了业界，它是谷歌「最大、最有能力和最通用」的 AI 系统，号称第一个原生多模态大模型，能力超越 GPT-4，也被认为是谷歌反击微软和 OpenAI 的强大工具。对此，在 2 月 8 日，谷歌还把自家对标 ChatGPT...

AIGC 2024-02-26 人工智能

804阅读

AI写作工具的深度探索：揭秘疑似度之谜

大家好，今天来聊聊AI写作工具的深度探索：揭秘疑似度之谜，希望能给大家提供一点参考。以下是针对论文重复率高的情况，提供一些修改建议和技巧，可以借助此类工具：标题：AI写作工具的深度探索：揭秘疑似度之谜在数字化时代的浪潮中，AI写作工具逐渐成...

AIGC 2024-02-25 人工智能

823阅读

AIGC基础：大型语言模型 (LLM) 为什么使用向量数据库，嵌入(Embeddings)又是什么？

嵌入：它是指什么？嵌入是将数据（例如文本、图像或代码）转换为高维向量的数值表示。这些向量捕捉了数据点之间的语义含义和关系。可以将其理解为将复杂数据翻译成 LLM 可以理解的语言。为什么有用？原始数据之间的相似性反映在高维空间中对应向量之间的距离上。...

大数据 2024-02-25 人工智能

998阅读

OpenAI推出文本到视频AI生成器Sora

OpenAI推出了Sora，加入了文本到视频的人工智能内容生成竞赛。Sora可以根据用户的提示生成长达一分钟的视频。该公司展示了几段用Sora制作的令人印象深刻的视频，包括一名女子走在东京的街道上，以及淘金热时代加利福尼亚的历史镜头。目前推出的是面...

生成式AI 2024-02-23 人工智能

876阅读

EgoGen官网体验入口微软AI合成数据生成自我感知工具使用指南

EgoGen是一个用于生成以自我为中心的合成数据的系统，它能够模拟头戴设备（HMDs）的相机装置，并从相机佩戴者的视角渲染多种传感器数据。该系统提供了丰富的多模态数据和准确的注释，适用于自我感知任务。点击前往EgoGen官网体验入口谁可以从EgoGe...

人工智能 2024-02-23 人工智能

880阅读

Stable Diffusion原理详解

Stable Diffusion原理详解最近AI图像生成异常火爆，听说鹅厂都开始用AI图像生成做前期设定了，小厂更是直接用AI替代了原画师的岗位。这一张张丰富细腻、风格各异、以假乱真的AI生成图像，背后离不开Stable Diffusion算法。 S...

人工智能 2024-02-23 人工智能

1090阅读

AIGC内容分享(五十九)：拐点时刻？AIGC时代的新闻业

目录前言大洗牌：新闻业的三重变革涌现：AIGC正掀起一场 “供给侧改革”之外：达克摩斯之剑： AIGC时代结语：前言一阵生成式人工智能(AIGC 的旋风，正在席卷众多领域。 2022年底，OpenAI发布自然语言对话...

人工智能 2024-02-23 人工智能

1142阅读

Llama 2论文详解

摘要 Llama 2是一组经过预训练和微调的大语言模型，参数规模从70亿到700亿不等，其中，Llama 2-Chat是针对对话用例进行优化的微调模型。在大多数基准测试中优于开源chat模型，在人类评估中表现出色，特别是在有用性和安全性方面。因此，Lla...

AIGC 2024-02-23 人工智能

909阅读

使用Stable Diffusion完成绘图

2.2 使用Stable Diffusion完成绘图 Stable diffusion 由于其开源特性，发展极为迅猛，可以说很多效果超过了 Midjourney 也完全不过分，知识系统十分庞杂，他是有两个公司运营研发，WebUI和sd的ckpt文件都...

人工智能 2024-02-22 人工智能

1086阅读

模型融合、混合专家、更小的LLM，几篇论文看懂2024年LLM发展方向

在过去的 2023 年中，大型语言模型（LLM）在潜力和复杂性方面都获得了飞速的发展。展望 2024 年的开源和研究进展，似乎我们即将进入一个可喜的新阶段：在不增大模型规模的前提下让模型变得更好，甚至让模型变得更小。现在，2024 年的第一个月已经过去...

AIGC 2024-02-22 人工智能

1002阅读

LLaMA 2 和 QianWen-14B

阿里云通义千问14B模型开源！性能超越Llama2等同等尺寸模型 - 科技新闻 - EDA365电子论坛网 LLaMA 2 的硬件要求： LLaMA 2 系列模型有不同的参数量版本，如7B、13B和70B等。对于不同大小的模型，其硬件需求也有所不同。以...

生成式AI 2024-02-22 人工智能

1302阅读

网络安全中的机器学习：挑战与比较

在数字互联时代，机器学习(ML 在网络安全防御中的作用已变得不可或缺。机器学习算法能够识别大量数据集中的模式和异常，为预防和减轻网络威胁提供了一条有前景的途径。然而，在乐观的情绪中，也存在着许多必须解决的挑战，才能在网络安全领域有效地利用机器学习。...

人工智能 2024-02-22 人工智能

800阅读

全球最强开源大模型一夜易主！谷歌Gemma 7B碾压Llama 2 13B，重燃开源之战

一声炸雷深夜炸响，谷歌居然也开源LLM了？！这次，重磅开源的Gemma有2B和7B两种规模，并且采用了与Gemini相同的研究和技术构建。有了Gemini同源技术的加持，Gemma不仅在相同的规模下实现SOTA的性能。而且更令人印象深刻的是，还...

生成式AI 2024-02-22 人工智能

838阅读

爆火Sora的背后 | 聊聊什么是world models！

本文经自动驾驶之心公众号授权转载，转载请联系出处。随着媒体狂炒Sora，OpenAI的介绍材料中称Sora是 “world simulator”，世界模型这个词又进入视野，但很少有文章来介绍世界模型。这里回顾一下什么是世界模型，以及讨论Sora是不是...

AIGC 2024-02-22 人工智能

886阅读

【AIGC】警惕大模型的原创性稀释

目录一、学习素材重复引用的隐患二、涉及到的问题三、缓解的办法四、进一步的技术干预味同嚼蜡。如果大模型的学习素材，反复被使用，拉出来又吃回去，如此往复，会怎么样？我在前面已经讨论过了，有大模型A接了大模型B，来训练自己的数据...

生成式AI 2024-02-22 人工智能

857阅读

论文aigc总体疑似度多少正常

在学术研究领域，论文的真实性和原创性始终受到高度关注。其中，AIGC（Artificial Intelligence Generated Content，人工智能生成内容）的疑似度评估尤为重要。那么，论文AIGC的疑似度多少才算是正常呢？本文将从七个方面进...

大数据 2024-02-22 人工智能

2888阅读

第三章：AIGC框架和应用场景

1.背景介绍人工智能(AI 和机器学习(ML 技术在过去几年中取得了显著的进展，为许多领域带来了革命性的改变。自动化图像生成(AIGC 是一种使用AI和ML技术自动生成高质量图像的方法。AIGC框架可以应用于许多场景，例如生成艺术作品、设计、广...

大数据 2024-02-22 人工智能

1129阅读

生成式AI智能体之间的秘密串通：一场隐藏的危机，你准备好了吗？

大型语言模型（LLM）的能力增强，开辟了一组通信生成AI智能体解决联合任务的应用程序。这对未经授权的信息共享或其他不必要的智能体协调形式带来了隐私和安全挑战。现代隐写技术可能会使这种动态难以检测。通过借鉴人工智能和安全文献中的相关概念，全面正式化了生成人...

AIGC 2024-02-22 人工智能

943阅读

大语言模型之LlaMA系列-LlaMA 2及LlaMA_chat(下)

多转一致性的系统消息 - System Message for Multi-Turn Consistency 在对话设置中，某些指示应适用于所有对话轮次。例如，简洁地响应，或"充当"某个公众人物。当我们向Llama 2-Chat提供此类指示时，后...

大数据 2024-02-22 人工智能

969阅读

都在搞端到端，试问端到端自动驾驶的基石到底是什么？

本文经自动驾驶之心公众号授权转载，转载请联系出处。写在前面&笔者的个人理解基础模型的出现彻底改变了自然语言处理和计算机视觉领域，为其在自动驾驶（AD）中的应用铺平了道路。这项调查对40多篇研究论文进行了全面回顾，展示了基础模型在增强AD中的...

人工智能 2024-02-22 人工智能

898阅读

使用AIGC技术提高AI系统效率

1.背景介绍在AI领域，提高系统效率是一个重要的目标。一种有效的方法是使用人工智能生成(AIGC 技术。在本文中，我们将探讨AIGC技术的背景、核心概念、算法原理、最佳实践、应用场景、工具和资源推荐，以及未来发展趋势和挑战。 1. 背景介绍...

AIGC 2024-02-21 人工智能

924阅读

Karpathy新视频又火了：从头构建GPT Tokenizer

技术大神卡帕西离职OpenAI以后，营业可谓相当积极啊。这不，前脚新项目刚上线，后脚全新的教学视频又给大伙整出来了：这次，是手把手教咱构建一个GPT Tokenizer（分词器），还是熟悉的时长（足足2小时13分钟）。 Ps. 上次讲课还是俩月前的...

AIGC 2024-02-21 人工智能

766阅读

被字节辟谣的中文版Sora，究竟厉害在哪里？

撰稿 | 云昭出品 | 51CTO技术栈（微信号：blog51cto）近日，市场有消息称，在Sora引爆文生视频赛道之前，国内的字节跳动也推出了一款新型视频模型Boximator，与Gen-2、Pink1.0等既有模型相比，Boximator的独特...

生成式AI 2024-02-21 人工智能

861阅读

详解面向 Java 开发人员的机器学习案例

译者 | 陈峻审校 | 重楼自去年以来，诸如ChatGPT 和 Bard之类的大语言模型已将机器学习提升到了一种现象级的地位。开发人员使用它们在辅助编程方面不断探索了从图像生成到疾病检测等领域的应用案例。鉴于全球各大科技公司都在加大针对机器学习的...

大数据 2024-02-21 人工智能

952阅读

【AIGC】大语言模型

大型语言模型，也叫大语言模型、大模型（Large Language Model，LLM；Large Language Models，LLMs）什么是大型语言模型大型语言模型（LLM）是指具有数千亿（甚至更多）参数的语言模型，它们是通过在大规模文本数...

生成式AI 2024-02-20 人工智能

1094阅读

为什么人工智能应该开源？

在当今快速发展的数字时代，人工智能几乎处于所有行业革命性创新的前沿。从医疗保健、教育到娱乐，人工智能的变革性影响是显而易见的。什么是开源人工智能? 开源人工智能是人工智能软件和工具，其源代码开放并向公众开放。开发人员、研究人员和其他感兴趣的各方可以访...

生成式AI 2024-02-20 人工智能

792阅读

超四分之一企业禁止员工使用生成式人工智能

根据思科2024年数据隐私基准研究，超过四分之一(27% 的组织出于隐私和数据安全风险的考虑，暂时禁止在员工中使用生成式人工智能。大多数组织还对此类工具实施了控制。近三分之二(63% 的受访者对可以输入的数据进行了限制，61%的受访者对员工可以使用哪...

大数据 2024-02-20 人工智能

879阅读

大模型幻觉的起因、评估及落地场景下基于知识图谱的缓解策略探索

针对大模型落地应用的问题，当前行业内普遍的做法是利用大模型进行问答，但在实际应用中，这种方法往往效果不佳，很多问题的答案并不具有实际参考价值。作为算法人员，我们需要深入了解问题的来源，对于大模型产生的幻觉问题，我们需要明确其定义，是主观的还是客观的，并探...

生成式AI 2024-02-20 人工智能

1115阅读

Sora不懂物理世界，翻车神图全网爆笑！LeCun马斯克DeepMind大佬激辩世界模型

大火的Sora，让许多动画、影视行业的人大为恐慌。不过，今天网上广为流传的这张图，让大家倒是放心了不少。可以看到，在这个视频中，玻璃杯碎裂的方式十分诡异—— 它被抬到半空中时，桌子上就忽然出现了一滩平整的红色玻璃，随后玻璃杯被摔到桌子上，和这滩玻璃融...

生成式AI 2024-02-20 人工智能

834阅读

RNN模型挑战Transformer霸权！1%成本性能比肩Mistral-7B，支持100+种语言全球最多

在大模型内卷的同时，Transformer的地位也接连受到挑战。近日，RWKV发布了Eagle 7B模型，基于最新的RWKV-v5架构。 Eagle 7B在多语言基准测试中，击败了所有的同级别模型，在单独的英语测试中，也和表现最好的模型基本打平。同时...

人工智能 2024-02-20 人工智能

838阅读