-
ChatGPT泄露陌生男子自拍照!隐私数据被模型偷了?网友大恐慌
【新智元导读】原来,这竟然也是ChatGPT的幻觉? 最近,ChatGPT响应中蹦出陌生男子照片事件,让许多网友们震惊了! 事情是这样的,一名用户向ChatGPT求助——Python中的代码格式化包back该怎样使用。 开始,ChatGPT的回答还很正常。...
-
Copilot 的训练数据集是如何生成的?是否包含开源项目的代码?
GitHub Copilot 是一款基于人工智能的代码自动生成工具,它是由 GitHub 与 OpenAI 合作开发的。为了让 Copilot 能够学习大量的代码片段,从而能够为开发者生成高质量的代码,它需要依赖海量的训练数据集。本文将深入探讨 Copil...
-
研究警告:到2026年,AI训练数据可能告急
随着人工智能(AI)达到巅峰,研究人员警告称,AI行业可能会面临训练数据告急的问题,这是强大AI系统的燃料。这可能会减缓AI模型的增长,特别是大型语言模型,并可能改变AI革命的轨迹。 为了训练强大、准确和高质量的AI算法,我们需要大量数据。例如,ChatG...
-
AIGC实战——深度学习 (Deep Learning, DL)
AIGC实战——深度学习 0. 前言 1. 深度学习基本概念 1.1 基本定义 1.2 非结构化数据 2. 深度神经网络 2.1 神经网络 2.2 学习高级特征 3. TensorFlow 和 Keras 4. 多层感知器 (MLP ...
-
使用 GitHub Copilot 自动化测试
代码完成并不是什么新鲜事。像 IntelliSense 这样的工具已经允许开发人员通过尝试自动完成他们正在编写的函数或语句的名称来提高工作效率,但是可用的工具只有一定程度的实际“智能”可用。随着 GitHub 的 Copilot 的有限发布,他们正在利用...
-
万字长文解读Stable Diffusion的核心插件—ControlNet
目录 一、介绍 二、使用方法 三、ControlNet结构 1.整体结构 2.ControlLDM 3.Timestep Embedding 4.HintBlock 5.ResBlock 6.SpatialTransformer 7.S...
-
文心一言Plugin实战来了,测试开发旅游攻略助手
刚刚过去的8月,百度WAVE SUMMIT 深度学习开发者大会上,重磅发布文心一言的五个原生插件:百度搜索、览卷文档(基于文档的交互)、E 言易图(数据洞察图表生成)、说图解画(基于图片的交互)、一镜流影(文字转视频)。 我们知道大模型的训练过程一般...
-
手机被“秒解锁”?活体检测+3D人脸识别让刷脸更安全
如今,人们使用智能手机进行刷脸解锁、刷脸支付就像吃饭喝水一样自然。人脸识别技术的进步为人们的日常生活带来了诸多便利,但同时也引发了隐私安全问题。 近日,来自清华的 Real AI(瑞莱智慧)展示了一项简单的攻击技术:测试者佩戴了一副含有对抗样本图案的眼镜...
-
openGauss数据库源码解析系列文章—— AI技术之“指标采集、预测与异常检测”
上一篇介绍了“8.4 智能索引推荐”的相关内容,本篇我们介绍“8.5 指标采集、预测与异常检测”的相关精彩内容介绍。 8.5 指标采集、预测与异常检测 数据库指标监控与异常检测技术,通过监控数据库指标,并基于时序预测和异常检测等算法,发现异常信息...
-
关于世界模型的一点迷思,以及与自动驾驶结合的几点思考~
本文经自动驾驶之心公众号授权转载,转载请联系出处。 什么是world models? 什么是world models, 可以参考Yann LeCun的PPT解释 即输入历史1到t时刻的状态信息, 结合当前的动作, 能够预测接下来的状态。 通俗地理解,...
-
生成式AI喧嚣之下:CIO选择谨慎行事尚未全力投入
大多数CIO已经开始探索生成式AI,以确保他们跟上发展步伐,但很多人发现市场上的技术尚未达到宣传的效果。米其林全球首席信息官Yves Caseau表示:“在对GitHub copilot和ChatGPT进行了六个多月的试验后,我对生成式AI的发展速度感...
-
德国初创公司 Aleph Alpha 完成 5 亿美元 B 轮融资,挑战 OpenAI
德国初创公司 Aleph Alpha 在周一宣布,已完成由博世、SAP 和惠普企业等支持的 5 亿美元融资。这家公司构建了自己的大型语言模型,并在 B 轮融资中筹集了这笔新资金,这是该公司的第二轮主要融资,也是一笔不同寻常的巨额 B 轮投资。 这轮融资主...
-
想快速进入人工智能领域的Java程序员?你准备好了吗?
引言 今天我们来探讨一下作为Java程序员,如何迅速融入人工智能的领域。,当前有一些流行的LLMs选择,例如ChatGPT、科大讯飞的星火、通义千问和文心一言等。如果你还没有尝试过这些工具,那么现在也不失为一个很好的机会,赶快体验一下吧。这些工具不仅能够...
-
OpenAI 跟进推出版权保护计划:承诺保护客户应对版权侵权诉讼
在业界的期待和社会各界的关注中,OpenAI 今日正式宣布推出新的版权保护计划——版权屏障(Copyright Shield)。通过该计划,OpenAI 将介入并为使用其产品的企业提供版权侵权辩护,特别是针对 OpenAI 开发者平台的「普遍可用」功能以及...
-
让大模型忘记哈利波特,微软新研究上演Llama 2记忆消除术,真·用魔法打败魔法(doge)
最近微软一项研究让Llama 2选择性失忆了,把哈利波特忘得一干二净。 现在问模型“哈利波特是谁?”,它的回答是这样婶儿的: 木有赫敏、罗恩,木有霍格沃茨…… 要知道此前Llama 2的记忆深度还是很给力的,比如给它一个看似非常普通的提示“那年秋天,哈...
-
交叉验证太重要了!
首先需要搞明白,为什么需要交叉验证? 交叉验证是机器学习和统计学中常用的一种技术,用于评估预测模型的性能和泛化能力,特别是在数据有限或评估模型对新的未见数据的泛化能力时,交叉验证非常有价值。 那么具体在什么情况下会使用交叉验证呢? 模型性能评估:交叉...
-
AI视野:xAI首个大模型Grok炸场;李开复官宣开源大模型Yi-34B;ChatGPT原型Gizmo新功能曝光;百度网盘引入大模型智能助理
????大模型动态 李开复官宣全球最强开源大模型Yi-34B 一次可处理40万汉字 零一万物发布全球最强的开源大模型Yi-34B,具备超强的语言理解和处理能力,支持处理40万汉字,在中文指标上表现卓越,标志着中国在大模型领域的重大突破。 项目地址:htt...
-
大型语言模型(LLM)技术精要,不看亏了
哈喽,大家好。 今天分享一篇知乎高赞文章,作者是张俊林老师。 图片 读完收获很多,能帮大家更好地理解、学习大模型。原文有2.8w字,我提炼了核心要点,阅读需要10min。 ChatGPT的出现给很多人带来了惊喜和醒悟。有人惊喜地发现大型语言模型(LLM)...
-
人工智能如何改变城市景观
人工智能(AI 和深度学习无处不在,如今它们具有重塑城市景观的潜力。分析景观图像的深度学习模型可以帮助城市规划者可视化重建计划,以提高美观度并防止代价高昂的错误。然而,为了使这些模型有效,它们需要准确地识别和分类图像中的元素,这是一个称为实例分割的挑战...
-
马斯克xAI公布大模型详细进展,Grok只训练了2个月
近几日,马斯克的人工智能公司 xAI 公布了他们用来对标 OpenAI ChatGPT 的产品 ——Grok ,直接把网友的好奇心拉满。 和总是一本正经回答问题的 ChatGPT 不同,Grok 自带幽默和嘲讽技能。 就像下图所展示的,Grok 在被...
-
谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化
Transformer模型是否能够超越预训练数据范围,泛化出新的认知和能力,一直是学界争议已久的问题。 最近谷歌DeepMind的3位研究研究人员认为,要求模型在超出预训练数据范围之外泛化出解决新问题的能力,几乎是不可能的。 LLM的终局就是人类智慧总和...
-
元象XVERSE开源650亿参数通用大模型XVERSE-65B
元象XVERSE宣布 开源650亿参数高性能通用大模型XVERSE-65B,无条件免费商用。 XVERSE-65B 是由深圳元象科技开发的一种支持多语言的大型语言模型。它采用了 Transformer 网络结构,参数规模达到了650亿。 模型通过训练了2....
-
北大具身智能新成果:无需训练,听指令就能灵活走位
北京大学董豪团队具身导航最新成果来了: 无需额外建图和训练,只需说出导航指令,如: Walk forward across the room and walk through the panty followed by the kitchen. Stan...
-
国内最大开源模型发布,无条件免费商用!参数650亿,基于2.6万亿token训练
国内规模最大的开源大模型来了: 参数650亿、基于2.6-3.2万亿token训练。 排名仅次于“猎鹰”和“羊驼”,性能媲美GPT3.5,现在就能无条件免费商用。 它就是来自深圳元象公司的XVERSE。 根据算力、资源限制和具体任务需求的不同,我们能对...
-
Together AI发布RedPajama v2:包内30万亿token数据集,用于训练大型语言模型
Together AI最近发布了RedPajama v2,这是一个庞大的在线数据集,包含了30万亿token,成为目前公开可用的最大数据集之一,专门用于学习型机器学习系统的培训。 对于像Llama、Mistral、Falcon、MPT和RedPajama等...
-
全球首发!总结七十余种开源数据集,一览自动驾驶开源数据体系
本文经自动驾驶之心公众号授权转载,转载请联系出处。 基于数据驱动的各类深度学习模型任务,近年来随着数据集规模的不断扩大,性能逐渐被提升,国内外各大自动驾驶公司都在不断建立自己的数据库,以及数据闭环系统,期待数据的丰富能够解决下半场自动驾驶问题,那么如何...
-
ChatGPT新功能曝光!OpenAI首届开发者大会抢先看
OpenAI将于太平洋时间11月6日早上10点举办首届全球开发者大会(大约北京时间11月7日凌晨2点),与来自世界各地的开发者、企业、技术合作伙伴,分享OpenAI最新产品和技术趋势。 由于OpenAI的金字招牌太响,已经有不少人迫不及待地曝光其开发者大会...
-
什么是机器学习中的正则化?
1. 引言 在机器学习领域中,相关模型可能会在训练过程中变得过拟合和欠拟合。为了防止这种情况的发生,我们在机器学习中使用正则化操作来适当地让模型拟合在我们的测试集上。一般来说,正则化操作通过降低过拟合和欠拟合的可能性来帮助大家获得最佳模型。 在本文...
-
一篇学会大模型浪潮下的时间序列预测
今天跟大家聊一聊大模型在时间序列预测中的应用。随着大模型在NLP领域的发展,越来越多的工作尝试将大模型应用到时间序列预测领域中。这篇文章介绍了大模型应用到时间序列预测的主要方法,并汇总了近期相关的一些工作,帮助大家理解大模型时代时间序列预测的研究方法。...
-
大模型落地最后一公里:111页全面综述大模型评测
当前,大模型正凭借其强大的能力和无限的潜力引领着新一轮技术革命,众多科技巨头纷纷围绕大模型进行布局,进一步推动大模型不断向前发展。然而,尽管大模型能够协助我们完成各种任务,改变我们的生产和生活的方式,提高生产力,为我们带来便利,但大模型的发展也伴随着诸多...
-
人工智能进入强监管时代
以ChatGPT为代表的基于LLM(大语言模型 的生成式人工智能应用正风靡全球,各行各业都在争先恐后将其集成到前端和后端的各种系统中,与此同时生成式人工智能面临的安全风险也正随着其热度上升而凸显。 生成式人工智能自身正面临提示注入等多种攻击,很可能给企...
-
AI生图太诡异?马里兰&NYU合力解剖神经网络,CLIP模型神经元形似骷髅头
AI黑盒如何才能解? 神经网络模型在训练的时,会有些ReLU节点「死亡」,也就是永远输出0,不再有用。 它们往往会被被删除或者忽略。 恰好赶上了模糊了生与死的界限的节日——万圣节,所以这是探索那些「死节点」的好时机。 对于大多数图像生成模型来说,会输出正...
-
科普神文,一次性讲透AI大模型的核心概念
图片 令牌,向量,嵌入,注意力,这些AI大模型名词是否一直让你感觉熟悉又陌生,如果答案肯定的话,那么朋友,今天这篇科普神文不容错过。我将结合大量示例及可视化的图形手段,为你由浅入深一次性讲透AI大模型的核心概念。 引言 随着科技公司及国际竞争的不断推进,...
-
大模型: 模型大了难在哪里?
大家好,我是Tim。 自从GPT模型诞生以来,其参数规模就在不停的扩大。但模型并非简单的直接变大,需要在数据、调度、并行计算、算法和机器资源上做相应的改变。 今天就来总结下,什么是大模型,模型变大的难在哪里以及对于CV/NLP或者搜推广场景上有什么应对策...
-
使用Ray创建高效的深度学习数据管道
用于训练深度学习模型的GPU功能强大但价格昂贵。为了有效利用GPU,开发者需要一个高效的数据管道,以便在GPU准备好计算下一个训练步骤时尽快将数据传输到GPU。使用Ray可以大大提高数据管道的效率。 1、训练数据管道的结构 首先考虑下面的模型训练伪代码。...
-
目前CIO们仍在谨慎地探索GenAI在企业中的应用价值
多数CIO已经开始探索GenAI,以确保企业跟上技术发展的趋势,但许多人发现,市场上的技术还没有达到理想的水平。米其林全球CIO Yves Caseau表示:“在对GitHub Copilot和ChatGPT进行了六个多月的试验后,GenAI的发展速度令...
-
姚班斯隆奖马腾宇正式宣布大模型创业
清华姚班校友兼斯坦福大学助理教授马腾宇宣布了一个引人注目的创业项目,名为Voyage,旨在提供卓越的嵌入模型。这个嵌入模型在MTEB数据集上表现超越OpenAI,成为SOTA。该项目的成功也得益于三位知名教授,包括斯坦福人工智能实验室主任Christoph...
-
独家 | GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
前段时间,OpenAI 发布了文生图模型 DALL・E3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上: 可以看到,DALL・E3不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了出来。 但细心...
-
AI编程,详细比较GitHub Copilot对比Amazon CodeWhisperer
1、简介 GitHub Copilot和Amazon CodeWhisperer是采用人工智能技术驱动的编码助手,它们将自动完成编码功能提升到一个全新的水平。在最佳状态下,它们可以根据开发者提供的简短描述性文本编写功能完整、可运行的代码块。这可以让开发者...
-
通义千问2.0将带来重磅升级 通义千问app怎么注册下载安装
通义千问2.0将带来重磅升级,正式超越GPT-3.5,正在加速追赶GPT-4,成为业界的佼佼者。此次升级的核心在于其在性能上的巨大飞跃,不仅在复杂指令理解、文学创作、通用数学、知识记忆等方面有显著提升,还在幻觉抵御等能力上表现出色。 通义千问2.0将带来...
-
GPT-4、Midjourney之外,谭平创业团队要造一个3D基础模型
前段时间,OpenAI 发布了文生图模型 DALL・E 3,生成效果非常惊艳。比如,你可以让它一次画出几十个物体,然后再要求它把这些物体全部放到一个冲浪者的背上: 可以看到,DALL・E 3 不仅画出了足量的物体,就连冲浪者面对重压时的神情都刻画了...
-
Meta AI研究负责人倡导开源许可制度变革
Meta公司最近发布的大型语言模型Llama2备受争议,因其并未完全满足开源倡议的要求。尽管Llama2相对较为开放和免费,但在开源软件领域,一些人仍对该公司的开放性持有异议。 具体来说,Meta公司的许可协议使Llama2对许多人免费,但它仍然是有限的,...
-
ChatGPT、Llama-2等大模型,能推算出你的隐私数据!
ChatGPT等大语言模型的推理能力有多强大?通过你发过的帖子或部分隐私数据,就能推算出你的住址、年龄、性别、职业、收入等隐私数据。 瑞士联邦理工学院通过搜集并手工标注了包含520个Reddit(知名论坛)用户的个人资料真实数据集PersonalReddi...
-
生成式AI迫使Stack Overflow裁员28%
作者丨Anirban Ghoshal 编译丨诺亚 出品 | 51CTO技术栈(微信号:blog51cto) 面向开发人员的问答门户网站Stack Overflow将裁员近三分之一,取而代之的是生成式人工智能驱动的编程助手,比如微软的...
-
多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟
视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题。 简单来说就是:模型输出的描述与图片内容不相符。 下图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描...
-
Agent 应用于提示工程
如果Agent模仿了人类在现实世界中的操作方式,那么,能否应用于提示工程即Prompt Engingeering 呢? 从LLM到Prompt Engineering 大型语言模型(LLM 是一种基于Transformer的模型,已经在一个巨大的语料库或...
-
AI智能超越人类终解开!李飞飞高徒新作破圈,5万个合成数据碾压人类示例,备咖啡动作超丝滑
AI巨佬Geoffrey Hinton称,「科技公司们正在未来18个月内,要使用比现在GPT-4多100倍的算力训练新模型」。 更大参数的模型,对算力需求巨大的同时,对数据也提出了更高的要求。 但是,更多的高质量数据该从何来? 英伟达高级科学家Jim F...
-
首个人体动捕基模型面世!SMPLer-X:横扫七大榜单
人体全身姿态与体型估计(EHPS, Expressive Human Pose and Shape estimation)虽然目前已经取得了非常大研究进展,但当下最先进的方法仍然受限于有限的训练数据集。 最近,来自南洋理工大学S-Lab、商汤科技、上海人...
-
最好7B模型再易主!打败700亿LLaMA2,苹果电脑就能跑
花500刀“调教”的70亿参数模型,打败700亿参数的Llama 2! 且笔记本就能轻松跑,效果媲美ChatGPT。 重点:免费、不要钱。 HuggingFace H4团队打造的开源模型Zephyr-7B,鲨疯了。 其底层模型是前段时间爆火、由有着“欧...
-
小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大
大型语言模型 (LLMs 在各种自然语言任务中展现出了卓越的性能,但是由于训练和推理大参数量模型需要大量的计算资源,导致高昂的成本,将大语言模型应用在专业领域中仍存在诸多现实问题。因此,北理团队先从轻量级别模型入手,最大程度发挥数据和模型的优势,立足更...