-
马斯克打算为特斯拉量身定制一个ChatGPT
编译 | 言征 出品 | 51CTO技术栈(微信号:blog51cto) ChatGPT在互联网上引起轰动后不久,2022年12月,特斯拉的帕洛阿尔托总部也在进行类似的开发。该公司自动驾驶系统的工程师达瓦尔·施罗夫向首席执行官埃隆·马斯克提出了一个概念...
-
《探索Spring Boot采集插件:功能、应用与未来展望》
在数字化时代,数据采集已经成为许多应用程序和服务的核心功能。Spring Boot,作为Java生态系统中流行的微服务框架,为开发者提供了快速构建应用程序的能力。而“Spring Boot采集插件”则是这一生态系统中的一部分,它允许开发者在Spring B...
-
Stability AI发布3D生成模型TripoSR 不用1秒就能生成高质量3D模型
Stability AI 和 Tripo AI 昨晚联合发布了一款名为 TripoSR 的3D 生成模型。这款模型能够在不到1秒的时间内生成高质量的3D 模型,这一创新技术的推出无疑将为3D 建模领域带来革命性的变革。 TripoSR 的推理过程只需要极低...
-
十大必知的人工智能算法
随着人工智能技术(AI)的日益普及,各种算法在推动这一领域的发展中发挥着关键作用。从预测房价的线性回归到自动驾驶汽车的神经网络,这些算法在背后默默支撑着无数应用的运行。 今天,我们将带您一览这些热门的人工智能算法(线性回归、逻辑回归、决策树、朴素贝叶斯...
-
使用直接偏好优化策略微调Mistral-7b模型
译者 | 朱先忠 审校 | 重楼 引言 通常,经过预训练的大型语言模型(LLM)只能执行下一个标记预测,这使其无法回答问题。这就解释了为什么这些基本模型还需要根据成对的指令和答案作进一步微调,最终才能够充当真正有用的人工助理。然而,这个过程仍然可能存在...
-
0.5秒,无需GPU,Stability AI与华人团队VAST开源单图生成3D模型TripoSR
最近,文生视频模型 Sora 掀起了新一轮生成式 AI 模型浪潮,模型的多模态能力引起广泛关注。 现在,AI 模型在 3D 内容生成方面又有了新突破。 专长于视觉内容生成的 Stability AI 继图片生成(Stable Difussion 3 上线...
-
谷歌发布最新「读屏」AI!PaLM 2-S自动生成数据,多项理解任务刷新SOTA
【新智元导读】谷歌在语言和声控计算机界面的漫长道路上又迈出了重要一步。最新ScreenAI视觉语言模型,能够完成各种屏幕QA问答、总结摘要等任务。 每个人想要的大模型,是真·智能的那种...... 这不,谷歌团队就做出来了一个强大的「读屏」AI。 研究人员...
-
AIGC查重高怎么降:七步走向原创之路
大家好,小发猫降ai今天来聊聊AIGC查重高怎么降:七步走向原创之路,希望能给大家提供一点参考。降ai辅写 以下是针对论文AI辅写率高的情况,提供一些修改建议和技巧,可以借助此类工具: 还有: AIGC查重高怎么降:七步走向原创之路 在学术...
-
Anything in Any Scene:逼真物体插入(助力各类驾驶数据合成)
原标题:Anything in Any Scene: Photorealistic Video Object Insertion 论文链接:https://arxiv.org/pdf/2401.17509.pdf 代码链接:https://github....
-
十年内出现AGI?下一代Gemini能感知环境?DeepMind CEO哈萨比斯畅谈AI
「如果我们在未来十年内拥有类似 AGI 的系统,我不会感到惊讶。」Google DeepMind 联合创始人和 CEO Demis Hassabis 近日在人工智能播客节目 Dwarkesh Podcast 上如是说。 在长达一个小时的节目中,Hassa...
-
逆天UniVision:BEV检测和Occ联合统一框架,双SOTA!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 写在前面&个人理解 最近这几年以视觉为中心的3D感知在自动驾驶中得到了快速发展。尽管3D感知模型在结构和概念上有许多相似之处,但在特征表示、数据格式和目标方面仍存在差距,这对统一高效的3D感知...
-
每日一看大模型新闻(2023.12.28)发现GPT-4 API存在重大漏洞;告别冷启动,LoRA为大模型提速高达300%;发布中文大模型基准测评年度报告;腾讯云AI绘画首批通过AIGC绘画平台评估
1.产品发布 1.1微软:明年春季推出首款AI PC 发布日期:2023.12.28 Microsoft’s next Surface laptops will reportedly be its first true ‘AI PCs’ - The...
-
两张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
只需2张图片,无需测量任何额外数据—— 当当,一个完整的3D小熊就有了: 这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。 有网友实测,拍两张照片,真的就重建出了他家的厨房,整个过程耗时不到2秒钟! (除了3D图,...
-
建筑物中的生物识别系统
在新建建筑中,这些新系统的安装占主导地位,因为它们在最大限度地优化可用资源时提供了安全性和大量有用且重要的数据。企业选择的最常见的系统是指纹识别和虹膜扫描。 本文将详细介绍这些新系统的含义、工作原理以及它们与传统访问系统相比的优势。 什么是生物识别访问...
-
Beeble AI与纽约大学合作 发布创新的人像重照明技术SwitchLight
近日,Beeble AI与纽约大学联手发布了一项新的研究成果,一种创新的人像重照明技术。这项技术能够在非常低的成本下,将人物与虚拟环境的光照完美融合,效果令人印象深刻。 论文地址:https://arxiv.org/pdf/2402.18848.pdf...
-
OpenAI与开源多语言嵌入模型,你选择哪一家?
译者 | 朱先忠 审校 | 重楼 出品 | 51CTO技术栈(微信号:blog51cto) 本文对OpenAI的多个嵌入模型与多家开源的多语言嵌入模型进行了综合比较,帮助你最终选择最适合自己的大数据开发模型。 1.引言 OpenAI最近发布了他们的...
-
7B模型超越GPT4-V!港科大等发布「图推理问答」数据集GITQA:视觉图可提升推理能力
图神经网络(GNNs)擅长利用图的结构信息进行推理,但它们通常需要特定于领域的调优才能达到峰值性能,这阻碍了它们在不同任务之间的泛化性。 相比之下,基于大型语言模型(LLM)的图推理具有更强的跨任务和泛化能力,但它们在特定任务上的性能往往逊色于专用的图...
-
复旦等发布AnyGPT:任意模态输入输出,图像、音乐、文本、语音都支持
最近,OpenAI 的视频生成模型 Sora 爆火,生成式 AI 模型在多模态方面的能力再次引起广泛关注。 现实世界本质上是多模态的,生物体通过不同的渠道感知和交换信息,包括视觉、语言、声音和触觉。开发多模态系统的一个有望方向是增强 LLM 的多模态感知...
-
Meta AI提出MobileLLM:为在移动设备上部署LLM提供新思路
Meta AI 研究团队推出的 MobileLLM 标志着大语言模型(LLMs)朝着模拟人类理解和生成自然语言迈出了革命性的一步。LLMs 在处理和分析大量数据集方面的能力已经显著影响了自动化客户服务、语言翻译和内容创作等多个领域。然而,由于传统 LLMs...
-
从AI推理性能优化角度看LLaMA的模型结构和源码
本篇文章讲讲LLaMA的结构,已经有很多文章已经对LLaMA在一些结构上任务表现上做了一些解析,本文主要从优化的角度、实现kernel的角度解析一下LLaMA,读者事先对transformer的结构有基本认识最好。本文首发于我的公众号“AI不止算法”,文章...
-
李飞飞,最火AI女王
黄仁勋又出手了。 最近,英伟达宣布成立一个新研究部门——通用具身智能体研究实验室GEAR。令人意外的是,该实验室的领导者是两位华人90后博士——范麟熙(Jim Fan)和朱玉可(Yuke Zhu 。 范麟熙和朱玉可身上标签很多,但最为鲜明还是一点:李飞飞的...
-
清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!
自从大模型火爆出圈以后,人们对压缩大模型的愿望从未消减。这是因为,虽然大模型在很多方面表现出优秀的能力,但高昂的的部署代价极大提升了它的使用门槛。这种代价主要来自于空间占用和计算量。「模型量化」 通过把大模型的参数转化为低位宽的表示,进而节省空间占用。目...
-
北大发起复现Sora,框架已搭!袁粒田永鸿领衔,AnimateDiff大神响应
重磅: 北大团队联合兔展发起了一项Sora复现计划——Open Sora。 框架、实现细节已出: 初始团队一共13人: 带队的是北大信息工程学院助理教授、博导袁粒和北大计算机学院教授、博导田永鸿等人。 为什么发起这项计划? 因为资源有限,团队希望集结...
-
ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计
尽管用于生成图像的大模型已经成为计算机视觉和图形学的基础,但令人惊讶的是,分层内容生成或透明图像(是指图像的某些部分是透明的,允许背景或者其他图层的图像通过这些透明部分显示出来)生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉内容编辑...
-
模型偏好只与大小有关?上交大全面解析人类与32种大模型偏好的定量组分
在目前的模型训练范式中,偏好数据的的获取与使用已经成为了不可或缺的一环。在训练中,偏好数据通常被用作对齐(alignment)时的训练优化目标,如基于人类或 AI 反馈的强化学习(RLHF/RLAIF)或者直接偏好优化(DPO),而在模型评估中,由于任务...
-
【视觉AIGC识别】误差特征、人脸伪造检测、其他类型假图检测
视觉AIGC识别——人脸伪造检测、误差特征 + 不可见水印 前言 视觉AIGC识别 【误差特征】DIRE for Diffusion-Generated Image Detection 方法 扩散模型的角色 DIRE作为检测指标 实验结果...
-
给AI Agent完整的一生!港大NYU谢赛宁等最新智能体研究:虚拟即现实
【新智元导读】近日,来自香港大学的Jihan Yang和纽约大学的谢赛宁等人发表了新的成果,将真实世界的地图、街景等各种信息融入Agent所在的虚拟世界,为智能体的未来赋予了无限可能。 怎样能构建更强大的AI Agent? 答案是给他们一个完整而真实的世界...
-
Meta AI 发布 MMCSG数据集:使用 Project Aria 捕获的 25 小时以上的双向对话
Meta AI 最近发布了 MMCSG 数据集,该数据集包含使用 Project Aria 录制的25小时以上的双向对话。CHiME-8MMCSG 任务的重点是转录使用智能眼镜录制的对话,这些眼镜配备了多个传感器,包括麦克风、摄像头和惯性测量单元(IMUs...
-
微软推出付费版Copilot
关注卢松松,会经常给你分享一些我的经验和观点。 微软已经超越苹果,成了全球市值最高的公司,其他公司都因为AI大裁员,而微软正好相反,当然这个原因很简单:就是微软强制把AI全面接入到系统里来了。而Copilot首当其冲! 微软推出了付费版Cop...
-
ControlNet作者新作:AI绘画能分图层了,项目未开源就斩获660 Star
“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注—— 给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG)! 例如来一句: 可以看到,AI不仅生成了符合prompt的完整图像...
-
基于大型语言模型和向量数据库开发新闻推荐系统
译者 | 朱先忠 审校 | 重楼 近年来,随着诸如ChatGPT、Bard等生成式人工智能工具的发布,大型语言模型(LLM)在机器学习社区引起了全球热议。这些解决方案背后的核心思想之一是计算非结构化数据(如文本和图像)的数字表示,并找出这些表示之间的相似...
-
企业如何管理生成式人工智能风险?
去年,生成式人工智能的采用率急剧上升。虽然该技术有望实现创新和生产力,但数据安全和泄露的风险却困扰着组织。与生成式人工智能相关的一些风险包括数据滥用、数据泄露和数据中毒。这是因为生成式人工智能是一种大型语言模型(LLM ,它依赖于大量数据来产生输出。随...
-
Stable Diffusion官网体验入口 AI图像生成工具网页版免费使用地址
Stable Diffusion是一个深度学习模型,可根据用户输入的文本描述生成高质量的逼真图像。用户可以免费在线使用 Stable Diffusion,生成各种类型的艺术图像。 点击前往Stable Diffusion官网体验入口 谁可以从Stable...
-
VPR 2024 满分论文!Meta提出EfficientSAM:快速分割一切!
本文经自动驾驶之心公众号授权转载,转载请联系出处。 EfficientSAM 这篇工作以5/5/5满分收录于CVPR 2024!作者在某社交媒体上分享了该结果,如下图所示: LeCun 图灵奖得主也强烈推荐了该工作! 在最近的一项研究中,Meta...
-
对抗「概念飘逸」难题!谷歌发布全新时间感知框架:图像识别准确率提升15%
在机器学习领域,概念漂移(concept drift)问题长期困扰着研究者,即数据分布随时间发生变化,使得模型难以持续有效。 一个显著的例子是CLEAR非稳态学习基准的图像展示,它揭示了物体视觉特征在十年间发生的显著变化。 这种现象被称为「缓慢的概念漂移...
-
一文搞懂:AI、机器学习与深度学习的联系与区别
在当今科技日新月异的浪潮中,人工智能(Artificial Intelligence, AI)、机器学习(Machine Learning, ML)与深度学习(Deep Learning, DL)如同璀璨星辰,引领着信息技术的新浪潮。这三个词汇频繁出现在...
-
微软与前谷歌CEO支持AI对齐初创公司Synth Labs,让AI系统按人类预期工作
在人工智能软件领域,系统并不总是按照其开发者的意愿行动,这一潜在危险已经引起了一些科技巨头的关注。近期,微软与前谷歌CEO埃里克·施密特(Eric Schmidt)联手支持了一家名为Synth Labs的初创公司,致力于解决这一对齐问题。 Synth L...
-
AI在工业领域中的关键作用
对于许多维护和控制工程师来说,人工智能(AI 并不是一个新概念。那些在数字化转型之路上走得更远的人已经非常熟悉机器学习(ML 技术,该技术通过分析来自众多来源的大型数据集来制定预测性维护策略,以帮助企业做出更明智的决策。 同样,在一系列应用中使用大型情...
-
英伟达CEO呼吁建立主权AI基础设施
人工智能(AI 热潮将英伟达(Nvidia 的股价推至历史新高。英伟达的GPU是支持人工智能工作负载的重要硬件。该公司的崛起也使得英伟达创始人兼首席执行官黄仁勋在人工智能市场上的影响力更大。 在最近的迪拜世界政府峰会上,黄仁勋分享了他的观点,即每个国家...
-
【AIGC】AutoKeras 进行 RNN 循环神经网络训练
由于最近这些天都在人工审查之前的哪些问答数据,所以迟迟都没有更新 AutoKeras 的训练结果。现在那部分数据都已经整理好了,20w+ 的数据最后能够使用的高质量数据只剩下 2k+。这 2k+ 的数据已经经过数据校验并且对部分问题的提问方式和答案内容进行...
-
ControlNet作者新作:AI绘画能分图层了!项目未开源就斩获660 Star
“绝不是简单的抠图。” ControlNet作者最新推出的一项研究受到了一波高度关注—— 给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG)! 例如来一句: 头发凌乱的女性,在卧室里。Woman with me...
-
如何使用小型自动生成的数据集训练编码LLM
译者 | 李睿 审校 | 重楼 虽然像GPT-4这样的大型语言模型(LLM 在编写软件代码方面非常精通,但是这些模型的成本和不透明性激发了人们对更加经济、规模更小的编码LLM的兴趣。 这些替代方案可以针对特定任务进行微调,并且成本很低。开发这些LLM的...
-
使用Rust的Linfa和Polars库进行机器学习:线性回归
在这篇文章中,我们将使用Rust的Linfa库和Polars库来实现机器学习中的线性回归算法。 Linfa crate旨在提供一个全面的工具包来使用Rust构建机器学习应用程序。 Polars是Rust的一个DataFrame库,它基于Apache Ar...
-
Lighthouse推出智能摘要,利用生成式AI为酒店提供日常业绩简报
Lighthouse(前身为OTA Insight)日前宣布推出智能摘要,这是一项利用生成AI技术的新功能,旨在为酒店业提供更便捷、易读的日常业绩简报。作为旅行和酒店行业的领先商业平台,Lighthouse通过此次创新进一步巩固了其在行业中的领导地位。...
-
陈丹琦团队新作:Llama-2上下文扩展至128k,10倍吞吐量仅需1/6内存
陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法: 它仅用8k大小的token文档进行训练,就能将Llama-2窗口扩展至128k。 最重要的是,在这个过程中,只需要原来1/6的内存,模型就获得了10倍吞吐量。 除此之外,它还能大大降低训练成本:...
-
Magika:基于AI支持的文件类型检测工具,依靠深度学习提供准确的检测
数字化时代,对我们所遇到的文件进行准确识别至关重要,这涉及到用户安全和信息保护的方方面面。然而,在处理众多文件格式时,如何准确迅速地检测文件内容成为一项挑战。现有方法可能并不总是高效或准确,可能导致潜在风险或误分类。 Magika作为一种创新的文件类型检测...
-
英伟达发布Nemotron-4:150亿参数通用大模型,目标单张A100/H100可跑
英伟达最新推出的Nemotron-4语言模型引起广泛关注。这一通用大模型拥有150亿参数,经过在8T token上的训练,在英语、多语言和编码任务中表现出色。具体而言,Nemotron-4在7个评估基准上的15B模型表现优异,超越同等参数规模的模型,甚至击...
-
研究人员开发AI攻击方法BEAST:可在一分钟内绕过LLM防护栏
研究人员在美国马里兰大学成功开发了一种高效的方法,可以在一分钟内诱导大型语言模型(LLM)产生有害反应,他们将这一技术命名为BEAST(BEAm Search-based adversarial aTtack 。BEAST技术利用Nvidia RTX A6...
-
英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑
最近,英伟达团队推出了全新的模型Nemotron-4,150亿参数,在8T token上完成了训练。 值得一提的是,Nemotron-4在英语、多语言和编码任务方面令人印象深刻。 论文地址:https://arxiv.org/abs/2402.1681...
-
金融分析多模态LLM FinTral:基于Mistral-7B模型 得分接近GPT-4
近日,来自不列颠哥伦比亚大学和Invertible AI的研究人员推出了一款具有突破性的大型语言模型(LLM)——FinTral,专为金融领域量身定制。FinTral采用了多模态方法,能够处理文本、数字、表格和视觉数据,以应对金融文件的复杂性。该模型引入了...