多任务第5页 - AIGC资讯

首个精通3D任务的具身通才智能体：感知、推理、规划、行动统统拿下

想要迈向通用人工智能，必须要构建一个能够理解人类生活的真实世界，并掌握丰富技能的具身通用智能体。今年以来，以 GPT-4 (V [1]、LLaVA [2]、PALM-E [3] 等为代表的多模态大语言模型（Multi-modal Large Langu...

AIGC 2023-12-08 人工智能

918阅读

自动驾驶大模型论文调研与简述

最近关于大模型(LLMs, VLM 与自动驾驶相关文献调研与汇总：适合用于什么任务？答：目前基本上场景理解、轨迹预测、行为决策、运动规划、端到端控制都有在做。大家都怎么做的？对于规控任务，LLM型基本是调用+Prompt设计，集中在输入和输出设计...

生成式AI 2023-12-08 人工智能

1122阅读

AI视野：谷歌推多模态大模型Gemini；抖音上线抖音心晴；苹果发布 MLX 模型框架；Meta推出AI图像生成器网站

????大模型动态谷歌发布Gemini 谷歌推出多模态大模型Gemini1.0，具备处理文本、代码、音频、图像和视频等多种信息的能力，分为Ultra、Pro和Nano三种规模，性能超越领先模型，Gemini Ultra在多任务语言理解中首次超越人类专家水...

生成式AI 2023-12-07 人工智能

877阅读

思维链提出者Jason Wei：关于大模型的6个直觉

还记得 Jason Wei 吗?这位思维链的提出者还曾共同领导了指令调优的早期工作，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 参与 ChatGPT 的开发工作。机器之心曾经报道过他为年轻 AI 研...

生成式AI 2023-12-07 人工智能

850阅读

思维链提出者Jason Wei：关于大模型的六个直觉

还记得 Jason Wei 吗？这位思维链的提出者还曾共同领导了指令调优的早期工作，并和 Yi Tay、Jeff Dean 等人合著了关于大模型涌现能力的论文。目前他正在 OpenAI 参与 ChatGPT 的开发工作。机器之心曾经报道过他为年轻 AI...

大数据 2023-12-07 人工智能

838阅读

首超人类专家！OpenAI“混乱”之际，谷歌多模态大模型Gemini“大杀四方”

在OpenAI“混乱”之际，Google准备“大杀四方”。就在昨日晚间，Google 和 Alphabet CEO Sundar宣布Gemini上线，并称之为“我们规模最大、能力最强的 AI 模型”，语惊四座。 Gemini的关键词是“多模态”，Go...

大数据 2023-12-07 人工智能

1073阅读

谷歌CEO皮查伊深度解析谷歌史上最强大模型Gemini及即将到来的人工智能时代

12月7日消息，美国当地时间周三，谷歌发布了其新一代人工智能模型Gemini。Gemini反映了谷歌内部多年来在首席执行官桑达尔·皮查伊（Sundar Pichai）的监督和推动下所做的努力。此前负责Chrome和安卓业务的皮查伊是出了名的产品迷。2...

AIGC 2023-12-07 人工智能

982阅读

谷歌发布多模态大模型Gemini 1.0 预计明年初向开发者推出

Gemini 是 Google 推出的最新一代 AI 模型，Gemini 具有多模态的能力，可以处理和结合文本、代码、音频、图像和视频等不同类型的信息。 Gemini 分为三种规模:Ultra、Pro 和 Nano，分别针对不同的复杂任务和设备。 Ge...

人工智能 2023-12-07 人工智能

792阅读

遥遥领先GPT-4！谷歌最强AI大模型Gemini 1.0发布

快科技12月7日消息，在5月举行的开发者大会上，谷歌首次透露其正在开发的AI大模型Gemini，时隔7个月，Gemini终于来了。据谷歌官方公众号消息，谷歌日前正式发布Gemini 1.0，这是谷歌迄今为止构建的最强大、最通用、最灵活的模型。据介绍，...

AIGC 2023-12-07 人工智能

847阅读

国内AI顶会CPAL论文录用结果放出！共计30篇Oral和60篇Spotlight

大家可能还记得，今年五月份公布的，将由国内大佬马毅和沈向洋牵头办的全新首届AI学术会议CPAL。这里我们再介绍一下CPAL到底是个什么会，以防有的读者时间太久有遗忘—— CPAL（Conference on Parsimony and Learning...

生成式AI 2023-12-07 人工智能

1122阅读

AI绘画后面的论文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models

AI绘画后面的论文——ControlNet:Adding Conditional Control to Text-to-Image Diffusion Models 代码：lllyasviel/ControlNet: Let us control di...

AIGC 2023-12-06 人工智能

967阅读

NLP(自然语言处理)任务必备：六个顶级Python库推荐

本文将介绍用于自然语言处理任务的6个最佳Python库。无论是初学者还是经验丰富的开发人员，都能从中获得启发和帮助，提升在NLP领域的实践能力。 1. Pynlpir Pynlpir是一个非常优秀的 Python 中文自然语言处理库。它提供了一系列功能...

人工智能 2023-12-05 人工智能

1034阅读

深度强化学习：智能机器中的头号玩家

Labs 导读你是否想象过机器人也可以成为游戏领域的超级高手？是时候让你的幻想成为现实，深度强化学习这位头号玩家来啦！这是一个令人兴奋又神秘的领域，简单来说，它就是让计算机像人类一样学习和玩游戏。深度强化学习的学习过程就像是一场盛大的冒险，只不过主角...

生成式AI 2023-12-03 人工智能

925阅读

一言不合就跑分，国内AI大模型为何沉迷于“刷榜”

“不服跑个分”这句话，相信关注手机圈的朋友一定不会感到陌生。诸如安兔兔、GeekBench等理论性能测试软件，由于能够在一定程度上反映手机的性能，因此备受玩家的关注。同理在PC处理器、显卡上，同样也有相应的跑分软件来衡量它们的性能。既然“万物皆可跑分”，...

大数据 2023-12-03 人工智能

855阅读

Linux 中的机器学习：Whisper——自动语音识别系统

Whisper 是一种自动语音识别 (ASR 系统，使用从网络收集的 680000 小时多语言和多任务数据进行训练，Whisper 由深度学习和神经网络提供支持，是一种基于 PyTorch 构建的自然语言处理系统，这是免费的开源软件。安装Whisp...

大数据 2023-12-02 人工智能

1060阅读

微软亚洲研究院韦福如：人工智能基础创新的第二增长曲线

从人工智能的发展历程来看，GPT 系列模型（例如 ChatGPT 和 GPT-4）的问世无疑是一个重要的里程碑。由它所驱动的人工智能应用已经展现出高度的通用性和可用性，并且能够覆盖多个场景和行业 —— 这在人工智能的历史上前所未有。然而，人工智能的科研...

AIGC 2023-12-01 人工智能

946阅读

Meta AI实验室推三项新AI项目庆祝成立十周年：Ego-Exo4D、Audiobox等

为庆祝Meta基础人工智能研究（FAIR）团队成立十周年，公司隆重推出三个创新的人工智能项目，展示了引人注目的演示。 Ego-Exo4D: 官方项目介绍网址:https://ai.meta.com/blog/ego-exo4d-video-learni...

生成式AI 2023-12-01 人工智能

1121阅读

百度搜索内容HTAP表格存储系统

作者 | Chaos 导读本文主要介绍百度搜索内容存储团队应对海量互联网数据分析计算需求时，在构建HTAP表格存储系统方向上的一些技术思考。全文4683字，预计阅读时间12分钟。 01 业务背景百度搜索内容存储团队主...

生成式AI 2023-11-30 人工智能

922阅读

LLaMA 的学习笔记

LLaMA 是一种用于自然语言处理的深度学习模型，它的全称是 Language Learning with Adaptive Multi-task Architecture。它的主要特点是能够根据不同的任务自适应地调整模型结构和参数，从而提高模型的泛化能力...

人工智能 2023-11-30 人工智能

998阅读

北大提出统一的视觉语言大模型Chat-UniVi 3天训练成果惊艳众人

近日，北京大学和中山大学等机构的研究者提出了一种名为Chat-UniVi的视觉语言大模型，实现了统一的视觉表征，使其能够同时处理图片和视频任务。这一框架的独特之处在于，它不仅在深度学习任务中表现卓越，而且仅需短短三天的训练时间，就能够训练出具有130亿参数...

大数据 2023-11-29 人工智能

842阅读

大模型部署实战（一）——Ziya-LLaMA-13B

❤️觉得内容不错的话，欢迎点赞收藏加关注???，后续会继续输入更多优质内容❤️ ?有问题欢迎大家加关注私戳或者评论（包括但不限于NLP算法相关，linux学习相关，读研读博相关......）? 博主原文链接：https://www.yo...

生成式AI 2023-11-29 人工智能

978阅读

Visual chatgpt多模态大模型的前菜

刚开始感觉这就是一篇工程类文章，把各种的模型做了整合，把最近很热的两个方向chatgpt和文本生成图、图文提问整合在一起。看完文章发现自己太自傲了，绝对轻视了微软亚研院大佬们的实力。表面看起来这是一个用chatgpt做意图理解、对话管理，然后用...

生成式AI 2023-11-29 人工智能

864阅读

AIGC零基础30天学习——CLIP模型

1. 模型架构 Contrastive Language-Image Pre-training（以下简称“CLIP”）是OpenAI 在 2021 年初发布的用于匹配图像和文本的预训练神经网络模型，可以说是近年来在多模态研究领域的...

生成式AI 2023-11-29 人工智能

1204阅读

【多模态】3、CLIP | OpenAI 出品使用 4 亿样本训练的图文匹配模型

文章目录一、背景二、方法 2.1 使用自然语言来监督训练 2.2 建立一个超大数据集 2.3 选择预训练的方式——对比学习而非预测学习 2.4 模型缩放和选择三、效果四、思考论文：Learning Transferabl...

AIGC 2023-11-27 人工智能

2279阅读

看百度文心一言实力，再聊ChatGPT触类旁通的学习能力如何而来？

图文原创：亲爱的数据美国大模型水平领先，国内大模型蓄势而发。国内大模型参与者众多，百度文心一言第一个有勇气站出来发布。此处应有掌声。事前事后，中国网友的呐喊声不绝于耳：“文心一言到底什么水平啊？” 其实网友更想知道：国内A...

生成式AI 2023-11-27 人工智能

877阅读

xAI Grok内测资格怎么申请 xAI Grok内测申请入口

Grok是一款由马斯克旗下的人工智能公司xAI开发的聊天机器人，它可以与用户进行智能、幽默和多任务的对话，还可以根据用户的兴趣和需求提供个性化的推荐和建议。Grok的特点是它可以实时访问X平台上的海量数据，从中学习和理解最新的热门话题和事件，还可以回答一些...

AIGC 2023-11-22 人工智能

788阅读

【文心一言 vs. 通义千文】一言对千问：自百度之后，阿里终于还是出手了——通义千问

通义千问： https://tongyi.aliyun.com/通义千问https://tongyi.aliyun.com/ 目录通义千问：达摩院 GPT-30B 模型复现 GPT-3 模型介绍 GPT3中文30B参数量文本生...

人工智能 2023-11-22 人工智能

1122阅读

python语音识别whisper

一、背景最近想提取一些视频的字幕，语音文案，研究了一波二、whisper语音识别 Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练，也是一个多任务模型，可以执行多语言语音识别以及语音翻译和语言识别。 stable-...

大数据 2023-11-21 人工智能

932阅读

长虹推出基于大模型的智慧家电 AI 平台“长虹云帆”

2023年11月20日，长虹智慧 AI 平台发布会在中国科技城 - 绵阳举行。长虹推出了全球首个基于大模型的智慧家电 AI 平台 —— 长虹云帆。云帆 AI 平台将生成式人工智能应用于电视终端，通过长虹自主研发的 AI 技术和大量专业模型的训练，实现了电视...

AIGC 2023-11-20 人工智能

819阅读

揭秘百度文心一言大模型：设计、应用与实战

导言在当今的深度学习领域，大型预训练模型如GPT、BERT等已经取得了显著的进展。而百度公司的文心一言大模型，作为一款基于Transformer结构的巨型模型，也在自然语言处理领域产生了重大影响。本文将详细介绍文心一言大模型的设计原理、特点以及应用场...

人工智能 2023-11-20 人工智能

1479阅读

使用Python轻松识别音频中文字(Whisper)

使用Python轻松识别音频中文字一、前言在开会或是讨论问题的时候，我们总有一些内容需要记录下来。但由于各种原因，我们无法做到全面细致的记录。事后我们可能需要补充这些细节性内容，而回放视频或是录音费时费力，这时候语音识别可以帮助我们轻松解决这一...

大数据 2023-11-18 人工智能

931阅读

本地部署 Whisper 及 WhisperDesktop

本地部署 Whisper 及 WhisperDesktop 1. 什么是 Whisper 2. Github 地址 3. 创建虚拟环境 4. 安装 ffmpeg 5. 部署 Whisper 6. 使用 Whisper (20230514追加 W...

人工智能 2023-11-16 人工智能

2654阅读

S-LoRA：一个GPU运行数千大模型成为可能

一般来说，大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是，当针对众多任务（如个性化助手）对 base 模型进行微调时，训练和服务成本会变得非常高昂。低秩适配（LowRank Adaptation，LoRA）是一种参数效率高的微调方法，通常用...

人工智能 2023-11-15 人工智能

838阅读

中文版开源Llama 2同时有了语言、多模态大模型，完全可商用

可以说，AI 初创公司 LinkSoul.Al 的这些开源项目让海外开源大模型在国内的普及和推广速度与国际几乎保持了一致。 7 月 19 日，Meta 终于发布了免费可商用版本 Llama 2，让开源大模型领域的格局发生了巨大变化。 Llama 2 模...

大数据 2023-11-14 人工智能

837阅读

GPT Builder如何下载?创建GPTs还需要prompt吗

在上周的开发者大会DevDay上，OpenAI向所有ChatGPTPlus订阅者发布了其新的招牌工具之一GPTBuilder。正如名称所示，OpenAI的GPTBuilder允许个人构建自己的ChatGPT定制版本，ChatGPT是该公司热门的大型语言模型...

生成式AI 2023-11-13 人工智能

989阅读

2028年人类将迎来AGI：DeepMind联合创始人长文预测未来AI发展

10月26日，在X上有三万订阅的Dwarkesh Podcast（矮人播客）主持人Dwarkesh Patel采访了谷歌DeepMind的创始人兼首席AGI科学家Shane Legg。他们讨论了AGI出现的时间节点、可能的AGI新架构、作为下一个行业标...

人工智能 2023-11-13 人工智能

807阅读

能跟「猫主子」聊天了！生成式AI带来的全面革命：最快五年内破译第一种动物语言

所罗门能够与动物交流并不是因为他拥有魔法物品，而是因为他有观察的天赋。 ——康拉德・劳伦兹《所罗门王的指环》在《狮子王》、《疯狂动物城》等以动物为中心的作品中，作者...

生成式AI 2023-11-13 人工智能

996阅读

【人工智能】ChatGTP从入门到精通

当谈论自然语言处理和文本生成技术时，Chat GPT 是一个备受瞩目的话题。作为一种基于深度学习的语言模型，Chat GPT 在近几年里已经展现出了惊人的能力，可以生成几乎无法区分与人类写作的文本，并在自然语言处理领域的各种任务中都表现出色。Chat GP...

生成式AI 2023-11-12 人工智能

1369阅读

Whisper、React 和 Node 构建语音转文本 Web 应用程序

在本文中，我们将使用 OpenAI 的 Whisper 以及 React、Node.js 和 FFmpeg 构建一个语音转文本应用程序。该应用程序将获取用户输入，使用 OpenAI 的 Whisper API 将其合成为语音，并输出结果文本。Whisper...

人工智能 2023-11-12 人工智能

1249阅读

语音识别模型whisper的参数说明

一、whisper简介： Whisper是一种通用的语音识别模型。它是在各种音频的大型数据集上训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。二、whisper的参数 1、-h, --help 查看whisper的参数...

生成式AI 2023-11-11 人工智能

895阅读

UniPAD：通用自动驾驶预训练模式！各类感知任务都可支持

本文经自动驾驶之心公众号授权转载，转载请联系出处。最近，新论文推陈出新的速度着实太快有点读不过来的感觉。可以看到的是，语言视觉多模态大模型融合已经是业界共识了，UniPad 这篇文章就比较有代表性，多模态的输入，类世界模型的预训练基座模型，同时又方便扩...

人工智能 2023-11-10 人工智能

880阅读

文本生成高精准3D模型，北京智源AI研究院等出品—3D-GPT

北京智源AI研究院、牛津大学、澳大利亚国立大学联合发布了一项研究—3D-GPT，通过文本问答方式就能创建高精准3D模型。据悉，3D-GPT使用了大语言模型的多任务推理能力，通过任务调度代理、概念化代理和建模代理三大模块，简化了3D建模的开发流程实现技术民...

大数据 2023-11-10 人工智能

876阅读

开发者「第二大脑」来袭，GitHub Copilot更新，人类开发参与进一步减少

是什么让 Andrej Karpathy 感慨，人类在软件开发过程中直接编写代码的贡献将越来越小，直接输入和监督作用将更加抽象化。最终，人类的角色将仅仅是进行基本的审核和确认，而不再是主要的编程和开发者。原来是 GitHub 新发布的 Copilot...

生成式AI 2023-11-09 人工智能

809阅读

来聊聊近期火爆的几个大模型和自动驾驶概念

本文经自动驾驶之心公众号授权转载，转载请联系出处。近期大模型各种应用依然火爆，10月初前后出现了一系列颇有噱头的文章，试图把大模型应用于自动驾驶。和很多朋友最近也聊了很多相关的话题，写这篇文章，一方面是发现其实包括我在内，在过去其实都混淆了一些很相关...

生成式AI 2023-11-09 人工智能

821阅读

语音识别开源框架 openAI-whisper

Whisper 是一种通用的语音识别模型。它是OpenAI于2022年9月份开源的在各种音频的大型数据集上训练的语音识别模型，也是一个可以执行多语言语音识别、语音翻译和语言识别的多任务模型。 GitHub - yeyupiaoling/Whispe...

大数据 2023-11-08 人工智能

1424阅读

什么是网络爬虫?为什么用Python写爬虫?

很多人应该都听说过网络爬虫，也知道Python是网络爬虫的首选编程语言，那么什么是网络爬虫?为什么写爬虫首选Python语言呢?我们一起来了解一下吧。什么是网络爬虫? 网络爬虫又称为网页蜘蛛、网络机器人，在FOAF社区中间，更经常被称为网...

人工智能 2023-11-08 大数据

828阅读

WebMagic之优秀爬虫框架

1. 一个框架，一个领域一个好的框架必然凝聚了领域知识。WebMagic的设计参考了业界最优秀的爬虫Scrapy，而实现则应用了HttpClient、Jsoup等Java世界最成熟的工具，目标就是做一个Java语言Web爬虫的教科书般的实现。如果你...

生成式AI 2023-11-08 大数据

1091阅读

火车头采集图文教程-火车头采集各种数据规则教程

火车头采集图文教程，火车头采集器抓取数据取是决于您的规则。要获取某个网页的所有内容，您需要先获取此网页的网址。程序按规则抓取列表页面，分析其中的URL，然后写规则获取网页内容（HTML基础知识），为了照顾更多不懂代码的小白同学，接下来我会先给大家分享一款免...

生成式AI 2023-11-08 大数据

867阅读

java爬虫与python爬虫的区别_java爬虫和python爬虫哪个好

python优点： 1.各种爬虫框架，方便高效的下载网页; 2.多线程、进程模型成熟稳定，爬虫是一个典型的多任务处理场景，请求页面时会有较长的延迟，总体来说更多的是等待。多线程或进程会更优化程序效率，提升整个系统下载和分析能力。 3.ga...

AIGC 2023-11-08 大数据

779阅读

1.认识网络爬虫

1.认识网络爬虫网络爬虫爬虫的合法性 HTTP协议请求与响应(重点网络爬虫爬虫的全名叫网络爬虫，简称爬虫。他还有其他的名字，比如网络机器人，网络蜘蛛等等。爬虫就好像一个探测机器，它的基本操作就是模拟人的行为去各个...

大数据 2023-11-08 大数据

861阅读