coding 第3页 - AIGC资讯

【Python】科研代码学习：十五 configuration，tokenization 的代码细节：Llama 为例

【Python】科研代码学习：十五 tokenizer的代码细节：Llama_Tokenization 为例前言 `LlamaConfig`：网络参数配置 `LlamaTokenizer`：分词工具前言对于 HF 的 Tr...

生成式AI 2024-04-04 人工智能

1159阅读

AI行业买英伟达GPU，花的钱比赚的多17倍

有人却表示「很合理」。搞 AI 大模型，实在太烧钱了。我们知道，如今的生成式 AI 有很大一部分是资本游戏，科技巨头利用自身强大的算力和数据占据领先位置，并正在使用先进 GPU 的并行算力将其推广落地。这么做的代价是什么? 最近《华尔街日报》一篇有关明...

AIGC 2024-04-01 人工智能

816阅读

探索LLaMA模型：架构创新与Transformer模型的进化之路

引言在人工智能和自然语言处理领域，预训练语言模型的发展一直在引领着前沿科技的进步。Meta AI（前身为Facebook）在2023年2月推出的LLaMA（Large Language Model Meta AI）模型引起了广泛关注。LLaMA模型以...

AIGC 2024-04-01 人工智能

1366阅读

python与机器学习日记——文心一言对话记录节选保存

——个人学习用，不适用于大佬——— 虽然以前学过一点python，在Jupiter里练过几行，但都忘记了。今年在朋友的帮助下，下载了pycharm打算好好学习一番，医学小白大战python机器学习。看了两章西瓜书，先都别管，读取文件试试：一言哥说得先...

大数据 2024-03-31 人工智能

894阅读

如何开始定制你自己的大型语言模型

2023年的大型语言模型领域经历了许多快速的发展和创新，发展出了更大的模型规模并且获得了更好的性能，那么我们普通用户是否可以定制我们需要的大型语言模型呢？首先你需要有硬件的资源，对于硬件来说有2个路径可以选。高性能和低性能，这里的区别就是是功率，因为精...

AIGC 2024-03-29 人工智能

936阅读

Python爬虫实战—探索某网站电影排名

文章目录 Python爬虫实战—探索某网站电影排名准备工作编写爬虫代码代码解析运行情况截图进一步优化和说明完整代码总结说明：本案例以XXX网站为例，已隐去具体网站名称与地址。 Python爬虫实战—探索某网站电...

生成式AI 2024-03-28 大数据

974阅读

AI在用 | 数学更生动，Claude-3直接生成勾股定理动画

以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。今天，我们分享 X 平台用户 @dr_cintas 使用 Claude3（具体版本不详）生成勾股定理动画的用例。案例地址:https:/...

生成式AI 2024-03-19 人工智能

1065阅读

基于Python的图片采集与下载技术研究

随着互联网的迅猛发展，网络上的图片资源日益丰富，如何高效地从海量信息中采集并下载所需图片成为了许多开发者与研究者的关注焦点。Python，作为一种简洁、易读且功能强大的编程语言，为图片采集与下载提供了有力的工具。本文将围绕Python在图片采集下载方面的应...

人工智能 2024-03-15 大数据

1009阅读

怀疑Demo只是演示？实测全球首款AI工程师Devin：缺点还不少，砸不了程序员饭碗！周鸿祎暂时胜利！

编译 | 言征出品 | 51CTO技术栈（微信号：blog51cto）就在李彦宏和周鸿祎就“AI是否会取代程序员”争吵的第二天晚上，一款号称“全球首款AI软件工程师”的Devin被社交媒体疯传了起来。 Devin（英文中寓意：神秘、完美，Godl...

大数据 2024-03-14 人工智能

952阅读

《深入探索Python爬虫源码：原理、实践与挑战》

在数字化时代，数据无疑成为了最宝贵的资源之一。为了从海量的网络数据中提取有价值的信息，爬虫技术应运而生。Python，作为一种简洁、易读且功能强大的编程语言，自然成为了实现爬虫的首选工具。本文将深入探索Python爬虫源码的原理、实践过程中可能遇到的挑战，...

大数据 2024-03-14 大数据

838阅读

采集接口 API 数据接口八爪鱼类数据采集（商品详情店铺）

快速采集商品详情接口注册免费测试：数据采集接口企业级数据请求示例 <?php // 请求示例 url 默认请求参数已经URL编码处理 // 本示例代码未加密secret参数明文传输，若要加密请参考：https:...

大数据 2024-03-12 大数据

720阅读

Python采集百度音乐教程详解

在数字时代，音乐已成为我们日常生活中不可或缺的一部分。对于音乐爱好者和开发者而言，如何从互联网上采集音乐数据是一个既有趣又实用的技能。本文将详细介绍如何使用Python编程语言采集百度音乐的数据，并提供相应的教程和代码示例。一、前言Python是一种强大且...

生成式AI 2024-03-10 大数据

908阅读

基于 LLaMA 和 LangChain 实践本地 AI 知识库

有时候，我难免不由地感慨，真实的人类世界，本就是一个巨大的娱乐圈，即使是在英雄辈出的 IT 行业。数日前，Google 正式对外发布了 Gemini 1.5 Pro，一个建立在 Transformer 和 MoE 架构上的多模态模型。可惜，这个被 Goog...

AIGC 2024-03-09 人工智能

826阅读

走进文章采集软件：其功能、价值与使用之探析

在这个大数据和信息化迅速发展的时代背景下，我们对于海量信息的处理和分析能力要求愈来愈高。为了能够从中抓取有效信息，“文章采集软件”这样一种应用程序就应运而生。这种能够协助我们在网络上自动识别并抓取出符合要求信息的工具已经慢慢深入人们的生活、学习乃至工作的点...

生成式AI 2024-03-08 大数据

826阅读

Python爬虫：网络数据的采集与解析

在数字化时代，数据已经成为了一种极其重要的资源。无论是商业分析、学术研究，还是个人兴趣，获取特定数据往往对项目的成功至关重要。网络爬虫，作为一种自动化获取网页数据的技术，近年来受到了广泛关注。Python，以其简洁的语法和丰富的库支持，成为了编写爬虫的首选...

人工智能 2024-03-08 大数据

866阅读

消费级显卡可用！李开复零一万物发布并开源90亿参数Yi模型，代码数学能力史上最强

李开复旗下AI公司零一万物，又一位大模型选手登场： 90亿参数Yi-9B。它号称Yi系列中的“理科状元”，“恶补”了代码数学，同时综合能力也没落下。在一系列类似规模的开源模型（包括Mistral-7B、SOLAR-10.7B、Gemma-7B、De...

生成式AI 2024-03-07 人工智能

825阅读

Python爬虫第一课：了解爬虫与浏览器原理

Python爬虫第一课：了解爬虫与浏览器原理 fightingoyo 于 2020-02-2...

大数据 2024-03-07 大数据

781阅读

论文精读--DALL·E 2

使用CLIP训练好的特征做层级式的依托于文本的图像生成，层级式是指生成小分辨率图片后不断用模型上采样得到高清大图 CLIP将输入的文本变成一个文本特征，然后DALLE2训练一个prior模型，输入是文本特征输出是图像特征，最后把图像特征喂给解码器得到图片...

生成式AI 2024-03-05 人工智能

1032阅读

采集接口 API 数据接口八爪鱼类数据采集

快速采集商品详情接口注册免费测试：数据采集接口企业级数据请求示例 <?php // 请求示例 url 默认请求参数已经URL编码处理 // 本示例代码未加密secret参数明文传输，若要加密请参考：https:...

大数据 2024-03-05 大数据

802阅读

使用科大讯飞api以及文心一言模型实现对话

因为比赛要用到人机进行对话所以写以下python代码。以下为3.8 代码中相关api以及密匙都更改过，请自己去获得密匙科大讯飞网址讯飞开放平台-以语音交互为核心的人工智能开放平台 (xfyun.cn 百度千帆文心一言百度智能云千帆大模型 (bai...

生成式AI 2024-03-01 人工智能

1107阅读

陈丹琦团队新作：Llama-2上下文扩展至128k，10倍吞吐量仅需1/6内存

陈丹琦团队刚刚发布了一种新的LLM上下文窗口扩展方法：它仅用8k大小的token文档进行训练，就能将Llama-2窗口扩展至128k。最重要的是，在这个过程中，只需要原来1/6的内存，模型就获得了10倍吞吐量。除此之外，它还能大大降低训练成本：...

人工智能 2024-02-29 人工智能

841阅读

LLaMA v1/2模型结构总览

LLaMA v1/2模型结构总览孟繁续目录收起结构 Group Query Attention(V2 only RMSNorm SwiGLU RoPE llama2 出来了，并且开源可商用，这下开源社区又要变天了。快速...

生成式AI 2024-02-28 人工智能

1328阅读

高性能 LLM 推理框架的设计与实现

一、大语言模型推理概要介绍与传统的 CNN 模型推理不同，大语言模型的推理通常会分成 prefill 和 decoding 两个阶段。每一个请求发起后产生的推理过程都会先经历一个 Prefill 过程，prefill 过程会计算用户所有的输入，并生...

AIGC 2024-02-26 人工智能

1151阅读

紧跟时事！一个支持Sora模型文本生成视频的Web客户端

大家好，我是 Java陈序员。最近 Open AI 又火了一把，其新推出的文本生成视频模型 —— Sora,引起了巨大的关注。 Sora 目前仅仅只是发布预告视频，还未开放出具体的 API. 今天，给大家推荐一个最近十分火热的开源项目，一个支持使用 S...

人工智能 2024-02-26 人工智能

831阅读

使用openai-whisper实现语音转文字

使用openai-whisper实现语音转文字 1 安装依赖 1.1 Windows下安装ffmpeg FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化...

人工智能 2024-02-26 人工智能

902阅读

图像生成发展起源：从VAE、扩散模型DDPM、DETR到ViT、Swin transformer

前言 2018年我写过一篇博客，叫：《一文读懂目标检测：R-CNN、Fast R-CNN、Faster R-CNN、YOLO、SSD》，该文相当于梳理了2019年之前CV领域的典型视觉模型，比如 2014 R-CNN 2015 Fast R-CNN、...

AIGC 2024-02-25 人工智能

2119阅读

AIGC报告：大模型改变开发及交互环境，处于高速迭代创新周期

今天分享的是AIGC系列深度研究报告：《AIGC报告：大模型改变开发及交互环境，处于高速迭代创新周期》。（报告出品方：华安证券）报告共计：64页 LLM大模型爆发的关键节点: 2017年“Transformer”模型的出现 • 在“Tran...

大数据 2024-02-24 人工智能

855阅读

Karpathy新视频又火了：从头构建GPT Tokenizer

技术大神卡帕西离职OpenAI以后，营业可谓相当积极啊。这不，前脚新项目刚上线，后脚全新的教学视频又给大伙整出来了：这次，是手把手教咱构建一个GPT Tokenizer（分词器），还是熟悉的时长（足足2小时13分钟）。 Ps. 上次讲课还是俩月前的...

AIGC 2024-02-21 人工智能

766阅读

爬虫“入侵”王者六周年，拿来吧你

?前言王者荣耀六周年来临，有很多“丰厚”的活动及奖励，但有一个非常小的活动可能大家没有注意到，全英雄的同人Q版头像，也发布在游戏中。对于这么可爱的头像，我自然不会放过啦，但在游戏中一点一点地保存，太吃力了。于是，就想到了爬虫? ?准备工作于是...

人工智能 2024-02-21 大数据

845阅读

中文语音识别转文字的王者,阿里达摩院FunAsr足可与Whisper相颉顽

君不言语音识别技术则已，言则必称Whisper，没错，OpenAi开源的Whisper确实是世界主流语音识别技术的魁首，但在中文领域，有一个足以和Whisper相颉顽的项目，那就是阿里达摩院自研的FunAsr。 FunAsr主要依托达摩院发布的Paraf...

AIGC 2024-02-21 人工智能

1152阅读

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

众所周知，大型语言模型（LLM）的推理通常需要使用自回归采样，这个推理过程相当缓慢。为了解决这个问题，推测解码（Speculative Decoding）已经成为 LLM 推理的一种新型采样方法。这种方法在每个采样步骤中，会先预测几个可能的 token，...

AIGC 2024-02-20 人工智能

852阅读

离开OpenAI的大神卡帕西「开课了」：新项目日增千星，还是熟悉的min代码风

大神Karpathy从OpenAI离职，原本扬言要大休一周。图片但转眼，新项目就已上线GitHub，日增上千星的那种。图片还是熟悉的卡式配方： 74行Python代码搞定大模型标记化（tokenization）中常用的BPE（Byte Pair...

AIGC 2024-02-20 人工智能

864阅读

自然语言生成任务中的五种采样方法介绍和Pytorch代码实现

在自然语言生成任务(NLG 中，采样方法是指从生成模型中获取文本输出的一种技术。本文将介绍常用的5中方法并用Pytorch进行实现。 1、Greedy Decoding Greedy Decoding在每个时间步选择当前条件概率最高的词语作为输出，直到...

大数据 2024-02-19 人工智能

914阅读

关于LLaMA Tokenizer的一些坑...

使用LLaMA Tokenizer对 jsonl 文件进行分词，并将分词结果保存到 txt 文件中，分词代码如下： import jsonlines import sentencepiece as spm from tqdm import tqdm j...

人工智能 2024-02-17 人工智能

1288阅读

AIGC：使用变分自编码器VAE实现MINIST手写数字生成

1 变分自编码器介绍变分自编码器（Variational Autoencoders，VAE）是一种生成模型，用于学习数据的分布并生成与输入数据相似的新样本。它是一种自编码器（Autoencoder）的扩展，自编码器是一种用于将输入数据压缩为低维表示并再...

AIGC 2024-02-16 人工智能

1042阅读

Stable Diffusion结构解析-以图像生成图像（图生图，img2img）

手把手教你入门绘图超强的AI绘画，用户只需要输入一段图片的文字描述，即可生成精美的绘画。给大家带来了全新保姆级教程资料包（文末可获取） AIGC专栏3——Stable Diffusion结构解析-以图像生成图像（图生图，img2img）为例学习...

人工智能 2024-02-16 人工智能

1491阅读

Whisper

文章目录使后感 Paper Review 个人觉得有趣的 Log Mel spectrogram & STFT Training cross-atte...

AIGC 2024-02-13 人工智能

929阅读

【whisper】在python中调用whisper提取字幕或翻译字幕到文本_python whisper

一、whisper简介 whisper 是一款用于语音识别的开源库，支持多种语言，其中包括中文。在本篇文章中，我们将介绍如何安装 whisper 以及如何使用它来识别中文字幕。二、安装 whisper 首先，我们需要安装 whisper。根据操...

AIGC 2024-02-13 人工智能

1634阅读

实时AI绘画模型SDXL Turbo核心基础知识详解 | 【算法兵器谱】

Rocky Ding 公众号：WeThinkIn 写在前面【算法兵器谱】栏目专注分享AI行业中的前沿/经典/必备的模型&论文，并对具备划时代意义的模型&论文进行全方位系统的解析...

生成式AI 2024-02-11 人工智能

1604阅读

文心一言插件开发（第三篇

目录 1. 从0到1开发自己的插件： 1.1 插件描述文件（ai-plugin.json） 1.2 服务描述文件（openapi.yaml） 1.2.1 数据类型： 1.2.1 OpenAPI 对象： 1.3 示例描述文件（example...

人工智能 2024-02-11 人工智能

1179阅读

【Unity】如何在Unity里使用文心一言AI

想要使用文心一言，首先要登录百度智能云千帆控制台 https://cloud.baidu.com/product/wenxinworkshop?track=developer_qianfan_tanchuang 1.在控制台找到应用接入 - 然后点...

生成式AI 2024-02-11 人工智能

1070阅读

Stable Diffusion结构解析-以图像生成图像！

手把手教你入门绘图超强的AI绘画，用户只需要输入一段图片的文字描述，即可生成精美的绘画。给大家带来了全新保姆级教程资料包（文末可获取） AIGC专栏3——Stable Diffusion结构解析-以图像生成图像（图生图，img2img）为例学习...

生成式AI 2024-02-11 人工智能

897阅读

利用python+whisper生成视频字幕文件

文章目录前言 1.本地环境 2.安装所需要的库 3.导入相关库 4.获取指定路径下的所有视频文件 5.导入模型进行音频识别 6.将识别结果转换为srt字幕文件 7.完成代码前言最近在看一些网课，由于没有字幕看着非常费劲，需要...

大数据 2024-02-10 人工智能

1121阅读

20240131在WIN10下配置whisper

20240131在WIN10下配置whisper 2024/1/31 18:25 首先你要有一张NVIDIA的显卡，比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡！】800￥ 2、请正确安装好NVIDIA最新的545版本的驱动程序...

大数据 2024-02-10 人工智能

918阅读

Whisper对于中文语音识别与转写中文文本优化的实践(Python3.10)

阿里的FunAsr对Whisper中文领域的转写能力造成了一定的挑战，但实际上，Whisper的使用者完全可以针对中文的语音做一些优化的措施，换句话说，Whisper的“默认”形态可能在中文领域斗不过FunAsr，但是经过中文特殊优化的Whisper就未必...

AIGC 2024-02-09 人工智能

917阅读

20240127在ubuntu20.04.6下配置whisper

20240131在ubuntu20.04.6下配置whisper 2024/1/31 15:48 首先你要有一张NVIDIA的显卡，比如我用的PDD拼多多的二手GTX1080显卡。【并且极其可能是矿卡！】800￥ 2、请正确安装好NVIDIA最新的驱动...

人工智能 2024-02-08 人工智能

4868阅读

通过百度文心一言大模型作画尝鲜，感受国产ChatGPT的“狂飙”

3月16日下午，百度于北京总部召开新闻发布会，主题围绕新一代大语言模型、生成式AI产品文心一言。百度创始人、董事长兼首席执行官李彦宏，百度首席技术官王海峰出席，并展示了文心一言在文学创作、商业文案创作、数理推算、中文理解、多模态生成五个使用场景中的综...

大数据 2024-02-07 人工智能

1007阅读

从0开始用 PyTorch 构建完整的 NeRF

本文经自动驾驶之心公众号授权转载，转载请联系出处。在解释代码之前，首先对NeRF（神经辐射场）的原理与含义进行简单回顾。而NeRF论文中是这样解释NeRF算法流程的： “我们提出了一个当前最优的方法，应用于复杂场景下合成新视图的任务，具体的实现原理是...

生成式AI 2024-02-06 人工智能

1059阅读

【Python爬虫学习】总结了八种学习爬虫的常用技巧

此篇内容小结： 1）基本网页获取 2）爬虫ip被封的6个解决方法 3）爬虫绕过登录 4）Cookies处理 5）应对反爬的小招 6）验证码处理 7）gzip 压缩 8）爬虫中文乱码问题基本网页获取首先向一个 Url 地址发送请求，随后远端...

大数据 2024-02-05 大数据

1030阅读

NLP国内外大模型汇总列表[文心一言、智谱、百川、星火、通义千问、盘古等等]

国内外大模型汇总列表中国大模型列表大全，全面收集有明确来源的大模型情况，包括机构、来源信息和分类等，随时更新。 Awesome family related to LLMS includes: https://github.com/wgwang...

大数据 2024-02-04 人工智能

1492阅读