Llama 3.1中文微调数据集已上线，超大模型一键部署

7 月的 AI 圈真是卷完小模型卷大模型，精彩不停！大多数同学都能体验 GPT-4o、Mistral-Nemo 这样的小模型，但 Llama-3.1-405B 和 Mistral-Large-2 这样的超大模型让很多小伙伴犯了难。

别担心！hyper.ai 官网在教程板块为大家提供了使用「Open WebUI」和使用「OpenAI 兼容 API 服务」两种方式启动这两个超大模型的教程！此外，还上线了中文微调数据集 DPO-zh-en-emoji，下拉文章获取链接~

8 月 5 日-8 月 9 日，hyper.ai 官网更新速览：

优质教程精选：5 个

优质公共数据集：10 个

社区文章精选：3 篇

热门百科词条：5 条

8 月截稿顶会：2 个

访问官网：hyper.ai

公共教程精选

1. 使用 Open WebUI 一键部署 Mistral Large 2 / Llama 3.1 405B

该教程是使用 OpenWebUI 一键部署 Mistral Large 2 / Llama 3.1 405B，相关环境和配置已经搭建完成，只需克隆启动容器即可进行推理体验。

在线运行 Mistral Large 2 模型部署：

https://go.hyper.ai/Bwf6G

在线运行 Llama 3.1 405B 模型部署：

https://go.hyper.ai/iyL60

2. 一键部署 Mistral Large 2 / Llama 3.1 405B 模型 OpenAI 兼容 API 服务

该教程为使用 OpenAI 兼容 API 部署 Mistral-Large-Instruct-2407-AWQ。「OpenAI 兼容 API」意味着第三方开发者可以使用与 OpenAI 相同的请求和响应格式，将类似的功能集成到自己的应用程序中。启动该教程后可以在任何 OpenAI 兼容的 SDK 对该模型进行连接。和上个教程相比更为复杂一些，适合有编程基础的

在线运行 Mistral Large 2 模型部署：

https://go.hyper.ai/Smexo

在线运行 Llama 3.1 405B 模型部署：

https://go.hyper.ai/1AiDi

3. 使用吉布斯扩散 (Gibbs-Diffusion) 进行图像盲降噪

GDiff 全称 Gibbs-Diffusion，是一种贝叶斯盲去噪方法，解决了信号和噪声参数的后验采样问题。该教程是根据论文「Listening to the Noise: Blind Denoising with Gibbs Diffusion」搭建的测试方法，按照教程步骤操作即可体验研究成果。

在线运行：https://go.hyper.ai/y2wIU

公共数据集精选

1. DPO-zh-en-emoji 表情符号问答数据集

该数据集是一个专为微调大语言模型而设计的数据集，包含了大量的问答对数据，每个问题都有中文和英文两个版本的答案，并且答案中融入了趣味幽默的元素，包括表情符号 (emoji) 的使用。shareAI 团队已将其用于微调 Llama 3.1 8B 模型。

直接使用：https://go.hyper.ai/Y90pZ

2. UrbanSARFloods v1 洪水制图基准数据集

UrbanSARFloods 是专门用于城市和开放区域洪水制图的数据集，包含 8,879 个 512×512 的图像块，覆盖 807,500 平方公里，涵盖了 18 次洪水事件。解决了现有的大规模 SAR 衍生洪水制图研究中对城市洪水关注不足的问题。

直接使用：https://go.hyper.ai/yOXx7

3. VRSBench 大规模高质量遥感视觉语言基准数据集

该数据集是一个为遥感图像理解设计的多用途视觉-语言基准数据集，包含 29,614 张经过人工验证的详细字幕图像、52,472 个对象引用和 123,221 个问答对，旨在推进通用的、大规模的遥感图像视觉-语言模型的发展。

直接使用：https://go.hyper.ai/O7DtC

4. ATLAS 高分辨率 3D 人物纹理数据集

该数据集全称 ArTicuLated humAn textureS（简称 ATLAS）是一个最大的高分辨率 (1,024 × 1,024) 3D 人物纹理数据集，包含了 5 万个具有文本描述的高保真纹理。相关论文成果已入选 ECCV 2024。

直接使用：https://go.hyper.ai/Zx1nj

5. MIND 微软新闻数据集

MIND 包含约 16 万篇英文新闻文章和 100 万用户生成的超过 1500 万条印象日志，收集自 Microsoft News 网站的匿名行为日志。旨在作为新闻推荐的基准数据集，并促进新闻推荐和推荐系统领域的研究。

直接使用：https://go.hyper.ai/lVOyX

6. BoWFire 火灾检测分割数据集

BoWFire 数据集是一个专门用于火焰检测的图像数据集，旨在提高火灾检测的准确性并减少误报。该数据集包括了多种紧急情况下的火灾图像，例如建筑物着火、工业火灾、车祸和骚乱等情况。

直接使用：https://go.hyper.ai/73AYY

7. CNN/DailyMail 新闻文章数据集

该数据集包含 CNN 和 Daily Mail 记者撰写的 30 多万篇新闻文章，旨在帮助开发能够用一两句话概括长段落文本的模型。

直接使用：https://go.hyper.ai/AbidL

8. Doodle Dataset 涂鸦图像数据集

该数据集包含 100 多万张图像，涵盖 340 个涂鸦类别，经过处理后可用于机器学习任务。

直接使用：https://go.hyper.ai/Ns4M4

9. Yoga-16 人体瑜伽动作图像数据集

Yoga-16 数据集旨在提高瑜伽姿势识别模型的分类准确率。它分为三个主要目录：训练、测试和验证，每个目录包含 16 个子目录，对应 16 种不同的瑜伽姿势。

直接使用：https://go.hyper.ai/iMe0Z

10. Human Images Dataset 男性和女性人体图像数据集

该数据集包含男性和女性两个人物类别图像文件夹。图像包括面部、上半身和全身。可用于性别识别、人类身份识别和图像分类等各种项目。

直接使用：https://go.hyper.ai/6UJb7

更多公共数据集，请访问：
https://hyper.ai/datasets

社区文章精选

1. 学术分享丨清华大学博士后李雨哲详解 Cell/Nature 子刊论文，探索基因组学的 AI 应用

「Meet AI4S」系列直播第二期，邀请到了清华大学张强锋实验室博士后李雨哲。8 月 21 日，李雨哲博士将以线上直播的形式进一步为大家分享空间转录组学和单细胞组学研究中的 AI 方法。

查看活动详情：https://go.hyper.ai/GIzpo

2. 全球首个！清华/上海交大等联合构建面向糖尿病诊疗的视觉-大语言模型，登 Nature 子刊

Google Research 联手麻省理工获得 IJCAI 2024 最佳论文奖！公众号后台回复 IJCAI 2024，获取 IJCAI 2024 最佳论文奖、杰出论文奖、AIJ 经典论文奖与杰出论文奖合集。

查看完整报道：https://go.hyper.ai/ZGzI2

3. 首次！GPT-2赋能无线通信物理层，北大团队提出基于预训练LLM的信道预测方案

清华大学副教务长、医学院主任黄天荫教授团队，上海交通大学电院计算机系/教育部人工智能重点实验室盛斌教授团队，上海交通大学医学院附属第六人民医院贾伟平教授及李华婷教授团队，新加坡国立大学及新加坡国家眼科中心覃宇宗教授团队通力合作，成功构建全球首个面向糖尿病诊疗的视觉-大语言模型集成系统 DeepDR-LLM 。本文是该研究的详细解读和分享。

查看完整报道：https://go.hyper.ai/qnzSp

热门百科词条精选

1. 交并比 IoU

2. 倒数排序融合 RRF

3. 对比学习 Contrastive Learning

4. 大规模多任务语言理解 MMLU

5. 长短期记忆 Long Short-Term Memory

这里汇编了数百条 AI 相关词条，让你在这里读懂「人工智能」：

https://go.hyper.ai/wiki

一站式追踪人工智能学术顶会：https://go.hyper.ai/event

以上就是本周编辑精选的全部内容，如果你有想要收录 hyper.ai 官方网站的资源，也欢迎留言或投稿告诉我们哦！

下周再见！

关于 HyperAI超神经 (hyper.ai)

HyperAI超神经 (hyper.ai) 是国内领先的人工智能及高性能计算社区，致力于成为国内数据科学领域的基础设施，为国内开发者提供丰富、优质的公共资源，截至目前已经：

为 1300+ 公开数据集提供国内加速下载节点

收录 400+ 经典及流行在线教程

解读 100+ AI4Science 论文案例

支持 500+ 相关词条查询

托管国内首个完整的 Apache TVM 中文文档

访问官网开启学习之旅：

https://hyper.ai/

总结

### 文章总结
**主题概述**
本文介绍了HyperAI超神经（hyper.ai）在AI领域的最新更新与资源，特别聚焦于超大模型的便捷使用方法及多项优质资源与社区精品内容。同时，文章还展示了HyperAI作为国内领先AI及高性能计算社区的广泛影响力与资源贡献。
**主要内容**
1. **超大模型启动教程**
- **Open WebUI与OpenAI兼容API**：HyperAI官网提供了使用Open WebUI和OpenAI兼容API服务两种方式，分别适用于不同基础的开发者，让大家能够轻松部署Llama-3.1-405B及Mistral-Large-2等超大AI模型。
- **教程链接**：在线运行Mistral Large 2 / Llama 3.1 405B的详细教程链接已给出，方便用户一键尝试。
2. **新增中文微调数据集**
- **DPO-zh-en-emoji**：专为大语言模型微调而设计的问答数据集，包含中英文带emoji的答案，增加趣味性。
3. **8月更新速览**
- **资源汇总**：优质教程5个、优质公共数据集10个、社区文章精选3篇、热门百科词条5条、8月截稿顶会2个。
4. **精选资源**
- **公共教程**：包括使用Open WebUI部署模型、通过OpenAI兼容API连接模型、以及图像盲降噪的Gibbs-Diffusion方法等详细教程。
- **数据集**：提供包括洪水制图、遥感视觉-语言基准、3D人物纹理等多种类型的精选数据集及其链接，助力研究者与开发者便捷获取。
- **社区文章**：分享清华、北大等知名高校在基因组学AI应用、糖尿病诊疗视觉-大语言模型等方面的最新研究成果。
- **百科词条**：梳理了AI领域的重要词条，帮助用户深入理解相关知识。
5. **HyperAI简介**
- **平台影响力**：HyperAI作为国内领先的人工智能及高性能计算社区，已为国内开发者提供了丰富的公共资源，包括公开数据集加速下载、在线教程收录、论文案例解读及词条查询等。
- **未来展望**：继续致力于成为国内数据科学领域的基础设施，推动AI技术的普及与发展。
**访问方式**
- 访问HyperAI官网（https://hyper.ai/）进一步获取更多资源及学习机会。
**总结**
本文全面展示了HyperAI在促进AI技术发展及资源普及方面的最新成果，从超大模型便捷启动方法到各类精选资源与社区互动内容，为广大AI爱好者及研究者提供了强有力的支持。无论你是初学者还是资深开发者，都能在HyperAI找到所需的资源与灵感。