?日报&周刊合集 | ?生产力工具与行业应用大全 | ? 点赞关注评论拜托啦!
? Midjourney V6 文生图细节爆炸,但是被扒叠图电影画面?
左图提示词:a full body editorial santa holding a sign “Merry Christmas!” --style raw --v 6.0
11月22日,Midjoury 官方推特发帖正式发布 V6 版本。经过了9个月训练的新模型,果然不同凡响,一出手就引爆了各个社交平台和社交。相信你最近两天也被那些高清的生成图片惊艳到了~
Midjoury V6 一出,风头立马盖过 Adobe Firefly、 DALL-E 3、Google Imagen 2,成为当下最先进的文生图模型,并让设计师和摄影师们纷纷表示「真的被卷到了」?
从官方 Discord 介绍来看,这次 Midjourney 模型升级主要体现在以下几个方面,并且未来几周还将继续升级:
更准确的提示跟随以及更长的提示词上下文:在图像中绘制提示词引用的文本 (需要用引号标出,目前仅限于英文,如上图 “Merry Christmas!”);经测试V6支持超过350个字符的提示词长度
提高的连贯性和模型知识:对提示词更加敏感,甚至能够理解标点和语法的细微差别,因此对明确且细致的提示词有着更好的生成效果
改进的图像提示和重新混合:根据文本提示创建更逼真细致的图像,并使不同元素&风格的结合更加和谐自然 (甚至有相机直出的真实质感)
https://twitter.com/ciguleva/status/1737206895738585483
官方 Discord 通告里也指出,V6 与 V5 在提示词结构上有着巨大差异,因此用户需要学习新的提示词编写方式。项目创始人和负责人 X@Holz 公布了一种全新的 Midjourney 提示词结构 (如上图所示)。
V6 对于提示词的内容更加敏感。请勿使用诸如「广受好评、逼真、4k、8k」之类的「垃圾描述」
明确表达需求。V6 表现得可能不那么机灵,但只要提供明确的提示,它现在可以更好地理解意图
如果希望生成摄影风格 / 少点自由发挥 / 多点忠于提示词的内容,则应默认使用 —style raw
将 —stylize 的值设置得更低 (默认为 100) 往往有助于改善提示词理解效果,而较高的值 (最高 1000) 则倾向于牺牲还原度来换取美学效果
可以在 prompt-chat 中通过聊天来了解如何使用 V6 新模型
但是,随着更多测试者加入进来,越来越多的生成结果表明:Midjourney V6之所以能够生成极其逼真的图画,可能是因为它的训练来源已经深入到了影视作品的每一帧上,而且没有掩饰生图时的一致性。
有很多用户已经发现了拟合度非常高的案例,比如上图的「小丑」电影剧照与Midjourney V6生成图对比。
重绘是一码事,叠图又是另一码事了。这再次触及了AI绘画领域备受关注的「版权争议」,并且可以想见未来一段时间的相关法律诉讼将会爆炸式增长 ⋙ 关于这一话题了解更多
? 智谱AI 2024全球校招,「智谱星」计划招募全球大模型天才少年
https://www.zhipuai.cn/joinus/more
补充一份背景:智谱AI是国内大模型初创公司,研发了中英双语千亿级超大规模预训练模型 GLM-130B,并基于此推出对话模型ChatGLM,开源单卡版模型 ChatGLM-6B,并打造了AIGC模型及产品矩阵,包括AI提效助手智谱清言、高效率代码模型CodeGeeX、多模态理解模型CogVLM和文生图模型CogView等
智谱AI 最近在官方公众号发布「智谱星」计划,宣布启动2024全球校招,旨在选拔和招募全球顶尖技术人才。招聘对象的毕业时间:
博士:2021年9月-2024年8月 本硕:2023年9月一2024年8月在官网招聘页面看了一下 (?上方链接和截图),目前开放的岗位有两个,感兴趣可以开始投递简历啦~
大模型机器学习平台研究员/工程师 | 研究方向:分布式训练、深度学习框架、推理加速
大模型算法研究员/工程师 | 研究方向:大语言模型、多模态、语音图像、视频 ⋙ 简历投递
? 文心 X 飞桨 X Founder Park | AGI Hackathon 获奖项目介绍
由 Founder Park、飞桨、文心大模型联合主办的 AGI Hackathon,吸引了 250+ 团队报名参赛。经过两天的创新开发和第三日的路演,共有27支团队登上路演舞台,最终6支队伍获奖。
Founder Park 在这篇推文中详细介绍了6支获奖团队的项目详情,以及技术专家、创业者、投资人对项目的点评 (非常值得阅读!看看大佬们都关注什么~)
比赛分为「创新应用赛道」和「盲盒赛道」,推荐阅读原文,看看当下最活跃的开发者和创业者们给出的「AGI如何落地」的回答。
? 创新应用赛道
聚焦大模型前沿应用落地,需结合文心大模型能力,进行 GenerativeAI 应用的构思
【第一名】LegalTech Innovators:律师数字分身。
【第二名】AI 惠生活:高性价比吃喝玩乐 AI 助手
【第三名】喵喵汪汪:AI 数学助教
【第三名】智链商圈:「小作文」沙盒
? 盲盒赛道
现场命题,打造AI 原生应用,面向用户的创新交互或者面向开发者的实用工具
【第一名】即应&一根腿毛:Modully Tools
【第二名】SuperCopyMan:Prompt Navigator ⋙ 查看所有获奖项目详细介绍
? 金山办公 CEO 章庆元 | WPS AI 掌舵人回应隐私风波&广告吐槽,并公开谈未来AI发展规划
补充一份背景:金山办公软件 (通常被称为 WPS Office),与微软 Office 套件功能相似;今年5月抢先推出了 WPS AI,通过智能辅助工具来提高用户的工作效率
在这次「晚点LatePost」访谈里,主持人很敢问,金山办公 CEO 章庆元同样非常敢说,直接果断地回应了众多话题:隐私风波、广告太多、收费标准、大模型选型、未来一年AI产品节奏、直接竞争对手微软的入场挑战、公司生死存亡的思考等。
这篇访谈超有意思!章庆元又直接又有梗,还有很多大实话 ? 把文章转发到社群后引来一片「hhh」
上一次看到这么利索的访谈,还是拼多多创始人 黄峥
日报选取四个有趣且有料的问答,更多内容建议去看原文哦,尤其AI创业者可以 Follow 一下章庆元的节奏和思考模式~
? WPS 在 2023 年底关停广告
章庆元:我们在11月30号就已经开始关广告了。我会感谢用户,感谢用户这么多年的包容。没有用户看广告,WPS 也活不到今天。但我一定要告诉用户,以后我们没有第三方商业广告了。
? 微软有的功能,WPS都不收钱
章庆元:我们有一个原则,微软有的功能,我们都不收钱。怎么收费主要看成本。
现在用户愿意花钱买会员的大头是 PDF、云文档、模板,AI 未来肯定也是。明年我们会重点投入协作和 AI,特别是 AI。
? 金山办公不自研大模型
章庆元:大模型的泛化能力和可控性,这两个参数很难做好。训练模型就像养个孩子一样,不同家庭、不同家长教育出来的孩子差别太大了。对于大模型来说,我认为我们不是一个这样的好家庭,我觉得教不出太好的孩子。
我做一个甲方挺好的,挺舒服的。连谷歌都干不好这个事情,微软也干不好,我凭什么相信我们团队能干好这个事情?只有一堆技术天才,对这个东西有信仰的人,有追求的人才能干好。
? 微软宣布 Copilot 在 12 月 1 日进入中国市场
章庆元:它先过了审批再说。而且微软做得也不怎么样,它在 Word 里也有生成的那个东西,做得很简单很糙,生成的 PPT 也很糙,太简陋了。效果最好的是在 Teams (协同办公产品) 里面。我们内测的功能比他们好很多,我都不好意思发布。
微软 CEO 相信 AI,下面的团队不一定相信。从他们的产品就能看得出来,如果有投入不应该这样子,感觉就是找外包团队做了一个插件。功能做得比我们还浅 ⋙ 强烈推荐阅读专访原文
? 智能体创业必读:详解AI Agent市场格局、技术路径与未来市场
GPTs 是AI智能体时代的前夜,它的大量应用意味着自主智能体时代即将到来。未来AI智能体的普及应用,将会造就一个极其庞大的市场。大模型厂商、技术供应商、企业服务软件厂商、初创企业以及各领域的大型企业,都将参与到这场AI智能体的饕餮盛宴。
开源厂商 LangChain 推出了开源项目OpenGPTs,国内大语言模型厂商昆仑万维发布天工SkyAgents平台,字节跳动的豆包也悄悄上线了创建AI智能体功能……
所以非常推荐关注 Agent 这个方向!日选今天选择的这篇文章围绕几张知名图谱,介绍了 AI Agent 的市场前景、市场格局、框架、开源/闭源最新进展,并且给出了非常详细的解释。日报对这几张图片进行简单介绍,了解详细信息可以阅读原文。访问星球可以下载配图的高清版本。
Autonomous AI Agents Emerging Market Landscape (自主AI智能体新兴市场格局),来自风险投资公司Aura Ventures
服务层 Services
用户构建自己的智能体 (Build your own-deployment)
智能体市场 (Agent marketplace)
多智能体监控 (Multi-Agent monitoring)
程序应用层 Applications
通用应用 (General purpose)
行业应用 (Business industry)
智能体运营层 AgentOps
智能 (Intelligence)
记忆内存 (Memory)
工具和插件 (Tools and plugins)
多智能体游乐场和协议 (Multi-agent playgrounds and protocols)
多智能体通信模式 (Multi-agent communication schemas)
多智能体通信模式、监控、安全和预算 (Monitoring,security and budgetary)
智能体运营市场 (AgentOps marketplace)
Frameworks and tools for Al products,E2B出品
目前已有的用于创建、监控、调试和部署AI Agent产品的SDK、框架、库和工具的数据库,共九个部分:
监控、可观察性及分析 (Monitoring、Observability、Analytics)
前端 (Frontend)
大语言模型运行时 (Runtime for LLMs)
构建框架和平台 (Building Frameworks platforms)
数据集成与内存管理 (Data integration,Memory management)
大语言模型API和路由器 (API and routers for LLMs)
人工智能产品构建库 (Libraries for building Al products)
编排 (Orchestration)
构建和部署LLM (Building&deploying LLMs)
AI Agents Landscape (AI Agent行业全景图),E2B出品
该图把目前的Agent产品分为开源和闭源两个部分,并将按照项目属性及面向用户群体将这些产品放到了不同领域及行业。图片更新截至2023年11月,随着更多企业发力Agent,这个列表必然会越来越长 ⋙ 阅读全文
? LLaMA 模型结构速写:对照源码画结构,清晰明了
https://flowus.cn/kmno4/share/527055be-464f-4f0f-98c5-8b8f72a1fc2e
补充一份背景:LLaMA 是 Meta 开源的一系列大型语言模型,基于Transformer架构,旨在处理自然语言处理任务,比如文本生成、问答、翻译等。LLaMA 是当前开源模型的基础框架,因此非常重要。
作者花了一晚上时间,对照着 transformers 仓库的 LLaMA 源码,删掉张量并行和梯度保存的代码,只留下模型基础结构,梳理了一遍 LLaMA 的模型结构 (如上)。
作者在文中,结合源码非常清楚地解释了模型结构的细节,而且文笔非常幽默。如上图所示。如果你想快速搞懂 LLaMA 模型到底是怎么回事,可以花10分钟读一读作者这篇文章。
? Transformers 源码阅读:图解 Mixtral 模型 & MoE 细节
ShowMeAI知识星球资源编码:R212
这是B站@良睦路程序员 整理的 Mixtral 模型框架图,可以非常清晰地看到 MoE 到底是什么架构,以及内部的细节原理。
发文会压缩图片,影响清晰度。可以前往星球下载高清图片~
https://www.bilibili.com/video/BV1Xu4y1K7zn
搭配作者这个讲解视频,基本就可以彻底搞清楚 Mixtral 和 MoE 啦!!(作者简直是 Transformers 赛博菩萨,受我一拜~
? 美图 X 站酷 | 2023年度AI设计实践报告 (2023.12)
ShowMeAI知识星球资源编码:R204
这是美图与站酷团队联合发布的一份「AI设计」主题报告,共46页,整理了2023年AI对设计行业带来的巨大影响。
通过 5034 份调研报告,我们可以看到AI在设计领域最真实的应用场景、最专业的工作流,感受到从业者的效率提升,以及那些还没有被满足的需求、那些还等待占领的市场。
整份报告非!常!好! 从业者可以看到细节里的专业度,学习者可以快速了解行业概况。报告包含以下5个部分,截图展示部分高能页面。非常推荐下载来看一看~
AI设计在中国的普及程度如何?
大家都用AI来设计什么?
AI设计工具的三大痛点
AI设计商业落地案例
未来趋势与建议
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!
◉ 点击 ?日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ 点击 ?生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!