当前位置:AIGC资讯 > AIGC > 正文

AI日报:Claude 3 Haiku支持微调;Heygen推对口型工具;百度称萝卜快跑安全水平接近C919飞机

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。

新鲜AI产品点击了解:https://top.aibase.com/

1、Anthropic宣布Claude 3 Haiku支持微调

Anthropic宣布用户现在可以在Amazon Bedrock中微调最新模型Claude 3 Haiku,提高模型在特定任务上的效果。微调功能使用户能根据业务需求定制模型知识和能力,带来诸多好处。

2、Heygen推对口型工具 上传照片+音频即可说话、唱歌

最近,AI照片“复活术”在网络上掀起波澜,Heygen推出对口型工具,让照片中人物根据音频内容说话、唱歌,支持长达20秒音频,唇形与表情同步。Heygen融资5亿美元,由Benchmark领投,发展势头强劲。中国区用户受限制,令部分用户失望。Heygen利用生成式AI技术制作影片,已筹集7400万美元。

3、百度飞桨PaddleOCR发布v2.8.0新版本

PaddleOCR v2.8.0作为飞桨深度学习开源框架下的文字识别开发套件,发布了里程碑式的更新。这个版本引入了前沿的OCR技术,包括PaddleOCR算法模型挑战赛的冠军方案,如场景文本识别算法SVTRv2和表格识别算法SLANet-LCNetV2,为OCR领域树立了新的标准。项目结构经过深度优化,非核心模块被迁移至新仓库,使项目更专注于OCR核心技术。新版本解决了历史疑难问题,提升了用户体验,增强了稳定性、兼容性和性能。

4、百度称萝卜快跑安全水平接近C919飞机

萝卜快跑公司推出第六代无人车,成功接入百度ApolloADFM大模型,安全性超过人类驾驶员10倍以上。百度对无人车安全性充满信心,每辆车及乘客投保500万元保险。运行数据显示出险率仅为人类司机的1/14,安全性表现卓越。百度Apollo自动驾驶技术已行驶超过1亿公里,无重大伤亡事故,成功实现武汉全域、全时空自动驾驶服务覆盖。

5、智谱AI宣布开源视频理解模型CogVLM2-Video

智谱AI最新开源的CogVLM2-Video模型在视频理解领域取得显著进展,通过解决时间信息丢失问题,实现了优异的性能表现。该模型不仅在视频字幕生成和时间定位方面表现出色,还为视频生成和摘要等任务提供了强大工具。通过自动生成丰富的时间定位数据集,模型在公共视频理解基准上达到最新性能,展现出卓越的性能。

6、腾讯AI实验室的项目vta-ldm:输入视频生成对齐音频

随着文本到视频生成技术的进步,研究者们关注如何生成与视频输入在语义和时间上对齐的音频内容。腾讯AI实验室推出VTA-LDM模型,通过隐含对齐技术提供高效音频生成解决方案,拓展视频生成应用场景。

7、GPT-4o和Sonnet-3.5在视力测试中败北,VLM们竟是“盲人”?

这篇文章揭示了视觉语言模型(VLMs)在图像处理能力上的局限性,通过BlindTest测试发现它们并非像人类一样能准确理解图像细节。文章呼吁对VLMs的视觉理解能力持谨慎态度,警示AI并未达到完全替代人类的水平。

8、商汤科技发布「东风」泰语大模型

商汤科技与泰国DTGO集团及Quinnnova联合发布了名为「东风」的泰语大模型(DTLM),这是全球首个能够在泰文、中文、英文三种语言环境下高效工作的AI大语言模型。该模型结合了商汤的基模型和算力优势以及DTGO对泰国语言文化的深入了解,旨在提供本地化的生成式AI体验。

9、三星 Galaxy AI 推出“数学辅导”新模式 告诉孩子解题技巧

三星在昨日的Unpacked活动上宣布了Galaxy AI的重大进展,推出了专为帮助儿童完成家庭作业而设计的AI助手。这一举措展现了三星在人工智能领域的雄心壮志,为智能手机市场带来新的竞争维度,推动整个行业向更智能、更有教育价值的方向发展。

10、三家欧洲汽车制造商将集成ChatGPT功能 提升驾驶体验

Stellantis旗下的法国标致、德国欧宝和英国沃克斯豪尔将整合ChatGPT人工智能技术,通过SoundHound的ChatAI系统提供语音助手功能,改善驾驶体验。这一合作标志着汽车科技的发展,将带来更自然、流畅的驾驶交互体验。

11、谷歌正通过Gemini AI训练机器人,提高导航和任务完成能力

谷歌正在利用Gemini AI训练机器人,提高其导航和任务完成能力。通过Gemini1.5Pro,机器人可以执行自然语言指令,计划执行超出导航范围的任务。研究表明,Gemini让机器人成功执行用户指令的成功率高达90%。尽管处理指令需要一定时间,但这些机器人有望帮助人们完成各种任务,如找到遗失物品。

12、OpenAI首次披露AGI评估标准:ChatGPT仅为第一级

OpenAI公司公布了内部量表,用于追踪其大型语言模型在通用人工智能(AGI)方面的进展,展示了其在AGI领域的雄心。该举措为业界提供了衡量AI发展的新标准,引发了对AI安全和伦理的担忧。

总结

【AI日报】总结:
本期AI日报带来了人工智能领域的多项重要进展。首先,Anthropic宣布其最新模型Claude 3 Haiku现已支持在Amazon Bedrock中进行微调,这将提高模型在特定任务上的效果,并允许用户根据业务需求定制模型知识和能力。
其次,Heygen推出的对口型工具引起了广泛关注,该工具可以让照片中的人物根据音频内容说话和唱歌,这一创新功能展示了AI技术在媒体处理方面的强大潜力。
在OCR技术方面,百度飞桨PaddleOCR发布了v2.8.0版本,引入了前沿的OCR技术,并对项目结构进行了深度优化,这将进一步推动OCR领域的发展。
自动驾驶技术也取得了显著进展,百度推出的萝卜快跑无人车成功接入了百度ApolloADFM大模型,其安全性表现卓越,超过了人类驾驶员的安全水平。
此外,智谱AI宣布开源了视频理解模型CogVLM2-Video,该模型在视频理解领域取得了显著成果。腾讯AI实验室也推出了一项创新技术,即输入视频生成对齐音频的VTA-LDM模型,这将拓展视频生成应用场景。
然而,本期日报也揭示了AI技术的某些局限性,如视觉语言模型(VLMs)在图像处理上的不足,这提醒我们对AI技术的能力持谨慎态度。
最后,AI技术在不同行业和领域的应用也取得了新进展。商汤科技发布了「东风」泰语大模型,标志着AI技术在语言和文化领域的进一步普及;三星Galaxy AI推出了“数学辅导”新模式,帮助孩子解决数学问题,展现了AI在教育领域的应用潜力;三家欧洲汽车制造商将集成ChatGPT功能,以提升驾驶体验,这表明AI正在改变汽车行业;谷歌正在使用Gemini AI训练机器人,提高其导航和任务完成能力;OpenAI公布了评估通用人工智能(AGI)的新标准,标志着AI技术发展的又一里程碑。总的来说,本期AI日报展示了人工智能技术的快速发展和广泛应用前景。

更新时间 2024-07-12