
每周AI汇总:大模型更新、多模态应用、AI编程工具、本地AI解决方案以及AI在生物保护方面的应用
大模型与基础AI技术
- DeepSeek V3.1上线:DeepSeek发布了V3.1版本大模型,该版本融合了V3和R1的优势,具备更强的智能体能力和思考效率。它采用混合推理架构,支持思考和非思考两种模式,上下文窗口为128K。V3.1采用了UE8M0 FP8精度格式,旨在适配下一代国产芯片,通过牺牲小数精度换取更大的数值表示范围和计算效率,以帮助国产硬件绕过英伟达在传统FP8支持上的专利优化和技术短板。
- 字节跳动开源Seed-OSS:字节跳动开源了Seed-OSS-36B大模型,该模型具有360亿参数和512K的超长上下文窗口,据称在知识理解、推理、数学和代码等领域表现优秀。它引入了“思考预算”机制,允许用户控制模型思考深度。Seed-OSS支持免费用于学术研究和商业部署。
- 英伟达推出混合语言模型:英伟达推出了91参数的混合语言模型Lion Transformer Nano video,该模型相较于81参数的千问三等规模相似模型,实现了数倍的推理负载吞吐量和领先的精准度。
AI应用与工具
- ElevenLabs推出视频音乐和AI配音功能:ElevenLabs推出了“video to music”功能,可以为视频生成匹配的音乐和音效,并支持修改提示词。同时,其AI配音功能支持29种语言自动配音,并能为同一个视频中的多个角色保持与原声一致的音色风格和情感。
- 百度发布图生视频模型Muse Steamer 2.0:百度上线了图生视频模型Muse Steamer 2.0。该模型能够将用户上传的产品图片无缝融合到视频内容中,将静态图像转化为动态、高质量的视频。它还能通过AI生成传统影视制作中的演员、场地、后期配音和特效追加等,且整体价格为国内主流竞品的70%。
- 香港中文大学推出Twin Composer:香港中文大学等机构推出了面向卡通和动画制作的生成式模型Twin Composer。该模型将中间帧补全与上色整合到后关键帧阶段,只需一张线稿和一张参考色稿即可创建动画视频,支持精准的线稿、关键帧控制和区域内容控制,可节省70%的人工劳动。
AI与生物保护
- Google DeepMind升级Perch模型:Google DeepMind升级了其Perch模型,该模型能够快速分析生物声学数据,以帮助拯救濒危物种。新模型更擅长预测鸟类物种,并能更好地适应新环境,尤其是水下环境。其训练数据覆盖广泛物种,能够解析数千甚至数百万小时音频数据中的复杂声音场景,回答特定区域动物数量或幼崽数量等问题。
开源AI项目
本周Github上推荐了多个AI相关开源项目:
- airi - 本地数字伴侣:一个开源的自托管AI数字人项目,支持Web和桌面版本(Mac和Windows),可进行实时文本和语音聊天,旨在将赛博生命带入现实。
- Archon - AI编程助手的指挥中心:一个AI编程助手的管理平台,负责管理知识上下文和分配任务,可作为AI版技术中台。
- everything-ai-chat:基于Everything开发的项目,将Everything与AI结合,通过自然语言搜索电脑文件。
- fastapi_mcp - FastAPI转MCP工具:可将FastAPI应用自动转换为MCP服务器,使AI助手能够直接调用API接口。
- CapsWriter-Offline - 电脑语音输入工具:一款PC端离线语音输入工具,通过按下大写锁定键进行语音识别,并支持音视频文件转录生成字幕。
- LibreTranslate - 本地翻译引擎:可部署到本地的开源翻译引擎,支持离线翻译,并通过浏览器或API进行翻译。
- GitHubDaily - 开源项目推荐:一个持续更新的GitHub开源项目推荐集合。
其他相关进展
-
Firefox支持中日韩本地翻译:Firefox浏览器为中日韩用户推出了本地翻译功能,所有翻译在设备端处理,不上传云端,保障用户隐私,并支持离线使用。Mozilla工程师团队克服了字符、语法和无空格分词等技术挑战,优化了机器学习模型和性能。
-
Ungoogled Chromium - 无谷歌服务浏览器:一个基于Chromium开发的开源浏览器,移除了所有谷歌网络服务依赖,提供精简、隐私保护的浏览体验。
-
Windhawk - Windows定制平台:Windows上的自定义平台,提供简单安全的方式个性化配置应用程序行为和外观,以Mod形式解决窗口排布、资源管理器功能和任务栏行为等问题。
-
fuck-u-code - 屎山代码鉴定器:基于Go语言开发的代码质量评估工具,从循环复杂度、函数长度、注释覆盖率、错误处理、命名规范和代码重复度等七个维度评估代码的“屎山”程度。
-
PixiEditor - 通用2D编辑器:一款通用2D编辑器,为游戏素材、动画、图像编辑和Logo设计等提供工具和功能,支持在同一画布上混合使用矢量和光栅图,并支持多种格式导出。
-
韩国部署3D全息影像警察:韩国警方在公园设置3D全息影像警察后,公园内的犯罪案件数量减少了约22%。这些全息影像警察在夜间运行,提醒市民摄像头监控和警方实时响应,起到了心理威慑作用。
本文是原创文章,完整转载请注明来自 森魔王
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果