1.11AI应用进展和演化新闻

yuyu · 发表于 2025-1-11 11:19:56

AI应用进展和演化

1-1. 让Qwen2.5 7B超越o1，微软干的！MSRA推出小模型数学推理自我进化新方法

微软亚洲研究院（MSRA）近日推出了一种名为rStar-Math的新方法，显著提升了小模型在数学推理方面的能力。这项技术使得7B参数的Qwen2.5模型在多个数学基准测试中表现优异，甚至超过了OpenAI的o1-preview模型。

在美国数学竞赛AIME 2024测试中，rStar-Math解决了53.3%的难题，而OpenAI的o1-preview仅解决了44.6%。在MATH基准测试中，Qwen2.5-Math-7B的准确率从58.8%提升到了90.0%，远超其他开源大模型。对于奥赛级别的题目，经过四轮自我进化后，成功率达到了80.58%。
https://www.qbitai.com/2025/01/242823.html

论文地址：https://arxiv.org/pdf/2501.04519

代码地址：https://github.com/microsoft/rStar

1-2. 2025 AI手机交互体验：它能说会道，有眼有脑，是更聪明更懂你的AI伙伴

传统的手机交互主要依赖触屏操作，但多模态助手的出现改变了这一局面。以OPPO的小布助手为例，它引入了语音、视觉等多种感知技术，使用户可以通过简单的语音指令或相机识别来完成复杂任务。例如，只需告诉小布你看到的建筑或植物，它就能迅速提供相关信息，甚至制定旅游攻略。

小布助手的强大功能体现在多个方面。用户可以通过电源键、语音唤醒等方式轻松唤起小布，并进行多轮对话。数据显示，使用电源键唤起小布的用户增加了30%，而近30%的一键问屏用户会在相机界面对准物体后直接询问小布。这种自然的交互方式极大地提升了用户的使用体验，也带动了百科和教育类问答需求的增长。
https://www.qbitai.com/2025/01/242806.html

1-3. Open-Sora：让所有人都能轻松制作高效视频，可生成16秒720P视频，模型代码全开源！

Open-Sora 是一项致力于高效制作高质量视频的开源计划，旨在让所有人都能轻松使用先进的视频生成技术。通过采用开源原则，Open-Sora 不仅使高级视频生成技术更加普及，还提供了一个简化且用户友好的平台，降低了视频生成的复杂性。

Open-Sora 训练分为三个阶段，采用动态分辨率和宽高比的支持，确保模型能够适应不同的视频生成任务，进一步提升生成质量。目前，其支持多种视频生成任务，包括文本转图片、文本转视频、图片转视频和视频转视频，生成时间从2秒到15秒不等，分辨率从144p到720p，并支持任意宽高比。这使得内容创作者可以灵活应对各种需求。

https://www.51cto.com/article/806011.html

论文：http://arxiv.org/abs/2412.20404v1

代码：https://github.com/hpcaitech/Open-Sora

1-4. 共筑全民健康睡眠新时代：科技力量引领睡眠革命

中国睡眠研究会发布的《2024助眠力洞察报告》指出，智能助眠产品正逐渐成为市场新宠。例如，智能睡眠监测设备、个人定制枕和智能床垫等，将新科技与助眠需求完美融合。其中，声音助眠尤为受欢迎，《睡眠音乐研究白皮书(2021)》数据显示，近57%的失眠人群选择音乐助眠，且这一比例仍在上升。

为了更好地解决音乐助眠中的实际问题，A股上市公司安克创新（Anker Innovation）旗下的声阔（soundcore）推出了A20睡眠耳机。这款耳机通过创新的两段式设计和空气耳翼包裹技术，确保佩戴舒适度，避免侧睡时的不适感。此外，A20配备了3重遮噪系统，有效屏蔽睡眠中的干扰。
https://www.leiphone.com/category/industrynews/NiTnu0Y1rx9ihRqM.html

1-5. 法国初创公司 Rounded 推出 AI 语音代理平台，助力企业定制语音交互

法国初创公司 Rounded 正在开发一个 AI 语音代理编排平台，帮助企业轻松构建自己的语音代理。Rounded 的联合创始人表示，团队最初计划结合 ChatGPT、转录器和合成器来提供服务，但发现市场对语音代理的需求尚未成熟。为此，他们开发了名为 “Donna” 的 AI 语音代理，专门服务于麻醉科医师。在法国，麻醉科医师术前需与患者沟通，确保无药物过敏或潜在并发症。AI 语音代理能处理大量简单的电话咨询，如查询麻醉医师的可用时间或更改手术日期。

通过多次迭代，Rounded 已与15家私立医院合作，处理了数十万次对话，并将响应延迟缩短至700毫秒以下。
https://www.aibase.com/zh/news/14617

1-6. Perplexity与旅游网站合作带来全新酒店信息搜索体验

近期，人工智能搜索引擎 Perplexity 宣布与旅游网站 Tripadvisor 达成合作，旨在为用户提供更全面和详细的酒店信息。这一合作显著提升了用户搜索体验，特别是在查找具体酒店时。

例如，当用户搜索“马德里商务旅行酒店”时，Perplexity 不仅会推荐像 Hotel Regina 这样的酒店，还会详细说明选择理由，如“该酒店位置优越，服务卓越，并提供丰盛的早餐”。此外，搜索结果中将展示来自 Tripadvisor 的评分、酒店图片，以及关于地理位置、服务和卫生等多维度的优势特点。
https://www.aibase.com/zh/news/14615

1-7. WeWalk 智能手杖2亮相 CES，为视障人士提供更精准导航

在2025年国际消费电子展（CES）上，WeWalk 推出了专为视障人士设计的智能手杖2。这款新产品不仅解决了上一代产品的诸多问题，还加入了人工智能和TDK的先进传感器技术，成为传统白手杖的理想替代品。

WeWalk 智能手杖2的主要特点包括：
1. 逐向导航和障碍物检测：通过GPT驱动的语音助手，提供详细的路径指引和实时障碍提醒。
2. 改进的设计：手柄更加细长舒适，重量接近标准白手杖，便于长时间握持。配备了触觉按钮，简化了操作方式，适应各种天气条件，电池续航可达20小时。
3. 高级传感器：内置超声波飞行时间传感器、六轴运动跟踪惯性测量单元等高科技设备，确保精准反馈，帮助用户避免碰撞。
https://www.aibase.com/zh/news/14610

官网地址：https://wewalk.io/en/

1-8. 开源媒体播放器 VLC 下载破 60 亿次，预览本地 AI 字幕 / 翻译功能

2025年1月10日，开源媒体播放器 VLC 在 CES 2025 上宣布其累计下载次数突破了惊人的60亿次。这一里程碑展示了 VLC 即便在流媒体服务盛行的今天，依然深受全球用户的喜爱和信赖。

VideoLAN 总裁表示，尽管流媒体平台层出不穷，VLC 的用户活跃度却持续攀升。这得益于 VLC 强大的兼容性和简洁的界面设计。VideoLAN 还预览了 VLC 即将推出的新功能——基于本地开源 AI 模型的离线字幕生成和翻译功能。这项新功能支持多种语言，包括法语、德语、日语和希伯来文等。这意味着用户即使在没有互联网连接的情况下，也能享受自动字幕和翻译服务，极大地提升了观影体验。
https://www.ithome.com/0/823/686.htm

1-9. 小红书新做的这个AI搜索，有Perplexity们都眼馋的能力

小红书最近推出了一款名为“点点”的AI搜索产品，正在内测阶段。与传统搜索引擎不同，“点点”主打生活场景，如旅游攻略、生活常识等，旨在成为用户的“生活搜索助手”。

核心特点：
1. 实时UGC内容整合：点点不仅依赖官方数据，还实时抓取用户生成的内容，包括评论区的信息，确保回答的即时性和真实性。
2. 多模态理解能力：支持语音和图片输入，能够理解复杂场景。例如，上传一张宠物破坏物品的照片，点点可以识别并给出建议。
3. 引导式交互：采用“哪里不会点哪里”的方式，用户只需点击答案中的关键词即可获取更多信息，降低了二次提问的门槛。
https://www.chinaz.com/2025/0110/1663365.shtml

1-10. 智能篮球训练机器人 Datic 1 亮相 CES 2025：AI 追踪 + 自动回传，售价 1000 美元

在2025年国际消费电子展（CES）上，Davy Robot公司推出了一款智能篮球训练机器人——Datic 1，引起了广泛关注。这款机器人的设计初衷是为篮球爱好者提供一个全天候的训练伙伴，帮助他们通过反复练习提升投篮技巧。

这款机器人重约33磅（约14.97千克），相对便携，用户只需将其推到篮球架下，其机械臂会自动伸展，将篮网升至标准篮筐高度（约3米）。在CES展会上展示的版本篮筐高度稍低，但Davy Robot承诺最终产品将完全符合比赛规格。Datic 1配备了先进的机器视觉和人工智能技术，可以追踪投篮者的位置，并通过旋转头部将球回传给用户，实现高效的训练循环。
https://www.1ai.net/26522.html

1-11. 矿山无人驾驶：从1到100的跨越，L4级自动驾驶浪潮下的新机遇

过去十年，无人驾驶技术经历了两落三起的“过山车”之旅。每次技术突破时，资本大量涌入，但商业化进程缓慢，导致热钱退场。从业者们为了生存，不断寻找融资或上市的机会。然而，2024年成了转折点，Robotaxi的兴起再次点燃了资本市场，特定场景的无人驾驶订单量暴增，产业公司IPO也在加速。

尤其值得关注的是矿山无人驾驶。以露天煤矿为例，2023年中国无人驾驶矿卡数量为1131辆，到2024年9月增加到1510辆，其中已完成“去安全员”的车辆占比达55.3%。预计到2024年底，这一数字将翻倍至约2500辆。希迪智驾预测，到2026年，中国自动驾驶矿卡出货量将达到3800辆，全球则增至6000辆。
https://www.ofweek.com/ai/2025-01/ART-201700-8470-30655156.html

1-12. 科研界的"哥白尼时刻"已到来！AMD的Agent Laboratory能自己查文献、写论文、整代码

昨天发表的论文展示了AI在科研领域的巨大潜力，标志着科研工作方式的重大变革。这篇论文不仅介绍了如何使用AI智能体作为研究助手，还展示了这些智能体能显著提高科研效率和质量。

主要亮点
1. 高效科研流程：过去需要几周才能完成的任务，现在仅需20分钟到一两个小时，成本仅为2-13美元。这得益于多智能体协作模式，每个智能体专注于特定任务，如文献综述、实验设计、代码实现和报告撰写。

2. 性能评估：在MLE-bench基准测试中，mle-solver表现出色，获得了4枚奖牌（2金1银1铜），并在10个基准测试中有6个超过人类中位数表现。系统在不同噪声类型下的准确率也保持了显著优势。
https://aitntnews.com/newDetail.html?newId=10483

AI大模型算法、赛事和会议

2-1. 超越KL！大连理工发布Wasserstein距离知识蒸馏新方法｜NeurIPS 2024

大连理工大学的研究团队提出了一种基于Wasserstein距离（WD）的知识蒸馏方法，旨在克服传统Kullback-Leibler散度（KL-Div）在Logit和Feature知识迁移中的局限性。

为了解决这些问题，研究人员开发了两种基于WD的知识蒸馏方法：WKD-L（针对Logit蒸馏）和WKD-F（针对Feature蒸馏）。WKD-L通过离散WD最小化教师和学生预测概率之间的差异，能够进行跨类别比较，有效利用类别间的相互关系。而WKD-F则利用连续WD从中间层特征中蒸馏知识，通过建模高斯分布来匹配教师和学生的特征分布。
https://www.163.com/dy/article/JLHVQ0PK0511ABV6.html?spss=dy_author

论文地址：https://arxiv.org/abs/2412.08139
项目地址：https://peihuali.org/WKD/
代码地址：https://github.com/JiamingLv/WKD

2-2. 谷歌发布40页AI Agent白皮书，简单易懂的智能体认知架构，附中英文PDF下载

随着AI Agent市场的火爆，谷歌近日发布了名为《Agents》的白皮书，详细解读了生成式AI Agent的概念、架构和应用。这份42页的PDF文档不仅为初学者提供了基础知识，也为高级开发者提供了深入的技术指导。

通过LangChain和Vertex AI平台，用户可以快速构建和部署Agent，将逻辑、推理和工具调用链接起来，实现具体目标。Google的Vertex AI平台简化了这一过程，提供了一个完全托管的环境，帮助开发人员专注于构建和改进Agent。
https://aitntnews.com/newDetail.html?newId=10482

2-3. 程序员出身的AI短片导演，用三个月拿下国际电影节的金奖

2023年2月，游戏行业程序员Jim转型成为一名AI艺术家。经过一年多的努力，他的10分钟AI动画短片《鬼饮食》在2024年12月荣获Independent Shorts Awards的最佳动画短片金奖。这一奖项意义非凡，因为该电影节并非专门为AI作品设立，评委们能够忽略AI标签，专注于故事本身。

技术上，Jim巧妙结合传统方法与AI工具，弥补AI在动作戏和表情上的不足。尽管AI难以处理复杂的多主体镜头，Jim通过特写、快速剪辑等手法，使影片视觉效果更加流畅。他还借鉴美国老式黑色电影的手法，使用隐喻和象征元素，增强了故事的表现力。
https://aitntnews.com/newDetail.html?newId=10474

AI基础设施方面（硬件、系统和数据）

3-1. 一行代码Post-Train任意长序列！360智脑开源360-LLaMA-Factory

随着大模型处理复杂长文本和多帧视频任务的需求日益增长，支持长序列数据的训练变得至关重要。近期，360智脑开源了360-LLaMA-Factory项目，为现有的LLaMA-Factory框架增加了关键的序列并行功能，使得后训练（Post-Training）阶段能够轻松处理任意长度的序列。

为了验证360-LLaMA-Factory的正确性和有效性，团队使用小规模数据集进行了对比测试，结果显示序列并行对训练曲线的影响几乎可以忽略不计。同时，在8卡80G的环境中，该框架能够支持几十至几百k长度的超长序列训练。
https://www.jiqizhixin.com/articles/2025-01-10-2

项目地址：

https://github.com/Qihoo360/360-LLaMA-Factory

3-2. Anthropic新研究：用统计思维评估大模型

Anthropic提出了一种引入严谨统计思维的新评估框架。该框架不仅关注具体问题的表现，还将这些问题视为从一个更大的、未观察到的问题集合中随机抽取的样本，从而更准确地估计模型的性能。

为了展示这种方法的有效性，研究人员比较了两个虚构模型“Galleon”和“Dreadnought”在三个评估任务上的表现：MATH、HumanEval和MGSM。结果显示，在MATH评估中，Galleon的平均得分为65.5%，标准误差为0.7%，而Dreadnought为63.0%，标准误差同样为0.7%。计算95%置信区间后，Galleon的表现显著优于Dreadnought。
https://www.51cto.com/article/806014.html

AI人才和资本动态

4-1.Hippocratic AI 融资 1.41 亿美元，推动患者友好的 AI 代理发展

Hippocratic AI 是一家专注于开发患者友好型人工智能解决方案的初创公司，最近成功完成了1.41亿美元的B轮融资，估值达到了16.4亿美元。

与许多其他医疗AI公司不同，Hippocratic AI 专注于缓解医疗专业人员短缺的问题。其开发的AI代理能够处理一些简单的非诊断性任务，如术前程序、远程患者监测和预约准备等。这些创新旨在提高医疗服务效率，使医务人员能将更多时间和精力投入到直接与患者的互动中。

2024年，Hippocratic AI 已与23家医疗系统和保险公司签署了合同，证明了市场对其产品的强烈需求。此次融资的资金将用于扩展产品至更多市场及国际布局。
https://www.aibase.com/zh/news/14614

4-2. 获1.2亿美元融资，Tractian用AI挽回每年1.4万亿美元的机器停机损失

AI技术正在各个行业深入应用，尤其在传统制造业中展现出巨大潜力。Tractian公司作为这一领域的佼佼者，致力于通过AI和物联网技术实现制造业设备的“零停机”，其解决方案结合了智能硬件与人工智能驱动的软件，用于监测、预测机器故障，并优化维护计划。

Tractian的核心产品包括Smart Trac Ultra传感器和多个软件平台。传感器能实时监控设备的关键参数，如振动、温度等，生成设备“指纹”以识别潜在问题。这些系统的协同工作使得客户每年每台监控机器平均节省费用达6000美元，投资回报率（ROI）高达6至12倍。近期，Tractian获得1.2亿美元C轮融资，由Sapphire领投。
https://aitntnews.com/newDetail.html?newId=10471

4-3. 西湖机器人完成天使 + 轮融资近亿元，加速通用机器人 AGI 落地

近日，西湖机器人科技（杭州）有限公司宣布完成天使 + 轮近亿元融资，旨在推进其通用机器人AGI端到端模型的商业化应用。自2023年12月成立以来，公司在不到一年的时间内迅速发展，自主研发了具有自主知识产权的端到端具身大模型，并开始了机器人本体的设计试产与模型部署。

此次融资由晶科集团旗下的金能基金和犇驰资本领投，广州诚信创投等多家机构参与，天使湾创投也持续加注。

公司业务聚焦于四足机器人和双足人形机器人的研发，实现了多模态指令跟随、姿态补齐、行为解释等能力，学习效率成倍提升。2024年，西湖机器人建成了全球最大的人体全身关节运动轨迹数据库，进一步提升了大模型的输出效果。
https://aitntnews.com/newDetail.html?newId=10469

AI风险与政策管理

5-1. Cohere重磅推出安全AI平台“North”，挑战微软与谷歌！

Cohere 公司今日宣布推出其最新的AI平台“North”，旨在为企业提供一个安全的工作空间，直接挑战微软的Copilot和谷歌的Vertex AI。这款新平台在金融、人力资源、客户支持和IT等多个领域表现出色，尤其在人工评估中，“North” 的准确性始终优于竞争对手，而微软Copilot在IT任务中的准确率仅为29%。

“North” 结合了大型语言模型、搜索能力和自动化工具，确保企业在保持对敏感数据控制的同时，能够高效部署AI技术。该平台支持私有云环境或本地安装，特别适合受监管的行业如金融和医疗。加拿大皇家银行已与Cohere合作，这是“North”的首次重大应用。
https://www.aibase.com/zh/news/14616

产品入口：https://cohere.com/north

5-2. 别上当了！好莱坞标志牌着火假图网络疯传：又是AI生成

近日，美国洛杉矶帕西菲克帕利塞兹社区和阿尔塔迪纳地区发生严重野火，超过1500名消防人员正在现场奋力扑救。由于当地天气干燥且风势强劲，火势预计会继续蔓延。社交媒体上流传的“好莱坞标志牌被火焰吞没”的图片和视频实际上是AI生成的虚假内容，带有马斯克旗下xAI公司的水印。官方提醒公众，面对疑似信息时应仔细观察细节，并从权威渠道获取信息，以避免误传谣言。

与此同时，西藏定日县发生了6.8级地震，灾情牵动人心。社交媒体上一张“小孩被埋在倒塌建筑物下”的图片也引发关注，但经证实，这张图片同样是AI生成的虚构内容，原作者去年已发布过相同画面的短视频并声明其为AI作品。
https://www.chinaz.com/2025/0110/1663317.shtml

5-3. Meta 涉嫌版权侵权:使用 LibGen 数据集训练 AI 并删除版权信息

Meta 正面临一起严重的版权侵权诉讼，指控其使用盗版电子书和文章的数据集来训练 Llama AI 模型。原告律师指出，Meta 首席执行官马克·扎克伯格批准了这一行为，使用的数据集来自 LibGen，一个提供大量受版权保护的学术出版物的“链接聚合器”。

文件显示，Meta 内部员工承认 LibGen 是一个“已知的盗版数据集”，并担忧这会影响公司与监管机构的谈判地位。特别令人关注的是，Meta 工程师 Bashlykov 被控编写脚本删除 LibGen 电子书中的版权信息，包括“版权”和“致谢”字样。此外，Meta 还涉嫌从科学期刊文章中删除版权标记和源元数据，以掩盖其侵权行为。
https://www.aibase.com/zh/news/14605

1.11AI应用进展和演化新闻

浏览过的版块