AI应用进展和演化
1-1. 让Qwen2.5 7B超越o1,微软干的!MSRA推出小模型数学推理自我进化新方法 微软亚洲研究院(MSRA)近日推出了一种名为rStar-Math的新方法,显著提升了小模型在数学推理方面的能力。这项技术使得7B参数的Qwen2.5模型在多个数学基准测试中表现优异,甚至超过了OpenAI的o1-preview模型。
在美国数学竞赛AIME 2024测试中,rStar-Math解决了53.3%的难题,而OpenAI的o1-preview仅解决了44.6%。在MATH基准测试中,Qwen2.5-Math-7B的准确率从58.8%提升到了90.0%,远超其他开源大模型。对于奥赛级别的题目,经过四轮自我进化后,成功率达到了80.58%。https://www.qbitai.com/2025/01/242823.html 代码地址:https://github.com/microsoft/rStar
1-2. 2025 AI手机交互体验:它能说会道,有眼有脑,是更聪明更懂你的AI伙伴 传统的手机交互主要依赖触屏操作,但多模态助手的出现改变了这一局面。以OPPO的小布助手为例,它引入了语音、视觉等多种感知技术,使用户可以通过简单的语音指令或相机识别来完成复杂任务。例如,只需告诉小布你看到的建筑或植物,它就能迅速提供相关信息,甚至制定旅游攻略。
小布助手的强大功能体现在多个方面。用户可以通过电源键、语音唤醒等方式轻松唤起小布,并进行多轮对话。数据显示,使用电源键唤起小布的用户增加了30%,而近30%的一键问屏用户会在相机界面对准物体后直接询问小布。这种自然的交互方式极大地提升了用户的使用体验,也带动了百科和教育类问答需求的增长。https://www.qbitai.com/2025/01/242806.html
1-3. Open-Sora:让所有人都能轻松制作高效视频,可生成16秒720P视频,模型代码全开源! Open-Sora 是一项致力于高效制作高质量视频的开源计划,旨在让所有人都能轻松使用先进的视频生成技术。通过采用开源原则,Open-Sora 不仅使高级视频生成技术更加普及,还提供了一个简化且用户友好的平台,降低了视频生成的复杂性。
Open-Sora 训练分为三个阶段,采用动态分辨率和宽高比的支持,确保模型能够适应不同的视频生成任务,进一步提升生成质量。目前,其支持多种视频生成任务,包括文本转图片、文本转视频、图片转视频和视频转视频,生成时间从2秒到15秒不等,分辨率从144p到720p,并支持任意宽高比。这使得内容创作者可以灵活应对各种需求。
https://www.51cto.com/article/806011.html
1-4. 共筑全民健康睡眠新时代:科技力量引领睡眠革命 中国睡眠研究会发布的《2024助眠力洞察报告》指出,智能助眠产品正逐渐成为市场新宠。例如,智能睡眠监测设备、个人定制枕和智能床垫等,将新科技与助眠需求完美融合。其中,声音助眠尤为受欢迎,《睡眠音乐研究白皮书(2021)》数据显示,近57%的失眠人群选择音乐助眠,且这一比例仍在上升。
为了更好地解决音乐助眠中的实际问题,A股上市公司安克创新(Anker Innovation)旗下的声阔(soundcore)推出了A20睡眠耳机。这款耳机通过创新的两段式设计和空气耳翼包裹技术,确保佩戴舒适度,避免侧睡时的不适感。此外,A20配备了3重遮噪系统,有效屏蔽睡眠中的干扰。https://www.leiphone.com/category/industrynews/NiTnu0Y1rx9ihRqM.html
1-5. 法国初创公司 Rounded 推出 AI 语音代理平台,助力企业定制语音交互 法国初创公司 Rounded 正在开发一个 AI 语音代理编排平台,帮助企业轻松构建自己的语音代理。Rounded 的联合创始人表示,团队最初计划结合 ChatGPT、转录器和合成器来提供服务,但发现市场对语音代理的需求尚未成熟。为此,他们开发了名为 “Donna” 的 AI 语音代理,专门服务于麻醉科医师。在法国,麻醉科医师术前需与患者沟通,确保无药物过敏或潜在并发症。AI 语音代理能处理大量简单的电话咨询,如查询麻醉医师的可用时间或更改手术日期。
通过多次迭代,Rounded 已与15家私立医院合作,处理了数十万次对话,并将响应延迟缩短至700毫秒以下。https://www.aibase.com/zh/news/14617
1-6. Perplexity与旅游网站合作 带来全新酒店信息搜索体验 近期,人工智能搜索引擎 Perplexity 宣布与旅游网站 Tripadvisor 达成合作,旨在为用户提供更全面和详细的酒店信息。这一合作显著提升了用户搜索体验,特别是在查找具体酒店时。
例如,当用户搜索“马德里商务旅行酒店”时,Perplexity 不仅会推荐像 Hotel Regina 这样的酒店,还会详细说明选择理由,如“该酒店位置优越,服务卓越,并提供丰盛的早餐”。此外,搜索结果中将展示来自 Tripadvisor 的评分、酒店图片,以及关于地理位置、服务和卫生等多维度的优势特点。https://www.aibase.com/zh/news/14615
1-7. WeWalk 智能手杖2亮相 CES,为视障人士提供更精准导航 在2025年国际消费电子展(CES)上,WeWalk 推出了专为视障人士设计的智能手杖2。这款新产品不仅解决了上一代产品的诸多问题,还加入了人工智能和TDK的先进传感器技术,成为传统白手杖的理想替代品。
WeWalk 智能手杖2的主要特点包括:
1. 逐向导航和障碍物检测:通过GPT驱动的语音助手,提供详细的路径指引和实时障碍提醒。
2. 改进的设计:手柄更加细长舒适,重量接近标准白手杖,便于长时间握持。配备了触觉按钮,简化了操作方式,适应各种天气条件,电池续航可达20小时。
3. 高级传感器:内置超声波飞行时间传感器、六轴运动跟踪惯性测量单元等高科技设备,确保精准反馈,帮助用户避免碰撞。https://www.aibase.com/zh/news/14610
1-8. 开源媒体播放器 VLC 下载破 60 亿次,预览本地 AI 字幕 / 翻译功能 2025年1月10日,开源媒体播放器 VLC 在 CES 2025 上宣布其累计下载次数突破了惊人的60亿次。这一里程碑展示了 VLC 即便在流媒体服务盛行的今天,依然深受全球用户的喜爱和信赖。
VideoLAN 总裁表示,尽管流媒体平台层出不穷,VLC 的用户活跃度却持续攀升。这得益于 VLC 强大的兼容性和简洁的界面设计。VideoLAN 还预览了 VLC 即将推出的新功能——基于本地开源 AI 模型的离线字幕生成和翻译功能。这项新功能支持多种语言,包括法语、德语、日语和希伯来文等。这意味着用户即使在没有互联网连接的情况下,也能享受自动字幕和翻译服务,极大地提升了观影体验。https://www.ithome.com/0/823/686.htm
1-9. 小红书新做的这个AI搜索,有Perplexity们都眼馋的能力 小红书最近推出了一款名为“点点”的AI搜索产品,正在内测阶段。与传统搜索引擎不同,“点点”主打生活场景,如旅游攻略、生活常识等,旨在成为用户的“生活搜索助手”。
核心特点:
1. 实时UGC内容整合:点点不仅依赖官方数据,还实时抓取用户生成的内容,包括评论区的信息,确保回答的即时性和真实性。
2. 多模态理解能力:支持语音和图片输入,能够理解复杂场景。例如,上传一张宠物破坏物品的照片,点点可以识别并给出建议。
3. 引导式交互:采用“哪里不会点哪里”的方式,用户只需点击答案中的关键词即可获取更多信息,降低了二次提问的门槛。https://www.chinaz.com/2025/0110/1663365.shtml
1-10. 智能篮球训练机器人 Datic 1 亮相 CES 2025:AI 追踪 + 自动回传,售价 1000 美元 在2025年国际消费电子展(CES)上,Davy Robot公司推出了一款智能篮球训练机器人——Datic 1,引起了广泛关注。这款机器人的设计初衷是为篮球爱好者提供一个全天候的训练伙伴,帮助他们通过反复练习提升投篮技巧。
这款机器人重约33磅(约14.97千克),相对便携,用户只需将其推到篮球架下,其机械臂会自动伸展,将篮网升至标准篮筐高度(约3米)。在CES展会上展示的版本篮筐高度稍低,但Davy Robot承诺最终产品将完全符合比赛规格。Datic 1配备了先进的机器视觉和人工智能技术,可以追踪投篮者的位置,并通过旋转头部将球回传给用户,实现高效的训练循环。https://www.1ai.net/26522.html
1-11. 矿山无人驾驶:从1到100的跨越,L4级自动驾驶浪潮下的新机遇 过去十年,无人驾驶技术经历了两落三起的“过山车”之旅。每次技术突破时,资本大量涌入,但商业化进程缓慢,导致热钱退场。从业者们为了生存,不断寻找融资或上市的机会。然而,2024年成了转折点,Robotaxi的兴起再次点燃了资本市场,特定场景的无人驾驶订单量暴增,产业公司IPO也在加速。
尤其值得关注的是矿山无人驾驶。以露天煤矿为例,2023年中国无人驾驶矿卡数量为1131辆,到2024年9月增加到1510辆,其中已完成“去安全员”的车辆占比达55.3%。预计到2024年底,这一数字将翻倍至约2500辆。希迪智驾预测,到2026年,中国自动驾驶矿卡出货量将达到3800辆,全球则增至6000辆。https://www.ofweek.com/ai/2025-01/ART-201700-8470-30655156.html
1-12. 科研界的"哥白尼时刻"已到来!AMD的Agent Laboratory能自己查文献、写论文、整代码 昨天发表的论文展示了AI在科研领域的巨大潜力,标志着科研工作方式的重大变革。这篇论文不仅介绍了如何使用AI智能体作为研究助手,还展示了这些智能体能显著提高科研效率和质量。
主要亮点
1. 高效科研流程:过去需要几周才能完成的任务,现在仅需20分钟到一两个小时,成本仅为2-13美元。这得益于多智能体协作模式,每个智能体专注于特定任务,如文献综述、实验设计、代码实现和报告撰写。
2. 性能评估:在MLE-bench基准测试中,mle-solver表现出色,获得了4枚奖牌(2金1银1铜),并在10个基准测试中有6个超过人类中位数表现。系统在不同噪声类型下的准确率也保持了显著优势。https://aitntnews.com/newDetail.html?newId=10483
AI大模型算法、赛事和会议
2-1. 超越KL!大连理工发布Wasserstein距离知识蒸馏新方法|NeurIPS 2024 大连理工大学的研究团队提出了一种基于Wasserstein距离(WD)的知识蒸馏方法,旨在克服传统Kullback-Leibler散度(KL-Div)在Logit和Feature知识迁移中的局限性。
为了解决这些问题,研究人员开发了两种基于WD的知识蒸馏方法:WKD-L(针对Logit蒸馏)和WKD-F(针对Feature蒸馏)。WKD-L通过离散WD最小化教师和学生预测概率之间的差异,能够进行跨类别比较,有效利用类别间的相互关系。而WKD-F则利用连续WD从中间层特征中蒸馏知识,通过建模高斯分布来匹配教师和学生的特征分布。https://www.163.com/dy/article/JLHVQ0PK0511ABV6.html?spss=dy_author 论文地址:https://arxiv.org/abs/2412.08139
项目地址:https://peihuali.org/WKD/
代码地址:https://github.com/JiamingLv/WKD
2-2. 谷歌发布40页AI Agent白皮书,简单易懂的智能体认知架构,附中英文PDF下载 随着AI Agent市场的火爆,谷歌近日发布了名为《Agents》的白皮书,详细解读了生成式AI Agent的概念、架构和应用。这份42页的PDF文档不仅为初学者提供了基础知识,也为高级开发者提供了深入的技术指导。
通过LangChain和Vertex AI平台,用户可以快速构建和部署Agent,将逻辑、推理和工具调用链接起来,实现具体目标。Google的Vertex AI平台简化了这一过程,提供了一个完全托管的环境,帮助开发人员专注于构建和改进Agent。https://aitntnews.com/newDetail.html?newId=10482
2-3. 程序员出身的AI短片导演,用三个月拿下国际电影节的金奖 2023年2月,游戏行业程序员Jim转型成为一名AI艺术家。经过一年多的努力,他的10分钟AI动画短片《鬼饮食》在2024年12月荣获Independent Shorts Awards的最佳动画短片金奖。这一奖项意义非凡,因为该电影节并非专门为AI作品设立,评委们能够忽略AI标签,专注于故事本身。
技术上,Jim巧妙结合传统方法与AI工具,弥补AI在动作戏和表情上的不足。尽管AI难以处理复杂的多主体镜头,Jim通过特写、快速剪辑等手法,使影片视觉效果更加流畅。他还借鉴美国老式黑色电影的手法,使用隐喻和象征元素,增强了故事的表现力。https://aitntnews.com/newDetail.html?newId=10474
AI基础设施方面(硬件、系统和数据)
3-1. 一行代码Post-Train任意长序列!360智脑开源360-LLaMA-Factory 随着大模型处理复杂长文本和多帧视频任务的需求日益增长,支持长序列数据的训练变得至关重要。近期,360智脑开源了360-LLaMA-Factory项目,为现有的LLaMA-Factory框架增加了关键的序列并行功能,使得后训练(Post-Training)阶段能够轻松处理任意长度的序列。
为了验证360-LLaMA-Factory的正确性和有效性,团队使用小规模数据集进行了对比测试,结果显示序列并行对训练曲线的影响几乎可以忽略不计。同时,在8卡80G的环境中,该框架能够支持几十至几百k长度的超长序列训练。https://www.jiqizhixin.com/articles/2025-01-10-2
项目地址: https://github.com/Qihoo360/360-LLaMA-Factory
3-2. Anthropic新研究:用统计思维评估大模型 Anthropic提出了一种引入严谨统计思维的新评估框架。该框架不仅关注具体问题的表现,还将这些问题视为从一个更大的、未观察到的问题集合中随机抽取的样本,从而更准确地估计模型的性能。
为了展示这种方法的有效性,研究人员比较了两个虚构模型“Galleon”和“Dreadnought”在三个评估任务上的表现:MATH、HumanEval和MGSM。结果显示,在MATH评估中,Galleon的平均得分为65.5%,标准误差为0.7%,而Dreadnought为63.0%,标准误差同样为0.7%。计算95%置信区间后,Galleon的表现显著优于Dreadnought。https://www.51cto.com/article/806014.html
AI人才和资本动态
4-1.Hippocratic AI 融资 1.41 亿美元,推动患者友好的 AI 代理发展 Hippocratic AI 是一家专注于开发患者友好型人工智能解决方案的初创公司,最近成功完成了1.41亿美元的B轮融资,估值达到了16.4亿美元。
与许多其他医疗AI公司不同,Hippocratic AI 专注于缓解医疗专业人员短缺的问题。其开发的AI代理能够处理一些简单的非诊断性任务,如术前程序、远程患者监测和预约准备等。这些创新旨在提高医疗服务效率,使医务人员能将更多时间和精力投入到直接与患者的互动中。
2024年,Hippocratic AI 已与23家医疗系统和保险公司签署了合同,证明了市场对其产品的强烈需求。此次融资的资金将用于扩展产品至更多市场及国际布局。https://www.aibase.com/zh/news/14614
4-2. 获1.2亿美元融资,Tractian用AI挽回每年1.4万亿美元的机器停机损失AI技术正在各个行业深入应用,尤其在传统制造业中展现出巨大潜力。Tractian公司作为这一领域的佼佼者,致力于通过AI和物联网技术实现制造业设备的“零停机”,其解决方案结合了智能硬件与人工智能驱动的软件,用于监测、预测机器故障,并优化维护计划。
Tractian的核心产品包括Smart Trac Ultra传感器和多个软件平台。传感器能实时监控设备的关键参数,如振动、温度等,生成设备“指纹”以识别潜在问题。这些系统的协同工作使得客户每年每台监控机器平均节省费用达6000美元,投资回报率(ROI)高达6至12倍。近期,Tractian获得1.2亿美元C轮融资,由Sapphire领投。https://aitntnews.com/newDetail.html?newId=10471
4-3. 西湖机器人完成天使 + 轮融资近亿元,加速通用机器人 AGI 落地近日,西湖机器人科技(杭州)有限公司宣布完成天使 + 轮近亿元融资,旨在推进其通用机器人AGI端到端模型的商业化应用。自2023年12月成立以来,公司在不到一年的时间内迅速发展,自主研发了具有自主知识产权的端到端具身大模型,并开始了机器人本体的设计试产与模型部署。
此次融资由晶科集团旗下的金能基金和犇驰资本领投,广州诚信创投等多家机构参与,天使湾创投也持续加注。
公司业务聚焦于四足机器人和双足人形机器人的研发,实现了多模态指令跟随、姿态补齐、行为解释等能力,学习效率成倍提升。2024年,西湖机器人建成了全球最大的人体全身关节运动轨迹数据库,进一步提升了大模型的输出效果。https://aitntnews.com/newDetail.html?newId=10469
AI风险与政策管理 5-1. Cohere重磅推出安全AI平台“North”,挑战微软与谷歌! Cohere 公司今日宣布推出其最新的AI平台“North”,旨在为企业提供一个安全的工作空间,直接挑战微软的Copilot和谷歌的Vertex AI。这款新平台在金融、人力资源、客户支持和IT等多个领域表现出色,尤其在人工评估中,“North” 的准确性始终优于竞争对手,而微软Copilot在IT任务中的准确率仅为29%。
“North” 结合了大型语言模型、搜索能力和自动化工具,确保企业在保持对敏感数据控制的同时,能够高效部署AI技术。该平台支持私有云环境或本地安装,特别适合受监管的行业如金融和医疗。加拿大皇家银行已与Cohere合作,这是“North”的首次重大应用。https://www.aibase.com/zh/news/14616
产品入口:https://cohere.com/north
5-2. 别上当了!好莱坞标志牌着火假图网络疯传:又是AI生成 近日,美国洛杉矶帕西菲克帕利塞兹社区和阿尔塔迪纳地区发生严重野火,超过1500名消防人员正在现场奋力扑救。由于当地天气干燥且风势强劲,火势预计会继续蔓延。社交媒体上流传的“好莱坞标志牌被火焰吞没”的图片和视频实际上是AI生成的虚假内容,带有马斯克旗下xAI公司的水印。官方提醒公众,面对疑似信息时应仔细观察细节,并从权威渠道获取信息,以避免误传谣言。
与此同时,西藏定日县发生了6.8级地震,灾情牵动人心。社交媒体上一张“小孩被埋在倒塌建筑物下”的图片也引发关注,但经证实,这张图片同样是AI生成的虚构内容,原作者去年已发布过相同画面的短视频并声明其为AI作品。https://www.chinaz.com/2025/0110/1663317.shtml
5-3. Meta 涉嫌版权侵权:使用 LibGen 数据集训练 AI 并删除版权信息 Meta 正面临一起严重的版权侵权诉讼,指控其使用盗版电子书和文章的数据集来训练 Llama AI 模型。原告律师指出,Meta 首席执行官马克·扎克伯格批准了这一行为,使用的数据集来自 LibGen,一个提供大量受版权保护的学术出版物的“链接聚合器”。
文件显示,Meta 内部员工承认 LibGen 是一个“已知的盗版数据集”,并担忧这会影响公司与监管机构的谈判地位。特别令人关注的是,Meta 工程师 Bashlykov 被控编写脚本删除 LibGen 电子书中的版权信息,包括“版权”和“致谢”字样。此外,Meta 还涉嫌从科学期刊文章中删除版权标记和源元数据,以掩盖其侵权行为。https://www.aibase.com/zh/news/14605
|