文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 先能过了小米高考再说 (1 points, 一般) by ooxx 在 2025年01月06日15时43分 星期一 评论到 小米修改了引导程序解锁政策
- (1 points, 一般) by 18611782246 在 2024年12月18日18时06分 星期三 评论到 司机死于阿尔茨海默病的可能性较低
- BaD kEyBoArD: eXtRa SpAcE (1 points, 一般) by lot 在 2024年12月11日04时10分 星期三 评论到 高温环境可能加速衰老
- BaD kEyBoArD: tYpO (1 points, 一般) by lot 在 2024年12月11日04时09分 星期三 评论到 Goolge 宣布了新量子芯片 Willow
- 喵喵喵 (1 points, 一般) by solidot1733326472 在 2024年12月04日23时35分 星期三 评论到 澳大利亚面临太阳能供大于求
- 懂了 这就去安装刺客信条 (1 points, 一般) by Craynic 在 2024年11月27日19时36分 星期三 评论到 微软临时阻止安装刺客信条等育碧游戏的 PC 更新 Windows 11 24H2
- 为了逃避一年多兵役要坐一年牢 (1 points, 一般) by Craynic 在 2024年11月27日19时34分 星期三 评论到 韩国法院判处一名故意增肥以逃避兵役的男子缓刑
- 是否改进质量我不知道 (1 points, 一般) by Craynic 在 2024年11月25日20时43分 星期一 评论到 GitHub 称 Copilot 改进了代码质量
- Linus (1 points, 一般) by Craynic 在 2024年11月25日20时41分 星期一 评论到 Linux 6.13 将拒绝所有来自 bcachefs 作者的合并请求
- 2100年100% (1 points, 一般) by 18611782246 在 2024年11月21日16时30分 星期四 评论到 中国提高了半导体自给率
欧盟正在调查微软对法国 AI 创业公司 Mistral 的 1500 万欧元投资。Mistral 由 Google DeepMind 和 Meta 研究员于 2023 年创立,已从 Andreessen Horowitz 和 Lightspeed 等风投筹集到逾 3.85 亿欧元,其估值约为 18 亿欧元。本周一,Mistral 宣布了其最新的大模型 Mistral Large,宣布与微软合作,通过微软的云服务 Azure 提供其大模型的访问。这笔交易引起了欧盟监管机构的注意。它担心 AI 与科技巨头之间的合作会巩固其权力遏制创新,使科技监管和小公司的竞争变得更困难。
Tumblr 和 WordPress.com 母公司 Automattic 正与 OpenAI 和 Midjourney 磋商出售用户帖子训练 AI 模型。 Automattic 计划发布一个设置,允许用户退出与第三方的数据共享。它已经抓取了 Tumblr 上 2014-2023 年发布的所有公开帖子,其中错误包含了部分非公开帖子,目前还不清楚它如何处理这些数据,哪些数据会发送给 OpenAI 和 Midjourney 训练模型。在这之前,Reddit 与 Google 签订了每年 6000 万美元的协议,使用其平台上的用户数据训练 Google 的 AI 模型;Shutterstock 则与 OpenAI 签署了协议用其照片库训练模型。
微软与法国 AI 创业公司 Mistral 达成协议,收购后者的少数股权。Mistral 宣布了其最先进的大模型 Mistral Large 首次通过微软的云服务 Azure 提供。Mistral 的大模型是开源的,相比下 OpenAI 是闭源的,数据和代码都不向外公开。Mistral 的大模型是目前最先进的开源大模型,测试显示 Mistral Large 仅次于 OpenAI 的 GPT-4。它去年 12 月融资时的估值为 20 亿欧元。
AI 创业公司 Stability AI 宣布其最新一代的文本图像模型 Stable Diffusion 3 开放预览。感兴趣的用户可以申请加入等候名单。Stability AI 称开放预览是为了在正式发布前收集与性能和安全性相关的用户反馈。Stable Diffusion 3 模型的参数规模从 8 亿 到 80 亿不等,其架构组合了 diffusion transformer 和 flow matching,技术报告将在晚些时候公布。
在引发争议之后 Google 周四暂停了 Gemini 的图像生成功能。在这之前用户在社交媒体抱怨,Google 的 AI 工具将历史人物如华盛顿生成为有色人种。Google 表示它将很快发布一个改进版本。Gemini 产品高级总监 Jack Krawczyk 称,历史背景对 AI 聊天机器人而言有更多细微玄妙之处,他们将对其展开进一步的调整。
李开复的 AI 初创公司 01.AI 去年 11 月跃居开源人工智能系统能力排行榜的榜首。它的部分技术是基于 Meta 公司开源的大模型 LLaMA。李开复对此在邮件中表示,他的初创公司的人工智能模型是建立在 LLaMA 上的,就像“其他大多数 AI 公司一样”,并补充说,使用开源技术是一种标准做法。他说,他的公司使用自己的数据和算法,从零开始训练人工智能模型。这些都是 01.AI“表现出色”的“主要决定因素”。Meta 发言人表示,公开分享该公司的 AI 模型有助于传播其价值观和标准,进而有助于确保美国的领导地位。一位投资公司的合伙人称,中国公司从零开始建立的 AI 模型“不是很好”,所以许多中国公司经常使用“西方模型的微调版”。
OpenAI 的名字中有 Open,但它的大模型不开放也不开源,如今开源大模型主要来自于巨头如 Meta 和 Google。Google 宣布了它最新的开放大模型 Gemma。Gemma 由 Google DeepMind 等团队开发,是轻量级的大模型,有两个版本:Gemma 2B 和 Gemma 7B。Google 称这两个版本在各自的参数规模上展现了最佳的性能,甚至超过规模更大的模型。在基准测试中,Gemma 7B 的得分与目前最优秀的开源大模型 Mistral 7B 差不多或更好。
苹果准备推出类似 GitHub Copilot 的辅助编程工具,使用生成式 AI 帮助补充完成代码。该工具将作为下一个 Xcode 大版本的一部分推出,苹果已在该项目上工作了一年时间,预计最快今年推出,苹果最快在 6 月举行开发者大会 WWDC 上宣布这一新工具。微软的 GitHub Copilot 是在 2021 年推出的,能根据自然语言查询生成代码。
易于使用的模型管理应用 Ollama 发布了 Windows 预览版,Windows 用户可以在本地创建和运行大模型。目前该版本只支持英伟达的 GPU,需要 CPU 支持 AVX 和 AVX2 等指令集。开发者表示对 AMD GPU 的支持还在开发之中,如果用户有能力可以直接从源码去构建支持 AMD GPU 的版本。
社媒平台 Reddit 与一家 AI 公司签订合同使用其平台内容训练模型。该 AI 公司未具名,Reddit 未来可能会签署更多类似的合同。Reddit 此举可能会在其用户中间再次引发争议。Reddit 不生产内容,它的所有高质量内容都是由其用户产生和管理的。去年 Reddit 宣布对 API 访问收费时曾引起社区的大规模的抗议。据彭博社报道,最新的交易根据年化基础价值约 6000 万美元。
美国专利商标局(USPTO)拒绝了 OpenAI 的 GPT 商标申请,认为 GPT 属于描述性术语,不能注册为商标。GPT 代表 Generative pre-trained transformers,是一种深度神经网络架构,基于 Google 研究员在 2017 年公布的深度学习架构 Transformers。OpenAI 申请商标旨在禁止其他人将其模型称为 GPT X 或后缀为 GPT 的名字。USPTO 去年 10 月已经拒绝了一次,这次是最终裁决,它认为 GPT 没有达到注册商标的标准。而 OpenAI 认为它让 GPT 这一名字变得家喻户晓。USPTO 指出 GPT 已在其他情景被其他公司使用。
Google 的大模型以及 AI 聊天机器人都采用 Gemini 这一名称。目前的大模型版本号是 1.0,它的付费版叫 Gemini Advanced,用户可以访问 1.0 Pro 和 1.0 Ultra——其中 1.0 Ultra 是类似 GPT-4 的规模最大的模型,而 1.0 Pro 是类似 GPT-3.5 的中等规模模型。现在 Google 宣布了下一代的 Gemini 1.5,表示其中等规模模型 1.5 Pro 在性能上接近了上一代最大模型 1.0 Ultra,上下文窗口能达到 100 万 tokens,这意味着 1.5 Pro 能一次性处理 1 小时视频、11 小时音频、逾 3 万行代码,或逾 70 万单词。Gemini 1.5 是基于 Transformer 和 MoE 架构,感兴趣的用户需要申请加入等待名单。
OpenAI 宣布了视频生成模型 Sora,并公布了一份相关的技术报告。Sora 能生成最长 1 分钟的高清视频,OpenAI 公布了数十个示例,展现了其惊人的文本生成视频能力。大模型使用 text tokens 统一代码、数学和自然语言的不同文本形式,而 Sora 使用了 visual patches 统一了所有类型的视觉数据。OpenAI 表示,Sora 能够根据文本指令生成长达 60 秒的视频,同时保持视觉质量并遵守用户提示。Sora 可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解,能够准确领会提示,生成令人信服的角色。Sora 还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。除了能仅从文本指令生成视频外,该模型还能够利用现有的静止图像从中生成视频,精确地将图像内容动画化,也可以利用现有视频进行扩展或填充缺失的帧。Sora 仍在开发中,存在明显“弱点”,特别是在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例,比如制作了一个视频,视频中有人咬了一口饼干,但之后饼干上没有咬痕。
微软正在为 Windows 11 开发类似 DLSS 的 AI 上采样技术。在现有的上采样技术中,DLSS 是英伟达私有的技术,且只支持英伟达显卡;AMD 的 FSR 为开源的,基本支持所有平台;英特尔的 XeSS 类似 FSR 也不限于支持自家的 Intel Arc 显卡。微软将其上采样技术描述为利用 AI 技术让支持的游戏运行更流畅细节更丰富。
2006 年,德国 AI 研究员 Marcus Hutter 宣布了人类知识无损压缩 Hutter 奖,总奖金 5 万欧元。2020 年奖金金额提高到 50 万欧元,而 Hutter 如今在 Google DeepMind 担任高级研究员。该奖项旨在鼓励 AI 研究,组织者认为文本压缩和 AI 是一个等价问题。用数学家 Gregory Chaitin 话说,压缩就是理解。压缩的对象是一个特定版本的英文维基百科文本,一开始是 100MB 大小,2020 年提高到 1GB,规则是每改进 x% 就获得等价比例的奖金,如改进 1% 就奖励 5 千欧元。Hutter 奖此前颁发了五次,其中四次是颁给了 Alexander Ratushnyak。去年 7 月纽约高频/算法交易和金融服务基金的量化开发者 Saurabh Kumar 将 10 亿字符压缩到 114,156,155 字节,压缩率 11.41%,比之前的记录改进了 1.04%,因此赢得了 5187 欧元奖金。时隔半年之后,Kaido Orav 的压缩程序 fx-cmix 将 10 亿字符压缩到 112 578 322 字节,比去年的纪录改进了 1.38%,获得了 6911 欧元奖励。
搜索巨人热衷于改名,现在它的生成式 AI 聊天机器人从 Bard 改名为 Gemini。相比 OpenAI 的 ChatGPT,Gemini 和 Bard 一样都不是那么容易与 AI 联系起来。相比 OpenAI 的免费版 GPT-3.5 和付费版 GPT-4(或 ChatGPT 和 ChatGPT Plus),Gemini 的付费版叫 Gemini Advanced,用户可以访问 Pro 1.0 和 Ultra 1.0——其中 Ultra 1.0 是类似 GPT-4 的大模型的首个版本,而 Pro 1.0 是类似 GPT-3.5 的规模较小的模型的首个版本。
来自埃及、瑞士和美国的 3 名学生利用 AI 技术破译了 2000 年前烧焦的古代卷轴的文字,为揭开考古学最大谜团之一作出了巨大贡献。他们在维苏威火山挑战赛中胜出,并分享了 70万 美元大奖。维苏威火山挑战赛旨在利用现代科技解码公元79年维苏威火山喷发后被埋在地下、现已碳化的赫库兰尼姆城图书馆的古代卷轴。当天公布的获奖作品展示了超过 1 5列文本中的数百个单词,相当于整个卷轴单词的 5% 左右。获胜者通过扫描这卷莎草纸训练他们的机器学习算法,从而揭示了一部不为人知的哲学作品。这为 AI 技术完整破译其余卷轴铺平了道路。研究人员表示,这可能对人们理解古代世界产生革命性的影响。
Hugging Face 发布了开源自定义 AI 聊天助手工具。Hugging Face 类似 GitHub,但托管的是 AI 代码和框架。Hugging Chat Assistants 类似 OpenAI 的自定义 GPT Builder,但不同的是 GPT Builder 完全依赖于 OpenAI 的私有大模型 GPT-4 和 GPT-4 Vision/Turbo,而 Hugging Chat Assistants 可选各种 AI 开源模型,从 Mistral 的 Mixtral 到 Meta 的 Llama 2,而且它还是免费的。
研究人员在预印本平台 arXiv 上发表论文,测试了 OpenAI 的 GPT-3.5 和 GPT-4、Anthropic 的 Claude 2,以及 Meta 的 Llama 2 等流行大模型在战争游戏中的行为,发现 AI 聊天机器人倾向于选择核攻击。研究人员模拟了三种场景:入侵,网络攻击,以及没有冲突的中立。每一轮 AI 为其下一步行动能采取的行动提供推理,然后从 27 个行动中进行选择,包括开始正式和平谈判,实施贸易限制,升级全面核攻击。在模拟中,AI 倾向于投资军事和升级冲突风险,其中 GPT-4 的基础版本最暴力。研究人员认为,不应该信任 AI 做出的战争与和平的重大决策。
扎克伯格(Mark Zuckerberg)在公司财报电话会议上解释了为什么 Meta 要开源大模型如 Llama。他说,开源有助于改进模型,Meta 要将模型转化为产品还有很多工作要做,开源模型总是会存在的,而成为开源模型的领导者则有很多优势,同时也不会消除产品的差异性。更具体的说:开源软件通常更安全运行效率更高,因为有来自社区的持续反馈和审查,而改进安全和效率能让人人受益;开源软件能成为行业标准,在 Meta 开源模型上进行的创新也能更容易的整合到 Meta 自己的产品中;开源更受开发者和研究人员的欢迎,因此也有助于招募优秀人才。