文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 使用开源并不是因为便宜 (1 points, 一般) by Craynic 在 2024年04月18日13时19分 星期四 评论到 李彦宏声称开源大模型更昂贵
- 火星的起源找着了 (1 points, 一般) by 18611782246 在 2024年04月15日21时15分 星期一 评论到 水星可能曾和地球一样大
- (1 points, 一般) by solidot1713165490 在 2024年04月15日15时19分 星期一 评论到 美国议员呼吁禁止进口中国制造的电动车
- AI 就像拼音输入法 (1 points, 一般) by jerry 在 2024年04月10日19时48分 星期三 评论到 Google 宣布辅助编程用的开放大模型 CodeGemma
- (1 points, 一般) by solidot1563266937 在 2024年03月02日08时20分 星期六 评论到 美国总统称中国联网汽车有国家安全风险
- You either die a hero (1 points, 一般) by lot 在 2024年02月29日13时34分 星期四 评论到 空气污染与严重痴呆症相关
- 只是从众 (1 points, 一般) by scottcgi 在 2024年02月27日00时40分 星期二 评论到 共情能传播,人能通过观察环境和其他人获得或失去同情心
- 有误 (1 points, 一般) by 陈少举 在 2024年02月23日10时04分 星期五 评论到 Google 暂停了 Gemini 的图像生成功能
- (1 points, 一般) by mirus 在 2024年02月22日14时34分 星期四 评论到 美国阿拉巴马州最高法院裁决冷冻胚胎是“儿童”
- 应该是137光年 (1 points, 一般) by solidot1707403802 在 2024年02月08日22时50分 星期四 评论到 NASA 在 137 亿光年外发现一颗位于宜居带的超级地球
易于使用的模型管理应用 Ollama 发布了 Windows 预览版,Windows 用户可以在本地创建和运行大模型。目前该版本只支持英伟达的 GPU,需要 CPU 支持 AVX 和 AVX2 等指令集。开发者表示对 AMD GPU 的支持还在开发之中,如果用户有能力可以直接从源码去构建支持 AMD GPU 的版本。
社媒平台 Reddit 与一家 AI 公司签订合同使用其平台内容训练模型。该 AI 公司未具名,Reddit 未来可能会签署更多类似的合同。Reddit 此举可能会在其用户中间再次引发争议。Reddit 不生产内容,它的所有高质量内容都是由其用户产生和管理的。去年 Reddit 宣布对 API 访问收费时曾引起社区的大规模的抗议。据彭博社报道,最新的交易根据年化基础价值约 6000 万美元。
美国专利商标局(USPTO)拒绝了 OpenAI 的 GPT 商标申请,认为 GPT 属于描述性术语,不能注册为商标。GPT 代表 Generative pre-trained transformers,是一种深度神经网络架构,基于 Google 研究员在 2017 年公布的深度学习架构 Transformers。OpenAI 申请商标旨在禁止其他人将其模型称为 GPT X 或后缀为 GPT 的名字。USPTO 去年 10 月已经拒绝了一次,这次是最终裁决,它认为 GPT 没有达到注册商标的标准。而 OpenAI 认为它让 GPT 这一名字变得家喻户晓。USPTO 指出 GPT 已在其他情景被其他公司使用。
Google 的大模型以及 AI 聊天机器人都采用 Gemini 这一名称。目前的大模型版本号是 1.0,它的付费版叫 Gemini Advanced,用户可以访问 1.0 Pro 和 1.0 Ultra——其中 1.0 Ultra 是类似 GPT-4 的规模最大的模型,而 1.0 Pro 是类似 GPT-3.5 的中等规模模型。现在 Google 宣布了下一代的 Gemini 1.5,表示其中等规模模型 1.5 Pro 在性能上接近了上一代最大模型 1.0 Ultra,上下文窗口能达到 100 万 tokens,这意味着 1.5 Pro 能一次性处理 1 小时视频、11 小时音频、逾 3 万行代码,或逾 70 万单词。Gemini 1.5 是基于 Transformer 和 MoE 架构,感兴趣的用户需要申请加入等待名单。
OpenAI 宣布了视频生成模型 Sora,并公布了一份相关的技术报告。Sora 能生成最长 1 分钟的高清视频,OpenAI 公布了数十个示例,展现了其惊人的文本生成视频能力。大模型使用 text tokens 统一代码、数学和自然语言的不同文本形式,而 Sora 使用了 visual patches 统一了所有类型的视觉数据。OpenAI 表示,Sora 能够根据文本指令生成长达 60 秒的视频,同时保持视觉质量并遵守用户提示。Sora 可生成具有多个角色、特定类型运动以及精确主题和背景细节的复杂场景。该模型对语言有深刻理解,能够准确领会提示,生成令人信服的角色。Sora 还可以在单个生成视频中创建多个镜头,准确保留角色和视觉风格。除了能仅从文本指令生成视频外,该模型还能够利用现有的静止图像从中生成视频,精确地将图像内容动画化,也可以利用现有视频进行扩展或填充缺失的帧。Sora 仍在开发中,存在明显“弱点”,特别是在提示空间细节方面会混淆左右,也无法理解因果关系的具体实例,比如制作了一个视频,视频中有人咬了一口饼干,但之后饼干上没有咬痕。
微软正在为 Windows 11 开发类似 DLSS 的 AI 上采样技术。在现有的上采样技术中,DLSS 是英伟达私有的技术,且只支持英伟达显卡;AMD 的 FSR 为开源的,基本支持所有平台;英特尔的 XeSS 类似 FSR 也不限于支持自家的 Intel Arc 显卡。微软将其上采样技术描述为利用 AI 技术让支持的游戏运行更流畅细节更丰富。
2006 年,德国 AI 研究员 Marcus Hutter 宣布了人类知识无损压缩 Hutter 奖,总奖金 5 万欧元。2020 年奖金金额提高到 50 万欧元,而 Hutter 如今在 Google DeepMind 担任高级研究员。该奖项旨在鼓励 AI 研究,组织者认为文本压缩和 AI 是一个等价问题。用数学家 Gregory Chaitin 话说,压缩就是理解。压缩的对象是一个特定版本的英文维基百科文本,一开始是 100MB 大小,2020 年提高到 1GB,规则是每改进 x% 就获得等价比例的奖金,如改进 1% 就奖励 5 千欧元。Hutter 奖此前颁发了五次,其中四次是颁给了 Alexander Ratushnyak。去年 7 月纽约高频/算法交易和金融服务基金的量化开发者 Saurabh Kumar 将 10 亿字符压缩到 114,156,155 字节,压缩率 11.41%,比之前的记录改进了 1.04%,因此赢得了 5187 欧元奖金。时隔半年之后,Kaido Orav 的压缩程序 fx-cmix 将 10 亿字符压缩到 112 578 322 字节,比去年的纪录改进了 1.38%,获得了 6911 欧元奖励。
搜索巨人热衷于改名,现在它的生成式 AI 聊天机器人从 Bard 改名为 Gemini。相比 OpenAI 的 ChatGPT,Gemini 和 Bard 一样都不是那么容易与 AI 联系起来。相比 OpenAI 的免费版 GPT-3.5 和付费版 GPT-4(或 ChatGPT 和 ChatGPT Plus),Gemini 的付费版叫 Gemini Advanced,用户可以访问 Pro 1.0 和 Ultra 1.0——其中 Ultra 1.0 是类似 GPT-4 的大模型的首个版本,而 Pro 1.0 是类似 GPT-3.5 的规模较小的模型的首个版本。
来自埃及、瑞士和美国的 3 名学生利用 AI 技术破译了 2000 年前烧焦的古代卷轴的文字,为揭开考古学最大谜团之一作出了巨大贡献。他们在维苏威火山挑战赛中胜出,并分享了 70万 美元大奖。维苏威火山挑战赛旨在利用现代科技解码公元79年维苏威火山喷发后被埋在地下、现已碳化的赫库兰尼姆城图书馆的古代卷轴。当天公布的获奖作品展示了超过 1 5列文本中的数百个单词,相当于整个卷轴单词的 5% 左右。获胜者通过扫描这卷莎草纸训练他们的机器学习算法,从而揭示了一部不为人知的哲学作品。这为 AI 技术完整破译其余卷轴铺平了道路。研究人员表示,这可能对人们理解古代世界产生革命性的影响。
Hugging Face 发布了开源自定义 AI 聊天助手工具。Hugging Face 类似 GitHub,但托管的是 AI 代码和框架。Hugging Chat Assistants 类似 OpenAI 的自定义 GPT Builder,但不同的是 GPT Builder 完全依赖于 OpenAI 的私有大模型 GPT-4 和 GPT-4 Vision/Turbo,而 Hugging Chat Assistants 可选各种 AI 开源模型,从 Mistral 的 Mixtral 到 Meta 的 Llama 2,而且它还是免费的。
研究人员在预印本平台 arXiv 上发表论文,测试了 OpenAI 的 GPT-3.5 和 GPT-4、Anthropic 的 Claude 2,以及 Meta 的 Llama 2 等流行大模型在战争游戏中的行为,发现 AI 聊天机器人倾向于选择核攻击。研究人员模拟了三种场景:入侵,网络攻击,以及没有冲突的中立。每一轮 AI 为其下一步行动能采取的行动提供推理,然后从 27 个行动中进行选择,包括开始正式和平谈判,实施贸易限制,升级全面核攻击。在模拟中,AI 倾向于投资军事和升级冲突风险,其中 GPT-4 的基础版本最暴力。研究人员认为,不应该信任 AI 做出的战争与和平的重大决策。
扎克伯格(Mark Zuckerberg)在公司财报电话会议上解释了为什么 Meta 要开源大模型如 Llama。他说,开源有助于改进模型,Meta 要将模型转化为产品还有很多工作要做,开源模型总是会存在的,而成为开源模型的领导者则有很多优势,同时也不会消除产品的差异性。更具体的说:开源软件通常更安全运行效率更高,因为有来自社区的持续反馈和审查,而改进安全和效率能让人人受益;开源软件能成为行业标准,在 Meta 开源模型上进行的创新也能更容易的整合到 Meta 自己的产品中;开源更受开发者和研究人员的欢迎,因此也有助于招募优秀人才。
Google Bard 聊天机器人加入了 AI 图像生成功能,在功能上赶上了主要竞争对手 ChatGPT Plus。Bard 用户能使用 Google Imagen 2 文本图像模型生成图像,现在 Bard 使用的大语言模型 Gemini Pro 集成了图像生成。ChatGPT Plus 的大模型是 GPT-4,通过集成 DALL-E 3 文本图像模型而允许用户直接生成图像。但 Bard 的图像生成功能不需要付费,而 ChatGPT Plus 是付费订阅服务。
马斯克(Elon Musk)的 X 屏蔽了对斯威夫特(Taylor Swift)的搜索,此前使用 AI 创建的这位流行歌星的露骨色情在该平台上广泛传播。这起事件是社媒如何艰难对付所谓深度伪造内容的最新例子:滥用 AI 生成的逼真图像和音频,在未经本人同意的情况下描绘知名人士处于有失体面或误导性的情境。目前在 X 上搜索 Taylor Swift 或 Taylor AI 等关键词都不会返回任何结果,意味着有关斯威夫特的合法信息也都无法搜索到。X 的业务运营主管 Joe Benarroch 表示这是一项临时行动。
苹果 iOS 17.4 的首个 Beta 版本中发现了与大语言模型相关的代码。苹果代码中包含了名叫 SiriSummarization 的私有框架,能调用 OpenAI 的 ChatGPT API。苹果不太可能会在正式版本中使用 ChatGPT 支持其 AI 功能,它可能是在测试自己的大模型,然后与 ChatGPT 的结果进行对照。iOS 17.4 代码显示苹果在测试四种不同的大模型,其中之一是此前披露过的 Ajax。苹果在测试两个版本的 AjaxGPT,其中之一在设备上进行处理,另一个可能是云端。
艺术界公布了一份 1.6 万名艺术家的名单,号召艺术家们团结起来对抗提供文本图像生成服务的 AI 公司如 Midjourney。部分英国艺术家已经联络美国律师,讨论加入针对 Midjourney 和 Stability AI 等公司的集体诉讼,而其他英国艺术家则表示考虑在英国提起相应诉讼。艺术家们的投诉称,虽然被告喜欢用高深的词语去形容他们的 AI 图像产品,但现实更卑鄙更肮脏:AI 图像产品被视为是洗版权的工具,向客户承诺艺术的好处而不需要向艺术家支付费用。艺术家们发现,Midjourney 会生成与他们的原始作品非常相似的图像,他们认为这是复制。
《原子科学家公报(Bulletin of the Atomic Scientists)》今年的末日时钟仍然停留在距离午夜 90 秒。末日时钟旨在衡量人类文明距离灭绝有多远。今年的《原子科学家公报》将 AI 添加到对人类构成存在性威胁的名单之中,但并没有因此拨快时钟,可能是因为 AI 尚未先进的真的会威胁到人类。
英伟达发布了新驱动 551.23 Game Ready,其中包含了一项新功能 RTX Video HDR,使用 AI 将 SDR 色彩空间视频转换为 HDR。用户所需要的是拥有 RTX 显卡,兼容 HDR10 的显示器,以及在 Windows 中启用 HDR。Video HDR 功能支持 Microsoft Edge 和 Google Chrome,用户的显卡至少需要 RTX 20 系列,它利用了 GPU 的 Tensor Core(张量计算核心)。
1 月 17 日日本文学振兴会主办的第 170 届芥川奖和直木奖评选会在日本东京筑地的日料店“新喜乐”举行。九段理江(33岁)的小说《东京都同情塔》(《東京都同情塔》,《新潮》2023年12月刊)获得芥川奖,河崎秋子(44岁)的《相残》(《ともぐい》,新潮社出版)和万城目学(47岁)的《八月的御所运动场》(《八月の御所グラウンド》,文艺春秋出版)获得直木奖。《东京都同情塔》以另一个世界的东京为舞台,该世界的东京按照现实中作废的建筑师扎哈·哈迪德(Zaha Hadid)的方案建造了新国立竞技场。作品中出现了主人公与 AI 对话的场面。据九段理江介绍,她在写作过程中实际使用到了生成式 AI,作品中 5% 左右的内容采用了生成式 AI 如 ChatGPT 生成的句子。她同时称,“今后打算与 AI 友好相处,希望能借助 AI 来发挥自己的创造性”。
MIT 一项调查 AI 取代人类工作可行性的研究发现,AI 无法以符合成本效益的方式取代大部分人类工作。研究人员对美国各种工作自动化的成本吸引力进行了建模,重点是利用计算机视觉的各项工作。他们的研究发现,以美元工资计算,只有 23% 的工人能被有效取代。对于大部分工作,AI 辅助视觉识别的安装和操作成本昂贵,人类工作更经济。在零售、运输和仓储等领域计算机视觉的成本效益比更合算,沃尔玛和亚马逊等巨头在这些领域占主导地位。