文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 错别字 (1 points, 一般) by 陈少举 在 2024年11月02日23时42分 星期六 评论到 Linus Torvalds 用电动汽车取代了燃油汽车
- BaD kEyBoArD: tYpO (1 points, 一般) by lot 在 2024年09月25日21时26分 星期三 评论到 美国汽车召回愈五分之一是修复软件
- Guo farm accumulated wealth, the ants lost all the (1 points, 一般) by solidot1727141937 在 2024年09月24日09时39分 星期二 评论到 日本科学家用猫制作 iPS 细胞
- 但是又快又便宜 (1 points, 一般) by Craynic 在 2024年09月09日13时12分 星期一 评论到 澳大利亚政府研究发现 AI 在概述上的表现比人类差
- (1 points, 一般) by gashero 在 2024年09月04日12时41分 星期三 评论到 众多高校撤销外语专业
- 让他们贴支付宝或微信捐款的方式 (1 points, 一般) by solidot1725066425 在 2024年08月31日09时08分 星期六 评论到 KDE 将每年通过桌面通知请求一次捐赠
- 更现代? (1 points, 一般) by Craynic 在 2024年08月28日13时15分 星期三 评论到 微软撤回了弃用控制面板的声明
- 对延迟退休的错误理解 (1 points, 一般) by solidot1723550599 在 2024年08月13日20时09分 星期二 评论到 中国人 50 岁后还能健康工作多少年?
- (1 points, 一般) by solidot1723275683 在 2024年08月10日15时45分 星期六 评论到 甜味剂赤藻糖醇可能增加心血管疾病风险
- 不值得信任google (1 points, 一般) by solidot1722426862 在 2024年07月31日19时56分 星期三 评论到 Chrome 服务故障导致部分用户无法访问保存的密码
OpenAI 的 ChatGPT(GPT 3 版本)是基于大语言模型,专门训练以文本形式的对话与用户互动。它不是基于多模态模型,不支持图像或语音的输入输出。如果我们想要构建一个类似 ChatGPT 的支持图像理解和生成的系统,那么可能需要使用一个多模态会话模型进行训练。但此类的训练需要消耗大量的数据和算力资源。与此从头开始构建一个全新的系统,不如站在巨人的肩膀上。微软亚洲研究院的研究人员在预印本网站 arxiv 上发表论文《Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models》,提出在 ChatGPT 和多个 Visual Foundation Models 基础上构建 Visual ChatGPT。源代码托管在 GitHub 上。
OpenAI 的 AI 聊天机器人 ChatGPT 运行在微软的 Azure 云计算平台,普通用户即使能获得 ChatGPT 使用的大语言模型 GPT-3 或 GPT-4,也不可能在家用电脑上运行它们。如果人人都能运行一个分布式计算系统,联合起来打造一个在算力上能与最强大云计算平台匹敌的平台,那么我们有可能在自己的家用电脑上运行和使用类似
ChatGPT 的 AI 聊天机器人。BigScience 社区正在开发名为 Petal 的系统,以 BitTorrent 的方式在家用电脑上运行大语言模型。Petal 可以集成最新的大语言模型,当前支持性能与 GPT-3 相近的 BLOOM-176B 大语言模型。
在去年组织的一次测试中,研究人员输入不同的提示去测试不同规模大语言模型的能力。其中之一是一个女孩和三条鱼的绘文字,询问它们描述了哪部电影。最小的模型产生了超现实的答案:“The movie is a movie about a man who is a man who is a man”。中等复杂度的模型猜测是《Emoji大电影》,最复杂的模型一锤定音《海底总动员(Finding Nemo)》。计算机科学家对大语言模型的表现非常吃惊。语言模型已经研究了几十年,五年前最强大的模型是基于递归神经网络,本质上是根据提供的文本字符串猜测下一个单词是什么,所谓递归是从输出中不断学习,利用反馈去改进性能。2017 年 Google Brain 的研究人员提出了被称为 transformer 的新型架构。递归网络是逐字分析句子,transformer 则是同时处理所有单词,它能并行处理大块文本。Transformers 能通过增加模型的参数快速扩展语言模型的复杂度。2020 年 OpenAI 的研究人员发现随着参数规模的增加语言模型改进了其能力和准确度。但大语言模型也同时带来了一些始料未及的东西。研究人员发现大语言模型产生了数以百计的“新”能力,这种行为被称为涌现。研究人员如今正努力去识别新的涌现能力,以及找出背后的原因——本质上是去尝试预测不可预测性。了解涌现可揭示出 AI 和一般机器学习深层问题的答案,如复杂模型是真的在做新事情,还是极其擅长统计。它还可帮助研究人员去利用潜在的益处和减少涌现风险。
今天的生成式 AI 已经能创作出不逊于人类的文本和图像,那么这些作品能否受到版权保护?美国国会图书馆版权办公室发表了一份指南,阐述了登记 AI 相关作品版权的要求。版权办公室坚持了对现有版权法的定义:即必须包含有人类作者,纯 AI 作品不受版权保护。它举例说收到了一份使用 AI 文本图像服务 Midjourney 生成图像的版权登记,它的裁决是该作品属于绘图小说——因为它包含了人类作者的文本和 AI 生成的图像,但图像本身不受版权保护。如果一个作品没有人类元素完全由机器生成,那么版权办公室不会登记它。如果 AI 接受人类的提示生成了复杂的文本、视觉或音乐作品,版权办公室认为人类的提示像是给予艺术家的委托指示,如何输出完全由机器决定,那么该作品不是由人类输出,不受版权保护,它不会接受版权登记。
微软将 ChatGPT 使用的大语言模型带到了它的办公软件套装。软件巨头宣布了 Microsoft 365 Copilot,类似 GitHub Copilot,使用 AI 帮助办公软件用户提高生产力。365 Copilot 可以按照用户要求生成文档和演示文稿,分析 Excel 数据,摘要 Outlook 邮件,总结 Teams 中的讨论要点,自动化重复性工作,等等。微软将在未来几个月将 Copilot 提供给 Microsoft 365 用户,软件巨人尚未披露是否需要额外付费。
当企业还在努力搞明白 ChatGPT 之类的 AI 工具如何影响工作方法时,日本一家金融科技公司已经开始强制要求新员工使用 AI,它甚至还会进行测试。总部位于东京的 LayerX 在招聘广告中明确表示将会测试应聘者使用 OpenAI 和 Notion 的 AI 工具。LayerX 的 HR 主管 Takaya Ishiguro 说,我们承认 ChatGPT 并不完美,但过于害怕新技术也是危险的。公司的招聘者将会评估应聘者向 AI 聊天机器人提出问题的能力,同时还会要求应聘者展开研究识别 AI 技术的限制。ChatGPT 在产生错误的答案时也会表现得自信满满,这影响了企业采用它的意愿。
PyTorch 基金会宣布释出 PyTorch 2.0。PyTorch 是一个开源 Python 机器学习库。新版的变化包括:稳定版 Accelerated Transformers(前称 Better Transformers),torch/compile 作为其主 API,Nvidia 和 AMD GPU 将依靠 OpenAI Triton 深度学习编译器生成高性能代码隐藏底层硬件细节,Metal Performance Shaders 后端在 macOS 平台提供了 GPU 加速的 PyTorch,在 AWS Graviton CPU 上提供更快的推理性能,等等。更多可浏览发布公告。
根据发表在 PNAS 上的一项研究,在 DeepMind 的 AlphaGo 击败最强大的人类棋手之后,人类棋手通过与 AI 棋手对弈而取得了显著进步。香港城市大学的研究人员收集了 1950 年至 2021 年间职业棋手作出的 580 万次移棋决策的数据集。然后使用围棋人工智能帮助计算一种称为“决策质量指数”(DQI)的指标。该指标用于评估一步棋的质量。如果没有尝试与之前的动作相结合,即认为一个动作是“新颖的”。分析发现,人类棋手对 2016 年围棋人工智能的出现作出了明显更好、更新颖的反应。1950 年至 2015 年间,围棋水平的改善相对较小,年度 DQI 中值在 -0.2 至 0.2 之间波动。而在 2016 年后,DQI 跃升,2018 年至 2021 年间的中值超过 0.7。
Google 开始了一切产品都整合生成式 AI 的尝试。搜索巨人宣布将在包括 Google Docs 和 Gmail 在内的 Google Workspace 产品中加入 AI。Docs 和 Gmail 集成的生成式 AI 将可以帮助用户起草初稿,润色文字,在 Gmail 中它能对邮件进行回复总结和优先处理,在 Docs 中校对和重写文章,能在 Slides 中自动生成图像、声频和视频将用户的创意变成现实,在 Sheet 中通过自动完成、公式生成和上下文分类从原始数据中得到洞察和分析。Google Workspace 从 3 月 14 日开始月费上涨二成。
OpenAI 正式公布了它的多模态大语言模型 GPT-4。GPT-4 是多模态模型,这是和 GPT-3 的一个显著区别,它的输入输出不再局限于文本,可以是图像或者是视频。简单对比的话 ,GPT-4 和 GPT-3.5 的差别可能很小,OpenAI 称当任务的复杂性达到足够的阈值,GPT-4 优势就会非常明显,它更可靠,更富有创造性,能处理更细微的指令。GPT-3.5 有 1750 亿个参数,GPT-4 的情况未知,可能更多,它的数据训练集仍然停留在 2021 年 9 月,但它在测试中的表现远胜于 GPT-3.5。OpenAI 称它在律师考试中的得分能进入前 10%,而 GPT-3.5 是后 10%;在生物奥林匹克竞赛 USABO Semifinal 2020 和 GRE 写作中能接近满分。但它也存在与 GPT-3.5 类似的局限性,就是会产生错误的答案会胡说八道。OpenAI 演示了 GPT-4 处理税务问题、图像识别等问题的能力。目前 GPT-4 还没有开放给公众试用。
皮尤研究中心(Pew Research Center)调查了 11,004 名美国成年人对周围产品使用 AI 的认识。这次调查是在去年 12 月进行的,当时 ChatGPT 还没有成为最热门的科技话题。调查发现,一个人受教育程度越高,或家庭收入越高,那么更有可能识别 AI。一个人使用互联网的次数越多,也越可能认识到 AI 的使用。在被调查的人中,约四分之一听过 AI,15% 从未听过。对于 AI 可能带来的隐患,38% 的人担忧多于兴奋,15% 的人兴奋多于担忧。人们对 AI 的了解越深入,那么他们就越可能兴奋不已。
提供机器人律师服务的创业公司DoNotPay 被芝加哥律师事务所 Edelson 起诉无证执业。DoNotPa 的服务被认为将减少客户聘请律师的机会,对律所的生存构成了挑战。Edelson 在诉状中称,对客户来说,DoNotPay 不是一个机器人,不是律师,也不是一个律所。DoNotPay 没有法学学位,不受任何司法管辖,也没有任何律师的监督。DoNotPay 成立于 2015 年,最初是一款帮助客户处理停车罚单的应用,后来扩大了业务范围,使用 AI 帮助客户处理一系列法律服务。DoNotPay 否认了指控,表示将会积极为自己辩护。
单机版大语言模型正快速向我们走来。自 ChatGPT 发布以来,一些人就对 AI 模型内置的对敏感话题的限制以及需要为使用 API 向 OpenAI 付费而感到沮丧。大语言模型的开源方案也存在,但距离普通人很遥远,它们或者需要大量的 GPU 显存和存储空间,或者在消费级硬件上达不到 GPT-3 级别的性能。但 Meta 的 LLaMA 改变了这一现状。2 月 24 日 Meta 宣布了它的大语言模型 LLaMA,参数规模在 70 亿到 650 亿之间,它还没有开源,只是提供给一部分研究人员预览。但在 3 月 2 日有人通过 BT 泄露了 LLaMA。随后开源社区迅速围绕 LLaMA 进行优化和开发,使其能运行在普通人能访问的硬件上。3 月 11 日 Georgi Gerganov 创建了能运行在 M1 Mac 的 llama.cpp;12 日 Artem Andreenko 在 4GB 内存的树莓派 4 上运行 LLaMA 7B(生成速度 10 sec/token);13 日有人设法在 Pixel 6 手机上运行 llama.cpp;同一天斯坦福研究人员发布了 LLaMA 7B 的优化版 Alpaca 7B,性能接近 OpenAI 的 text-davinci-003 但硬件需求低得多。
两年前,两名 Google 研究员开始力促公司发布一款聊天机器人,它依托的技术在当时是所向披靡的。他们开发的那款对话式应用可以自信地进行哲学辩论,拿它最喜欢的电视节目打趣,还能即兴创作有关牛和马的谐音梗。
据知情人士说,两名研究员告诉同事们,像他们开发的这种由最新 AI 驱动的聊天机器人将彻底改变网络搜索和人机交互方式。他们催促 Google 允许外部研究人员使用该聊天机器人,尝试将其整合到虚拟助手 Google Assistant 中,随后还要求 Google 进行公开演示。Google 高管多次回绝了他们,至少有一次说这个项目不符合公司关于 AI 系统安全性和公平性的标准。两人在 2021 年辞职创业从事于类似技术。Google 帮助开创了现代人工智能时代,而如今,它对这项技术的谨慎做法在一位宿敌的挺进下面临考验。
作为与微软广泛合作的一部分,通用汽车正探索将 ChatGPT 带到汽车上。通用汽车副总裁 Scott Miller 上周在接受采访时表示,ChatGPT 将无处不在。Miller 称,通过 ChatGPT 车主可以查询汽车手册中使用特定功能的信息,给车库门编码,或从日历中导入日程安排。汽车司机的 AI 助手将不同于其它聊天机器人如 Bing Chat,通用正努力在 ChatGPT 使用的大语言模型上加入一个汽车特定层。
今天回顾过去,创业公司 Stability AI 去年 8 月开源文本图像生成模型 Stable Diffusion 代表着一个重要时刻,它推动了图像生成模型的创新,这一过程至今还在持续。尤其是最近 ControlNet 的出现让 Stable Diffusion 在能力上领先于竞争的模型 Midjourney 和 DALL-E。 现在,大语言模型也迎来它们的 Stable Diffusion 时刻。ChatGPT 使用的 GPT-3 大语言模型在构建和运营上比图像生成模型更昂贵。GPT-3 由 OpenAI 构建和控制,没有开源,即使能获得 GPT-3 模型你也无法在商用级硬件如英伟达的 A100 GPU 上运行。但 Facebook 的 LLaMA 模型改变了这一切,你甚至可以在一台 MacBook 电脑上运行 LLaMA。
阿里巴巴、亚马逊 AWS、AMD、苹果、Arm、Cerebras、Google、Graphcore、Hugging Face、英特尔、Meta 和英伟达等行业巨头联合宣布了一个开源机器学习编译器生态系统 OpenXLA,源代码托管在 GitHub 上,包括了 XLA、StableHLO 和 IREE 等库。OpenXLA 旨在消除机器学习基础设施中的碎片化和孤立性问题,改进相关模型的可移植性、提高效率和加速产品化。
Heise 报道,微软德国首席技术官A ndreas Braun 在一场 AI 活动中提到,将于下周推出 GPT-4,“我们将在下周推出 GPT-4,它将是一个多模态模型(multimodal models),能够提供完全不同的可能性,比如支持视频。”Braun 将大语言模型(LLM)称为“游戏规则改变者”,因为它们能够使得机器以统计学的方式理解人类的自然语言。此外他表示,这项技术已经能够基本上“适用于所有语言”,例如用户可以用德语提问,并得到意大利语的答案。微软是 OpenAI 的合作伙伴。在 ChatGPT 正式发布之前,GPT-4 已经经过几个月的测试和微调,几乎已经准备就绪。三位了解 OpenA I内部运作的人士表示,该模型原本计划于今年年初发布。
在 Facebook 为代表的社交网络发展的黄金时期,Google 一度陷入恐慌,担心社交网络会吞噬一切。时任 CEO Larry Page 下令将员工奖金和社交上的成功挂钩,将所有服务都整合社交功能。结果是一团糟,这次强制性整合社交以惨败告终,Google 最终从其服务中移除了 Google+ 并将其关闭。十年前的失败剧本并没有阻止 Google 在新一轮恐慌中将其作为参考模板:搜索巨人据报道计划在所有服务中整合类似 ChatGPT 的功能。Google 在很多年里都是 AI 技术的领导者,由于担心推出不完美的产品,Google 的 AI 技术都关在实验室里。ChatGPT 的出现并在短时间里吸引了 1 亿用户,Google 不再被视为 AI 的领导者,它的股价也在股市遭受惩罚。
自 iPhone 以来,还没有一种产品像 ChatGPT 那样引发如此强烈的反响。所有人都感到焦虑不安。Google 也许比其他任何公司都更有理由对 AI 聊天机器人既爱又恨。它已宣布进入“紧急状态”,因为聊天机器人的能力可能对其 1620 亿美元的广告业务造成打击。但 Google 的云计算业务也可能是赢家,因为目前的 AI 聊天机器人是运行在云端。对网络出版商来说,一个严峻的挑战是当聊天机器人从网站上获取信息,但送到网站的访问者变少时,网站应该怎么办?《华尔街日报》已表示,用该报发表的文章来训练 AI 系统需要获得其许可。