文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 错别字 (1 points, 一般) by 陈少举 在 2024年11月02日23时42分 星期六 评论到 Linus Torvalds 用电动汽车取代了燃油汽车
- BaD kEyBoArD: tYpO (1 points, 一般) by lot 在 2024年09月25日21时26分 星期三 评论到 美国汽车召回愈五分之一是修复软件
- Guo farm accumulated wealth, the ants lost all the (1 points, 一般) by solidot1727141937 在 2024年09月24日09时39分 星期二 评论到 日本科学家用猫制作 iPS 细胞
- 但是又快又便宜 (1 points, 一般) by Craynic 在 2024年09月09日13时12分 星期一 评论到 澳大利亚政府研究发现 AI 在概述上的表现比人类差
- (1 points, 一般) by gashero 在 2024年09月04日12时41分 星期三 评论到 众多高校撤销外语专业
- 让他们贴支付宝或微信捐款的方式 (1 points, 一般) by solidot1725066425 在 2024年08月31日09时08分 星期六 评论到 KDE 将每年通过桌面通知请求一次捐赠
- 更现代? (1 points, 一般) by Craynic 在 2024年08月28日13时15分 星期三 评论到 微软撤回了弃用控制面板的声明
- 对延迟退休的错误理解 (1 points, 一般) by solidot1723550599 在 2024年08月13日20时09分 星期二 评论到 中国人 50 岁后还能健康工作多少年?
- (1 points, 一般) by solidot1723275683 在 2024年08月10日15时45分 星期六 评论到 甜味剂赤藻糖醇可能增加心血管疾病风险
- 不值得信任google (1 points, 一般) by solidot1722426862 在 2024年07月31日19时56分 星期三 评论到 Chrome 服务故障导致部分用户无法访问保存的密码
距离 3 月 16 日百度推出类 ChatGPT 聊天机器人还有一周时间,该公司员工表示,他们正抓紧时间赶在发布最后期限前完成任务,而被称为文心一言(Ernie Bot)的 AI 聊天机器人仍难以完成一些基本功能。为了赶上发布,数百名员工在夜以继日地工作。一些员工说,他们没有足够的时间来打造一款功能完善的产品。百度计划分阶段推出该产品,首先向部分用户开放公测。知情人士称,春节假期过后,李彦宏要求包括自动驾驶部门在内的整个公司的 AI 研究团队将他们最强大的计算机芯片英伟的 A100 支援给文心一言的开发。去年年底实施的美国芯片制裁令禁止中国公司购买新的 A100。
Google 和柏林科技大学的一组研究人员透露了可用于控制机器人的多模态 Embodied 视觉语言模型(VLM)PaLM-E,有 5620 亿个参数,融合了视觉和语言处理。当用户发出“高阶指令”,如“将抽屉里的米片拿过我”, PaLM-E 能为装备机械臂的移动机器人平台生成一个行动计划,并自行执行。它执行不同任务不需要预先或重复训练。消除数据预处理或注释给予了机器人更强大的自主控制。PaLM-E 是基于 Google 现有的大语言模型 PaLM,通过加入感觉信息和机器人控制使其有具身性(embodied) 。它能与处理语言的相同方式理解感觉信息。
Meta 最近宣布了它的大语言模型 LLaMA,其参数规模从 70 亿到 650 亿参数不等,该模型的一大优势是能运行在单张显卡上。Meta 还没有开源 LLaMA,而是通过邀请制的方式出于研究的目的将源代码提供给社区。但 Meta 控制 LLaMA 访问的努力显然是徒劳的,有匿名用户通过 BT 种子公开了 LLaMA-65B——有 650 亿个参数的 LLaMA,容量为 220GB。它已被确认是真实的,已有用户在单张显卡上运行了 LLaMA,结果相当出色,这位用户使用的显卡是服务器级别的英伟达 A100 80GB。虽然模型遭到泄露,Meta 表示会继续与挑选的研究人员共享 LLaMA。
Google 宣布它正朝着支持一千种语言的大 AI 模型的目标前进。搜索巨人是在去年 11 月宣布千种语言倡议(1,000 Languages Initiative),旨在构建一个机器学习模型能翻译世界上最常用的 1000 种口语,给全世界居民带来更大的包容性。本周一,Google 分享了其 Universal Speech Model(USM)的更多信息。USM 是一个语音模型家族,有 20 亿个参数,使用 1200 万小时的语音和逾 300 种语言的 280 亿文本语句训练。Google 研究人员在预印本平台 arXiv 上发表了论文《Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages》,利用无标签多语言大数据集预训练模型,在较小的有标签数据集上微调,使之能识别代表性不足的语言。USM 已被 YouTube 用于生成隐藏式字幕,它还支持自动语音识别(ASR),自动检测和翻译语言,包括英语、普通话、阿姆哈拉语、宿务语、阿萨姆语等。现在 USM 支持逾 100 种语言,将作为一个基础去构建更庞大的语言系统。
瑞银估计,OpenAI 的 AI 聊天机器人 ChatGPT 在今年 1 月吸引了逾一亿用户。在此之后,更多初创公司试图将这一热潮带入商业市场,以 ChatGPT 语言模型为基础建立企业应用,或利用类似的生成式 AI 功能。根据市场分析机构 PitchBook 的数据,去年全球风投通过 78 笔交易向开发生成式 AI 软件的初创企业投入了 13 亿美元。投资规模接近过去五年类似初创企业获得的资金总额,而且是在风投交易普遍放缓的情况下发生的。
当 OpenAI 在 2022 年 11 月发布 ChatGPT 时它并没有预料到这个 AI 聊天机器人会取得难以想象的成功。OpenAI 内部将之视为研究预览,旨在收集公众的反馈消除部分缺陷。参与开发 ChatGPT 的科学家 Liam Fedus 说,我们不想将其夸大为一次巨大的基础性突破。MIT 科技评论采访了 OpenAI 的科学家以及联合创始人 John Schulman,揭示 ChatGPT 的开发过程和技术细节,介绍 ChatGPT 是如何构建的。自去年 11 月以来,OpenAI 已经多次更新了 ChatGPT,主要是通过对抗性训练阻止用户诱骗聊天机器人绕过限制——这种做法被称为越狱。
对于 ChatGPT 的巨大成功,OpenAI 团队也有几分感到不解,因为 ChatGPT 使用的技术都不是新的,ChatGPT 使用了微调版的 GPT-3.5,而 GPT-3.5 是 2020 年发布的 GPT-3 的更新版,OpenAI 在 2022 年 1 月发布了微调版 GPT-3.5 的预览。相关 API 也早就发布了,不过这些都不是面向公众的。
开源 AI 文本图像模型 Stable Diffusion 的开发商 Stability AI 发布了 Stability for Blender,为开源 3D 设计软件 Blender 提供了官方的生成式 AI 插件,允许 Blender 用户直接在软件内使用文本描述生成图像。Blender 有第三方的 Stable Diffusion 插件,而官方的插件应该会表现更好,它还承诺会定期更新。该插件还允许用户使用现有的渲染创建图像,无需重建场景的情况下实验不同风格。Stability for Blender 免费,使用插件甚至无需独显,只需要联网和获得 Stability API 密钥。
电邮应用 BlueMail 在最新更新中引入了生成式 AI,但苹果决定推迟批准应用的更新,理由是担心 AI 可能生成少儿不宜的内容。文件显示,苹果应用审查小组表示,由于该应用可能产生不适合所有受众的内容,BlueMail 应将其年龄限制提高到 17 岁及以上,或进行内容筛查。苹果公司设在 17 岁及以上用户的年龄限制针对的是可能包含攻击性语言、性内容和提及毒品等内容的应用程序类别。BlueMail 开发商 Blix 联合创始人 Ben Volach 表示,这项要求不公平,其他使用类似 AI 功能的应用软件没有年龄限制,并已开放苹果公司用户使用。
微软研究人员在预印本网站 arXiv 发表论文,介绍了它的多模大语言模型 Kosmos-1,能理解图像内容,解决视觉难题,执行视觉文本识别,通过视觉 IQ 测试,理解自然语言指令。研究人员认为,集成文本、音频、图像和视频等不同输入模式的多模 AI 模型是构建通用 AI(AGI)的关键一步。研究人员称,作为智能的基本组成部分,多模感知是实现 AGI 所必不可少的。Kosmos-1 能分析图像并回答关于相关问题,能从图像中读取文本,为图像写标题,以 22-26% 的准确率完成视觉 IQ 测试。微软使用来自 Web 的数据训练 Kosmos-1,包括 The Pile(800GB 容量的英文文本资源)和 Common Crawl。训练后通过一系列测试去评估了 Kosmos-1 的能力。微软称,在众多测试中,Kosmos-1 的表现超过了目前最先进的模型。
OpenAI 向开发者提供了 ChatGPT 使用的 gpt-3.5-turbo 模型和 Whisper 语音文本转录模型的 API,允许开发者将其 API 整合到他们自己的应用中,价格是每 1k token(大约为 750 个字) 为 0.002 美元,为现有 GPT-3.5 API 费用的十分之一。OpenAI 称它通过优化将 ChatGPT 所需的计算成本减少了 90%,它还修改了服务条款,允许开发者退出数据收集,同时增加了一个 30 天的数据保留政策。
OpenAI 处于聊天机器人军备竞赛的中心位置,无人再质疑它的生成式 AI 是一门大生意。OpenAI CEO Sam Altman 在最近的一篇博文中表示,该公司的通用人工智能——人类水平的机器智能——将会让全人类受益,而人类的未来将会由人类 aka OpenAI 来决定。这篇博文以及 OpenAI 最近的行动都突出了该公司的基调和使命与其成立之初的承诺日益相去甚远。OpenAI 创办于 2015 年,在成立宣言中,它表示致力于“以最可能造福全人类的方式推进数字智能,不受财务回报的限制。因为研究免于财务责任,因此可专注于对人类的积极影响”,OpenAI 的所有研究论文、代码和专利都将与全世界共享。但在 8 年之后,OpenAI 走向了闭源和盈利性,不再透明也不再专注于对人类的积极影响。OpenAI 是在 2019 年去除了非盈利状态,开始接收投资,为投资者提供“上限为投资额 100 倍”的利润。
微软官方博客宣布了 Windows 11 在 2023 年的首个大更新,Windows 11 v22H2 用户现在可以通过手动检查 Windows Update 下载,或者等待 3 月的例行安全更新(第二个星期二)。其中最引入瞩目的功能是整合了 AI 的新必应和基于 OpenAI ChatGPT 技术的 Bing Chat。其它更新包括记事本应用加入了暗模式支持,多标签支持——可以在单一窗口打开多个标签;设置应用包含了能耗推荐部分,优化电池续航;等等。
英伟达释出最新版驱动,为 RTX 30 和 40 系列显卡加入了视频超分辨率(RTX Video Super Resolution)功能,类似游戏使用的深度学习超级采样(Deep Learning Super Sampling,DLSS),RTX VSR 利用 AI 技术将 360p 到 1440p 分辨率的视频放大到最高 4K 分辨率。RTX VSR 此前只支持英伟达的 Shield TV,现在扩大到支持最新版本的 Chrome 和 Edge 浏览器。英伟达称,近八成的互联网带宽被用于串流视频,而九成的视频是用 1080p 或更低分辨率串流。当用户在高于 1080p 的显示屏上观看视频,浏览器使用简单的放大技术让视频分辨率匹配显示屏的分辨率,导致的结果是视频经常有模糊。
Meta 的大语言模型 LLaMA 最近引起了广泛关注,它的一大优势是参数规模更小但性能强于 OpenAI 的 GPT-3 模型,而且能运行在单张显卡上,让普通消费者的硬件也有可能提供类似 ChatGPT 性能的 AI 聊天机器人。LLaMA 是一组大语言模型的集合,其参数规模从 70 亿到 650 亿,它最新的 LLaMA-13B 模型有 130 亿个参数,不到 GPT-3 模型 1750 亿个参数的十分之一。现在 Nebuly AI 推出了首个基于人类反馈强化学习的 LLaMA AI 聊天机器人开源实现 ChatLLaMA。
Meta 上周宣布了一个新的大语言模型 LLaMA-13B,称其参数规模更小但性能强于 OpenAI 的 GPT-3 模型,且它能运行在单张显卡上。LLaMA 语言模型的规模从 70 亿到 650 亿参数,而 OpenAI GPT-3 模型有 1750 亿个参数。Meta 使用 Common Crawl、维基百科和 C4 等公开数据集训练其模型,它有可能公开其源代码和权重。今天绝大部分最先进的语言模型都没有公开源代码。Meta 称 LLaMA 为其基础模型,它将是未来该公司更先进模型的基础。它的 LLaMA-13B 模型在 BoolQ、PIQA、SIQA、HellaSwag、WinoGrande、ARC 和 OpenBookQA 等标准测试中的表现超过了 GPT-3。GPT-3 等衍生模型需要数据中心规模的计算能力进行处理,而 LLaMA-13B 能运行在单张显卡上,为在消费者硬件上实现类似 ChatGPT 的性能打开了大门。
Resumebuilder.com 调查了 1000 名计划使用或已经使用 ChatGPT 的企业领导人,发现近半数企业部署了 ChatGPT,部分企业还表示已经开始用 ChatGPT 取代员工。企业高管谈论了 ChatGPT 的用途,其中 66% 用于写代码,58% 用于文案和内容创作,57% 用于客户支持,52% 用于写会议摘要和其它文档。在招聘过程中,使用 ChatGPT 的企业还有 77% 用它撰写工作职位描述、66% 用它起草面试申请书,65% 回应求职书。大部分企业领导人对 ChatGPT 的表现印象深刻,55% 的人认为工作质量“出色”,34% 的人认为“非常好”。几乎所有使用 ChatGPT 的公司表示节省了资金,48% 表示节省逾 50,000 美元,11% 表示节省逾 100,000 美元。这些企业中 93% 还计划扩大对 ChatGPT 的使用。
AI 终于展现出了商业潜力,但我们可能低估了它的影响。除非 AI 是开源的,且由终端用户控制,否则除了 AI 的软件供应商,其他人的未来可能是暗淡的。像 GPT-3 之类的大语言模型能用于扩展人类的工作或帮助完成枯燥的工作,就像程序员用 GitHub 的 AI 编程助手 Copilot 加快工作效率,律师、医生、会计师、营销人员、销售、政治演讲撰稿人等都将会有自己的 AI 助手。过去二十年,智能手机、搜索引擎和社交网络从新鲜事物变成了生活中无处不在的东西,乃至于生活必用品。没有它们我们的生活几乎寸步难行。而提供这些产品的公司变得极其富有而强大,它们变成了我们生活中的隐形税,我们对此别无选择。这些产品带来的生产力提升只受益于少数人,这些企业也只雇佣少数人,绝大部分人的工资停滞不前。AI 即将成为这个名单上的最新一个。
今天的搜索引擎首先需要构建一个庞大 Web 索引,用户搜索时对索引条目进行扫描、排序和分类,最相关条目出现在搜索结果中。整个搜索过程通常不需要一秒钟。相比之下,AI 聊天机器人 ChatGPT 搜索时需要启动一个庞大的神经网络模型,产生文本,可能还需要利用搜索引擎核查事实信息。整个过程要漫长得多,花费也更多。分析师估计,大语言模型的搜索成本可能是关键词搜索的 10 倍以上,意味着数十亿美元的额外成本。如果 Google 提供了 ChatGPT 式搜索它的成本每年将增加 60 亿美元。
摩根大通公司限制员工使用 AI 聊天机器人 ChatGPT。知情人士表示,这一决定不是因为任何特定事件而进行限制,而是作为对第三方软件使用进行控制一部分。目前不知道摩根大通有多少员工在使用 ChatGPT。分析师认为银行可能是担心员工与 ChatGPT 分享了机密或私有信息。ChatGPT 在很多方面表现出色,但它给出的答案未必正确。
生成式 AI 工具的涌现让很多曾经“有心无力”的人能成为创作者。Brett Schickler 曾梦想成为作家,但从未想象过会成为真正的作家。但在了解了 ChatGPT 之后,他看到了机会,花了数小时时间创作了一本 30 页的儿童插画电子书,通过亚马逊的自出版服务在 Kindle 商店出版,售价 2.99 美元,给他带来了不到 100 美元的收入。截至 2 月中旬,在亚马逊的 Kindle 商店,有逾 200 本电子书将 ChatGPT 列为作者或合作者。鉴于许多作者可能不愿意承认或未披露他们使用了 ChatGPT,真正的数量应该会更多。