文章提交注意事项:
请在发布文章时用HTML代码加上至少一条新闻来源的链接;原创性消息,可加入相关信息(如涉及公司的网址)的链接。有任何问题,邮件至:he.fang#zhiding.cn
注意:收到邮件乱码的用户请修改客户端的默认字体编码,从"简体中文(GB2312)"修改为"Unicode(UTF-8)"。
solidot新版网站常见问题,请点击这里查看。
Solidot 公告
投 票
热门评论
- 错别字 (1 points, 一般) by 陈少举 在 2024年11月02日23时42分 星期六 评论到 Linus Torvalds 用电动汽车取代了燃油汽车
- BaD kEyBoArD: tYpO (1 points, 一般) by lot 在 2024年09月25日21时26分 星期三 评论到 美国汽车召回愈五分之一是修复软件
- Guo farm accumulated wealth, the ants lost all the (1 points, 一般) by solidot1727141937 在 2024年09月24日09时39分 星期二 评论到 日本科学家用猫制作 iPS 细胞
- 但是又快又便宜 (1 points, 一般) by Craynic 在 2024年09月09日13时12分 星期一 评论到 澳大利亚政府研究发现 AI 在概述上的表现比人类差
- (1 points, 一般) by gashero 在 2024年09月04日12时41分 星期三 评论到 众多高校撤销外语专业
- 让他们贴支付宝或微信捐款的方式 (1 points, 一般) by solidot1725066425 在 2024年08月31日09时08分 星期六 评论到 KDE 将每年通过桌面通知请求一次捐赠
- 更现代? (1 points, 一般) by Craynic 在 2024年08月28日13时15分 星期三 评论到 微软撤回了弃用控制面板的声明
- 对延迟退休的错误理解 (1 points, 一般) by solidot1723550599 在 2024年08月13日20时09分 星期二 评论到 中国人 50 岁后还能健康工作多少年?
- (1 points, 一般) by solidot1723275683 在 2024年08月10日15时45分 星期六 评论到 甜味剂赤藻糖醇可能增加心血管疾病风险
- 不值得信任google (1 points, 一般) by solidot1722426862 在 2024年07月31日19时56分 星期三 评论到 Chrome 服务故障导致部分用户无法访问保存的密码
Alphabet 以及 Google CEO 桑达·皮采(Sundar Pichai)在接受采访时表示 Google 搜索引擎将加入 AI 聊天功能。他表示 AI 的进步将增强 Google 回答一系列搜索查询的能力。他驳斥了聊天机器人对其搜索业务构成威胁的说法,“如果说有影响的话,那就是机会空间比以前更大了。”长期以来,Google 在开发被称为大语言模型的计算机程序方面一直处于领先地位,这些模型可以用类似人类的表述处理和回复自然语言指令。但 Google 还没有应用这种技术来影响搜索的使用,皮采称这一点将会改变。
Meta 宣布了新 AI 模型 Segment Anything Model (SAM) ,能识别出图像和视频中的个别对象。代码已发布在 GitHub 上,Meta 发布了一个 DEMO 演示该功能。SAM 是一个图像分割模型,能根据用户的文本提示或点击去分离图像中的特定对象。图像分割被用于更方便的分析或处理图像,它通常需要专家的高度专业化工作,而 Meta 希望 SAM 将这一过程自动化。它将在 Apache 2.0 下公开 SAM 及其使用的数据集。
斯坦福的 AI 研究所 Institute for Human-Centered Artificial Intelligence 发布了《2023 AI Index Report》,该报告由斯坦福和 AI 公司如 Google、Anthropic 和 Hugging Face 的研究人员共同编写,认为 AI 进入了新的发展阶段,随着 AI 的开发和训练日益昂贵,企业掌握了主动权。报告指出,在 2014 年之前最先进的机器学习模型都是由学术界发布,但之后业界占据主导。2022 年业界发布了 22 个重要的机器学习模型,而学术界只发布了 3 个。构建最先进的 AI 系统需要大量的数据、计算资源和资金,相比非盈利组织和学术界,企业界优势显著。报告以最近火热的大语言模型为例,2019 年发布的 GPT-2 模型包含了 15 亿参数,训练成本估计 5 万美元。2022 年发布的 PaLM 包含了 5400 亿参数,训练成本 800 万美元。大语言模型和多模态模型日益复杂而昂贵。
对于最近火热无比的 AI 聊天机器人,中国工程院院士方滨兴表示,ChatGPT是聊天形式的软件,能给出直接答案,取代了传统教学体系,当大家习惯于查 ChatGPT,什么都问它,它什么都给解答,就会形成知识茧房,甚至“三观都会被左右”,这是一个大问题。
意大利隐私监管机构周五以涉嫌侵犯隐私为由对 OpenAI 的聊天机器人 ChatGPT 下达了禁令。意大利数据保护机构表示将调查 OpenAI 如何处理意大利用户的数据。对 ChatGPT 的禁令是临时性的,只要 OpenAI 遵守欧盟的数据保护规定 GDPR 即可。隐私监管机构称,OpenAI 大量收集和储存个人数据去训练 ChatGPT 的算法这一做法缺乏法律依据,该公司也没有正确的处理数据。ChatGPT 上周遭遇了数据泄露,暴露了用户的对话和支付信息。此外 OpenAI 没有验证用户的年龄,使得未成年人接触到不合适他们年龄的答案。OpenAI 有 20 天时间回答如何遵守欧盟的隐私规定。更新:OpenAI 遵守禁令限制意大利用户使用 ChatGPT。
AI 图像生成服务 Midjourney 以滥用为由暂停了免费试用。在这之前,利用 Midjourney v5 生成的前总统特朗普(Donald Trump)被捕和罗马天主教教皇身穿时尚夹克的 AI 图像在社交网络病毒式传播,让很多人信以为真。Midjourney CEO 和创始人 David Holz 在宣布这一决定时表示免费用户流量过大,试用遭滥用。
包括马斯克(Elon Musk)和图灵奖得主 Yoshua Bengio 在内的科技行业高管和顶级 AI 研究人员正呼吁暂停对强大的新 AI 工具的快速开发。主张暂停的这些人士表示,六个月或更长时间的暂停,将使该行业有时间制定 AI 设计方面的安全标准,从而防止风险最高的一些 AI 技术的潜在危害。《暂停巨型 AI 实验:一封公开信》并非呼吁暂停所有 AI 开发,但敦促各公司暂时停止训练比 GPT-4 更强大的系统。OpenAI 的管理人员说他们还没有开始训练 GPT-5。OpenAI 首席执行官 Sam Altman 在接受采访时表示,公司长期以来在开发时将安全作为重点,并在 GPT-4 发布前花了六个多月的时间对其进行安全测试。
根据高盛的研究,生成式 AI 能取代全球 3 亿全职工作岗位。美国和欧盟四分之一的工作能被取代,但同时它也可能会创造出新的工作岗位和提升生产力。高盛表示,如 ChatGPT 之类的生成式 AI 系统能创造出与人类产出区别不大的内容,将能推动生产力的提升,在 10 年内将全球 GDP 提高 7%。但它也会给全球劳动力市场带来巨大破坏。全世界有 3 亿全职工作面临被自动化取代,律师和管理人员的工作最有可能变得过时。美国和欧洲三分之二的工作面临某种程度的 AI 自动化,大部分人将有不到一半的工作量自动化,他们的一部分工作时间将被释放出来用于更富有生产性的工作。从事体力或户外工作的人暂时不会受到影响,但他们的工作也会面临其它形式的自动化的影响。
苏黎世大学的研究人员在预印本平台 arXiv 上发表论文,报告 OpenAI 的 AI 聊天机器人 ChatGPT 在文本标注任务中的表现超过了众包工人。大量的自然语言处理(NLP)应用需要高质量的标注数据,此类任务可根据复杂程度和规模交给亚马逊众包平台 MTurk 上的众包工人或专业的标注者去完成。研究人员使用了包含 2,382 则推文的样本,对比了 ChatGPT 和众包工人以及专业标注者的表现。结果显示, ChatGPT 在五项任务中有四项超过了众包工人,在评估一致性(intercoder agreement)上超过了众包工人以及专业标注者。更重要的是 ChatGPT 的标注成本每条不到 0.003 美元,是众包工人二十分之一。研究显示大语言模型可显著提高文本分类的效率。
2021 年,Google 研究人员在《自然》期刊上报告利用 AI 加速芯片设计。研究人员使用了 1 万张芯片设计图去训练他们的软件,基于强化学习的 AI 学习了如何在有限空间、布线和功耗下完成设计图。Google 已将这一方法应用于自己的芯片 TPU(tensor processing uni)。现在,UCSD(加州圣迭戈)计算机科学和工程学教授 Andrew Kahng 领导的一个团队尝试了重现 Google 的研究。由于 Google 以商业敏感性为由未披露模型内部工作的部分细节,研究人员花了几个月时间进行逆向工程,他们最终的模型 circuit training (CT)比使用传统方法差得多。为什么差异如此显著?一种原因被认为是 Google 利用 EDA 软件巨头 Synopsys 开发的商业软件去创造芯片逻辑门的起始布局,然后用强化学习系统优化。UCSD 团队指出 Google 没有在论文中进行披露。Google 论文的主要作者表示没有披露是因为这并不重要。他们认为 UCSD 团队的结果糟糕一则是模型没有预先训练,另一个原因是没有像 Google 那样有充足的计算能力。UCSD 团队表示没有预训练是因为无法获得 Google 使用的私有数据。
微软联合创始人比尔盖茨预言 AI 新时代正在开启,AI 的发明将和微处理器、PC、互联网和手机一样成为社会的基本组成部分。盖茨预言整个行业将会围绕 AI 重新定位,他表示自己经历了两次革命性的技术演示,第一次是 1980 年的图形用户界面,第二次是在 2022 年目睹 OpenAI 的 GPT 模型完成了 60 个 AP Bio 生物考试选择题,答对了其中 59 题。它还回答了 6 个开放性问题。专家给它的答案打了 5 分——可能的最高分,相当于在大学水平生物课上获得 A 或 A+。它关于如何安慰生病孩子父亲的答案也极其出色。整个经历令他倍感震惊。盖茨预言:操作计算机的主要方式不再是点击或按下菜单和对话框,而是简单的英文请求;人工助手(personal agent)将为你处理各种事务;AI 软件将彻底改变教和学的方式,能为每个人量身定做;AI 将加速医学研究的突破...
微软研究院的研究人员在预印本平台 arXiv 上发表论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》,称赞 GPT-4 是 AGI(通用人工智能)系统的早期不完整版本。GPT-4 是 OpenAI 最近公布的多模态语言模型,而 OpenAI 的主要合作伙伴就是微软。研究人员强调他们在测试时 GPT-4 还在开发中,他们测试使用的是其早期版本。GPT-4 比过去的模型表现出更多的通用智能,除了精通语言,GPT-4 还能解决数学、编程、视觉、医学、法律、心理学等领域的新难题。在所有这些任务中,GPT-4 的表现接近了人类水平。微软研究人员的测试显示,GPT-4 能解决 Leetcode 上的中等甚至部分高难度问题,能解决国际数学奥林匹克竞赛 2022 年上的一道难题,根据高层次描述生成游戏的完整代码,等等。虽然 GPT-4 还不完美,但它正朝着 AGI 前进。
在游戏开发者大会 GDC 上,虚幻引擎开发商 Epic 演示了其最新的动作捕捉技术 MetaHuman Animator,它利用了机器学习能在几分钟内将 iPhone 视频转变成逼真的 3D 脸部动画。新的自动化动画技术是基于 2021 年推出的 MetaHuman 建模工具。Epic 称逾百万用户创建了数百万 MetaHuman 脸部模型,部分模型只使用了 3 张脸部照片经过数分钟内处理完成。但将脸部模型转变成脸部动画仍然有不小的难度,即使是富有经验的游戏工作室,也需要使用专门的硬件和数周或数个月的处理时间,需要人工调整才能在游戏中使用。MetaHuman Animator 大幅简化了整个流程。Epic 现场演示了《Hellblade: Senua's Sacrifice》中主角 Senua 的脸模 Melina Juergens 的 15 秒表演,使用 iPhone 拍摄脸部视频,然后用一台高端 AMD 电脑花不到 1 分钟处理,创造出与原始视频相差无几的 3D 动画。Epic 称它的机器学习系统使用了大量高精细的脸部数据库进行训练。
OpenAI 宣布它的 AI 聊天机器人 ChatGPT 加入对插件的初步支持。插件开发者现在可以加入一个等待名单等候批准。OpenAI 称,自 ChatGPT 推出以来,用户就要求支持插件,因为插件将能解开大量可能的用例。OpenAI 表示它将采用逐步扩大的方式,创建一个庞大的插件库,首批插件由 Expedia、FiscalNote、Instacart、KAYAK、Klarna、Milo、OpenTable、Shopify、Slack、Speak、Wolfram 和 Zapier 创建。以 Wolfram 为例, 当用户输入一个问题,ChatGPT 会将问题格式化,然后发送给 Wolfram|Alpha 进行计算,对于返回的计算结果 ChatGPT 会决定用什么方式回复用户。
Adobe 推出了它的 AI 图像合成生成器 Firefly。与 Stable Diffusion 和 DALL-E 等类似模型不同的,Adobe 称它的 AI 是完全是通过合法和合乎道德的数据来源训练的,因此生成的结果可以供商业艺术家使用。此前,开源 AI 模型 Stable Diffusion 使用的数据集被认为包含有大量的版权作品,且未征得版权所有者的同意,因此遭遇了艺术家的抗议和诉讼。为了避免这些问题,Adobe 的 Firefly 使用了 Adobe Stock 图库、开放授权的内容和已过版权保护期的公有领域内容进行训练,确保生成的内容可安全用于商业用途。
生成式 AI 日益常见,AI 撰写的文本也愈来愈多的出现在我们生活中。但我们能分辨出它们吗?斯坦福大学的一项调查发现,人类只能以 50-52% 的准确率区分出人类和 AI 撰写的文本,也就是说基本上靠猜测。研究人员指出,人类在判断上并不是基于猜测,而是基于合理的直觉和共同的语言线索,将文本中的高语法正确性和第一人称代词的使用错误的归于人类,这些假设实际上是有缺陷的。研究人员称,AI 生成内容的数量可能会在数年内超过人类,这将会冲击到我们的信息生态系统,破坏信任,我们必须找到解决方法去识别 AI 文本。
微软官方博客宣布推出 Bing Image Creator,它的 AI 文本图像生成工具。和 Stable Diffusion 和 MidJourney 类似,用户可以通过输入一段文字描述,让 AI 生成相应的图像。Bing Image Creator 是基于 OpenAI 的 DALL∙E 模型。Bing Image Creator 可以作为一个工具独立使用,也可以通过 Bing chat 使用,它还将支持 Microsoft Edge。
设计软件巨头 Adobe 推出了自己的 AI 图像生成工具 Firefly。Adobe 称,用户可以使用日常语言通过 Firefly 生成各种创意图像。对于每一幅图像,用户还可以自由的修改每一部分,利用生成式 AI 替换不同的区域。Firefly 的上下文感知图像生成让各个区域能融合起来,不会有割裂感。Adobe 表示 Firefly 未来将会支持 3D 模型。
在微软新必应测试一个月之后,Google 的 AI 聊天机器人 Bard 姗姗来迟。搜索巨人开始向美国和英国的部分用户开放预览 Bard。这两个国家的用户可以加入等待名单等待批准使用。Google 表示将会缓慢扩大用户群,没有大规模开放测试的时间表。初步测试显示,Bard 与 OpenAI 的 ChatGPT 和微软的 Bing chatbot 工作方式相似,它也会加入一个免责声明,表示 Bard 可能会显示不精确或令人反感的信息,这些信息不能代表 Google 的立场。可能是因为目前用户比较少,Bard 的响应速度明显比 Bing chatbot 更快。
AI 在生成静态图像上取得了显著进步,Dall-E、Stable Diffusion 和 MidJourney 等服务能创造出逼真的令人惊叹的图像。现在一家创业公司 Runway AI 开始进军生成式 AI 的下一个前沿——从文字描述生成视频。Runway 总部位于纽约,该公司周一宣布了 Gen 2 系统,能通过用户的几句文字提示生成简短视频。举例来说,用户输入 a cat walking in the rain,它会据此生成大约 3 秒钟的视频。用户还可以上传图像,作为生成视频的参照点。Gen 2 AI 系统尚未开放测试,而是类似 OpenAI 通过一个等待名单(waitlist)提供了测试者。