网站首页

b体育产品中心

智能终端处理器 智能云服务器 软件开发环境

b体育新闻中心

关于b体育

公司概况 核心优势 核心团队 发展历程

联系我们b体育

官方微信 官方微博
b体育·(中国)官方入口在线登录网站 > b体育产品中心 > 智能终端处理器

B体育人工智能现在几乎在所有性能基准上都超过了人类

发布时间:2024-04-19 19:48浏览次数: 来源于:网络

  B体育退后一步,让我们来看一下过去两年人工智能的整体进展 …… 人工智能在很多领域追赶人类的速度如此之快,坦率地说,我们需要新的测试。

  斯坦福大学以人为本的人工智能研究所(HAI)发布了第七期年度综合人工智能指数报告,该报告由一个跨学科的学术和行业专家团队撰写B体育。

  这一版本的内容比以前的版本更多B体育,反映了人工智能的快速发展及其在我们日常生活中日益重要的意义。它调查了从哪些行业使用人工智能最多,到哪个国家最担心被人工智能抢走工作岗位等方方面面。但该报告最突出的收获之一是人工智能与人类对抗时的表现。

  对于那些没有注意到的人来说,人工智能已经在许多重要的基准测试中击败了我们。2015年,它在图像分类方面超过了我们,然后是基础阅读理解(2017年)、视觉推理(2020年)和自然语言推理(2021年)。

  人工智能正变得如此聪明、如此迅速,以至于目前使用的许多基准都已经过时了B体育。事实上,这一领域的研究人员正在争先恐后地开发新的、更具挑战性的基准。简而言之,人工智能越来越擅长通过测试,现在我们需要新的测试 —— 不是为了衡量能力,而是为了突出人类和人工智能仍然不同的领域,并找到我们仍然有优势的地方。

  值得注意的是,下面的结果反映了使用这些旧的、可能过时的基准测试的结果。但总体趋势仍然非常清晰:

  看看这些轨迹,尤其是最近的测试是如何用一条接近垂直的线来表示的。记住,这些机器是虚拟的幼儿B体育。

  新的人工智能指数报告指出,到2023年,人工智能仍在努力完成复杂的认知任务,如高等数学问题解决和视觉常识推理。然而,这里的“挣扎”可能会产生误导;这当然不意味着人工智能做得不好。

  MATH是一个包含12500个具有挑战性的竞赛级数学问题的数据集,自引入以来,它的性能在两年内得到了显著提高。到2021年,人工智能系统只能解决6.9%的问题。相比之下,在2023年,基于GPT-4的模型解决了84.3%。人类的基线%。

  然后是视觉常识推理(VCR)。除了简单的物体识别,VCR还评估人工智能如何在视觉环境中使用常识性知识进行预测。例如,当显示一张桌子上的猫的图像时,带有VCR的人工智能应该预测猫可能会从桌子上跳下来,或者考虑到桌子的重量,桌子足够坚固,可以容纳它。

  该报告发现,在2022年至2023年期间,VCR增加了7.93%,达到81.60,而人类的基线。

  回想一下,比如说,五年前。想象一下,向计算机展示一张图片,并期望它能够“理解”上下文,从而回答这个问题。

  如今,人工智能可以在许多职业中生成书面内容。但是,尽管取得了很大的进步,大型语言模型(LLM)仍然容易产生“幻觉”,这是OpenAI等公司推出的一个非常慈善的术语,大致可以翻译为“将虚假或误导性信息作为事实呈现”。

  去年,人工智能的“幻觉”倾向让纽约律师施瓦兹(Steven Schwartz)尴尬地暴露了出来。施瓦兹使用ChatGPT进行法律研究,但没有对结果进行事实核查。审理此案的法官很快就发现了人工智能在提交的文件中捏造的法律案件B体育,并对施瓦茨的粗心错误处以5000美元的罚款。他的故事成了全世界的新闻。

  HaluEval被用作判断幻觉的基准。测试表明,对于许多LLM来说,幻觉仍然是一个重大问题。

  真实性是生成人工智能努力解决的另一个问题。在新的人工智能指数报告中,TruthfulQA被用作测试LLM线个问题(涉及健康、法律、金融和政治等主题)旨在挑战我们人类经常出错的普遍误解。

  2024年初发布的GPT-4在基准测试中取得了最高的性能,得分为0.59分,几乎是2021年测试的基于GPT -2的模型的3倍。这样的进步表明,LLM在给出真实答案方面正逐步变得更好。

  那么人工智能生成的图像呢?要了解文本到图像生成的指数级进步,请查看Midjourney自2022年以来绘制哈利波特的努力:

  这是22个月的人工智能进展。你认为人类艺术家需要多长时间才能达到类似的水平?

  使用文本到图像模型的整体评估(HEIM),LLM的文本到图像生成能力在12个关键方面进行基准测试,这些关键方面对图像的“实际部署”很重要。

  人类对生成的图像进行了评估,发现没有一个模型在所有标准中都表现出色。对于图像到文本的对齐或图像与输入文本的匹配程度,OpenAI的DALL-E 2得分最高。基于稳定扩散的梦幻真实模型在质量(像照片的程度)、美学(视觉吸引力)和原创性方面排名最高。

  你会注意到,这份人工智能指数报告截止到2023年底 —— 这是人工智能加速发展的动荡之年,也是一段糟糕的旅程。事实上,唯一比2023年更疯狂的一年是2024年,在这一年里,我们看到了像Suno, Sora, Google Genie, Claude 3, Channel 1和Devin等灾难性发展的发布。

  这些产品中的每一个,以及其他几个,都有可能彻底改变整个行业。GPT-5的神秘幽灵笼罩着它们,它有可能成为一个如此广泛和无所不包的模型,它很可能会吞噬所有其他模型。

  人工智能不会去任何地方,这是肯定的。从这份报告中可以明显看出,整个2023年的技术发展速度表明,人工智能只会不断发展,缩小人类与技术之间的差距。

  我们知道这很难消化,但还有更多。该报告还探讨了人工智能发展的负面影响,以及它如何影响全球公众对其安全性、可信度和道德的看法。

下一篇:B体育刘典丨人工智能催生全新的生产力元素
上一篇:B体育联想发布AI PC系列 中国区加速发展三大生态推动AI普惠

咨询我们

输入您的疑问及需求发送邮箱给我们