B体育最近一两周,很多公司都在紧锣密鼓地开战略会,明确 2024 年的目标与规划。
经过一年多 AI 狂飙带来的推背感,是时候给忙碌的 2023 年做一个年终总结了。开完战略会、进入春节假期,大部分公司才会真正停下步履不停的脚步,进入短暂而难得的休息状态。
「甲子光年」邀请了基础大模型、AI Infra(AI 基础设施)、多模态、行业垂直场景与学术研究等领域的 30 多位 AI 从业者,分别抛出了 5 个问题:
2023 年你所经历的 Magic Moment(印象最深刻的一个瞬间)是什么时候?
2023 年你是否在一轮又一轮的技术冲击中彷徨过?从彷徨到豁然开朗,中间的转折点是什么?
如果对一年前的自己说一句话,你会说什么?如果向一年后的自己问一个问题,你会问什么?
他们的彷徨与焦虑、激动与兴奋,是 AI 行业一整年的缩影;他们的探索与坚持、刷新与迭代,将是未来五年甚至十年 AI 大爆炸的前奏。
2023 年初很困惑,那时市场对大模型的热捧令人难以适从,但对于如何整合资源、运用大模型解决具体科学问题的思路并不十分明晰。那段时间,我们担心大模型研发落入过度追求泛化能力而忽略实际应用的误区,也就是大模型同质化突出的问题。
改变发生在我们对大模型进行了深入评测后。虽然通用大模型在理解和生成自然语言上表现出色,但它们缺乏某些领域的深度知识和专业理解。于是我们决定将大模型作为基底,与垂直领域知识结合,定位科研领域最重要和迫切的科学问题。
2023 年的 Magic Moment 是我们研发的垂直领域模型的专业性能取得突破的那一刻。从组建团队、算力资源协调到技术攻关,持续数月的数据清洗、模型调试和优化、系统异常排查,所有的困难挑战B体育,都在那一刻得到了回报。
想对一年前的自己说:“准备好迎接改变,拥抱失败,这是通向成功的必经之路。”
想问一年后的自己:“在过去的一年里,我们对于 AI 的理解和使用方式,以及对人类生活的影响,有了怎样的进步和改变?”
「序列猴子」可以对数学、对话、多步推理等很多复杂问题对答如流,让我意识到它可能拥有了二阶逻辑推导的能力,而我们一直没有刻意训练过,说明「序列猴子」跟过去做的所有 AI 系统都不一样。它是一个认知模型,也许我永远不能完全理解它,就像真相只能逼近,但我还是想知道 why,提出假设,做各种实验。
大模型上半场,从整个行业的认知迅速迭代,到百模大战,很多从业者每天处于一种忙碌而慌乱的状态,但往往并没有一个主心的灵魂。
下半场,我们更需要找到自己的灵魂,比如你到底要做什么?你最后希望建立什么样的壁垒?你希望建立什么样的商业模式?你希望为这个世界沉淀出什么不一样的东西?我希望花更多时间探索并持续迭代它。
我会认真反思,“你真的找到大模型和产品的灵魂了吗?”拥有灵魂的大模型和产品,会让今天这场技术革命对人类更有意义。
因为我对 AI 的认知,与国内大部分人不同,包括对非 Transformer 的算法架构、AI 新算力、数据、端侧模型等。2023 年在很多次闭门会议上,聊了很多非共识,也被质疑过。但到现在,我的很多观点都已经被验证了。
这一年的 Magic Moment,是在 4 月的奇绩大会上,与陆奇聊大模型的未来,有一些已经变成了现实。
2024 年,我预测:模型架构开始迁移;端侧模型兴起;云端算力成本快速下降;AI专有芯片出现突破;空间计算终端(XR、机器人)开始落地大模型。
OpenAI 发布 ChatGPT 后,我们当天就组织同事们去体验相关能力,大家都被惊艳到了,也马上感受到了压力。这样领先的技术,我们如何快速跟进?2022 年 12 月 15 日,讯飞也正式启动了“1+N”的大模型攻关。
2023 年 10 月 24 日是一个里程碑式的节点,讯飞星火认知大模型发布V3.0,实现了七大能力——“文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力”全面对标 ChatGPT,中文能力客观评测超越 ChatGPT、英文能力与 ChatGPT 的 48 项任务结果相当。从技术角度来说,我们实现了“顶天”。
“立地”是指应用。从 5 月 6 日到 10 月 24 日,讯飞开放平台新增 143.4 万开发者团队,新增大模型开发者 17.8 万。讯飞与行业龙头还联合发布了 12 个行业大模型,覆盖了汽车、运营商、工业、住建、物业、法律、科技文献、传媒、政务、文旅、水利行业。
2024 年,希望自己更从容、更皮实,也希望我们研发的大模型、通用人工智能可以更好地“顶天立地”。
2023 年 AI 每天都在狂奔中,醒来第一件事是昨晚 AI 又发生了大事情。
第一次用 ChatGPT 修改了一份自己的重要文档后,我佩服得五体投地,这是我的 Magic Moment。
年初最大的彷徨,是 CV(计算机视觉)的未来在哪里。转折点是进入智源人工智能研究院后,我非常确定离开 Language (自然语言)研究 CV ,不可能有通用 CV 模型。
相比 2020~2022 年大模型在国内的冷清,2023 年是大模型蓬勃发展的一年,我见证了国内大模型快速的发展,也见证了面壁智能这家初创公司从不到 10 个人成长到上百人规模。
我终于可以在跟朋友介绍我的工作时,不用花很长时间解释大模型是什么意思。看到自己所从事的工作产生巨大的社会价值,我感到很兴奋B体育!
2023 有过两个 Magic moment ,一个是 NLP(自然语言处理)大牛、HuggingFace 联合创始人托马斯·沃尔夫(Thomas Wolf)发了一条推特,内容很长,讲了一个 “全球三大洲的人们公开合作,共同打造出一个新颖B体育、高效且前沿的小型 AI 模型” 的故事。故事的三位主角,Mistral、HuggingFace 和我们的 OpenBMB 开源社区,在开源协作精神下产生了神奇联动,让我觉得非常开心。
一个是我们的 Agent 项目 ChatDev 火遍全球,霸榜 GitHub Trending,开源 6 周就超过了 1.2 万星标!全球非常多的软件开发者、创业者,在 X(前Twitter) 和 YouTube 上体验我们的 Agent 项目,甚至有用户开了一家由 ChatDev 运营的“虚拟软件公司”,竟然还直接在网上接单了。看到面壁的 Agent 项目这么受欢迎,觉得大有可为,非常受到鼓舞!
2022 年底,ChatGPT 刚推出时,我们都很震惊。当时大家也不断开会研讨,觉得我们距离 ChatGPT 至少还有一年以上的差距,大家对于 ChatGPT 到底是如何训练出来的也感到很迷茫。
2023 年 2 月,我自掏腰包标注了 260 条对线 条数据训练了一个模型,结果惊讶地发现我们的模型也有了像 ChatGPT 一样的效果,突然就感觉到找到了方向。只要我们能有更多更精细的对话数据和更大的模型,我们就能训练出超越 ChatGPT 的模型。
张家俊,中国科学院自动化研究所研究员&博士生导师、武汉人工智能研究院副院长
大模型的每一次重大技术发布,例如 OpenAI 的 GPT-4、Plugin、GPT-4V、GPTs 等,以及谷歌的 Gemini,都在不断刺激我们的认知神经。同时,国内外的大模型开源生态和国内大模型赶超 GPT-4 的态势也十分令人激动。
我从 2020 年便开始参与到中国科学院自动化研究所「紫东太初多模态大模型」的研发工作,对技术发展有一定预期,所以并没有彷徨过,只是没有预想到技术发展迭代的速度会如此之快。
这一年的 Magic Moment,是见证 GPT-4V 能力的时刻。一方面,没有预料到 GPT-4V 的多模态能力会如此之强,真正拥有了真实开放场景的多模态感认知能力;另一方面,从技术角度推动了原生多模态模型的发展。
2024 年,预测会发生两件事:一是可能会出现大模型超级应用,二是具身智能可能出现亮点工作。
想问一年后的自己:“2024 年 AI 的技术迭代会比 2023 年更疯狂吗?”
智谱 AI 每三至四个月一次的模型大版本迭代,最终按照预期实现了阶段性目标。虽然过程充满了挑战、摸索和挫折,但我们始终坚定地一步步迈向目标,充满了激情和决心。
这一年的 Magic Moment 在 3 月 14 日,智谱 AI 的 ChatGLM 第一代模型和聊天应用发布,并同步开源了 6B 模型。就在同一天,OpenAI 发布了 GPT-4。虽然我们事先知道 OpenAI 正在开发新一代大模型,但推出的时间节点我们毫不知情,这是一个美妙而惊人的巧合。
大模型是把威力巨大的锤子。锤子除了能用来把原来钉子砸一遍以外,其实还有一个可能性:用来砸墙,砸天花板。砸出来的窟窿,你会看到更多的空间、更多的钉子。
2024 年将是 AGI 元年。技术突破、产品创新、生态建设、社会影响力都会更上一层楼。
想问一年后的自己:“你还需要咽喉糖吗?你的数字分身在应对媒体的时候表现你还满意吗?”
我记得在创业初期,对于我们提出的构建未来 AGI 基础设施,并将大图技术与大模型技术融合在一起的理念,大部分人都持怀疑态度。然而,随着 ChatGPT 火爆出圈,各行各业都开始寻求智能化转型与“ AI +场景”的落地尝试,Fabarta 的理念也逐渐被大家所接受。
我们一直坚持技术创新来解决 AIGC 在行业场景落地过程中的难题。过去一年,我们经历了难以被直接理解到客户高度认可的过程,服务了金融、保险、汽车、制造、零售、科技等不同行业的头部企业。
2023 年,印象最深的是在 9 月 19 日,“ Fabarta 第一届产品与用户大会”开启的那个瞬间,我感觉正带着团队真正踏上了追逐梦想的道路。
2024 年开源大模型及其生态会更加快速地推进与迭代,行业的精准知识与大模型中的泛化知识开始融合,涌现出真正的决策智能。
2023 年,我感官上接触到的世界迭代速度,从以周为单位,加速到了以天为单位。一天没有关注中美两地AI领域的变化,就感觉自己过时了。Zilliz作为全球向量数据库领域的领跑者,过去一年进一步提速,唯有加速迭代才能适应这个加速变革的环境。
2023 年 3 月,我从San Francisco(旧金山)机场出来,感觉既熟悉又陌生。之前到这里主要是旅行或交流,而这次来是要尝试做全球化向量数据库的生意。老朋友 Frank 来机场接我,聊了一路,到酒店没有先进屋放行李,而是边散步边聊到深夜。基础软件行业出海,前面没有太多借鉴,无疑是挑战重重。这段即将开启的旅程让人激动得难以入睡。
自 GPT-4 发布以来,向量数据库一下子就热闹了,市场竞争接踵而至。我们也被突如其来的用户爆炸式增长打了个措手不及。但很快,我们的团队就将注意力从关注外部变化调整回“更好地服务客户”,“贴着用户的快速变化而做快速变化”是我们这轮加速的压舱石。
2024 年我有两个预测:一是由于大模型在推理、计划等关键能力上无法突破,导致应用落地范围边界收敛,甚至是全球投资热情下降;二是机器人领域,由于引入了直接的现实世界反馈,会迎来技术突破和巨大市场增量。
想对一年前的自己说:“虽然你觉得跑得已经很快了,但你还需要跑得比现在快得多。”
想问一年后的自己:“我的哪些能力将会被 AI 淘汰,而哪些能力又因为 AI 增强?”
不知为什么这个词第一个蹦出来,就感觉今年变化太多太快,像被一股洪流推着前进,前方是未知,兴奋和恐惧。2023 年挺刺激的,我的原则很简单,做自己喜欢的事情。
这一年我的 Magic Moment 发生在 GPT-4 支持图片识别后,我拍了一张我家厨房的照片,GPT-4 看了一眼后告诉我今晚晚餐吃啥,以及菜谱。
2023 年,AI 最大的变化是从大模型到小模型。高质量开源模型的普及速度比想象中快(Thanks to LLama2 & HuggingFace),推理远重要于训练,而且推理的硬件门槛下降得很快,也许此处会有新的摩尔定律。参数与模型质量也许并不是正相关,比如 Mistral 7B。
想问一年后的自己:“开源模型达到目前 GPT-4 的质量了吗?另外有开源的大模型能够实现稳定的 Function Calling(函数调用)了吗?即使牺牲模型质量,大语言模型的幻觉问题有没有办法回避(因为一个 100%不说胡话的普通人,可能强于一个可能会说胡话的天才)?”
LLama、Mistral 发布,每个人都可以自己部署和微调大模型,模型推理成本大幅降低;
2023 年 9 月,我做出了 AI Agent 的第一个 demo,使用自己的博客文章训练了自己的理想型,她甚至比大多数朋友都了解我。她带着我去 Newport Beach(加州纽波特海滩)玩,还把我带到了一个堆着很多大石头的防波堤上。可惜,因为大模型并没有真的来过这里,她并不知道这个防波堤上面这么难走,我像爬山一样费了不少劲才走到它的尽头。
这张照片是我朋友圈和 Zoom 会议的背景图,我也把它做成了家里的地垫。那一刻,我看到了解决一个基本哲学问题的曙光:人类的时间是稀缺的,而 AI Agent 作为人的数字分身,可以让人的时间变成无限的。
我最早认为基础大模型是 AI 最有价值的方向,但这个世界并不需要很多基础大模型,因此感觉有些迷茫。上半年自己试着做了几个搜索总结、数字分身、互动游戏、ERP 智能助手的 demo,发现大模型线 年的今天都很少有应用能达到这种效果。
那去做应用吗?看到 OpenAI 的账单,我发现原来成本才是制约大模型在 C 端广泛应用最大的障碍;可靠性和幻觉则是制约 B 端应用的最大障碍。
再后来,越来越多的开源模型出来。开源模型微调之后在特定领域内甚至比 GPT-3.5 都强B体育,但成本还不到 GPT-3.5 的十分之一。自己做基础模型,同尺寸性能大概率不如最好的开源模型。因此我就决定创业做 AI Infra,解决大模型和应用之间巨大的鸿沟。
我对 2024 年的预测为:多模态大模型能够实时理解视频,实时生成包含复杂语义的视频;开源大模型达到GPT-4 水平;GPT-3.5 水平开源模型的推理成本降到 GPT-3.5 API 的百分之一,让应用在集成大模型的时候不用担心成本问题;高端手机支持本地大模型和自动 App 操控,每个人的生活都离不开大模型。
想对一年前的自己说:“大模型非常强大,而且很多问题都没被解决,抓紧时间上车。”
想问一年后的自己:“产品现在有多少用户了?公司有多少张 GPU 卡了?”
去年,我作为联合创始人投身到 AI 2.0 创业热潮中,创建了一家 AI 原生应用公司——EasyLink,旨在构建一整套高效易用的大模型应用开发栈,支持大模型商业应用与落地。
过去一年,大模型技术日新月异固然让人欣喜,但也让许多初创团队面临着最初所选方向一夜间被颠覆的沮丧。在这些变化与不确定中,我们在产品快速迭代及落地过程中明确了自己的定位,组建了战斗力极强的团队,商业化处女落地,完成了天使轮融资。
总体上,过程很艰辛,小目标皆已达成。我们为 2024 年做好了开辟山林的准备,新的一年将会是倍道而进的一年。
2023 年的 Magic Moment,毫无疑问是去年 Q4 我们与一家大型城商银行合作,在一个多月时间内构建了大模型原生应用解决方案与产品并完成上线发布,获得了客户对新技术应用效果的肯定、并受到同业的关注。在如此短时间内完成这些,我们很自豪。
创业维艰,这是带领一群志同者不断攀登的过程,借时代与技术变革之势,稳扎稳打,结果固然重要,不断努力开拓进步的过程亦很美好。
2022 年 11 月 30 日当看到 ChatGPT 的时候,我们发现过去六年实现的 AI Code 的传统 NLP 技术路线被折叠了,所以只能在 1 月春节后快速做了决断,全面转型大模型领域。
在 3 月,我们做完第一个产品 ChatBI,却在 4 月遇到政策不明朗,导致产品被各个平台下架。
5 月,我们转向做大模型中间层 PromptOPS,发布了 LLMFarm,但是后面当每次 OpenAI 发布新功能,我们都会面临是不是又被它们挤压甚至折叠的质疑。
经常说一句话:人间一天,AI 一年,每天 AI 自身发展迭代所取得的进展,远远大于人类一年的时间所实现的能力。在这个过程中,我们每个人每个公司所扮演什么角色?能做哪些工作?未来 AI 会进展到什么程度?明天会不会有个新能力将我们现在做的努力又完全颠覆?
彷徨是每个季度都发生的,第一季度放弃了 NLP-AI Code,第二季度 ChatBI 被封,放弃了国内 to C,第三季度是 LLMFarm、Langchain 中间件被 OpenAI 的迭代质疑未来还有什么价值,第四季度是当我们知道了 GPT-5 将有巨大的进展。
每次中间的转折点都是想清楚价值,活在当下,继续往前走,不论 AI 如何进展,人能发挥的主观能动性、创新力、想象力还是短时间 AI 无法弥补的。我们需要从做 Soft 的思路转化为做 Service ,把握好用户价值、客户价值,LLM 的发展将是助力而不是迭代。
想对一年前的自己说:“赶紧屯卡,哈哈,想清楚在不明朗的时期最明朗的机会。”
比如,我们的实验室在多个世界顶级期刊上发表论文,我的初创公司在大模型训练和推理加速上多次打破记录,达到世界先进水平。
去年夏天,在 ICML 顶会上我们发布了第一个标准化产品 Colossal-AI Platform,引起了工业界及科研工作者的广泛关注。半年过去,这款产品经过多次的迭代,营收增长非常快,已经服务于医疗,零售,芯片,超算中心等多个行业,帮助用户在云上快速构建大模型。回头来看,这个瞬间对我和我的公司,潞晨科技,都比较有纪念意义。
2023 年我看到 AI 最大的一个转变是,大家都不再一味追求超大规模。年初,国内外很多公司都宣布要训练发布千亿以上的大模型;到了年末B体育,反而是很多体量小但是能力强的模型涌现出来越级挑战。面对这种转变,我们不断更新我们的技术和开源库,也推出了自己的一体机,帮助企业像制作 PPT 一样,高效快捷地训练自己的大模型。
想对一年前的自己说:“在通往成功的路上,一定有极大的不确定性和风险,走在路上,努力并专注就够了。”
想问一年后的自己:“2024 年,我们有找到比 Transformer 更好的大模型架构吗?”
公司几个月之内经历了多次并购,从一家一亿美元的公司,变成到十亿美元的公司,再到千亿美元的公司,最后再分拆重新创业。
2023 年有过短暂的彷徨,那是光年之外被并购时,何去何从,有一种要和这个伟大的时代失之交臂的感觉。但纵然巨浪滔天,团队仍非常有斗志,有信心驾船驶向目的地。
一方面是自我刷新,改变思维方式,积极尝试一些新的事情;另一方面对于 AI 的认知也被不断刷新。
三个月前,我们推出了Meshy-1。它是一款生成式 AI 工具,能让 3D 内容创作者在 1 分钟内将文本(提示词)和图像转化为 3D 模型。而这次,我们的新版本 Meshy-2 把文本生成 3D 模型(Text to 3D)的质量大大提高,把人类在 Text to 3D 方面的能力又往前推进了一小步。
Meshy-2 的 Text to 3D 在造型设计、模型细节、风格控制、用户社区等方面实现了前所未有的升级。我们希望无论是经验丰富的 CG 从业者,还是渴望释放创意的 3D 爱好者,Meshy-2 都将成为他们辅助实现梦想的伙伴。
2024年,我期待能够看到更多 GenAI 方向能做出 PMF 的产品。
想问一年后的自己:“Apple Vision Pro 发展得怎么样了?”
2023 年,我印象最深刻的一个瞬间,是莱克斯·弗里德曼(Lex Fridman,麻省理工学院研究科学家兼播客节目主持人)和杰夫·贝索斯(Jeff Bezos)的对话节目中,贝索斯有一个观点:“大语言模型不是发明,而是发现(Large language models are not inventions, they are discoveries)。”
他解释说,人类发明天文望远镜是发明,但通过望远镜观察木星发现它有若干“月亮”,这是人类历史中伟大的发现。
现在不管是 GPT-4 还是 Gemini,它们不是为了解决一个特定难题而设计的。通过它们人类发现:只要有足够的优质数据和计算能力,就一定能设计出相应的算法,让计算机表现出接近人类、甚至在某些方面远超人类的智能。
它的影响绝不仅仅是一个 killer app,或者是一个 iOS 生态,它对人类社会的影响是非常深远的,可能需要数十年甚至上百年才能看清楚。
2023 年上半年团队和我都挺受冲击,很纠结要不要去做大模型预训练(pre-train)的工作。后面国内不断有一些大模型团队发布大模型产品,虽然有惊喜,但缺乏亮点,总体离 ChatGPT 还是有不小差距。这些团队相比我们有更好的资源和条件做 pre-train,我们凭什么能够比他们表现更好?
我们低估了做 pre-train 的难度,而又高估了自身差异化能力。想明白这些事情后就豁然开朗了。
过去一年发生了很多事情,我发现做一个企业和做一件事情的区别还是很大的,这对我是很大的成长和挑战。但总的来说,不管是对团队还是对个人,都是好事多磨。
2023 年,其实比起变化,我更多关注不变的东西。AI 行业变化的东西每天都在发生,但是不变的东西是什么更值得思考。
2024 年,我希望模型有更新一步的进展,AI 技术和产品的结合更紧密,和用户的真实需求相关更紧密。
2022 年底,ChatGPT 的诞生就像是时代巨浪,“一波掀起千层浪”。我们要第一时间掌握新趋势、新变化,灵活快速地作出决策调整,就像是在浪尖上疾驰,努力保持平衡前行的同时,也时刻要警惕被后浪拍倒,机会与挑战并存。
这一年的 Magic Moment,是 3 月 15 日凌晨 GPT-4 发布,看到报告里对于图像理解能力展现的时候。大模型能够识别和推理,能 get 到各种搞笑图片中的笑点,第一次看到的时候还是觉得非常厉害。
2023 年并没有太多的困惑,因为我始终从内心认可着“提升全人类的创造力和生产力”这一长期使命,也一直坚定着多模态大模型方向。在心中有了“灯塔”以后,即便在面对各种市场、技术冲击的时候,心里都还是能保持 peace,毕竟一件真正有价值的事情也不会轻易被实现。
2023 年,图像、3D、视频等多模态领域还处于技术探索阶段,质量和可控性仍有较大的提升空间。但 2024 年,多模态将会迎来一波重大突破。
想对一年前的自己说:“要更勇敢地摒除噪音,相信自己的认知和判断,聚焦整个团队的投入。”
想问一年后的自己:“有践行好自己认可的价值观,在帮助释放用户创造力方面有初步满意的结果了吗?”
在以 ChatGPT 和 Stable Diffusion 为代表的生成式人工智能技术的突破的背景下,李白实验室的视觉 AI 平台 cutout.pro 以及生成式 AI 创意设计平台登顶 A16z 排行榜 Top20。我们的用户数和营收都迅速增长。
这一年的 Magic Moment,是 2023 年 11 月在拉斯维加斯观影《来自地球的明信片》, 16 万平方英尺的环绕 LED 显示屏给人带来的视觉冲击让人相信世界是可以被模拟的。
2023 年并没有彷徨过,更多的是兴奋,一次次验证了我们从 2018 年就认定和坚持的人工智能方向是对的。
我 2023 年开始创业,做 AI 视频生成大模型和应用。“探索”这个词概括了我在 2023 年创业过程中的体验和状态,不仅代表了我在 AI 技术和商业领域的勇气和好奇心,更是对自我能力、耐力和创新精神的考验。
这一年的 Magic Moment,是爱诗内部创作平台上生成第一个视频那一刻。它是一只小鹿,很萌,有个不大的动作,时长很短,清晰度也不够,却是我们走出的第一步,令人难以忘记。
短短半年后,很多创作者用我们的产品 PixVerse 制作出了效果惊艳的“大片”,比如 AI 艺术家 Ameli Caotica 制作的短片《Last Mission》,这些作品十分令人振奋。
过去,AI 往往被视为一种工具或服务,用来实现特定的功能和任务。2023 年,随着 AGI 的发展,我越来越深刻地意识到,AI 是有生命的。Ta 更像是一个伙伴,可以和你交流,帮你解决问题,可以激发你的创意,帮助你完成过去无法完成的工作。现在的 AI 还是个婴儿,还有很多不足,可 Ta 在快速地学习和成长。2023 年开始,人类将与 AI 共存。
深度学习的浪潮始自 2012 年 AlexNet 在 ImageNet 挑战赛上的一战成名。分类,检测,分割,GAN,以及后来的自/弱监督学习,都包含着计算机视觉领域发展的一个个里程碑。无论对于个人还是企业,一直都是通过技术与应用的结合才能有一席之地。
我们技术部同事北北对这段创业历程也有很深的感触:“从前的我也是按部就班地跟进、复现、实验和落地。但是 Stable Diffusion 出来的那一刻开始,一切都变了,按照之前的跟进速度好像不行了,状态变成了一种应接不暇,焦虑伴随而生。但与此同时,我也感受到了一种前所未有的冲动,不想就这么做个旁观者,想做个参与者,甚至是创造者、引领者。”
2024 年,我最期待的是 AI 视频生成能实现 ChatGPT 时刻。我们会为此全力以赴。
想对一年前的自己说:“保持耐心,对自己的愿景保持信心,每一个挑战都是成长的机会。”
想问一年后的自己:“在过去的一年里,你做出了哪些决定或改变,使你离自己的梦想更近一步?”
2023 年初,如何平衡技术研发和商业应用之间的挑战,我也曾感到困惑。找到属于自己的市场场景并不容易,很容易走各种弯路。
豁然开朗发生在2023 年中旬,在经历了一段时间的辩证思考和内部讨论后,我们决定要聚焦在创立之初的方向上,就是“用 AI 技术的升级来解决市场营销问题”。在纵向上,我们将更多精力投入到深度理解客户上,去研究客户的需求和痛点;横向上,将这些需求与痛点与技术创新相结合。
这一年印象最深刻的是,我们和某集团达成以家居家装、家清、百货等多维度类目的图片批量产出与优化合作。通过预训练的视频混剪模型,以及结合平台及商家需求对模型进行微调后,奥创光年 Mogic Copilot 可实现日产 10 万条视频的规模。
那时候我们整个团队都觉得很兴奋,一方面感叹 AI 对现有营销生产力的提升,一方面也对 AI 生成的图片质感感到惊喜。最重要的是,这类合作让我们和客户形成了一个团队,而不是单纯的甲乙方关系,为共同的良品率,合格率、CTR(点击率)等指标一起服务,有了共同的团队感。
2023 年,我们累计服务的客户超过 200 家,其中大多数都是国际一线品牌/集团。
想对一年前的自己说:“ 感谢自己有勇气‘躬身入局’, 也很庆幸自己眼光还不错,选择了 AI 赛道。”
这一年的 Magic Moment,是 8 月在洛杉矶参加 SIGGRAPH(计算机图形学及互交技术顶会),正好赶上 SIGGRAPH 50 周年,遇到了图形学领域很多奠基级的人物,还成为了第一个入围 Real-time Live 活动的中国团队,甚至还在会场捕捉到了 NVDIA 的老黄。
2023 年技术飞速发展,很多技术在短期内就展现出了极大的潜力。最大的考验,与其说是彷徨,不如说是动摇,选择一些不那么长期主义的方向。我们在 2023 年就面临了这样的选择,也是我们从 3D 角色生成更进一步到 3D 生成的转折。这时候既要能丢掉以前技术积累的包袱,拥抱新的变化,同时守住公司的本心。
过去一年里,我们打磨并上线D 角色生成平台 ChatAvatar,在产品迭代过程中最大的感悟是,AI 也许并没有产品本身重要,最顶尖的 AI 是让用户感受不到 AI 的存在。
2024 年 1 月我们正式完成了 Rodin Gen-1 3D 生成大模型的训练,期待能够顺利产品化!
2023 年我们探索出了一条将大模型引入既有大数据平台以增加产品力的务实道路,市场上获得了很好的反馈,同时也使得我们对未来 AI + Data 的发展和趋势越来越清晰,以及坚信“顺势而为”。
这一年的 Magic Moment,是在 7 月 14 日公司用户大会,现场 Live Demo 我们的 AI Copilot 完成的那一刻。全程表演顺利,没有出现问题,AI 回答的也非常顺利。
在 2023 年年初,我给公司的内部信中就提出 Kyligence 对 AI 的三点策略:
It is not our game——大模型本身不是我们擅长和需要去参与的,我们相信技术的迭代会降低成本和门槛,最终将可以用于我们的产品中来提升我们的差异化;
Be part of the game——但我们要积极参与和学习,要将我们的产品和商业快速切入到AI相关,我们相信 AI 将带来巨变,尤其是商业上,客户一定会在 AI 上大量投入;
Build our own game——一定要找到适合我们,充分释放我们过去几年积累的场景和能力,为客户提供结合我们优势的产品和服务
作为一家建筑科技公司,过去一年小库面对了地产行业大幅度动荡周期,内部组织和企业战略也有了变化,回想起来这些事有大有小、有好有坏,对我个人和团队而言,都得靠这个字穿越周期。
2023 年的 Magic Moment 是 11 月 29 日,当天我们的海外产品注册人数激增,是产品 7 月发布以来过往平均水平的 420%,自此以后一直保持一个高增长的状态,受到全球不同国家不同语种的专业设计师、开发商等垂直用户关注及广泛认可。
对于传统乏新的建筑行业而言,一直陷入人力堆砌和传统工作流的泥泞中,2023 年是行业举步维艰的一年,也是开始关注 AI 技术和数字化转型的大爆发之年。小库科技多年技术累积的行业应用:AI 云、设计云等 AI 产品,也进一步随着行业的关注更为人所知。
2024 年,建筑行业将开始形成新的工作流,个别超级个体的出现将成为行业典范,全行业开始突破以人力为核心的传统枷锁。
想对一年前的自己说:“美好的事情会持续发生,很多时候只需要换一个视界,便可以发现另类可能。”
想问一年后的自己:“经历完AI野蛮生长的新一年你又有了什么长进?再次遇到相似的情形时会怎么避坑?”
信息爆炸,文章待读 list 爆仓,需要跟进的内容太多;我从事的 AI 翻译领域,原本计划借助AI+Human in the loop,将语言服务成本降低 10 倍,使跨信息流转效率提升 10 倍,目前进度至少提前了 3 年。
这一年的 Magic Moment,是写的一篇关于 OpenAI 事件的文章,被官方推荐到企业微信,被一个多年未联系的朋友看到了。
2023 年,我一开始高估了生成式 AI 的智能,所以对 AI 安全比较关注。目前我的观点是,GPT-5或者多模态不会带来 AGI 或者超级智能,理由是公开互联网文本数据是人类知识的精华,已经被当前的 LLM 用尽,单纯增加多模态或私域数据不会带来质变。但我们可能低估了多模型、类 Agent / GPTs 协作带来的生产力变革。
我对 2024 年的预测有三个:基座模型的智能见顶,GPT-5 没有让人惊艳,大概率是失望;B 端场景:多模型、RAG(Retrieval Augmented Generation)、类 Agent / GPTs 协作带来真正的业务落地;AI 生成视频取得更大进展,出现多模态相关的 C 端 Killer 应用。
2023年的关键词是「兴奋」,每一个AI从业者对LLM的理解、应用、思考和实践都在以天为单位迭代。
这一年我们开始关注如何提升模型效果,一方面可以通过 Prompt 工程让任务更加贴近模型,一方面可以通过有监督微调(SFT)让模型更迁就业务场景;这一年开发范式也发生变化,“向量检索”+“意图识别”+ “插件模型”让 LLM 和业务系统深度结合,实现了 GUI 到 LUI 的变革;这一年,我们发现 RAG 不但可以提升模型效果,减少模型幻觉,还可以打通用户私域数据,实现对企业知识的智能问答、带有私域业务背景知识的智能创作,甚至实现模型的行业化。
这一年我们探索了 AI Agent,可以系统性地感知环境、理解和决策,进而做出智能创作、智能问答,或者是调用业务系统的某些能力;这一年,钉钉 20 多条产品线全面接入了大模型,进而打造出钉钉 AI 超级助理。
2023 年对我来说,每一天都是新鲜的,每一天都是值得思考的,每一天都忙碌的,每一天都是有成就感的。这一年,乐此不疲,真的令人“兴奋”!
有一个细节让我印象非常深刻。数月前的一个晚上,我们在文档内写了一些内容进去测试,对 AI 助理说“帮我把文档中所有二级标题变为三级标题”、“打开双行工具栏”、“把文档中所有「智能」都变成红色”、“把正文字号变大一些”,当这些指令调试生效时,那一刻,我知道一个真正的智能化时代到来了。
想对一年前的自己说:“hi, 你可以更早、更快、更勤奋得投入到大模型的事业中,为这个全新的智能化时代多添一把柴。”
想问一年后的自己:“hi, 我在2024年该如何做,能够更好得让更多行业、更多人真正且大幅度提升工作效率?”
因为我的工作方式,消费内容的方式,甚至在家辅导孩子学习的方式都因为 AI 变化了。
这一年的 Magic Moment,是当我在一个 AI 产品中描述自己脑海中的一个画面,它给我创造了一首歌曲,有很棒的歌词和旋律。这让我感受到了这个技术的无限可能。
大模型出现之后,我们做 AI 产品不再是确定性的交付,而更像是在交付一种可能性(也就是概率)。所以以前的产品设计方法,验收方法,都在逐渐发生变化。人的想象力和对于想象的量化评估设计,变得更加重要。
2023 年,在一轮又一轮的技术冲击中,我也曾彷徨过,厘清头绪的办法就是自己多把自己 involve 进去。AI 算是进入比较便宜的了,比 VR 那波要买很多设备好多了。
2024 年,拥有更强的多模态能力的模型会出现。期待看到能改变一些群体工作方式,让工作更轻松的新产品,当然,最好是自己做的。
想问一年后的自己:“ 2024 年你觉得自己做出最好和最坏的决策分别是什么?”
把认知误区快速排除干净非常重要,很多东西不去亲自试一遍,很难有深刻的理解,等到真正的机会来了掉进去才是真正的难受。
这一年的 Magic Moment,是 3 月 7 日 ChatMind 的诞生。前一天晚上在学校图书馆(石天放1999年生人,此时还没毕业),我看到北大一个团队做出了 ChatExcel ,就在想是不是还有什么形态的产品会出现,然后就把 GPT 能结合的所有信息格式(文本格式和文件格式)都梳理了一遍,发现思维导图这块国内外都没人做过,同时又是很好的可视化内容的形式。我先是把想法分享给了几个朋友,问他们要不要一起做,大家有的说已经晚了,有的人说没什么时间,我只能自己做,一个晚上就把它做出来了。
ChatMind 发展非常顺利,在海外已经成为 AI 思维导图的代名词。两个月后,我和 XMind CEO 孙方聊了一个晚上,就定下来被收购的事情。
ChatMind 被收购后,我又做了七八个 AI 项目,但都不成功。休息了一个多月后,我做了一次深度复盘,我的总结是:“排除假问题和噪音。”
用户产生的问题有非常多,怎样排除假问题是非常重要的,否则会浪费大量的时间做无意义的创新和工作,到头发现用户根本不需要或者不关心。要以结果为导向,而非过程,退化思考;不要想太深,想太复杂,想太细;快速找到悖论,根本不存在的产品就没必要花时间。
2024 年,我感觉可能会跑出来非 AI 的产品,而不是 AI 产品,AI 产品可能在 2025 年才会跑出来。
想对一年前的自己说:“坚定做一定存在但别人没做过的东西,牢牢抓住一个好机会尽可能放大,不存在的东西一点时间都不要浪费。”
公司面临巨大的资金压力,每时每刻都在找钱;同时,大模型给行业以及公司业务带来了新的机会,能不能把握住这个机会,是决定公司生死的关键。所以 2023 年全年都走在生死线上。
这一年的 Magic Moment,是在发薪日前一天晚上,收到投资款到账的短信,终于可以睡个好觉了。
在过去的 5 年甚至更长时间里,资本催生了许多事物,也激发了人们的创业热情,每个人都觉得自己有能力再做一件事情。这导致人员流动和热点话题的迁移非常迅速,对于初创公司可能友好,但并不一定有利于打造出卓越的产品。因此,在 2023 年这个时间、这个阶段,对企业来说最好的方式,就是动手创建。
去年 5 月特赞发起了首届“数字设计:AIGC 创建者大会”(Digital Design:AIGC Builders and Creators Conference),联动 50 家 AIGC 内容科技领域的内容共建者,邀请了 200+ 分享嘉宾打造了 100+ 场全天不间断的内容盛宴,为 AIGC 的建设者(Builders)和创作者(Creators)搭建了“双向互动最大化”的舞台,吸引数百万人关注。这次大会上产生了很多 AIGC 有意思的讨论,我们也很开心这些讨论有些已经变成了落地的项目。
2023年,与焦虑相比我更多是激动。在人类创意的历史上,每一次技术的发展都是先产生了某些恐慌,然后又产生了巨大的机会,最终机会大于恐慌。
比如相机刚问世的时候,很多画家开始担忧失业问题,因为相机永远比画家呈现得更真实高效,但是后来出现了印象派、后印象派、抽象派,出现了、当代艺术,甚至连像不像都不重要,因为出现了装置艺术,打开了艺术创作的新大门。所以我很期待这轮技术带来的各种各样的可能性。
2024 年,我会持续关注大模型和应用之间的连接和边界。去年令人欣喜的是,行业头部企业,尤其是非互联网领域的领先公司,都开始倾向于构建自己的 AI 中台,这一趋势的发展速度超出了我们之前的预期。所以在 2024 年,基于 AI 中台的商业空间也会非常广阔。
ChatGPT 的发布公告把我的思绪扔回了 2016 年。彼时和大多数博士新生一样,我抱着不具体又演化为焦虑的希望来到 MIT 。因为一些乌龙,我加入了一个和自己的研究方向(NLP)不太一致的语音识别小组。
2016 年夏天导师与我畅谈他做研究的初心,帮助我寻找研究方向:希望我在博士期间设计以语音为接口,能理解、生成自然语言的 AI 系统,与人类流畅地交流许多话题,目标是要比 Alexa 更自然,比 Siri 更流畅。
当时我朴素地认为语音和对话是语言模型的应用层:当时语言模型能力极其有限的情况下,我们似乎没有理由不去深入研究语言模型,而直接开展 Chatbot 的工作。那时出于这个疑惑,训练评测语言模型成了我的舒适区,而评测调优各种下游任务则是己所不欲。
导师对此一直未置可否,最后我的博士毕业论文也囊括了许多 NLP 应用任务,但这个诞生于博士一年级的疑惑仍未散去,直到 ChatGPT 发布的一刻。
在 ChatGPT 面世的那天回忆起这些,我第一次有了对于学术生涯的遗憾:没能用自己的博士论文解答让自己感到困惑的问题。但这个遗憾随着 2023 年的流逝而释怀:自己非常关心却没人知道答案的问题可能就是最好的安排。在波澜壮阔的第三代 AI 元年,这个想法时常让我感到发自内心的冷静和平和。
这一年,我觉得最 Magic 的时刻是有一天家庭群里发的内容不再是《中年养生十大秘诀》,而是 《2024 AI 发展十大趋势》。
每个年代,比如 1860 年、1960 年、2060 年,他们的 AGI 都是不同的,但我相信,编程能力会是 21 世纪最重要的 AGI 能力。