七十年前,科学家种下了一个大胆的梦想:他们想让冰冷的机器学会阅读、跨越语种翻译,甚至像人类一样思考与言说。这七十年的路走得曲折,经历了两次AI寒冬,熬过了无数质疑,最终实现突破。现在,让我们回到一切发生的起点,看看这段改变世界的旅程是如何开启的。
第一章 计算机的语言梦
想要理解世界上第一台通用电子计算机ENIAC(Electronic Numerical Integrator and Computer)诞生的意义,我们首先需要回顾人类计算工具的发展历程。
在电子计算机出现之前,人类已经使用了数千年的计算工具。最早的计数工具可以追溯到公元前2400年的算盘,此后,人类发明了各种机械计算器。19世纪中叶,英国数学家查尔斯·巴贝奇(Charles Babbage)设计了一台名为“分析机(Analytical Engine)”的机械计算机。巴贝奇的设计理念远远超前于他的时代——它包含了存储单元、计算单元、输入输出单元等现代计算机的基本组成部分。尽管由于当时制造技术的限制,这台机器最终未能完成,但巴贝奇的设计思想对后世产生了深远影响,被公认为现代计算机的先驱。到了20世纪初期,随着电子技术的发展,计算机开始从机械时代进入电子时代。1906年,美国发明家李·德福雷斯特(Lee de Forest)发明了真空管,这是电子计算机的关键元件。1941年,德国工程师康拉德·楚泽(Konrad Zuse)建造了第一台可编程的机电式计算机Z3。1944年,美国IBM公司制造了哈佛马克一号(Harvard Mark I),这是一台使用继电器的大型计算机。这些早期计算机都有各自的局限性。它们要么不能编程,要么速度太慢,要么体积过于庞大。
1946年2月14日,在美国宾夕法尼亚大学的一间大房间里,世界上第一台通用电子计算机ENIAC正式诞生,我们迎来了通用电子计算机的时代。ENIAC的体积令人印象深刻:占地面积约170平方米,重量约30吨,其电子元件需要大量的电力来驱动,耗电量高达150千瓦,足以供应一个小城镇的用电需求。尽管体积庞大,ENIAC的计算能力在当时却是革命性的:它每秒钟能够执行5000次加法运算或300次乘法运算。这是什么概念?一个人用纸笔进行计算,每秒钟大概只能完成一次运算。ENIAC的速度是人类的数千倍。ENIAC的核心是1.8万个真空管模块,每个模块包含一组运算器。通过重新连接这些模块,ENIAC可以被编程来执行不同的计算任务。这是第一台“通用”电子计算机——它不是为单一目的设计的,而是可以解决各种数学问题。然而,ENIAC也有明显的缺陷。首先,编程非常困难,工程师需要手动连接各种线路,这个过程可能需要数周时间。其次,故障频繁,需要专人维护。第三,能耗巨大,产生大量热量,需要专门的冷却系统。

当人类第一次拥有可以按照指令执行复杂运算的机器时,一个问题自然而然的浮现出来:如果机器可以计算数字,那它能不能计算文字?这个问题看似简单,却开启了计算语言学这个全新研究领域的大门。要回答这个问题,我们需要理解什么是“计算”。在最基本的层面,计算是对符号的操作。数字是符号,文字也是符号。如果机器能够处理数字,理论上也应该能够处理文字。然而,实践远比理论复杂。数字是精确的,比如说,2加2永远等于4。但语言是模糊的,例如同一个词在不同语境下可能有不同含义,同一句话对不同的人可能有不同的理解(一个较为常用的例子是“狗”在中文中多表示贬义,而英文中却使用“Lucky Dog”形容一个人很幸运)。这种模糊性使得语言处理远比数值计算困难。
尽管如此,早期的计算机先驱们仍然看到了希望。他们意识到,如果机器能够处理语言,这将带来革命性的变化。彼时的科学家充满了想象,如果机器能够翻译语言,人们就能够跨越语言障碍进行交流;如果机器能够理解文本,人们就能够快速检索海量信息;如果机器能够生成文本,写作将变得更加高效。这个梦想激励了一代又一代的研究者,推动了计算语言学乃至整个人工智能技术的发展。
在计算机时代的黎明期,一位年轻的语言学家正在改变人们对语言的理解。1951年,诺姆·乔姆斯基(Noam Chomsky)开始了他对语言学的革命性研究。乔姆斯基的核心观点是语言不是习惯的集合,而是一套规则系统,这个观点与他之前的语言学家截然不同。传统语言学观点认为,语言是人类通过模仿和习惯形成的行为集合。而乔姆斯基则认为,人类生来就具有学习语言的能力,这是一种内置的“普遍语法”。这个理论解释了为什么三岁的孩子能够快速学会说话,他们不是“学会”语法,而是“激活”了先天具有的语言能力。1957年,乔姆斯基发表了里程碑式的著作《句法结构(Syntactic Structures)》。这本书只有100多页,却彻底改变了语言学研究的方向。在书中,乔姆斯基引入了“短语结构规则”和“转换规则”等概念。他用数学符号来描述英语句子的结构,证明可以用形式化的方法来研究语言。这一下子就炸锅了,传统的语言学家习惯于研究具体语言的具体现象,完全无法接受乔姆斯基的理论,他们认为乔姆斯基在玩弄抽象概念,完全脱离了语言的实际使用。
但计算机科学家们兴奋了:如果语言真的是一套规则,那我们就可以用计算机来模拟这套规则。这种用明确的符号和规则来模拟智能行为就是“符号主义(Symbolic Approach)”。1957年之后的二十年里,符号主义方法主导了整个计算语言学领域。研究者们致力于编写越来越复杂的语法规则,希望有朝一日能够穷尽语言的复杂性。虽然他们没有完全成功,但乔姆斯基的理论为计算语言学奠定了重要基础。有趣的是,乔姆斯基自己对计算机一直持怀疑态度。他从未参与过任何计算语言学的研究项目,也从不认为机器能够真正理解语言。“我研究语言,是因为我想理解人类心智的本质,”他在1970年代的一次采访中说,“至于机器能不能翻译,那不是我关心的问题”。1
当二十世纪中叶电子计算机的曙光初现时,这种基于不同进制逻辑的机器却在诞生之初便被打上了深刻的西方烙印。英文字母仅有二十六个,辅以数字与标点,总共不过百余个字符,在计算机科学看来,使用简单的7位或8位编码,即美国信息交换标准代码(ASCII),即可完美解决信息的数字化存储与交换。然而,这种基于字符流的处理逻辑在面对中文这种具有数千年历史、结构复杂的意音文字时,遭遇了前所未有的困境。汉字的编码逻辑与输入障碍是计算机中文化的第一道天堑。与英文的有限字符集不同,中文常用汉字约有六七千个,而历代字典收录的生僻字甚至超过五万至九万之众。更令早期计算机逻辑感到困惑的是中文的非字母化结构。由于汉字无法直接拆解为线性排列的有限字母序列,如何将万级规模的图形符号映射到有限的二进制位,以及如何利用西式键盘实现高效输入,在当时几乎是不可想象的任务。
当第一批计算机进入中国时,科学家们面临的根本课题并非算法,而是如何让计算机认识汉字。最早的尝试具有浓厚的电报时代色彩。受十九世纪末期电报明码的启发,科学家们尝试直接利用这种四位数字构成的流水编号作为汉字的机内代码。当时的输入过程极其艰难,操作员需要经过长期训练,背诵海量的数字编号。这种极高的学习门槛和记忆负担,使得汉字输入成了少数专业人员的特权,几乎阻断了计算机在中国普及的可能性。语言学家周有光先生曾敏锐地指出,当时最难的并非汉字本身,而是如何让汉字数字化以适应计算机的逻辑。这种文明的韧性开启了后续长达半个世纪的技术补课与创新。从最早的电报码到后来的万码奔腾,中国科学家始终在寻找一种既能保留汉字文化内核,又能适配二进制逻辑的平衡点。
在中文信息处理技术史中,1974年是一个分水岭。当时,中国的出版印刷行业仍处于“铅与火”的原始阶段。工人们在庞大的字模墙前手工挑字、人工排版,效率极低且劳动强度极大。与此同时,西方国家已经开始从第一代、第二代照排机向第三代阴极射线管(CRT)照排系统演进。为了改变这种落后状况,国家设立了重点科技攻关项目“748工程”(全称为“汉字信息处理系统工程”)。正是在这一背景下,北京大学的王选进入了历史舞台。他在获悉“748工程”后,对其中的“汉字精密照排系统”产生了浓厚兴趣。在调研中他发现,如果中国跟随西方的脚步研发二代或三代照排机,由于汉字数量巨大导致的存储难题,产品问世之日便是落后之时。因此,他做出了一个极具风险却富有洞见的决策:直接研制当时尚无成熟产品的第四代激光照排系统。
这一技术的核心难点在于汉字的存储与复原。由于汉字数量巨大,如果直接以位图形式存储高分辨率的字形,所需的字库信息量将高达数亿位,这在当时计算机内存仅有64KB左右的条件下是不可想象的。于是,王选提出了“数字存储、字形轮廓和参数描述”的方案。他将汉字笔画分为规则笔画和不规则笔画,分别用参数和轮廓进行描述,这种数学建模的方式将汉字字形信息压缩了数百倍,从而实现了在有限内存中的精密存储。1979年7月,王选团队在北京大学成功输出了第一张汉字激光照排样张。这一突破不仅是一次技术跨越,更让中国印刷业彻底告别了“铅与火”,跨入了“光与电”的新时代。王选的技术方案使中国在汉字信息处理领域一举达到了世界领先水平。这一创举证明了汉字不仅可以与计算机结合,更能在数字化浪潮中焕发出新的生命力。

当汉字的字形存储与输出问题得到初步解决后,信息的全球互通又带来了新的挑战:编码标准的统一。1970年代,日本在汉字字符编码标准化方面走在了前列,其制定的JIS C 6226标准遵循了国际标准ISO 2022的逻辑,这为后来中国制定汉字编码标准提供了体系架构上的参考。到了1980年代,东亚各地区纷纷制定自己的编码标准:中国大陆发布了GB 2312-80(收录6763个汉字);日本继续完善其JIS标准;中国台湾地区推行了中文信息交换码(CCCII)及后来广泛普及的Big5(大五码);韩国则有KS C 5601。由于这些标准在编码位点上彼此冲突且互不兼容,导致在不同系统的计算机之间交换文档时,会出现严重的乱码问题。如果你玩过早期的电脑游戏,你一定会对这种乱码记忆犹新。一款游戏明明在说明书上写着支持繁体中文,若在简体中文系统环境下运行,屏幕上会充斥着毫无意义的符号,必须借助专门的内码转换软件或外挂字库才能正常显示汉字。
1980年,日本国立国会图书馆的高桥德太郎提出必须统一东亚汉字编码系统。此后,国际标准化组织(ISO)和新兴的统一码联盟(Unicode Consortium)开始介入这一领域。1990年,ISO 10646的初版草案试图采用一种复杂且未经过统一处理的编码架构,这遭到了中国的强烈反对。中方专家认为,如果不进行“汉字认同”,同源汉字将在计算机中被赋予多个编码,这会造成严重的检索与处理混乱。为了解决分歧,中日韩联合研究小组(CJK-JRG,后演变为IRG)于1991年成立,这开启了历史上著名的“汉字统一(Han Unification)”进程。这场斗争本质上是文化主权与技术效率的较量。中国代表张轴材等人在其中发挥了关键作用,他们顶住压力,在国际标准谈判中确立了“原形相同、属性相同、来源不同”的认同规则。最终,在1993年,包含了20902个汉字的“中日韩统一表意文字基本区”正式发布,这标志着汉字在数字世界中获得了世界公民的身份。此后,随着扩展区A至I的相继订定,统一码收录的汉字数量已接近10万字,彻底解决了跨语种、跨代际处理汉字的信息壁垒。
此时,计算机的语言梦才算刚刚开始。
第二章 从思考开始
时间回到1949年的意大利。一位名叫罗伯托·布萨(Roberto Busa)的耶稣会神父,做了一个让所有人瞠目结舌的决定。布萨神父想要做的,是把托马斯·阿奎那(Thomas Aquinas)全部著作中约1100万个词汇全部录入计算机,并建立一个可以自动检索的索引系统。在当时计算机还是稀罕物的年代,这个想法无疑是疯狂的。
布萨神父不仅精通神学,还展现出对逻辑与早期信息技术的浓厚兴趣。1946年,他在完成关于圣托马斯·阿奎那的博士论文时,萌生了利用自动化手段处理海量文本的想法。当时,大多数人认为计算机只是用于军事或科学计算的“巨型计算器”。用它来处理文学和神学文本?简直是异想天开。但布萨神父预见到了,学者在浩瀚文本海洋中检索、比较、归纳的劳动,本质上就是一种信息处理。而计算机,恰恰是处理信息的最佳工具。要想说服IBM并不容易。布萨神父找到了托马斯·沃森寻求支持,他指着沃森办公桌上的座右铭“THINK”说:“如果你们的机器不能帮我处理上帝的话语,那它们就不配这个词”。2沃森最终被布萨神父的真诚所打动,IBM同意提供机器设备、技术人员以及资金支持,共同开启这一史诗级的人文项目。
从1949年到1980年,整整三十年间,布萨神父带着他的团队将托马斯·阿奎那的全部著作一行一行地录入系统。在项目的早期,他们采用了当时最先进的穿孔卡片技术:操作员将每个单词、页码、行号及其上下文转化为卡片上的孔洞。这是一项足以载入史册的浩瀚工程,总共耗费了约1200万张卡片,这些卡片的总重高达500吨。由于工作极其枯燥且要求严苛,布萨神父在加拉拉泰专门培训了一批年轻女性担任穿孔操作员。随着1960年代计算机技术的进步,这批庞大的数据从卡片阵列逐步迁移到了磁带存储中。这一过程不仅需要极大的耐心,更代表了人类历史上第一次利用机器逻辑对大规模自然语言文本进行深度结构化处理。
1980年,当这个项目最终完成时,布萨神父的团队产出了56卷巨型索引丛书。这是一个前无古人的成就,也是人文计算(Humanities Computing,即数字人文(Digital Humanities)的前身)这一学科领域的奠基之作。当时,布萨神父通过这项工程向世人证明了一个跨时代的观点:人文学问在技术层面上,本质上是对大规模语言信息的结构化处理。他意识到,学者们过去依赖肉眼与记忆进行的检索、比较和归纳,完全可以交由计算机来实现。他曾感慨,计算机虽然没有灵魂,但它能以人类无法企及的精度和速度,剥离出文本深层的逻辑联系。这一创举彻底打破了“人文”与“计算”之间的藩篱,证明了文本、文献、典籍作为数字信息的潜力,让计算机从此成为人类探索精神世界的重要工具。
在20世纪70年代,随着计算机技术的扩散,“人文计算(Humanities Computing)”这一术语开始在学术界正式流传。1976年,牛津大学文本档案馆(OTA)成立,成为早期人文计算的资源中枢。1978年是该学科史上的一个重要节点,人文学术计算协会(ACH)在美国正式成立,标志着人文学者开始在组织层面上系统性地整合计算机应用。这些早期的合作模式将计算机科学的严谨逻辑与人文学科的深厚内涵相结合,开启了技术与人文交叉碰撞的新可能,为后来“数字人文”的蓬勃发展奠定了建制基础。
布萨神父晚年在接受《罗马观察报》的采访时说:“我花费了半个世纪教机器如何‘读’阿奎那,但我发现,机器读得越多,我越意识到人类亲自阅读的不可替代性”。3布萨神父用计算机开启了一个时代,但他始终相信,真正重要的东西,永远在机器无法触及的地方。布萨神父他的工作彻底改变了人文研究的范式,开辟了一个全新的跨学科领域。作为公认的“人文计算之父”(及数字人文之父),他不仅留下了浩瀚的数字典籍,更留下了一套关于技术与人文如何共生的深刻哲学。
1950年代,彼时的世界仍处于冷战的阴云之下。美国和苏联在核物理、航天工程等关乎国家存亡的领域展开激烈竞争。情报战同样如火如荼,1949年沃伦·韦弗(Warren Weaver)发表的《翻译》备忘录(The Weaver Memorandum),正式为机器翻译研究奠定了理论基础。1950年爆发的朝鲜战争,进一步凸显了情报处理的紧迫性。在“语言即战场”的冷战思维下,美国国防部投入大量资金,试图攻克苏联的海量军事与科学文献。尽管战场对多语种翻译有需求,但当时机器翻译的火力几乎全部对准了俄语。1954年,著名的“乔治敦-IBM实验”成功演示了利用计算机将60余条俄语指令自动翻译成英语,这一跨时代的尝试引起了全球轰动,让人们坚信在三五年内即可彻底解决语言障碍。
1957年,一个标志性事件深刻影响了机器翻译的命运:苏联发射了人类第一颗人造卫星Sputnik。这颗卫星直径约58厘米,重约83.6公斤,在轨道上运行了约三个月后坠入大气层烧毁。尽管其技术结构相对简单,但它带来的政治冲击波是巨大的。美国朝野震动,意识到自己在科技领先地位上遭遇了前所未有的挑战。作为应对,美国于1958年成立了NASA(美国国家航空航天局),并大幅增加了国防科研预算。机器翻译因为能直接服务于针对苏联的情报分析,被提升到了国家安全的高度。从50年代末开始,源源不断的经费流向了机器翻译研究。据统计,在1956年至1965年间,美国政府在该领域的投入累计达到了约2000万美元,这在当时是一笔惊人的开支。历史总是充满了反讽:如果不是冷战压力带来的这种“末日焦虑”,机器翻译这个看似科幻的研究方向,恐怕很难在计算机性能极其有限的早期获得如此丰硕的生存空间。
然而,到了1966年,美国自动语言处理咨询委员会(ALPAC)发布了一份著名的报告。这个委员会成立于1964年,专门评估美国在机器翻译领域的研究进展。自动语言处理咨询委员会经过两年的调研,在这份名为《语言与机器(Language and Machines)》的报告中提出了一个对机器翻译领域来说无异于晴天霹雳的结论:在可预见的未来,机器翻译的质量无法达到人工翻译的实用水平,且其成本甚至高于人工。报告指出,继续大规模投资当时的机器翻译研究是不明智的。这就是历史上著名的“ALPAC报告(ALPAC verdict)”。这一判决直接导致了机器翻译研究进入了长达十余年的第一个“寒冬期”。
为什么会这样?原因极其复杂。1950年代的机器翻译研究者们严重低估了自然语言的复杂性。在当时,受密码破译成功的启发,研究人员倾向于认为翻译本质上就是一种解码,即只要编写出完备的语法规则,机器就能完成转换。然而,他们很快撞上了语义歧义(Ambiguity)的墙。以英语中的“bank”为例,它既可以指“银行”,也可以指“河岸”。对于人类而言,这种分辨几乎是本能的,但对于早期的计算机,这涉及到了极其棘手的词义消歧(WSD)问题。更为关键的是,翻译不仅是规则的映射,更需要世界知识。巴尔-希勒尔(Bar-Hillel)曾在1960年提出著名的反例:机器无法理解物理世界的逻辑,因此无法在特定语境下区分词义。此外,不同语言间的语序差异也带来了巨大挑战。虽然中文与英语在基础语序上同属主-谓-宾(SVO)结构,但日语等主-宾-谓(SOV)语言的加入使得通用转换规则变得极其臃肿。这种基于手工编写规则的路径,在面对语言无限的例外与文化变体时,最终显得捉襟见肘。
ALPAC报告发布后,美国政府大幅削减了机器翻译的研究经费。许多正在进行的项目被迫下马,大量研究人员失业。机器翻译从一个炙手可热的热门领域,变成了人人避之不及的烫手山芋。1966年到1980年,是机器翻译领域最黯淡的十四年,这就是人工智能史上著名的第一次AI寒冬。但正如一句老话所说:“冬天来了,春天还会远吗”?在浪潮撤退的地方,总有一些不死心的人,在默默坚持着。
在大洋的彼岸,作为中国计算语言学的奠基人,冯志伟在极度匮乏的硬件条件下,完成了一项具有里程碑意义的科学测定工作。1970年代末,冯志伟意识到,计算机处理汉字的前提是必须知道汉字蕴含的信息量,即“熵值(Entropy)”。汉字熵的计算在当时极其艰难,因为汉字数量庞大且笔画繁多。由于当时缺乏电子计算机资源,冯志伟采用了一种带有浓厚时代特征的“分布式计算”:他动员了自己的岳父及多位朋友分工合作,使用计算尺和算盘对手工抽取的万余个汉字进行频度统计,最终测定汉字的熵值为9.65比特。这一数据具有极高的科学价值,它不仅从数学上反驳了汉字不适合计算机的论调,更直接为后来GB 2312等双字节编码标准的制定提供了可靠的理论依据。4随后,在1980年,“748工程”组织研究者通过对2100余万字的语料进行统计,编印了《现代汉字综合使用频度表》,进一步夯实了对汉字数字化的实证研究基础。
早在1956年,钱三强就提议我国应抓紧发展机器翻译事业,该任务随后被列入《1956-1967年科学技术发展远景规划》。1959年9月,中国科学院计算技术研究所与语言研究所合作,在我国研制的第一台大型通用电子计算机104机上,成功演示了俄汉机器翻译系统。这一成就标志着中国在机器翻译的早期探索中,与美、苏、日等国共同处于世界先进行列。此后,冯志伟提出了著名的“多叉多标记树模型(MMT模型)”1981年,他主持开发出了“法吉拉(FAJRA)”多语言机器翻译系统。该系统的名称由法语、英语、日语、俄语和德语的世界语首字母缩写而成。系统能将108个汉语句子自动翻译成上述五种语言,是世界上第一个将汉语作为源语言进行多语种转换的实验性系统。这一成就不仅是学术上的突破,更在1982年的国际计算语言学会议(COLING)上赢得了国际同行的尊重,展示了中国在计算机处理自然语言领域的原创能力。
中文信息处理与西文处理不同还在于,中文句子是由连续的字串组成,字与字之间没有天然的空格作为分词符。因此,在进行任何语义分析之前,必须先将字串切分为有意义的词汇。1960年代,刘涌泉在《机器翻译和文字改革》中最早介绍了“最大匹配法(Maximum Matching)”,这是汉字自动分词最基本的方法。他的方法非常直接:将待处理的句子与预设的词典进行匹配,优先选择长度最长的词。5比如,词典里有这些词:研究、研究生、生命、起源,现在要对句子“研究生命起源”进行分词。从开头“研”字开始,看词典里最长的匹配:“研究”(2字)在词典里,“研究生”(3字)也在词典里,根据“最长优先”原则,我们切分出“研究生”。现在我们还剩下“命起源”,从“命”开始,词典里最长的匹配是命起(不存在),所以只能切出单字“命”。最后剩下“起源”,我们发现“起源”在词典里,可以直接切出。最终分词结果就是:“研究生”、“命”和“起源”。这个方法简单直接,但有时会出错,比如这里把“研究生命”错误地切开了。这项工作奠定了中文分词的技术原点,并开启了对歧义字段(如“和服”在“他和服装”中应如何拆分)检测与消解的长期探索。
与此同时,1980年代至90年代,随着微型计算机的普及,如何让普通用户更好的进行中文的录入成为难题。在这个输入法战国时代中,涌现了两种截然不同的技术路线:形码与音码。王永民发明的“五笔字型输入法”是形码的巅峰。他花费五年时间拆解《新华字典》中的一万多个汉字,归纳出字根规律,并将字根安排在键盘的25个键位上。五笔输入法的核心优势在于重码率极低,专业打字员每分钟可录入两百至三百字,速度甚至超越了英文打字。1984年,王永民在美国展览会上引起轰动,西方人第一次意识到汉字不仅不是障碍,甚至可以成为更高效的信息载体。然而,普通用户难以背诵繁杂的字根表,基于拼音的“音码”路线开始抬头。朱守涛发明的“智能ABC”输入法是拼音输入法的早期基石,它通过拼音加简单的智能组词逻辑,大幅降低了用户的使用门槛。著名作家郑渊洁是较早一批上机码字的作家,1995年在儿子的建议下,他开始用拼音输入法在电脑上创作。这一时期的技术变迁反映了中文处理的一个核心趋势:技术正在从适应专家向适应大众转化。此后,拼音输入法引入了频率统计和动态组词,直到2006年,搜狗输入法的诞生彻底改变了中文输入的格局,其“云词库”技术可以将数亿用户的输入习惯实时汇总到服务器进行分析,中文输入变得越来越准确且智能。

除了键盘输入,手写汉字识别与语音识别也在这一时期萌芽。中国科学院自动化研究所的戴汝为院士等科学家是手写识别领域的早期奠基先驱。随后,刘迎建及其创办的汉王(Hanvon)将这一实验室成果转化为商业产品。在20世纪90年代中后期,许多人在购买台式电脑的同时,也会配备一个手写板,这为不熟悉拼音和五笔的老年群体及特殊行业提供了极大的便利。与此同时,语音技术也开启了产业化征程。在“863 计划”多年科研积累的基础上,1999年,刘庆峰带领大学生创业团队成立了科大讯飞。在当时那个语音识别因环境噪音、口音等难题被视为“实验室玩具”的年代,刘庆峰坚信“语音将成为人机交互的入口”。这种从国家重点实验室走向千家万户的跨越,标志着中文信息处理从单一的文字编码,向着人工智能感知层面的语音、图像等多模态交互迈出了巨大的一步。
第三章 计算语言
1980年代末,机器翻译领域迎来了一次革命性转向。在此之前,研究者们耗费了几十年的时间,试图通过人工编写成千上万条语法规则来让计算机理解语言。然而,现实是残酷的:无论程序员编写多少条规则,总会有新的语言现象跳出规则之外,语言的这种无限性让传统的规则方法举步维艰。于是,一批富有前瞻性的研究者开始反思:如果语言太复杂,无法被规则穷尽,那么能不能让机器自己从数据中学习?这就是统计方法(Statistical Approach)的核心思想。它并不试图让机器真正理解语言背后的逻辑或哲学,而是将语言处理转化为一个概率预测问题。
统计机器翻译的奠基之作依旧源于我们熟悉的IBM实验室。彼得·布朗(Peter F.Brown)和罗伯特·默瑟(Robert Mercer)为首的团队提出了著名的“信源信道模型”,这一模型巧妙地将翻译过程类比为通信过程中的信号还原。想象一下,原本的目标语言经过一个噪声信道变成了源语言,而翻译的任务就是通过数学计算,找到那个让概率最大的原始信息。在这个过程中,语言不再是神秘的心智活动,而被简化成了可以被计数、被统计、被计算的概率分布。这种方法在当时看来极具革命性:它把语言从规则的硬壳中剥离出来,变成了流动的概率。
这种统计方法的有效性在一个简单的例子中得到了完美体现。比如“bank”这个词,在规则时代,研究者必须编写复杂的逻辑来判断它指的是“银行”还是“河岸”。但在统计学派眼中,这个问题变得简单纯粹:机器只需要观察海量的双语文本,统计出在金融词汇包围下“bank”对应中文“银行”的频率。只要数据量足够大,这种基于概率的选择往往就是最准确的。这种“数据为王”的理念在1990年代迅速占领了学术阵地。越来越多的研究者意识到,与其坐在书斋里冥思苦想语法规则,不如去收集海量的语料库,让机器自己发现语言的规律。
随着这一趋势的发展,语料库语言学(Corpus Linguistics)应运而生。研究者们开始大规模地收集、整理和分析文本,陆续诞生了许多重要的语料库。比如收录了1亿词现代英语文本的英国国家语料库(BNC)、标注了句法结构的宾州树库(Penn Treebank),以及由北京语言大学荀恩东主导研发的当前最大的开源汉语语料库之一BCC语料库(BLCU Chinese Corpus)。这些语料库至今仍是研究人类语言特征的重要资源。统计方法虽然不能解释语言现象背后的原因,但它极大地提升了机器处理语言的质量,使之从几乎不可用变成了勉强可以阅读的程度。一个统计模型可以告诉你“apple”经常对应“苹果”,但它无法解释为什么这两个词会有这种对应关系。但无论如何,统计方法的兴起,还是把机器翻译的质量提升了一个档次。虽然距离“信达雅”还有十万八千里,但至少勉强可以阅读了。人类开始接受一种不求甚解但极其有效的工具主义,这种工具主义为后来深度学习的崛起埋下了伏笔。

1990年代,中文分词也迎来了从“词典匹配”到“统计建模”的跨越。黄昌宁在此过程中发挥了至关重要的作用。他于1993年发表的《关于处理大规模真实文本的若干思考》主张计算机使用的语言知识应来源于大规模真实的分词标注语料库,而非单纯的人工规范。这一思想推动了分词技术向基于隐马尔可夫模型(HMM)等统计方法演进。与此同时,清华大学的孙茂松教授也对汉语自动分词进行了系统性研究。他研制出的CSegTag系统,集成了自动分词、词性标注与命名实体识别功能,成为了当时国内领先的底层处理工具。为了统一评价标准,2003年起,国际组织SIGHAN开始举办中文分词评测(Bakeoff),确立了以F1值为核心的测评体系,极大地促进了全球范围内中文自然语言处理技术的交流与互鉴。
在统计翻译技术蓬勃发展的同时,另一股力量正在计算机科学的底层脉动。这股力量源自人类对生物大脑工作原理的极致痴迷。人工神经网络(Artificial Neural Networks)的概念,本质上就是对人类大脑神经元结构及其电信号传递方式的一次数字模拟。如果说统计方法是在宏观层面寻找规律,那么神经网络则试图在微观层面重构智能的产生过程。
这段探索可以追溯到1943年,沃伦·麦卡洛克(Warren McCulloch)和沃尔特·皮茨(Walter Pitts)发表了一篇题为《神经活动中思想内在逻辑的演算(A Logical Calculus of the Ideas Immanent in Nervous Activity)》的论文。这两位跨学科的学者提出了一个惊人的假设:人脑的工作原理可以用纯粹的数学逻辑来描述。他们设计的“M-P神经元模型”具有多输入单输出的特征,输出值取决于兴奋性输入信号的总和是否超过某个设定的阈值,且抑制性输入具有绝对的否决作用。这个模型虽然简单,却在理论上证明了生物神经活动与逻辑运算之间的内在联系。这不仅是人工神经网络的雏形,更是人类试图用机器模拟生命智慧的开端。
到了1958年,弗兰克·罗森布拉特(Frank Rosenblatt)在这一理论基础上发明了著名的“感知机(Perceptron)”。这是第一个真正具备学习能力的人工神经网络。感知机的工作原理直观且迷人:给定输入和预期的输出,感知机通过不断调整内部的权重来减小预测误差。当时的媒体甚至对此大加赞赏,认为这种机器很快就能像人类一样思考、看图和说话。然而,感知机的这种辉煌并未持续太久。1969年,人工智能先驱马文·明斯基(Marvin Minsky)和西蒙·派普特(Seymour Papert)在他们的专著中揭露了感知机的致命缺陷,即它无法处理“非线性问题”。这里最著名的例子就是“异或”逻辑运算。简单来说,如果你在坐标系上画出四个点,感知机无法通过一条单一的直线将它们按照异或逻辑进行分类。如果你想在图中画一条直线完美分割红点和蓝点,而这两个点的分布是交叉的,直线就会显得无能为力。这一发现像一盆冷水浇灭了当时神经网络研究的热潮。整个1970年代,神经网络研究跌入了低谷,资金和研究者纷纷撤离,这一时期被后世称为人工智能的寒冬。
幸运的是,这一次在寒冬中依旧有坚守的人。1986年,杰弗里·辛顿(Geoffrey Hinton)与同事大卫·鲁梅尔哈特、罗纳德·威廉姆斯共同发表了关于反向传播算法(Backpropagation)的论文。他们证明了虽然单层神经元无法处理非线性问题,但通过构建多层神经网络,并利用反向传播算法来调整每一层神经元的权重,就可以完美解决异或问题等复杂逻辑。反向传播解决了多层网络的训练难题,它是神经网络研究的一次重生。然而,受限于当时极其有限的计算机算力和匮乏的数据资源,神经网络虽然在理论上重获新生,但在实际应用中依然无法与当时风头正劲的统计方法抗衡。神经网络就像是一个空有屠龙技的剑客,在等待一个属于它的时代的到来。
1988年前后,现代语音识别的先驱弗雷德里克·杰利内克(Frederick Jelinek)留下了那句名震人工智能界的“狂言”:“每当我开除一个语言学家,语音识别系统就更准了。”这句话生动地刻画了自然语言处理从繁琐的手工语法规则转向统计与大数据驱动的重大技术范式变革。尽管杰利内克后来笑称这只是夸张,并表示“我的一些最好的朋友是语言学家”,6但这也标志着统计学方法对传统语言学逻辑的胜利。时至今日,这个经典的梗依然被广泛用于探讨人工智能技术路线演进的深刻历史。
进入21世纪,计算技术的飞速进步为神经网络提供了前所未有的养料。原本用于处理复杂游戏画面的显卡(GPU)被意外发现具有极强的并行计算能力,完美契合了神经网络大规模矩阵运算的需求。当海量的数据与强大的算力相遇,神经网络正式进化成了“深度学习(Deep Learning)”。这里的“深度”并非虚词,它形象地描述了神经网络层数的急剧增加,从原来的三五层增长到几十层、上百层,甚至更多。

一个标志性事件是2012年的ImageNet挑战赛。当时,杰弗里·辛顿带领的团队凭借一个名为AlexNet的卷积神经网络(CNN)系统,以压倒性的优势击败了所有基于传统方法设计的系统。AlexNet将图像识别的Top-5错误率从此前纪录的26%瞬间拉低至15.3%。这种跨越式的提升在计算机视觉领域是前所未有的,此前研究者们花了十几年才把错误率降低了几个百分点。辛顿及其团队的成功不仅证明了深度学习的威力,也让“深度学习之父”的名号实至名归。
深度学习的本质是对复杂特征的自动提取。在传统方法中,研究者需要手动设计特征,告诉机器什么样的线条代表猫的耳朵。但深度神经网络更像是一个极具感悟力的学徒,它通过观察海量数据,在数以亿计的虚拟神经元之间建立连接。在深度网络中,底层神经元负责识别简单的线条和颜色,中层神经元将这些线条组合成形状,高层神经元则最终理解这些形状代表的具体物体,如猫脸、行人或路标。这种从简单到复杂的层次化理解过程,正是深度学习能够“看懂”世界的奥秘。
在深度学习领域,除了辛顿,还有两个绕不开的名字:杨立昆(Yann LeCun)和约书亚·本吉奥(Yoshua Bengio)。杨立昆开创了卷积神经网络,使机器能够高效处理图像;本吉奥则在序列建模和神经网络的理论基础方面有着深刻见解,他们被称为“深度学习三巨头”。2018年,这三位科学家共同获得了计算机领域的最高荣誉“图灵奖”,这不仅是对他们个人的嘉奖,更是对深度学习改变计算世界的认可。自此,深度学习成为了计算的重要组成部分,它对数据的贪婪胃口和较高的准确率,使其在图像识别、语音处理和自动驾驶等领域全面开花。
当深度学习的旋风席卷图像领域时,自然语言处理(Natural Language Processing,简称“NLP”)也迎来了它的大江大海。这场让机器理解人类语言的革命首先是从如何表示一个单词开始的。在传统的统计模型中,单词被视为孤立的符号,计算机并不知道“猫”和“狗”在语义上比“猫”和“石头”更接近。2013年,Google的托马斯·米科洛沃(Tomas Mikolov)发布了词向量(word2vec)算法,这一技术突破彻底改变了这一切。
词向量的技术核心思想是将每一个单词映射到一个高维的向量空间中。在这个空间里,语义相近的词,其几何距离也相近。最让学术界疯狂的发现是,这些向量竟然可以进行语义运算。例如,在这个向量空间里进行“国王-男人+女人”的数学运算,得到的结果向量与“皇后”这个词的向量非常接近。这说明计算机不再仅仅是在数单词出现的频率,而是真正学到了词语之间的语义关系。这一技术的出现宣告了传统特征工程的终结,开启了端到端学习的新纪元。
紧随其后的是神经机器翻译(NMT)的崛起。2014年,神经机器翻译开始取代传统的统计翻译模型。与统计方法将句子拆碎后再拼凑不同,神经机器翻译利用一个整体的神经网络,直接将源语言映射到目标语言。这种方法不需要复杂的对齐规则,只需要大量的双语文本,神经网络就能自动学会翻译。虽然最初的效果距离“信达雅”还有距离,但其流畅度已经大幅超越了前代技术。在此期间,1997年德国计算机科学家于尔根·施密德胡伯(Jürgen Schmidhuber)和他的学生塞普·霍赫赖特(Sepp Hochreiter)提出的长短期记忆网络(LSTM)更是发挥了关键作用,它解决了传统网络在处理长句子时“容易忘事”的梯度消失问题,使机器能够记住句子开头的信息直到翻译完整句。
真正的画龙点睛之笔是2014年提出的注意力机制(Attention Mechanism)。在这篇名为《通过联合学习进行对齐和翻译的神经机器翻译(Neural Machine Translation by Jointly Learning to Align and Translate)》的论文中,德兹米特里·巴达瑙(Dzmitry Bahdanau)、曹京贤(Kyunghyun Cho)和约书亚·本吉奥(Yoshua Bengio)三位作者依旧是主要为了解决我们的老朋友——机器翻译问题。具体说来,注意力机制的灵感源于人类的认知习惯:当我们阅读一句话或观察一幅画时,我们并不会平均分配注意力,而是会重点关注那些关键的部分。在机器翻译中,注意力机制让神经网络在生成目标语言的每个词时,学会动态地去关注源语言中对应的关键部分,而不是试图把整句话的信息强行压缩成一个固定的向量。这种机制就像是一个可以移动的聚光灯。当机器翻译“The cat sat on the mat”中的“sat”时,聚光灯会照在“sat”上,同时兼顾“cat”这个主语,而暂时忽略其他次要信息。这种灵活的信息加权处理方式,极大地提升了翻译的准确性和语境理解能力。
到此,深度学习已经彻底统治了自然语言处理领域,统计方法逐渐退出了历史的主舞台。正如技术演进的逻辑所揭示的那样:一个依赖规则和死记硬背频率的时代结束了,一个能够捕捉语义联系、能够动态分配注意力的智能时代开启了。
随着计算机处理文本能力的指数级增长,技术的影响力开始溢出实验室,向人文社科领域渗透。2004年,谷歌(Google)宣布了一项听起来近乎疯狂的计划:数字化全世界所有的图书。这个被称为谷歌图书(Google Books)的项目,旨在将人类数千年来积累的所有文字财富转化为可搜索、可计算的数字资源。到2020年,谷歌图书已经收录了超过4000万册图书,占据了人类出版史的重要比例。虽然由于版权问题,这个项目曾饱受争议,但它为人类提供了一个前所未有的全局视野。我们第一次可以站在几百年的时间尺度上,去观察词汇的变迁、思想的流动和文化的更迭。
谷歌借助于其强大的数据搜索和处理能力,统计了从1500年到2008年间所有文献中短语的出现频率,于2010年发布了n-gram数据集及其查询工具。这不仅是一个数据集,它更像是一张人类文明的“心电图”。利用这些数据,研究者们可以进行一些在以前看来不可思议的研究。比如探索“Witch(女巫)”一词在清教徒崛起时期的暴涨,以及在理性时代到来后的迅速陨落;或者通过对比“husband”与早期拼写形式“hufband”的频率变化,精确锁定人类印刷史上弃用长s符号的转折点等等。这种基于大规模数据的研究催生了一个全新的学科——文化组学(Culturomics)。它试图用研究基因组的方式,通过语言的进化去解读文化的基因。
在文学界,斯坦福大学教授弗朗哥·莫雷蒂(Franco Moretti)以此提出了革命性的“远读(Distant Reading)”概念。传统的文学研究崇尚“细读”,即逐字逐句地研读经典。但莫雷蒂指出,传统的细读只能覆盖极少数的经典之作,而忽略了那99%的“大沉默”——即那些被历史遗忘的普通作品。通过计算机对成千上万部(甚至上百万部)作品进行宏观分析,研究者可以看到文学形式的长程演变,比如小说标题是如何从18世纪的长篇大论缩减到现代的精简干练。这种研究方式通过牺牲细节换取了宏观视野,让文学研究从感性的品味转向了理性的证据搜集。莫雷蒂的研究甚至利用网络理论来分析戏剧冲突。在分析《哈姆雷特》时,他通过算法将角色的互动转化为空间网络图,直观地揭示了所有悲剧死亡都集中在以国王和王子为中心的特定区域。这种研究方法标志着人文研究进入了一个新阶段:计算机不再仅仅是打字机或检索工具,它成为了重新定义研究问题的显微镜和望远镜。

2017年,人类历史上第一本由人工智能创作的诗集《阳光失了玻璃窗》出版发行,这本书的作者是“微软小冰”。她于2014年发布,与当时由苹果公司推出的手机助手Siri不同,小冰的定位是“有温度的人工智能”。小冰打破了自然语言处理仅仅是语义分析的刻板印象,展示了人工智能在情感交互、多模态表达和内容创作上的巨大潜力。提到写中文诗词,更不得不提的是由清华大学自然语言处理与社会人文计算实验室研发的人工智能诗歌写作系统“九歌”。九歌由孙茂松教授于2016年主导研发,支持绝句、律诗、藏头诗、词等多种体裁,甚至能控制写出不同的语言风格。
从人类专家手中掌握的语言规则,移交给了机器从海量数据中发现的概率分布。这一移交解放了生产力,让机器不再受限于人类认知的盲区。数字与人文的共舞证明了当技术演进到一定高度,它不仅能改变我们沟通的方式,更在重新塑造我们理解人类文明轨迹的能力。
第四章 通用人工智能的火花
2017年被公认为是深度学习技术发展的分水岭。在这一年之前,自然语言处理领域主要被循环神经网络(RNN)及其变体——如长短期记忆网络(LSTM)和门控循环单元(GRU)所统治。当时的算法逻辑深受人类线性阅读习惯的影响,即从左到右、逐字逐句地处理文本信息。这种串行机制在处理短句时表现尚可,但在面对长文本时却陷入了深刻的困境。由于循环神经网络需要将前一个单词的隐藏状态传递给下一个单词,随着序列长度的增加,最初的信息在经过层层传递后会逐渐变得模糊,产生所谓的“梯度消失”或“梯度爆炸”问题,导致模型在读到段落结尾时已经忘却了开头的关键语境。与此同时,卷积神经网络虽然在图像处理领域大放异彩,但它在处理远距离词汇之间的关联时依然显得力不从心。卷积神经网络就像一个拿着放大镜的观察者,虽然能看清局部的纹理,却难以理解整幅画作的深远意境。在这一背景下,由谷歌研究人员发表的论文《注意力就是你所需要的(Attention Is All You Need)》横空出世,正式提出了Transformer(有些地方的中译名为“转换器”)架构。

Transformer架构的设计哲学彻底颠覆了以往的序列处理范式。它废弃了所有循环和卷积结构,转而完全依赖于一种被称为“自注意力(Self-Attention)”的机制。如果说循环神经网络是在狭窄的单行道上蹒跚而行,那么Transformer架构则是站在高处俯瞰全局。它允许模型在处理序列中的任何一个元素时,都能同时关注到序列中的所有其他元素,并根据相关程度动态地分配注意力权重。这种全局视野使得模型能够直接捕捉到远距离的语义联系,例如,在翻译一个复杂的长难句时,模型可以瞬间将末尾的代词与句首的主语联系起来,而无需经过漫长的中间步骤。
更具革命性的是,Transformer架构天然支持高度的并行化计算。由于模型不再需要按顺序处理数据,它可以利用现代图形处理器(GPU)的强大算力同时计算序列中所有位置的表现,这极大地缩短了训练时间。然而,早期的Transformer架构也并非完美,其计算复杂度会随着序列长度的增加呈二次方增长,且在训练初期往往难以收敛,需要引入学习率预热(Warmup)和层归一化(Layer Normalization)等精密的技术手段来维持稳定。但正是这些架构上的创新与工程上的打磨,为后来超越人类水平的大语言模型奠定了坚实的物理基础。
在Transformer架构确立后,人工智能领域分化出了不同的演进路线。其中,OpenAI(中译名为“开放人工智能研究中心”)选择了一条极具前瞻性且在当时颇具争议的道路:自回归生成的单向预训练。OpenAI由萨姆·阿尔特曼(Sam Altman)、埃隆·马斯克(Elon Musk)和伊尔亚·苏茨克维(Ilya Sutskever)等人共同创立,其成立的初衷是作为一个非营利组织,以确保通用人工智能(AGI)的发展能够造福全人类,并防范其潜在风险。关于这家公司的传奇故事,我们有机会再聊。
2018年,第一代生成式预训练Transformer(GPT-1)正式诞生。GPT-1的核心思想是通过在海量的未标记文本上进行自监督学习,让模型学会预测下一个单词。这种训练方式不需要人类进行昂贵的人工标注,只要有足够的文本,模型就能在不断猜测下一个词的过程中,潜移默化地习得语言的语法规律、常识知识甚至逻辑推理能力。随着GPT-1的成功,OpenAI发现了一个令人振奋的规律:模型的性能似乎与参数规模和训练数据量之间存在着某种近乎神圣的比例关系,这后来被学术界总结为“缩放法则(Scaling Laws)”。2019年,GPT-2的发布在社会各界引发了巨大的轰动。该模型的参数量达到了15亿,其生成的文本在流畅度和连贯性上已经到了足以乱真的程度 。当时OpenAI甚至因为担心GPT-2被用于大规模制造虚假新闻、钓鱼邮件或自动化宣传,而罕见地采取了先发布小型版本,经过数月评估后再公开完整模型这样一种分阶段发布的策略。
科学家在针对GPT的研究中发现,人工智能其实也会“学坏”。这就是所谓的偏见与安全对齐挑战。通过一些针对性的引导,人工智能模型可能会产生带有极端主义倾向的内容。这一发现让人们意识到,人工智能正在从一个简单的工具演变成一种具有强大社会影响力的媒介。为了防患于未然,研究界开始提倡发布“模型卡(Model Card)”——这一概念由谷歌研究员于2019年提出,旨在主动向公众披露模型中存在的性别、种族和宗教偏见,并呼吁全行业共同建立人工智能安全标准。
除了偏见,人工智能还有一个现在我们都会遇到的毛病——“幻觉(Hallucination)”。早在 1995 年,科学家斯蒂芬·塞勒(Stephen Thaler)就注意到了这个现象,不过在当时,“幻觉”一词用以描述神经网络中自发产生的新想法或概念,类似于人类的创造性思维过程,带有褒义色彩。但到了2015年,安德烈·卡帕斯(Andrej Karpathy)在其著名的博客文章中指出,训练循环神经网络时,模型会编造不存在的网页链接和数学证明,生成了看似合理实则虚构的内容,这正是我们今天在聊天机器人身上经常看到的幻觉问题的最早记录。
还有一个问题是人工智能的“黑盒”:虽然模型预测越来越准,但当人类打开电脑屏幕,看到的只是数以万计的浮点数矩阵,我们暂时还无法理解为什么在神经网络中,某个神经元的权重变化带来的作用机制(例如,为什么当科学家将第x层神经元的权重增加0.001,机器就能识别出一只猫?)。时至今日,越来越多的研究者也在努力对这种人工智能的可解释性问题展开攀登。
2020年,GPT-3的问世标志着“大模型时代”的正式降临。GPT-3的参数量跃升至1750亿,比前代扩大了百余倍。这个庞然大物在570GB的高质量文本数据中浸泡、成长,最终展现出了前所未有的“少样本学习”(Few-shot Learning)能力。用户不再需要为模型提供数万个标注样本进行微调,往往只需要给出几个示例,或者仅仅是一段自然的文字描述,GPT-3就能心领神会地完成撰写代码、创作诗歌、翻译生僻语言甚至处理数学题的任务。GPT-3的出现彻底改变了开发者对AI的认知,它不再是一个死板的程序,而更像是一个拥有广博知识背景的初级“通用人工智能”雏形,尽管它当时依然存在着严重的幻觉问题和难以受控的输出倾向。
尽管GPT-3在智力上已经展现出惊人的潜质,但由于它是从互联网这个“混沌的大熔炉”中学习的,它不可避免地吸收了网络语言中的戾气、偏见、错误事实和无意义的废话。它就像一个虽然读过万卷书,却分不清善恶、不懂得礼貌的天才。为了让人工智能真正变得有用且无害,OpenAI的研究人员引入了一项关键技术:人类反馈强化学习(RLHF)。人类反馈强化学习的逻辑可以被形象地比作“厨师与食客”的关系。在第一阶段,人类专家会编写大量的优质范例,演示如何正确地回答各类复杂问题,这被称为监督微调(SFT)。在第二阶段,模型会针对同一个问题生成多个不同的回答,人类评价者则根据回答的有用性、真实性和安全性进行排序。这些排序数据被用来训练一个专门的“奖励模型”,这个奖励模型的目标是学会模仿人类的品味和价值观。在最后的第三阶段,主模型通过近端策略优化(PPO)算法,在奖励模型的持续监督下进行迭代,不断优化自己的表达策略,以获得更高的“奖励分数”。这种对齐过程使得模型从简单的“语言预测器”蜕变为真正能理解用户意图的“对话助手”。2022年11月30日,基于GPT-3.5微调而成的ChatGPT正式发布。它在用户界面上回归了最自然的对话框形式,却在后台运行着人类历史上最复杂的对齐算法。ChatGPT的发布引发了科技界的地震:它在短短五天内就获得了百万级用户,并在两个月内用户突破一亿,刷新了当时全球消费级应用的增长纪录。
ChatGPT的影响力迅速突破了技术圈的范畴,成为一个全球性的文化现象。在2023年初的密集测试中,人们惊讶地发现它能够通过执业医师资格考试以及沃顿商学院的MBA期末考。而随后发布的GPT-4更是以排名前10%的高分通过了美国律师资格考试(UBE)。它展现出的不仅是知识的堆砌,更有初步的逻辑推演和语境感知能力。这种能力的跃迁在教育界引发了前所未有的震动,教育者们不得不重新思考论文作业和考试评价的意义。而在职场中,关于AI取代翻译、程序员、文案策划等白领岗位的担忧也从科幻变成了现实的压力。
在ChatGPT引爆全球热潮后,OpenAI并未停下脚步,而是在2023年3月发布了更具统治力的GPT-4。如果说GPT-3.5是一个能言善辩的文科生,那么GPT-4则进化成了一个拥有跨学科理解力的全才。虽然OpenAI出于竞争和安全考虑,未曾公开GPT-4的具体参数,但外界普遍猜测其规模达到了惊人的1.7万亿级别,这使其在处理复杂指令和微妙语义时展现出了远超前代的可靠性。GPT-4最引人注目的特质在于其原生的“多模态”能力。它不再仅仅被困在文字的牢笼里,而是拥有了视觉。用户可以上传一张冰箱内部的照片,询问它可以做哪些菜,它不仅能识别出照片里的食材,还能根据食材的组合给出详细的烹饪步骤。
时至今日,由微软的研究团队撰写的《通用人工智能的火花:GPT-4的早期实验(Sparks of Artificial General Intelligence: Early experiments with GPT-4)》仍旧是影响我最深刻的论文之一。在这篇论文中,研究人员们直言不讳地宣称,GPT-4已经展现出了通用人工智能(AGI)的早期火花。该论文详尽记录了GPT-4模型在法律、医学、数学等领域的突破,认为其已具备了跨领域的推理与常识能力。特别是在专业领域,这种能力的价值更为巨大。在针对行医执照考试(USMLE)的研究中,GPT-4表现出了卓越的专业水平。根据OpenAI发布的官方技术报告,GPT-4在医学考试(MedQA)中的准确率达到了82.2%,远高于GPT-3.5的52.9%。此外,GPT-4在逻辑深度和记忆力上也实现了跨越式的提升。其标准的上下文窗口起步为8192个词元,后续版本支持高达32768个词元,而Turbo版本更是将这一限制推向了12.8万个词元(128k)。这意味着用户可以将一整本长篇小说或一叠复杂的法律合同直接喂给它,让它进行精准的总结、查漏或进行逻辑梳理。

然而,GPT-4的强大也带来了新的伦理和安全争议。由于其具备更强的编程和问题解决能力,人们开始担心它会被用于开发复杂的网络武器或制造有害生物信息。为此,OpenAI在发布前进行了长达六个月的安全测试。最后,这项技术才来到了我们的面前——希望我们打开的不是潘多拉魔盒。
当OpenAI、谷歌和Anthropic等巨头在闭源大模型的赛道上狂飙突进时,Meta(原“脸书(Facebook)”)却以一种意想不到的方式改变了整个行业的格局。2023年2月,Meta发布了Llama,其初衷是为学术研究提供一个高性能的基础模型。然而,模型权重的意外泄露却在开源社区引发了一场类似于普罗米修斯盗火式的革命。全球的开发者惊讶地发现,尽管Llama的参数规模相对较小(从70亿到650亿不等),但其训练质量极高,在许多任务上的表现甚至能与庞大的GPT-3不相上下。
在Llama发布之前,绝大多数工程师们都认为要提升模型效果就必须增加参数量。Llama能以较小身躯抗衡 GPT-3,最核心的逻辑在于练得更深,学得更久。Meta团队在设计Llama时,深刻践行了Chinchilla定律(在给定的计算预算下,模型参数量与训练数据量应当保持大致平衡的缩放关系,而非一味地增大模型尺寸),即认为当时的大多数模型都处于训练不足的状态。GPT-3虽然有1750亿参数,但训练数据仅约3000亿个词元(Token),而Llama即使是最小的7B版本,也喂进了1万亿个词元。什么是“词元”?在人工智能领域,词元是文本处理的基本单位。模型将输入的句子拆分成更小的片段,这些片段可以是单词、子词甚至标点符号。例如,“中国你好!”可能会被拆分成“中”、“国”、“你”、“好”、“!”这几个词元。模型理解和生成文本,都是基于对词元序列的处理。如此大量的词元意味着Llama的每一个参数都经过了数倍于GPT-3的数据洗礼,其单位参数的知识密度极高,从而在逻辑推理和语言理解上展现出了跨量级的效率。
需要提醒的是:分词是语言学上划分有意义单元的过程,而词元是计算机处理文本的最小单位。分词粒度通常是“词”级别,目标是得到语言学上公认的词语;词元的粒度更灵活,可以是单词、子词、甚至字符,用于平衡词汇表大小与解决未登录词问题。例如,“我爱自然语言处理。”这句话:分词的目标结果是“我”,“爱”,“自然语言处理”,“。”;词元化的结果则可能是“我”、“爱”、“自然”、“语言”、“处理”、“。”或更细的子词。
在这场“盗火”行动中,不得不提的是开源社区的贡献,可以说,他们才是真正的“普罗米修斯”。Meta在发布Llama时走的是半开放路线。他们要求研究人员填写申请表,只有通过审核的学术机构,才能获得一个专属的下载链接。然而,就在发布后不到一周,有人在匿名讨论版4chan上直接放出了Llama全系列模型的下载链接。在Llama权重泄露后的短短几周内,全球开发者以一种近乎狂热的协作方式聚集,打破了大模型原本高不可攀的算力与技术门槛。最先是以llama.cpp为代表的项目,开发者格奥尔基·格尔加诺夫(Georgi Gerganov)通过4-bit量化技术,奇迹般地让这个庞然大物在MacBook甚至普通的笔记本电脑上流畅运行,彻底终结了大模型必须依赖顶级A100显卡的垄断时代。这种算力的平民化,让无数独立研究者和学生第一次拥有了在自家书桌上调试顶级人工智能的权利。
2023年7月,Meta顺势而为,正式发布了允许商业使用的Llama 2。Llama 2采用了更先进的架构优化,如分组查询注意力(GQA),并使用了2万亿词元的数据进行预训练。Meta的这一举动被视为对闭源厂商护城河的强力挑战。由于Llama 2是开源的,企业和研究者可以在自己的服务器上私有化部署模型,根据特定行业的专有数据进行深度微调,而不必担心数据隐私泄露或被昂贵的API价格所束缚。进入2024年,开源力量的影响力达到了新的高度。Llama 3系列的发布再次刷新了开源模型的性能上限。Llama 3的80亿版本凭借更优的分词器和高达15万亿词元的超大规模预训练,在多项基准测试中超越了许多参数量大其数倍的模型;而其4050亿参数的版本则成为了首个真正具备前沿级能力的开源大模型,在逻辑推理和数学能力上足以挑战GPT-4等顶尖闭源产品。开源生态的繁荣带动了一系列连锁反应。从Hugging Face上数以千计的微调模型,到针对本地运行优化的压缩技术,AI技术的准入门槛被极大地拉低了。这种技术民主化不仅加速了人工智能在全球教育、医疗和公共服务领域的渗透,也迫使闭源巨头不得不通过持续的创新和降价来维持竞争优势。尽管关于开源模型可能被滥用的风险讨论从未停止,但不可否认的是,Llama系列及其后的开源浪潮,已经让人工智能从少数实验室的奢侈品变成了全球开发者共享的数字生产力工具。
2024年,来自杭州的初创公司深度求索(DeepSeek)彻底震动了全球人工智能领域。创始人梁文锋带领团队通过一系列工程与算法上的极致创新,打破了只有堆算力才能做大模型的迷思。DeepSeek的技术贡献在于,它在极低的算力成本下,实现了媲美甚至超越顶级闭源模型的性能。其中最为人称道的是多头潜在注意力机制(MLA)和混合专家架构(DeepSeekMoE)。这两项技术通过对显存压缩和稀疏计算路径的深度优化,使模型在保持极高性能的同时,大幅降低了训练与推理的开销。而到了2025年初,随着DeepSeek-R1的发布,知识蒸馏(Knowledge Distillation)技术成为了讨论的热点。这项技术可以将大模型(教师模型)的推理知识迁移到小模型(学生模型)中,使后者在参数规模大幅缩减的前提下,依然能完整继承模型的核心智能。用形象一些的比喻来说,知识蒸馏就像是一位博学的宗师,将毕生积攒的万卷书智慧浓缩成一本“通关秘籍”亲传给徒弟:他不只是让徒弟死记硬背答案,更是把复杂的解题思路和判断直觉交给对方,让这个身材轻盈的徒弟不必背负沉重的书包,凭借这套核心逻辑,以极低的消耗爆发出足以媲美宗师的战斗力。
现在,手机中的DeepSeek、豆包或是元宝已经开始化身为每个人指尖上的数字智囊。无论是文案构思,还是繁琐的数据整理,这些工具正在以前所未有的方式,重塑我们的生活、办公和娱乐范式。技术为我们点亮了人机交互新的灯塔,人类科技的大船不断向着海洋深处前行。
结语
ENIAC诞生的时候,没有人会想到,八十年后的计算机可以写诗;当ALPAC报告给机器翻译判死刑的时候,没有人会想到,四十年后机器翻译不仅复活了,还甚至会取代基础翻译工作;在ChatGPT发布的时候,也没有会想到几年后的AI已经可以参加高考并取得高分。尽管现在人工智能还无法做到真正的理解语言,更无法感悟文字背后波流转的情绪厚度与真实人类生命体验,但它却在庞大的概率图谱中捕捉到了人类文明的脉络。它更像是一个博闻强识的镜像者,通过对海量数据的深度映射,赋予了冰冷指令以逻辑的温度。这种无意识的智能正在打破认知的壁垒,让我们可以跨越语义的鸿沟,与某种更高维度的规律达成共振。
人工智能真的会取代翻译么,更进一步,人工智能真的会说话吗?这个问题放在今天变得更难回答了。或许在算法的“黑盒”里,真正的意识尚未破茧而出,但人类又似乎已经掌握了驾驭浪潮的风帆。当人类的直觉与机器的算力在深海汇流,那片未知的彼岸,正随着每一次交互的迭代,渐渐显现出清晰且壮丽的轮廓。
