|
“我一生中从未见过,至少在我从事科技行业的30年中,美国西海岸的先辈科技可以在几个月内以非常真实的方式出如今印度农村。我不以为在过往的工业革掷中有过这种征象,对于知识型工作者来说,大概这一次完全即是工业革命。”
在瑞士达沃斯举行的天下经济论坛的一场对话中,现任微软公司CEO、董事长萨蒂亚·纳德拉曾如许表现。
让我们借用天主的职权来利用时空,把一个生存在10世纪的罗马农夫带到15世纪中国,固然本地礼节和语言有所差别,附近的农田和修建仍能让他感到如归故土般认识。但假如把某位15世纪的哥伦布水手转移到21世纪的都会附近,他会发现本身完全无法明白四周险些全部事物。由于在已往短短250年间,人类的科技和经济发生了三次爆炸性增长,险些全部人(而不是一小撮精英人群)的物质生存都发生了翻天覆地的变革,我们把这种涉及险些全部人的生产力厘革称为“工业革命”。
ChatGPT出现的短短两个月内,我身边天然语言处置惩罚范畴从业的朋侪们就履历了两场深深的焦急,一场是ChatGPT刚诞生时,对本身研究方向的反思,另一场则来自于如今的资源怒潮。固然,如今以ChatGPT为代表的AIGC(天生式人工智能)存在真实性、可控性、时效性和明白力题目(究竟上微软新版Bing里已经办理了许多),但让人恐惊的是,这些题目仿佛并非无法可解,而是更让民气生畏惧的是,将来近在面前,假如不拥抱变革,大概便如那位来自15世纪的哥伦布水手,一夜之间,本身便险些成为了变革自己。
我们不得不认可,正如纳德拉所言,一场新的、关于“智能”的工业革命的抽芽正破土而出。对比从前,ChatGPT的上风并非“把信息分发给每一个必要的人”,而是“猜测性地表现*和调用信息”,也是因此,它不是传统互联网应用,好比搜刮引擎、谈天工具大概消息保举的简朴复刻。
假如把各类人工智能算法比作蒸汽期间的蒸汽机、电气期间的发电机、信息期间的盘算机和互联网,作为人类汗青上用户数最快过亿的消耗级天然语言处置惩罚应用,ChatGPT就像初生的汽车、电话大概互联网网站,正以亘古未有的速率让原天职散在各范畴的天然语言处置惩罚算法“飞入平常百姓家”,影响到险些全部人的生存。
在近来这两个月里,任意一搜就可以看到,太多的科技首脑,从马斯克、纳德拉,到李开复、周鸿祎等,都在发声称ChatGPT即将改变天下;太多的互联网公司,好比谷歌,微软,阿里,百度正在抢占潮水;又有太多的学术机构、高校也开始讨论ChatGPT天生论文是否符合学术规范;而忽然之间又有太多各行各业从业者燃起了被ChatGPT替换的担心与焦急……
许多人开始问,这种天生式人工智能会像太古人类一样产生聪明吗?在这场由呆板头脑开启的工业革命里,ChatGPT是怎么发展到如今的?它的范围是什么?它对我们每个人的运气意味着什么?在这篇文章里,我实验对上述几个题目作出答复。
大概今后,每位读者都会对“怎样对待ChatGPT”这个题目有本身的想法。
ChatGPT更像人,它就肯定更智能吗?
“头脑”资助人类统治地球至今。岂论你喜不喜好,它都正粗暴地推着每个人的后背进入下一个房间,固然我们并不知道房间里是天使照旧妖怪。”
回溯汗青,自人类开始竖立行走至今已有250万年光阴。在这漫长的进化过程中,我们的先祖利用火焰、工具和石头制作门路、都会和高塔,驾御蒸汽、闪电和钢铁征服大地、海洋和天空。我们逾越了儒勒·凡尔纳的想象,只必要48小时就能周游天下;我们完成了40亿年里地球生物从未完成的壮举,踏上了月球。越来越多的人类信赖,头脑是人和动物的本质区别,而7倍于同体重哺乳动物的大脑容量是人类先祖产生智力、开启长达7万年地球统治的关键。
人类不停在试图仿制本身,从神话到实际。
神话史上第一个“呆板人造物”塔罗斯之死,现藏于意大利贾塔国家考古艺术馆
古希腊神话里,宙斯曾授命工匠之神赫菲斯托斯锻造一个力大无比、按照特定程式来运作的青铜巨人“塔罗斯”,用来掩护克里特岛免受外来入侵。其时的塞浦路斯艺术家皮格马利翁精雕细琢后爱上了本身的雕像造物“伽拉忒亚”,荣幸的是爱神终极玉成了他们的爱情并使其成为活人。《列子·汤问》中也曾纪录,匠人偃师用皮革、木头等质料制造了一个舞姿优雅、动作变化多端的艺人献给周穆王,周穆王信以为真,却由于妒忌差点杀了他。然而,在当时,这些想法只能停顿在少数人的想象中。
这统统,直到两大信息巨头相遇。大概是冥冥之中的神灵指引,1942年末,阿兰·图灵被英国当局调派到贝尔实行室到场安全通讯研究,在这里,他碰到了正在数学组任职的克劳德·香农。其时,《论可盘算数及其在判断性题目上的应用》已经发表,图灵也已经完成了“图灵机”如许的概念模子计划,试图以此模仿人类的盘算本领。
在一次自助餐厅的相遇过程中,香农对如许的概念模子也表现了极大的爱好,两人在不停讨论中以为,既然盘算可以被呆板模仿,那如许的概念模子是否能扩展到形貌人类全部的“智能”举动?那么对人来说,什么是“智能”?
两位信息科学巨匠陷入了漫长的争论,直到图灵脱离美国也没有得到确切效果,但正是这些富有代价的讨论,让人工智能这个概念开始生根发芽,从“神话”走向“科学”。在今后数年时间里,图灵开始渐渐意识到界说“智能”大概并非是符合的开端,由于这是个哲学题目,它并不能在实际中通过实行验证。那么,如果“智能呆板”可以体现得和人类一样好,那么我们是不是也可以通过它的“模拟程度”判定“呆板智能”水平?
答案是肯定的,这就是现在环球著名的“图灵测试”。
所谓图灵测试,即:让盘算机在反面人打仗的环境下举行对话,假如人无法分辨对方是人照旧呆板,那即可认定呆板存在智能。
最简朴的图灵测试内容
图灵在提出图灵测试时,不会心识到一个简朴的头脑实行会对后代产生云云紧张的影响,以至于在今后几十年里,险些每段时间都会有各种各样的人或公司声称本身的呆板人通过了 “图灵测试”,纵然这些“图灵测试”仅仅是“缩略版本”。比方在英国皇家学会的测试规矩里,假如某台呆板在一系列时长为5分钟的键盘对话中,被误以为是人类的比例凌驾30%,那么这台呆板就被以为通过了图灵测试。于是出现了许多“可以或许在5分钟长度对话里骗过人类”的对话呆板人。
汗青上也有一些反对者曾经试图证实图灵测试只是“模拟”,而非智能的充实条件,好比“中文屋”题目:假如我们假设屋子里有一个不懂中文的人,和一本他的母语写的中文规则书,那么他就可以答复来自屋外的任何中文题目,但这个人自己并不具有对中文的明白本领。假如把这个屋里的人换成呆板,那么反对者以为,纵然呆板可以通过中文形貌的图灵测试,我们也不能称它具有“智能”。
“中文屋”可否建立实在很值得思索。由于假如图灵测试连续时间充足长、对话话题充足广,规则书就会由于必要内含过于多样的语法规则而无法真实存在。但是无论怎样,“中文屋”、以及今后的“布洛克脑”等题目都让我们开始反思图灵测试自己。
呆板智能真的会体现的和“人类智能”一样吗?完备的图灵测试可以判定呆板能不能思索,但是不敷完备的图灵测试又没有太多意义。它符合我们如今对呆板智能的要求吗?
这两个题目的答案大概都是“并不能”。呆板在盘算本领上始终会高于人类,而我们也永久不会去寻求呆板智能和人类智能完全相称,好比让呆板资助人类判定“本日的菜是不是好吃”。强行寻求呆板和人类无差异大概在人工智能这条路上并非好标的。
然而,即便云云,ChatGPT通过图灵测试了吗?
并没有,这是ChatGPT本身说的。我测试了一下,对这个效果表现同意,由于它在某些关键题目上依然有点“智障”。
ChatGPT的威诺格拉德模式挑衅(图灵测试的一个变种)效果:失败
ChatGPT无法通过图灵测试的缘故原由有许多,好比它实在并没有完全得到“天下知识”,而是更专注于“语言知识”;好比它只是探求概率最大的答复和句子格式,这是遐想而非真正的逻辑推理。但就一个专注于语言的大模子来说来说,它的“语言程度”毫无疑问已经凌驾其他范畴的主流人工智能模子。
故意思的是,近来有项研究重新审阅了经典图灵测试,并利用图灵测试的论文内容作为底子,利用ChatGPT天生了一份更可信的论文版本,来评估它的语言明白和天生本领。写作辅助工具 Grammarly 以为ChatGPT 天生的论文得分比图灵原始论文高出14%。这大概有肯定象征意义。
思量到图灵测试所寻求的并非对ChatGPT们优点的最佳使用。那么我们更应该思考的是,我们在将来会有一个比图灵测试更好的评价尺度吗?当代是否必要一种测试去权衡各类天生式人工智能的进步,而不是仅仅以它们模拟或愚弄人类的本领为尺度?
这大概是更加迫不及待的题目。
大语言模子的开始:马尔科夫、香农和语言模子
题目继承回到“智能”,人类心智中最根深蒂固难以去除的乃是笔墨。笔墨来到凡间,为的就是把知识和头脑保存下,让其能超过时空。汗青正是有了笔墨才成为汗青,已往之以是称为已往,端赖笔墨来记录轨迹。
哪怕对于人类来说,把握笔墨也必要一些特别本领。由于笔墨这类符号体系是人类获取和沉淀知识的途径,也是人类构造头脑的本领。作为现在利用最广泛的语言,有记载的英语词汇早已凌驾百万,还正在不停增长,而通过英语记载下来的文本数据更是不可胜数。
既然笔墨记载着人类的知识,那呆板能从已往的文本中得到智能吗?这就来到了当代天然语言处置惩罚的范畴。
1913年,俄国数学家马尔科夫坐在他圣彼得堡的书房里,拿起笔和草稿纸删去了《尤金·奥涅金》的全部标点和空格—这是普希金在100年前创作的诗歌小说。紧接着,他统计了剩下的前两万个字母中元音、辅音的个数。
马尔科夫所做的统计示例[6]
马尔科夫发现,固然这长串字母中有43%的元音,57%的辅音,但是元音与辅音之间的毗连却截然差别,元音-元音、辅音-辅音、元音-辅音/辅音-元音毗连分别出现了1104、3827和15069次。这意味着若随机抽取书中任何一个字母,假如效果是元音,那么下一个字母大概率是辅音,反之亦然。《尤金·奥涅金》的字母之间显然存在着某种可以被数学建模的统计特性。
上述过程中比力数学的说法就是,假如把字母当做随机变量,它上一个状态(上一个字母)与下一个状态(下一个字母)存在相干性。假如我们利用“转换概率”,即下一个字母出现元音/辅音的概率,来描画这些相干性,这就形成了最简朴的马尔科夫链特性,这也是最简朴的“语言模子”。
我们之以是说最简朴,是由于马尔科夫假设每一个字母出现的概率仅与前一个字母相干,这固然在实际天下里很少发生。由于通常真正明白一句话必要联合这句话的语境,也就是上下文里内含的信息。好比如今的网络盛行语“YYDS”,可以翻译成“永久的神”,固然也可以以为是“远洋大厦”的缩写,这完全取决于语境自己。
那么,在数学上我们必要严酷界说“上文”和“下文”都指什么。好比假如我们假设“上文”的范围是N,即一个词大概字母出现必要依靠往前数N个词的话,1948年香农提出的经典语言模子N-gram就进入了我们的视野。
N-gram语言模子用于猜测下N个笔墨时的运行方式(为防误解,请留意它是长度为N的滑动窗)
犹如上图中的例子,我们也可以简朴把这个语言模子做的事用一句比力“人话”的方式总结:
思量前N个词,假如一个词/句子出现的概率越大,它真正出现后人们会以为越天然,也就越符合语言规律,整句话也就越“像一句人话”。
假如用流离地球2的经典台词为例来表明这句表述,就是如许:
1. 我信赖人类的勇气可以超过时间,超过每一个汗青、当下和将来!
2. 我信赖勇气的人类可以超过当下、时间和将来,超过每一个汗青!
3. 勇气人类的信赖超过超过时间、汗青、每一个当下和将来!
信赖许多人会以为第一句台词通顺且优雅,第二句固然语句不通,但是大概会明确什么意思,但是第三句就根本没什么原理了,根本不会存在于地球上的人类语言里。那么,从统计角度,在“人类语言模子”里,第一句话发生的概率最大,第二句话次之,第三句话险些不大概发生。如许,一段文本的公道性就得到了量化。
马尔科夫和香农的语言模子奠基了天然语言处置惩罚使命的基石。从当时起,单词、句子和段落之间的关系,也就是文本的公道性不再是虚无缥缈的概念,它变得可以被呆板量化,也正是云云,“天然语言处置惩罚”正式成为“信息科学”的分支之一。呆板翻译、主动问答、情绪分析、文本择要、文天职类、关系抽取等等天然语言处置惩罚的卑鄙使命得以建立,并发达发展。
很显然,越好的语言模子越是可以更好地明白一段文本的优劣,马尔科夫创建的语言模子来自一本书,那我们能找到更好的语言模子吗?
毗连主义、神经网络语言模子——能从文本里读到真正的智能吗?
自从图灵测试被提出以来,关于怎样模仿智能的探索就不停存在着多种差别的流派。
毗连主义和符号主义
此中一派人被称为“符号主义”或“逻辑主义”,以为智能的底子是知识,知识可以用符号表现,探索让呆板直接模仿智能的方法。
最开始这批科研职员并没有思量“知识的泉源”,只是实验从现有的语言学知识分析文本布局,总结语言规律,进而完成较为复杂的文本推断等题目。然而,厥后各人发现,智能的表现不能仅仅依赖推理自己,对一个智能体系来说,先验知识(对应人的影象和履历)是更加紧张的一环,但是仅依靠专家灌输先验知识分(专家体系)无论怎样都比不上知识自己的膨胀速率,于是,知识工程,以及怎样创建通用知识图谱就成了天然语言处置惩罚范畴非常紧张的研究方向之一。
究竟上,在2013年从前,符号主义学派都是天然语言处置惩罚范畴的主流。但是思量到这里我们的重要话题是ChatGPT,这里不多做讨论,汗青留给各人自行探索。
另一派人被称为“毗连主义”,主张从人类大脑的神经布局出发,先让呆板模仿人脑构造,再以此模仿智能。各人对这部门工作最熟知的应该是“神经网络”,这也是ChatGPT的开端。但在早期,神经网络在语言模子上远没有现在那么精彩,它对许多文本使命的提拔并不大,传统语言模子(好比N-gram模子)难以办理的题目,它依然无法可解。
直到神经网络开始加深。
2012年,杰弗里·辛顿和他的门生在ILSVRC2012上用AlexNet(深度神经网络的一种)以凌驾第二名正确率10%的压倒性上风夺冠,开启了深度学习对其他人工智能范畴的革新。各人对被埋在故纸堆里的神经网络然语言处置惩罚模子开展了一波“再发掘”,挖出了迄今为止依然非常经典的“词嵌入”(Word Embeding)方法。
英语和德语单词词嵌入后可视化效果,可以看到语义相似单词非常重合
不外在这里,为了更深入表明“词嵌入”,我们必要继承请出马尔科夫和他的《尤金·奥涅金》。在本文的上一部门中,我们敬爱的马尔科夫老师对字母的发音方式做了统计建模,但思量到发音方式和语言自己的关系并不显着。在这里我们轻微调解一下马尔科夫老师的目的,对《尤金·奥涅金》里的“单词”创建建模。
然而,鉴于《尤金·奥涅金》里的“单词”数量会远远多于字母的元音/辅音数量,假如利用前述的单词间关系作为表现的话,差别“单词-单词”的组合关系会多得不可思议,也变得难以盘算。
此时,“词嵌入”的上风就表现了出来。同样是《尤金·奥涅金》,“词嵌入”向量和对应“词嵌入”向量的神经网络语言模子会比仅用“单词”举行统计建模更高效。仿佛黎明中看到了曙光,神经网络语言模子成了今后的改进重点。由于,假如我们把《尤金·奥涅金》这本书换成更通用、更泛化的练习数据集(大概叫做语料库),大概直接用人类全部文本数据来练习一个模子,这个模子大概就可以“醒目人类语言”和“人类知识”。
神经网络语言模子的一些里程碑式汗青
于是,在今后的数年间,大量神经网络语言模子不停出现,好比循环神经网络模子 (RNN) ,好比是非期影象模子 (LSTM)。但是总体上,都没有离开神经网络语言模子+各类改进的“词嵌入”向量来完成统计建模的范畴。在此过程中,“词嵌入”方法所无法办理的“多义词”困难也渐渐被改进。
同时,天然语言处置惩罚相干研究也深受深度神经网络影响,试图不停增长神经网络语言模子的层数大概模子参数,但是这种积极比起其他方面的希望,实在并不能算得上非常乐成。
固然,如今追念,缘故原由大概是其时大多接纳半监视练习方法,可供练习的标注数据不敷,网络自己也没有接纳天生式方法,如许纵然神经网络语言模子的层数增长大概模子参数增长,其练习数据也不能支持语言模子充实练习;另一个大概是以RNN和LSTM为代表的模子特性抽取和语言表现本领不敷,对练习数据的使用不敷高效。
这统统,直到Transformer,和基于Transformer的大语言模子出现,人们才找到通往“通用语言模子的曙光”。
大语言模子,大便是公理
自从深度学习问世以来,由于其层数越来越高,标注一个高质量数据集所必要本钱也越来越大,那么如安在标注数据有限的环境下高质量完成练习,就成了一个非常紧张的题目。
迁徙学习(图源:Pixabay)
一个非常主流的头脑就是“迁徙学习”。在图像处置惩罚范畴,“迁徙学习”是指使用大数据集完成预模子练习后,再针对特定使命微调参数(Fine-Tuning)以顺应差别图像使命。而在语言模子极为紧张的天然处置惩罚范畴,假如拥有一个充足强盛的“语言模子”,去储存根本的单词、语义知识,再根据特定使命调解,是不是可以让性能更加提拔?
答案是:可以
2018年6月,OpenAI公司提出初代GPT模子。同年10月,谷歌公司公布了本身的BERT模子,大幅度革新了天然语言处置惩罚范畴险些全部最优记载,今后开启了预练习大模子期间。
在今后的4年时间里,预练习语言模子如 BERT 和 GPT(GPT-1和GPT-2,这些ChatGPT的前身),已成为当前天然语言处置惩罚范畴的主流技能趋势。这些模子参数从3亿到1.75万亿不等,也因此被称作大语言模子(Large Language Model)。
从2017年起,语言模子的模子参数不停提拔直到10亿(图源:ourworldindata.org)
我必须在这一节夸大,这些预练习大模子的本质是在利用更大的模子、更多的数据去找到对人类更好的、更通用的“语言模子”,就像我们的先人在7万年前自大的那样,大模子可以得到更多知识。也正是因此,包罗BERT和GPT在内的大语言模子,在预练习过程中实在就已经得到了相称数目的词汇、句法和语义知识,仅仅只必要少量标志数据对模子细化,就可以完成各种各样的天然语言处置惩罚使命。
假如肯定要问技能区别的话,BERT的练习过程更像让呆板不停完成“完形填空”,而GPT的练习过程更像“单词接龙”,前者会更善于语言明白题目,后者更善于文本天生题目,这里存在一些技能区分。但是至少,他俩对平凡人和各种文本处置惩罚使命,都已经“充足好”了。
大之后又怎样,怎么让人用起来?
有了一个好的语言模子,剩下的就是让它“通用”。
我们如今生存在一个布满“人工智能算法”的社会,小度音箱、消息保举、有道翻译、Grammerly语法查抄、美图加强,乃至图像风格转换到处可见。但是这些人工智能算法都只是“内嵌”在各种已有产物、大概功能里,从来没有外显到直接影响用户自己。
这就让越来越多人对“人工智能”这个词渐渐有了一个“头脑钢印”,以为它最符合的场景照旧去处置惩罚某个垂直使命。假如打开某云平台网站,我们每每会看到在人工智能标签下琳琅满目标项目,人脸辨认会被分为“人脸检测与五官定位、人脸属性辨认、人体检测….”等等6种。
学术界也是云云,固然天然语言处置惩罚的关键在于明白单词、句子的布局这些“语言知识”自己,但它依然会被分为“呆板翻译,语言天生,文本归纳” 等等使命,而其评价尺度和对应的产物形态各不雷同。
预练习大模子的出现开始让这些卑鄙范畴产生被“一统江湖”的苗头,这些使命从本来的“计划模子,从零开始练习”,调解为“加载预练习模子,微调使命参数”。假如按照一向头脑,面向公司的“通用语言模子”到这种水平也就够了,模子开辟商可以向卑鄙产物厂商收取模子服务费用,而模子开辟商可以专注于提拔模子对的精度,简化开辟难度。这就是Google对于BERT和后续模子的想法。
OpenAI与其他公司之间对 “大语言模子”的计划的根天职歧便在这里。他们盼望让这套模子更普适,把“通用语言模子”做成一个直接面向用户的产物。而要告竣这个目的,就必须思量继承优化“微调”这一步,直到模子自己不必要任何调解干预即可直接实行全部天然语言处置惩罚使命。
《流离地球2》中的MOSS
移除“微调”,明白人类“下令/指示”,这就是从GPT2.0到GPT3.0,再到ChatGPT,OpenAI所遵照的计划思绪。
由于对于人类用户,最好的方式就是语言模子可以直接明白我们对它的“指令”大概“示例”,根据指令去调用相应的天然语言处置惩罚卑鄙使命。于是GPT选择了从“微调”到“提示学习(Prompt Learning)”,再到“指示学习(Instruct Learning)”的技能路径,一步一步低落了用户利用门槛,把“通用语言模子”调解到适配正凡人类的风俗,如许才在如今得到巨大乐成。
ChatGPT在大语言模子的底子上,一步一步通过带有人类反馈的加强学习(MOSS:人在回路)注入人类关于“下令”、“指示”、“和睦”等先验知识,让“通用语言模子”的答复更“夷易近人”、“更有效”、“更无害”,同时可以明白用户指令,应该是ChatGPT最大的贡献之一。
这也完善符合了我们对将来“通用人工智能”的等待。
ChatGPT和我们的将来
ChatGPT毫无疑问是人工智能范畴的庞大突破,正如许多人所说,它的突破大概并不明显的表现在技能进步,而是在于它乐成让人工智能产物以一种用户可以担当的形态进入各人的生存。对大部门人来说,它比我们之前的任何产物都更靠近“通用人工智能”。
同时,不能否认的是,ChatGPT依然存在许多题目。ChatGPT依然是一个基于统计规律的大语言模子,它有人类自作掩饰的语言天赋,但是只能做遐想而不能完成“逻辑推理”。从这个角度来讲,ChatGPT会倾向于制造出令人佩服的回应,固然此中大概内含“天生的”几个究竟错误、虚伪报告和错误数据,由于作为一个天然语言处置惩罚模子,它也不知道高达数十PB的无监视练习数据里什么是“究竟”,这更像一个有点滑头的“假造助手”。别的,由于在练习过程中,为了辨认人类指令而注入过大量“指令”知识,ChatGPT会对“指令”自己非常敏感,但同时会对一些上下文无关,必要“究竟依据”做判定的歧义词辨认不高。
但是这些题目好像不难办理。现在的ChatGPT依然只是离线版本。在我们看到的bing(在线版本)的一些应用示例里,部门题目好像已经被缓解。究竟上,假如ChatGPT可以或许对信息源举行可信度分级,而且在天生的答复中列出参考信息源,答复的可信度题目应该会得到肯定水平的规避。假如能在将来接入一些专家构建的专业知识库(好比金融知识图谱),它可以被变化为特定范畴的专家。
对大多数平凡人来说,ChatGPT都是一个及格的助手,由于全部关于人类语言的技能它都很醒目(大概在可见的将来里会很醒目),好比归纳总结、翻译、誊写文章、风格修正、翻译、润色、写代码等等,因而,从事这些工作的劳动者,假如不能把握将ChatGPT作为助手的技能,大概将会成为最早期被呆板代替的人。
然而,即便云云,我始终以为,AI替换的不是简朴的某个行业,而是不会利用AI的从业者。AI带给人类的意义也不是替换我们的工作,而是让我们从一些重复性工作解放出来,让人类去真正思索“什么铸就了人类的唯一”。
这大概才是万万年以后,人类回望时间长河,在被汗青冲刷下还能保存,乃至愈发光辉的人类丰碑。(本文作者崔原豪为北京邮电大学信息与通讯工程博士、中国盘算机学会科学遍及工作委员会主任助理,曾担当影戏《流离地球2》科学顾问。除特殊注明外,文中图片由作者提供。)
解释:
知识表现:即knowledge representation,是指把知识客体中的知识因子与知识关联起来,便于人们辨认和明白知识。知识表现是知识构造的条件和底子,任何知识构造方法都是要创建在知识表现的底子上。
图源:pixabay
撰文 | 崔原豪
责编 | 李珊珊
参考文献:
1.尤瓦尔, 赫拉利, 人类简史, 等. 北京: 中信出书社, 2017: 12-15 Юваль Ной Харари[J]. Краткая история человечества./Переводчик Линь Цзюньхун-Пекин: издательство CITIC, 2017: 12-15.
2.程林 . 今世科幻中的人构造系——主持人语 [J]. 广州大学学报(社科版),2020(2):
3.Searle J R. Minds, brains, and programs[J]. Behavioral and brain sciences, 1980, 3(3): 417-424.
4.Noever D, Ciolino M. The Turing Deception[J]. arXiv preprint arXiv:2212.06721, 2022.
5.Goody J, Watt I. The consequences of literacy[J]. Comparative studies in society and history, 1963, 5(3): 304-345.
6.Markov A A. An example of statistical investigation of the text Eugene Onegin concerning the connection of samples in chains[J]. Science in Context, 2006, 19(4): 591-600.
7.Shannon C E. A mathematical theory of communication[J]. The Bell system technical journal, 1948,
8.Bengio Y, Ducharme R, Vincent P. A neural probabilistic language model[J]. Advances in neural information processing systems, 2000, 13.
9.Thang Luong, Hieu Pham, and Christopher D. Manning. 2015. Bilingual Word Representations with Monolingual Quality in Mind. In Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing, pages 151–159, Denver, Colorado. Association for Computational Linguistics.
10.A Brief History of Natural Language Processing — Part 2, Antoine Louis, https://medium.com/@antoine.louis/a-brief-history-of-natural-language-processing-part-2-f5e575e8e37 |
|