ChatGPT救济月薪5000的数据打工人

坏蛋_雪飘零 · 发表于 2023-3-21 15:11:31

北京时间3月15日破晓，OpenAI正式推出大型多模态语言模子GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。
GPT-4的发布恰好赶在百度语言大模子“文心一言”发布的前一天。压力，再一次给到正加班加点鏖战“中国版ChatGPT”的各家大厂这边。
GPT-4最为亮眼的革新莫过于支持“多模态”输入，也就是相比于ChatGPT（基于GPT-3.5）仅能笔墨输入和笔墨输出，GPT-4还支持图片、笔墨输入——换句话说，它看得懂心情包和梗图。
别的，根据 OpenAI公布的研究数据，GPT-4不但在各项性能体现上均优于GPT-3.5模子，在一系列人类测试中也体现出了更强的本领，此中包罗“难倒”万千大门生的高等数学（微积分）、同一状师资格测验、美国高考（SAT）数学……
现在，OpenAI发布了集成GPT-4的ChatGPT Plus，用户可以以每月20美元的订阅尺度争先试用。不外，ChatGPT Plus临时还未开启图像输入功能。
OpenAI并未公布GPT-4用于练习的数据规模，但思量到前代模子ChatGPT（基于GPT-3.5模子）利用了1750亿个参数，业界估算GPT-4利用的参数规模或到达100万亿级别。
而在几年前，这是不可想象的。
ChatGPT万亿参数背后
环球顶级人工智能（AI）科学家、斯坦福大学终身传授、曾任谷歌首席AI科学家的李飞飞分享过一个故事：
2009年之前，AI图像辨认模子仅能认出四种物体：汽车、飞机、豹子、人脸，由于以往研究者一样平常只会针对这四类物体举行模子练习。
更深条理的缘故原由是，想让AI熟悉一种物体，必要人工先在图片中标志出目的物，再将大量如许的图片“喂”给AI举行练习。“有多少人工，就有多少智能”，AI本领越强，背后要付出的人力越多。
因此李飞飞假想，假如人工标注充足多的图片并用以练习，理论上就可以或许得到“无所不知”的模子。
这堪称一个疯狂的想法，假如想让AI辨认出字典上的全部物体，必要标注的图片数目达上亿张，李飞飞的3人课题组要不眠不休干几十年才气完成。
末了，李飞飞不得不通过众包平台发布使命，低价雇佣环球各地的劳动力完成标注使命——可想而知，大部门标注工来自更具生齿红利的国家和地域。
这是环球最着名大型视觉数据库ImageNet背后的故事，也是“三院院士”“AI女神”李飞飞的成名之战。ImageNet滋养了环球各地大巨细小的AI项目，但也展现了AI数据处置惩罚环节是劳动力麋集财产的究竟。
从那之后，资金涌入各类AI模子创业范畴，相比之下AI数据环节则少有人问津。
不外十余年之后，当曾经空想的“无所不知的模子”真正诞生，情况好像开始发生变革。
美国研究机构OpenAI发布的大语言模子ChatGPT，被视为展现了AI行业新的发展方向，也动员各路资源涌入大语言模子研发。
大型模子对数据处置惩罚提出了新的玩法，也意味着全新的技能掘金空间正被打开。一二级市场中，投资热情已经动员着相干企业的估值高涨。开年至今，A股“AI数据第一股”海天瑞声已拉出4个涨停板。停止3月15日收盘，海天瑞声市值已到达70.41亿元。
不但云云，据业内消息，多家大厂正在动手将数据标注团队独立出来。一场对AI数据服务市场的劫掠战，正在吹响军号。
“AI数据”忽然又香了
AI数据处置惩罚重要步调包罗数据网络、洗濯原始数据、对数据举行标注等等。根据相干统计，数据处置惩罚每每会占据整个AI项目实行过程中80%的时间。此中最泯灭时间的则是标注环节。
数据标注是指人工对文本、视频、图像等元数据举行标注，以此将元数据转换为呆板可以辨认的信息，标志好的数据才气用于练习AI模子。因此，数据标注常被视为“dirty work（脏活累活）”，相干工作常被委托给第三方外包企业完成。
从2022下半年开始，这项曾经不受接待的“dirty work”，忽然得到了亘古未有的器重。
“我和团队2017年开始创业时，许多机构还无法明白数据处置惩罚的代价，我们只能通过形貌将来的愿景说服他们。之后几年里，我们均匀营收年增速在50%-100%，由于我们一开始投入在主动化算法的比例比力大，对峙难而精确的事变，以是横向对比，没有纯粹做业务的公司跑得快。”AI数据服务企业星尘数据（北京星尘纪元智能科技有限公司）的首创人、CEO章磊告诉市界。
不外，近来环境显着发生了变革。越来越多投资人找到星尘数据，盼望能对其举行投资。
2022年12月尾，星尘数据完成了5000万元的A轮融资。据一位靠近星尘数据的知恋人士透露，今后仍有多家投资机构在积极打仗星尘数据，“有时间一天要打仗不止一家机构”。公司预计将在2023年中开启下一轮融资。
一家企业面对的境遇变革，背后是越来越多的投资人正将眼光投向这一范畴。
供职于一家腰部投资机构的Andy告诉市界，现在AI数据处置惩罚项目已经成为新的投资热门，“在2017、2018年的AI融资高峰期里，假如一个项目同时满意海归科学家、CV（盘算机视觉技能）、团队这3点，各人都会抢着投。现现在假如把CV换成数据，各人也会抢着投。”

所谓“抢”，表现在当Andy打仗到某个数据处置惩罚团队时，“对方会直言近期也有别的投资方来接洽过，压力就给到我这边了”。
在中小型投资机构做出动作之前，头部的资源已更早地对AI数据举行了结构，这更让新入场的团队和资源感受到压力。
好比，国内“AI数据第一股”海天瑞声曾在2017年的B轮投资中，得到了小米团体的青睐；2018年，梅花创投现身于爱数聪明的A轮融资；2019年，数据服务平台格物钛完成Pre-A轮融资，红杉中国、真格基金同台投资……
假如说AI数据服务在一二级市场的火热间隔平凡人的生存另有间隔，那么财产层面的火热则更轻易被人们所感知。
近几个月，在河南从事文本标注工作的史月，忽然发现本身的职业“火”起来了，“我不停都是独立做标注单，靠熟人组团接单。近来显着感觉票据多了，有时间忽然有熟人把我拉到一个微信群里，然后就开始发需求，问能不能接”。
在内蒙古的易晖也有同样的感受：“甲方非常多。我一年前入行，在当地数标基地和朋侪一起创业做标注团队，一年已往我们已经发展出300人的团队了。”接下来，易晖还计划继承扩充团队：“你只有更大的团队，才气拿到更大要量的数据包。”
不但云云，易晖口中的一些“甲方”已亲身了局，试图自主搭建数据标注团队。据36氪援引业内人士信息：“现在，已经有不少AI大厂开始动手把本身AI标注的部门工作独立出来了。”
消解劳动麋集的“魔咒”
与AI数据投资高潮分不开的，是以ChatGPT为代表的大模子的鼓起。
Meta首席人工智能科学家Yann LeCun批评ChatGPT称：“（它）并不具有创新性，也不具有革命性……它只是个奇妙的组合”。
从AI的三要素算法、算力和数据角度分别来看，ChatGPT接纳的焦点算法Transformer最早由谷歌提出，代码已经开源；而ChatGPT练习过程中由英伟达芯片A100支持也早已不是机密。在这个令人赞叹的大模子中，唯一无形的技能壁垒只剩下数据——那多达175B个参数，一个极其高质量的数据集。
如国内AI企业OneFlow对此批评的：“算力（芯片）是自由流畅的商品，费钱可以买到，工程（算法）上有开源项目和团队，因此，对互联网大厂之外的团队来说，剩下最大的挑衅在于高质量练习数据集。”
至今，OpenAI尚未公布ChatGPT练习用数据集的泉源和详细细节。

“人工智能三要素里，数据不值钱，这是已往几十年里各人形成的观念，但是就像Paul Graham（硅谷着名天使投资人）说的，创业头脑最吊诡的一点在于‘精确的做法和直觉每每是相悖的’。如今环球估值最高的AI公司，恰好是一家数据标注企业。这足以阐明数据服务的代价是被低估的。”一位投资人向市界批评道。
他提到的这家AI数据标注企业，是美国华裔首创人Alexandr Wang在2016年开办的Scale AI。停止2021年4月公布的一轮融资，Scale AI的估值为73亿美元，公司客户中包罗OpenAI、Airbnb等着名企业或机构。
这种代价的低估不但发生在一级市场。哪怕在很多市场到场者眼中，AI数据处置惩罚也是一个人力“内卷”的买卖。
星尘数据首创人、CEO章磊分析道：“现在市场中存在最多范例的AI数据企业分为两类，第一类是‘做买卖’型的企业，也就是本身聚集一批标注人力并做中心整合、低买高卖，焦点竞争力在于对甲方的商务、贩卖本领；第二类是做众包平台，甲方可以在平台发布使命，人力自主接单，这类平台的焦点竞争力是运营本领，要看拉新、月活、日活等数据。但这两类企业都没有发展算法相干的本领。”
而这两类企业，都没有离开AI数据服务“劳动麋集”的窠臼，但Scale AI代表的是一种差别于传统数据标注企业人力“内卷”的全新贸易路径。只管同样雇佣了部门外洋人力举行标注，但Scale AI更多是通过自研的主动化数据标注（auto labeling）平台完成工作。
详细来说，Scale AI的标注工具可以或许通过算法主动、快速甄别物体，通过初筛的图片再颠末外包团队的二次筛查和标注，用人机交互的方式消解对人工的过分依靠，在海量数据的服从、本钱、标注正确率之间探求最佳均衡点。
怎样让数据有更高的代价
抱负状态下，90%的数据标注工作都可以由数据公司提供的工具来完成。但假如想要助力像ChatGPT一样本领出众的模子诞生，这大概还远远不敷。
“想要树立独特的竞争力，必要跟算法客户有更加深度的绑定，思索在数据环节可以或许怎么资助前沿算法落地。”章磊表现。
数据主动化标注工具说到底也是AI算法和产物计划。而随着技能进步，算法对数据体系的要求不但仅是人工夫役活，更多的是主动化、算法计谋，以及相匹配的数据闭环体系。比方ChatGPT中的人机闭环，就必要支持自动学习和强化学习的体系与之匹配。
这意味着要创建数据服务的壁垒，大概还需另辟蹊径。据章磊分析，除了通过主动化标注工具来提拔标注服从之外，还必要具备别的两方面的本领：数据计谋本领和数据闭环本领。
此中，前者指的是数据服务商对AI数据处置惩罚整个过程中的意会和把控力，既涉及大量算法相干的技能，也涉及以数据为中央的反馈迭代技能，还必要服务商把握一整套项目管理的方法论。
举例来说，相较于此前算法客户提出标注规则，服务商“盲目”完成使命的旧模式，将来数据服务职员可否对算法标注规则给出本身的发起，来提拔算法的练习结果？
别的据一位资深AI数据服务从业者告诉市界，据其调研，现在企业缺乏AI数据资源管理体系是常态，“此前由于缺乏数据管理意识，乃至许多科技大厂也没有创建起AI database，首创人乃至大概不知道公司到底有多少数据资源。但是现在随着大模子等风口到临，很多企业都预备自研数据体系”。
但是，在短时间内想要研发出可供大模子练习的数据体系并非易事。
因此，在这一方面提供助力，也是AI数据服务企业在“数据计谋”方面发展的一大方向。章磊分析：“现在客户必要的数据体系必要满意两个特点，分别是具有主动化本领、具有和算法的整合本领。”
可否资助客户在繁杂的数据中快速探索和整理出可供练习的部门？这也磨练着服务商的数据计谋本领。
而数据闭环本领，指的则是算法模子与数据集之间协同的、相互的、同期的迭代。当AI模子输出效果出现题目时，数据服务环节可以动态感知到题目地点，并通过同步改变输入的参数来校正练习效果。
从这个意义而言，“数据闭环”的本领，就是模子自我快速“debug（调试）”的本领。
举例而言，很多用户在利用过程中发现ChatGPT在答复某些题目时出现了错误。而现在发布的ChatGPT并未接入互联网，练习数据停止2021年之前。
也就是说，ChatGPT模子与数据之间的及时联结被“斩断”了，模子无法及时迭代。假如可以或许买通数据闭环，这个题目就能得到办理。

▲（ChatGPT在答复某些题目时大概发生错误）
据章磊透露，现在国内大部门AI数据服务企业仍聚集于人力标注的低代价量环节，具备上述三方面潜力的玩家凤毛麟角。
英特尔团结首创人安迪·格鲁夫曾在其自传中写道：科技发展史上有一个根本规则，即只要大概发生的事，肯定会酿成究竟。
对很多人而言，人工标注照旧AI数据处置惩罚的代名词，但变革已在不经意之间发生。只管离终极实现另有间隔，但“主动化标注+数据计谋服务+构建数据闭环”正为AI数据服务市场打开更大的想象空间。
对于国内玩家而言，唯有上溯财产代价链，才气在新一波的AI技能海潮中不受荡涤。
注：文中Andy为化名。
参考文献：
1、《开启人工智能期间给AI一双慧眼专访斯坦福大学人工智能实行室主任李飞飞》，杨澜访谈录
2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》，吴恩达
3、《ChatGPT数据集之谜》，OneFlow
作者 | 董温淑
编辑 | 董雨晴

看麦打铁 · 发表于 2023-3-21 15:41:27

这那里是救济啊，明显拭浇橼最底层月入五千以下的人群的饭碗都摔了嘛，到时间就会出现天下大乱了

manteuffel · 发表于 2023-3-21 16:11:35

又学马云忽悠，让天下没有难做的买卖，效果他一个人做了各人的买卖

		自动登录	找回密码
密码			会员注册