找回密码
 会员注册
查看: 434|回复: 2

ChatGPT救济月薪5000的数据打工人

[复制链接]

22

主题

15

回帖

131

积分

注册会员

积分
131
发表于 2023-3-21 15:11:31 | 显示全部楼层 |阅读模式
北京时间3月15日破晓,OpenAI正式推出大型多模态语言模子GPT-4——也就是ChatGPT所基于的GPT-3.5的迭代版本。
GPT-4的发布恰好赶在百度语言大模子“文心一言”发布的前一天。压力,再一次给到正加班加点鏖战“中国版ChatGPT”的各家大厂这边。
GPT-4最为亮眼的革新莫过于支持“多模态”输入,也就是相比于ChatGPT(基于GPT-3.5)仅能笔墨输入和笔墨输出,GPT-4还支持图片、笔墨输入——换句话说,它看得懂心情包和梗图。
别的,根据 OpenAI公布的研究数据,GPT-4不但在各项性能体现上均优于GPT-3.5模子,在一系列人类测试中也体现出了更强的本领,此中包罗“难倒”万千大门生的高等数学(微积分)、同一状师资格测验、美国高考(SAT)数学……
现在,OpenAI发布了集成GPT-4的ChatGPT Plus,用户可以以每月20美元的订阅尺度争先试用。不外,ChatGPT Plus临时还未开启图像输入功能。
OpenAI并未公布GPT-4用于练习的数据规模,但思量到前代模子ChatGPT(基于GPT-3.5模子)利用了1750亿个参数,业界估算GPT-4利用的参数规模或到达100万亿级别。
而在几年前,这是不可想象的。
ChatGPT万亿参数背后
环球顶级人工智能(AI)科学家、斯坦福大学终身传授、曾任谷歌首席AI科学家的李飞飞分享过一个故事:
2009年之前,AI图像辨认模子仅能认出四种物体:汽车、飞机、豹子、人脸,由于以往研究者一样平常只会针对这四类物体举行模子练习。
更深条理的缘故原由是,想让AI熟悉一种物体,必要人工先在图片中标志出目的物,再将大量如许的图片“喂”给AI举行练习。“有多少人工,就有多少智能”,AI本领越强,背后要付出的人力越多。
因此李飞飞假想,假如人工标注充足多的图片并用以练习,理论上就可以或许得到“无所不知”的模子。
这堪称一个疯狂的想法,假如想让AI辨认出字典上的全部物体,必要标注的图片数目达上亿张,李飞飞的3人课题组要不眠不休干几十年才气完成。
末了,李飞飞不得不通过众包平台发布使命,低价雇佣环球各地的劳动力完成标注使命——可想而知,大部门标注工来自更具生齿红利的国家和地域。
这是环球最着名大型视觉数据库ImageNet背后的故事,也是“三院院士”“AI女神”李飞飞的成名之战。ImageNet滋养了环球各地大巨细小的AI项目,但也展现了AI数据处置惩罚环节是劳动力麋集财产的究竟。
从那之后,资金涌入各类AI模子创业范畴,相比之下AI数据环节则少有人问津。
不外十余年之后,当曾经空想的“无所不知的模子”真正诞生,情况好像开始发生变革。
美国研究机构OpenAI发布的大语言模子ChatGPT,被视为展现了AI行业新的发展方向,也动员各路资源涌入大语言模子研发。
大型模子对数据处置惩罚提出了新的玩法,也意味着全新的技能掘金空间正被打开。一二级市场中,投资热情已经动员着相干企业的估值高涨。开年至今,A股“AI数据第一股”海天瑞声已拉出4个涨停板。停止3月15日收盘,海天瑞声市值已到达70.41亿元。
不但云云,据业内消息,多家大厂正在动手将数据标注团队独立出来。一场对AI数据服务市场的劫掠战,正在吹响军号。
“AI数据”忽然又香了
AI数据处置惩罚重要步调包罗数据网络、洗濯原始数据、对数据举行标注等等。根据相干统计,数据处置惩罚每每会占据整个AI项目实行过程中80%的时间。此中最泯灭时间的则是标注环节。
数据标注是指人工对文本、视频、图像等元数据举行标注,以此将元数据转换为呆板可以辨认的信息,标志好的数据才气用于练习AI模子。因此,数据标注常被视为“dirty work(脏活累活)”,相干工作常被委托给第三方外包企业完成。
从2022下半年开始,这项曾经不受接待的“dirty work”,忽然得到了亘古未有的器重。
“我和团队2017年开始创业时,许多机构还无法明白数据处置惩罚的代价,我们只能通过形貌将来的愿景说服他们。之后几年里,我们均匀营收年增速在50%-100%,由于我们一开始投入在主动化算法的比例比力大,对峙难而精确的事变,以是横向对比,没有纯粹做业务的公司跑得快。”AI数据服务企业星尘数据(北京星尘纪元智能科技有限公司)的首创人、CEO章磊告诉市界。
不外,近来环境显着发生了变革。越来越多投资人找到星尘数据,盼望能对其举行投资。
2022年12月尾,星尘数据完成了5000万元的A轮融资。据一位靠近星尘数据的知恋人士透露,今后仍有多家投资机构在积极打仗星尘数据,“有时间一天要打仗不止一家机构”。公司预计将在2023年中开启下一轮融资。
一家企业面对的境遇变革,背后是越来越多的投资人正将眼光投向这一范畴。
供职于一家腰部投资机构的Andy告诉市界,现在AI数据处置惩罚项目已经成为新的投资热门,“在2017、2018年的AI融资高峰期里,假如一个项目同时满意海归科学家、CV(盘算机视觉技能)、团队这3点,各人都会抢着投。现现在假如把CV换成数据,各人也会抢着投。”


所谓“抢”,表现在当Andy打仗到某个数据处置惩罚团队时,“对方会直言近期也有别的投资方来接洽过,压力就给到我这边了”。
在中小型投资机构做出动作之前,头部的资源已更早地对AI数据举行了结构,这更让新入场的团队和资源感受到压力。
好比,国内“AI数据第一股”海天瑞声曾在2017年的B轮投资中,得到了小米团体的青睐;2018年,梅花创投现身于爱数聪明的A轮融资;2019年,数据服务平台格物钛完成Pre-A轮融资,红杉中国、真格基金同台投资……
假如说AI数据服务在一二级市场的火热间隔平凡人的生存另有间隔,那么财产层面的火热则更轻易被人们所感知。
近几个月,在河南从事文本标注工作的史月,忽然发现本身的职业“火”起来了,“我不停都是独立做标注单,靠熟人组团接单。近来显着感觉票据多了,有时间忽然有熟人把我拉到一个微信群里,然后就开始发需求,问能不能接”。
在内蒙古的易晖也有同样的感受:“甲方非常多。我一年前入行,在当地数标基地和朋侪一起创业做标注团队,一年已往我们已经发展出300人的团队了。”接下来,易晖还计划继承扩充团队:“你只有更大的团队,才气拿到更大要量的数据包。”
不但云云,易晖口中的一些“甲方”已亲身了局,试图自主搭建数据标注团队。据36氪援引业内人士信息:“现在,已经有不少AI大厂开始动手把本身AI标注的部门工作独立出来了。”
消解劳动麋集的“魔咒”
与AI数据投资高潮分不开的,是以ChatGPT为代表的大模子的鼓起。
Meta首席人工智能科学家Yann LeCun批评ChatGPT称:“(它)并不具有创新性,也不具有革命性……它只是个奇妙的组合”。
从AI的三要素算法、算力和数据角度分别来看,ChatGPT接纳的焦点算法Transformer最早由谷歌提出,代码已经开源;而ChatGPT练习过程中由英伟达芯片A100支持也早已不是机密。在这个令人赞叹的大模子中,唯一无形的技能壁垒只剩下数据——那多达175B个参数,一个极其高质量的数据集。
如国内AI企业OneFlow对此批评的:“算力(芯片)是自由流畅的商品,费钱可以买到,工程(算法)上有开源项目和团队,因此,对互联网大厂之外的团队来说,剩下最大的挑衅在于高质量练习数据集。”
至今,OpenAI尚未公布ChatGPT练习用数据集的泉源和详细细节。


“人工智能三要素里,数据不值钱,这是已往几十年里各人形成的观念,但是就像Paul Graham(硅谷着名天使投资人)说的,创业头脑最吊诡的一点在于‘精确的做法和直觉每每是相悖的’。如今环球估值最高的AI公司,恰好是一家数据标注企业。这足以阐明数据服务的代价是被低估的。”一位投资人向市界批评道。
他提到的这家AI数据标注企业,是美国华裔首创人Alexandr Wang在2016年开办的Scale AI。停止2021年4月公布的一轮融资,Scale AI的估值为73亿美元,公司客户中包罗OpenAI、Airbnb等着名企业或机构。
这种代价的低估不但发生在一级市场。哪怕在很多市场到场者眼中,AI数据处置惩罚也是一个人力“内卷”的买卖。
星尘数据首创人、CEO章磊分析道:“现在市场中存在最多范例的AI数据企业分为两类,第一类是‘做买卖’型的企业,也就是本身聚集一批标注人力并做中心整合、低买高卖,焦点竞争力在于对甲方的商务、贩卖本领;第二类是做众包平台,甲方可以在平台发布使命,人力自主接单,这类平台的焦点竞争力是运营本领,要看拉新、月活、日活等数据。但这两类企业都没有发展算法相干的本领。”
而这两类企业,都没有离开AI数据服务“劳动麋集”的窠臼,但Scale AI代表的是一种差别于传统数据标注企业人力“内卷”的全新贸易路径。只管同样雇佣了部门外洋人力举行标注,但Scale AI更多是通过自研的主动化数据标注(auto labeling)平台完成工作。
详细来说,Scale AI的标注工具可以或许通过算法主动、快速甄别物体,通过初筛的图片再颠末外包团队的二次筛查和标注,用人机交互的方式消解对人工的过分依靠,在海量数据的服从、本钱、标注正确率之间探求最佳均衡点。
怎样让数据有更高的代价
抱负状态下,90%的数据标注工作都可以由数据公司提供的工具来完成。但假如想要助力像ChatGPT一样本领出众的模子诞生,这大概还远远不敷。
“想要树立独特的竞争力,必要跟算法客户有更加深度的绑定,思索在数据环节可以或许怎么资助前沿算法落地。”章磊表现。
数据主动化标注工具说到底也是AI算法和产物计划。而随着技能进步,算法对数据体系的要求不但仅是人工夫役活,更多的是主动化、算法计谋,以及相匹配的数据闭环体系。比方ChatGPT中的人机闭环,就必要支持自动学习和强化学习的体系与之匹配。
这意味着要创建数据服务的壁垒,大概还需另辟蹊径。据章磊分析,除了通过主动化标注工具来提拔标注服从之外,还必要具备别的两方面的本领:数据计谋本领和数据闭环本领。
此中,前者指的是数据服务商对AI数据处置惩罚整个过程中的意会和把控力,既涉及大量算法相干的技能,也涉及以数据为中央的反馈迭代技能,还必要服务商把握一整套项目管理的方法论。
举例来说,相较于此前算法客户提出标注规则,服务商“盲目”完成使命的旧模式,将来数据服务职员可否对算法标注规则给出本身的发起,来提拔算法的练习结果?
别的据一位资深AI数据服务从业者告诉市界,据其调研,现在企业缺乏AI数据资源管理体系是常态,“此前由于缺乏数据管理意识,乃至许多科技大厂也没有创建起AI database,首创人乃至大概不知道公司到底有多少数据资源。但是现在随着大模子等风口到临,很多企业都预备自研数据体系”。
但是,在短时间内想要研发出可供大模子练习的数据体系并非易事。
因此,在这一方面提供助力,也是AI数据服务企业在“数据计谋”方面发展的一大方向。章磊分析:“现在客户必要的数据体系必要满意两个特点,分别是具有主动化本领、具有和算法的整合本领。”
可否资助客户在繁杂的数据中快速探索和整理出可供练习的部门?这也磨练着服务商的数据计谋本领。
而数据闭环本领,指的则是算法模子与数据集之间协同的、相互的、同期的迭代。当AI模子输出效果出现题目时,数据服务环节可以动态感知到题目地点,并通过同步改变输入的参数来校正练习效果。
从这个意义而言,“数据闭环”的本领,就是模子自我快速“debug(调试)”的本领。
举例而言,很多用户在利用过程中发现ChatGPT在答复某些题目时出现了错误。而现在发布的ChatGPT并未接入互联网,练习数据停止2021年之前。
也就是说,ChatGPT模子与数据之间的及时联结被“斩断”了,模子无法及时迭代。假如可以或许买通数据闭环,这个题目就能得到办理。


▲(ChatGPT在答复某些题目时大概发生错误)
据章磊透露,现在国内大部门AI数据服务企业仍聚集于人力标注的低代价量环节,具备上述三方面潜力的玩家凤毛麟角。
英特尔团结首创人安迪·格鲁夫曾在其自传中写道:科技发展史上有一个根本规则,即只要大概发生的事,肯定会酿成究竟。
对很多人而言,人工标注照旧AI数据处置惩罚的代名词,但变革已在不经意之间发生。只管离终极实现另有间隔,但“主动化标注+数据计谋服务+构建数据闭环”正为AI数据服务市场打开更大的想象空间。
对于国内玩家而言,唯有上溯财产代价链,才气在新一波的AI技能海潮中不受荡涤。
注:文中Andy为化名。
参考文献:
1、《开启人工智能期间 给AI一双慧眼 专访斯坦福大学人工智能实行室主任李飞飞》,杨澜访谈录
2、《A Chat with Andrew on MLOps: From Model-centric to Data-centric AI》,吴恩达
3、《ChatGPT数据集之谜》,OneFlow
作者 | 董温淑
编辑 | 董雨晴
回复

使用道具 举报

4

主题

12

回帖

52

积分

注册会员

积分
52
发表于 2023-3-21 15:41:27 | 显示全部楼层
这那里是救济啊,明显拭浇橼最底层月入五千以下的人群的饭碗都摔了嘛,到时间就会出现天下大乱了
回复

使用道具 举报

7

主题

6

回帖

41

积分

新手上路

积分
41
发表于 2023-3-21 16:11:35 | 显示全部楼层
又学马云忽悠,让天下没有难做的买卖,效果他一个人做了各人的买卖
回复

使用道具 举报

QQ|手机版|心飞设计-版权所有:微度网络信息技术服务中心 ( 鲁ICP备17032091号-12 )|网站地图

GMT+8, 2024-12-29 13:13 , Processed in 1.054660 second(s), 29 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表