最早研究GPT的中国创业者现在怎么样了?
周明是在国内 AI 市场温度降到谷底的时刻决定创业的。那是两年前,2020 年底,他考虑辞去微软亚洲研究院副院长的工作,很多朋友劝他别出来,但他很坚定地要开始大模型创业,认为 “大模型未来会成为某种基础设施”。
这之前 6 个月,OpenAI 发布了 GPT-3,在人工智能领域引起关注,但尚未形成去年底 ChatGPT 发布后大模型机会已至的共识。
不像一些热潮中加入的创业者那样愿意谈 “终局”,周明在接受《晚点 LatePost》采访时,一再强调的是 “公司要活下来”。他给出的商业前景没有那么 “性感”。他认为对国内创业者而言,更靠谱的是 2B 的慢生意。
他笑着承认,“有 2C 志向的人,大概看不上做 2B 的人”。他认为大模型 2C 创业是无止境的 “军备竞赛”,不确定性很大,2B 更务实最早研究GPT的中国。
周明创立澜舟科技时,国内 AI 创投活动正处于冰点。他庆幸自己没有再晚一年从微软出来。自 2019 年以来,中国 AI 领域的创投热度一直在下降,去年到了最低谷。据 IT 桔子,截至 2022 年 11 月,中国 AI 领域一级市场融资总额比 2021 年同期下降 61%。
资源受限也来自客户习惯:中国不少大型企业,尤其是央国企有数据私有化的强需求。所以周明走访了上百家国内客户后,得到的反馈往往是:“你做大模型,我们也用不起。”
它们要把大模型部署到本地,这需要自己购买大量 GPU、建算力中心,至少得投入上千万元人民币。因此,周明一开始选择做 10 亿参数量级的模型,研发重点是如何用轻量级模型解决问题。直到 ChatGPT 教育了客户,澜舟开始加速研发百亿、千亿级别大模型。
资源不足还有时代印记。周明从 1980 年代就开始研究自然语言处理(NLP),参与研发了中国第一个中英机器翻译系统 CEMT。那时算力很低,他每天想着如何节省内存。90 年代他去清华任教,申请到的科研经费仍然有限。1999 年加入当时刚成立的微软亚研院后,他和团队很长一段时间的重点也放在如何用小数据训练出与大数据相仿的结果。
周明经常开玩笑说自己是 “贫穷限制了想象力”——他一直不敢想通用人工智能(AGI)会实现,直到 ChatGPT 爆发,他才把 AGI 作为愿景。在做自然语言处理研究将近四十年、创业两年后,他终于有了适当的野心。
不过,在如今对更大机会、更新物种的畅想氛围中,周明并不是最吸引资本和资源的创业者。不止一位关注大模型的投资人对《晚点 LatePost》强调创业者的年龄,一些人相信,过去的 NLP 研究范式已被完全颠覆,更年轻的创业者才能更好地理解新技术,把握新机会。
周明在 “知天命” 的年纪开始创业,习惯了关于年龄的质疑。年龄也带来好处,就是经历过周期的韧性。
以下是周明和《晚点 LatePost》的对线.普通人没感觉,但 AI 界 “巨震” 早就开始了
《晚点》:你 2020 年底从微软亚研院离职,决定做大模型创业,ChatGPT 引起震动是在这两年之后。你为什么更早看到了机会?
周明:我当时在微软亚研院的团队做了不少研究,看到大模型的用处。我认为再发展下去,它会成为某种基础设施。
我们当时做了一个业界挺有名的模型叫 Unified Language Model (UniLM)。我们的技术成功应用到多个产品,涉及微软图灵大模型、必应搜索的相关度提升、Office 的语法错误检查、Azure 的机器翻译等。
周明:如果未来颁图灵奖,也许会颁给 Transformer 而不是 ChatGPT,因为图灵奖一般鼓励有长期广泛影响的基础技术。
NLP 领域近年的第一个大变化是在 2012 年 ImageNET 大火,大家认识到深度学习在图像识别领域的强大能力,开始把深度学习用到 NLP 上。最初深度学习只改造了原有 NLP 流程的一部分,主要是用它生成帮助机器理解语言的 feature(特征),比如在翻译任务里,词的个数比例、两个词对译的可能性等都是特征。但当时做不到大模型这样,从输入数据到输出结果的端到端的训练,
Transformer 的出现改变了这种情况,它带来了目前最高效的编码和解码器,而且它可以并行计算,速度快。关键在于它引入了 “多头自注意力机制”;并且在给词语编码时,除了语义信息,也加了这个词在上下文的位置信息。简单来说,这可以做到多维度抽取句子信息,最后把多层注意力模型和位置信息拼起来,编解码能力大幅提升。
周明:第一,算力是真提高了。这种编码形式对算力要求极高,因为要搞这么多注意力,每个词的编码位都很多,神经网络层数也很多,这些都要耗费很大计算量。
《晚点》:对做 NLP 多年的人来说,Transformer 是一个石破天惊的颠覆式创新还是基于已有技术的渐进式创新?
周明:颠覆式创新。它的每一个部分过去可能都有人想到过,但把它变成一个体系,成为神经网络的基础,这肯定是颠覆式创新。
周明:编码,还有词跟词之间的相关度。也不能说是我想到的,我从 1985 年就开始做 NLP,当时就有人研究多特征编码,研究能不能不管词性、语种,都用统一的多维向量来编码?
《晚点》:Meta 的 AI 首席科学家杨乐昆(Yann LeCun)评价 ChatGPT “就底层技术而言,没什么创新”。
周明:他说的有一定道理。搞学术研究的人会说 ChatGPT 没什么了不起,它使用的技术点点滴滴散落在文献中,多少在别处用过。
周明:它属于 fundamental 的底层创新。ResNET 的光芒至今照耀整个神经网络和 AI 领域,是微软亚研院的骄傲。
(*ResNET 主要解决深度过大的神经网络难以训练的问题,由何恺明、张祥雨、任少卿、孙剑于 2015 年底提出,论文被引用超 12 万次。“最强棋手”AlphaGo Zero 也用到这个技术。)
周明:底层创新,算法从头到尾是自己提出来的。集成创新则像 “吸星大法”,集成所有优秀的算法、工程、界面、交互能力,甚至 PR 能力。
《晚点》:上一次以计算机视觉为主的 AI 热潮中,中国科学家提出了 ResNET 这样的成果,现在看语言大模型,为什么从底层的 Transformer,到后来的 ChatGPT 都出现在美国?
周明:世界上有几类人,有人就是要研究底层创新。有的是在底层创新上做应用,一般的应用是解决单项任务。还有的是做集成创新,把所有工作、应用、算法都在一个大平台上体现,形成里程碑。OpenAI 恰好集成创新做得非常好。
周明:它跟微软是难得的天作之合。Sam 跟微软 CEO 纳德拉,跟马斯克、黄仁勋都有很好的私交,有信任。加上 Sam 看了很多创业项目,有战略定力,知道该往哪个方向走,再搭配一个首席科学家 Ilya,那个人就是很执着。
周明:我可能更像一个 architect,架构师。我有清晰的想法,能把不同人、资源架构起来,知道可以往哪走。但是让我写特别牛的算法,我写不出来创业者现在怎么样了?。
周明:他们还没往我们这看。我们不注重个人英雄主义,我们每个人发挥自己的优势,不同的人互相支撑,能做出大项目。
周明:不论在国内挖还是国外挖,单纯挖人都不是上策。多数人在一个公司里只做某一个螺丝钉,只对问题有局部了解,本来就是个兵,你指望他到你这儿做帅,你想想你公司会往哪儿走?
《晚点》:你曾评价 OpenAI “雄心令人敬佩”,国内做 NLP 有些 “胆小”。什么是 “雄心”?什么是 “胆小”?
周明:OpenAI 从一开始就想做 AGI(通用人工智能),不鸣则已,一鸣惊人。国内外其他公司多数没这个雄心,更多是想着把机器翻译、搜索引擎等任务做好,不一定非要走到 AGI。
周明:我以前认为做不出来,现在我也不敢说澜舟能做出来了,但有了这个 Vision(愿景)。有和没有区别很大:我们这一代也许能实现,也许实现不了,但大家每天都在逼近,要有这样的雄心。
周明:AGI 是一个递进过程,你原来只能做一个任务,后来变成 N 个任务、1 万个任务,都用一个平台实现。
1 万个任务是 AGI 吗?也不是,它可能一直往上涨,越前面的任务越容易被人用到,越往后的是越长尾的。
周明:我讲究两条腿走路,一个是 Vision,一个是 Stage(阶段)。Vision 是终极目标,每个阶段还有阶段目标,让公司有中间成果或实现收入。
周明:这说明他真是干过大公司的。澜舟的优势是已经做了两年,吃了很多苦,我们过去的模型已经有落地经验,现在是做更大的模型去落地,我们多了一个 “反馈链”。
《晚点》:和这一批新公司不同,澜舟 2021 年初做的是一个 10 亿参数的模型,回头看这是不是一种相对胆小的选择?
周明:我刚出来创业时就想做大模型,可我调研了上百家单位,他们说你做大模型,我也用不起,你给我一个百亿或千亿参数的模型,我得买多少机器?中国央国企是要私有化部署的,我认为它们是中国 2B 最主要的客户。所以这两年,澜舟做轻量化是走务实的路线。
周明:如果是训练千亿参数级大模型,追求训练速度,要上千块 A100,现在一块 A100 约 10 万元人民币,这是上亿元投入。如果接受训练得很慢很慢,我觉得最少用 128 块 A100,这也是上千万投入,而且我不确认能不能训练出来。
周明:2B 的需求分布是:80% 是轻量化模型能解决的任务,如机器翻译、信息收集、阅读理解等;还有 20% 的任务需要多轮对话、复杂语义理解或意图识别,比如客服、合同审核等,这只能大模型来做。我们以前不碰这 20%,即使它客单价更高。
前两年我们做的事是先拿 80% 的任务,积累能力,再逐步做更大的模型,去拿 20% 的大单。
周明:拿不到。你模型能力不够,客户也觉得你做不了。我要审时度势,作为初创团队,我得先靠 80% 的任务活着。
周明:一是更大、更重要的任务有更大的预算;二是按照摩尔定律,机器每 18 个月性能高一倍,价格低一倍。当然现在中国是被美国限制了芯片。
周明:2C 可能成就伟大公司,2B 节奏慢,但是更务实。有 2C 志向的人,大概看不上 2B 志向的人。
实际上 2C 更需要 AGI,要把各种功能放在一个通用引擎上,不能翻译一个 App,写作一个 App,一堆 App。这就要把两类能力——听懂人话,即语言理解的基础能力,和做事,即解决各种任务的能力——放在一个模型里。相应地,模型参数规模必须大。ChatGPT 参数量已到了 1750 亿,未来还会更大。做 2C ,未来就是一个不断增加参数规模、数据量和机器的军备竞赛,可能一直被 OpenAI 压着走。
周明:我们也做 2C,但是是为了获客。2B2C,我们已和一家大型通信厂商合作,去服务它的客户。
周明:在具体任务上,相对小的模型,加上更好的微调和特定领域的数据,会超越通用大模型。另外还有成本,对很多场景来说,客户需要便宜和够用。
周明:央企国企的很多业务出于数据安全考量,一般不会用公有云,我认为这个形势大概未来十年不会变。
周明:国内的行业数据飞轮效应很难建立,央国企的数据、训练出来的模型也不是你能带走的。当然这对所有公司都一样,大家都在一个起跑线。
周明:在于自己先强起来,从不能做到能做,然后等待一些外部关系调整,包括看看出海可能,不停寻找新的活下来的机会。
周明:这就像机器学习,它需要正反馈,也需要负反馈,最终神经网络才会越来越强。当你抱着一颗学习之心,人生的经历,不管成功、失败,所有人和所有事,都是你的学习,你的训练语料。