Mid Station

AIGC of 2023

记得7年前人工智能课堂上,Professor何谈到Alpha Go在围棋界大杀特杀对IT业界的影响,他说自己坚信所谓的强人工智能不会来临。然而2023,它迈着六亲不认的步伐来了。

从年初到年底,每过两三周就会被AIGC迅猛的发展震惊一次。春节饭桌上是跟亲戚们聊起如何被chatgpt展示出的惊人理解力给吓到,之后没几周大模型就在国内彻底火了;当然不是我的功劳,想必也是有无数率先接触到chatgpt的尝鲜者把这款划时代的产品作为饭桌上的谈资,让其开始走进国内大众视野。

三月份我开始尝试用stable-diffusion,发现webui相关的生态已经发展的非常完善,还有civitai这样成熟的模型分享社区。后来租用了云上的cpu尝试自己训练lora模型,因为之前做算法研究时候对huggging face的相关工具用得比较多,各位赛博菩萨贡献的开源代码也相当成熟,体验过程非常顺利。稍后开始帮朋友做一些AI画图相关的简单需求。到了七月份sdxl出来的时候又被模型的升级震撼了一次,画面细节的全面提升以及对细节的把握,感觉之前积累的很多prompting trick都用不上了。后来还有dall-e 3和stable diffusion turbo,进化的速度可以说超乎了想象。

LLM方面就更是如此了,刚开始用GPT-4就觉得它好像能读懂我的意图,哪怕是提问较为模糊,它也能直击痛处给出详细的回答;由于地区限制等原因,今年用的最多的是claude,在速度和回答的质量上都让我非常满意。如果从其他指标可能涉及主观因素,就挑一个数值指标来说明吧。去年年中的时候,我参加的算法项目还在为挑选一个2048 context window的基础模型而煞费苦心,到了今年GPT-4上来就是32k的context window,claude宣称达到了100k,后面又加到了200k。先不论里面又多少水分,200k的上下文长度可能在大多数的场景都不需要接向量数据库了,能够直接把对话关联的所有信息全部塞进去一个对话当中。

在开发效率提升上,去年用github copilot的时候,总是有种隔靴搔痒的感觉,自动补全的代码总是差点意思。前段时间尝试在GPT-4中通过直接对话来做一个gpts 的API,从schema涉及到python fastapi实现,再到服务部署,nginx转发配置,整个流程可能只花了30分钟左右,这种开发效率在从前是不敢想象的。我承认如果从一个零基础小白的角度去使用GPT-4可能还不能很好地完成任务,期间给出很多似是而非或者走弯路的方案还是需要有一定经验才能正确识别调整方向,但作为程序员的效率提升工具是绰绰有余的。

最近开始用cursor.sh,这款IDE给我的感觉是真的打破了传统IDE基于代码补全的智能化思路,真的将AIGC的强大能力融入到编码的各个子任务当中,而且也为LLM可能出现幻觉的毛病通过IDE所提供的上下文进行补足。这是我目前用到最顺手的AI based IDE了。

在学习探索的过程中,也发现了很多令人印象深刻的国外创业公司,比如模型托管部署领域的replicate,和文本嵌入领域的cohere,这些公司的文档写得非常清晰易懂,让人能够非常低成本地就能尝试他们的服务,然后直接了当的接入现成的流程当中。他们提供的服务对一个创业开发者来说都是非常友好且具有吸引力的。我在想国内什么时候能够有一批这样的公司,为创业公司提供基础建设的创业公司,才真正称得上是具备了AI发展的合适土壤。当用GPT开发一个应用只需要20分钟的时候,我们可能还需要花上100倍的时间去走审批流程符合监管,这才是对先进生产力最无情的扼杀。