
DeepSeek-R1的横空出世,再次掀翻AI家具的狂热波浪。本文通过实战案例揭示大模子在财税、法律等界限的真实推崇:节录生成恰当可靠,精准臆想裂缝百出,幻觉问题出入相随。从Text-to-SQL的行业幻猜想RAG决策的落地实行开云体育(中国)官方网站,作家用三年抽噎资历总结出AI家具的两条铁律——谁为失实买单?失实能否被发现?

DeepSeek-R1出来阿谁礼拜,我每天接到三个雇主的电话。
不夸张。一个是我前雇主,字节系出来的;一个是咱们当今的CEO;还有一个是天神轮投咱们的阿谁投资东说念主。每个东说念主来源齐是吞并句”看到阿谁R1了吧”,然后等于心焦和沸腾纠缠在沿路的口吻,”咱们是不是要再投一波资源……”
我当时间在公司楼下吸烟。我跟咱们CEO在电话里说了一句话,他自后在董事会上援用过:
R1处分的是大模子我方的问题。咱们的家具作念不好,不是因为模子不够强。
挂了电话回工位,我不时看Sentry里报错。一个客户上传的契约里有16%的字符识别错了,AI抽出来的金额是真实金额的100倍。这玩意儿如果顺利推到他们的财务系统里,我赔不起。
这等于我作念了三年AI家具之后的感受。
模子每涨一个版块,CEO们的沸腾感涨一个台阶。作念事的东说念主,心焦感涨两个台阶。
26岁首我在一个PM群里说过一句招打的话:Text-to-SQL这条路,再作念两年齐作念不出来。群里能够十几个东说念主@我抬杠,我没回。我我方拿这玩意儿作念过一年。
不是说工夫上作念不出来,是说作念不到坐褥可用。你作念企业财税场景,雇主问”上个月利润”,AI要先猜他要哪个字段,再猜要不要舍弃某些司帐科目,再猜跨表关联的逻辑。三层概率乘下来,准确率你算算。
我之前那家——为了不被认出来就叫它T公司吧——作念过一年,烧了大几百万,对话框上线两个月,留存为零。CEO本东说念主齐无须。
死法很浅显:财务数据差一分钱齐不行。第四象限的活,你不行丢给概率机器。
但你知说念2025年还有若干PM在作念Text-to-SQL么?我去Boss上搜过,”NL2SQL”或者”当然谈话查数据”挂出来的岗亭四十多个。
韭菜。是确实有。
它颖悟啥不颖悟啥
发布会那种演示真别看。豆包1.6发布那天,火山引擎那场直播,演示的Demo我跟咱们RD看完齐合计这是挑出来的顺利case,背后能够率跑了好几百遍才有一遍是这个后果。
真实业务里它什么水平,我用咱们家具身上发生过的事讲。
它写东西是真行
咱们一个功能:用户上传一份30页的尽调敷陈PDF,AI生成5页节录。这个功能上线11个月,用户倨傲度(咱们让用户每次主动打星)平均4.3。这种活AI干得比低级分析师好。原因也浅显,节录不条款增量信息,惟一求重组现存信息。这是它的果断。
它算账是真不行
吞并个家具,咱们作念过一个让AI帮用户算”如果按面前增速跑下去,第18个月现款流是若干”的功能。上线两周关掉。出错率高到无法兜底。
自后咱们把这个功能拆了。AI只认真明白用户问的是什么、把参数索要出来。算账交给一段写死的Python代码。然后AI再把代码输出包装成当然谈话回给用户。
这等于Function Calling。统共触及精准臆想的场景齐得这样干。永久不要让模子我方算数。这是我跟我团队定的死划定。
它的幻觉永久治不好
咱们一个企业客户,律所,让AI整理庭审纪录。有一次AI编了一个不存在的判例编号,”(2022)京01民终8847号”,方式十足正确,看起来十足确切。律所一个实习生信了,写进了一份发给客户的备忘录。客户去查,没这个案子。
雇主那天打电话过来骂了咱们半小时。自后咱们硬上RAG,把全王法院公开判决书索引接进来,让AI只可从这个库里取数据,不许造谣生成。
这事儿我自后反念念过,咱们不应该让用户去发现这种事故,应该我方先作念压力测试找出来。这是我作念AI家具最大的教学之一。
它的把稳力其实很差
百万Token凹凸文我用过。Gemini阿谁2M的也用过。听上去好意思好,跑起来真要命。
“大海捞针”测试这些年群众齐知说念。我我方作念过更狠的——把一份30万字的法律文献喂进去问20个问题,纪录下来:前1/4的问题准确率93%,中间1/2准确率61%,终末1/4准确率87%。中段等于被吃掉的。
是以别迷信长凹凸文。统共”我把通盘数据库塞进Prompt”的决策齐是naive的,终末一定要作念RAG或者用Agent分块处理。
我想插一段跟主题相干不大的话
咱们公司前年招了一个家具司理,简历上写的是”前X厂AI家具认真东说念主”。口试问他作念过什么时势,他说”主导过基于大模子的智能客服Copilot从0到1″。
我问DAU若干。他说没开释出来。 我问留存何如样。他说还没拿到好意思满数据。 我问Token月浪费若干。他愣了三秒,说不太谨记了。
我说算了,终末一个问题:你们的system prompt多长?他说能够几百字吧。
我没要他。自后这哥们去了另一家创业公司作念CPO,据说三个月就被炒了。
我想说的是,AI家具司理这个title当今水分太大。真确干过的东说念主,启齿三句话就知说念有莫得在一线肉搏过。Token账记不住、留存说不清、Prompt结构讲不出来,那等于没作念过。简历上写得再漂亮没用。
扯远了,总结
场景这事儿就两条
我作念了三年AI家具总结下来就两条判断标准,比那些四象限九象限管用:
AI错了,谁付钱?
写营销案牍,错了没东说念主付钱(最多雇主皱个眉)。这种场景勇猛上。
医疗会诊错了病东说念主付钱。法律观念错了客户付钱。财务报表错了公司付钱。
后一类里——惟一付钱的不是用户我方,就别让AI拍板。让它作念”提议者”,让真东说念主作念”决定者”。
错了能不行过后被发现?
咱们一个客户用的实质审核器具:AI判错一条,几小时之内东说念主工抽覆按发现,标错的样本回流考研,下次就对了。这种场景错了无所谓,因为错了能诞生。
我同业作念过一个:AI自动给HR筛简历,被淘汰的简历顺利进黑名单,欠亨知用户。这种场景的”错”会被永久下葬,因为被淘汰的候选东说念主不会总结诽谤你。这种场景就算准确率99%也不行上,因为那1%是看不见的伤一火。
不可逆+无法发现的错,是底线。
你猜哪家模子在咱们这儿跑得好
行业里群众齐吹我方作念得好。我跟你讲点闲聊。
豆包1.6在汉文节录的恰当性上,我个东说念主不雅点,比Kimi高半档。我没拿benchmark数据,我用了一年。相同的输入,豆包十次有八次给一个恰当结构的谜底,Kimi十次会给三种立场。这意味着我卑劣作念后处理,豆包好作念。
DeepSeek-R1适合作念”推理代理”——你让它解一个复杂问题,让它一步步想,强。但拿它作念坐褥环境的及时对话,蔓延你扛不住。
Claude 3.7 Sonnet在长凹凸文的”中段顾虑”上,咱们里面测下来比国产几家齐强。代价等于国内调用走代理,恰当性烂。
阶跃星辰阿谁Step-2在多模态上有点敬爱,但企业市集卖得难。
这些判断齐可能错。但作念AI家具三年还提不出几个这样的判断的东说念主,等于没在一线。模子选型这事儿不是看benchmark,是看你真实业务跑下来什么手感。
翻车的几件事
财税阿谁T公司翻车我前边讲了。再讲一个。
前年我陪一个一又友去他公司提案,他公司作念HR SaaS。他们AI家具作念的是”AI自动生成职工季度绩效敷陈”——把职工OKR、周报、共事评价喂给模子,生成300字的绩效总结。
听起来很好意思。
上线两周出大事:一个职工拿到的敷陈里写到了一段他我方从来没填过的”自我评价”。AI编的。但口吻、用词、跟阿谁职工闲居的立场一模一样。职工把这段话截图发到脉脉,问公司”是不是在伪造我的言论”。
公关花了三个礼拜处理完。家具下线。
死因是——这种场景里,AI生成的实质会被当成”事实述说”来读。而模子不分”我在生成”和”我在援用”。
我那一又友当今见我喝酒就要再骂一遍。”老子真不该信阿谁Demo。”
跑通的我也讲一个,不讲翻译那种通用例子。
咱们公司作念企业常识库搜索。用户问”咱们前年Q3的客户流失有什么特征”,传统搜索给你列5份文档让你我方挖。咱们的版块是:
检索→找到关联20份文档。 重排→小模子按关联度排序,挑前5份。 阅读→Claude把这5份的关联段落抽出来,写成300字的谜底。 援用→每个claim后挂上来源文档相连。
听起来浅显。我团队四个东说念主作念了七个月。
七个月里咱们处分了一堆问题:何如切chunk、何如处理PDF里的图、何如处理表格、何如让模子在不知说念时说不知说念而不是编、何如让用户能考据谜底的依据。
后果是真好。咱们这个家具的客户续约率比同业高十几个点。
这事儿教我一件事——AI家具的80%价值不在调API,在工程。Chunking战略、检索算法、Re-rank、援用记忆、失实处理——这些是真功夫。会调API的东说念主当今批发价两块钱一打。能作念出工程闭环的,凤毛麟角。
我当今每周还在作念的几件事
写完上头那些再讲身手论太累了。我就说我当今每周还在作念的几件事吧:
周一早上花两小时盯昨天的报错日记。AI家具的报错跟传统家具不一样,你看的不是5xx,是用户的”诶不合吧”。这个信号在Sentry里拿获不到,要在用户反应系统里手执。
每周二跟客服团队聊半小时。哪些问题用户最近问得多了,频频代表底层模子有些活动变了。OpenAI偷掉包模子版块不会有东说念主告诉你,是客服先察觉。
每个月用网页版手测50条prompt。不接代码、不调API,就用网页版东说念主工跑。这数据我用来推算”如果换更强的模子,我的天花板能上到哪儿”。
每个季度算一次Token账。不算不知说念,咱们前年Q4的API账单比Q3涨了40%。一查是某个客户搞了一个轮回调用的bug烧出来的。
这些事儿齐莫得身手论不错教。干就完结。
终末讲一段没什么逻辑的话
我作念AI家具最大的感受不是模子何如样、不是工夫何如样。是东说念主。
CEO们的预期经管。RD的工程智商。客户的容忍度。同业的夸口。VC的押注。这些东西从2024年到当今变了好几轮。
前年这时间群众齐在讲Agent。当今没东说念主讲了。前年Manus那波出来,统共东说念主齐说要颠覆。当今不提了。
AI家具司理的本职,可能等于当好这场喧嚣里阿谁涌现的东说念主。
知说念什么能作念、什么不行作念。知说念哪个雇主的预期需要降温、哪个工程师的决策需要支援。知说念这波热度会过、过完之后真确剩下来的是什么。
写到这儿我原来想升华一下”PM在AI期间的价值”什么的,写出来一看太傻了。
算了,就这样。
下周客户演示开云体育(中国)官方网站,我赢得去备PPT了。