知乎技术沙龙：自研大模型推理框架 ZhiLight 正式开源

发布时间：2024-12-26 11:27:25 作者：玩站小弟

12 月 7 日,知乎联合 DataFun 举办主题为《大模型应用工程化实践:从实验室到千万级用户产品》的技术沙龙。知乎 AI 算法负责人王界武、机器学习平台负责人王新、百川智能大语言模型资深算法专家。

12 月 7 日,知乎自研t正知乎联合 DataFun 举办主题为《大模型应用工程化实践:从实验室到千万级用户产品》的技术沙龙。知乎 AI 算法负责人王界武、技术架机器学习平台负责人王新、沙龙式开百川智能大语言模型资深算法专家王宇龙以及“提示词布道师”李继刚带来大模型相关的大模专业分享和深度交流,吸引来自 15 个行业、130 家企业参会者到场。型推知乎 CTO 孙斌在现场宣布,理框知乎自研的轻量高效大模型推理框架 ZhiLight 正式开源。

知乎直答与推理框架 ZhiLight:知乎加速大模型工程化实践

知乎技术沙龙：自研大模型推理框架 ZhiLight 正式开源

2024 年知乎持续推进大模型工程化实践,知乎自研t正于 6 月、10 月相继推出知乎直答及其专业搜索功能,技术架聚焦专业人士的生产力场景,更是将 AI 搜索推进到更具专业、实用性的沙龙式开深度搜索能力拓展阶段。

(知乎 AI 算法负责人王界武)

在技术沙龙上,大模知乎 AI 算法负责人王界武详细介绍了知乎直答从 0 到 1 的搭建过程,并重点分享了技术方案选型和「踩坑」经历。据介绍,型推知乎直答团队在构建AI问答系统时,对比了两种技术路线:LLM 持续 pretrain+posttrain 以及检索增强生成(RAG)方案,最终后者在成本、时效性、理框准确性、知乎自研t正可扩展性等多维度胜出。技术架当用户提问时,沙龙式开RAG 系统先从知识库检索相关信息作为上下文,再由大语言模型生成回答。团队通过在 Query 理解、召回、大模型生成等多个环节深入优化,显著降低了 AI 的幻觉问题,使得答案具备更高的准确性和权威度。

在专业搜索功能侧,知乎直答团队使用了多种前沿技术。不仅实现了多智能体的协同工作,支持信息查询、内容分析、数学计算等多种功能,还结合大语言模型强大的推理能力,对用户的上下文和提问进行深入分析,从多角度、多层次召回多样且高质量的内容。此外,知乎直答专业搜索还在思维链提示词工程、智能文档解析、动态资源调度等多个技术模块实现突破。

王界武介绍,下一步,知乎直答团队计划将产品与社区深度融合,满足更多场景下用户找答案的需求,在准确性、时效性、交互模式等领域实现更多升级。同时将进一步提升模型的推理能力,使知乎直答具备更强的解决复杂问题能力和使用体验。

除了知乎直答,知乎自研的大模型推理框架 ZhiLight 也在本次活动上正式亮相。知乎机器学习平台负责人王新介绍,知乎在多种型号的英伟达设备上部署了大量的大模型推理服务,优秀的开源项目 vLLM、SGLang 广泛应用于知乎内部。

(知乎机器学习平台负责人王新)

与此同时,知乎也在探索更低成本、更具可扩展性的自研推理框架方案。2023 年开始,知乎与面壁智能合作开发知海图大模型以及一系列大模型训练与推理工程架构。其中 ZhiLight 的设计目标是可以快速部署与实践 LLaMa-like 模型。

(ZhiLight 卡间通讯优化效果)

据介绍,ZhiLight 目前兼容 OpenAI chat/completions 接口,监控指标上与 vLLM metrics对齐,便于日常使用及以及与 vLLM 等开源引擎的性能与稳定性对比。ZhiLight 的优化侧重于 PCIe 卡间通讯优化、内存管理以及并发请求管理优化,同时还集成了 FlashAttention、Marlin、TensorRT、exllama 等开源项目。其中,ZhiLight 通过计算与通讯 overlap 、以及低精度通讯等手段,单层 Transformer 计算时间降低了 40% 以上。

(ZhiLight 引擎的性能表现)

如上图,模型规模达到 70B 时,多卡推理受卡间通讯影响愈加明显,ZhiLight 在 TTFT 指标上要明显优于目前主流的开源推理引擎,并且在 110B 规模情况下 ZhiLight 的优势进一步扩大。

(知乎 CTO 孙斌)

最后,知乎 CTO 孙斌在现场宣布,ZhiLight 已经正式开源(https://github.com/zhihu/ZhiLight)。未来,知乎希望与科技行业、技术从业者一起共建开源开放的交流社区,并推动前沿技术讨论从知乎线上延伸到线下。

Agent、AGI、Prompt……大模型技术前瞻与畅想

从 Agent 到 AGI 我们还有多远?百川智能大语言模型资深算法专家王宇龙从一个探索 Agent 极限实验开始,详细介绍了为什么要构建 Agent。

(百川智能大语言模型资深算法专家王宇龙)

在他看来,基于 LLM 驱动的智能体相较于传统 Agent,利用了大型语言模型(LLM)的强大能力,彻底改变了智能体的工作方式。这类智能体不仅仅是完成单一任务的工具,它们能够在各种不同的任务之间切换,并且通过理解自然语言来解决问题,其核心能力可以被分解为:规划、记忆、工具使用。

王宇龙还介绍,当前 Agent 面临的主要问题:缺乏理论指导、架构百花齐放、思路千奇百怪、效果参差不齐,并进一步介绍了 Agent 和 LLM 的底层细节。

王宇龙认为,科学之所以可能,是因为存在一些可计算简化的区域,这些区域即使在普遍的不可计算简化之中也允许规律和预测的存在。人工智能有可能以新的方式发现并利用这些简化的区域。AI非常适合通过捕捉数据中的规律来做出近似、「大致正确」的预测,这与人类思维的方式相似。但是它在进行精确、详细的预测时会遇到困难,特别是在面对计算不可约性的时候。

Prompt是什么?「提示词布道师」李继刚在本次交流会分享了关于Prompt的道与术。他提出「Prompt = 表达」,而「表达 = 本意+文意+解意」,并进一步阐述了「本意 = 经验+词汇+知识」的概念,以及大模型与 Prompt 的关系:模型效果 =LLM*(Task+Promt)。

(「提示词布道师」李继刚)

李继刚在会上分享了大量 Prompt 实战经验。他认为,去年 Prompt 的关键词是从短到长,今年的关键词则是从长到短,但最本质的,还是要与大模型实现「共振」。ChatGPT 兴起时,他和很多人一样,给大模型写很长的 Prompt,但今年开始,他更习惯把 Prompt 压缩成一个词来开启大模型的解压过程。在他看来,用最清晰、简洁的表达,指向核心本质,才是切中肯綮的最优解。

李继刚认为,Prompt 工程师应该具备人文和技术两项基本素质,既要能写编程,要有理性数学的思维,又要会写作,有感性表达的思维。

(知乎智能算法部负责人张亚峰)

此次大模型技术沙龙由知乎发起,联合 Datafun 举办,同时也是知乎系列技术沙龙的第一场。知乎智能算法部负责人张亚峰表示,每天都有大量行业内对大模型感兴趣的朋友们在知乎讨论新技术和应用经验,我们会继续把这些高质量的讨论延伸到线下,组织一系列类似的高质量活动,未来知乎将进一步加强与科技行业、技术从业者的交流联动,为互联网行业前沿技术研发和应用贡献力量。

Tag：

《原神》海外作弊软件开发者遭重罚法院判赔150万美元
人气游戏《原神》的合作发行商Cognosphere委托的律师行DLA Piper日前宣布，之前的起诉作弊软件开发者案件获得了新判决，法院判赔高达150万美元，而且原本的索赔金额只有5万美元多。·这起发
2024-12-26
廷伯单人出镜！阿森纳发布赛前海报预热同曼联比赛
12月4日讯阿森纳发布赛前海报预热同曼联的比赛。在海报中，廷伯单人出镜。北京时间12月5日凌晨04:15，阿森纳将会在主场迎来同曼联的比赛。目前，阿森纳在英超十三轮战罢的情况下，排在积分榜的第二位，
2024-12-26
世嘉宣布自下个月起将超过60款的经典游戏从数字平台上下架
世嘉近日在“SEGA Classics”的常见问题解答中发布新公告，表示会在下个月起将超过60款的经典游戏从数字平台上下架，包括已经宣布在世嘉经典IP复活计划中的《疯狂出租车》、《斩斧》和《街头涂鸦》
2024-12-26
20年后《合金装备3》Eva配音演员身份终于揭晓
在原作发售20年后，Konami确认《合金装备3》里的角色Eva是由《小美人鱼》演员Jodi Benson配音。在Konami发布的《合金装备传奇》系列最新一集中，Konami终于平息了长达20年的网
2024-12-26
年轻人的第一台宝马轿跑！国产2系四门版有望明年1月上市
12月25日消息，国产全新宝马2系四门轿跑车预计将于2025年1月上市，可能带来售价的降低。据悉，新车型将提供225L M运动套装、225L M运动曜夜套装和M235L xDrive三款车型。新车延续
2024-12-26
罗马诺：曼联有信心本月与迪亚洛达成续约协议
12月4日讯据知名记者罗马诺透露，曼联有信心在本月与迪亚洛达成续约协议。迪亚洛目前的合同2025年到期，曼联主帅阿莫林接受采访时确认，俱乐部正推进这位22岁边锋的续约工作。阿莫林说道：“我们会找到解
2024-12-26