7月,我和思科开始一段激动人心的旅程获取 Armorblox.Armorblox为思科获取 推进AI优先安全云过渡充满欢乐感和怀旧感,因为建设 Armorblox过去三年来一直是我关注的焦点
快速新任务来我之道:构建自定义AI助手, 允许网络安全管理员快速寻找答案,这是一项令人振奋的任务,考虑到大语言模型能实现的“魔术性”,并快速采行基因化AI
开工Cisco防火墙 搭建AI助手 防火墙管理员可用自然语言聊天AI助理可帮助排除故障,例如定位策略、归纳现有配置、提供文档等
在整个产品开发行程中,我遇到了数大挑战, 并在这里,我力求说明问题
1. 评价问题
第一项最明显的挑战是评价模型
如何知道这些模型性能良好
有几种方法可以评价模型响应
- 自动化验证-使用测量法自动计算AI响应
- 人工校验-人工校验AI响应
- 用户反馈验证-用户直接信号或模型响应代理
自动化验证
社区早期建议的一种创新方法使用LLMs评价LLMs工作奇特普用案例,但在评估量身定做定位任务模型时可达缺特级使用案例要表现良好,需要访问特殊或专有数据,而GPT-4等标准模型无法访问这些数据
使用精确的QA集为开发自动度量铺路,有或无LLM。 然而,整理和布置这些集,尤其是那些要求深域知识的集,可能是一项挑战性任务。并用完美问答集产生问题:这些代表用户查询吗?金答案与用户期望如何匹配
自动度量器打基础时,对具体使用案例的可靠性有争议性,尤其是在初始阶段。然而,随着我们扩展可用于验证的实际用户数据规模,自动化度量器的重要性将增加。使用实题后,我们可以比实际使用案例做更适当的基准,自动化度量成为良好模型更强信号
人工验证
基于人工验证的度量器早期特别有价值第一组使用案例面向AI助手,目的是使用户通过连贯编译和提交数据或使信息更易获取来提高效率。防火墙管理员快速想了解哪些规则配置阻塞特定防火墙策略,以便他们可以考虑修改AI助手归纳规则配置后,他们想知道如何修改规则配置AI助手会给他们引导步骤按期望配置策略
信息数据可人工验证这使我深入理解AI助手制造的一些幻觉和差错假设
人工量度自带费用,但比goldenQQA高成本效益,这需要域专家的参与和专门知识关键是要求平衡以确保评价过程保持精确和对预算友好
用户反馈校验
使用域专家代理实客户启动前测试AI助手证明是不可估量的他们的洞察力帮助开发紧回路提高响应质量
设计无缝反馈机制对于这些忙专家至关重要,以便他们能提供同样多信息说明响应缺失原因建立定期团队礼仪审查并按此反馈采取行动可确保持续与对模型响应期望一致
二叉优先排序举措基于评价空白
在审查评价漏洞时,眼前挑战在于有效解决和监测漏洞解决用户反馈和Eval度量常高显示多领域或错误自然引出问题:我们如何优先处理这些关注?
优先排序反馈极为重要,注重用户经验的影响和对AI助手丧失信任是优先排序的核心标准与问题频率并发
解决评价漏洞的途径不尽相同 — — 无论是通过即时工程、不同模型或尝试各种增强模型策略如知识图鉴于选项过多,必须依赖ML团队专家的专业知识和洞察力快速变化的人工智能环境 更新社区共享的新研究和最佳做法 也大有帮助有一些通讯播客,我用这些通讯播客更新新动态最实用工具是Twitter,
实现平衡:延缓性、成本和质量
初级LLM应用开发重点主要是确保高质量然而,当解决方案演化成有形、可退步产品时,延时问题变得日益重要,反应返回用户所花时间越多,越发重要。时间推介产品时 求得超常性能与管理成本平衡是关键
实践上平衡这些很难举个例子 搭建IT管理员聊天经验万一响应达不到期望值,或扩展数据源每一调整级联影响质量、延时和成本,需要谨慎和数据知情方法
视用例而定,你可能会发现用户会接受附加延时交换更高质量了解用户对其中每一项的相对值会帮助团队实现正确平衡持续成功项目关键是团队根据用户认为可以接受的取舍监控优化这三个领域
未来LLM应用
令人振奋地开始搭建产品与LLMs之旅,我等不及要学习更多东西了,因为我们继续搭运优秀AI产品
值得一提的是,我的主要经验是聊天经验使用矢量数据库检索增强生成器SQL代理但随着地平线上的进步,我对自主代理器的出现感到乐观,这些代理器存取多工具可以为用户采取行动。
最近开放AI发布助理API使开发商更容易访问LMS潜力,即代理多工具大环境深入跳入AI代理聊天由Lang链创建者Harrison Chase趣味插曲深空播客探索代理物进化复杂
感谢阅读有意见或问题可自由联系
我们想听听你的想法查询问题注释下方并保持Cisco安全社交
Cisco安全社会通道