七脉的笔记

七脉的笔记
日常学习的笔记稿与记录稿
行业信息

大模型推理效率和成本优化手段与GPU利用率优化手段

大模型提高推理效率和成本优化 仅面向应用层: 优化大模型推理的效率和成本是一个系统工程,涉及模型、硬件、软件和策略等多个层面: 一、模型架构与权重层面优化(最根本的优化,也可能会影响效果) 这类优化旨在让模型本身变得“更轻、更快”。 模型量化 做法:将模型权重和激活值从高精度(如FP32)转换为低精度(如FP16、BF16、INT8,甚至INT4)。 效果: 显存占用减半及以上:FP16比FP32小一半,INT8再小一半。 计算速度提升:现代硬件(如GPU的Tensor Cores、CPU的AI指令集)对低精度计算…

2025年9月7日 673点热度 0人点赞 阅读全文
行业信息

2025 年企业级 AI 生成功能产品战略与市场

一、项目背景与研究概述 1.1 研究背景与目标 随着生成式 AI 技术的快速发展与商业化应用,企业级 AI 平台市场正经历深刻变革。2025 年,全球 AI 核心产业规模预计达到 3.1 万亿美元,较 2023 年增长近 87%,其中亚太地区占比将超过 40%。在这一背景下,IBM Watson X 作为企业级 AI 平台的代表产品,正面临来自全球和亚太地区本土竞争者的双重挑战。 本研究以产品经理视角出发,旨在全面分析以 IBM Watson X 为代表的企业级 AI 生成功能平台的产品规划、市场规划、战略方向、客…

2025年9月7日 509点热度 0人点赞 阅读全文
随笔记录

35岁后,经营自己的黄金十年

35岁,像一声半场哨响。 上半场,我们凭着体力、聪明和一点运气,往前猛冲。 下半场,游戏规则全变了。 体力开始下降,精力大不如前。 身后,是嗷嗷待哺的家庭。 眼前,是虎视眈眈的年轻人。 35到45岁这十年,是一个人一生中,最关键的决胜局。 你是在这里,完成一次惊险的价值跃迁,还是,缓慢地滑向平庸的谷底?  区别就在于,你有没有经营好这十年。 年轻时我没感觉,我快到中年了,我才恍然醒悟。 原来过的那么快,三分之一都过去了。真该为自己设计一下个人商业模式了,每个人都该去找一找自己的模式。 01 事业上:从执行者升级为操…

2025年9月7日 458点热度 0人点赞 阅读全文
AI-study

如果做一个机器学习平台或者智能体平台,如果只选择三个,那是什么?

1. 高效、统一的数据管理与处理能力 (Data) 2. 全生命周期、可复现的模型工作流管理能力 (Model) 3. 安全、可靠且可扩展的部署与运维能力 (Operation) 这三大件构成了一个从数据输入到价值输出的完整闭环,缺一不可。下面我分别详细解释: 1. 高效、统一的数据管理与处理能力 (The Data Foundation) 核心思想: 垃圾进,垃圾出。数据是机器学习/智能体的血液和燃料。没有高质量、易访问的数据,一切都是空谈。 为什么最重要? 数据溯源与版本控制: 平台必须能追踪每个模型训练所使用…

2025年8月28日 554点热度 0人点赞 阅读全文
AI-study

智能体Agent 等级的深度思考与案例

最经典和广为接受的框架来自斯坦福大学学者Russell和Norvig的教科书《人工智能:一种现代方法》。他们根据智能体的理性程度和对环境的表现,将其分为五个等级。 此外,随着大语言模型(LLM)的兴起,也出现了一些新的划分方式来描述基于LLM的智能体。 下面我将结合经典理论和现代发展,为您详细解读智能体的等级 ------------------------------------------------------------------------------------------------ 一、经典分级(…

2025年8月25日 880点热度 1人点赞 阅读全文
AI-study

NVIDIA 的AI推理系统技术细节

NVIDIA Dynamo是一款设计为高吞吐量低延迟的分布式推理框架,旨在为多节点分布式环境中生成式AI和推理模型提供高性能推理服务。Dynamo被设计为与具体推理引擎无关(支持TRT-LLM、vLLM、SGLang或其他推理引擎),并有效发挥大语言模型特定的功能。Dynamo通过Rust语言实现核心组件以提高性能,支持Python接口以提高可扩展性和快速迭代和生态构建。 NVIDIA Dynamo核心功能设计 Disaggregated prefill & decode inference Dynamo将…

2025年8月6日 785点热度 0人点赞 阅读全文
AI-study

RTX5070ti部署Gpustack 踩坑指南-部署VLLM最新版本

对于50系显卡,我的是5070ti,cuda版本要12.8的版本不然会报sm_120不可用,建议pip安装之前先切到阿里源,清华源不稳定会报403 因此需要进行踩坑处理; RTx5070ti 对于 cuda 、pytorch 、vllm 版本有非常强的版本号依赖; 1.下载CUDA 由于我装完 Ubuntu22.04 后就自动带了最新的显卡驱动,就没有再去配置驱动。 先查看驱动能支持的CUDA最高版本,这里显示可支持到12.8。 nvidia-smi 在CUDA的 说明文档 可查看CUDA对应的驱动版本要求。 在 …

2025年7月18日 956点热度 0人点赞 阅读全文
B端产品

大模型与安全在应用层有哪些结合点?

从大模型、检索增强生成(RAG)和智能体(Agent)三大技术维度看,网络安全领域的结合应用点可系统归纳如下: 一、大模型原生能力在网络安全的应用 1. 威胁检测与对抗 语义级攻击识别: 大模型通过理解攻击流量的自然语言特征(如钓鱼邮件话术、恶意脚本注释),识别传统规则引擎无法捕捉的语义混淆攻击。 0day漏洞预测: 分析代码/协议中的非常规模式(如异常参数传递、非常规函数调用),结合历史漏洞数据预测潜在0day风险。 多模态威胁检测: 融合分析文本日志、网络流量包、图像(如钓鱼网站截图),实现跨模态威胁关联(如钓…

2025年7月4日 537点热度 0人点赞 阅读全文
行业信息

中国人口结构变迁与政策响应:2020-2025 年趋势分析与影响评估

中国人口结构变迁与政策响应:2020-2025 年趋势分析与影响评估​ 一、研究背景与概述​ 中国人口结构正经历深刻变革,出生率持续走低、老龄化加速发展已成为当前人口形势的主要特征。2020 年第七次全国人口普查数据显示,我国总和生育率已降至 1.3 的极低水平,跌破国际警戒线,预示着人口负增长时代的加速到来​ 55 。随后几年,这一趋势并未得到有效遏制,反而呈现加剧态势。2023 年,中国出生人口降至 902 万人,人口自然增长率连续第二年为负值 (-1.48‰)​ 25 。2024 年虽略有回升,出生人口达到 …

2025年7月3日 556点热度 0人点赞 阅读全文
B端产品

产品团队搭建的时候的一些思考

  视频云产品团队搭建阶段性思考: ​团队阶段​ ​核心角色配置​ ​协作重点​ ​从0到1探索期​ 核心PM + 技术PM + 解决方案PM 快速验证核心功能(如直播低延迟) ​规模化增长期​ 增加商业化PM + 体验PM 优化付费转化率及用户留存 ​行业深耕期​ 增加策略PM + 安全PM 构建行业壁垒(如医疗直播合规方案) 典型产出说明: 视频云团队可覆盖技术、体验、商业、行业的完整闭环,应对云服务市场的复杂竞争。实际配置需根据业务阶段动态调整,例如中小团队可合并“技术PM+策略PM” 核心负责人:…

2025年6月30日 469点热度 0人点赞 阅读全文
12345…26
最新文档分类
  • AI-study
  • aigc-agent
  • B端产品
  • 产品工具篇
  • 产品生命周期
  • 好好学习
  • 技术积累
  • 日常攻略
  • 行业信息
  • 随笔记录
最新 热点 随机
最新 热点 随机
个人助理:家庭mini-AI实验室建设 Agent从原理到落地笔记:Harness Engineering 面向长期运行型应用开发的 Harness 设计(译文) Multi-Agent 架构使用判断框架 agent 上下文工程记录 mannus和openclaw的核心竞争力是什么?
Agent从原理到落地笔记:Harness Engineering个人助理:家庭mini-AI实验室建设
SwitchyOmega 实现Proxy ssh自动登录脚本 精力管理:你为什么总感觉身体被掏空 一些比较好的开源项目 五大纬度横评短视频解决方案-看腾讯云-阿里云 全新的机会-内容付费的7个要点 关于"口碑与人性的思考"
标签聚合
产品经理 智能体分级 RAG技术 技术架构 GPU部署 AI框架 模型训练方法 大模型智能体 图像压缩 大模型应用 AI技术对比 智能决策

COPYRIGHT © 2026 75live.com. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang