七脉神剑的秘密

七脉神剑-日常学习笔记
日常学习的笔记稿与记录稿
行业观点

大模型推理效率和成本优化手段与GPU利用率优化手段

智能摘要 大模型推理效率与成本优化涉及多层面技术,包括模型量化、剪枝与知识蒸馏以减小模型体积;批处理、持续批处理、闪存注意力等推理技术提升吞吐与显存效率;张量/流水线并行支持大模型部署;结合TensorRT、vLLM等专用框架及算子融合、KV缓存等手段优化计算与内存使用。GPU利用率提升依赖SM利用率监控,通过混部调度、弹性资源管理与系统级协同优化实现高效推理。— 此摘要由AI生成仅供参考。 大模型提高推理效率和成本优化 仅面向应用层: 优化大模型推理的效率和成本是一个系统工程,涉及模型、硬件、软件和策略等多个层面…

2025年9月7日 0条评论 138点热度 0人点赞 阅读全文
行业观点

2025 年企业级 AI 生成功能产品战略与市场

智能摘要 2025年全球AI核心产业规模预计达3.1万亿美元,生成式AI市场规模为2842亿美元,亚太地区贡献显著,其生成式AI市场2025年达242亿美元,2028年将增至584亿美元。IBM Watson X作为企业级AI平台面临竞争,而百度文心一言、阿里云通义千问等国内平台在中文处理及行业应用上优势突出,如文心大模型4.5在7项基准测试中超越GPT-4.5。技术趋势聚焦多模态融合、智能体应用(Gartner预测2028年15%日常工作决策由AI代理自主执行)及效率优化,建议企业强化安全合规、实施行业深耕与差异…

2025年9月7日 0条评论 29点热度 0人点赞 阅读全文
随笔记录

35岁后,经营自己的黄金十年

智能摘要 35至45岁是人生关键十年,需在事业、财富、健康和认知四方面实现升级。事业上,应从执行者转型为操盘手,将能力产品化、建立影响力杠杆并打造个人品牌。财富方面,需从储蓄者转为系统构建者,强制储蓄18个月家庭开销、启动第二引擎创造非工资收入,并配置百万医疗和重疾险等抗风险资产。健康上,要停止透支转为投资,管理睡眠、坚持运动及进行情绪排毒。认知层面,须破除固化思维,主动链接优秀者、付费学习高质量课程并培养新爱好。主动经营此阶段,方能实现价值跃迁而非滑向平庸。— 此摘要由AI生成仅供参考。 35岁,像一声半场哨响。…

2025年9月7日 0条评论 52点热度 0人点赞 阅读全文
AI-study

如果做一个机器学习平台或者智能体平台,如果只选择三个,那是什么?

智能摘要 一个高效的机器学习或智能体平台必须具备三大核心能力:首先是统一的数据管理与处理,涵盖数据版本控制、特征存储、质量监控及大规模处理,确保数据可追溯与高质量;其次是全生命周期的模型工作流管理,包括实验追踪、自动化训练、流水线编排和模型注册,实现模型开发的标准化与可复现;最后是安全可靠的部署运维体系,支持弹性伸缩、多模式部署、性能监控与安全保障,保障模型在生产环境稳定运行。三者构成从数据到价值输出的完整闭环,缺一不可。— 此摘要由AI生成仅供参考。 1. 高效、统一的数据管理与处理能力 (Data) 2. 全生…

2025年8月28日 0条评论 57点热度 0人点赞 阅读全文
AI-study

智能体Agent 等级的深度思考与案例

智能摘要 文章介绍了智能体的等级划分,主要基于斯坦福学者Russell和Norvig的经典框架,将智能体分为五级:从简单反射型到学习型,逐级提升。同时结合现代发展,提出按自主性划分的类型,包括命令执行型、条件触发型、目标驱动型、任务自主型与完全自主型。还阐述了大语言模型(LLM)智能体的层次,涵盖工具使用、简单推理、规划执行及多智能体协作。实际应用中,先进智能体往往是多等级能力的融合体。— 此摘要由AI生成仅供参考。 最经典和广为接受的框架来自斯坦福大学学者Russell和Norvig的教科书《人工智能:一种现代方…

2025年8月25日 0条评论 316点热度 0人点赞 阅读全文
AI-study

NVIDIA 的AI推理系统技术细节

智能摘要 NVIDIA Dynamo是一款高吞吐量低延迟的分布式推理框架,专为多节点环境中的生成式AI模型服务设计。其核心功能包括分离prefill(处理输入提示并生成KV缓存)和decode(自回归生成token)阶段,以优化GPU资源分配;动态GPU调度机制实时调整资源比例,应对高并发负载;LLM-aware智能路由基于请求特征(如Prompt Tokens、Output Tokens)精准调度至合适节点;并采用NIXL库加速KV cache传输,通过RDMA和异步数据处理降低延迟。系统以Rust实现核心组件,…

2025年8月6日 0条评论 132点热度 0人点赞 阅读全文
AI-study

RTX5070ti部署Gpustack 踩坑指南-部署VLLM最新版本

智能摘要 文章介绍了在RTX 5070ti显卡上部署Gpustack和最新版本VLLM的注意事项和具体步骤。由于版本依赖较强,需使用CUDA 12.8以避免出现sm_120不可用的错误。作者推荐使用NVIDIA官网下载CUDA 12.8.1并以runfile方式安装,避免覆盖已有的显卡驱动。随后通过配置环境变量和创建虚拟环境安装VLLM,并通过软链接将VLLM接入GPUstack的指定路径以成功运行后端服务。整个流程强调版本适配和安装方法选择。— 此摘要由AI生成仅供参考。 对于50系显卡,我的是5070ti,cu…

2025年7月18日 0条评论 261点热度 0人点赞 阅读全文
B端产品

大模型与安全在应用层有哪些结合点?

智能摘要 大模型在安全领域的应用涵盖威胁识别、漏洞预测及自动化运营,有效提升检测精度和响应效率。RAG技术通过整合实时威胁情报和企业内部知识库,增强模型决策的动态性与合规性,降低幻觉风险。Agent则构建自主闭环系统,实现多工具协同和自动化处置,例如在勒索软件攻击中的快速响应。三者结合形成“感知-认知-行动”新安全架构,已在实际系统中显著缩短威胁响应时间。— 此摘要由AI生成仅供参考。 从大模型、检索增强生成(RAG)和智能体(Agent)三大技术维度看,网络安全领域的结合应用点可系统归纳如下: 一、大模型原生能力…

2025年7月4日 0条评论 154点热度 0人点赞 阅读全文
行业观点

中国人口结构变迁与政策响应:2020-2025 年趋势分析与影响评估

智能摘要 2020-2024年间,中国人口出生率从8.52‰降至6.77‰,死亡率从7.07‰上升至7.76‰,人口自然增长率持续为负,2024年总人口减少139万人,进入中度老龄化社会。政府先后实施三孩政策及一系列生育支持措施,但效果有限。同时,技术移民制度的探索初见成效,但移民规模仍较小。人口结构变迁推动就业市场从劳动密集型向技术密集型转型,高等教育和职业教育迅速发展,基础教育则面临资源调整压力。政策建议强调加大生育支持、优化教育资源配置、完善移民制度及推动就业结构升级,以应对人口负增长和老龄化带来的多重挑战。…

2025年7月3日 0条评论 146点热度 0人点赞 阅读全文
B端产品

产品团队搭建的时候的一些思考

智能摘要 文章围绕视频云和大模型产品团队的搭建提出阶段性思考,强调根据业务发展周期(探索期、增长期、深耕期)动态配置产品管理角色,如技术型PM、商业化PM、策略PM等,并明确各角色的核心职责与能力要求。团队需覆盖技术、商业化、合规与行业需求,形成完整闭环,以应对市场竞争。小团队可合并角色,而成熟阶段需专业化分工,尤其在高监管行业必须重视伦理合规PM的设置。— 此摘要由AI生成仅供参考。   视频云产品团队搭建阶段性思考: ​团队阶段​ ​核心角色配置​ ​协作重点​ ​从0到1探索期​ 核心PM + 技术…

2025年6月30日 0条评论 131点热度 0人点赞 阅读全文
12345…23

七脉神剑

这个人很懒,什么都没留下

最新 热点 随机
最新 热点 随机
大模型推理效率和成本优化手段与GPU利用率优化手段 2025 年企业级 AI 生成功能产品战略与市场 35岁后,经营自己的黄金十年 如果做一个机器学习平台或者智能体平台,如果只选择三个,那是什么? 智能体Agent 等级的深度思考与案例 NVIDIA 的AI推理系统技术细节
智能体Agent 等级的深度思考与案例如果做一个机器学习平台或者智能体平台,如果只选择三个,那是什么?35岁后,经营自己的黄金十年2025 年企业级 AI 生成功能产品战略与市场大模型推理效率和成本优化手段与GPU利用率优化手段
stable diffution 深入浅出原理介绍 玩客币的前世今生-边缘计算下的经济 高效的图像处理云服务-ImageX 优先关注你的客户而非你的竞争对手 搭建自己的远程控制 产品经理的四大境界与核心能力
标签聚合
产品经理 AVIF格式 视频编解码 逻辑闭环 WP插件 图像压缩 认知升级 H266技术

COPYRIGHT © 2026 75live.com. ALL RIGHTS RESERVED.

Theme Kratos Made By Seaton Jiang