腾讯云发布全新AI数据湖解决方案,深度融合多模态数据湖与异构计算弹性能力,实现了多模态数据处理到应用的全流程闭环。借助解决方中的产品能力,能够显著降低数据处理到模型训练跨平台协同的复杂度,为大数据和算法团队提供一体化、高效率的技术底座。

随着大模型从技术探索迈向业务深度融合,企业数据处理重心已从传统的结构化数据,全面转向海量的图片音视频、物联信号、乃至巨身智能交互数据。企业需要处理的数据不但类型和数据量都发生了明显变化,对数据的管理精细度、质量可靠性和流转敏捷性能力都提出了全面升级的需要。
腾讯云发布的 AI 数据湖解决方案,以多模态数据湖 TCLake 与开源大数据平台 EMR 为核心,具备结构化非结构化数据统一管理、CPU&GPU资源混合调度能力,能够轻松应对 AI 场景下数据管理复杂性和算力需求激增的双重挑战,力图为客户提供一站式的数智一体化底座,加速企业AI转型的与落地。
TCLake 通过构建统一的数据表格式,完美兼容视频、音频、文档及模型文件等全量多模态数据。这一特性实现了业务分析、数据工程与 AI 训练在同一套数据体系下的协同工作,从源头上消除了重复存储,显著降低了运维开销。在扩展性方面,TCLake 结合智能管理算子,通过自动化执行碎片文件合并与无效数据清理,确保数据高并发访问性能的同时,极大简化了数据治理流程与系统运维的复杂度。
EMR 承担资源与作业统一调度的枢纽角色,随着业务边界的扩展,EMR 从传统大数据平台升级为数据智能计算平台,一方面需要加强对 Python 生态 Workload 的原生调度能力,特别是要能适配和支撑主流机器学习框架的分布式训练需求;另一方面必须改变CPU、GPU等资源独立管理、利用率不高的现状。核心在于构建一个统一的资源调度层,能够智能地混合编排数据预处理与模型训练任务,让两类任务共享资源池,形成高效协同。
在此基础上,腾讯云还针对 AI 场景引入向量引擎进行数据加速,自研高性能引擎 Meson 在标准测试中实现显著性能提升,降低计算与 I/O 过程中的资源消耗。
目前,这套 AI 数据湖方案已在多个行业落地。在消费终端领域,客户通过平台处理店铺的实时管理数据,成功跑通了货架补货预警、店员操作规范修正等业务逻辑,使应用开发效率提升了 20%。在具身智能场景中,客户将大量的第三方数据导入对象存储,通过 Spark + Ray 的协同架构完成图片模拟信号提取、处理、修正补偿、后处理等环节,有效过滤了无效噪音的资源损耗,直接为相关企业节省了约 30% 的算力消耗。
市场表现方面,腾讯云正持续发力 Data+AI 赛道。根据 IDC 2025 年发布的多项报告显示,腾讯云在 AI 大数据领域的市场份额及增速等指标上,已在多个领域处于头部。
免责声明:本站转载的文章,版权归原作者所有;旨在传递信息,不代表本站的观点和立场。