一提起 AI ,大家首先想到的可能是各大科技巨头在算力和算法上的抢夺和竞争。但是在算力和算法背后,另一场没有硝烟的战争也在持续升温,那就是 AI 数据公司之间的博弈。就在几天前,大数据存储和云计算领域内两家最有影响力的公司 Snowflake 和 Databricks 分别召开了他们的年度峰会。
在峰会上两家公司分别介绍了自家数据生态的发展方向以及如何为企业提供更好的AI数据服务。但是出乎意料的消息是,峰会期间 Databricks 宣布重金收购这个领域3大开源数据社区之一 Iceberg 背后的商业公司 Tabular, 这让两家数据巨头之间的关系更加剑拔弩张,Databricks 颇有后来者居上的势头。
这期节目的两位嘉宾都是在 AI 数据领域有着丰富的经验和洞察的从业者。他们刚刚从 Snowflake 和 Databricks 的峰会现场回来,为我们带来了数据AI、企业级AI的共识转变的一些观察和思考。
内容涉及大量英文专业名词,「声动活泼」公众号上也同步整理了本期节目的要点,如果你喜爱本期节目或对节目内容感到好奇,欢迎在微信搜索「声动活泼」查看 [最新文章](https://mp.weixin.qq.com/s?__biz=MzIwMDczNTE3OQ==&mid=2247501751&idx=1&sn=d4f694182775514286d8b66494e626ee&chksm=96fa2713a18dae05e6a7ed74df24e025a7f5279a0930aeae78558a501264e703d535c7d0b0d6#rd)。
**本期人物**
丁教 Diane,「声动活泼」联合创始人、「科技早知道」主播
硅谷徐老师,AI 高管、连续创业者、斯坦福客座讲师,小红书和微信视频号:硅谷徐老师 |公众号:硅谷云| YouTube: Byte into Future
堵俊平: Datastrato AI 创始人 CEO
Jack Song:Uber 数据平台工程总监,曾任 Airbnb 人工智能平台工程总监、Mastercard 数据和人工智能的技术副总裁
**主要话题**
[05:36] 从 Snowflake 和 Databricks 峰会看数据生态新趋势:AI for data 和 Open data catalog
[09:50 ] Open data catalog 大火 : 统一数据湖仓数据架构,为 AI 引擎和数据引擎承上启下
[13:53] 引擎多样化和数据管理需求驱动统一和独立的 open data catalog 生态
[19:28] Databricks 收购 Tabular:会继续拥抱中立还是与商业利益捆绑?
[23:14] Snowflakes 与 Databrick 暗暗较劲:Iceberg 社区会良性发展还是走向分裂?
[25:10] Databricks 管理 Apache 社区 : 开源社区走向商业化是社区良性发展的重要标志
[29:56] Databricks 营收增长迅猛:战斗力来自于其开源属性
[31:25] 从 data for AI 到 AI for data: GenAI 时代的数据服务新方向
[40:17] Semantic search (语义搜索)是 AI 与 data 相互整合的一个突破口
**所涉部分术语**
**Snowflake**
Snowflake 是一家成立于 2012 年的美国云原生数据仓库公司,于 2020 年上市。它的核心产品是云数据平台 Snowflake,该平台改变了传统的数据仓库架构,专为云环境设计,提供了高度可扩展、高性能的数据存储和处理能力。
**Databricks**
Databricks 成立于 2013 年,由开源大数据项目**Apache Spark**的创建者们成立,是一家提供大数据处理和分析平台的公司。自成立以来发展迅猛估值已超过 400 亿美元,但仍未上市。
**Iceberg社区**
Iceberg 社区是一个开源数据湖格式项目,iceberg 专为大数据分析而设计,其目标是简化数据湖的管理,使得数据工程师可以像操作数据库一样操作数据湖中的数据。
**Tabular** 是 iceberg 背后的商业公司,本次 Databricks 对 Tabular 的收购引发了公众对于 iceberg 的开源和中立属性的担忧。
**Delta Lake**
Delta Lake 是一个由 Databricks 开发并开源的数据存储项目,致力于提升数据湖的管理能力和性能。 Delta Lake 与 Iceberg 存在潜在的竞争关系。
**Hudi (Hadoop Upserts and Deletes Incrementally)**
与 Iceberg 和 Delta lake 类似,Hudi 也是开源的数据湖社区,它旨在提供高效的大型数据集上的插入、更新和删除操作,同时保持数据湖的灵活性和规模。
**Open data catalog**
开放数据目录是专门面向人工智能和机器学习领域的一类数据资源库或平台。这类开放数据目录专注于提供可用于训练算法、测试模型或驱动研究的高质量数据集。数据公司通过建立和维护这样的目录,促进数据共享,降低数据获取门槛,加速AI技术的研发和应用创新。
**Semantic Search**
即语义搜索,是一种前沿搜索技术。不同于传统搜索的关键词匹配,语义搜索利用人工智能对自然语言进行理解和处理,旨在理解用户查询背后的意图和上下文,从而提供更加准确和相关的搜索结果。
**幕后制作**
监制:Diane、雅娴、六工
后期:Jack
运营:George
公众号:东君、六工
设计:饭团
**商务合作**
[声动活泼商务合作咨询](https://sourl.cn/6vdmQT)
**支持我们,加入新一年的播客创新**
2021 年我们发起了「声动胡同会员计划」,这是一个纯支持项目,支持「声动活泼」在播客内容上不断探索和创新。回顾 2023 年,得益于这些支持,「声动活泼」的每档节目都不断突破,不仅荣登苹果中国的年度热门节目榜单,还在 CPA 和喜马拉雅等平台都榜上有名。
2024 年全新付费节目「[不止金钱](https://www.xiaoyuzhoufm.com/podcast/65a625966d045a7f5e0b5640)」现已上线,欢迎收听。
同时,新一季「跳进兔子洞」即将上线,敬请期待!
**加入我们**
声动活泼正在招聘全职「节目监制」、「节目营销」、「商业化项目管理」,查看详细讯息请 [点击链接](https://sourl.cn/j8tk2g)。如果你已准备好简历,欢迎发送至 hr@shengfm.cn, 标题请用:姓名+岗位名称。
**关于声动活泼**
用声音碰撞世界,声动活泼致力于为人们提供源源不断的思考养料
• 我们还有这些播客: 声东击西、What's Next 科技早知道、声动早咖啡、商业WHY酱、跳进免子洞、吃喝玩乐了不起、泡腾 VC 、反潮流俱乐部
• 如果你喜欢我们的节目,欢迎 打赏 支持,或把我们的节目推荐给朋友
欢迎在[即刻](https://okjk.co/Qd43ia)、微博等社交媒体上与我们互动,搜索 **声动活泼** 即可找到我们。
期待你给我们写邮件,邮箱地址是:ting@sheng.fm
**欢迎扫码添加声小音,在节目之外和我们保持联系。**
还没有评论,快来发表第一个评论!