挑战ChatGPT?资本表示认可!为什么说数据新秀Databricks能成为科技“巨兽”?(组图)
俗话说,人红是非多。自ChatGPT走红后,AI聊天机器人模仿者队伍层出不穷,但公开挑战且争议最大的,还属今天我们要聊的这家公司。
前不久,总部位于美国旧金山的初创公司Databricks发布了一款AI聊天机器人的代码,称任何公司都可以像OpenAI的ChatGPT一样,使用这些代码创建自己的聊天机器人,并且发布了开源产品Dolly。
Databricks认为企业更愿意自行构建自己的模型,而不是将数据直接通过API发送到第三方。因为对于大多数公司来说,真正带来收益的数据通常涉及知识产权和商业机密,将这些最敏感的信息披露给外界存在极大的风险。
听起来Databricks替企业的担忧似乎颇有道理,但在过去的一段时间中,竞相开发AI聊天机器人的互联网科技企业所推出的大多数产品,都出现声势浩大,表现却不尽如人意的现象。
甚至由Google亲自操刀的聊天机器人Bard在完成任务时都不如ChatGPT,可以说ChatGPT无人能及。
那么,Databricks凭什么认为自己能挑战ChatGPT呢?
根据Databricks提出的另一种“解决方案”所描述,其可利用“年代久远”的已经开源的模型,通过微调训练数据和架构,同样能够实现类似于目前最先进的AI模型的用户体验。最令人兴奋的是,与GPT-3的1750亿参数相比,Dolly模型只有6亿参数,这意味着企业能够以更低廉的成本构建和部署自己的AI模型。
“ 只需 30 美元、一台服务器和三个小时,我们就能教 Dolly 开始进行人类级别的交互。”Databricks 首席执行官 Ali Ghodsi 表示,Dolly 1.0 只需要非常少的数据和非常短的时间就能完成训练。
是搅局者还是挑战者?目前尚无定论。但作为近期备受瞩目的数据领域新秀,Databricks去年收入已超过10亿美元,最新估值已经达到380亿美元,超过OpenAI公司290亿美元的估值。
业界认为,大模型全靠数据,数据是基础。自微软和OpenAI的ChatGPT发布以来,企业的竞争已经开始从算法蔓延到数据。因此,作为一家数据仓库公司Databricks进军AI聊天机器人领域,有足够的挑战资格。
而在博满澳财投资经理看来,Databricks自2021年末曾多次在公共场合表达过IPO的意愿,随着市场的推进,IPO窗口即将打开。该公司无论从基本面、公司所处市场赛道、背后资本加持、以及未来退出路径来看,如果有机会能够在企业仍未上市前通过老股转让获得公司份额,是一个不可多得的投资机会。
1
为什么说Databricks 的挑战难以被忽视?
众所周知,训练AI模型需要大量数据作为输入,但是数据处理是一个耗时且繁琐的过程。Databricks提供了一站式平台,可以将原始数据从整合、清理并最终转化为可用数据,为后续的机器学习和模型训练提供充足的弹药。因此,Databricks入局AI语言领域更像是对其核心产品的后续延申。
而值得注意的是,Databricks并非首次涉足人工智能领域。早在2018年,公司就发布了针对机器学习的工具MLflow,旨在帮助工程师从数据准备、模型训练、到模型部署的整个生命周期中进行更好的管理。该工具可以自动记录实验参数和结果,方便回顾和复制实验等。
在权威机构Gartner魔力象限的评选中,Databricks是唯一在数据处理和人工智能领域均处于领导地位的科技平台,是市场上将数据从处理到最终接入人工智能的最佳桥梁。
事实上,从公司发展历史和团队背景来看,Databricks也是人工智能领域难以被忽视的新兴力量。与其他“半吊子”的AI团队不同,Databricks诞生于“名门望族”的UC Berkley大学的AI实验室。
作为全球重要的科研及教学中心之一,UC Berkley大学在多个科研领域均位列世界前十。与旧金山的斯坦福大学一同构成美国西部的学术中心。而Databricks创始团队的五名成员均为加州大学伯克利分校的研究员,拥有数据、计算机、人工智能相关领域的博士学位。
2
新兴基建赛道:云原生数据处理行业
近年来,大数据热潮催生了许多成功的公司,例如 Snowflake、Databricks、Splunk 和 Cloudera。在深入研究Databricks之前,我们不得不提到其最大的竞争对手Snowflake。
美国云数据仓库公司Snowflake于2020年9月16日在纽交所上市,首日暴涨近111%,成为当时最成功的科技IPO之一。Snowflake是极少数在当前经济不景气的大环境下仍保持高速增长的科技企业之一,全年收入达到20亿美元,同比增长率高达69%。
与此同时,Snowflake在最新的财报更新中透露,仍在招募更多技术和市场营销相关人员。这样的“逆势增长”得益于日益增长的数据需求以及公司业务在其中扮演的基建角色。当前,云原生数据处理行业是处于萌芽阶段的新兴基建赛道。
简单地说,Snowflake是一个数据仓库平台,用于存储、管理和分析大规模数据,是企业商业洞察的必要工具。
而Snowflake的成功并非偶然。在计算机和网络发展初期,企业数据形式和数量有限,一台线下服务器和内置数据库就可以解决大部分问题。但随着网络普及和流媒体的爆发,数据量以指数级别增长。
同时,企业跨地区开展业务已成为常态,线下存储显然无法满足远程数据调用的需求。云储存成为解决方案,谷歌、微软和亚马逊的云服务在全球范围内(不包括中国本地)形成了三足鼎立的态势。
此外,越来越多的企业意识到,通过对数据进行不同维度的分析和洞察,可以获得更多有利于商业决策的建议。因此,企业对于能够在三大云服务商上运行,并为商业智能(Business Intelligence)提供支持的一站式平台的需求,呈现不断增长趋势。
正是因为Snowflake在产品和商业模式的设计上找到了准确的定位,并迎合了企业数据上云和多云化的趋势,使其在巨头云服务商中脱颖而出,成为了数据领域的一匹黑马。
从本质上来说,Snowflake的革新在于将数据从三大云服务商转移到Snowflake数据仓库中进行统一储存,并且将运算与储存层进行分离,进行独立运算,提高效率,减少对存储层的影响,同时确保不同的组件协同工作,执行各种任务,包括平台安全操作、系统监控、查询优化以及元数据和状态跟踪。
然而,数据仓库的设计主要针对结构化数据SQL(即能够用二维表格和关系逻辑进行分类的数据,如销售记录)。但是,随着流媒体的爆炸式增长,越来越多的非结构化数据(如视频、文档、音频等无逻辑关系的数据)被遗落在数据仓库之外。
另一方面,由于Snowflake架构的限制,企业在使用和整理数据时必须经历数据提取的过程,这在一定程度上影响了整体工作效率。
这给Databricks带来了新的机会,其魔力在于“更高效“的设计理念的革新。Databricks创办的初衷是为了更有效率地处理数据,因此平台避免了数据仓库的概念。
团队建立了一个能够同时存储不同类型数据的数据湖,并提供了一站式的解决方案,从数据提取到分析整个生命周期的过程中提供帮助。Databricks最大化了计算引擎、数据读写质量和效率,大幅降低了海量数据处理工作的负荷。
此外,整个团队可以在同一时间进行工作,使得数据处理周期缩短了80%以上,只需数小时即可获得可用性数据。
以全球大型快时尚品牌H&M为例,该公司在全球覆盖72个地区市场,拥有超过5,000家线下门店。每天,成千上万的客户购物产生了大量的数据。而随着公司开始通过线上社交媒体获取客户,线上商务的开展也导致企业产生了大量的非结构化数据。
过去采用的系统已经削弱了团队对数据摄取和分析的能力,从构思、建模到商业决策,需要半年到一年的时间,因此,管理层开始意识到上述问题正不断削弱公司的市场竞争力。经过管理层深思熟虑后,H&M决定将Databricks作为其统一化数据分析平台。
这使得多个数据团队能够同时协同工作,大幅缩短了数据处理和分析周期,整体数据运营成本下降了近70%。此外,由于团队能够在一个统一的平台上工作,数据模型的准确性得到了显著提高,这为公司在全球供应链方面节省了高达数千万美元的成本,同时提升了企业的供应链决策效率。
自2013年商业化以来,Databricks迅速受到各大企业追捧,截至目前,Databricks的用户遍布各行各业,全球财富500强企业中,Databricks的普及率达到了40%以上。单一客户用量逐年增加,用量净增长率超过140%,公司收入仅用6年时间突破亿元门槛。在2022年,公司收入继续高歌猛进,并且有望在2023年实现盈利。
3
顶级资本与同业投资,押注Databricks未来
对于一家科技类初创公司来说,能够获得顶级资本的广泛认可,就是其技术和产品“钱途无量”的最有力验证。
截至2021年,Databricks已获得19项国际顶尖技术专利,并受到诸多国际顶级期刊/技术协会的高度认可,其中包括AI/机器学习和数据库等技术。
众所周知,在科技创新领域,有许多公司在科研上拥有较多成功的技术,但在商业化道路上面却要面临许多困难,最终可能走向默默无闻地境地。
所以,很多资本在投资此类公司时,通常较为重视在商业化方面的“悟性”。从Databricks的营收和估值看,其商业化进程显然已取得了成功。
更值得我们关注的是,该公司自2013年A轮融资以来,一直得到全球顶尖的风险投资公司A16Z、NEA、Tiger Global和BlackRock等公司的多轮持续参投,同时也是极少数先后获得微软、谷歌和亚马逊三大云服务提供商支持的公司之一。截至2021年8月,公司融资后市值已高达380亿美元。
与此相比,同样出众的Snowflake在资本方面则相对黯淡。除了红衫资本在E轮后续投资外,大部分知名资本,如代表巴菲特的伯克希尔·哈撒韦控股,在IPO前后才对企业进行注资,或者多少存在“投机”的成分,而不是出于对企业技术和前景的信任。
投资经理有话说
关于本次Databricks发布的AI产品,虽然可能只是噱头,但无论成功还是失败,对其核心业务都是百利无一害。一方面,这是对其核心业务的延伸,另一方面,"喂养"AI模型所需的数据处理能够进一步提升其平台用量。
Dolly已于4月12日进化至2.0版本
其次,我们不能从用户体验或技术领先的角度评判Snowflake和Databricks孰强孰弱。两家公司都是目前市场非常领先的数据处理企业,各有技术特点,就像苹果和三星手机一样,使用者有着不同的喜好。
但是,数据和AI的潜在市场规模TAM非常巨大。即便仅考虑数据存储业务,三大云服务商也仅占有市场约50%的占有率。如果再考虑数据服务以及AI领域的市场规模,无论是Snowflake还是Databricks,都有足够的空间让其成长为下一个时代的科技“巨兽”。
对于Databricks来说,它已经是一个相对成熟的企业。根据公司业绩和上一轮融后估值计算,公司定价仍旧较二级市场直接对标的竞争对手存在一定折扣。因此,如果老股转让市场上定价较上一轮融后估值存在进一步的定价折扣,当前投资下行的风险相对较小。
最后,Databricks自2021年末曾多次在公共场合表达过IPO的意愿。尽管2022年市场出现动荡,IPO计划被推迟,一旦IPO窗口打开,相信公司将会在不久的将来上市。无论从基本面、公司所处市场赛道、背后资本加持、以及未来退出路径来看,如果有机会能够在企业仍未上市前通过老股转让获得公司份额,是一个不可多得的投资机会。