瀚博半导体CEO钱军 : 在特定应用方向，DSA架构的AI芯片比GPU更有性能优势

2021-07-16 来源： 36氪原文链接评论0条

近日，高性能人工智能与视频处理芯片解决方案提供商瀚博半导体发布了首款云端通用AI推理芯片SV100系列及基于该芯片的通用推理加速卡VA1，今年四季度量产上市。

瀚博半导体2018年12月成立于上海。瀚博A轮融资由快手、红点创投中国基金、五源资本联合领投；今年4月完成了5亿元人民币A+轮融资，由经纬中国和中国互联网投资基金联合领投，联发科跟投。该公司主要研发高性能通用加速芯片，针对多种深度学习推理负载而优化，应用场景为计算机视觉、智能视频处理、自然语言处理等。SV102是瀚博SV100系列的首款芯片，它面向云端的AI的通用化推理任务。

人工智能行业随着持续的技术演进，算法模型的精度、性能等关键指标在众多领域不断取得突破性进展，已进入算法规模化应用落地阶段。全球范围内各行业数据中心对推理算力的需求在快速增长，下游客户多样化的算力应用场景，催生了多样化的AI计算加速芯片需求。

瀚博创始人兼CEO钱军表示，市面上鲜有主流GPU厂商外的其他更优解决方案，瀚博的SV102采用了DSA（Domain Specific Architecture,领域专用架构）架构，且主要适用于视频流类信息的处理。

对于技术路线的选择，钱军表示，一是因为英伟达的GPU性能强大，在同一路线下创业公司很难取胜；二是计算机视觉任务占据了AI市场的大部分，视频流占据数据流的 70%，而且比例持续攀升，适用于处理视频类信息的DSA架构芯片，能取得较好的信息处理效果。

视频解码能力对芯片有着低延时、吞吐量大、能效低等要求。根据瀚博公开的产品性能指标，SV102的峰值算力为200TOPS（INT8)；75瓦功耗下，其吞吐量2-10倍于GPU的AI吞吐率；且延时不到GPU的5%。

此次推出的SV100系列芯片可支持FP16, BF16和INT8等数据格式，并可以实现众多主流神经网络的快速部署及计算机视觉、视频处理、自然语言处理和搜索推荐等多样化推理应用场景。同时集成64路以上H.264/H.265/AVS2的1080p视频解码，广泛适用于云端与边缘智能应用场景，提升客户的设备资产效益、降低运营成本。

除了SV102以外，瀚博半导体还计划推出功率为15W和150W的推理产品，覆盖更多市场。

瀚博同步推出的基于SV100系列芯片的VA1推理加速卡，为单宽半高半长75瓦PCIe x16卡，支持32GB内存和PCIe 4.0高速接口协议，无需额外供电，即可适用于所有厂商的人工智能服务器，实现数据中心高密度高算力部署。

在业务应用场景上，瀚博的芯片产品和办卡产品主要用于网络直播、流媒体、电商推荐、智能客服等领域。

瀚博半导体在北京、深圳和多伦多均有研发分部。公司核心员工平均拥有15年以上的相关芯片与软件设计经验，总员工数在200人以上。公司创始人曾为AMD高管，CEO钱军曾在AMD任Senior Director，负责GPU（图像处理器）和AI服务器芯片设计和生产，CTO张磊2013年晋升为AMD Fellow，负责AI、深度学习，视频编解码和视频处理领域，其公司团队部分成员曾设计了业界首款7nm制程 GPU。

以下是发布会现场的采访内容：

1. 创始人履历有丰富的GPU行业经验和背景的，为什么你们这样的团队却选择了DSA开启创业？

我从2009年开始，就开始思考怎样逼近英伟达，但英伟达作为业界头部公司，他们不断耕耘，软件的成熟程度，整个工程能力方方面面，你要在相同构架下打赢它，有很大难度。

要打败英伟达，我们必须在构架上赢得优势，我们的DSA构架整个核心IP设计全部都是我们自己的。我们在选择我们第一个产品的时候，看到推理的市场非常大，需要一颗非常优质的产品。

我们更多的是做一个新构架的产品，通过这个构架，我们能在性能指标上超过它，再把产品卖到国外去。

2. 国内现在有缺芯问题，公司对于这个问题是如何解决的，对产品的量产会有影响吗？

缺芯是全球性的，可能是产能跟需求的一个不匹配，也有另外一种说法是像挖矿等需求，造成了产能的一些倾斜。有些有需求的产品如汽车电子产品买不到芯片。

对瀚博而言，瀚博今年产能已出，明年大部分的产能已提前预知，不过如果剩下产品卖的特别好，也有可能面临产能问题。

3. 最近AI界比较流行大规模训练模型，你们的芯片会有这方面的考量或者有相关优化吗？

我们关注到了这一点，所以做云端训练的时候，绝对不可能是单一算力芯片的一个部署，你一定要考虑到连接，考虑到精度、有效性。

我们非常关注这个领域，我们的S102是一个推理芯片，暂时还不会面对这样一个大的模型，但我们的算力是足够支撑大的模型。

4. 这款芯片的研发历时两年，研发过程中遇到的困难是什么？我们是怎么去克服的？

我们整个芯片研发也经过了两年多的时间。这不是我做过的最大的芯片，大家不要以为推理芯片比训练芯片好做，其实难度并不低。在整个过程中，对初创公司而言，会遇到很多挑战。

我觉得最重要的要从客户需求看，构架要对，然后你要在整个模型阶段就能把你的性能指标都能测试出来。

中间的话肯定会遇到各种各样的一个问题，这方面，我们是基于核心团队的专业知识，我们做过很多款芯片，我们做过20多款GPU，所有的GPU都是量产的，然后整个这一块我们是非常强大。

S102不是我们第一个量产的产品，我们前面有一个7NM的芯片，也做得很好。那颗芯片给了我们一个通道，让我们把我们know-how，我们整个流程的解决方案严谨性、完整地梳理了一遍。如今，通过这两颗芯片，我们有了整个设计的完整性。

5. AI芯片生态很重要，我们想问一下你们现在对一些框架平台的支持成功率怎么样？

软件的生态要一点点建立，我们主打的产品的话，让我们有时间一边建立生态，一边卖产品。

整个软件side，我们也看到，除了我们的AI引擎，还有我们的视频CV的引擎。我们在互联网端测的话，可能AI引擎会推出快一点，视频会稍微慢一点。在计算机视觉方面，我们会把视频引擎的所有功能都优化好，所以我们还在大力发展软件团队，我们的软件人员以后会3倍、5倍于我们的硬件。

我们后期会发布我们15瓦到150瓦的产品，我们的软件团队会在我们基础软件的共同平台上搭出不同的解决方案。

6. 我们的架构是DSA架构，您刚才提到DSA架构在云端推理这一块，比GPU架构的性能更有优势，可以解读一下吗？

你看和英伟达竞争的公司，像Habana，采用的都是DSA架构，没有人采用GPU架构。

在同样构架下，很难规避英伟达专利里的所有东西。怎样和英伟达做差异化，去赢他，也是一个问题。

DSA构架也是同样的道理，每一家公司采取的不一样，但都可以看到，在某些领域，特别是推理方面，相比GPU是有优势的。

7. 除打造芯片以外，还有一个寻找商业模式的问题，在怎么卖芯片这个问题上，瀚博半导体是如何思考的?

我们瀚博的行事风格就是低调务实，我不可能做一款没有客户的产品。

我们的芯片花了两年时间打造，今天才发布。前期虽然我们做了另一款芯片，但很多的打磨我们都是自己在做。我们最终流片的话，也找到了很好的合作伙伴，快手投了我们，也和我们合作很紧密。

我觉得要卖产品，一定要理解客户的需求，这部分我们花了很多功夫。

此外，我们打造了一个非常现代化的数据中心，在数据中心里面，我们有一部分，就会用我们刚才提到的所有的适配的服务器，我们会把自己的产品插在里面，做整个云端的虚拟式应用算法的东西。

我们软件会大力开发，做好客户的支持。

8. 我们硬件的迁移能做到什么程度，是否只需要做硬件的迁移，软件上迁移能做到什么程度？是否可以只做硬件的迁移，软件上是否需要再重新编译？

对比云端训练，云端推理芯片的迁移成本相对来说比较小。更重要的是，同样的服务器，我们的性能是T4或者A10的2~10倍。对客户来说，是一个巨大的TCO (Total Cost Ownership) 的节省，这种情况下，有一小部分成本做迁移，客户觉得是可以接受的。

他们在迁移的时候，使用编译器也没有编译成本，是自动的。

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络content@sydneytoday.com。

今日评论网友评论仅供其表达个人看法，并不表明网站立场。