您现在的位置是:首页 > 游戏推荐
前 Google 工程师的逆战:在计算卡短缺中如何炼就...
掌游情报站
2025-04-13【游戏推荐】75人已围观
简介前Google工程师的逆战:在计算卡短缺中如何炼就强大的LLM在人工智能的浪潮中,大语言模型(LLM)的发展日新月异,但你是否曾想过,在没有现成基础设施的情况下,如何在“荒野”中培养出强大的多模态语言模型?YiTay在Reka的创业经历为我们揭示了这一过程的挑战与经验。硬件资源的获取是训练模型的第一...
前Google工程师的逆战:在计算卡短缺中如何炼就强大的LLM
在人工智能的浪潮中,大语言模型(LLM)的发展日新月异,但你是否曾想过,在没有现成基础设施的情况下,如何在“荒野”中培养出强大的多模态语言模型?YiTay在Reka的创业经历为我们揭示了这一过程的挑战与经验。
硬件资源的获取是训练模型的第一步。然而,硬件提供商的不稳定性以及集群、加速计算卡及其连接质量的巨大差异,让这个过程充满了不确定性。YiTay将这比喻为“硬件彩票”,因为硬件质量的差异之大,使得训练优秀模型的过程充满了未知和挑战。
在尝试了多个计算提供商的服务后,YiTay发现,即使是同类型的硬件(如GPU),不同供应商的质量也天差地别。一些集群可能只是偶尔出现问题,而另一些则可能因为各种原因每小时都会失败。此外,即使是同一供应商的不同集群,其稳定性也大相径庭。这种不确定性给训练过程带来了额外的困难。
YiTay还提到了GPU与TPU的选择问题。尽管他在谷歌时期主要使用TPU,但在Reka,他们主要使用GPU进行模型训练。他发现GPU的故障率远高于TPU,这可能与硬件团队的管理能力有关。在GPU领域,多节点训练似乎更像是一个附加功能,而不是像TPU那样的分布式训练。
在多集群设置方面,YiTay指出,除非特别为大量需求建立单一位置的设施,否则在当前世界中,拥有多个加速器池集群似乎是不可避免的。他强调了建立一个能够将作业发送到不同服务器的编排层的重要性,这对于AI研究人员的生活质量至关重要。
在代码选择上,YiTay表达了对外部代码库的失望,尤其是与他在谷歌使用的那些相比。他们最终选择了更为通用和稳定的PyTorch,尽管这意味着放弃了他在谷歌时期喜爱的T5X和MeshTensorFlow。他提到,外部代码库在支持大规模编解码器训练或前缀LM训练方面存在不足。
最后,YiTay谈到了在资源有限的创业环境中进行模型扩展的挑战。他们不得不依赖直觉和本能,而不是大公司系统性的实验方法。幸运的是,他们的直觉在很大程度上是正确的,这使得他们能够在较少的尝试中培养出强大的模型。
很赞哦!(46)