文章详情

仅用 4 周完成训练!鸿海研究院推出繁体中文 AI 大语言模型
仅用 4 周完成训练!鸿海研究院推出繁体中文 AI 大语言模型

鸿海今天上午宣布,鸿海研究院推出第 1 版具有推理能力的人工智能(AI)繁体中文大型语言模型,未来将通过导入 AI 大型语言模型,强化...

更新:

2025-04-03 06:25:03

仅用4周完成训练!鸿海研究院推出繁体中文AI大语言模型

鸿海今天上午宣布,鸿海研究院推出第 1 版具有推理能力的人工智能(AI)繁体中文大型语言模型,未来将通过导入 AI 大型语言模型,强化智能制造、智能电动车、智能城市等 3 大平台的数据分析效率。

在模型训练过程中,鸿海说明,辉达提供 Taipei-1 超级电脑以及技术咨询,让鸿海研究院通过使用辉达 NeMo 人工智能模型服务,顺利完成模型训练。

鸿海上午通过新闻稿宣布,鸿海研究院推出首款繁体中文 AI 大型语言模型(LLM),内部开发代码 FoxBrain,FoxBrain 模型原来为内部应用设计,涵盖数据分析、决策辅助、文书协作、数学、推理解题与代码生成等功能,后续将对外开源分享。

「开源」(open sourced)意指支撑 AI 的运算代码公开给其他企业和研究人员,让所有人都能使用这些技术来建构、推广自己的产品。

鸿海指出,FoxBrain 作为鸿海研究院 AI 推理 LLM 模型训练成果,展现理解与推理能力,在数学与逻辑推理测试中表现出色,还能强化台湾用户的语言风格。

NVIDIA 助攻,仅花费 4 周完成训练

鸿海研究院说明,人工智能研究所在 FoxBrain 训练过程中,使用 120 张辉达(NVIDIA)H100 绘图处理器(GPU),并通过 NVIDIA Quantum-2 InfiniBand 网络扩展,仅花费约 4 周时间完成,模型训练方式低成本且更具效率。

在相关规格与训练策略上,鸿海研究院指出,FoxBrain 通过自主技术,创建 24 类主题的数据增强方式与品质评估方法,生成 98B 词元(tokens)高品质中文预训练数据,上下文处理长度 128K token,总计算力花费 2688 GPU days,采用多节点平行训练架构,确保高性能与稳定性。

数学测试有显著进步

在测试结果,鸿海研究院表示,FoxBrain 在数学领域较基础模型 Meta Llama 3.1 全面提升,相较于目前最好的繁体中文大模型 Taiwan Llama,在数学测试中取得显著进步,并在数学推理能力上超越 Meta 目前已推出的同等级模型,与 DeepSeek 蒸馏模型仍有些微差距,但表现已相当接近世界领先水准。

鸿海指出,未来将通过导入 AI 大型语言模型,强化智能制造、智能电动车、智能城市等 3 大平台的数据分析效率,让 FoxBrain 成为驱动智能应用升级的重要引擎,未来将对外开源分享,扩大模型运用范围,与技术伙伴共同推动AI在制造业、供应链管理与智能决策领域应用。

鸿海表示,FoxBrain 成果将于美国时间 3 月 17 日起登场的辉达年度 GTC 大会专题演讲中,以From Open Source to Frontier AI: Build, Customize, and Extend Foundation Models 为主题,首次对外发表。

Copyright © 2024 版权所有:思能智游网 豫ICP备2023018828号-1