入选ACL 2024！浙大推出首个海洋大语言模型OceanGPT，水下具身智能成现实-轻识

作者：十九

编辑：十九，李宝珠

浙江大学张宁豫、陈华钧团队提出首个海洋领域大语言模型 OceanGPT，该模型可根据海洋学家的指令回答问题，在各种海洋科学任务中表现出较高的专业知识，还在海洋工程方面获得了初步具身智能能力。

大语言模型 (LLM) 在内的 AI 工具正逐渐改变科学范式，被 Nature 列为 2024 年值得关注的科学事件之一。作为文本数据挖掘领域的核心工具，大语言模型可以从海量文本数据中提取关键的科学信息、模式和趋势，从而加深对不同学科的理解，并为科学研究进程、决策制定和复杂问题解决提供强有力的支持与洞见。

比如，生物医药领域，微软曾在 PubMed 数据库数百万篇相关科学论文上训练了语言模型 BioGPT，该模型擅长理解专业术语、基因名、蛋白质序列等复杂概念，相比非专业模型，BioGPT 可快速准确地生成生物医学问题答案，完成文本挖掘、实验报告撰写、分子设计、文献综述撰写等任务。

同样地，在海洋科学领域，利用大语言模型分析海量海洋科学文本数据，理解海洋特征、变化规律、资源开发利用等相关的理论、方法，对全球气候调节、天气模式塑造、生物多样性维护、人类未来经济发展至关重要。

然而，多维度、多尺度的海洋数据，规模庞杂且类型丰富，传统的数据处理方法难以应对。同时，海洋科学涵盖多领域和学科，每个领域和学科都有其独特的数据属性和模式，这就要求 LLM 具备更丰富的专业知识储备，但当前的主流 LLM 仍不能完全满足海洋学家的特定需求。

对此，浙江大学计算机科学与技术学院张宁豫、陈华钧团队提出了首个海洋领域大语言模型 OceanGPT，该模型擅长处理各种海洋科学任务，可以根据海洋学家的指令回答问题。通过海洋学基准 OCEANBENCH 的评估，OceanGPT 不仅在海洋科学任务中表现出较高的专业知识 (knowledge expertise)，而且在海洋工程方面获得了初步具身智能 (embodied intelligence) 能力。
OceanGPT 项目地址：

http://oceangpt.zjukg.cn/

此外，为了缓解获取海洋数据的困难，研究人员还提出了一个基于多 Agent 协作 (multi-agent collaboration) 的海洋科学指令生成框架 DoInstruct，其中，每个 Agent 被视为某一特定领域（如科学与研究、资源与开发、生态与环境等）的专家，并负责生成相应领域的数据。

该研究以「OceanGPT: A Large Language Model for Ocean Science Tasks」为题，近期被自然语言处理顶级会议 ACL 2024（CCF-A 类会议）录用为主会论文。

研究亮点：
* 与现有的开源大型语言模型相比，海洋领域大语言模型 OceanGPT 能够处理更专业的海洋任务

* 海洋科学指令生成框架 DoInstruct 具有很大的灵活性，可被优化并应用于不同科学领域（例如天文学）

论文地址：

https://arxiv.org/abs/2310.02031

关注公众号，后台回复「海洋大语言模型」获取完整 PDF

开源项目「awesome-ai4s」汇集了百余篇 AI4S 论文解读，并提供海量数据集与工具：

https://github.com/hyperai/awesome-ai4s

数据集：高质量驱动，来自 67,633 篇海洋科学文献

研究人员收集近几年 67,633 篇海洋科学领域文献作为原始语料库，还选择一些历史上的重大意义文献帮助 LLM 理解海洋领域发展史，为确保多样性，文章来自不同渠道，涵盖各种研究视角和方法。

为确保数据的质量和一致性，研究人员利用正则表达式 (regular expressions) 过滤掉图形、表格、页眉、页脚、页码、URLs 和引用，移除多余的空格、换行符和其他非文本字符，还替换或删除特殊字符、表情符号和乱码字符。处理后的文档涵盖海洋科学的各个领域，如海洋物理、海洋化学、海洋生物学、地质学、水文学等。

随后，研究人员采用哈希算法对数据进行去重，这有助于减少模型预训练过程中的过拟合风险，并提高其泛化能力。

由于海洋科学语料库包含多个领域和主题，每个主题都有其独特的数据特性和模式，为了有效模拟和获取这些数据，研究人员提出了一个领域指令生成框架 DoInstruct。
*海洋主题：根据海洋学专家的专业知识，将海洋科学数据手动分为 5 个相对独立的海洋主题，分别是科学与研究、资源与开发、生态与环境、技术与工程、生活、文化及其他。

高质/专业/多样，DoInstruct 可生成海洋指令数据

领域指令生成框架 DoInstruct 基于多 Agent 协作，可有效实现海洋数据生成。

DoInstruct 框架

据上图所示，在 DoInstruct 框架下，研究人员设计了 3 种 Agent 角色：演化式的数据合成 Agent (Evolving Agent as Generator)、经过微调的文献阅读 Agent (Fine-tuned Agent as Literature Extractor) 和审核 Agent (Agent as Inspector)。每个 Agent 都被视为某个特定领域（主题）的专家，并负责生成相应的数据。

演化式的数据合成 Agent：Evolving Agent as the Generator

为构建种子数据集 (Seed Data)，研究人员雇佣数十位具有丰富海洋科学背景的标注者，每位标注者负责几个主题，并为每个海洋主题手动编写一些具有代表性的示例。

然后，研究人员使用大型语言模型模仿现有数据并生成大量类似样本，所有样本都由标注者手动检查。最终的种子指令数据集包括 5 个主要类别、500 多个子类别和 1 万多个数据样本。

左图：演化式的数据合成 Agent

得到种子指令数据集后，研究人员从中选择样本，并调用 Agent (gpt-3.5-turbo) 来演化所选样本。

如左图所示，具体而言，补充拓展种子样本的背景知识，对种子数据包含的知识点进行细化分析增强和改进，通过多轮迭代，研究人员可快速扩展现有种子数据集，并扩展信息的广度和深度。

经过微调的文献阅读 Agent：Fine-Tuned Agent as the Literature Extractor

经过微调的文献阅读 Agent

研究人员收集了一个专家标注语料库 (Expert-annotated corpus)，并用 BM25 算法从更大的海洋语料库 (Oean Corpus) 中检索高质量句子，将二者视为高质量的候选样本 (High-quality Candidates)。同时，研究人员使用种子指令数据集对 gpt-3.5-turbo 进行微调，将微调后的 Agent 视为文献提取器，该 Agent 可以从海量海洋语料库中提取高质量文本。

确保数据质量的审核 Agent：Agent as the Inspector with Rule Constraints

确保数据质量的审核 Agent

对于生成的大量指令，研究人员使用语法、语义、海洋领域基本定义等作为规则约束，通过提示的方式构建 Agent，并对数据进行过滤，确保生成的海洋指令数据具有更高质量。

为进一步确保数据质量，研究人员从生成的指令数据集中随机抽取 10% 样本，让培训后的领域专家志愿者验证这些样本是否存在潜在错误，最终数据的 IAA（标注者间一致性）得分为 0.82，满足研究目的。

如下图所示，DoInstruct 框架能够利用多 Agent 快速构建海洋科学数据集，可扩展超过 150,000 条指令 (Data-Evolving, Data-Extracting)，此外，数据的专业性和准确性也得到了保障。

最终指令数据集的统计数据

如下图所示，研究人员通过知识质量 (Quality)、专业性 (Expertise) 和多样性 (Diversity) 角度来衡量 DoInstruct 的数据生成效果。

不同 Agent 的性能分析

可以看出，evolving generator Agent 能够有效增强海洋数据的丰富性。extraction Agent 可以提升内容的专业性，inspector Agent 可以提高生成的数据质量。综上，多代理协作对于海洋指令生成是有效的。

基于 LLaMA-2，OceanGPT 在海洋任务中表现更优

在得到指令数据后，研究人员基于 LLaMA-2，用 6 块 Nvidia A800 GPU 对 OceanGPT 进行了为期 7 天的预训练 (Pre-training)。

OceanGPT 模型的总体框架

得到预训练模型 OceanGPT 后，研究人员采用 LoRA 方法对模型进行微调。为了评估大型语言模型 OceanGPT 在海洋学任务中的能力，研究人员选择 LLaMA-2 (Llama-2-7b-chat-hf)、Vicuna-1.5、ChatGLM2-6B 这 3 个模型与 OceanGPT 进行比较。

在进行对比之前，研究人员设计了一个基准测试 OCEANBENCH，据下图所示，该基准测试包括 15 个与海洋相关的任务，如 Analysis、Judgment 等。

OCEANBENCH 详细统计数据

据下图所示，研究员在海洋领域的 15 个子任务上，从任务级别 (task-level) 比较 OceanGPT 与 3 个基线模型的性能，结果发现 OceanGPT 在自动评估、人类评估中的表现均优于其他模型。

海洋 task-level 结果
左：GPT-4 自动评估，右：人类评估

上图所示，研究人员展示了 OceanGPT 模型在 OCEANBENCH 海洋科学任务中的评估结果，结果发现，OceanGPT 在绝大多数任务中优于其他基线语言模型。

OceanGPT在OCEANBENCH海洋科学任务中的评估结果

从核污染到水下机器人，OceanGPT 在海洋领域的双重胜利

为了证明 OceanGPT 在海洋领域的应用潜力，研究人员从海洋科学、海洋工程两个角度对 OceanGPT 进行测试。

放射性核素研究新利器：OceanGPT 有更优秀的专业知识深度

对于海洋科学，研究人员关注海洋环境的核污染问题，并比较 OceanGPT 和 Vicuna-7b-1.5 在该任务中的表现。

海洋科学任务案例分析

如何开展关键放射性核素的表界面化学与毒理效应研究

据上图所示，OceanGPT 在描述放射性核素研究内容时表现出更高的知识水平。其文本内容不仅结构清晰、组织有序，而且涵盖了放射性核素研究的各个方面，比如实验设计、数据分析、风险评估、处理指南等。

相比之下，虽然 Vicuna-7b-1.5 的表达清晰且逻辑性强，但它缺乏与放射性核素相关更深度、具体的内容。

综上，OceanGPT 在知识专业性、质量和丰富性方面具有优势。

海洋工程智能化：OceanGPT 实现水下机器人精准控制

海洋工程对海上作业的可持续性和安全性方面至关重要。为促进 OceanGPT 与外部世界的交互，研究人员合成了机器人代码数据，并将这些机器代码指令集成到训练数据中，通过代码或控制台命令评估模型能力。

OceanGPT 控制水下机器人

据上图所示，OceanGPT 可以通过代码或控制台命令向水下机器人发出指令，以便水下机器人执行复杂任务（基于人类指令），这说明 OceanGPT 获得了初步的具身智能能力，为高级海洋模型执行复杂的机器人控制和规划任务铺平道路。

OceanGPT 再度「进化」，海洋科学迎来智能化时代

由浙江大学张宁豫、陈华钧教授领衔，汇聚了毕祯、薛逸达、欧翌昕、冀大雄、郑国轴等人的研究团队，成功构建了海洋领域第一个大语言模型 OceanGPT，这标志着海洋领域智能化进程迈出了关键性的一步，OceanGPT 成为海洋领域的一个重要里程碑。

然而，OceanGPT 的发展并没有止步于此，随着研究的深入与技术的精进，OceanGPT 迎来了新一轮的优化与升级。

据浙江大学知识引擎实验室 ZJUKG 近日报道，论文的第一作者毕祯宣布了 OceanGPT 的一系列重大进展：

* 首先，正式推出 OceanGPT-14B、OceanGPT-2B 两个新版本；

* 其次，新增基于 Qwen2 中文基座的 OceanGPT ，实现中英文双语能力高效交互；

* 同时，团队还开源了 20K 规模的海洋大模型指令数据集 OceanInstruct，为海洋科学研究人员提供了宝贵的资源支持；

OceanInstruct 数据集下载地址：

https://go.hyper.ai/3QuLq

* 最后，OceanGPT-V 多模态版本登场，不仅支持对声呐数据、科学图片等多模态海洋信息的处理，还提供 OceanGPT-V 在线演示，为海洋科学探索开启全新的视角与可能，据悉，该模型即将开源。

为了分析模型更新后的能力变化，以 OceanGPT-14B 为例，研究人员给定中文问题「请生成一份东海海域海底管缆的建设方案」，如下图所示：

结果发现 OceanGPT 生成的内容丰富度更高、覆盖更多层次，海洋科学知识理解与生成能力更强。

同时，为验证 OceanGPT 英文生成能力，研究人员给定英文输入「请描述东海海域的海底地形地貌特征」，如下图所示：

结果发现，OceanGPT 生成的描述在细节、全面性、专业性和区域划分上相对较好，能够提供更准确和深入的海底地形地貌信息。

此外，毕祯也给出了 OceanGPT 的发展规划，如下图所示：

OceanGPT 的规划

预计 2024 年 8-12 月期间，将推出 OceanGPT-V+ 双语多模态版本。基于大规模语料库，他们会继续使用更大规模的模型（例如 30B、70B）训练 OceanGPT，并通过添加新数据和新任务来维护 OceanGPT，探索海洋科学的更多未知世界。

期待 OceanGPT 带来更多惊喜与突破，开启海洋科学研究新篇章！

参考资料：
https://blog.csdn.net/gitblog_00055/article/details/138176998
https://mp.weixin.qq.com/s/TZuVvZfr1DsRGUXsxc3cGQ

       
        
       
       
        
                    
            
                           
               
                
                 
                  
                   往期精彩回顾
                  
                 
                
               
              
              
               
                
                 
                  

                 
                 
                  
                   

                  
                  
                   

                  
                 
                 
                  

                 
                
               
               
                
                 
                  适合初学者入门人工智能的路线及资料下载
                 
                
                 
                  (图文+视频)机器学习入门系列下载
                 
                
                 
                  机器学习及深度学习笔记等资料打印
                 
                
                 
                  《统计学习方法》的代码复现专辑

```
交流群
```

欢迎加入机器学习爱好者微信群一起和同行交流，目前有机器学习交流群、博士群、博士申报交流、CV、NLP等微信群，请扫描下面的微信号加群，备注：”昵称-学校/公司-研究方向“，例如：”张小明-浙大-CV“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告，否则会请出群，谢谢理解~（也可以加入机器学习交流qq群772479961）