Datawhale蝴蝶书重磅出版!

机器学习实验室

共 4713字,需浏览 10分钟

 ·

2024-04-11 06:03

7682bc7f7332942e407172e193695f89.webp文末赠书 喜欢AI,对ChatGPT超级好奇,但被市面上爆增的大模型书籍和教学视频弄得眼花缭乱?没事!Datawhale团队最新推出的“蝴蝶书”——《ChatGPT原理与应用开发》来啦! 这本书源自Datawhale开源项目HuggingLLM,GitHub 2K+星、B站播放量超30万,是Datawhale在打造了“南瓜书”“蘑菇书”“熊猫书”后,推出的第4本王牌之作。
扫码5折购书,限100人

翻开《ChatGPT原理与应用开发》你会发现,书中的内容以实战为主,不仅对相关任务有详细的背景和系统设计介绍,还教你使用ChatGPT相关API创造新的功能和应用,并且提供实例代码和实现流程,让每一位学习者都能做出自己的AI产品!

为什么创作这本书?

借助ChatGPT,人们可以做到现在大部分 NLP 工程师在做的事,比如文本分类、实体抽取、文本推理等。甚至随着大语言模型能力的不断提升,它们可能做得比 NLP 工程师都要好。不过,AI也有许多局限性,要想实现应用就需要投入大量的资源和时间。其中涉及的理论多到爆炸不说,案例、代码、实操、创新更是一个都不能少,搞不懂,易出错,很多开发者一碰就想放弃。 开源项目 HuggingLLM力图帮助人们降低门槛,缩小应用程序和研究之间的差距,使得大模型应用开发变得触手可及。HuggingLLM是一个面向非算法专家但具有一定编程基础,对人工智能和 ChatGPT(或类似模型)感兴趣的人群的开源项目,旨在利用 ChatGPT API 开发相关应用。 所以,当开源项目HuggingLLM发布时,立即获得了来自不同领域的朋友们的关注与支持,目前star点赞2K+。 翻阅参与者在Github上提交的成功案例,我们看到:

有人机协同,创造未来的虚拟女友;

有应用非凡,前景无限的AI辅助自动标注;

有启迪人生,提高问商的助思者;

有模拟人生,脑洞不停的AI NPC;

......

正如项目名字所寓意的那样,上万名参与者通过这个开源项目拥抱了AI时代的变化,无障碍地使用LLM创造了新的价值。 这个开源项目的组织者还在B站上同步更新视频教程,播放量高达31.1W,获得网友一片好评。

纸书做了哪些更新?

《ChatGPT原理与应用开发》是基于大语言模型进行商业应用开发的最佳实践书,更是值得你“好好上课”!

初心不改

本书内容也正如HuggingLLM最初的立项理由所述,主要是讲基于 ChatGPT 的算法应用和服务,聚焦于自然语言处理的常见任务和应用。它向我们介绍了如何使用类似 ChatGPT 这样的大语言模型来完成之前只有算法工程师才能处理的工作。

内容优化

本书以实践为主,重点是任务的讲解和设计 ,但也会科普一些自然语言处理算法的基本原理和基础知识,适合所有对大语言模型感兴趣的开发者阅读。本书一共有 8 章内容,分别如下。 第 1 章基础知识—大语言模型背后,主要介绍了与 ChatGPT 相关的 NLP 领域的基础知识和原理。 第 2 章相似匹配—万物皆可 Embedding,主要介绍了文本表示,以及与文本匹配相关的任务和应用。 第 3 章句词分类—句子 Token 都是类别,主要介绍了 NLP 领域最常见的任务——分类。 第 4 章文本生成—超越理解更智能,主要介绍了与文本生成技术相关的任务。 第 5 章复杂推理—更加像人一样思考,主要介绍了如何使用大语言模型做复杂的逻辑推理任务。 第 6 章工程实践—真实场景大不同,主要介绍了如何在真实业务中使用大语言模型。 第 7 章局限与不足—工具不是万能的,主要介绍了 ChatGPT(或其他类似的大语言模型)的缺陷或不擅长的地方,包括事实性错误、实时更新、性能瓶颈等方面。 第 8 章商业应用—LLM 是星辰大海,可以把该章当作一篇调研报告来阅读,主要针对工具应用和行业应用两大方面展开,期望能够给读者更多启迪,帮助大家构思更好的应用或服务。 这本书由郝少春、黄玉琳、易华挥三位作者在HuggingLLM教程内容之上优化而成。

郝少春

· 某AI大语言模型公司的算法工程师,Datawhale成员;

· 拥有7年算法和工程架构经验及丰富的项目和产品经历,涉及文本、音频、视频、图像等多种模态。

黄玉琳

· 上海财经大学硕士,京东算法工程师,Datawhale成员;

· 从事智能供应链领域的算法研究及应用工作;

· 主要研究方向为机器学习、自然语言处理、运筹优化。

易华挥

· 四川大学华西医院生物大数据中心的科研助理,Datawhale成员;

· 主要研究方向为多模态表征学习及其在医学影像分析中的应用;

· 发表顶会论文3篇。

大咖推荐,口碑保证!

这本书一经推出,就受到了吴飞、周明、朱信忠、金耀辉、张俊林5位人工智能领域专家的亲笔推荐!

“这本书是由Datawhale所推出的力作,秉承了Datawhale‘为了学习者’的一贯理念,基于志愿者团队精彩的开源学习内容精心编纂而成,深入浅出地介绍大语言模型的原理和工程实践,对于初学者了解ChatGPT非常有帮助!”

——吴飞,浙江大学人工智能研究所所长


“书中内容围绕自然语言处理任务展开,很多设计思路和细节其实可以应用到多个领域。期望读者多学多练,能够在实践中提升自我。”

——周明,澜舟科技创始人兼CEO,创新工场首席科学家


“这本书虽然以ChatGPT作为示例,但绝大部分内容都可以无缝切换为其他大语言模型。这得益于本书基于以‘自然语言处理算法任务’为核心的设计理念,因而这本书具有更长的生命周期。”

——朱信忠,浙江师范大学人工智能研究院副院长,浙江省特级专家,Datawhale首席科学家


“这本书以明晰而简洁的文字,阐述了大语言模型的工作原理,堪称杰作。更为可贵的是,书中还详细介绍了ChatGPT的工程实施策略。”

——金耀辉,上海交通大学人工智能研究院总工程师、教授


“这是一本有关大语言模型应用和服务的实践指导书,详细介绍了如何开发基于大语言模型算法的应用和服务。这本书注重实际任务的设计及实现的思路讲解,并提供了对自然语言处理基础知识和算法原理的科普性介绍。”

——张俊林,新浪微博新技术研发负责人

▲  滑动查看更多 通过上面的介绍以及各位专家的推荐,相信读者应该对这本书有了初步了解。下面小异再具体说说如何更好地使用本书。

如何阅读本书?

第一,读者可以先行了解第1章进行一个科普入门。

书籍后面的内容根据内容规模和难度,讲解顺序重新排列为:相似匹配、句词分类、文本生成、复杂推理......读者可以按部就班地学习,也可以根据自己的兴趣选择任意章节进行学习。因为各章节相对独立,彼此没有直接明显的前后依赖关系,在学习时可以灵活调整。

第二,以“任务”为核心。

本书注重“任务”多于“工具” ,虽然ChatGPT 是目前大语言模型领域总体效果最好的,但未来一定会有其他更好的大语言模型出现。书中详细介绍了与NLP相关的任务(如相似匹配、句词分类、文本生成、复杂推理)的背景和系统设计,这些方法也适用于其他大模型。只要读者理解了要做的事情,理解了系统设计,工具就能为我们所用。

第三,利用好本书内容、提供的思维导图、GitHub开源项目HuggingLLM、B站视频课程等各种资源,来全方位地助力自己的学习与实践。

· GitHub开源项目HuggingLLM链接是datawhalechina/hugging-llm: HuggingLLM, Hugging Future. (github.com)

· B站视频课程链接是学会如何使用大模型,让创意有能力落地成应用:HuggingLLM,Hugging未来_哔哩哔哩_bilibili

第四,一定要亲自动手完成一个应用或服务的 Demo!

你可以在书中找到详细的示例代码,稍做修改后就可以在实际环境中使用。光看不做在编程领域是绝对行不通的,只是想想或者口头上说与亲自动手完全是两回事。万事开头难,但一旦完成了第一个项目,后面再做类似的就会相对容易一些。所以大胆地实操吧! 另外要说明的是,这本书不是特别为算法或者自然语言处理工程师等行业人员设计的。当然,如果你是NLP工程师,也可以通过这本书受益。

这本书更适合以下人员:

· 对ChatGPT感兴趣的人;

· 希望实际运用这项技术来创造新的服务或者解决现有问题的人;

· 有一定编程基础的人。

结语

本书的封面上有一幅幅蝴蝶图案,这是因为作者们相信人工智能将会涌现出更多美丽的形态,恰如蝴蝶从蛹中蜕变一样,这也寓意希望读者阅读本书后将有崭新的领悟。赶紧拿起这本“蝴蝶书”,开启你的全新认知之旅吧!

▼▼▼

滑动查看更多

DataWhale好书推荐



01

机器学习公式详解 第2版

点击下方即可购书,限时特惠 5折


本书从本科数学基础的视角进行讲解,帮助读者快速掌握各个机器学习算法背后的数学原理。本书思路清晰,视角独特,结构合理,可作为高等院校计算机及相关专业的本科生、研究生教材,也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。



02

pandas数据处理与分析

点击下方即可购书,限时特惠 5折


本书基于pandas官方推荐的中文教程“Joyful Pandas”编写,是以实战为中心的pandas教程。

本书基于作者自身学习pandas的切身经验,在对pandas庞杂内容的主线认真梳理之后,他整理出一条由浅入深、适合初学者的学习路线。本书能让初学者摆脱常规学习pandas的痛苦,从核心概念开始学习,理解函数之间的逻辑关系,建立起数据处理的宏观体系,真正快乐地学会pandas。



03

Easy RL 强化学习教程

点击下方即可购书,限时特惠 5折


同样出自Datawhale的“蘑菇书”《Easy RL 强化学习教程》是一本真真切切的学霸笔记,三位作者王琦、杨毅远、江季分别是中国科学院大学、清华大学、北京大学的相关专业硕士研究生。

作者把自己学习强化学习过程中的想法、思路、难点、技巧等整理成教程,分享给更多的人,通过数千人的使用学习获取反馈再仔细作补充与修改,经过一年多的持续优化,最终形成了这本“蘑菇书”。

—END—


分享你对“蝴蝶书”的看法


在留言区参与互动,分享你学习使用ChatGPT的经验,我们将选3名读者分别获得蝴蝶书1本,截止时间3月5日中午12点。

浏览 11
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报