Web LLM将语言模型聊天直接带到 Web 浏览器上-轻识

Web LLM 是一个可将大型语言模型和基于 LLM 的聊天机器人引入 Web 浏览器的项目。一切都在浏览器内运行，无需服务器支持，并使用 WebGPU 加速。这开辟了许多有趣的机会，可以为每个人构建 AI 助手，并在享受 GPU 加速的同时实现隐私。

Web LLM 中采用的关键技术是机器学习编译（MLC）。该解决方案建立在开源生态系统的基础上，包括 Hugging Face、来自 LLaMA 和 Vicuna 的模型变体、wasm 和 WebGPU；主要流程则建立在 Apache TVM Unity 之上。

在具有原生动态形状支持的 TVM 中烘焙语言模型的 IRModule，避免了填充到最大长度的需要，并减少了计算量和内存使用量。
TVM 的 IRModule 中的每个功能都可以进一步转换并生成可运行的代码，这些代码可以普遍部署在最小 tvm 运行时（JavaScript 是其中之一）支持的任何环境中。
TensorIR是用于生成优化程序的关键技术。开发团队通过结合专家知识和自动调度程序快速转换 TensorIR 程序来提供高效的解决方案。
启发式算法用于优化轻量级运算符以减轻工程压力。
利用 int4 量化技术来压缩模型权重，以便它们可以适合内存。
构建静态内存规划优化以跨多个层重用内存。
使用Emscripten和 TypeScript 构建一个可以部署生成的模块的 TVM web 运行时。
还利用了 SentencePiece 分词器的 wasm 端口。

具体来说，团队大量使用了 TVM unity，它实现了这种 Python 优先的交互式 MLC 开发体验，使得能够轻松地编写新的优化。

TVM unity 还提供了一种在生态系统中组合新解决方案的简便方法。Web LLM 开发团队将继续带来进一步的优化，例如融合量化内核，并将它们带到更多平台上。

LLM 模型的一个关键特征是模型的动态特性。由于解码和编码过程依赖于随着令牌大小而增长的计算，Web LLM 团队利用 TVM 统一中一流的动态形状支持，通过符号整数表示序列维度。使得其能够提前计划静态分配感兴趣的序列窗口所需的所有内存，而无需填充。

还利用张量表达式的集成来快速表达部分张量计算，例如直接旋转嵌入，而无需将它们具体化为全张量矩阵计算。

除了 WebGPU 运行时，Web LLM 还提供使用本地 GPU 运行时进行本机部署的选项。因此它们既可以用作在本机环境上部署的工具，也可以用作比较本机 GPU 驱动程序性能和 WebGPU 的参考点。