明天你会感谢今天奋力拼搏的你。
ヾ(o◕∀◕)ノヾ
当今时代,AI的浪潮滚滚而来,大势所趋不可阻挡。AI已经深刻的影响到了人们生活和工作的方方面面,我们能做的就是主动去拥抱它,顺势而行。
本文是我的AI大模型系列的第一篇,主要内容有:1、对大模型的一些基本概念做个简单介绍;2、简单介绍AI大模型应用开发所需要了解的技术栈;希望本文能对您有一定的帮助。
AGI(Artificial General Intelligence):即通用人工智能。希望AI能够拥有全面广泛的能力,可以解决各种复杂问题,而不是只能局限于特定领域。
大模型,全称为 “大语言模型”(Large Language Model,缩写 LLM),是基于深度学习技术构建的语言处理模型。它通过在海量文本数据上进行训练,学习到丰富的语言知识和语义理解能力,能够生成连贯、有逻辑的文本内容,实现多种自然语言处理任务。
对于 AI 的界定:
与 AI 的交互:
下面介绍一些市面上优秀的大模型和对话产品:
| 国家 | 公司 | 对话产品 | 旗舰大模型 | 网址 |
| 美国 | OpenAI | ChatGPT | GPT | https://chatgpt.com/ |
| 美国 | Microsoft | Copilot | GPT | https://copilot.microsoft.com/ |
| 美国 | Gemini | Gemini | https://gemini.google.com/ | |
| 美国 | Anthropic | Claude | Claude | https://claude.ai/ |
| 中国 | 百度 | 文心一言 | 文心 | https://yiyan.baidu.com/ |
| 中国 | 阿里云 | 通义千问 | 通义千问 | https://tongyi.aliyun.com/qianwen |
| 中国 | 智谱 AI | 智谱清言 | GLM | https://chatglm.cn/ |
| 中国 | 月之暗面 | Kimi Chat | Moonshot | https://kimi.moonshot.cn/ |
| 中国 | MiniMax | 星野 | abab | https://www.xingyeai.com/ |
| 中国 | 深度探索 | deepseek | DeepSeek | https://chat.deepseek.com/ |
训练和推理是大模型工作的两个核心过程,用人类比,训练就是学,推理就是用(引自孙志岗老师)。下面以以 Transformer 架构为例进行介绍。
训练阶段:
推理阶段:
Token 是什么?
为什么分词?
当前的AI大模型架构有如下:
|
架构 |
设计者 |
特点 |
链接 |
|
Transformer |
|
最流行,几乎所有大模型都用它 |
|
|
RWKV |
PENG Bo |
可并行训练,推理性能极佳,适合在端侧使用 |
|
|
Mamba |
CMU & Princeton |
性能更佳,尤其适合长文本生成 |
|
|
Test-Time Training (TTT) |
Stanford, UC San Diego, UC Berkeley & Meta AI |
速度更快,长上下文更佳 |
Transformer 架构目前是人工智能领域最广泛流行的架构,目前只有 transformer 被证明了符合 scaling-law。
大模型技术主要分为两个部分:训练基础大模型和建造大模型应用。
图片取自孙志岗老师的课程。
AI Embedded:简单的说,就是我们生活、工作或者某个产品的某一部分接入AI大模型,让其更智能,更高效。
AI Copilot:即对某一个工作流进行提效,形成一个产品。
Ai Agent:在今年已经逐渐从概念走向广泛应用,智能体的概念,通过Agent自身的推理和决策能力,自主调用各种软件,自动规划执行,得到用户想要的结果。
多 Agent 工作流:
如何选择技术路线?
面对一个需求,如何选择技术方案?下面是个不严谨但常用思路。
其中最容易被忽略的,是准备测试数据
值得尝试 Fine-tuning 的情况:
基础模型选型:
合规和安全是首要考量因素,如下列出哪些场景适合哪种大模型:

然后用测试数据,在可以选择的模型里,做测试,找出最优。
AI落地场景的思路:
内容引自孙志岗老师的AI 大模型系列课程:https://agiclass.ai/
Hugging Face:一个开源的机器学习平台,专注于自然语言处理(NLP)和人工智能(AI)。其官方网址为:https://huggingface.co。
全部评论