AI Fundamentals

认识AI — 从零开始

所有核心概念,用最简单的话讲透。

什么是AI?

AI(Artificial Intelligence)= 让机器像人一样思考和做事的技术。

核心思想:用数据教会机器,而不是一行行写规则。就像教小孩认猫——看多了自然就认识了。

🤖
弱AI
只能做特定任务。Siri、人脸识别、翻译
🧠
强AI (AGI)
像人一样什么都能做。目前不存在
超级AI (ASI)
比所有人加起来还聪明。科幻级别
📍
我们现在
所有AI(含ChatGPT)都是弱AI

什么是机器学习?

机器学习(ML)= 不告诉机器规则,让它自己从数据中找规律。

⌨️传统编程
  • 输入:规则 + 数据
  • 输出:结果
  • 例:写 if-else 判断垃圾邮件
🧠机器学习
  • 输入:数据 + 答案
  • 输出:规则(模型)
  • 例:给1万封邮件标注,让机器自己学
监督学习:给数据+答案无监督学习:只给数据,自己分类强化学习:试错+奖惩

什么是深度学习?

深度学习(DL)= 用多层神经网络学习。"深度"= 层数多。厉害之处:自动提取特征,不用人工告诉它看什么。

🏆2012 AlexNet
🎮2016 AlphaGo
2017 Transformer
💬2022 ChatGPT
🕷️2024-25 Agent时代

什么是神经网络?

模仿人脑的计算模型。本质就是一堆数学公式连在一起

📥
输入层
原材料进来(图片像素、文字)
🔍
隐藏层①
识别边缘、形状
🧩
隐藏层②
识别物体部件
📤
输出层
输出结果:这是一只猫

什么是Transformer?

2017年 Google 提出的架构。几乎所有现代AI都基于它(GPT、Claude、Gemini、DeepSeek)。

📖旧方案:RNN
  • 一个字一个字读
  • 读到后面忘了前面
  • 不能并行,训练慢
新方案:Transformer
  • 同时看整个句子
  • 自动判断词与词的关系
  • 并行计算,快几十倍
💡 核心:注意力机制

"小明把书放在桌上,因为它太重了" → 人知道"它"= 书。注意力机制让AI也能做到这一点。


什么是GPT?

GPT = Generative Pre-trained Transformer(生成式预训练Transformer)。

GPT 做的事:预测下一个词。输入"今天天气真",计算下一个词的概率:"好"60%、"热"20%……一个词一个词生成。

GPT-1 (2018)
GPT-2 (2019)
GPT-3 (2020)
ChatGPT (2022)
GPT-4o (2024)

什么是LLM?

LLM = Large Language Model(大语言模型)。参数多、数据多、算力多。

GPT-4oClaude 3.5GeminiDeepSeekQwenKimiLlamaMistral

能做什么:对话、写作、翻译、编程、分析、创意……

⚠️ LLM 的局限

不是真正"理解",只是统计预测。会"一本正经地胡说八道"(幻觉)。永远要验证重要信息。


什么是Token?

LLM 处理文字的最小单位。不是"字",是模型自己的分词方式。

🇺🇸Hello world
→ ["Hello", " world"]
= 2 Token
🇨🇳你好世界
→ ["你好", "世界"]
= 2 Token

Token 为什么收费?

每个Token → 经过几十亿参数计算 → 需要GPU(一张H100约25万元)→ 用多少算多少。

Token 怎么计算?

内容约 Token 数
1个英文单词~1-1.5
1个中文字~1-2
100个中文字~100-200

Context 上下文

AI 能"看到"的所有内容。上下文窗口= 一次能处理的最大Token数。

📄
GPT-3.5:4K Token
约3000字
📚
GPT-4o:128K Token
约10万字(一本书)
📖
Claude 3.5:200K Token
约15万字
📚
Gemini 1.5 Pro:2M Token
约75万字(几本书)

Temperature 温度

控制AI回答的随机性

0 → 最确定
0.7 → 平衡
1.0 → 高创意
编程/数学 → 低温度写作/创意 → 高温度

什么是Prompt?

你给AI的指令。Prompt 质量 = 输出质量。

👎❌ 差的Prompt
  • "写一篇文章"
  • "帮我写代码"
  • "翻译成英文"
👍✅ 好的Prompt
  • "用通俗语言写800字科普,主题是RAG"
  • "Python函数,返回偶数平方和,加注释"
  • "意译成美式英语,目标读者是科技从业者"

详见 → Prompt学院


什么是Embedding?

把文字变成一串数字(向量)。意思相近的文字,数字也相近。

"猫"
→ [2.3, 5.1]
距离近
"狗" → [2.5, 5.3]
"汽车"
→ [8.1, 1.2]
距离远
"猫" → [2.3, 5.1]
搜索推荐RAG分类

什么是RAG?

RAG = Retrieval-Augmented Generation(检索增强生成)= 先搜资料,再回答

用户提问
🔍搜索知识库
📄找到相关段落
🤖段落+问题给AI
生成回答
💡 一句话理解

闭卷考试 = 纯LLM(凭记忆)
开卷考试 = RAG(可以翻书)。开卷当然更准!


什么是Agent?

自主思考、规划、行动的AI系统。

💬普通AI(ChatGPT)
  • 你问一句,它答一句
  • 只能聊天
  • 没有记忆
  • 例:帮我写一封邮件
🕷️Agent
  • 你给目标,它自己规划执行
  • 能搜索、写代码、调API
  • 有长期记忆
  • 例:调研竞品,写报告,发给团队
📋
Planning
把大任务拆成小步骤
🧠
Memory
记住对话和知识
🔧
Tools
搜索、代码、API、文件
🤔
Reasoning
根据信息做判断决策

详见 → Agent学院


什么是Memory?

让AI记住之前发生的事。

⏱️
短期记忆
当前对话的上下文
💾
长期记忆
持久化存储(向量数据库)
📝
工作记忆
当前任务的临时信息

什么是Workflow?

多个AI步骤串联成自动化流程

🔍Agent1 搜索
✍️Agent2 写作
Agent3 审核
🚀Agent4 发布

什么是MCP?

MCP = Model Context Protocol。Anthropic 提出的开放标准,让AI统一连接各种工具。就像 USB 接口——不管什么设备,USB就能插上用。

🔧工具开发者
📝按MCP标准写一次
🤖所有支持MCP的AI都能用

Function Calling

让LLM调用外部函数。AI不直接执行,而是输出调用的JSON。

用户提问
AI判断调用哪个函数
输出JSON
程序执行函数
AI根据结果回答

什么是API?

API = Application Programming Interface = 程序之间的"对话规则"。

👤你(客户端)
🧑‍🍳服务员(API)
🍳厨房(服务器)
🍽️菜端给你

详见 → API学院


什么是SDK?

SDK = Software Development Kit = 帮你更方便调用API的工具包。

⚙️直接调用API
  • 写 fetch()、手动拼 JSON
  • 处理 Header、认证
  • 代码多、容易出错
🎯用SDK
  • new OpenAI()
  • 一行代码调用
  • 简洁、不容易出错

常见问题

Q: AI会取代我的工作吗?

AI不会取代所有人,但会用AI的人会取代不会用的人。AI是工具,不是对手。

Q: 学AI需要数学很好吗?

使用AI不需要。用ChatGPT聊天不需要懂数学。深入研究才需要。

Q: 我应该从哪里开始?

💬① 聊天体验
✍️② 学Prompt
🛠️③ 用工具
🔌④ 调API
🕷️⑤ 建Agent