本章目标:从 0 到 1 完成一次真实的大模型 API 调用,掌握非流式对话、流式输出、推理思考模型三种核心模式,并理解每一行代码的作用。
LLM(Large Language Model,大语言模型) 是当今 AI 应用的核心引擎。它本质上是一个经过海量文本训练的神经网络,能够理解和生成自然语言。你每天使用的 ChatGPT、通义千问、文心一言,底层都是 LLM。
LLM 的几个关键特性:
为什么使用阿里云百炼 API?
阿里云百炼提供通义千问(Qwen)系列模型,并且提供了 OpenAI 兼容模式。这意味着你可以直接使用业界最广泛的 OpenAI Python SDK,只需改两个参数就能接入百炼,无需学习新的 SDK。

添加图片注释,不超过 140 字(可选)
GPT plus 代充 只需 145
💡 如何获取 API Key? 登录 阿里云百炼控制台,在”API Key 管理”页面创建。
LLM 的对话不是简单地传一个字符串,而是传一个结构化的消息列表。每条消息有固定的角色(role):
为什么这样设计?
- system 消息让你控制 AI 的行为,避免它偏离主题
- 将历史消息全部传入,AI 才能”记住”之前说过的话
- 这种结构清晰分离了指令、上下文和当前请求
GPT plus 代充 只需 145
预期输出:
- temperature:这是 LLM 最常用的超参数。值越低,输出越确定(同样的问题每次答案几乎相同);值越高,输出越多样(创意写作适合用高温度)。
- max_tokens:保护措施,防止模型”停不下来”。对于简短问答,设 200-500 就够了。
- completion.choices[0]:模型可以同时生成多个候选回答(通过 n=3 参数),choices[0] 取第一个。
- completion.usage:务必关注 Token 用量,这直接影响 API 费用。
非流式调用需要等待模型生成完所有文字才返回,如果生成 500 个字,你可能需要等 3-5 秒才看到任何内容。流式调用(Streaming) 让模型边生成边输出,用户体验大幅提升。
GPT plus 代充 只需 145
流式响应的数据流向:

代码文件:lessons/01_basic_llm/03_thinking_model.py
Qwen3 旗舰版支持”推理思考模式“(Chain of Thought)。在给出最终答案之前,模型会先进行内部推理,就像人类解题时在草稿纸上演算一样。这对数学题、逻辑分析特别有效。
两种输出的区别:
💡 使用场景建议:普通问答用 qwen-plus(快且便宜),遇到数学、逻辑、代码调试等需要精确推理的任务,切换到 qwen3-235b-a22b + enable_thinking=True。
在真实项目中,你通常不会直接在业务代码里写上面的样板代码。下面是一个简单的封装,供你参考和改造:
GPT plus 代充 只需 145

📌 下一章预告:掌握了 API 调用之后,你会发现”如何写出好的 Prompt”才是真正决定 AI 输出质量的关键。第02章我们深入 Prompt 工程,学习模板、Few-Shot 和思维链技术。
作者:阿聪谈架构
公众号:阿聪谈架构(分享后端架构 / AI / Java 技术文章)
相关代码关注公众号:【阿聪谈架构】 回复:AI专栏代码
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/239890.html