模型调用
- 2025-12-21 22:30:00
- admin
- 原创 600
一、模型调用
阿里模型:
1、阿里云预算管理:https://billing-cost.console.aliyun.com/expense-manage/expense-budget/list
2、阿里云访问控制:https://ram.console.aliyun.com/overview?activeTab=overview
3、apikey管理:https://bailian.console.aliyun.com/cn-beijing?tab=model#/api-key
4、token统计:https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-usage/usage-statistics
5、模型列表:https://help.aliyun.com/zh/model-studio/models
6、计费说明:https://help.aliyun.com/zh/model-studio/model-pricing
7、调用示例:https://help.aliyun.com/zh/model-studio/first-api-call-to-qwen
8、错误处理:https://help.aliyun.com/zh/model-studio/error-code
智谱模型:
1、套餐列表:https://bigmodel.cn/coding-plan/personal/overview
2、token统计:https://bigmodel.cn/coding-plan/personal/usage
3、apikey管理:https://bigmodel.cn/apikey/platform
模型基础:
1、模型对比:https://artificialanalysis.ai
2、LLM:本质上是一个文本预测引擎,底层存储的是模式,而不是照搬互联网的内容;
3、Token:模型的基本处理单位,文本被切分后的最小片段,切分不一定是按字符或按词;
4、Scaling Laws:参数量 × 数据量 × 算力 = 模型变强,高质量的数据有限,定律即将失效;
模型版本:
1、Base,基座模型,预训练出来的大模型;
2、Chat,聊天模型,侧重于和人类的交流,基座模型之上加上监督微调和强化学习;
3、Instruct,指令模型,侧重于根据指令完成任务,基座模型之上加上监督微调和强化学习;
4、AWQ,一种模型量化方法,通过减少浮点数精度,提升模型执行速度,减少模型体积;
5、Distill,知识蒸馏技术提取的小模型,提升模型执行速度,减少模型资源消耗;
模型指标:
1、TPM,Tokens Per Minute,每分钟允许的token数量;
2、RPM,Requests Per Minute,每分钟允许的请求数量;
3、TTFT,Time To First Token,发送请求到收到第一个输出token的时间,P99指99%的请求;
4、TPOT,Time Per Output Token,平均每个输出token的生成时间,P99指99%的请求;