模型调用

2025-12-21 22:30:00
admin
原创 334
摘要:模型调用

一、模型调用

1、阿里云预算管理:https://billing-cost.console.aliyun.com/expense-manage/expense-budget/list

2、阿里云访问控制:https://ram.console.aliyun.com/overview?activeTab=overview

3、apikey管理:https://bailian.console.aliyun.com/cn-beijing?tab=model#/api-key

4、token统计:https://bailian.console.aliyun.com/cn-beijing?tab=model#/model-usage/usage-statistics

5、模型列表:https://help.aliyun.com/zh/model-studio/models

6、计费说明:https://help.aliyun.com/zh/model-studio/model-pricing

7、调用示例:https://help.aliyun.com/zh/model-studio/first-api-call-to-qwen

8、错误处理:https://help.aliyun.com/zh/model-studio/error-code


智谱模型:

1、apikey管理:https://bigmodel.cn/usercenter/proj-mgmt/apikeys

2、token统计:https://bigmodel.cn/usercenter/glm-coding/usage

3、模型列表:https://bigmodel.cn/usercenter/glm-coding/my-plan


模型版本:

1、Base,基座模型,预训练出来的大模型;

2、Chat,聊天模型,侧重于和人类的交流,基座模型之上加上监督微调和强化学习;

3、Instruct,指令模型,侧重于根据指令完成任务,基座模型之上加上监督微调和强化学习;

4、AWQ,一种模型量化方法,通过减少浮点数精度,提升模型执行速度,减少模型体积

5、Distill,知识蒸馏技术提取的小模型,提升模型执行速度,减少模型资源消耗;


模型指标:

1、TPM,Tokens Per Minute,每分钟允许的token数量;

2、RPM,Requests Per Minute,每分钟允许的请求数量;

3、TTFT,Time To First Token,发送请求到收到第一个输出token的时间,P99指99%的请求

4、TPOT,Time Per Output Token,平均每个输出token的生成时间,P99指99%的请求

发表评论
评论通过审核之后才会显示。