模型调用 - 人工智能 - 蜗牛大锅的博客

一、模型调用

阿里模型：

智谱模型：

模型基础：

2、LLM：本质上是一个文本预测引擎，底层存储的是模式，而不是照搬互联网的内容；

3、Token：模型的基本处理单位，文本被切分后的最小片段，切分不一定是按字符或按词；

4、Scaling Laws：参数量 × 数据量 × 算力 = 模型变强，高质量的数据有限，定律即将失效；

模型版本：

1、Base，基座模型，预训练出来的大模型；

2、Chat，聊天模型，侧重于和人类的交流，基座模型之上加上监督微调和强化学习；

3、Instruct，指令模型，侧重于根据指令完成任务，基座模型之上加上监督微调和强化学习；

4、AWQ，一种模型量化方法，通过减少浮点数精度，提升模型执行速度，减少模型体积；

5、Distill，知识蒸馏技术提取的小模型，提升模型执行速度，减少模型资源消耗；

模型指标：

1、TPM，Tokens Per Minute，每分钟允许的token数量；

2、RPM，Requests Per Minute，每分钟允许的请求数量；

3、TTFT，Time To First Token，发送请求到收到第一个输出token的时间，P99指99%的请求；

4、TPOT，Time Per Output Token，平均每个输出token的生成时间，P99指99%的请求；