概述 - 通义千问 API

对于无需实时响应的业务场景，批量推理服务可以通过离线方式进行大规模数据处理。批量推理的计费仅为实时推理的50%，帮助您有效节省资源消耗成本。

支持的模型

文生文模型：qwen-max、qwen-plus、qwen-turbo、qwen-long、qwq-32b-preview

视觉理解模型：qwen-vl-max、qwen-vl-plus

全模态模型：qwen-omni-turbo

通用文本向量模型：text-embedding-v1、text-embedding-v2、text-embedding-v3

第三方模型：deepseek-r1、deepseek-v3

使用流程

一、创建批量推理任务

在百炼控制台的批量推理页面，单击右上角创建批量推理任务跳转至创建页。

填写批量推理任务表，填写完成后单击确定提交任务。

批量推理任务表页面	页面字段填写说明
	上传数据文件上传包含请求信息的数据文件。仅支持选择单个文件上传。请确保文件符合格式要求，可单击下载示例文件获取示例文件，参考文件格式。请确保文件中每一行数据的内容及格式正确，否则文件解析错误将影响任务执行；同一个文件内的数据行仅能请求一个模型，若存在多个模型，将导致文件解析错误。您也可以通过一些格式转换工具或脚本将您的请求文件转换成符合格式要求的JSONL数据文件。参阅CSV文件转换为JSONL文件。

二、查看与管理批量推理任务

可在批量推理任务列表页，查看批量推理任务的信息。

任务进度列显示为“已处理请求数量/总请求数量”。

任务状态列显示为已提交任务的处理进度：

执行中和验证中的任务可单击取消任务；已完成的任务可单击查看结果。

失败的任务，将鼠标悬浮在任务状态文字处，会显示错误信息。

三、下载结果文件

在批量推理任务完成后，可单击查看结果查看任务执行情况并下载结果文件。

已完成或已终止状态下，成功执行的请求结果保存在结果文件中，错误请求信息保存在错误文件中。

失败状态，表示文件解析失败，无结果文件和错误文件输出，通过鼠标悬浮在任务状态文字上显示的错误信息检查上传的数据文件。

API调用

阿里云百炼提供了与OpenAI兼容的Batch接口，您可以通过这些接口执行批量推理任务。有关详细信息和使用指南，请参阅Batch文档。

数据统计

您可访问百炼控制台的模型观测页面，在推理类型中选择批量推理，选择一个时间段（从今天开始到近15天内的任意时段，精确到秒），即可查看所有模型在选定时间段内的调用情况。

重要

在选择时间段时，请注意：批量推理的模型调用时间以任务的结束时间为准，因此，对于尚未完成的任务，将无法查询到其模型调用信息。

单击任一模型右侧的监控按钮，在推理类型中选择批量推理，选择一个时间段（从今天开始到近15天内的任意时段，精确到秒），即可查看该模型调用统计和性能指标的数据趋势。

计费

批量推理的计费仅为实时推理的50%，具体请参见模型列表。

Batch调用不支持其他类型优惠（免费额度、Context Cache等）。

系统仅对批量推理任务中已经执行成功的请求进行计量计费，未执行的请求不计费。

概述

支持的模型#

使用流程#

一、创建批量推理任务#

二、查看与管理批量推理任务#

三、下载结果文件#

API调用#

数据统计#

计费#