通义千问 API
  1. 批量推理(Batch)
通义千问 API
  • 首次调用通义千问API
  • 文本生成
    • 深度思考(QwQ)
      • 深度思考(QwQ)概括
      • 快速开始
      • 多轮对话
    • 长上下文
      • 通过file-id传入文档信息
        • 简单示例
        • 传入多文档
        • 追加文档
      • 通过纯文本传入信息
        • 简单示例
        • 传入多文档
        • 追加文档
      • 通过JSON字符串传入文档信息
        • 简单示例
        • 传入多文档
        • 追加文档
    • 翻译能力
      • Qwen-MT模型
      • 支持的语言
      • 简单示例
      • 流式输出
      • 术语干预翻译
      • 使用翻译记忆
      • 领域提示
    • 数学能力
      • 模型概览
      • 示例代码
    • 代码能力
      • 模型概览
      • 简单示例
      • 代码补全
      • 根据前缀和后缀生成中间内容
    • 多轮对话
      • 开始使用
    • 流式输出(Stream)
      • 概述
      • 开始使用
    • 工具调用(Function Calling)
      • 概述
    • 结构化输出(Json Mode)
      • 支持的模型
      • 开始使用
    • 前缀续写(Partial Mode)
      • 支持的模型
      • 开始使用
    • 批量推理(Batch)
      • 概述
    • 上下文缓存(Context Cache)
      • 概述
  • 视觉理解
    • 全模态(Qwen-Omni )
      • 概述
      • 开始使用
      • 图片+文本输入
      • 音频+文本输入
      • 视频+文本输入
      • 多轮对话
  1. 批量推理(Batch)

概述

对于无需实时响应的业务场景,批量推理服务可以通过离线方式进行大规模数据处理。批量推理的计费仅为实时推理的50%,帮助您有效节省资源消耗成本。

支持的模型#

文生文模型:qwen-max、qwen-plus、qwen-turbo、qwen-long、qwq-32b-preview
视觉理解模型:qwen-vl-max、qwen-vl-plus
全模态模型:qwen-omni-turbo
通用文本向量模型:text-embedding-v1、text-embedding-v2、text-embedding-v3
第三方模型:deepseek-r1、deepseek-v3

使用流程#

一、创建批量推理任务#

在百炼控制台的批量推理页面,单击右上角创建批量推理任务跳转至创建页。
image
填写批量推理任务表,填写完成后单击确定提交任务。
批量推理任务表页面页面字段填写说明
image上传数据文件上传包含请求信息的数据文件。仅支持选择单个文件上传。请确保文件符合格式要求,可单击下载示例文件获取示例文件,参考文件格式。请确保文件中每一行数据的内容及格式正确,否则文件解析错误将影响任务执行;同一个文件内的数据行仅能请求一个模型,若存在多个模型,将导致文件解析错误。您也可以通过一些格式转换工具或脚本将您的请求文件转换成符合格式要求的JSONL数据文件。参阅CSV文件转换为JSONL文件。

二、查看与管理批量推理任务#

可在批量推理任务列表页,查看批量推理任务的信息。
任务进度列显示为“已处理请求数量/总请求数量”。
任务状态列显示为已提交任务的处理进度:
执行中和验证中的任务可单击取消任务;已完成的任务可单击查看结果。
image
失败的任务,将鼠标悬浮在任务状态文字处,会显示错误信息。
image

三、下载结果文件#

在批量推理任务完成后,可单击查看结果查看任务执行情况并下载结果文件。
已完成或已终止状态下,成功执行的请求结果保存在结果文件中,错误请求信息保存在错误文件中。
失败状态,表示文件解析失败,无结果文件和错误文件输出,通过鼠标悬浮在任务状态文字上显示的错误信息检查上传的数据文件。

API调用#

阿里云百炼提供了与OpenAI兼容的Batch接口,您可以通过这些接口执行批量推理任务。有关详细信息和使用指南,请参阅Batch文档。

数据统计#

您可访问百炼控制台的模型观测页面,在推理类型中选择批量推理,选择一个时间段(从今天开始到近15天内的任意时段,精确到秒),即可查看所有模型在选定时间段内的调用情况。
重要
在选择时间段时,请注意:批量推理的模型调用时间以任务的结束时间为准,因此,对于尚未完成的任务,将无法查询到其模型调用信息。
image
单击任一模型右侧的监控按钮,在推理类型中选择批量推理,选择一个时间段(从今天开始到近15天内的任意时段,精确到秒),即可查看该模型调用统计和性能指标的数据趋势。
image

计费#

批量推理的计费仅为实时推理的50%,具体请参见模型列表。
Batch调用不支持其他类型优惠(免费额度、Context Cache等)。
系统仅对批量推理任务中已经执行成功的请求进行计量计费,未执行的请求不计费。
上一页
开始使用
下一页
概述
Built with