公共信息
基础参数
| 参数 | 描述 |
|---|---|
| BasePath | 调用 API 的基础路径 |
| Endpoint | 调用 API 时生成的随机路径 |
| AccessKey | 调用 API 的 AccessKey |
请求路径
https://{basePath}/search/{endpoint}/read
请求方法
POST
请求头
| 参数 | 类型 | 描述 |
|---|---|---|
| Authorization | String | 输入:Bearer {AK},其中 AK 为 AccessKey |
| Content-Type | String | 输入:application/json |
请求体参数
| 参数 | 是否必填 | 类型 | 描述 |
|---|---|---|---|
| url | Y | String | 读取目标 |
| formats | N | List |
内容格式,可选值: - HTML - TEXT - MARKDOWN 入参时必须填其中一个值,不传参默认 TEXT |
| mode | N | String | 读取类型: - quality:质量模式,使用动态渲染读取方式 - fast:快速模式,静态页面读取方式(不填时默认值) - auto:智能模式,自动根据 url 选择 fast 或 quality - 其余非枚举类型值,默认匹配为 fast |
| totalTimeout | N | Int | 默认关闭。请求的端到端总时长,单位: ms,如果请求时间超过此时间,中断请求。 |
| timeout | N | Int | 读取超时时间,单位:ms。默认值为:30000ms 控制 api connect 的时间,非请求 api 的耗时时间。 |
| imageDownloadEnable | N | Bool | 图片转换开关(转成 base64 的编码格式),默认为 false 当 formats 是 HTML/MARKDOWN,并且 imageDownloadEnable 为 ture 时,返回的网页数据中,图片链接转换为 base64 格式(开启时,解析到网页中的图片,会产生额外图片费用) 注:当 url 网页内容是 pdf 时,此功能失效默认结果返回 base64 格式 |
| imageInContent | N | Bool | 该参数配合 imageDownloadEnable 使用。 默认值为 true,转 base64 之后的图片,放在正文里。 如果该值指定为 false,则返回值中,增加出参 image_base64_list。 转 base64 之后的图片,单独放在 image_base64_list 列表里。 |
| pdfExtractEnable | N | Bool | 当 url 网页内容是 pdf 时,可以通过 pdfExtractEnable 指定是否解析,默认为 false true: 返回解析后的 pdf 内容文本 false: 返回 pdf 的 base64 内容 若 url 不包含 pdf 内容,则此参数无效。 使用 PDF 内容提取会产生额外费用。 |
| enhancedOcr | N | Bool | 该参数仅在 pdfExtractEnable 为 true 时才会生效 增强版 pdf 提取,提升提取准确率和覆盖率,默认 False OCR 识别会产生额外费用。 |
返回值说明
| 字段 | 类型 | 描述 |
|---|---|---|
| html | String | 当format是html时,则显示页面上内容的HTML版本。 |
| markdown | String | 当format是markdownl时,返回markdown版本。 |
| text | String | 当format是text时,返回text版本。 |
| metadata.title | String | 网页标题。 |
| metadata.description | String | 网页描述。 |
| metadata.keywords | String | 网页关键字。 |
| logo | String | 网站logo的url。 |
| site_name | String | 网页标题名称。 |
| image_list | Array | 图片链接。网页内有图片时才包含。 |
| image_base64_list | Array | 图片链接,base64格式。 |
| pdf_pages | Int | 目标为PDF时,PDF的页数。 |
| internal_links | Array | 读取目标url内容包含的内链接列表,内连接指链接域名与目标url一致。 |
| external_links | Array | 读取目标url内容包含的外链接列表,内连接指链接域名与目标url不一致。 |
| external_links | Array | 返回读取目标url内容包含的外链接。 |
请求示例
cURL
curl --location --request POST 'https://{BasePath}/search/{Endpoint}/read' \
--header 'Authorization: Bearer {AK}' \
--header 'Content-Type: application/json' \
--data-raw '{
"url": "https://www.volcengine.com/docs/6369/67267",
"formats": [
"TEXT"
],
"mode":"quality"
}'
Python(Requests)
import requests
import json
BasePath = 'xxxxxx' #请替换为您获取到的BasePath
Endpoint = 'xxxxxx' #请替换为您获取到的Endpoint
AK = 'xxxxxx' #请替换为您获取到的AK
url = f"https://{BasePath}/search/{Endpoint}/read"
payload = json.dumps({
"url": "https://www.volcengine.com/docs/6369/67267",
"formats":[
"TEXT"
],
"mode": "quality"
})
headers = {
'Authorization': f'Bearer {AK}',
"Content-Type": "application/json"
}
response = requests.post(url, headers=headers, data=payload)
print(response.text)
返回示例(部分)
{
"markdown": "导航\n\n请求结构\n\n最近更新时间:2025.04.23 12:06:55首次发布时间:2021.02.25 21:02:47\n\n火山引擎的OpenAPI的请求结构如下:\n\n服务地址(Endpoint)用于访问火山引擎的云服务,通常是一个URL,客户端可以通过该地址与服务进行通信。 \n火山引擎服务地址的标准形式为:\n\nRegional服务 (区域化部署) Global服务(中心化部署)\n\n \n \n {service}.{region}.volcengineapi.com\n\n例如:云服务器的Service为:ecs,其在\n\n \n \n cn-beijing-autodriving\n\nRegion的服务地址为:\n\necs.cn-beijing-autodriving.volcengineapi.com\n\n \n \n {service}.volcengineapi.com\n\n例如:访问控制的Service为:iam,作为Global服务,其服务地址为:iam.volcengineapi.com\n\n注意\n\n * 当Service中存在下划线( _ )符号时,Endpoint需转为中划线( - )符号。存在大写字母时需转成小写。\n * 存在部分云产品暂未适配标准Endpoint,请前往您所使用的云产品-API参考或开发指南中查看详情。\n\n推荐使用安全性更高的 HTTPS方式发送请求。\n\n请求方法详见各个接口具体的需求。在火山引擎中的OpenAPI大多数支持GET或POST请求。\n\n火山引擎的OpenAPI请求包含两类参数:公共请求参数和接口请求参数。其中公共请求参数在每个请求中都必须包含。接口请求参数需参考各个服务的接口文档。\n\n请求及返回结果使用UTF-8的字符集进行编码。\n\n售后在线咨询\n\n",
"logo": "https://portal.volccdn.com/obj/volcfe/misc/favicon.png",
"site_name": "API签名调用指南",
"image_list": [],
"metadata": {
"title": "请求结构--API签名调用指南-火山引擎",
"description": "火山引擎官方文档中心,产品文档、快速入门、用户指南等内容,你关心的都在这里,包含火山引擎主要产品的使用手册、API或SDK手册、常见问题等必备资料,我们会不断优化,为用户带来更好的使用体验",
"keywords": "API签名调用指南"
},
"internal_links": [],
"external_links": []
}