跳转至

公共信息

基础参数

参数 描述
BasePath 调用 API 的基础路径
Endpoint 调用 API 时生成的随机路径
AccessKey 调用 API 的 AccessKey

请求路径

https://{basePath}/search/{endpoint}/read

请求方法

POST

请求头

参数 类型 描述
Authorization String 输入:Bearer {AK},其中 AK 为 AccessKey
Content-Type String 输入:application/json

请求体参数

参数 是否必填 类型 描述
url Y String 读取目标
formats N List 内容格式,可选值:
- HTML
- TEXT
- MARKDOWN
入参时必须填其中一个值,不传参默认 TEXT
mode N String 读取类型:
- quality:质量模式,使用动态渲染读取方式
- fast:快速模式,静态页面读取方式(不填时默认值)
- auto:智能模式,自动根据 url 选择 fast 或 quality
- 其余非枚举类型值,默认匹配为 fast
totalTimeout N Int 默认关闭。请求的端到端总时长,单位: ms,如果请求时间超过此时间,中断请求。
timeout N Int 读取超时时间,单位:ms。默认值为:30000ms
控制 api connect 的时间,非请求 api 的耗时时间。
imageDownloadEnable N Bool 图片转换开关(转成 base64 的编码格式),默认为 false
当 formats 是 HTML/MARKDOWN,并且 imageDownloadEnable 为 ture 时,返回的网页数据中,图片链接转换为 base64 格式(开启时,解析到网页中的图片,会产生额外图片费用
注:当 url 网页内容是 pdf 时,此功能失效默认结果返回 base64 格式
imageInContent N Bool 该参数配合 imageDownloadEnable 使用。
默认值为 true,转 base64 之后的图片,放在正文里。
如果该值指定为 false,则返回值中,增加出参 image_base64_list。
转 base64 之后的图片,单独放在 image_base64_list 列表里。
pdfExtractEnable N Bool 当 url 网页内容是 pdf 时,可以通过 pdfExtractEnable 指定是否解析,默认为 false
true: 返回解析后的 pdf 内容文本
false: 返回 pdf 的 base64 内容
若 url 不包含 pdf 内容,则此参数无效。
使用 PDF 内容提取会产生额外费用
enhancedOcr N Bool 该参数仅在 pdfExtractEnable 为 true 时才会生效
增强版 pdf 提取,提升提取准确率和覆盖率,默认 False
OCR 识别会产生额外费用。

返回值说明

字段 类型 描述
html String 当format是html时,则显示页面上内容的HTML版本。
markdown String 当format是markdownl时,返回markdown版本。
text String 当format是text时,返回text版本。
metadata.title String 网页标题。
metadata.description String 网页描述。
metadata.keywords String 网页关键字。
logo String 网站logo的url。
site_name String 网页标题名称。
image_list Array 图片链接。网页内有图片时才包含。
image_base64_list Array 图片链接,base64格式。
pdf_pages Int 目标为PDF时,PDF的页数。
internal_links Array 读取目标url内容包含的内链接列表,内连接指链接域名与目标url一致。
external_links Array 读取目标url内容包含的外链接列表,内连接指链接域名与目标url不一致。
external_links Array 返回读取目标url内容包含的外链接。

请求示例

cURL

curl --location --request POST 'https://{BasePath}/search/{Endpoint}/read' \
--header 'Authorization: Bearer {AK}' \
--header 'Content-Type: application/json' \
--data-raw '{
    "url": "https://www.volcengine.com/docs/6369/67267",
    "formats": [
        "TEXT"
    ],
    "mode":"quality"
}'

Python(Requests)

import requests
import json

BasePath = 'xxxxxx'   #请替换为您获取到的BasePath
Endpoint = 'xxxxxx'   #请替换为您获取到的Endpoint
AK = 'xxxxxx'   #请替换为您获取到的AK

url = f"https://{BasePath}/search/{Endpoint}/read"

payload = json.dumps({
"url": "https://www.volcengine.com/docs/6369/67267",
"formats":[
    "TEXT"
    ],
"mode": "quality"
})

headers = {
'Authorization': f'Bearer {AK}',
"Content-Type": "application/json"
}

response = requests.post(url, headers=headers, data=payload)

print(response.text)

返回示例(部分)

{
    "markdown": "导航\n\n请求结构\n\n最近更新时间:2025.04.23 12:06:55首次发布时间:2021.02.25 21:02:47\n\n火山引擎的OpenAPI的请求结构如下:\n\n服务地址(Endpoint)用于访问火山引擎的云服务,通常是一个URL,客户端可以通过该地址与服务进行通信。  \n火山引擎服务地址的标准形式为:\n\nRegional服务 (区域化部署) Global服务(中心化部署)\n\n    \n    \n    {service}.{region}.volcengineapi.com\n\n例如:云服务器的Service为:ecs,其在\n\n    \n    \n    cn-beijing-autodriving\n\nRegion的服务地址为:\n\necs.cn-beijing-autodriving.volcengineapi.com\n\n    \n    \n    {service}.volcengineapi.com\n\n例如:访问控制的Service为:iam,作为Global服务,其服务地址为:iam.volcengineapi.com\n\n注意\n\n  * 当Service中存在下划线( _ )符号时,Endpoint需转为中划线( - )符号。存在大写字母时需转成小写。\n  * 存在部分云产品暂未适配标准Endpoint,请前往您所使用的云产品-API参考或开发指南中查看详情。\n\n推荐使用安全性更高的 HTTPS方式发送请求。\n\n请求方法详见各个接口具体的需求。在火山引擎中的OpenAPI大多数支持GET或POST请求。\n\n火山引擎的OpenAPI请求包含两类参数:公共请求参数和接口请求参数。其中公共请求参数在每个请求中都必须包含。接口请求参数需参考各个服务的接口文档。\n\n请求及返回结果使用UTF-8的字符集进行编码。\n\n售后在线咨询\n\n",
    "logo": "https://portal.volccdn.com/obj/volcfe/misc/favicon.png",
    "site_name": "API签名调用指南",
    "image_list": [],
    "metadata": {
        "title": "请求结构--API签名调用指南-火山引擎",
        "description": "火山引擎官方文档中心,产品文档、快速入门、用户指南等内容,你关心的都在这里,包含火山引擎主要产品的使用手册、API或SDK手册、常见问题等必备资料,我们会不断优化,为用户带来更好的使用体验",
        "keywords": "API签名调用指南"
    },
    "internal_links": [],
    "external_links": []
}