Unstructured

Unstructured 是一个开源项目,旨在为非结构化数据(如 PDF、HTML 和 Word 文档)提供预处理工具。它提供了一系列的组件,称为砖块,可以帮助用户构建针对他们关心的文档的管道。砖块分为三类:分区砖块,将原始文档分解为标准的结构化元素;清洁砖块,从文档中删除不需要的文本,如样板和句子片段;分段砖块,将数据格式化为下游任务,如机器学习推理和数据标记。Unstructured 还提供了一个 API,可以通过它来使用 unstructured 的功能。您可以查看 unstructured-api 仓库以开始使用 API,并在那里找到有关如何托管您自己版本的 API 的说明。

主题

网络资源

Source: Conversation with Bing, 8/1/2023
(1) Unstructured · GitHub. https://github.com/Unstructured-IO/.
(2) GitHub - Unstructured-IO/unstructured: Open source libraries .... https://github.com/Unstructured-IO/unstructured.
(3) GitHub - Unstructured-IO/unstructured-inference. https://github.com/Unstructured-IO/unstructured-inference.
(4) undefined. http://unstructured.io.
(5) undefined. https://huggingface.co/unstructuredio.
(6) undefined. https://unstructured-io.github.io/unstructured/.

Unstructured

Unstructured 0.8.2 documentation


本文作者:Maeiee

本文链接:Unstructured

版权声明:如无特别声明,本文即为原创文章,版权归 Maeiee 所有,未经允许不得转载!


喜欢我文章的朋友请随缘打赏,鼓励我创作更多更好的作品!