Graccvs正文提取组件--介绍及开发指南
1:概要

     “Graccvs文件正文提取开发组件”可以为Lucene/CLucene, Elasticsearch, Sphinx等文件内容全文检索提供工具,为OA, ERP, CRM,网盘,文件管理等其他系统提供文件摘要及搜索前置服务。可以为安全网关,邮件内容监控,内网安全等系统提供文件内容搜索及监控服务底层技术支持。
       组件全部用go语言实现,不依赖外部工具,效率高,安全性非常好。可以直接在操作系统上开发使用,不要求JAVA等其他环境支持,而且从设计上避免了环境依赖或者解析器框架带来的占用CPU过高和安全性问题。

2:支持的操作系统

Windows

提供DLL(32bit和64bit)动态链接库,支持win-xp到win11全部版本,支持win2003及以上全部服务器版本。

Linux

提供SO(64bit)动态链接库
支持(64bit)内核版本4.4及以上, 中标麒麟7.0.0(64bit)及以上, 统信uos, U麒麟等 。
注:内核版本(64bit)4.4以下也可能使用此接口, 具体以实际情况为准。

Android

提供aar格式动态链接库。

苹果ios

提供xcframework格式动态链接库。

3:支持提取的文件格式

A: pdf文件
B: office word文件 ".doc", ".odt", ".docx", ".dotm", ".docm"
C: wps文档 ".wps"
D: office excel文件 ".xls", ".xlsx", ".xlsm", ".xltm"
E: wps表格 ".et"
F: office powerPoint文件 ".ppt", ".pptx", ".potm", ".pptm", ".ppsm"
G: wps演示 ".dps"
H: 开放文档格式 ".ofd", 注:常见于“电子发票版式文件”
I: 富文本类型 ".rtf"
J: HTML页面文件 ".html", ".htm", ".mht", ".mhtml"
K: 邮件格式文件 ".eml", 注:默认提取前5个附件
L: 部分思维导图格式文件 ".emmx", "xmind", "gmind"
M: UTF8编码, Unicode编码, Ansi编码的文本文件

".txt", ".c", ".h", ".cpp", ".m", ".asp", ".aspx", ".cs", ".pas", ".php", ".vb", ".bas", ".js", ".css", ".java", ".jsp", ".go", .pl", ".perl", ".ps", ".py", ".python", ".sql", ".rs", ".dart"......
注:可以在配置文件中增加纯文本文件后缀 

N: 帮助文件 “*.chm",注:此格式仅限Windows平台
O: 压缩文件 ".zip", 注:默认提取前5个文件
现在版本支持以上文件格式,新支持的格式请关注官网。

4:支持开发语言

提供 VC,GCC,JAVA,C#,Delphi,Android Java,苹果ios Objective-C调用示例,其他语言完善中......
点击这里下载组件及开发示例