导航:首页 > 编程语言 > java提取文字

java提取文字

发布时间:2025-01-22 11:37:15

‘壹’ java word中提取关键字

给个思路吧。
读取word用doc4j,然后就是读成字符串进行处理了。
提取关键字首先是中文分词技术,就是把一段话划分成多个组成的词语,然后统计词语的出现次数,这个是主要依据。这个是有实现的jar包的,可以去搜,搜java 中文分词就行。
分词之后,记录词语出现位置,这个是辅助的依据,记录词语一句话中的位置,越靠前越像关键字,权重越高。
甚至可能需要建立一个权重体系,次数设置一个权重,整体位置设置一个权重,不同位置权重也不同。不了解权重可以理解成系数(百分比的,然后计算那个词是关键词)。

同时需要注意,可能需要排除一些常用词,哪些次需要排除,这个需要根据程序反复运行,读取不同word文章的结果来定。
不明白的话在问吧。

‘贰’ Java正则 提取指定字符串中的文字

用JSON来做,把上面的先转化为JSON,然后获取到URL的值在截取。
比如:String s = " "action": {
"action": "loadpage",
"list_name": "sale",
"pagetype": "childcate",
"showsift": true,
"title": "二手物品",
"showpub": true,
"url": "$rescachehelper.getResource(25)&topcate=sale"
}";
把里面的双引号先转为单引号

JSONObject json = JSONObject.fromObject(s);
String value = json.get("action");
Stirng url = value.get("url");
然后对url的值进行截取:
String no = url.substring(url.indexOf("("),url.indexOf(")"));
....这里为你处理的方法,最后得到一个新的url为newUrl
然后设置到json里面去
value.put("url",newUrl);
最后在把json变为字符串的话:
json.toString();

阅读全文

与java提取文字相关的资料

热点内容
ERp打印服务器错误怎么弄 浏览:111
蚌端口u盘加密软件有哪些 浏览:178
前端如何认证服务器 浏览:554
linux切换db2用户命令 浏览:306
相片如何用电解压 浏览:905
硕士程序员去学校当老师 浏览:120
pythonstr提取到字典 浏览:818
程序员那么可爱有人看上陆漓了 浏览:876
php正则提取图片 浏览:103
pythonlinuxdjango 浏览:562
php中文返回乱码 浏览:89
宿舍装的电信怎么加密 浏览:745
为什么压缩文件解压后变少了 浏览:426
现在安卓充电器普遍是什么型号 浏览:714
9日均线36均线主图指标源码 浏览:349
程序员阿里文化完整版 浏览:98
早间新闻在哪个app上面可以看 浏览:954
工作啦app注册的信息怎么删去 浏览:378
滚动转子式制冷压缩机 浏览:873
美国编程用什么软件 浏览:571