CN101694670B - 一种基于公共子串的中文Web文档在线聚类方法 - Google Patents

一种基于公共子串的中文Web文档在线聚类方法 Download PDF

Info

Publication number
CN101694670B
CN101694670B CN2009102361380A CN200910236138A CN101694670B CN 101694670 B CN101694670 B CN 101694670B CN 2009102361380 A CN2009102361380 A CN 2009102361380A CN 200910236138 A CN200910236138 A CN 200910236138A CN 101694670 B CN101694670 B CN 101694670B
Authority
CN
China
Prior art keywords
clustering
cluster
web document
substring
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009102361380A
Other languages
English (en)
Chinese (zh)
Other versions
CN101694670A (zh
Inventor
张辉
王德庆
王晗
杨高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN2009102361380A priority Critical patent/CN101694670B/zh
Publication of CN101694670A publication Critical patent/CN101694670A/zh
Application granted granted Critical
Publication of CN101694670B publication Critical patent/CN101694670B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

CN2009102361380A 2009-10-20 2009-10-20 一种基于公共子串的中文Web文档在线聚类方法 Expired - Fee Related CN101694670B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009102361380A CN101694670B (zh) 2009-10-20 2009-10-20 一种基于公共子串的中文Web文档在线聚类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009102361380A CN101694670B (zh) 2009-10-20 2009-10-20 一种基于公共子串的中文Web文档在线聚类方法

Publications (2)

Publication Number Publication Date
CN101694670A CN101694670A (zh) 2010-04-14
CN101694670B true CN101694670B (zh) 2012-07-04

Family

ID=42093643

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009102361380A Expired - Fee Related CN101694670B (zh) 2009-10-20 2009-10-20 一种基于公共子串的中文Web文档在线聚类方法

Country Status (1)

Country Link
CN (1) CN101694670B (de)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102004724B (zh) * 2010-12-23 2012-06-20 哈尔滨工业大学 文档段落分割方法
CN103123685B (zh) * 2011-11-18 2016-03-02 江南大学 文本模式识别方法
CN102682132B (zh) * 2012-05-18 2013-12-04 合一网络技术(北京)有限公司 一种基于词频、播放量和创建时间检索信息的方法及系统
CN102693304B (zh) * 2012-05-22 2014-10-22 北京邮电大学 一种搜索引擎的反馈信息处理方法及搜索引擎
CN103902599B (zh) * 2012-12-27 2017-04-05 北京新媒传信科技有限公司 模糊查找的方法和装置
CN104346411B (zh) * 2013-08-09 2018-11-06 北大方正集团有限公司 对多个稿件进行聚类的方法和设备
CN103699567B (zh) * 2013-11-04 2017-03-15 北京中搜网络技术股份有限公司 一种基于标题指纹与正文指纹实现相同新闻聚类的方法
CN104090890B (zh) * 2013-12-12 2016-05-04 深圳市腾讯计算机系统有限公司 关键词相似度获取方法、装置及服务器
CN104156418B (zh) * 2014-08-01 2015-09-30 北京系统工程研究所 一种基于知识重用的演化聚类方法
CN104462301B (zh) * 2014-11-28 2018-05-04 北京奇虎科技有限公司 一种网络数据的处理方法和装置
CN106202405B (zh) * 2016-07-11 2019-06-25 中国人民大学 一种基于文本相似关系的紧凑性文本提取方法
CN106844748A (zh) * 2017-02-16 2017-06-13 湖北文理学院 文本聚类方法、装置及电子设备
CN108763369B (zh) * 2018-05-17 2021-01-05 北京奇艺世纪科技有限公司 一种视频搜索方法和装置
CN108763569A (zh) * 2018-06-05 2018-11-06 北京玄科技有限公司 文本相似度计算方法及装置、智能机器人
CN109241275B (zh) * 2018-07-05 2022-02-11 广东工业大学 一种基于自然语言处理的文本主题聚类算法
CN109684928B (zh) * 2018-11-22 2023-04-11 西交利物浦大学 基于互联网检索的中文文档识别方法
CN110532389B (zh) * 2019-08-22 2023-07-14 北京睿象科技有限公司 一种文本聚类方法、装置和计算设备
CN111753547B (zh) * 2020-06-30 2024-02-27 上海观安信息技术股份有限公司 一种用于敏感数据泄露检测的关键词提取方法及系统
CN113128592B (zh) * 2021-04-20 2022-10-18 重庆邮电大学 一种用于异构的医疗器械标识解析方法、系统及存储介质
CN116757807B (zh) * 2023-08-14 2023-11-14 湖南华菱电子商务有限公司 一种基于光学字符识别的智能辅助评标方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1609859A (zh) * 2004-11-26 2005-04-27 孙斌 搜索结果聚类的方法
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1609859A (zh) * 2004-11-26 2005-04-27 孙斌 搜索结果聚类的方法
CN101464898A (zh) * 2009-01-12 2009-06-24 腾讯科技(深圳)有限公司 一种提取文本主题词的方法

Also Published As

Publication number Publication date
CN101694670A (zh) 2010-04-14

Similar Documents

Publication Publication Date Title
CN101694670B (zh) 一种基于公共子串的中文Web文档在线聚类方法
Kang et al. On co-authorship for author disambiguation
CN108415902B (zh) 一种基于搜索引擎的命名实体链接方法
Kaleel et al. Cluster-discovery of Twitter messages for event detection and trending
CN104376406B (zh) 一种基于大数据的企业创新资源管理与分析方法
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
Chy et al. Bangla news classification using naive Bayes classifier
Froud et al. Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering
CN106599054B (zh) 一种题目分类及推送的方法及系统
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN101320375A (zh) 基于用户点击行为的数字图书搜索方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
Cortez et al. Ondux: on-demand unsupervised learning for information extraction
CN102651003A (zh) 一种跨语言搜索的方法和装置
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN105912662A (zh) 基于Coreseek的垂直搜索引擎研究与优化的方法
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
Bellare et al. Lightly-supervised attribute extraction
CN116738988A (zh) 文本检测方法、计算机设备和存储介质
CN105404677A (zh) 一种基于树形结构的检索方法
Aung et al. Random forest classifier for multi-category classification of web pages
CN103984700A (zh) 一种用于科技信息垂直搜索的异构数据分析方法
CN102722526B (zh) 基于词性分类统计的重复网页和近似网页的识别方法
CN105426490A (zh) 一种基于树形结构的索引方法
CN102508920B (zh) 一种基于Boosting分类算法的信息检索方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20171020

CF01 Termination of patent right due to non-payment of annual fee