CN101694670B - 一种基于公共子串的中文Web文档在线聚类方法 - Google Patents
一种基于公共子串的中文Web文档在线聚类方法 Download PDFInfo
- Publication number
- CN101694670B CN101694670B CN2009102361380A CN200910236138A CN101694670B CN 101694670 B CN101694670 B CN 101694670B CN 2009102361380 A CN2009102361380 A CN 2009102361380A CN 200910236138 A CN200910236138 A CN 200910236138A CN 101694670 B CN101694670 B CN 101694670B
- Authority
- CN
- China
- Prior art keywords
- clustering
- cluster
- web document
- substring
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102361380A CN101694670B (zh) | 2009-10-20 | 2009-10-20 | 一种基于公共子串的中文Web文档在线聚类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009102361380A CN101694670B (zh) | 2009-10-20 | 2009-10-20 | 一种基于公共子串的中文Web文档在线聚类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101694670A CN101694670A (zh) | 2010-04-14 |
CN101694670B true CN101694670B (zh) | 2012-07-04 |
Family
ID=42093643
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009102361380A Expired - Fee Related CN101694670B (zh) | 2009-10-20 | 2009-10-20 | 一种基于公共子串的中文Web文档在线聚类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101694670B (de) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102004724B (zh) * | 2010-12-23 | 2012-06-20 | 哈尔滨工业大学 | 文档段落分割方法 |
CN103123685B (zh) * | 2011-11-18 | 2016-03-02 | 江南大学 | 文本模式识别方法 |
CN102682132B (zh) * | 2012-05-18 | 2013-12-04 | 合一网络技术(北京)有限公司 | 一种基于词频、播放量和创建时间检索信息的方法及系统 |
CN102693304B (zh) * | 2012-05-22 | 2014-10-22 | 北京邮电大学 | 一种搜索引擎的反馈信息处理方法及搜索引擎 |
CN103902599B (zh) * | 2012-12-27 | 2017-04-05 | 北京新媒传信科技有限公司 | 模糊查找的方法和装置 |
CN104346411B (zh) * | 2013-08-09 | 2018-11-06 | 北大方正集团有限公司 | 对多个稿件进行聚类的方法和设备 |
CN103699567B (zh) * | 2013-11-04 | 2017-03-15 | 北京中搜网络技术股份有限公司 | 一种基于标题指纹与正文指纹实现相同新闻聚类的方法 |
CN104090890B (zh) * | 2013-12-12 | 2016-05-04 | 深圳市腾讯计算机系统有限公司 | 关键词相似度获取方法、装置及服务器 |
CN104156418B (zh) * | 2014-08-01 | 2015-09-30 | 北京系统工程研究所 | 一种基于知识重用的演化聚类方法 |
CN104462301B (zh) * | 2014-11-28 | 2018-05-04 | 北京奇虎科技有限公司 | 一种网络数据的处理方法和装置 |
CN106202405B (zh) * | 2016-07-11 | 2019-06-25 | 中国人民大学 | 一种基于文本相似关系的紧凑性文本提取方法 |
CN106844748A (zh) * | 2017-02-16 | 2017-06-13 | 湖北文理学院 | 文本聚类方法、装置及电子设备 |
CN108763369B (zh) * | 2018-05-17 | 2021-01-05 | 北京奇艺世纪科技有限公司 | 一种视频搜索方法和装置 |
CN108763569A (zh) * | 2018-06-05 | 2018-11-06 | 北京玄科技有限公司 | 文本相似度计算方法及装置、智能机器人 |
CN109241275B (zh) * | 2018-07-05 | 2022-02-11 | 广东工业大学 | 一种基于自然语言处理的文本主题聚类算法 |
CN109684928B (zh) * | 2018-11-22 | 2023-04-11 | 西交利物浦大学 | 基于互联网检索的中文文档识别方法 |
CN110532389B (zh) * | 2019-08-22 | 2023-07-14 | 北京睿象科技有限公司 | 一种文本聚类方法、装置和计算设备 |
CN111753547B (zh) * | 2020-06-30 | 2024-02-27 | 上海观安信息技术股份有限公司 | 一种用于敏感数据泄露检测的关键词提取方法及系统 |
CN113128592B (zh) * | 2021-04-20 | 2022-10-18 | 重庆邮电大学 | 一种用于异构的医疗器械标识解析方法、系统及存储介质 |
CN116757807B (zh) * | 2023-08-14 | 2023-11-14 | 湖南华菱电子商务有限公司 | 一种基于光学字符识别的智能辅助评标方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1609859A (zh) * | 2004-11-26 | 2005-04-27 | 孙斌 | 搜索结果聚类的方法 |
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
-
2009
- 2009-10-20 CN CN2009102361380A patent/CN101694670B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1609859A (zh) * | 2004-11-26 | 2005-04-27 | 孙斌 | 搜索结果聚类的方法 |
CN101464898A (zh) * | 2009-01-12 | 2009-06-24 | 腾讯科技(深圳)有限公司 | 一种提取文本主题词的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101694670A (zh) | 2010-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101694670B (zh) | 一种基于公共子串的中文Web文档在线聚类方法 | |
Kang et al. | On co-authorship for author disambiguation | |
CN108415902B (zh) | 一种基于搜索引擎的命名实体链接方法 | |
Kaleel et al. | Cluster-discovery of Twitter messages for event detection and trending | |
CN104376406B (zh) | 一种基于大数据的企业创新资源管理与分析方法 | |
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
Chy et al. | Bangla news classification using naive Bayes classifier | |
Froud et al. | Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering | |
CN106599054B (zh) | 一种题目分类及推送的方法及系统 | |
WO2015149533A1 (zh) | 一种基于网页内容分类进行分词处理的方法和装置 | |
CN101320375A (zh) | 基于用户点击行为的数字图书搜索方法 | |
CN108647322B (zh) | 基于词网识别大量Web文本信息相似度的方法 | |
Cortez et al. | Ondux: on-demand unsupervised learning for information extraction | |
CN102651003A (zh) | 一种跨语言搜索的方法和装置 | |
CN105512333A (zh) | 基于情感倾向的产品评论主题搜索方法 | |
CN105912662A (zh) | 基于Coreseek的垂直搜索引擎研究与优化的方法 | |
CN115563313A (zh) | 基于知识图谱的文献书籍语义检索系统 | |
Bellare et al. | Lightly-supervised attribute extraction | |
CN116738988A (zh) | 文本检测方法、计算机设备和存储介质 | |
CN105404677A (zh) | 一种基于树形结构的检索方法 | |
Aung et al. | Random forest classifier for multi-category classification of web pages | |
CN103984700A (zh) | 一种用于科技信息垂直搜索的异构数据分析方法 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
CN105426490A (zh) | 一种基于树形结构的索引方法 | |
CN102508920B (zh) | 一种基于Boosting分类算法的信息检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120704 Termination date: 20171020 |
|
CF01 | Termination of patent right due to non-payment of annual fee |