WO2011006412A1 - 文件内容的特征词的输入和处理方法 - Google Patents

文件内容的特征词的输入和处理方法 Download PDF

Info

Publication number
WO2011006412A1
WO2011006412A1 PCT/CN2010/074197 CN2010074197W WO2011006412A1 WO 2011006412 A1 WO2011006412 A1 WO 2011006412A1 CN 2010074197 W CN2010074197 W CN 2010074197W WO 2011006412 A1 WO2011006412 A1 WO 2011006412A1
Authority
WO
WIPO (PCT)
Prior art keywords
input
title
feature word
word
processing method
Prior art date
Application number
PCT/CN2010/074197
Other languages
English (en)
French (fr)
Inventor
刘二中
Original Assignee
Liu Erzhong
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Liu Erzhong filed Critical Liu Erzhong
Priority to US13/384,592 priority Critical patent/US20120271810A1/en
Publication of WO2011006412A1 publication Critical patent/WO2011006412A1/zh
Priority to US14/582,856 priority patent/US20150186540A1/en
Priority to US15/702,534 priority patent/US20180004850A1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Definitions

  • This technology belongs to computer retrieval technology or search engine technology. Background technique
  • Search engine technology with query word search as the core brings convenience to users.
  • the system can obtain the query query keyword query request through the interactive interface and the communication network on the client, query in the text index library or the text library, and perform correlation analysis between the keyword request and the text to obtain relevant results and sort. It is then provided to the interactive interface via a communication network or line.
  • This kind of search system is very convenient and fast to use, but the total number of indexes included in the return result is still very large, and it is difficult to check one by one.
  • U.S. Patent No. 6,285,999 proposes a technique for sorting search results based on webpage hyperlink structure analysis (Page link), exceeding Other sorting techniques have achieved unprecedented success.
  • this technique along with various other sorting techniques, only improves the efficiency of keyword search in a statistical sense, and does not guarantee that everyone's desired query results will be ranked in front of a large index table. Before we read the expected information, we were reluctant to read irrelevant information that repeated the main content.
  • the characteristic words determined by the personnel for the relevant documents of different website sources, and the input information is processed, so as to generate a retrieval tool containing different feature words or classification results that is convenient for the user, and the efficiency of the retrieval or searching is greatly improved.
  • the present invention is a computer-implemented input and processing method for a network terminal user to determine file characteristics, including:
  • Operation A The computer retrieval system provides the user terminal with a sequence of titles of a plurality of website sources containing the documents formed by the documents satisfying the query requirements according to the query requirements put forward by the terminal user;
  • Operation B the computer system determines the input feature words according to a prescribed operation manner on a page where the title sequence is located or a direct link page of the page;
  • the specified operation mode may be a specified cursor click operation mode or a word input operation mode; wherein the specified operation mode may be one of the following operation modes:
  • Operation mode 1 The word in the title of operation A or the content of the file to which it belongs is selected by the cursor as the input feature word;
  • Operation mode 2 the word selected by the cursor is selected as the input feature word in the page of the candidate title word displayed on the page of the operation sequence A or the page directly linked to the page;
  • Operation mode 3 A feature word input field is set on the page where the title sequence of operation A is located or the page directly linked to the page, and the computer system determines the input feature word according to the input content in the input field.
  • the input content of the feature word input field may be from a keyboard, or may be from a paste of a part of the page on the page where the title of the operation A is located or the page directly linked to the page or the feature word input field.
  • the feature word input field can be defined only on the page on which the title sequence is located.
  • the feature word may be one or more words or phrases selected by the end user that are considered to reflect the characteristics of the corresponding title or file content.
  • the words can be characters or symbols or notes or graphics.
  • the input field refers to the space or location of the input or fill-in words on the terminal page.
  • the computer retrieval system can be a search engine system.
  • the computer system or retrieval system can be an integral part of a computer retrieval system.
  • the end user may be the author of the netizen or web page or the provider of the web page, or a network or retrieval system worker.
  • the file may be part of a web page or web page or a retrieval system or other computer system dumped content (e.g., a web page snapshot), may be or contain textual content, or may contain or contain image content or audio content or video content.
  • a web page snapshot may be or contain textual content, or may contain or contain image content or audio content or video content.
  • the title may be the title or abstract of the document or the title plus the abstract, and may be or contain image content or audio content or video content.
  • the input and processing method of the present invention further includes:
  • Operation C The computer system determines the title or file corresponding to the feature word input in operation B according to the manner specified on the page of the title sequence or the direct link page of the page;
  • the specified manner may be a cursor click determination mode or a position determination mode
  • the prescribed manner may be one of the following ways:
  • Method I The title or file in which the word selected by the cursor is clicked in the operation mode 1 in operation B is determined as the title or file corresponding to the input feature word;
  • Mode H The title or document to be clicked is determined as the title or file corresponding to the input feature word
  • Mode m determining the title or file in the vicinity of the feature word determination operation indication of the click as the title or file corresponding to the input feature word;
  • Method IV determining a title or a file on the page where the feature word input field is located closest to the input field or located in the input field, and determining the title or file corresponding to the input feature word; The unique title or file on the page where the feature word input field is located is determined as the title or file corresponding to the input feature word;
  • Method VI determining, as determined by operation B, the title or file on the page where the candidate feature word directory is located, which is closest to the directory or located in the directory, and is determined to correspond to the input feature word.
  • Mode YE The unique title or file on the page where the candidate feature word directory is located in the operation mode 2 is determined as the title or file corresponding to the input feature word.
  • a feature word corresponding to a certain title or a file as a feature word belonging to the title or the file, or a feature word corresponding to the title or the file, or called the title or The characteristic word of the file.
  • the same file or its title can be allowed to have multiple different categories at the same time.
  • a word, a feature word can belong to multiple different titles or documents at the same time.
  • the feature word of one title is the same as the feature word of the file to which the title belongs.
  • the characteristic word may be a keyword reflecting the characteristics of the corresponding title or file content, or may be a word or keyword appearing in the corresponding title or file, and the feature word input field may also be a keyword. Input field.
  • the feature word may be a category word reflecting a category of a corresponding title or a file content, or a category word reflecting a different level in the multi-level classification system, and the feature word input field may also be a category word input field. .
  • an additional candidate feature word directory is set on the page where the title sequence is located or the page directly linked to the page.
  • the candidate feature word directory may be a category directory containing a plurality of different category words.
  • the candidate feature word or category directory may be a primary directory or a multi-level directory or a tree directory.
  • the upper category entry is automatically displayed before or after the click.
  • a feature word may be allowed to be input to the input field by a cursor clicking or swiping a desired word in the directory of the settings.
  • the feature word input in the method is that the terminal clicks the judgment information input by the operator on the relevant title or file feature or the feature word corresponding thereto.
  • the method can also include the associated computer system in its database accepting or referring to or rejecting or rejecting feature determination opinions or feature words or category words entered by the end user.
  • the input and processing method of the present invention may further include: when the computer system or the database determines or inputs a feature word or a category word corresponding to any title or file according to an input opinion input by the terminal user, the principle to be followed may be at least Consider one or more of the following factors:
  • the name of the user making the decision or the URL of the website of the website is similar to the name of the provider of the document or its web address or the link URL of the document;
  • the method of the present invention may further comprise the operation D i: retrieving the data of the feature words corresponding to the plurality of bibliographies or files determined in whole or in part according to the method, and generating the feature words comprising the plurality of files or the bibliography Content or a database classified by the similarities and differences of its characteristic words or category words.
  • the method of the present invention may further comprise the operation D 2: the retrieval system includes all or part of the data of the feature words corresponding to the plurality of files or titles determined according to the method or the feature comprising the plurality of files or titles generated by the operation Di A database of word or category word content, generating a feature word index or a category word index or a classification index for a plurality of files or titles.
  • the feature word index may refer to, by using the index, to retrieve or access or link a file corresponding to the feature word or its title or its address or related information according to any feature word selected.
  • the classification index may mean that the index may be used to retrieve or access or link a file corresponding to the category word or its title or its address or related information according to any selected category word.
  • the input and processing method of the present invention may further comprise: replacing or modifying other original classification or classification indexes of the plurality of files by using the feature word classification or the classification index of the plurality of files.
  • the method of the present invention may further comprise: when accepting the query, the retrieval system utilizes the feature word index or the classification index to provide a search or search result that meets the requirements of the desired feature word or category word.
  • the result can include a bibliographic or bibliographic sequence or catalog or tree catalog.
  • the input and processing method of the present invention may further include: a query term index or a keyword index used by the retrieval system to utilize the feature word index or the classification index and the computer retrieval system to process the query request by the terminal user when accepting the query. , obtain or provide search or search results that meet both the required feature word requirements and the required query requirements.
  • the result can include a bibliographic or bibliographic sequence or catalog.
  • the input and processing method of the present invention may further include:
  • Operation E when the computer retrieval system provides the search service, according to the query request by the network query user, the sequence of the plurality of documents provided to the user terminal; in the vicinity of some or all of the titles of the title series, There may be prompts for one or more feature words to which each title or its associated file belongs.
  • the feature word prompt may be the feature word or a prompt containing the feature word.
  • the method allows the feature word hint to be added or subtracted or replaced depending on the operation of the end user.
  • the feature word prompt may be a prompt that reflects a keyword corresponding to the characteristics of the book or the content of the file, or may be a prompt of a keyword appearing in the corresponding book or file, and when prompted, the prompt of the keyword is allowed to appear. In the words in the title of the operation E, between lines.
  • the feature word prompt may also be a category word prompt, which may be a category prompt of a single-level or multi-level classification system.
  • the input and processing method of the present invention may further include:
  • each feature word prompt near the title described in operation E may be respectively linked with a sequence of another plurality of document titles; some or all of the sequences of the other plurality of file titles of the link
  • the files to which the records or titles belong have at least one associated feature word, which is the same as the feature word in the original feature word prompt linked by the sequence. If necessary, some or all of the topics in the sequence of the other plurality of document titles linked by the operation F or the file to which the title belongs may be required, and the original query request by the user described in operation E is also required.
  • the input and processing method of the present invention may further include an operation G: a navigation directory having a plurality of feature word prompts in the vicinity of a plurality of file title sequences provided by the computer retrieval system to the user terminal according to a query request by the network query user,
  • Each feature word prompt may be separately linked with each different sequence containing a plurality of file titles, and at least one of the parts of the sequence of the other plurality of file titles or the file to which the title belongs may have at least one
  • the associated feature word is the same as the feature word in the original feature word prompt linked by the sequence.
  • the feature word prompt of the navigation directory may be a prompt indicating a key word corresponding to the characteristics of the corresponding title or file content, or may be a prompt of a keyword appearing in a corresponding title or file, or may be a category word prompt.
  • the navigation directory may be a primary directory or a multi-level directory.
  • a plurality of feature word prompts to be selected in the next level may be automatically displayed after the selection of the upper-level feature words of the directory is allowed to be determined.
  • the method allows the directory feature word hint to be added or subtracted or replaced depending on the operation of the end user.
  • the method also allows for a feature word cue or navigation listing near the bibliography or sequence of topics linked or displayed by operation F and operation G to link or for click to display an updated bibliographic sequence result.
  • the method of the present invention provides a fundamental solution to the problem of determining the feature words of hundreds of millions of web pages from millions of different websites that search engine systems can aggregate. Any netizen or even a network system worker, especially a web page provider or author or promoter, uses a document title related to his or her interests or interests in the search engine keyword search result sequence
  • feature words or keywords or category words of the document can be determined or input very conveniently. Web pages with multiple accurate feature words are more likely to be searched first, so that most of the valuable pages will have relevant insiders to identify the feature words.
  • the method of the present invention can also ensure that the input opinions of the document related person will be preferentially adopted.
  • the search engine system can provide high-quality feature word retrieval service for a high proportion of high-quality web pages, and even multi-level classification and retrieval services, and obtain highly concentrated or highly concentrated search results, thereby greatly improving the online search of the majority of netizens.
  • Efficiency solving the problems that have plagued netizens for many years, so this technology has outstanding practical value and effect.
  • FIG. 1 is a schematic diagram of an applicable environment of an embodiment of the present invention.
  • FIG. 2 is a schematic diagram showing the input of feature words on the title sequence page according to an embodiment of the present invention.
  • FIG. 3 is a schematic diagram of a bibliography of a bibliographic sequence page of a user query search result or a corresponding feature word cue (keyword cue) and a navigation directory attached to the file to which the user queries, according to an embodiment of the present invention.
  • FIG. 4 is a schematic diagram of a title of a title sequence page of a user query search result or a feature word prompt (multi-level category word prompt) and a navigation directory attached to a file according to another embodiment of the present invention.
  • FIG. 5 is a schematic block diagram of a method for implementing an embodiment of the present invention. Specific embodiment
  • the search engine system 101 is a specialized type of the computer retrieval system 102. They contact the user terminal 104 via the Internet 103 (see Figure 1).
  • 201 is a query field for inputting query words
  • 202 is a title
  • 203 is a feature word input field
  • 2M is a feature word determination operation indication
  • 205 is a mouse device operation cursor.
  • 206 is a reference directory
  • 208 is the word selected by the cursor according to the mode 1
  • 301 is a feature word prompt (keyword prompt)
  • 30 is a selected operation mark
  • 303 is an added operation mark
  • 304 is a navigation Directory
  • 01 is a feature word prompt (category word prompt).
  • a query search service is provided, that is, a sequence consisting of or consisting of a plurality of documents 2ffi formed by a plurality of documents of a plurality of website sources (flow 502).
  • the file may be a web page, may contain text content, and may also include image content or audio content or video content.
  • the title may be the title or abstract of the file or the title plus the summary or part of the content or the dumped content, such as a snapshot of the web page, a cached web page, and the like.
  • the title of the document may also contain various types of content, such as abbreviated content of the image, syllables or musical score segments, or segments or abbreviations of audio or video, or screenshots or screen shots.
  • the method of the present invention is of particular importance for the classification or classification indexing of image content or web pages or files of audio content or video content.
  • the method also requires operation B: the computer system determines the feature words entered by the end user (flow 503).
  • the words recognized or input by the end user may reflect the characteristics of the corresponding title or file, such as keywords or category words, and may be characters or symbols or notes or graphic or graphic marks, and may be, for example, A syllable or score segment related to an audio file or video file.
  • the so-called selection click can be to make the cursor of the click state slide on the related words, or it can be other agreed operation modes.
  • the feature word determination operation indication (referred to as an operation indication) refers to an item or file for accepting a click to enter a feature word operation state or for indicating a feature word determination or for linking a candidate feature word list or other related operations. Character or logo or graphic or graphic key.
  • Another way to input a feature word is to display or select a candidate feature word list 206 that is directly linked on the page on which the sequence of the title is operated or the page directly linked to the page (as shown in FIG. 2) The word selected by the cursor is selected as the feature word entered.
  • the page or directory directly linked to the page refers to the page or directory to which the title or feature word is determined on the page where the title sequence is located.
  • the operation mark or the title of the directory or the prompt or other term or content is linked.
  • the candidate feature list can be displayed on the page when the terminal page is in the feature word operation state or other needs.
  • the third operation mode is that a feature word input field 203 or an input box is set on the page where the title sequence of the operation A is located or the page directly linked to the page, and the computer system determines the input feature according to the input content in the input field. word.
  • the input content of the feature word input field may be from the keyboard, or may be from the pasting of the partial words on the page where the title of the operation A is located or directly linked to the page, or may be allowed to pass the title in the setting or
  • the feature word is input to the input field 203 in a manner in which the cursor clicks or swipes the desired word in the file or candidate feature word list.
  • the feature word input field may be a local space near the corresponding mark or prompt word on the page (for example, 'feature word input' or 'feature word' or 'keyword' or 'category'), or may be on the page.
  • the feature word input field which is also used as the query field, can be configured nearby to select the corresponding feature word input or query input key.
  • the terminal page needs to be in the feature word operation state, which can be preset by the query system, or clicked by the terminal user. When necessary, it may also be stipulated that when the feature word determination operation indication 204 or the candidate feature word list 206 or the feature word input field 203 on the page is clicked or has input content, the terminal page enters or is in the feature word operation state.
  • the method further requires the computer system to determine the title or file corresponding to the feature word input in operation B according to an appropriate manner on the page where the title sequence is located or directly linked to the page, for example, one of the following ways ( Operation C) (flow 503).
  • the mode I can be used:
  • the title 202 or the file in which the word 208 selected by the cursor is clicked in the operation mode 1 in the operation B is determined as the title or file corresponding to the input feature word.
  • the terminal page should already be in the feature word operation state to avoid confusion with other link operations.
  • Or mode H Determine the title or file to be clicked as the title 202 or file corresponding to the input feature word.
  • the terminal page is preferably in the feature word operation state.
  • mode ⁇ determining the title or file near the feature word determination operation indication 204 of the click as the title or file corresponding to the input feature word.
  • the title or document corresponds to the feature determination operation indicator 204.
  • mode IV The page on which the feature word input field is located is closest to the input field or is located at the input
  • the column specifies the title or document of the orientation (for example, above or below) and is determined to be the title or document corresponding to the entered feature word.
  • Or mode V Determine the unique title or file on the page where the feature word input field is located as the title or file corresponding to the input feature word.
  • Or mode VI determining the title or file on the page where the candidate feature word list is located in operation B described in operation B, which is closest to the directory or located in the specified orientation of the directory (for example, left or right) A bibliography or document corresponding to the feature word entered.
  • YE The unique or bibliography or file on the page where the candidate feature list is located in the operation mode 2 is determined as the title or file corresponding to the input feature word.
  • the candidate feature word list may be composed of a plurality of words that the end user refers to or selects when inputting the feature word.
  • the directory may have a title such as 'reference directory' or 'category directory' or 'key word suggestion' depending on the candidate feature word to be selected.
  • the back side of the input field can also have the word 'Selected' for click confirmation.
  • the user only needs to input or 'paste' the keyword or category word in the input field of the corresponding title, and then click 'Select Selected' to complete the determination of the feature word of the file.
  • This embodiment utilizes the mode of operation three and mode IV.
  • the word "classification" is present on the lower or the end of each title (character word determination operation indication).
  • character word determination operation indication When the user clicks on the typeface, a top-level category word of the category category of the candidate category appears on the side of the page. After the user clicks on the category word, the following multiple category words belonging to the category appear in the directory for the user to select the click. And so on, after the user selects, click the word 'Select' and the system will automatically input the various categories of the multi-level classification of the title.
  • This embodiment utilizes the mode of operation two and the mode m.
  • operation mode 1 and mode I can also be utilized.
  • the method allows for the provision of one or more sets of selected feature word lists or keyword lists or candidate class lists or multi-level category word lists for selection by the user terminal.
  • the feature words of a certain title are the same or similar to the feature words of the document to which the title belongs, and the feature words of the document to which the title belongs can be obtained directly according to the feature words of a certain title, or Come over and make a decision.
  • the feature word input in the method is that the terminal clicks the judgment information input by the operator on the relevant title or file feature or the feature word corresponding thereto.
  • the method can also include the associated computer system in its database accepting or referencing or processing or rejecting feature determination opinions or feature words or category words entered by the end user.
  • the terminal clicks the operator's feature words or keyword or category word information for the relevant title or file, that is, 50T presses the input to determine the title file feature word'.
  • the computer system or the retrieval system can directly use this information, but it is also possible to process the input classification information.
  • the principles to be followed may at least consider one or more of the following factors: One:
  • the name of the user making the decision or the URL of the website of the website is similar to the name of the provider of the document or its web address or the link URL of the document;
  • (1) or (6) or (7) can be prioritized when needed, taking into account other factors. It is also possible to write an algebraic form of an objective function that includes at least one or more of the above seven factors. The priority order of different classifications can be determined according to the size of the objective function value.
  • the method of the present invention may further comprise 506 "form document feature word data, index": the retrieval system includes all or part of the data of the feature words corresponding to the plurality of titles or files determined according to the method, and generates a plurality of files or The characteristic word content of the title or a database classified by the similarity or the similarity of its characteristic words or category words; and the feature word index or category word index or classification index or keyword index for generating multiple files or titles, or well-known characteristic words Or keyword or category word inverted index, or inverted index index.
  • the feature word index may refer to, by using the index, to retrieve or access or link a file corresponding to the feature word or its title or its address or related information according to any feature word selected.
  • the classification index can be used to retrieve or access or link the file corresponding to the category or its title or its address or its related information according to any category word selected.
  • a classification file or a bibliographic database or a multi-level classification index including a plurality of different subsets or multi-level subsets may be generated according to the feature words or keywords or category words of the respective titles or documents.
  • the method of the present invention may further comprise: using the method to classify or classify the feature words of the plurality of files to replace or modify other original classification or classification indexes of the plurality of files.
  • the method can also include: upon accepting the query, the retrieval system utilizes the feature word index or classification index to provide a search or search result that meets the requirements of the desired feature word or category word.
  • the result can include a bibliographic or bibliographic sequence or catalog or tree catalog.
  • flow 504 or flow 506 if the end user wishes to begin a feature word determination for another bibliography or file, it may return (flow 510) to process 501.
  • the object of the present invention is not only to establish a database of feature words or feature inversions of documents.
  • the method of the present invention also includes any use of these bows or data for bibliographic searches.
  • the method can also include:
  • the computer retrieval system may provide the title sequence of the plurality of files provided to the user terminal according to the query request by the network querying the user; in the vicinity of some or all of the titles of the title sequence, each book may have a respective title or a file thereof
  • the associated feature word prompts O01 or 401) (flow 507).
  • the feature word may also be a keyword prompt 301 (Fig. 3) associated with the title or its associated file.
  • the feature word prompts of each title or its own file may be single-level or multi-level category prompts 01 (see Figure 4).
  • the so-called multi-level category word prompt is to display multiple points suitable for the title or the file to which it belongs.
  • Category or category names or category entries that belong to different levels of classification or symbols or graphic keys that represent categories.
  • each category word of the so-called multi-level category word prompt is the category word of the title or the file to which it belongs. This is not only a significant reduction in footprint, but also a direct or analogy or suggestiveness to related topics, rather than showing a general tree catalog or a general navigation catalog.
  • a certain document or title belongs to the lower-level sub-category category of the word 'physical' in the sub-category category 'academic' in the category category of 'study'.
  • the words "study of knowledge; academic; physics" will appear as a multi-level category word hint for the title.
  • the keyword prompt related to the title or the file to which it belongs may not refer to the original query keyword, and preferably reflects the feature or content of the title or the file to which it belongs different from many other titles of the original sequence. Key words that are significant.
  • a plurality of different feature words or category word prompts or keyword prompts belonging to the title or the file to which the file belongs may also be present at the same time.
  • Some search engine systems provide tips or links such as 'similar web pages' or 'siangtong websites' at the end of the search results, but the results are too general or cluttered, and the use is very limited.
  • the method of the multi-level feature word prompt displayed simultaneously in the vicinity of the title provided by the present invention in the present invention brings great convenience to the inquirer.
  • the user sees an interesting topic, if you want to get the same sequence of topics as the original category (higher category), you can click on the higher-level feature word or category word in the prompt (for example, the above-mentioned "study"); if you want to get the same sequence of topics as the original title category (lower category), you can directly click on the lower level feature words in the prompt (such as the aforementioned 'physical'). This way, you can keep the inquirer at the same time. Clicking on the accuracy and flexibility of the selection greatly improves the efficiency of the query and improves the user's query experience.
  • the link of the category word prompt or keyword prompt and the new bibliographic sequence of the present invention may be a direct link or an indirect link 509.
  • the prompt may be first linked to a query search in which a feature word or a corresponding category word or keyword in the prompt is added on the basis of the original query, thereby obtaining a desired sequence of the title.
  • the prompt may also be first linked to the query search in the prompt according to the result of the search query sequence of the original query, or the query query required by the corresponding category word or keyword as the query logic, thereby obtaining the desired sequence of the title.
  • the titles of the original query result sequence that do not appear in the new bibliographic sequence may be arranged after the new bibliographic sequence or appropriately moved back.
  • the navigation directory has a plurality of prompts (flow 508), and each feature word prompt can be different from each other.
  • a sequence link that contains multiple file titles. That is to say, if the user clicks on a certain feature word in the directory during the search (you can also arrange to click the "search” or "confirm” or other name operation key), you will get a new match with the feature word.
  • the document title sequence 509, the feature word of the file to which the title in the sequence belongs is the same as the feature word of the original prompt (clicked) linked to the sequence, and may still conform to or not meet the original user's proposed Query requirements.
  • the navigation directory may also be a primary directory or a multi-level directory. You can allow the next-level category selection of the directory to be automatically displayed before or after the determination.
  • the feature word prompt of the navigation directory may be a category word prompt or a keyword prompt.
  • the link between the feature word prompt of the navigation directory and the new title sequence may be a direct link or an indirect link.
  • the prompt may first be linked to a query search that adds a keyword suggestion request in the prompt based on the original query word, thereby obtaining a desired title sequence.
  • the prompt may also be first linked to the query search further made by the feature word in the prompt as the query logic requirement based on the result of the search title sequence required by the original query, thereby obtaining the desired new title sequence.
  • the titles of the original query result sequence that do not appear in the new bibliographic sequence may be arranged after the new bibliographic sequence or appropriately moved backward. If desired, process 507 or 508 can be repeated on the sequence of courses in process 50 to have a corresponding feature word cue or navigation listing to link or for clicking to present the updated bibliographic sequence results.
  • the searcher can return (flow 510) and resume the operation.

Description

文件内容的特征词的输入和处理方法 技术领域
本技术属于计算机检索技术或搜索引擎技术。 背景技术
多年来, 计算机数据库检索说技术有了极大发展, 特别是网络技术的进展, 使 得人们可以共享的数据库的规模达到了天文数字。这也给人们查找所需信息带来 了很大困难。
以查询词搜索为核心的搜索引擎技术为用户带来了便利。该系统可以通过客 户机上的交互界面以及通讯网络得到查询者的关键词查询请求,在文本索引库或 文本库中进行查询, 并进行关键词请求与文本的相关性分析,得到相关结果并排 序, 再经由通讯网络或线路提供到交互界面。这种搜索系统使用起来十分便利迅 速, 但返还结果包含的索引总数仍然十分庞大, 难于逐一查阅。
为了能将潜在的对查询者最有价值的查询结果尽量排在前面以方便查询者, 第 6,285,999号美国专利提出了基于网页超级链接结构分析 (佩奇链接) 来进行 搜索结果排序的技术, 超过了其他排序技术, 获得空前成功。
然而, 该技术以及其他各种排序技术,仅仅是在统计学意义上提高了关键词 搜索的效率, 并不能保证每个人希望的查询结果都能排在庞大索引表的前面。我 们在读到期望的信息之前, 却无奈地读到种种主要内容一再重复的无关信息。
为了方便用户找到所需信息或文件,人们还求助于垂直分类技术和以该技术 为基础的目录检索系统。 为了给海量信息分类或确定特征, 出现了各种计算机文 本分类方法。 然而, 由机器判断某一页面或文本属于某关键词的哪一条或哪几 条的语义或特征或类别是十分困难的, 其可靠性和准确率不高, 特别是在多级分 类中,错误率高得令人无法忍受。因此,计算机分类仅仅用于最简单的粗略分类, 例如根据若干组词出现的频度或格式特征,判定网上文件是'网页'还是'地图'或是 "MP3"等等。
目前, 准确率较高的垂直分类技术还离不开人工参与。 例如 20世纪 0年代 雅虎等网站的人工信息分类系统, 只能承担极少一部分网上信息的分类加工。 其 它如'百度百科'、 "维基百科'、"淘宝网'、"阿里巴巴 '的各种数量十分有限的专业分类 信息,都是通过各自专门的数据库平台, 由注册会员或注册用户或网站工作人员 针对特定范围的词条, 按照特殊的编写规则汇集而成的, 其中包含的附带分类内 容也只能是针对本数据库的词条或文本的。 可以说, 对于非特定网上数据库内容 的用户来说, 在搜索时得到的帮助十分有限。
因此, 国内外广大网民迫切需要一种新技术, 使得计算机检索系统或搜索引 擎系统不仅能向查询者提供数万不同网站的亿万网页题录信息 , 还能确定众多 不同网站来源网页的准确特征或类别或者多级特征或类别, 并按查询者的查询关 键词要求和对网页特征或类别的要求, 提供准确率和集中度大为改善的搜索结 果。 为此, 急需一种便于汇集和处理关于网页特征判断意见的便捷技术。 发明内容
本发明的目的在于提供一种适于计算机检索系统或搜索引擎系统使用的方 法, 使其在向网上终端或用户提供关于查询词搜索结果的题录序列的同时, 可以 允许便捷地输入用户或工作人员为不同网站来源的相关文件确定的特征词, 并对 输入信息进行处理, 以便产生便于用户利用的包含不同特征词或分类结果的检 索工具, 大大提高检索或搜索的效率。
本发明为一种计算机执行的关于网络终端用户对文件特征判定信息的输入 和处理方法, 包括:
操作 A : 计算机检索系统根据终端用户提出的查询要求, 向用户终端提供多 个网站来源的包含符合该查询要求的文件形成的题录的题录序列;
操作 B:计算机系统根据在所述题录序列所在页面或该页面直接链接页面上 的规定操作方式确定所输入的特征词;
所述的规定操作方式可以为规定的光标点击操作方式或字词键入操作方式; 其中所述的规定操作方式可以为下列操作方式之一:
操作方式一: 将操作 A所述题录或其所属文件内容中受到光标选取点击的 字词作为所输入的特征词;
操作方式二: 将操作 A 所述题录序列所在页面或该页面直接链接的页面上 呈现的或者直接链接的待选特征词目录中受到光标选取点击的字词,作为所输入 的特征词;
操作方式三:在操作 A所述题录序列所在页面或该页面直接链接的页面上设 置有特征词输入栏, 计算机系统根据该输入栏内的输入内容确定所输入的特征 词。
其中,特征词输入栏的输入内容可以来自键盘,也可以来自对操作 A所述题 录所在页面或该页面直接链接页面或特征词输入栏所在页面上部分字词的粘贴。
需要时, 为了操作简捷, 可以限定特征词输入栏仅仅出现在所述题录序列所 在页面上。
其中, 所述特征词可以为终端用户所选择的认为可以反映相应题录或文件内 容特点的一个或多个字词或词组。 所述字词可以是字符或符号或音符或图形。 所述输入栏是指终端页面上输入或填写字词的空间或位置。
所述的计算机检索系统可以是搜索引擎系统。所述计算机系统或检索系统可 以为计算机检索系统的组成部分。
所述终端用户可以是网民或网页的作者或网页的提供者, 或者网络或检索系 统工作人员。
所述文件可以是网页或者网页的部分内容或者是检索系统或其它计算机系 统转存内容 (如网页快照), 可以是或包含文字内容, 也可以是或包含图象内容 或音频内容或视频内容。
所述题录可以是文件的标题或摘要或标题加摘要,可以是或包含图象内容或 音频内容或视频内容。
本发明的输入和处理方法还包括:
操作 C: 计算机系统根据在所述题录序列所在页面或该页面直接链接页面上 的规定方式, 确定与操作 B所述输入的特征词相对应的题录或文件;
所述规定方式可以为光标点击判定方式或位置判定方式;
其中所述规定方式可以为下列方式之一:
方式 I: 将操作 B中操作方式一所述受到光标选取点击的字词所在的题录或 文件, 确定为与输入的特征词相对应的题录或文件;
方式 H : 将受到点击的题录或文件确定为与输入的特征词相对应的题录或文 件;
方式 m : 将受到点击的特征词判定操作标示附近的题录或文件, 确定为与输 入的特征词相对应的题录或文件;
方式 IV: 将特征词输入栏所在的页面上距离该输入栏最近的或位于该输入 栏规定方位的题录或文件, 确定为与所输入的特征词相对应的题录或文件; 方式 V:将特征词输入栏所在的页面上唯一的题录或文件,确定为与输入的 特征词相对应的题录或文件;
方式 VI:将操作 B所述操作方式二所述待选特征词目录所在的页面上距离 该目录最近的或位于该目录规定方位的题录或文件, 确定为与所输入的特征词相 对应的题录或文件;
方式 YE : 将操作 Β所述操作方式二所述待选特征词目录所在的页面上唯一 的题录或文件, 确定为与输入的特征词相对应的题录或文件。
可以根据需要规定操作 Β与操作 C的先后次序。
我们可以将与某题录或某文件相对应的特征词,称为属于该题录或该文件的 特征词,或者称为该题录或该文件对应的特征词, 或者称为该题录或该文件的特 征词。
在以上所述方法中, 允许同一文件或其题录可以同时具有多个不同的类别 词,一种特征词可以同时属于多个不同题录或文件。
一般可以认为, 一个题录的特征词与该题录所属的文件的特征词相同。 所述的特征词可以是反映相对应题录或文件内容特点的关键词,也可以是在 相对应题录或文件中出现的词或关键词,所述的特征词输入栏也可以是关键词输 入栏。
所述的特征词可以是反映相对应题录或文件内容类别的类别词,或是反映其 在多级分类系统中不同级别的类别词,所述的特征词输入栏也可以是类别词输入 栏。
在所述的输入和处理方法中, 在所述题录序列所在页面或该页面直接链接页 面上, 设置附加的待选特征词目录。
该待选特征词目录可以是包含多个不同类别词的类别目录。 所述待选特征 词或类别目录可以是一级目录或多级目录或树状目录。
可以安排: 在所述类别目录中, 上一级类别条目受到点击之前或之后可自动 显示其所属下一级类别条目。
在本方法中, 可以允许通过在所述设置的所述目录中光标点击或刷取所需字 词的方式向所述输入栏输入特征词。
显然, 本方法所述输入的特征词, 就是终端点击操作者输入的对相关题录或 文件特征的判定信息或与其相对应的特征词。
本方法还可以包括:相关计算机系统在其数据库里, 可以接受或参考或处理 或拒绝终端用户所输入的特征判定意见或特征词或类别词。
本发明的输入和处理方法, 还可以包括: 所述计算机系统或数据库在根据终 端用户输入意见确定或输入与任一题录或文件相对应的特征词或类别词时, 需要 遵循的原则可以至少考虑以下因素中的一个或多个:
( 1)作出判定的用户的名称或其网站的网址与该文件的提供者的名称或其网 址或者文件链接网址的相似程度;
(2 )作出同样判定的用户的数量;
( 3 )作出某种判定的时间早晚;
(4 )作出判定的用户或出自同一网址以往点击选择的准确率或评分;
( 5 )该种特征词的选择与其它人工选择方法或计算机选择方法或选择系统结 果的一致程度;
( 6)是否为检索系统操作人员或工作人员所作判定或与其相似。
(7 )作出判定的用户或终端是否在进行特征词判定或选择的相关网站或网页 登记。
本发明的方法还可以包含操作 D i: 检索系统全部或部分根据所述方法确定 的与多个题录或文件相对应的特征词的数据, 生成包含多个文件或题录的特征词 内容或者以其特征词或类别词的异同分类的数据库。
本发明的方法还可以包含操作 D 2 : 检索系统全部或部分根据所述方法确定 的与多个文件或题录相对应的特征词的数据或者操作 Di生成的包含多个文件或 题录的特征词或类别词内容的数据库, 生成多个文件或题录的特征词索引或类别 词索引或分类索引。
所述特征词索引可以是指,利用该索引可以根据选择的任一特征词去检索或 访问或链接对应于该特征词的文件或其题录或其地址或其相关信息。
所述分类索引可以是指,利用该索引可以根据选择的任一类别词去检索或访 问或链接对应于该类别词的文件或其题录或其地址或其相关信息。
本发明的输入和处理方法, 还可以包括: 利用该方法对多个文件的特征词分 类或分类索引替代或修改其它原有的对多个文件的分类或分类索引。
本发明的方法, 还可以包括: 在接受查询时, 检索系统利用所述特征词索引 或分类索引, 提供符合所需特征词或类别词要求的检索或搜索结果。 该结果可以 包括题录或题录序列或目录或树状目录。
本发明的输入和处理方法, 还可以包括: 在接受查询时, 检索系统利用所述 特征词索引或分类索引以及计算机检索系统处理终端用户提出的查询要求时所 利用的查询词索引或关键词索引, 得到或提供既符合所需特征词要求又符合所需 查询要求的检索或搜索结果。该结果可以包括题录或题录序列或目录。
本发明的输入和处理方法, 还可以包括:
操作 E : 计算机检索系统在提供搜索服务时, 根据网络查询用户提出的查询 要求, 向用户终端提供的多个文件的题录的序列; 在所述的题录序列部分或全部 各个题录附近, 可以分别具有各个题录或其所属文件所属的一个或多个特征词的 提示。
所述特征词提示可以是该特征词或者是包含该特征词的提示。
本方法允许根据终端用户的操作, 增加或减少或替换所述特征词提示。 所述的特征词提示可以是反映相对应题录或文件内容特点的关键词的提示, 也可以是在相对应题录或文件中出现的关键词的提示, 需要时, 允许关键词的提 示出现在操作 E所述题录的字里行间。
所述的特征词提示也可以是类别词提示, 可以是单级或多级分类系统的类别 提示。
本发明的输入和处理方法, 还可以包括:
操作 F :可以令操作 E所述的题录附近的各个特征词提示,分别可以与另外 多个文件题录的序列链接; 所述链接的另外多个文件题录的序列中的部分或全 部题录或者题录所属的文件, 至少各有一个所属的特征词,与该序列链接的原来 的特征词提示中的特征词相同。 需要时,可以要求操作 F所述链接的另外多个文件题录的序列中的部分或全 部题录或者题录所属的文件, 还要符合操作 E所述用户原来提出的查询要求。
本发明的输入和处理方法, 还可以包括操作 G :在计算机检索系统根据网络 查询用户提出的查询要求向用户终端提供的多个文件题录序列附近, 具有多个特 征词提示组成的导航目录, 各个特征词提示可以分别与各个不同的包含多个文件 题录的序列链接,所述链接的另外多个文件题录的序列中的部分或全部题录或者 题录所属的文件, 至少各有一个所属的特征词,与该序列链接的原来的特征词提 示中的特征词相同。
需要时, 可以要求操作 G 所述链接的另外多个文件题录的序列中的部分或 全部题录或者题录所属的文件, 还要符合所述查询用户原来提出的查询要求。
所述导航目录的特征词提示可以是反映相对应题录或文件内容特点的关键 词的提示,也可以是在相对应题录或文件中出现的关键词的提示, 也可以是类别 词提示。
所述的导航目录可以是一级目录或多级目录。可以允许该目录的上一级特征 词选择确定后再自动显示下一级待选的多个特征词提示。
本方法允许根据终端用户的操作, 增加或减少或替换该目录特征词提示。 本方法还允许在提供操作 F和操作 G所链接或展示的题录附近或题录序列 附近,具有特征词提示或导航目录, 以链接或供点击展示更新的题录序列结果。
本发明的方法, 为搜索引擎系统所能汇集的来自千百万不同网站的亿万网页 题录的特征词确定问题, 提供了一个可以根本性解决手段。 任何网民甚至包括网 络系统工作人员,特别是网页的提供者或作者或推广者,在搜索引擎的关键词搜 索结果的题录序列中看到与自己的利益或兴趣相关的文件题录时, 利用本发明的 技术, 可以十分便捷地确定或输入该文件的特征词或关键词或类别词。 具有多个 准确的特征词的网页更容易被优先搜索到, 这样,有价值的网页多数会有相关的 内行人士为其确定特征词。本发明的方法还可以保证文件相关人的输入意见会得 到优先采纳。 在本发明的基础上, 搜索引擎系统可以为相当比例的优质网页提供 高质量的特征词检索服务, 甚至多级分类检索服务, 得到高度集中或高度浓缩的 搜索结果, 大大提高广大网民网上搜索的效率, 解决多年困扰网民的难题, 因而 本技术具有突出的实用价值和效果。 附图说明
图 1为本发明的实施例的适用环境示意图。
图 2为本发明的一个实施例的在题录序列页面输入特征词的说明示意图。 图 3 为本发明的一个实施例的用户查询搜索结果的题录序列页面的题录或 其所属文件附带的对应特征词提示(关键词提示)和导航目录的示意图。 图 4 为本发明的另外一个实施例的用户查询搜索结果的题录序列页面的题 录或所属文件附带的特征词提示(多级类别词提示)和导航目录的示意图。
图 5为本发明的一个实施例的实现方法的流程示意框图。 具体的实施方式
以下结合附图说明具体的实施方法。 其中, 搜索引擎系统 101 为计算机检索 系统 102的一种专门类型。它们通过互联网 103与用户终端 104联系(参见图 1 )。
在图 2、 图 3、 图 4的实施例中, 201为输入查询词的查询栏,202为题录,203为 特征词输入栏, 2M为特征词判定操作标示, 205为鼠标装置操作的光标, 206为参考 目录, 208为所述方式一所述受到光标选取点击的字词; 301为特征词提示(关键词 提示), 30 为选定操作标示, 303为增项操作标示, 304为导航目录; 01为特征词提 示(类别词提示)。
举例来说,实施本方法 (参见图 5 ), 应该从操作 A开始, 首先需要相关检 索系统或搜索引擎系统接受网络查询用户或终端用户在查询栏 201输入查询要求 (流程 501 ), 向用户终端提供查询搜索服务, 即向其提供多个网站来源的符合查 询要求的多个文件形成的题录 2ffi组成的或参与组成的序列(流程 502 )。
所述文件可以是网页, 可以包含文字内容, 也可以包含图象内容或音频内容 或视频内容。
所述题录可以是文件的标题或摘要或标题加摘要或部分内容或转存的内容, 如网页快照、 缓存网页等。
所述文件的题录也可以包含各类内容, 例如图象的缩略内容,音节或乐谱片 段,或音频或视频的片段或缩略内容,或者截屏或截屏局部画面。
本发明的方法对图象内容或音频内容或视频内容的网页或文件的分类或建 立分类索引, 更具有特别重要的意义。
本方法还需要进行操作 B :计算机系统确定终端用户所输入的特征词(流程 503)。
所述特征词由终端用户认定的或输入的字词,可以反映相应题录或文件特 点,如关键词或类别词, 可以是字符或符号或音符或图形或图形标记, 需要时, 例如可以是与音频文件或视频文件有关的音节或乐谱片段。
输入特征词 (或关键词或类别词)的具体操作方式例如有 3种。 其一是将操 作 A所述题录或其直接链接的文件内容中受到光标选取点击的字词 (208)作为所 输入的特征词。
所谓选取点击可以是令点击状态的光标在相关字词上滑移, 也可以是约定的 其它操作方式。具体实施时最好在此前或此后配合点击特征词判定操作标示 2M, 或者以其它方式使终端页面处于特征词操作状态, 以利于计算机识别。 所述特征词判定操作标示(简称操作标示),是指用以接受点击进入特征词操 作状态或者用以标示特征词判定对应的题录或文件或者用以链接待选特征词目 录或其它相关操作的字符或标示或图形或图形键。例如图 2的'设定特征词 204或 "链接特征词目录'或划类操作标示'或"参与分类'的字样等等。
另一种输入特征词的方式 ,是将操作 A 所述题录序列所在页面上或该页面 直接链接的页面上呈现的或者直接链接的待选特征词目录 206 (如图 2中"参考目 录 206)中受到光标选取点击的字词,作为所输入的特征词。
页面直接链接的页面或目录, 是指题录序列所在页面上的题录或特征词判定 操作标示或目录标题或提示或其它词项或内容所链接的页面或目录。
需要时,可以令待选特征词目录在终端页面处于特征词操作状态时或其它需 要的时候在页面出现。
第三种操作方式是在操作 A 所述题录序列所在页面或该页面直接链接的页 面上设置有特征词输入栏 203 或输入框,计算机系统根据该输入栏内的输入内容 确定所输入的特征词。特征词输入栏的输入内容可以来自键盘, 也可以来自对操 作 A 所述题录所在页面或该页面直接链接页面上部分字词的粘贴, 或者可以允 许通过在所述设置的所述题录或文件或待选特征词目录中光标点击或刷取所需 字词的方式向所述输入栏 203输入特征词。
特征词输入栏可以是在所述页面上相应标记或提示字词(例如'特征词输入' 或'特征词 '或'关键词 '或'类别')附近的局部空间,也可以是页面上的查询栏兼作的 特征词输入栏, 可在附近配置相应提示特征词输入或查询输入的选择键。
需要令终端页面处于特征词操作状态,可以通过查询系统预先设置, 或由终 端用户点击选择。需要时,也可以规定, 当页面上的特征词判定操作标示 204或待 选特征词目录 206 或特征词输入栏 203 受到点击后或具有输入内容时, 终端页面 进入或处于特征词操作状态。
本方法还需要计算机系统根据在所述题录序列所在页面或该页面直接链接 页面上的适当方式,例如下列方式之一, 确定与操作 B所述输入的特征词相对应 的题录或文件(操作 C ) (流程 503)。
具体来说, 可以使用方式 I: 将操作 B中操作方式一所述受到光标选取点击 的字词 208所在的题录 202或文件, 确定为与输入的特征词相对应的题录或文件。 此时终端页面应该已处于特征词操作状态, 以利于避免与其它链接操作混淆。
或者方式 H : 将受到点击的题录或文件确定为与输入的特征词相对应的题录 202或文件。此时终端页面最好已处于特征词操作状态。
或者方式 ΠΙ : 将受到点击的特征词判定操作标示 204附近的题录或文件, 确 定为与输入的特征词相对应的题录或文件。此时题录或文件最好与特征判定操作 标示 204 对应。 或方式 IV: 将特征词输入栏所在的页面上距离该输入栏最近的或位于该输 入
栏规定方位 (例如上方或下方)的题录或文件,确定为与所输入的特征词相对应的 题录或文件。
或者方式 V:将特征词输入栏所在的页面上唯一的题录或文件,确定为与输 入的特征词相对应的题录或文件。
或者方式 VI:将操作 B所述操作方式二所述待选特征词目录所在的页面上 距离该目录最近的或位于该目录规定方位 (例如左方或右方)的题录或文件,确定 为与所输入的特征词相对应的题录或文件。
或方式 YE : 将操作 Β所述操作方式二所述待选特征词目录所在的页面上唯 一的或题录或文件, 确定为与输入的特征词相对应的题录或文件。
实际上,可以根据需要安排操作 Β与操作 C的先后次序以及终端用户的操作 规则。
所述待选特征词目录可以由终端用户在输入特征词时参考或选用的多个字 词组成。根据待选特征词的不同,该目录可以具有'参考目录'或'类别目录'或'关键 词建议'之类的标题。
在一种实施例中,我们可以在每一条题录下侧设置'推荐关键词: "或者 '选定 类别词: "的字样, 形成输入栏, 以便于用户输入。 为了避免误操作, 输入栏后 侧还可以有'选毕'字样,供点击确认。这样,用户只需要在相应题录的输入栏内输 入或'粘贴'入关键词或类别词, 再点击 '选毕', 就完成了对该文件特征词的确定工 作。 该实施例利用了所述操作方式三以及方式 IV。
在本方法的另一个实施例中, 在每一条题录的下侧或末尾都具有'分类'的字 样(特征词判定操作标示)。用户点击该字样后, 页面一侧会出现一个待选类别词 目录的最高级的多个类别词。 用户点击其中的类别词后, 该目录中会出现属于该 类别的下一级多个类别词, 供用户选择点击。依此类推, 用户选择完毕后点击 '选 定'字样, 系统将自动把该题录的多级分类的各个类别词输入进去。该实施例利用 了所述操作方式二以及方式 m。
在具体的实施过程中, 还可以利用操作方式一以及方式 I,
或利用操作方式二以及方式 I,
或利用操作方式二以及方式 VI,
或利用操作方式二以及方式 νπ
或利用操作方式三以及方式 πι,
或利用操作方式三以及方式 V,
或利用操作方式三以及方式 VI,
或利用操作方式三以及或方式 vn, 为题录序列中相应的题录或相应文件确 定其特征词或关键词或类别词。
本方法允许提供一种或多种或多套特选特征词目录或关键词目录或待选类 别词目录或多级类别词目录, 以供用户终端选用。
在一般情况下, 可以认为, 某个题录的特征词与该题录所属文件的特征词相 同或相似, 可以直接根据某个题录的特征词得到该题录所属文件的特征词, 或者 反过来进行判定。
显然, 本方法所述输入的特征词, 就是终端点击操作者输入的对相关题录或 文件特征的判定信息或与其相对应的特征词。
本方法还可以包括相关计算机系统在其数据库里,可以接受或参考或处理或 拒绝终端用户所输入的特征判定意见或特征词或类别词。
这样,根据操作 A、 B、C,就输入了终端点击操作者对相关题录或文件的特 征词或关键词或类别词信息, 即 50T按输入确定题录文件特征词'。 计算机系统或 检索系统可以直接利用这些信息, 但有可能还需要对输入的划类信息进行处理。
显然, 检索系统根据互联网用户的点击选择来确定每个文件的特征词还存在 一个问题: 如果多个用户或终端操作者作出了不同选择, 应该怎么办? 这就是图 5的流程 505"不同输入意见处理'要解决的问题。
检索系统面对用户或终端操作者输入的可能的矛盾意见,确定或输入与任一 题录或文件相对应的特征词或类别词时, 需要遵循的原则可以至少考虑以下因素 中的一个或多个:
( 1)作出判定的用户的名称或其网站的网址与该文件的提供者的名称或其网 址或者文件链接网址的相似程度;
越相似, 类别选择的用户与原来文件的提供者一致的可能性就越大。
(2 )作出同样判定的用户的数量;
同样意见的用户数越多, 意见越可靠。
(3 )作出某种判定的时间早晚;
为了尽快形成分类索引,不能等待太久;但是后来的修改意见可能更为中肯。 (4 )作出判定的用户或出自同一网址以往点击选择的准确率或评分; 应该更重视高水平用户的意见。
(5 )该种特征词的选择与其它人工选择方法或计算机选择方法或选择系统结 果的一致程度;
这样既可以参考已有成果, 也可以避免改变过多。
(6)是否为检索系统操作人员或工作人员所作判定或与其相似。
(7 )作出判定的用户或终端是否在进行特征词判定或选择的相关网站或网页 登记。
实际上, 需要时可以优先考虑 (1 ) 或(6 ) 或(7 ), 再考虑其它因素。 也可以编写某种目标函数的代数式, 该函数式的变量至少包括上述 7种因素 的一个或多个。 可以按照目标函数值的大小确定不同分类的优先顺序。
针对任一题录或文件的特征词(特别是关键词)可能数量很多, 可以参考以上 因素安排优先顺序, 并适度限制保留或提供的最高数量。
实际上, 针对任一题录或文件的同一级类别词或分类选择并不一定只有一 个, 可以有两个或更多, 可以有优先顺序。 可以限定对应于任一题录或文件的每 一级类别词的数量,例如 2或 3种。
本发明的方法还可以包含 506"形成文件特征词数据、 索引': 检索系统全部或 部分根据所述方法确定的与多个题录或文件相对应的特征词的数据, 生成包含多 个文件或题录的特征词内容或者以其特征词或类别词的异同分类的数据库; 以及 生成多个文件或题录的特征词索引或类别词索引或分类索引或关键词索引, 或者 人们熟知的特征词或关键词或类别词倒排索引, 或者倒排题录索引。
所述特征词索引可以是指,利用该索引可以根据选择的任一特征词去检索或 访问或链接对应于该特征词的文件或其题录或其地址或其相关信息。
利用分类索引可以根据选择的任一类别词去检索或访问或链接对应于该类 别词的文件或其题录或其地址或其相关信息。
需要时, 还可以按照各个题录或文件的特征词或关键词或类别词的不同, 生 成包含多个不同子集或多级子集的分类文件或题录数据库或多级分类索引。
本发明的方法, 还可以包括: 利用该方法对多个文件的特征词分类或分类索 引替代或修改其它原有的对多个文件的分类或分类索引。
本方法还可以包括: 在接受查询时, 检索系统利用所述特征词索引或分类索 引, 提供符合所需特征词或类别词要求的检索或搜索结果。 该结果可以包括题录 或题录序列或目录或树状目录。
在流程 504或流程 506, 如果终端用户希望开始对其它题录或文件进行特征词 判定, 可以返回(流程 510 )至流程 501。
显然, 本发明的目的不仅仅是建立有关文件的特征词数据库或特征词倒排索 引。 本发明的方法还包括任何利用这些索弓 I或数据进行题录搜索。
因此, 本方法还可以包括:
计算机检索系统根据网络查询用户提出的查询要求, 向用户终端提供的多个 文件的题录序列; 在所述的题录序列部分或全部各个题录附近, 可以分别具有各 个题录或其所属文件所属的特征词提示 O01或 401) (流程 507)。
所述特征词也可以是与该题录或其所属文件相关的关键词提示 301 (图 3) 。 各个题录或其所属文件所属的特征词提示可以是单级或多级类别提示 01 (参见图 4 ) 。
所谓所属的多级类别词提示, 就是显示适合于该题录或其所属文件的多个分 别属于不同级别分类的类别词或类别名称或类别条目或者代表类别的符号或图 形键。
显然,所谓所属的多级类别词提示的各个类别词,无论类别大小,都是该题录 或其所属文件所属类别词。这样比起显示一般的树状目录或泛泛的导航目录来 说, 不仅大大减少了占用空间, 还对相关题录具有直接针对性或可类比性或提示 性。
例如, 某一文件或题录属于'学知'这一大类类别词中的下一级子类类别词'学 术'里面的'物理'这一更下一级子类类别词,那么,在该题录的附近例如将出现 '学 知; 学术; 物理'的字样 401, 作为该题录的多级类别词提示。
所述与该题录或其所属文件相关的关键词提示, 可以不是指原来的查询关键 词, 最好是能反映该题录或其所属文件区别于原序列许多其它题录的特点或内容 的意义重大的关键词。
实现在题录附近增加或显示该题录或其所属文件所属的多级特征词或关键 词或类别词提示, 可以有多种方法。 一种是利用该题录附带的其所属文件的地址 或网址访问该文件,进而获得该文件的特征词或关键词或类别词信息(利用 506的 结 ¾), 再添加到原题录附近。 ^种方法是在生成带有自身特征词信息文件的关 键词或查询词倒排题录索引时, 直接令各个题录附带原文件的多级特征词或关键 词或类别词信息, 与各个题录一起显示。 或者利用其它方法。
我们可以令所述的题录附近的特征词提示,分别可以与另外多个文件题录的 序列链接 509; 所述链接的另外多个文件题录的序列中的部分或全部题录或者其 所属的文件,其特征词(或关键词或类别 与该序列链接的原来的提示的特征词 (或关键词或类别词) 相同, 并且可以符合或不符合原来用户提出的查询要求。
例如需要时,搜索用户在点击供选择的多个提示中的某个特征词提示时, 就 会得到新的属于该特征词的并且符合原来用户提出的查询要求的文件题录序列 (流程 509) ,这样可以大大缩小或自由调控搜索范围, 得到查询结果及所需文件。
显然, 在所述得到的新的符合该特征词的文件题录序列中的题录附近, 也可 以同时具有该题录或其所属文件所属的多个不同特征词或类别词提示或关键词 提示 ; 也可以令其中题录所属文件所属的多个不同特征词提示或类级别词提示 或者关键词提示, 分别与另外的与这些提示相关的多个文件题录的序列链接。并 可以依此类推。
在已有检索技术中有时也会提供在特定的范围内的多级分类目录(如专利文 献国际分类目录), 但是非专业的普通用户往往不能准确把握每个类别词的含意 或确切覆盖范围, 常常错误地选择类别, 严重影响了检索速度。
有些搜索引擎系统在搜索结果的题录末尾提供'类似网页'或'湘同网站'之类 的提示或链接, 但得到的结果过于笼统或杂乱, 用处十分有限。 而本发明的在查询时提供的题录附近同时显示的多级特征词提示的方法, 会 为查询者带来极大便利。用户看到有兴趣的题录时, 如果希望得到与原题录大类 (较高级类别)相同的题录序列,可以点击提示中较高级的特征词或类别词(例 如前述的 "学知' );如果希望得到与原题录细类(较低级类别)相同的题录序列, 可以直接点击提示中较低级的特征词 (例如前述的 '物理') 。 这样, 可以同时保 持查询者点击选择的准确性和灵活性, 大大提高了查询的效率, 并改善了用户的 查询体验。
本发明所述类别词提示或关键词提示与新的题录序列的链接, 可以是直接链 接或者间接链接 509。
所述提示可以首先链接到在原查询的基础上增加了提示中特征词或相应类 别词或关键词的查询搜索, 从而得到所需的题录序列。
所述提示也可以首先链接到在原查询的搜索题录序列结果基础上进一步所 作的以提示中的特征词或相应类别词或关键词为查询逻辑要求的查询搜索, 从而 得到所需的题录序列。
需要时, 也可以将原查询结果序列中未出现在所述新的题录序列的题录, 安 排在所述新的题录序列的后面或者适当后移。
需要时可以安排:在计算机检索系统根据网络查询用户提出的查询要求向用 户终端提供的题录序列附近,具有多个提示组成的导航目录(流程 508 ),各个特征 词提示可以分别与各个不同的包含多个文件题录的序列链接。也就是说, 如果用 户在搜索时点击该目录中的某一特征词(也可以安排需要再点击一下"搜索'或'确 认'或其它名称的操作键),就会得到新的符合该特征词的文件题录序列 509, 该序 列中的题录所属的文件的特征词, 与该序列链接的原来的提示中(被点击的) 的 特征词相同, 并且可以仍然符合或不符合原来用户提出的查询要求。
所述的导航目录也可以是一级目录或多级目录。 可以允许该目录的上一级 类别选择确定前或确定后自动显示下一级待选类别。
所述的导航目录的特征词提示可以是类别词提示也可以是关键词提示。 所述导航目录的特征词提示与新的题录序列的链接, 可以是直接链接或者 间接链接。所述提示可以首先链接到在原查询词的基础上增加了提示中关键词提 示要求的查询搜索, 从而得到所需的题录序列。 所述提示也可以首先链接到在原 查询要求的搜索题录序列结果基础上进一步所作的以提示中特征词为查询逻辑 要求的查询搜索, 从而得到所需的新的题录序列。 需要时, 也可以将原查询结果 序列中, 未出现在所述新的题录序列的题录, 安排在所述新的题录序列的后面或 适当后移。需要时,可在流程 50 的题录序列上重复流程 507或 508,令其具有相应的 特征词提示或导航目录, 以链接或供点击展现更新的题录序列结果。
搜索完毕后, 搜索者可以返回 (流程 510), 重新开始操作。 以上内容为本发明方法的示例性说明, 不得以此来限制本发明的权利范围。

Claims

权利要求书
1 . 本发明为一种计算机执行的关于网络终端用户对文件特征判定信息的输 入和处理方法, 包括:
操作 A : 计算机检索系统根据终端用户提出的查询要求, 向用户终端提供多 个网站来源的包含符合该查询要求的文件形成的题录的题录序列;
操作 B:计算机系统根据在所述题录序列所在页面或该页面直接链接页面上 的规定操作方式确定所输入的特征词;
其中所述的规定操作方式为下列操作方式之一:
操作方式一: 将操作 A所述题录或其所属文件内容中受到光标选取点击的 字词作为所输入的特征词;
操作方式二: 将操作 A 所述题录序列所在页面或该页面直接链接的页面上 呈现的或者该页面直接链接的待选特征词目录中受到光标选取点击的字词,作为 所输入的特征词;
操作方式三:在操作 A所述题录序列所在页面或该页面直接链接的页面上设 置有特征词输入栏, 计算机系统根据该输入栏内的输入内容确定所输入的特征 词;
本发明的输入和处理方法还包括:
操作 C : 计算机系统根据在所述题录序列所在页面或该页面直接链接页面上 的规定方式, 确定与操作 B所述输入的特征词相对应的题录或文件;
其中所述规定方式为下列方式之一:
方式 I:将操作 B中操作方式一所述受到光标选取点击的字词所在的题录或 文件, 确定为与输入的特征词相对应的题录或文件;
方式 II: 将受到点击的题录或文件确定为与输入的特征词相对应的题录或 文件;
方式 III: 将受到点击的特征词判定操作标示附近的题录或文件, 确定为与 输入的特征词相对应的题录或文件;
方式 W: 将特征词输入栏所在的页面上距离该输入栏最近的或位于该输入 栏规定方位的题录或文件, 确定为与所输入的特征词相对应的题录或文件; 方式 V:将特征词输入栏所在的页面上唯一的题录或文件,确定为与输入的 特征词相对应的题录或文件;
方式 VI:将操作 B所述操作方式二所述待选特征词目录所在的页面上距离 该目录最近的或位于该目录规定方位的题录或文件, 确定为与所输入的特征词相 对应的题录或文件;
方式 VII:将操作 B所述操作方式二所述待选特征词目录所在的页面上唯一 的题录或文件, 确定为与输入的特征词相对应的题录或文件。
2.按照权利要求 1所述的输入和处理方法,其中在操作 B中计算机系统根据 在所述题录序列所在页面上的规定操作方式确定所输入的特征词, 其中所述的 规定操作方式为下列操作方式之一:
操作方式一: 将操作 A所述题录中受到光标选取点击的字词作为所输入的 特征词;
操作方式二: 将操作 A 所述题录序列所在页面的待选特征词目录中受到光 标选取点击的字词,作为所输入的特征词;
操作方式三:在操作 A所述题录序列所在页面上设置有特征词输入栏, 计算 机系统根据该输入栏内的输入内容确定所输入的特征词;
3. 按照权利要求 1所述的输入和处理方法,还包括:根据需要规定操作 B与 操作 C的先后次序。
4.按照权利要求 1所述的输入和处理方法,其中操作 B所述的规定操作方式 为操作方式一: 将操作 A 所述题录或其所属文件内容中受到光标选取点击的字 词作为所输入的特征词。
5.按照权利要求 4所述的输入和处理方法,其中操作 B所述的操作方式一为 将操作 A所述题录中受到光标选取点击的字词作为所输入的特征词。
6.按照权利要求 1所述的输入和处理方法,其中操作 B所述的规定操作方式 为操作方式二:将操作 A所述题录序列所在页面或该页面直接链接的页面上呈现 的或者该页面直接链接的待选特征词目录中受到光标选取点击的字词,作为所输 入的特征词。
7. 按照权利要求 1所述的输入和处理方法, 还包括: 在所述题录序列所在 页面或该页面直接链接页面上, 设置附加的待选特征词目录。
8. 按照权利要求 7所述的输入和处理方法, 还包括: 所述待选特征词目录 是指所述题录序列所在页面直接链接的待选特征词目录。
9.按照权利要求 7所述的输入和处理方法,还包括:在所述题录序列所在页 面上, 设置附加的待选特征词目录。
10.按照权利要求 7所述的输入和处理方法,还包括:所述待选特征词目录是 一级目录或多级目录。
11. 按照权利要求 7所述的输入和处理方法, 还包括: 所述待选特征词目录 是包含多个不同类别词的类别目录。
12 .按照权利要求 7所述的输入和处理方法, 还包括:在所述类别目录中, 上一级类别条目受到点击之前或之后可自动显示其所属下一级类别条目。
13 .按照权利要求 1所述的输入和处理方法,其中操作 B所述的规定操作方 式为操作方式三:在操作 A所述题录序列所在页面或该页面直接链接的页面上设 置有特征词输入栏, 计算机系统根据该输入栏内的输入内容确定所输入的特征
2 词。
14. 按照权利要求 13所述的输入和处理方法,还包括:所述限定特征词输入 栏出现在所述题录序列所在页面上。
15. 按照权利要求 1所述的输入和处理方法 , 其中: 所述的特征词是反映相 对应题录或文件内容特点的关键词。
16. 按照权利要求 1所述的输入和处理方法, 其中: 所述的特征词是在相对 应题录或文件中出现的字词。
17. 按照权利要求 1所述的输入和处理方法, 其中: 所述的特征词是反映相 对应题录或文件内容类别的类别词。
18.按照权利要求 1所述的输入和处理方法,还包括:所述计算机系统在其数 据库里, 接受或参考或处理或拒绝终端用户所输入的特征判定意见。
19.按照权利要求 1所述的输入和处理方法, 还包括:所述计算机系统在根 据终端用户输入意见确定与任一题录或文件相对应的特征词时, 需要遵循的原则 至少考虑以下因素中的一个或多个:
( 1)作出判定的用户的名称或其网站的网址与该文件的提供者的名称或其网 址或者文件链接网址的相似程度;
( 2 )作出同样判定的用户的数量;
( 3 )作出某种判定的时间早晚;
(4 )作出判定的用户或出自同一网址以往点击选择的准确率或评分;
( 5 )该种特征词的选择与其它人工选择方法或计算机选择方法或选择系统结 果的一致程度;
(6)是否为检索系统操作人员或工作人员所作判定或与其相似;
( 7 )作出判定的用户或终端是否在进行特征词判定或选择的相关网站或网页 登记。
20 .按照权利要求 1所述的输入和处理方法, 还包含:
操作 D 1:检索系统根据所述方法确定的与多个题录或文件相对应的特征词 的数据, 生成包含多个文件或题录的特征词内容的数据库。
21. 按照权利要求 20所述的输入和处理方法,还包括:检索系统全部或部分 根据所述方法确定的与多个题录或文件相对应的特征词的数据, 生成包含多个文 件或题录的以其特征词的异同分类的数据库。
22 .按照权利要求 20所述的输入和处理方法, 还包含:
操作 D2检索系统根据所述方法确定的多个文件或题录的特征词的数据或者 操作 D1 生成的包含多个文件或题录的特征词内容的数据库, 生成多个文件或题 录的特征词索引。
23 .按照权利要求 20所述的输入和处理方法, 还包括:
3 检索系统根据操作 D1生成的包含多个文件或题录的特征词内容的数据库, 生成多个文件或题录的分类索引。
24.按照权利要求 21或 23所述的输入和处理方法, 还包括: 利用所述方法对 多个文件的特征词分类或分类索引替代或修改其它原有的对多个文件的分类或 分类索引。
25.按照权利要求 22或 23所述的输入和处理方法, 还包括: 在接受查询时, 检索系统利用所述特征词索引或分类索引, 提供符合所需特征词或类别词要求的 检索结果。
26 .按照权利要求 1所述的输入和处理方法, 还包括: 所述的检索结果包括 题录或目录。
27. 按照权利要求 1所述的输入和处理方法,还包括:在接受查询时,检索系 统利用所述特征词索引或分类索引以及计算机检索系统处理终端用户提出的查 询要求时所利用的查询词索引,得到或提供既符合所需特征词要求又符合所需查 询要求的检索结果。
28 .按照权利要求 1所述的输入和处理方法, 还包括:
操作 E : 计算机检索系统在提供搜索服务时,根据网络查询用户提出的查询 要求, 向用户终端提供的多个文件的题录的序列; 在所述的题录序列部分或全部 各个题录附近, 分别具有各个题录或其所属文件所属的一个或多个特征词的提 示。
29.按照权利要求 28所述的输入和处理方法,还包括: 本方法允许根据终端 用户的操作, 增加或减少或替换所述特征词提示。
30.按照权利要求 28所述的输入和处理方法,还包括: 所述的特征词提示是 反映相对应题录或文件内容特点的关键词的提示。
31.按照权利要求 28所述的输入和处理方法, 还包括:所述的特征词提示是 在相对应题录或文件中出现的关键词的提示。
32. 按照权利要求 28所述的输入和处理方法,其中:所述关键词的提示出现 在操作 E所述题录的字里行间。
33 .按照权利要求 28所述的输入和处理方法, 还包括:
操作 F : 令操作 E所述的题录附近的各个特征词提示,分别与另外多个文件 题录的序列链接; 所述链接的另外多个文件题录的序列中的部分或全部题录或 者题录所属的文件, 至少各有一个所属的特征词,与该序列链接的原来的特征词 提示中的特征词相同。
34.按照权利要求 33所述的输入和处理方法,还包括:所述操作 F所述链接 的另外多个文件题录的序列中的部分或全部题录或者题录所属的文件, 还要符合 操作 E所述用户原来提出的查询要求。
4
35.按照权利要求 33所述的输入和处理方法, 还包括: 所述提示首先链接到 在原查询的基础上增加了提示中特征词的查询搜索, 从而得到所需的题录序列。
36.按照权利要求 33所述的输入和处理方法, 还包括: 所述提示首先链接到 在原查询的搜索题录序列结果基础上进一步所作的以提示中的特征词为查询逻 辑要求的查询搜索, 从而得到所需的题录序列。
37.按照权利要求 33所述的输入和处理方法, 还包括: 将原查询结果序列中 未出现在所述新的题录序列的题录, 安排在所述新的题录序列的后面或者适当后 移。
38. 按照权利要求 33所述的输入和处理方法,还包括:在所述得到的新的符 合该特征词的文件题录序列中的题录附近, 同时具有该题录或其所属文件所属的 多个不同特征词提示;令其中题录所属文件所属的多个不同特征词提示, 分别与 另外的与这些提示相关的多个文件题录的序列链接。
39 . 按照权利要求 1所述的输入和处理方法, 还包括:
操作 G :在计算机检索系统根据网络查询用户提出的查询要求向用户终端提 供的多个文件题录序列附近,具有多个特征词提示组成的导航目录,其中各个特征 词提示分别与各个不同的包含多个文件题录的序列链接,所述链接的另外多个文 件题录的序列中的部分或全部题录或者题录所属的文件, 至少各有一个所属的特 征词,与该序列链接的原来的特征词提示中的特征词相同。
40 . 按照权利要求 39所述的输入和处理方法, 其中: 操作 G所述链接的另 外多个文件题录的序列中的部分或全部题录或者题录所属的文件, 还要符合所述 查询用户原来提出的查询要求。
41. 按照权利要求 39所述的输入和处理方法,其中:所述的导航目录可以是 一级目录或多级目录。
42.按照权利要求 39所述的输入和处理方法,其中: 该目录的上一级特征词 选择确定后再自动显示下一级待选的多个特征词提示。
43.按照权利要求 39所述的输入和处理方法, 根据终端用户的操作,增加或 减少或替换该目录特征词提示。
44. 按照权利要求 39所述的输入和处理方法,其中:所述提示首先链接到在 原查询词的基础上增加了提示中关键词提示要求的查询搜索, 从而得到所需的题 录序列。
45.按照权利要求 39所述的输入和处理方法,其中: 所述提示首先链接到在 原查询要求的搜索题录序列结果基础上进一步所作的以提示中特征词为查询逻 辑要求的查询搜索, 从而得到所需的新的题录序列。
46 .按照权利要求 39所述的输入和处理方法,其中: 将原查询结果序列中, 未出现在所述新的题录序列的题录, 安排在所述新的题录序列的后面或适当后
5 移。
47.按照权利要求 33或 39所述的输入和处理方法,其中:在提供操作 F和操 作 G所链接或展示的题录附近或题录序列附近,具有特征词提示或导航目录, 以 链接或供点击展示更新的题录序列结果。
48 .按照权利要求 1所述的输入和处理方法, 其中:所述文件或所述题录是 或包含图象内容或音频内容或视频内容。
6
PCT/CN2010/074197 2009-07-17 2010-06-22 文件内容的特征词的输入和处理方法 WO2011006412A1 (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US13/384,592 US20120271810A1 (en) 2009-07-17 2010-06-22 Method for inputting and processing feature word of file content
US14/582,856 US20150186540A1 (en) 2009-07-17 2014-12-24 Method for inputting and processing feature word of file content
US15/702,534 US20180004850A1 (en) 2009-07-17 2017-09-12 Method for inputting and processing feature word of file content

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
CN200910158038 2009-07-17
CN200910158038.0 2009-07-17
CN200910210806.2 2009-11-11
CN2009102108062A CN101694666B (zh) 2009-07-17 2009-11-11 文件内容的特征词的输入和处理方法

Related Child Applications (2)

Application Number Title Priority Date Filing Date
US13/384,592 A-371-Of-International US20120271810A1 (en) 2009-07-17 2010-06-22 Method for inputting and processing feature word of file content
US14/582,856 Continuation US20150186540A1 (en) 2009-07-17 2014-12-24 Method for inputting and processing feature word of file content

Publications (1)

Publication Number Publication Date
WO2011006412A1 true WO2011006412A1 (zh) 2011-01-20

Family

ID=43448932

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2010/074197 WO2011006412A1 (zh) 2009-07-17 2010-06-22 文件内容的特征词的输入和处理方法

Country Status (3)

Country Link
US (3) US20120271810A1 (zh)
CN (1) CN101694666B (zh)
WO (1) WO2011006412A1 (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101694666B (zh) * 2009-07-17 2011-03-30 刘二中 文件内容的特征词的输入和处理方法
WO2012046546A1 (ja) 2010-10-08 2012-04-12 Necカシオモバイルコミュニケーションズ株式会社 文字変換システム及び文字変換方法並びにコンピュータプログラム
CN102446191A (zh) * 2010-10-13 2012-05-09 北京创新方舟科技有限公司 一种用于生成网页内容摘要的方法、设备及系统
CN102426571B (zh) * 2010-12-17 2013-07-17 百度在线网络技术(北京)有限公司 一种基于对象特征将对象输入至目标应用的方法与设备
CN102662982B (zh) * 2012-03-14 2014-10-29 镇江畅远信息科技有限公司 一种文件检索方法
CN102880706A (zh) * 2012-07-16 2013-01-16 刘二中 一种搜索引擎终端用户输入链接信息的处理方法
CN103105930A (zh) * 2013-01-16 2013-05-15 中国科学院自动化研究所 一种基于视频图像的非接触式智能输入方法及装置
CN104504027B (zh) * 2014-12-12 2019-11-12 北京国双科技有限公司 网页内容的自动筛选方法及装置
CN106294358A (zh) * 2015-05-14 2017-01-04 北京大学 一种信息的检索方法及系统
CN104933197A (zh) * 2015-07-13 2015-09-23 北京天天卓越科技有限公司 一种关键字确定方法及终端设备
CN106897437B (zh) * 2017-02-28 2020-04-03 北明智通(北京)科技有限公司 一种知识系统的高阶规则多分类方法及其系统
CN107330037B (zh) * 2017-06-27 2020-03-27 北京金山安全软件有限公司 用于关键词优化的方法、装置以及终端设备
CN108170785B (zh) * 2017-12-26 2022-03-01 深圳Tcl新技术有限公司 终端搜索操作的引导方法、装置及计算机可读存储介质
US11662998B2 (en) * 2020-11-05 2023-05-30 Outsystems—Software Em Rede, S.A. Detecting duplicated code patterns in visual programming language code instances
US11782681B1 (en) 2020-11-24 2023-10-10 Outsystems—Software Em Rede, S.A. Providing resolution suggestions in a program development tool
CN112148831B (zh) * 2020-11-26 2021-03-19 广州华多网络科技有限公司 图文混合检索方法、装置、存储介质、计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101073080A (zh) * 2004-12-09 2007-11-14 国际商业机器公司 推荐搜索引擎关键词
WO2008016264A1 (en) * 2006-08-01 2008-02-07 Eun Suk Jeong System for web site searching and the method thereof
CN101694666A (zh) * 2009-07-17 2010-04-14 刘二中 文件内容的特征词的输入和处理方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4183311B2 (ja) * 1997-12-22 2008-11-19 株式会社リコー 文書の注釈方法、注釈装置および記録媒体
US6938034B1 (en) * 2000-08-30 2005-08-30 International Business Machines Corporation System and method for comparing and representing similarity between documents using a drag and drop GUI within a dynamically generated list of document identifiers
US6832218B1 (en) * 2000-09-22 2004-12-14 International Business Machines Corporation System and method for associating search results
EP1394692A1 (en) * 2002-08-05 2004-03-03 Alcatel Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal
US20040059584A1 (en) * 2002-09-25 2004-03-25 Songyee Yoon Method for collecting and sharing knowledge in an organization
US20050177555A1 (en) * 2004-02-11 2005-08-11 Alpert Sherman R. System and method for providing information on a set of search returned documents
WO2007002820A2 (en) * 2005-06-28 2007-01-04 Yahoo! Inc. Search engine with augmented relevance ranking by community participation
US7756855B2 (en) * 2006-10-11 2010-07-13 Collarity, Inc. Search phrase refinement by search term replacement
US7765199B2 (en) * 2006-03-17 2010-07-27 Proquest Llc Method and system to index captioned objects in published literature for information discovery tasks
US20080086496A1 (en) * 2006-10-05 2008-04-10 Amit Kumar Communal Tagging
US20080104542A1 (en) * 2006-10-27 2008-05-01 Information Builders, Inc. Apparatus and Method for Conducting Searches with a Search Engine for Unstructured Data to Retrieve Records Enriched with Structured Data and Generate Reports Based Thereon
US8099429B2 (en) * 2006-12-11 2012-01-17 Microsoft Corporation Relational linking among resoures
US7809718B2 (en) * 2007-01-29 2010-10-05 Siemens Corporation Method and apparatus for incorporating metadata in data clustering
US20080201632A1 (en) * 2007-02-16 2008-08-21 Palo Alto Research Center Incorporated System and method for annotating documents
US8166056B2 (en) * 2007-02-16 2012-04-24 Palo Alto Research Center Incorporated System and method for searching annotated document collections
US20080208803A1 (en) * 2007-02-27 2008-08-28 Wazap Ag System and method for characterising a web page
US7818320B2 (en) * 2007-05-31 2010-10-19 Yahoo! Inc. Enhanced search results based on user feedback relating to search result abstracts
US9081779B2 (en) * 2007-08-08 2015-07-14 Connectbeam, Inc. Central storage repository and methods for managing tags stored therein and information associated therewith
US8280892B2 (en) * 2007-10-05 2012-10-02 Fujitsu Limited Selecting tags for a document by analyzing paragraphs of the document
US20090249178A1 (en) * 2008-04-01 2009-10-01 Ambrosino Timothy J Document linking
US8799294B2 (en) * 2008-05-15 2014-08-05 International Business Machines Corporation Method for enhancing search and browsing in collaborative tagging systems through learned tag hierarchies

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101073080A (zh) * 2004-12-09 2007-11-14 国际商业机器公司 推荐搜索引擎关键词
WO2008016264A1 (en) * 2006-08-01 2008-02-07 Eun Suk Jeong System for web site searching and the method thereof
CN101694666A (zh) * 2009-07-17 2010-04-14 刘二中 文件内容的特征词的输入和处理方法

Also Published As

Publication number Publication date
US20120271810A1 (en) 2012-10-25
US20180004850A1 (en) 2018-01-04
CN101694666A (zh) 2010-04-14
CN101694666B (zh) 2011-03-30
US20150186540A1 (en) 2015-07-02

Similar Documents

Publication Publication Date Title
WO2011006412A1 (zh) 文件内容的特征词的输入和处理方法
US11294970B1 (en) Associating an entity with a search query
US11023510B2 (en) Apparatus and method for displaying records responsive to a database query
US6944609B2 (en) Search results using editor feedback
CN101652779B (zh) 与搜索查询相关的搜索宏建议
US8280878B2 (en) Method and apparatus for real time text analysis and text navigation
WO2009154153A1 (ja) 文書検索システム
US20060248078A1 (en) Search engine with suggestion tool and method of using same
US20120323905A1 (en) Ranking data utilizing attributes associated with semantic sub-keys
JP2008511075A5 (zh)
US20070192305A1 (en) Search term suggestion method based on analysis of correlated data in three dimensions
US20110119261A1 (en) Searching using semantic keys
CN101201841A (zh) 电子文本处理与检索的便捷方法和系统
US20120317141A1 (en) System and method for ordering of semantic sub-keys
US9875298B2 (en) Automatic generation of a search query
WO2014012443A1 (zh) 参考文件导引信息的输入和处理方法
EP2300946A1 (en) A method for classifying information elements
US20090083312A1 (en) Document composition system and method
WO2008098467A1 (fr) Procédé et système pratiques de traitement et d'extraction de texte électrique
US20120317103A1 (en) Ranking data utilizing multiple semantic keys in a search query
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
US20140059035A1 (en) Process for generating a composite search document used in computer-based information searching
US9507850B1 (en) Method and system for searching databases
EP1158424A1 (en) A system and method for publishing and categorising documents on a network
CN101957831A (zh) 文件内容的特征词的输入和处理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10799410

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 13384592

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 10799410

Country of ref document: EP

Kind code of ref document: A1