WO2008032780A1 - Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci - Google Patents

Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci Download PDF

Info

Publication number
WO2008032780A1
WO2008032780A1 PCT/JP2007/067831 JP2007067831W WO2008032780A1 WO 2008032780 A1 WO2008032780 A1 WO 2008032780A1 JP 2007067831 W JP2007067831 W JP 2007067831W WO 2008032780 A1 WO2008032780 A1 WO 2008032780A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
information
similarity
group
same
Prior art date
Application number
PCT/JP2007/067831
Other languages
English (en)
French (fr)
Inventor
Kenji Tateishi
Dai Kusui
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US12/310,975 priority Critical patent/US8606779B2/en
Priority to JP2008534383A priority patent/JP5115741B2/ja
Publication of WO2008032780A1 publication Critical patent/WO2008032780A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing

Definitions

  • the present invention relates to an information search method and a similarity calculation technique, and more particularly, a method for searching for information that does not exceed a predetermined similarity and a similarity calculation using the search method without omission of verification.
  • the present invention relates to a technique that is an exact solution and is performed at high speed.
  • DB Duplicate Record Matching refers to grouping virtually the same records in the DB, such as data cleaning when integrating customer DBs that contain notational fluctuations managed by different people, locations and methods, Necessary for deleting duplicate contact center contact cases. By considering one record as one document, it can be regarded as the same document matching problem.
  • Topic analysis means grouping written data such as blogs, and it is necessary to understand when and where a topic is talking about.
  • the same document collation system inputs a target document set and a similarity threshold which is a condition regarded as substantially the same, and outputs the same document group.
  • a similarity threshold which is a condition regarded as substantially the same
  • all documents are composed of 10 alphabetic characters, and the similarity between document X and document y is 90%.
  • the system outputs a pair of two different documents having a similarity of 90% or more as shown in FIG. 1 (b) as the same document group.
  • (c) in Fig. 1 where document pairs including common documents are integrated may be used as the same document group.
  • Non-patent Document 1 Section 2.5.7
  • the similarity of all document pairs is calculated in advance (stepl).
  • the documents are hierarchically grouped by integrating sequentially from the document pair with the highest similarity (step 2).
  • the same document group can be obtained by calculating the similarity of all two different document pairs and then leaving only the document pairs that are equal to or higher than the similarity threshold, as in stepl.
  • Non-patent Document 2 As another conventional technique for realizing the same document collation system, there is a technique using DB duplicate record collation (Non-patent Document 2). This method first sorts the records in each DB, then calculates the similarity of each sorted record and the record pair of the preceding n records, and records pairs whose similarity is equal to or greater than the threshold are duplicated. It is a technique to do.
  • Non-Patent Document 1 Takenobu Tokunaga, "Language and Computation 5 Information Retrieval and Language Processing", published by the University of Tokyo
  • Non-Patent Document 2 Mauricio A. Hernandez and Salvatore J. Stolfo, The Merge / Purge Prob for Large Databases ", Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data pp.127-138, 1995.
  • Non-Patent Document 3 Jain, A.., Murty M.N., and Flynn P.J., "Data Clustering: A Review", ACM Computing Surveys, Vol 31, No. 3, 264-323, 1999.
  • Non-Patent Documents 1 and 2 are that it is difficult to keep the collation time short and to reduce collation omissions.
  • Non-Patent Document 1 calculates the similarity of all two different document pairs, so there is no collation failure, but the combination explosion occurs when the number of documents to be collated increases. It takes a lot of time to match up.
  • Non-Patent Document 3 requires the designation of the same document group number, but it is difficult for the user to predict the number of identical document groups included in the collation target document set in advance. Also, since the collation time is proportional to the number of identical document groups specified, it is difficult to keep the collation time short as the number of identical document groups increases.
  • the present invention has been invented in view of the above-mentioned problems, and its purpose is to perform a search, a kind of search that can reduce the number of times of calculation of similarity necessary for calculating the similarity of information. It is to provide a technique for calculating similarity.
  • the purpose is to realize the same document collation system that does not require specification of the same document group number in advance, is a rigorous solution with no collation omission, and is high even if the number of the same document group is large. There is to do.
  • the present invention that solves the above-described problem is a search method for searching for an information pair that does not exceed a predetermined similarity, and the information that constitutes the information because the information pair is at least a predetermined similarity
  • the ratio of elements common to information is obtained, the number of information elements selected for each information based on the ratio is determined, and according to the priority order of information elements commonly applied to the information group to be collated,
  • Each information power is characterized by selecting the selected number of information elements and searching for information pairs in which the selected information elements are not all common among the information.
  • the present invention for solving the above-described problem is a similarity calculation method for calculating the similarity of an information pair having a predetermined similarity or higher, and the information pair has at least a predetermined similarity.
  • the information elements that make up the information are calculated in common, and the number of information elements selected for each information based on the ratio is determined. Select the selected number of information elements from the information according to the priority order of the information elements, and calculate the similarity for information pairs other than the information pair where the selected information elements are all in common among the information. It is characterized by performing.
  • the present invention that solves the above-described problem is a similarity calculation system that calculates the similarity of an information pair that is equal to or higher than a predetermined similarity, and is commonly applied to information groups that are targets of similarity calculation.
  • the priority storage unit storing the priority order of the information elements constituting the information and the information pair of the information is at least a predetermined similarity, so that the ratio of the information elements common to the information is obtained. Determining the number of information elements selected for each information based on the ratio, and according to the priority order, the information elements selecting means for selecting the information elements of the number of selected information elements and the selected information element between the information It is characterized by having similarity calculation means for calculating similarity for information pairs other than V and information pairs that are common to all.
  • the present invention for solving the above-mentioned problem is an identical document collation system for grooving a substantially identical document group between given documents, and is substantially identified by a word or a character.
  • the same document candidate group which is a group of documents that are the same candidate, and the same document candidate group storage unit that stores the correspondence between the documents belonging to the group, and at least a predetermined similarity threshold between documents Therefore, the ratio of words or characters in common between documents is calculated, and based on this ratio, words or characters are selected and selected with the same priority among all documents to be verified.
  • the same document candidate group creating means for associating the document with the same document candidate group identified by each word or character and storing the document in the same document candidate group storage unit.
  • the present invention for solving the above-mentioned problem is a similarity calculation program for calculating the similarity of an information pair having a predetermined similarity or higher, and the information pair has at least a predetermined similarity or higher.
  • a process for obtaining the ratio of information elements composing information in common between the information a process for determining the number of information elements selected for each information based on the ratio, and a group of information for which similarity is to be calculated.
  • the information processing is caused to execute a process of calculating the similarity.
  • the present invention for solving the above-described problem is an identical document collation program for grooving a substantially identical document group between given documents, and at least exceeds a predetermined similarity threshold value between documents.
  • the effect of the present invention is to reduce the number of times of calculation of similarity necessary for calculating the similarity of information.
  • the reason for this is the ability to search for information pairs below the similarity threshold that are not subject to similarity calculation and to remove those information pairs from the similarity calculation target.
  • the effect of the present invention is that the number of groups must be specified in advance, and there is no strict matching without omission. It is a secret solution, and even if the number of groups is large, it is possible to collate the same document at high speed.
  • the reason for the high speed is to limit the document pairs that are subject to similarity calculation to those that belong to the same candidate document group.
  • FIG. 1 is a diagram for explaining the background art.
  • FIG. 2 is a diagram for explaining the background art.
  • FIG. 3 is a diagram for explaining the outline of the invention.
  • FIG. 4 is a block diagram showing a configuration of the first exemplary embodiment of the present invention.
  • FIG. 5 is a flowchart showing the operation of the first exemplary embodiment of the present invention.
  • FIG. 6 is a storage example of the word storage unit 20 according to the first embodiment of the present invention and the target database 3 according to the second embodiment.
  • FIG. 7 is a storage example of the priority order storage unit 21 of the first embodiment and the second embodiment of the present invention.
  • FIG. 8 is a flowchart showing the operation of the same document candidate group creation means 11 of the first exemplary embodiment of the present invention.
  • FIG. 9 is a storage example of the same document candidate group storage unit 22 according to the first embodiment of this invention.
  • FIG. 10 is a flowchart showing the operation of the first identical document group creating means 12 in the first exemplary embodiment of the present invention.
  • FIG. 11 is a diagram showing an example of similarity calculation according to the first embodiment of the present invention.
  • FIG. 12 is a diagram showing a storage example of the output database 5 according to the first embodiment and the second embodiment of the present invention. 13] This is a storage example of the selected word storage unit of the first embodiment of this invention.
  • FIG. 15 is a block diagram showing a configuration of the second exemplary embodiment of the present invention.
  • FIG. 17 is a flowchart showing the operation of the same document candidate group creation means 11 of the second exemplary embodiment of the present invention.
  • FIG. 20 is a diagram showing an example of similarity calculation according to the second embodiment of the present invention.
  • Sono 21 is a storage example of the selected character storage unit of the second embodiment of the present invention.
  • FIG. 22 is a flowchart showing the operation of the second identical document candidate group creation means 12 of the second exemplary embodiment of the present invention.
  • FIG. 23 is a block diagram showing a configuration of a third exemplary embodiment of the present invention.
  • FIG. 24 is a flowchart showing the operation of the third exemplary embodiment of the present invention.
  • FIG. 25 is a storage example of the word storage unit 20 according to the third embodiment of the present invention and the target database 3 according to the fourth embodiment.
  • FIG. 26 shows a storage example of the first priority storage unit 21 according to the third embodiment and the fourth embodiment of the present invention.
  • FIG. 27 is a flowchart showing the operation of the first identical document candidate group creating means 11 according to the third embodiment of this invention.
  • FIG. 28 shows an example of storage in the same document candidate group storage unit 22 for the first time according to the third embodiment and the fourth embodiment of the present invention.
  • FIG. 29 shows a storage example of the first selected document storage unit according to the third embodiment of the present invention and the first selected character storage unit according to the fourth embodiment.
  • FIG. 30 shows the second priority storage unit 2 in the third and fourth embodiments of the present invention. This is a storage example of 1.
  • FIG. 31 is a diagram showing a processing image of second identical document candidate group creation means of the third exemplary embodiment and the fourth exemplary embodiment of the present invention.
  • FIG. 32 is a storage example of the same document candidate group storage unit 22 for the second time according to the third embodiment and the fourth embodiment of the present invention.
  • FIG. 33 shows a storage example of a second selected document storage unit according to the third embodiment of the present invention and a second selected character storage unit according to the fourth embodiment.
  • FIG. 34 is a flowchart showing the operation of the same document group creation means 12 of the third exemplary embodiment of the present invention.
  • FIG. 35 shows the first or second embodiment and the third or third embodiment of the present invention.
  • FIG. 36 is a block diagram showing a configuration of the fourth exemplary embodiment of the present invention.
  • FIG. 37 is a flowchart showing the operation of the fourth exemplary embodiment of the present invention.
  • FIG. 38 is a flowchart showing the operation of the same document group creation means 12 of the fourth exemplary embodiment of the present invention.
  • an example of information may be an image, a sound, and the like, and a specific pattern in the image, a specific sound, or the like may be considered as an information element constituting the information.
  • the priority order of characters common to five documents is determined. For example, as shown in Fig. 3 (d), a character with a smaller number of appearing documents in the entire document group is set to have a higher priority. If the number of appearing documents is the same, it is assumed that the priority order is higher for young characters in alphabetical order.
  • the ratio of characters shared between the documents is obtained, and the number of characters to be selected from one document is determined based on this ratio.
  • Example of Fig. 3 (a) In document 1 and document 2, the document pair with document 1 has a common character I and document 3 has a document pair I with a common character, and document 1 and document 4 has a document pair with a common character. A is common to document 5 and document pair. Document 2 and Document 3 have the same L, Document 2 and Document 4 have the same K and L, and Document 2 and Document 5 have the same character. Absent. In addition, L is common in the document pair of Document 3 and Document 4, and there is no common character in the document pair of Document 3 and Document 5. In addition, there is no common character in the document pair of document 4 and document 5.
  • a document pair that has no common character is a document pair of Document 1 and Document 2, a document pair of Document 1 and Document 4, a document pair of Document 2 and Document 5, and a document 3 and Document 5.
  • the priority of characters in document X is ⁇ xl, x2 ⁇ > ⁇ yl, y2 ⁇ . This is inconsistent with the fact that the priority order of the selected characters differs between document X and document y, and the priority order of the selected characters is uniquely defined among all documents. The same applies when document y and document X are replaced.
  • the similarity threshold is set as described above.
  • the ratio calculation method searches for document pairs that do not include the predetermined similarity threshold and do not exceed the predetermined similarity threshold. May be.
  • the priority of characters common to the documents is the search processing for different document groups. Even if it is decided for each reason, it is good.
  • the number of similarities can be reduced by using the present invention.
  • a predetermined similarity such as a document matching system.
  • the present invention when calculating the similarity of a document pair that has a similarity of 90% or higher, the document pair that does not have a similarity of 90% or higher is excluded from the similarity calculation target.
  • the number of similarities can be reduced.
  • di ⁇ ti
  • the edit distance between di and dj means the minimum number of insertions or deletions required to convert from di to dj or from dj to di, and the distance is smaller! / / Means that
  • a document collation system that is a typical information collation will be described as an example.
  • the configuration of the same document matching system differs depending on whether the document is handled as a set of words or a set of characters. Therefore, in the first embodiment, the document is set as a set of words.
  • the second embodiment a system for handling a document as a set of characters will be described.
  • the same document collation system according to the first embodiment includes a data processing device 1 that operates under program control as shown in FIG. 4, a storage device 2 that stores information, a target database 3, and a keyboard. Input device 4 and output database 5.
  • the target database 3 is a so-called database, and stores a plurality of documents. It may be a single database or a database obtained by virtually merging multiple databases.
  • a user of the same document matching system inputs a similarity threshold. If the similarity between two document pairs is equal to or greater than this similarity threshold, they are regarded as the same document.
  • the data processing apparatus 1 includes a document analysis unit 10, an identical document candidate group creation unit 11, and an identical document group creation unit 12.
  • the document analysis means 10 extracts a word group included in each document stored in the target database 3, stores it in the word group storage unit 20, and further, all the words related to all words appearing in the target database 3.
  • the priority order common to the documents is determined and stored in the priority order storage unit 21.
  • the document analysis means 10 for determining the priority is provided. However, when the previously used priority is used (the priority is already stored in the priority storage unit 21). If stored), the function of determining the priority of the document analysis means 10 is not required.
  • the same document candidate group creating means 11 has at least one of the word groups included in the document stored in the word group storage unit 20 between documents input from the input device 4 and having a similarity threshold value or more.
  • a group of words that are always in common are stored in the same order stored in the priority storage unit 21. After selecting documents with the same priority for all documents to be collated, add the document to the same document candidate group with each word selected by referring to the same document candidate group storage unit 22 as the ID. To do.
  • the same document group creating means 12 calculates the similarity of the document pairs belonging to the same same document candidate group stored in the same document candidate group storage unit 22 with reference to the word group storage unit 20.
  • the document pairs input from the input device 4 that are equal to or higher than the similarity threshold are determined to be the same document group, or the document groups that are integrated with the document pairs that are equal to or higher than the similarity threshold including the common document are determined as the same document group.
  • the result is stored in the target database 3.
  • the storage device 2 includes a word group storage unit 20, a priority order storage unit 21, and an identical document candidate group storage unit 22. It is desirable to store the storage device 2 in the memory for the sake of speeding up the processing! /, Even if it is a magnetic storage medium such as an HDD.
  • the word group storage unit 20 stores a correspondence relationship between a document and a word group included in the document.
  • the priority storage unit 21 stores the correspondence between words and their priorities.
  • the same document candidate group storage unit 22 stores the correspondence between the same document candidate group and the document.
  • the output database 5 stores correspondences between documents and the same document group.
  • the document analysis means 10 extracts a word group included in each document stored in the target database 3, stores it in the word group storage unit 20, and further, all words appearing in the target database 3.
  • the priority order common to all the documents concerning is determined and stored in the priority order storage unit 21 (step Sl).
  • the step of determining the priority order is not necessary.
  • the word group extracted from the document is a word group cut out by morphological analysis of the document. Cut Of the extracted word groups, only word groups having specific parts of speech such as nouns, adjective verbs, adjectives, verbs, and unknown words may be used. For example, in the case of a document “search by information search”, ⁇ information, search ⁇ is a word group. Thus, since the number of occurrences of a word in a document is not used in later processing, even when multiple occurrences of the same word appear in one document, one of them may be used as a word group.
  • FIG. 6 shows an example of storage in the word group storage unit 20.
  • each word is symbolized as an alphabet, and the columns are listed for each alphabet.
  • the same document candidate group creation means 11 can be used to reduce the number of documents registered in the same document candidate group. It is possible to reduce the number of similarity calculations in the document group creation means 12.
  • FIG. 7 shows an example of storage in the priority order storage unit 21.
  • the correspondence between the word, the number of appearing documents, and the priority order is stored. If the number of appearing documents is the same as the number of appearing documents is smaller, the priority of the words is the same as the younger word of the character code, i.e. younger in alphabetical order! RU
  • the same document candidate group creating means 11 includes at least a word group included in the document stored in the word group storage unit 20 between documents equal to or higher than the similarity threshold input from the input device 4. After selecting a word group of a type that always has one in common with all the documents that are the same document collation target stored in the priority storage unit 21, the same word candidate group storage unit 22 The document is added to the same document candidate group with each word selected with reference to ID as the ID (step S2).
  • step S20 a document having the first document ID stored in the word group storage unit 20 is selected (step S20).
  • the order in which the documents are selected is irrelevant to the practice of the present invention and can be in any order! /.
  • a word group of a type in which at least one of the words input from the input device 4 is equal to or higher than the similarity threshold is necessarily stored in the priority storage unit 21. Selection is made with a priority that is common to all the documents that are to be collated with the same document (step S21).
  • the similarity is calculated with the cosine similarity of Theorem 1-2.
  • the word group selected from the document i follows theorem 1-2.
  • the word selected from the document 1 in the word group storage unit 20 in FIG. 6 is in accordance with Theorem 1-2 (the number of different words to be selected).
  • Theorem 1-2 the number of different words to be selected.
  • choose 4 which is the smallest number of words that satisfy 1 0 ⁇ 75 '2.
  • the number of words to be selected from document 2 should be selected in accordance with Theorem 1-2 (the number of different words to be selected) / 5> 1 0 ⁇ 75 '2. Good.
  • the number of words to be selected from document 3 is selected according to Theorem 1-2, (the number of different words to be selected) / 7 which is the smallest number of words satisfying 7> 1 0 ⁇ 75 '2. That's fine.
  • the number of words to be selected from document 4 is selected according to Theorem 1-2 (the number of different words to be selected), which is the smallest number of words satisfying (6> 1 0 ⁇ 75 '2). That's fine.
  • the word you select from document 6 follows Theorem 1-2 ( The number of different words to select) / 2> 1 0. 75 'Select the smallest number of different words that satisfies 2.
  • the order of words to be selected from the document i follows the priority order stored in the priority order storage unit 21.
  • the four words selected from document 1 are ⁇ A, I, B, C ⁇ .
  • step S22 a word having the first word ID in the word group selected in step S21 is selected.
  • the order in which the words are selected is irrelevant to the practice of the present invention and can be in any order! /.
  • step S23 it is referred to whether there is an identical document candidate group with the word j as an ID in the identical document candidate group storage unit 22 (step S23). If it does not exist, a new document candidate group with the word j as an ID is created, and document i is added to it (step S24). If it exists, the document i is added to the same document candidate group with the word j as an ID (step S25).
  • the same document candidate group creating means 11 sends ⁇ A, I, B, C ⁇ from the documents 1 to ⁇ G, L, E ⁇ from Document 3, ⁇ I, B, C, D ⁇ , Document 4 from ⁇ G, K, L ⁇ , Document 5 from ⁇ A, M, B, C ⁇ , Document 6 from ⁇ K ⁇ is selected and stored in the same document candidate group storage unit 22 as shown in FIG.
  • the same document group creating means 12 refers to the same document candidate group storage unit 22 and uses the word group storage unit to calculate the similarity between pairs of documents belonging to the same document candidate group.
  • the similarity threshold input from the input device 4 or more A document group that is the same document group or a document group that includes a common document and that is equal to or higher than the similarity threshold is determined as the same document group, and the result is stored in the target database 3 (step S3). ).
  • Step S3 the operation (step S3) of the same document group creating means 12 will be described in detail.
  • Step S3 can be operated in two ways. First, the first will be described with reference to FIG.
  • a word having the first word ID stored in the same document candidate group storage unit 22 is selected (step S310).
  • the order in which the words are selected is irrelevant to the practice of the present invention and may be any order.
  • a document having the first document ID is selected from the same document candidate group having the word i as an ID (step S311).
  • the order in which the documents are selected is irrelevant to the practice of the present invention and may be any order.
  • IDs of document 1 to document m are assigned to documents in the same document candidate group with word i as the ID, and the j-th document appears in document j.
  • the similarity between the document j and the document k is obtained by referring to the word group storage unit 20, and when the similarity is equal to or higher than the similarity threshold input from the input device 4, it is output as the same document group Register in database 5 (step S313).
  • the similarity calculation formula is the same as that for the same document candidate group creation means 11 in step S2.
  • the same document group creation means 12 selects ⁇ document 1, document 5 ⁇ , single document group of the same document candidate group with the word A as an ID in the same document candidate group storage unit 22 in FIG.
  • the same result can be output in 11 times.
  • the description of the same document group creation means 12 in step S3 employs a simple method of calculating the similarity degree repeatedly even for the same document pair. Keep the same document pair only once. For example, ⁇ Document;!, Document 5 ⁇ calculates the similarity between the group of word A, the group of word B, and the group of words C. If so, there is no need to calculate for other groups. At this time, the same document group creating means 12 in step S3 only has to calculate the similarity five times for the same document candidate group storage unit 22 in FIG.
  • each document pair that is equal to or greater than the similarity threshold is assigned to the same document group. And store it.
  • Each record means one identical document group.
  • (B) stores a group of documents in which document pairs with a similarity threshold or higher including common documents are integrated as the same document group.
  • the field value in the first column means one identical document group.
  • (c) stores a group of documents whose similarity to a document is equal to or greater than a threshold as the same document group for the document.
  • the document ID in the first column means the same document group for that document ID.
  • document 4 is registered for document 3 and document 5 1S document 2 as the same document group for document 1.
  • step S3 the same document candidate group creation means 11 in step S2 needs to output the correspondence between each document and the selected word group to the selected word storage unit. is there.
  • An example of the selected word storage unit is shown in FIG.
  • the document having the first document ID stored in the selected word storage unit is selected (step S320).
  • the order in which documents are selected is irrelevant to the practice of the present invention and can be in any order! /.
  • a logical OR document group of the same document candidate group using each selected word of the document i as an ID is obtained (step S321).
  • document i document 1
  • the selected word of document 1 is ⁇ A, B, C, 1 ⁇ with reference to FIG.
  • the document group of the same document candidate group with each selected word as an ID referring to FIG. 9, is ⁇ document;!, Document 5 ⁇ for word A and ⁇ document;!, Document 3, document 5 ⁇ for word B
  • the word C is ⁇ Document 1, Document 3, Document 5 ⁇
  • the word I is ⁇ Document 1, Document 3 ⁇ .
  • step S322 the document j is extracted from the document group obtained in step S321 (step S322).
  • the order in which the documents are retrieved is irrelevant to the practice of the present invention and may be in any order.
  • step S323 the similarity between document i and document j is calculated, and if it is equal to or greater than the similarity threshold, it is registered in the output database 5 as the same document group (step S323).
  • the similarity calculation formula is the same as that of the same document candidate group creation means 1 1 in step S2, but this is the same as the operation of the first same document group creation means 12 and is omitted. .
  • step S322 if there is a remainder in the logical sum word group obtained in step S322, the process returns to step S322, and if there is no remainder, the process proceeds to step S325 (step S324).
  • the logical OR word group is ⁇ Document;!, Document 3, Document 5 ⁇ , the logical OR word group for Document 4 is ⁇ Document 2, Document 4, Document 6 ⁇ , and the logical OR word group for Document 5 is ⁇ Document ;, Document 3, Document 5 ⁇ , and the logical OR word group for Document 6 is ⁇ Document 4, Document 6 ⁇ , and the similarity is ⁇ Document 1, Document 3 ⁇ , ⁇ Document 1, Document 5 ⁇ , Calculate ⁇ Document 2, Document 4 ⁇ , ⁇ Document 3, Document 5 ⁇ , ⁇ Document 4, Document 6 ⁇ a total of 5 times, and output the same document group to the output database 5 as shown in Figure 12.
  • the present invention as described above is a rigorous solution that requires no specification of the number of groups in advance and has no matching omission, and can collate the same document at high speed even when the number of groups is large.
  • the reason for the high speed is to limit the document pairs to be subjected to similarity calculation to the document pairs belonging to the same candidate document group.
  • the reason for the exact solution with no omission is the creation of a document group by selecting at least one type of word group that is always in common among documents that are equal to or higher than the similarity threshold among the word groups included in the document. This is because it is used.
  • the reason why the number of documents is high is that the same document group number is given in advance! /, And the same document group can be created without it.
  • the same document candidate group creation means 11 can reduce the number of documents registered in the same document candidate group, so that the same document group creation means 12 can reduce the number of times of similarity calculation.
  • the same document collation system includes a data processing device 1 that operates under program control, a storage device 2 that stores information, a target database 3, a keyboard, and the like. Input device 4 and output database 5.
  • the target database 3 is the same as in the first embodiment.
  • the input device 4 is the same as that of the first embodiment.
  • the data processing apparatus 1 includes a document analysis unit 10, an identical document candidate group creation unit 11, and an identical document group creation unit 12.
  • the document analysis means 10 determines the priority order common to all the documents related to all characters appearing in the target database 3 and stores them in the priority order storage unit 21.
  • the document analysis means 10 for determining the priority order is provided. However, when the previously used priority order is used, The function for determining the priority of the document analysis means 10 is not necessary (when the priority is already stored in the priority storage unit 21! /).
  • the same document candidate group creation means 11 must always have at least one of the character groups included in the documents stored in the target database 3 between documents input from the input device 4 and having a similarity threshold value or more. After selecting a common number of character groups with a priority that is common to all documents to be collated in the same document stored in the priority storage unit 21, refer to the same document candidate group storage unit 22. The document is added to the same document candidate group with each selected character as an ID.
  • the same document group creating means 11 calculates the similarity of a document pair belonging to the same same document candidate group stored in the same document candidate group storage unit 22 with reference to the target database 3, and the input device Document pairs with similarity thresholds or higher entered from 4 are set as the same document group, or document groups that combine document pairs with similarity thresholds or higher that include common documents are determined as the same document group, and the result Is stored in the target database 3.
  • the storage device 2 includes a priority order storage unit 21 and an identical document candidate group storage unit 22.
  • Storage device 2 is preferably stored in memory for the sake of speeding up the processing, but may be a magnetic storage medium such as HDD.
  • the priority storage unit 21 is the same as that in the first embodiment.
  • the same document candidate group storage unit 22 is the same as in the first embodiment.
  • the output database 5 is the same as in the first embodiment.
  • the document analysis means 10 determines a priority common to all the documents related to all characters appearing in the target database 3, and stores the priority in the priority storage unit 21 (step Sl).
  • the priority order is determined in the process of creating the same document group. However, in the previous process of creating the same document group, In this case, the step of determining the priority order is not necessary.
  • FIG. 7 shows a storage example of the priority order storage unit 21 obtained with reference to the target database 3 of FIG.
  • the correspondence between the characters, the number of appearing documents, and the priority order is stored. If the number of appearance documents is the same as the number of appearance documents is smaller, The lower the character code, that is, the younger the alphabet, the higher the priority.
  • the same document candidate group creating means 11 has at least one of the character groups included in the documents stored in the target database 3 among documents having a similarity threshold value or more input from the input device 4. After selecting a group of characters that must be in common with the same priority order for all documents to be collated in the same document stored in the priority order storage unit 21, refer to the same document candidate group storage unit 22. The document is added to the same document candidate group with each character selected as an ID (step S2).
  • step S2 the details of the operation (step S2) of the same document candidate group creation means 11 will be described with reference to FIG.
  • the document having the first document ID stored in the target database 3 is selected (step S20).
  • the order in which documents are selected is irrelevant to the practice of the present invention and can be in any order! /.
  • step S21 a number of character groups in which at least one of the characters input from the input device 4 is equal to or higher than the similarity threshold is necessarily stored in the target database 3.
  • the same priority order is selected for all documents that are subject to the same document collation (step S21).
  • the case of calculating the similarity with the similarity of Theorem 2-2 will be described.
  • the number of characters to select from document i follows Theorem 2-2.
  • the character to be selected from document 1 of target database 3 in FIG. 6 is (number of characters to be selected) / 9> 1 according to Theorem 2-2.
  • Select 4 characters which is the minimum number of characters that satisfy 0.75 / (2-0.75).
  • the number of characters to be selected from document 2 is selected according to Theorem 2-2, which is the minimum number of selected characters satisfying (number of characters to be selected) / 5/5 1 0.75 / (2-0.75). do it.
  • the number of characters to be selected from document 3 is selected according to Theorem 2-2, which is the minimum number of selected characters that satisfies (number of characters to be selected) / 7> 1 0.75 / (2-0.75). That's fine.
  • the character to be selected from Document 4 is the smallest selection satisfying (the number of characters to be selected) / 6/6 1 0.75 / (2-0.75) according to Theorem 2-2. Just select 3 characters.
  • the number of characters to be selected from Document 5 is selected according to Theorem 2-2, which is the minimum number of selected characters satisfying (number of characters to be selected) / 7/7 1 0.75 / (2-0.75). do it.
  • the character to be selected from Document 6 is the minimum number of selected characters that satisfies (number of characters to be selected) / 2> 1 0.75 / (2-0.75). Just choose.
  • the order of characters selected from the document i follows the priority order stored in the priority order storage unit 21.
  • the four characters selected from document 1 are ⁇ A, I, B, C ⁇ .
  • step S22 the character having the first character ID of the character group selected in step S21 is selected (step S22 in FIG. 17).
  • the order in which the characters are selected is irrelevant to the practice of the present invention and may be any order.
  • characters are assigned IDs from character 1 to character m
  • the jth character is represented by character j
  • character j is selected from character 1 It will be explained as being done.
  • the same document candidate group storage unit 22 is referred to whether there is an identical document candidate group with the letter j as an ID (step S23). If it does not exist, a new document candidate group with the character j as an ID is created, and document i is added to it (step S24). If it exists, the document i is added to the same document candidate group with the character j as an ID (step S25 in FIG. 17).
  • the same document candidate group creation means 11 in step S2 has been described.
  • the similarity threshold value is 75%
  • the same document candidate group creation means 11 creates documents 1 to ⁇ A, I, B, C ⁇ and documents 2 to ⁇ G, L, E ⁇ in the target database 3 in FIG. Select ⁇ I, B, C ⁇ from Document 3, Document 4 Force, et ⁇ G, K, L ⁇ , ⁇ A, M, B ⁇ from Document 5, ⁇ K ⁇ from Document 6, Is stored in the same document candidate group storage unit 22 as shown in FIG.
  • the same document group creation means 12 refers to the same document candidate group storage unit 22 and calculates the similarity of the document pairs belonging to the same same document candidate group with reference to the target database 3, and Document pairs input from the input device 4 that are equal to or higher than the similarity threshold are determined to be the same document group, or document groups that are integrated with document pairs that are equal to or higher than the similarity threshold and include common documents are determined as the same document group.
  • the result is stored in the target database 3 (step S3).
  • step S3 the details of the operation in step S3 will be described. Note that there are two methods of operation in step S3, and the first will be described with reference to FIG.
  • step S310 the character having the first character ID stored in the same document candidate group storage unit 22 is selected.
  • the order in which the characters are selected is irrelevant to the practice of the present invention and may be any order.
  • the document having the first document ID is selected from the same document candidate group having the character i as an ID (step S311).
  • the order in which the documents are selected is irrelevant to the practice of the present invention and may be any order.
  • the IDs of documents 1 to m are assigned to documents in the same document candidate group with the letter i as the ID, and the jth document is expressed as document j.
  • the similarity between the document j and the document k is obtained by referring to the target database 3. If the similarity is equal to or higher than the similarity threshold input from the input device 4, the output database is set as the same document group. 5 is registered (step S313).
  • the similarity calculation formula is the same as that for the same document candidate group creation means 11 in step S2. For example, if the similarity between document 1 and document 5 registered in the same document group with the letter A in the same document candidate group storage unit 22 in FIG.
  • the same document group creating means 12 uses ⁇ Document 1, Document 5 ⁇ of the same document candidate group with the letter A as an ID in the same document candidate group storage unit 22 in FIG. ⁇ Document 1, Document 3 ⁇ , ⁇ Document 1, Document 5 ⁇ , ⁇ Document 3, Document 5 ⁇ , Character C group ⁇ Document;!, Document 3 ⁇ , Character G group ⁇ Document 2, Document 4 ⁇ , Letter I Gnorape ⁇ Document 1, Document 3 ⁇ , Character K Group ⁇ Document 4, Document 6 ⁇ , Character L Group ⁇ Document 2, Document 4 ⁇ Is calculated nine times (see Fig. 20 for the similarity calculation result), and the same document group is output to the output database 5 as shown in Fig. 12.
  • the same result can be output.
  • the description of the same document group creation means 12 in step S2 employs a simple method of calculating the similarity degree repeatedly even for the same document pair. Keep the same document pair only once. At this time, the same document group creation means 12 in step S3 only needs to calculate the similarity five times with respect to the same document candidate group storage unit 22 in FIG.
  • step S3 the second operation of step S3 will be described in detail with reference to FIG.
  • step S320 a document having the first document ID stored in the selected character storage unit is selected (step S320).
  • the order in which documents are selected is irrelevant to the practice of the present invention and can be in any order! /.
  • a logical OR document group of the same document candidate group with each selected character of document i as an ID is obtained (step S321).
  • document i document 1
  • the selected character of document 1 is ⁇ A, B, C, 1 ⁇ with reference to FIG.
  • the document group of the same document candidate group with each selected character as an ID referring to FIG. 18, ⁇ document;!, Document 5 ⁇ for character A, ⁇ document;!, Document 3, document 5 for character B ⁇
  • the letter C is ⁇ document;!, Document 3 ⁇
  • the letter I is ⁇ document;!, Document 3 ⁇ .
  • step S322 the document j is extracted from the document group obtained in step S321 (step S322).
  • the order in which the documents are retrieved is irrelevant to the practice of the present invention and may be in any order.
  • step S323 the similarity between document i and document j is calculated, and if it is greater than or equal to the similarity threshold, it is registered in the output database 5 as the same document group (step S323).
  • document i document 1
  • the similarity will be calculated.
  • the calculation formula for similarity is the same as that for the same document candidate group creation means 11 in step S2, but this is the same as the operation of the first same document group creation means 12 and is omitted.
  • step S321 if there is a remainder in the logical sum character group obtained in step S321, the process returns to step S322, and if there is no remainder, the process proceeds to step S325 (step S324).
  • the logical OR character group for document 1 is ⁇ document 1, document 3, document 5 ⁇
  • the logical OR character set for Document 2 is ⁇ Document 2, Document 4 ⁇
  • the logical OR character set for Document 3 is ⁇ Document 1, Document 3, Document 5 ⁇
  • the logical OR character set for Document 4 is ⁇
  • the logical OR group for Document 2, Document 4, Document 6 ⁇ and Document 5 is ⁇ Document;!, Document 3, Document 5 ⁇ , and the logical OR group for Document 6 is ⁇ Document 4, Document 6 ⁇ .
  • the present invention as described above is a rigorous solution that requires no specification of the number of groups in advance and has no matching omission, and can collate the same document at high speed even when the number of groups is large.
  • the reason for the high speed is to limit the document pairs that are subject to similarity calculation to those that belong to the same candidate document group.
  • the reason for the exact solution without omission is to create a document group by selecting a number of character groups that are at least one in common between documents that are equal to or higher than the similarity threshold among the character groups included in the document. Because it is used for.
  • the reason why the number of the same document groups does not need to be specified in advance and the number of the same document groups is high is that the same document group can be created even if the number of the same document groups is not given in advance. This is possible.
  • the third embodiment of the present invention has the same configuration as that of the first embodiment, but a plurality of identical document candidate groups in which the priority order of the word groups is set based on different criteria.
  • the creation means 11 and a plurality of identical document candidate group storage sections 22 corresponding to the creation means 11 and the same document group creation means 12 are identical to any one of the plurality of identical document candidate group storage sections 22.
  • a document pair having a similarity threshold or higher is made the same document group, or a document group having a similarity threshold or higher including a common document is integrated. Are different from each other in the same document group.
  • FIG. 23 uses two identical document candidate group creation means 11 and will be described as two in the following description of the operation.
  • the present invention is not limited to this. A plurality of the above may be used.
  • step S1 is the operation of the document analysis means 10, and is the same as step S1 of the first embodiment.
  • the priority storage unit 21 stores the priority as shown in FIG.
  • the document analysis means 10 for determining the priority order is provided.
  • the priority order used before is used (When the priority order is already stored in the priority order storage unit 21), the function for determining the priority order of the document analysis means 10 is unnecessary, and the step for determining the priority order is unnecessary.
  • a plurality of priorities are used. However, only some priorities are newly determined, and other priorities are determined without being newly determined. V can be configured using the specified priorities.
  • step S 2 the first identical document candidate group creation means 11 creates the first identical document candidate group.
  • This operation is the same as step S2 in the first embodiment.
  • the same document candidate group creation means 11 is performed for the word group storage unit 20 in the figure in the priority order of the priority order storage unit in FIG. 26 for the first time. Since the similarity threshold is 85%, according to Theorem 1-2, from each document, (the number of different words to be selected) / (the number of different words in the document)> 1 0 ⁇ 85'2 Choose a different number of.
  • the underlined word is selected from each document and stored in the same document candidate group storage unit for the first time as shown in FIG. At this time, the correspondence between each document and the selected word group is output to the first selected word storage unit as shown in FIG.
  • step S4 the priority order of the priority order storage unit 21 is changed using the same document candidate group storage unit 22 for the first time.
  • the power that gave higher priority as the number of word appearance documents was smaller.
  • the number of word appearance documents was smaller, and the first same document candidate group creation means 11 was not selected.
  • Give high priority to the words For example, the number of documents in which the word appears is the same as the first time The smaller the sum of the number of documents selected by the document candidate group creation means 11, the higher the priority.
  • FIG. 30 shows an example in which the priority order of the priority order storage unit 21 is changed using the first same document candidate group storage unit in FIG.
  • the number of occurrences of word A is three, but word A is selected three times in the first identical document candidate group creation means 11, so the sum of the two 6 is used as the score. If the scores are the same, the priority is set higher for the later words in alphabetical order.
  • step S5 the second identical document candidate group creating means 12 creates a second identical document candidate group.
  • This operation is the same as step S2 in the first embodiment.
  • a case will be described in which the same document candidate group creating means is performed for the word group storage unit 20 in FIG. 25 for the second time in the priority order of the priority order storage unit in FIG. Since the similarity threshold power is 5%, according to Theorem 1-2, from each document (number of different words to be selected) / (number of different words in the document)> 1 0 ⁇ 85'2 Select a different number of.
  • the underlined word is selected from each document and stored in the second same document candidate group storage unit as shown in FIG. At this time, the correspondence between each document and the selected word group is output to the second selected word storage unit as shown in FIG.
  • step S3 the same document group creation means 12 has a similarity between the document pairs belonging to any one of the same document candidate groups in all of the same document candidate group storage unit 22.
  • Document pairs that are equal to or higher than the threshold are set as the same document group, or document groups that are integrated with pairs of documents that are equal to or higher than the similarity threshold that include common documents are determined as the same document group, and the result is stored in the target database 3.
  • step S3 of the same document group creation means 12 will be described.
  • step S3 The details of the operation of step S3 will be described with reference to FIG. 34, focusing on the differences from the first embodiment.
  • the document having the first document ID stored in the selected word storage unit is selected (step S320 in FIG. 34). Since only the document ID is used, either the first selected word storage unit or the second selected word storage unit may be used.
  • the order in which the documents are selected is irrelevant to the practice of the present invention and may be in any order.
  • Is assigned the ID of document 1 to document n, and the i-th document is represented by document i.
  • a document group that is a logical sum of the same document candidate group with each selected word as an ID is obtained (step in FIG. 34). S321).
  • document i document 1
  • the first selected word of document 1 is ⁇ A, L ⁇ with reference to FIG.
  • the document group of the same document candidate group with each selected word as an ID is ⁇ document;!, Document 4, document 6 ⁇ for word A, and ⁇ document;!, Document 4 for word L. , Document 7 ⁇ .
  • These logical OR documents are ⁇ Document 1, Document 4, Document 6, Document 7 ⁇ .
  • a logical group of documents of the same document candidate group having each selected word of document i as an ID is obtained (step in FIG. 34). S327).
  • document i document 1
  • the second selected word of document 1 is ⁇ G, L ⁇ with reference to FIG.
  • the document group of the same document candidate group with each selected word as an ID is shown in Fig. 32.
  • step S322 the document j is extracted from the document group obtained in step S328 (step S322 in FIG. 34). Since step S322 and subsequent steps are the same as step S322 and subsequent steps in FIG. 15 of the first embodiment, description thereof will be omitted.
  • the same document candidate group creation unit 11 is used twice. However, it can be easily generalized even when used multiple times.
  • the priority order of the priority order storage unit 21 may be changed using the n-1th same document candidate group storage unit 22 V ,. For example, if the weighted sum of the number of documents that appear in the word and the total number of documents selected by the same document candidate group creation means 11 up to the n-1th time is smaller! Yo! / In other words, the score score (a, n) of the nth word a is
  • Score (a, n) p x (number of occurrences of a) + q x (total number of documents created in the same document candidate group up to n_l times)
  • step S321 and step S327 the process of obtaining the logical OR of the same document group with the selected word of each document i as an ID, such as step S321 and step S327, is performed n times and n logical sums are performed.
  • step S328 the logical product of n logical sums may be obtained.
  • the effect of the present invention is that the same document can be collated faster than the first embodiment while maintaining the effect of the first embodiment.
  • the reason is that the same document group is created by using a plurality of identical document candidate group creation means 11 for setting the priority order of the word groups according to different criteria and a plurality of corresponding identical document candidate group storage units 22.
  • the means 12 is also a force for calculating the similarity only for the document pairs belonging to any one identical document candidate group in all of the plurality of identical document candidate group storage units 22.
  • the fourth embodiment of the present invention has substantially the same configuration as that of the second embodiment, but a plurality of identical document candidate groups in which the priority order of character groups is set based on different criteria.
  • the creation means 11 and a plurality of identical document candidate group storage sections 22 corresponding to the creation means 11 and the same document group creation means 12 are identical to any one of the plurality of identical document candidate group storage sections 22.
  • a document pair having a similarity threshold or higher is made the same document group, or a document group having a similarity threshold or higher including a common document is integrated. Are different from each other in the same document group.
  • FIG. 36 uses two means for creating the same document candidate group.
  • the force S described as two is not necessarily limited to three. A plurality of the above may be used.
  • step S1 is the operation of the document analysis means 10, and is the same as step S1 of the second embodiment.
  • the target database 3 stores character groups included in documents 1 to 10 as shown in FIG.
  • the priority storage unit 21 stores the priorities as shown in FIG. In this description, as in the second embodiment, in order to facilitate understanding, the document analysis means 10 for determining the priority order is provided.
  • step S4 a plurality of priorities are used. However, only some of the priorities are newly determined, and other priorities are not newly determined and the priorities previously determined. V can be configured using the ranking.
  • step S2 the first identical document candidate group creating means 11 creates the first identical document candidate group.
  • This operation is the same as step S2 of the second embodiment.
  • the same document candidate group creation means is performed for the target database 3 in FIG. 25 for the first time in the priority order of the priority order storage unit in FIG. Since the similarity threshold is 85%, the minimum value that satisfies (the number of characters to be selected) / (the number of characters included in the document)> 0 ⁇ 85 / (2-0. 85) according to Theorem 2-2 Select the number of characters.
  • the underlined character is selected from each document and stored in the same document candidate group storage section for the first time as shown in FIG.
  • step S4 the priority order of the priority order storage unit 21 is changed using the same first document candidate group storage unit 22.
  • step S1 the power of giving higher priority to the smaller number of characters appearing in step S4.
  • step S4 the number of characters appearing smaller is smaller, and the first same document candidate group creation means 11 is not selected.
  • the priority may be increased as the sum of the number of documents in which the character appears and the number of times the character is selected by the first same document candidate group creation means 11 is V.
  • FIG. 30 shows an example in which the priority order of the priority order storage unit 21 is changed using the first same document candidate group storage unit in FIG. For example, although the number of documents in which character A appears is three, character A is selected three times in the first identical document candidate group creation means 11, so the sum of the two, 6 is used as the score. If the scores are the same, the priority is set higher for the later characters in alphabetical order.
  • step S5 the second identical document candidate group creating means 12 creates the second identical document candidate group.
  • This operation is the same as step S2 of the second embodiment.
  • the same document candidate group creation means is executed for the target database 3 in FIG. 25 for the second time in the priority order of the priority order storage unit in FIG. Since the similarity threshold is 85%, the minimum value that satisfies (the number of characters to be selected) / (the number of characters included in the document)> 0 ⁇ 85 / (2-0.85) is determined according to Theorem 2-2. Select the number of letters in the word. Characters underlined from each document are selected as shown in FIG. 31 and stored in the second same document candidate group storage unit as shown in FIG. At this time, the correspondence between each document and the selected character group is output as shown in FIG. 33 for the second selected character storage unit.
  • step S3 the same document group creation means 12 has a similarity between the document pairs belonging to any one of the same document candidate groups in all of the same document candidate group storage unit 22.
  • Document pairs that are equal to or higher than the threshold are set as the same document group, or document groups that are integrated with pairs of documents that are equal to or higher than the similarity threshold that include common documents are determined as the same document group, and the result is stored in the target database 3.
  • step S3 The operation of the same document group creation means 12 (step S3) will be described.
  • step S3 the document having the first document ID stored in the selected character storage unit is selected (step S320 in FIG. 38). Since only the document ID is used, either the first selected character storage unit or the second selected character storage unit may be used.
  • the order in which the documents are selected is irrelevant to the practice of the present invention and may be in any order.
  • IDs of documents 1 to n are assigned to the documents, and the i-th document is indicated by document i.
  • a logical group of documents of the same document candidate group with each selected character of document i as an ID is obtained (step in FIG. 38). S321).
  • the first selected character of document 1 is ⁇ A, L ⁇ with reference to FIG.
  • the document group of the same document candidate group with each selected character as an ID is ⁇ document;!, Document 4, document 6 ⁇ for character A, and ⁇ document;!, Document 4 for character L. , Document 7 ⁇ .
  • These logical OR documents are ⁇ Document 1, Document 4, Document 6, Document 7 ⁇ .
  • step S322 the document j is extracted from the document group obtained in step S328 (step S322 in FIG. 38). Since step S322 and subsequent steps are the same as step S322 and subsequent steps in FIG. 23 of the second embodiment, description thereof is omitted.
  • the case where the same document candidate group creation means 11 is used twice has been described, but it can be easily generalized when used multiple times.
  • the priority of the priority order storage unit 21 is changed using the n-first same document candidate group storage unit 22 V ,.
  • the higher the priority the lower the weighted sum of the number of documents that the character appears and the total number of documents selected by the same document candidate group creation means 11 up to n—the first time that character is! ! / That is, the score score (a, n) of the nth character a is
  • Score (a, n) p x (number of occurrences of a) + q x (a is the total number of documents selected by the means for creating the same document candidate group up to n_l times)
  • step S328 the logical product of n logical sums may be obtained.
  • the effect of the present invention is that the same document can be collated faster than the second embodiment while maintaining the effect of the second embodiment.
  • the reason is that the same document group is created by using a plurality of identical document candidate group creation means 11 for setting the priority order of the character groups according to different criteria and a plurality of corresponding identical document candidate group storage units 22.
  • the means 12 is also a force for calculating the similarity only for the document pairs belonging to any one identical document candidate group in all of the plurality of identical document candidate group storage units 22.

Description

明 細 書
検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、 そのプログラム 技術分野
[0001] 本発明は情報の検索方法、類似度計算方法の技術に関し、特に、所定の類似度 以上にならない情報を検索する方法、及びその検索方法を用いて類似度の計算を 照合漏れのない厳密解で、かつ、高速に行う技術に関する。
背景技術
[0002] 文書、画像等の情報の同一性又は類似度を判断する技術は数多く提案されており 、その中でも、文書の同一性を判断する同一文書照合の技術が有名である。同一文 書照合とは、文書間で実質的に同一の文書群をグルーピングすることを言う。実質的 に同一であるとは、表記上は異なるが人が見れば同一と判断できることをいう。
[0003] 同一文書照合は、例えば、次のような場合に必要になる。
(1) データベース(以下、 DBと称する)の重複レコード照合
DBの重複レコード照合は、 DB内の実質的に同じレコードをグルーピングすることを いい、例えば、異なる人、場所、方法によって管理された表記のゆれを含む顧客 DB を統合する際のデータクリーニングや、コンタクトセンターの問い合わせ事例の重複 削除に必要となる。 1レコードを 1文書とみなすことで同一文書照合の問題とみなすこ と力 Sできる。
(2) トピック分析
トピック分析は、 Blogなどの書き込みデータをグルーピングすることをいい、 Blogで 同じトピック力 いつ、どのあたりで話題になっているかを把握するために必要となる。
[0004] 同一文書照合システムは、対象となる文書集合と、実質的に同一とみなす条件であ る類似度閾値とを入力として、同一文書グループを出力する。例えば、図 1の(a)のよ うな 5つの文書と、類似度閾値として 90%が入力された場合で説明する。ここでは、 全ての文書はそれぞれ 10個のアルファベットの文字から構成されており、文書 Xと文 書 yとの類似度が 90%であるということは、 Xの 10個の文字と yの 10個の文字とのうち 9個が共通することを意味する。この時、システムは、図 1の(b)のように類似度が 90 %以上となる 2つの異なる文書の対を同一文書グループとして出力する。さらに、共 通する文書を含む文書対を統合した図 1の(c)を同一文書グループとしても良い。
[0005] 同一文書照合システムを実現するための従来技術として、階層型クラスタリングを 用いる手法がある(非特許文献 1の 2. 5. 7節)。この方法では、あらかじめ全ての文 書対の類似度を計算しておく(stepl)。次に、類似度が最も高い文書対から順番に 統合することにより文書を階層的にグルーピングする(step2)。同一文書照合システ ムでは、 steplのように、全ての 2つの異なる文書対の類似度を計算した後、類似度 閾値以上の文書対のみを残すことにより、同一文書グループを求めることができる。
[0006] 図 1の例では、全ての 2つの異なる文書対の数は 5 * (5— 1 ) /2 = 10であるから、 類似度を 10回計算し、図 1の(b) (c)の結果を出力している。
[0007] また、同一文書照合システムを実現するための別の従来技術として、 DBの重複レコ ード照合を用いる手法がある(非特許文献 2)。この方法は、まず、各 DBのレコードを ソートして、次に、ソート後の各レコードとその前方 nレコードのレコード対の類似度計 算を行い、類似度が閾値以上のレコード対を重複とする手法である。
[0008] 同一文書照合システムには、レコードを文書と置き換えることで同一の手法を適用 できる。例えば、図 1の(a)は、文字列で文書をソートすることにより、図 2の(a)のよう になる。次に、今、各文書とその前方 1文書の文書対を類似度計算の対象としたとき 、類似度を 4回計算し、図 2の (b) , (c)の結果を出力する。
[0009] 更に、同一文書照合システムを実現するためのさらに別の従来技術として、 -mea nsを用いる手法がある(非特許文献 3の 5. 2節)。この方法は、あらかじめ文書集合を K個のグループに分割するという前提の下で、ランダムに選択した K個の文書をダル ープの中心と仮定し、残りの文書を、 K個のグループの中心の文書と最も類似度が高 いグループに分類する。
[0010] 同一文書照合システムには、 K-meansに類似度閾値の制約を追加することで同一 の手法を適用できる。すなわち、ランダムに選択した K個の文書をグループの中心と 仮定し、残りの文書を、 κ個のグループの中心の文書と類似度が閾値以上で最も高 V、グループに分類すれば良レ、。 [0011] 非特許文献 1 :徳永健伸、 "言語と計算 5 情報検索と言語処理"、東京大学出版 非特許文献 2: Mauricio A. Hernandez and Salvatore J. Stolfo, The Merge/Purge Pr oblem for Large Databases", Proceedings of the 1995 ACM SIGMOD International Conference on Management of Data pp.127-138, 1995.
非特許文献 3 : Jain, A. ., Murty M.N., and Flynn P.J. , "Data Clustering: A Review", ACM Computing Surveys, Vol 31, No. 3, 264—323, 1999.
発明の開示
発明が解決しょうとする課題
[0012] 同一文書照合システムを実現するための従来技術の課題として、非特許文献 1、 2 の技術は、照合時間を短く保つことと、照合漏れを減らすことの両立が難しいことであ
[0013] 非特許文献 1の階層型クラスタリングを利用した方法は、全ての 2つの異なる文書 対の類似度を計算するので照合漏れは発生しないが、照合対象の文書数が多くなる と組み合わせ爆発が起こり照合に多大な時間が必要となる。
[0014] また、非特許文献 2の重複レコード照合を利用した方法は、ソート後の各レコードと その前方 nレコードのレコード対のみに限り類似度計算を行うので、 nを小さくすれば 照合時間は短くできる力、その代償として nレコード外にある同一文書は照合漏れと なってしまう。実際、図 2の例でも、類似度が 90%の文書 1と文書 3との文書対が照合 漏れとなっている。
[0015] 更に、非特許文献 3の方法は、同一文書グループ数の指定が必要になるが、利用 者が照合対象の文書集合に含まれる同一文書グループの数を事前に予測すること は難しい。また、照合時間が指定した同一文書グループ数に比例するため、同一文 書グループ数が多くなると照合時間が短く保つのが難しい。
[0016] これらの課題は文書照合に限らず、その他の画像等の情報の同一性又は類似度 の判断にもいえる事である。
[0017] そこで、本発明は上記課題に鑑みて発明されたものであって、その目的は、情報の 類似度を計算するのに必要な類似度計算の計算回数を減らすことができる検索、類 似度計算の技術を提供することにある。
[0018] また、その目的は、同一文書グループ数の指定を事前に必要とせず、照合漏れの ない厳密解で、かつ、同一文書グループ数が多くなつても高速な同一文書照合シス テムを実現することにある。
課題を解決するための手段
[0019] 上記課題を解決する本発明は、所定の類似度以上とはならない情報対を検索する 検索方法であって、情報対が少なくとも所定の類似度以上となるために、情報を構成 する情報要素が情報間で共通する割合を求め、前記割合に基づぐ各情報の情報 要素の選択数を決定し、照合対象となる情報群で共通して適用される情報要素の優 先順位に従って、前記各情報力 前記選択数の情報要素を選択し、選択した情報 要素が情報間で全て共通しない情報対を検索することを特徴とする。
[0020] 上記課題を解決する本発明は、所定の類似度以上となる情報対の類似度を計算 する類似度計算方法であって、情報対が少なくとも所定の類似度以上となるために、 情報を構成する情報要素が情報間で共通する割合を求め、前記割合に基づぐ各 情報の情報要素の選択数を決定し、類似度の計算対象となる情報群で共通して適 用される情報要素の優先順位に従って、前記各情報から前記選択数の情報要素を 選択し、選択した情報要素が情報間で全て共通しなレ、情報対以外の情報対に対し て、類似度の計算を行うことを特徴とする。
[0021] 上記課題を解決する本発明は、所定の類似度以上となる情報対の類似度を計算 する類似度計算システムであって、類似度の計算対象となる情報群で共通して適用 され、情報を構成する情報要素の優先順位が格納された優先順位記憶部と、前記情 報の情報対が少なくとも所定の類似度以上となるために、情報間で前記情報要素が 共通する割合を求め、この割合に基づいた各情報の情報要素の選択数を決定し、 前記優先順位に従って、前記各情報力 前記選択数の情報要素を選択する情報要 素選択手段と、選択した情報要素が情報間で全て共通しな V、情報対以外の情報対 に対して、類似度の計算を行う類似度計算手段とを有することを特徴とする。
[0022] 上記課題を解決する本発明は、与えられた文書間で実質的に同一の文書群をグ ルービングする同一文書照合システムであって、単語または文字で識別され、実質 的に同一の候補である文書のグループである同一文書候補グループと、そのグルー プに属する文書との対応関係が記憶される同一文書候補グループ記憶部と、文書 間で少なくとも所定の類似度閾値以上となるために、文書間で単語または文字が共 通する割合を求め、この割合に基づいて、文書照合の対象となるすべての文書間で 共通する優先順位で単語または文字を選択し、選択したそれぞれの単語または文字 で識別される同一文書候補グループにその文書を対応付けて前記同一文書候補グ ループ記憶部に記憶する同一文書候補グループ作成手段とを有することを特徴とす
[0023] 上記課題を解決する本発明は、所定の類似度以上となる情報対の類似度を計算 する類似度計算プログラムであって、情報対が少なくとも所定の類似度以上となるた めに、情報を構成する情報要素が情報間で共通する割合を求める処理と、前記割合 に基づぐ各情報の情報要素の選択数を決定する処理と、類似度の計算対象となる 情報群で共通して適用される情報要素の優先順位に従って、前記各情報から前記 選択数の情報要素を選択する処理と、選択した情報要素が情報間で全て共通しな V、情報対以外の情報対に対して、類似度の計算を行う処理とを情報処理に実行させ ることを特徴とする。
[0024] 上記課題を解決する本発明は、与えられた文書間で実質的に同一の文書群をグ ルービングする同一文書照合プログラムあって、文書間で少なくとも所定の類似度閾 値以上となるために、文書間で単語または文字が共通する割合を求める処理と、前 記割合に基づ V、て、文書照合の対象となるすべての文書間で共通する優先順位で 単語または文字を選択する処理と、前記選択したそれぞれの単語または文字で識別 される同一文書候補グループにその文書を対応付けて記憶する処理とを情報処理 に実行させることを特徴とする。
発明の効果
[0025] 本発明の効果は、情報の類似度を計算するのに必要な類似度計算の計算回数を 減らすことができる。その理由は、類似度の計算対象とはならない類似度閾値以下の 情報対を検索し、それらの情報対を類似度計算の対象から外す力 である。
[0026] また、本発明の効果は、グループ数の指定が事前に必要なぐ照合漏れのない厳 密解で、かつ、グループ数が多くなつても高速に同一文書の照合が可能なことである
。高速である理由は、類似度計算の対象となる文書対を、同一の同一文書候補グノレ ープに所属する文書対に限定するためである。
[0027] また、照合漏れのな!/、厳密解である理由は、文書に含まれる単語または文字群の 中から類似度閾値以上の文書間で少なくとも一つが必ず共通するような数または種 類の単語または文字群を選択して文書グループ作成に用いるためである。
[0028] さらに、同一文書グループ数を事前に指定しなくてもよぐ同一文書グループ数が 多くなつても高速な理由は、同一文書グループ数があらかじめ与えられていなくても 同一文書グループを作成することが可能なためである。
図面の簡単な説明
[0029] [図 1]背景技術を説明するための図である。
[図 2]背景技術を説明するための図である。
[図 3]発明の概要を説明するための図である。
[図 4]本発明の第 1の実施の形態の構成を示すブロック図である。
[図 5]本発明の第 1の実施の形態の動作を示す流れ図である。
[図 6]本発明の第 1の実施の形態の単語記憶部 20、および、第 2の実施の形態の対 象データベース 3の格納例である。
[図 7]本発明の第 1の実施の形態と第 2の実施の形態の優先順位記憶部 21の格納 例である。
[図 8]本発明の第 1の実施の形態の同一文書候補グループ作成手段 11の動作を示 す流れ図である。
[図 9]本発明の第 1の実施の形態の同一文書候補グループ記憶部 22の格納例であ
[図 10]本発明の第 1の実施の形態の 1つ目の同一文書グループ作成手段 12の動作 を示す流れ図である。
[図 11]本発明の第 1の実施の形態の類似度計算の例を示す図である。
[図 12]本発明の第 1の実施の形態と第 2の実施の形態の出力データベース 5の格納 例を示す図である。 園 13]本発明の第 1の実施の形態の選択単語記憶部の格納例である。
園 14]本発明の第 1の実施の形態の 2つ目の同一文書候補グループ作成手段 12の 動作を示す流れ図である。
園 15]本発明の第 2の実施の形態の構成を示すブロック図である。
園 16]本発明の第 2の実施の形態の動作を示す流れ図である。
[図 17]本発明の第 2の実施の形態の同一文書候補グループ作成手段 11の動作を示 す流れ図である。
園 18]本発明の第 2の実施の形態の同一文書候補グループ記憶部 22の格納例であ 園 19]本発明の第 2の実施の形態の 1つ目の同一文書グループ作成手段 12の動作 を示す流れ図である。
園 20]本発明の第 2の実施の形態の類似度計算の例を示す図である。
園 21]本発明の第 2の実施の形態の選択文字記憶部の格納例である。
園 22]本発明の第 2の実施の形態の 2つ目の同一文書候補グループ作成手段 12の 動作を示す流れ図である。
園 23]本発明の第 3の実施の形態の構成を示すブロック図である。
園 24]本発明の第 3の実施の形態の動作を示す流れ図である。
[図 25]本発明の第 3の実施の形態の単語記憶部 20、および、第 4の実施の形態の対 象データベース 3の格納例である。
[図 26]本発明の第 3の実施の形態と第 4の実施の形態の一回目の優先順位記憶部 2 1の格納例である。
[図 27]本発明の第 3の実施の形態の一回目の同一文書候補グループ作成手段 11 の動作を示す流れ図である。
[図 28]本発明の第 3の実施の形態と第 4の実施の形態の一回目の同一文書候補グ ループ記憶部 22の格納例である。
[図 29]本発明の第 3の実施の形態の一回目の選択文書記憶部、第 4の実施の形態 の一回目の選択文字記憶部の格納例である。
[図 30]本発明の第 3の実施の形態と第 4の実施の形態の二回目の優先順位記憶部 2 1の格納例である。
[図 31]本発明の第 3の実施の形態と第 4の実施の形態の二回目の同一文書候補グ ループ作成手段の処理イメージを示す図である。
[図 32]本発明の第 3の実施の形態と第 4の実施の形態の二回目の同一文書候補グ ループ記憶部 22の格納例である。
[図 33]本発明の第 3の実施の形態の二回目の選択文書記憶部、第 4の実施の形態 の二回目の選択文字記憶部の格納例である。
[図 34]本発明の第 3の実施の形態の同一文書グループ作成手段 12の動作を示す流 れ図である。
[図 35]本発明の第 1の実施の形態又は第 2の実施の形態と第 3の実施の形態又は第
4の実施の形態の類似度計算の数を比較する図である。
園 36]本発明の第 4の実施の形態の構成を示すブロック図である。
[図 37]本発明の第 4の実施の形態の動作を示す流れ図である。
[図 38]本発明の第 4の実施の形態の同一文書グループ作成手段 12の動作を示す流 れ図である。
符号の説明
1 データ処理装置
2 記憶装置
3 対象データベース
4 入力装置
5 出力データベース
10 文書解析手段
11 同一文書候補グループ作成手段
12 同一文書グループ作成手段
20 単語群記憶部
21 優先順位記憶部
22 同一文書候補グループ記憶部
発明を実施するための最良の形態 [0031] まず、図 3の例を通して本発明の概要について説明する。
[0032] 尚、以下の説明にあたって、情報の例として文書を、情報要素の例として文字を例 にして説明するが、これに限られない。例えば、情報の例としては画像、音等でも良く 、それを構成する情報要素としては、画像中の特定の絵柄や、特定の音等が考えら れる。
[0033] また、以下の説明にあたって、図 3に示される文書 1から文書 5に対して、類似度が
90%以上にならない文書の組 (以下、文書対と称する)を検索する場合を説明する。
[0034] 本発明では、まず、 5つの文書で共通する文字の優先順位を決める。例えば、図 3 の(d)のように文書群全体で出現文書数が少ない文字ほど、優先順位が高くなるよう に定める。尚、出現文書数が同じ場合はアルファベット順で若い文字を優先順位が 高くなるように定められているものとする。
[0035] 次に、文書対が少なくとも類似度 90%以上となるために、文書間で文字が共通す る割合を求め、この割合に基づいて、 1文書から選択する文字数を決定する。
[0036] 類似度 90%以上となるためには文書対の文書間で文字が 90%以上共通すれば 良い。これは、文書対の文書間で少なくとも 9個の文字が共通しなければ、類似度 90 %以上にはならなレ、とレ、ことである。
[0037] 別の言い方をすると、文書 Xから選んだ 2つの文字のどちらも文書 yに含まれなけれ ば、文書 Xと文書 yとは共通する単語が 8個以下ということになり、類似度は 90%未満 となるということになり、文書 Xと文書 yとの類似度が 90%以上であるという前提と矛盾 する。これは、文書 yと文書 Xを置き換えた場合でも同様である。従って、 1文書から選 択する文字数は 2個である。尚、本例では、文書 1から文書 5が 10文字で構成されて いるため、いずれの文書も選択する文字数が 2個である力 例えば、一文書が 5文字 で構成されている場合には、選択する文字数は 1個である。
[0038] 続いて、各文書から優先順位に基づいて 2個の文字を選択する。図 3 (a)の例では 、文書 1で選択する文字は Aと Iであり、文書 2で選択する文字は Kと Lであり、文書 3 で選択する文字は Iと Lであり、文書 4で選択する文字は Kと Lであり、文書 5で選択す る文字は Aと Mである。
[0039] そして、選択した文字が文書間で全て共通しない文書対を検索する。図 3 (a)の例 では、文書 1と文書 2との文書対では共通する文字がなぐ文書 1と文書 3との文書対 では Iが共通し、文書 1と文書 4との文書対では共通する文字がなぐ文書 1と文書 5と の文書対では Aが共通する。また、文書 2と文書 3との文書対では Lが共通し、文書 2 と文書 4との文書対では Kと Lとが共通し、文書 2と文書 5との文書対では共通する文 字がない。また、文書 3と文書 4との文書対では Lが共通し、文書 3と文書 5との文書 対では共通する文字がない。また、文書 4と文書 5との文書対では共通する文字がな い。従って、共通する文字がない文書対は、文書 1と文書 2との文書対と、文書 1と文 書 4との文書対と、文書 2と文書 5との文書対と、文書 3と文書 5との文書対と、文書 4と 文書 5との文書対との 5個である。これらの 5個の文書対は、類似度が 90%以上には ならない文書対である。
[0040] このようになる理由は、文書 Xと文書 yとの類似度が 90%以上であるならば、さらに、 選ぶ文字の優先順位が全ての文書間で一意に定められているならば、文書 χ(文書 y )から優先順位に従 V、選んだ 2つの文字の V、ずれかは、文書 y (文書 X)から選んだ 2 つの文字の!/、ずれかに含まれる力、らである。
[0041] 文書 Xから選んだ 2つの文字 {xl, x2}のいずれ力、もしくは両方が文書 yに含まれる 1S それが文書 yから選んだ 2つの文字 {yl, y2}には含まれないとすると、文書 yに おける文字の優先度は {yl, y2}>{xl, x2}となる。この時、 {xl, χ2} ΓΊ {yl, y2} = φになるため、同時に、文書 yから選んだ 2つの文字 {yl, y2}のいずれかもしくは 両方が文書 Xに含まれるが、それが文書 Xから選んだ 2つの文字 {xl, x2}には含ま れないことになる。この時、文書 Xにおける文字の優先度は {xl, x2} > {yl, y2}とな る。これは、文書 Xと文書 yとで選択する文字の優先順位が異なることになり、選ぶ文 字の優先順位が全ての文書間で一意に定められていることに矛盾する。文書 yと文 書 Xを置き換えた場合でも同様である。
[0042] このように、本発明によれば、所定の類似度以上にはならない文書対を検索するこ と力 Sできる。
尚、上述の説明では、類似度の閾値の設定を以上としたが、割合の算出方法によ つて所定の類似度閾値を含まず、所定の類似度閾値を超えない文書対を検索する ようにしても良い。また、文書で共通する文字の優先順位は、異なる文書群の検索処 理毎に決定しても良レ、し、一度決定したものを繰り返し用いても良レ、。
[0043] 更に、文書照合システムのように、所定の類似度以上となる文書対の類似度を求め るシステムにおいても、本発明を用いれば類似度の計算回数を減らすことができる。 例えば、図 3の例のように、 90%以上の類似度となる文書対の類似度を求める場合、 90%以上の類似度とはならない文書対を類似度計算の対象から外すことにより、類 似度の計算回数を減らすことができる。図 3の(a)の例では、本発明を用いない場合 、類似度計算を(5 X 4) / (2 X 1) = 10回行わなければならな!/、。しかし、文書 1と文 書 2との文書対と、文書 1と文書 4との文書対と、文書 2と文書 5との文書対と、文書 3と 文書 5との文書対と、文書 4と文書 5との文書対との 5個の文書対は、 90%以上の類 似度とはならない文書対であるため、類似度計算の対象から外すと、類似度計算の 回数は、 10— 5 = 5回となる。
[0044] 次に、上記の説明をより一般化する。
1.文書を単語の集合と考える場合
記号の定義
データベースに含まれる文書集合: D = {di| 0〈=K=|D|}、
データベースに含まれる単語集合: T = {tl| 0く =1く =|τ|}、
diに含まれる単語の異なり数: |di|、
diに含まれる単語集合: di = {ti| oく =1く =|di|}、
tlの優先順位: Pr(tl)、
tlの重要度: w(tl) # Pr(tl)は w(tl)の大きさ力、ら求めても良い
diと djの類似度: sim(di,dj)、
類似度閾値: ST
と定義する。
定理 1-1:
sdiを
sdi di { sdi n Vdk[sim(di,dk)>= ST]≠ φ Λ Pr(Vtlesdi) > Pr(Vtle-sdi) } (-sdiは sdiのネ甫集合)
により定義する。 この時、 Prが Dで一意に定まり、 sdi, sdjが定まれば、
sim(di, dj) >= STのとき、
sdi (Ί sdj≠ φが成立する。
証明:
まず、 sdi, sdjの定義により、
sim(di, dj) >= STのとき、
sdi(1dj≠ φ
sdj(1di≠ φ
が成立する。
ここで、
sdindj≠ φ Λ sdi (Ί sdj= φ
と仮定すると、
djにおける単語の重要度は、
Pr(Vtlesdj) > Pr(Vtlesdi)となる。
この時、 sdi ΓΊ sdj= φであるから
sdjndi≠ φ Λ sdj (Ί sdi= φ
が同時に成立する。
そのため、
diにおける単語の重要度は、 Pr(Vtlesdi) > Pr(Vtlesdj)になる。
これは、 Pr力 ¾で一意に定まることと矛盾する。
iと jを置き換えた場合でも同様である。
[0045] したがって、定理 1-1は成立する。
[0046] 次に、
sim(VdieD, VdjED)を求める前に sdiを求めることができることを示す。 定理 1-2:
sim(di, dj) =
(Ztledin dj w(tl)"2) I (if∑ tl e di w(tl)"2) * {∑t\≡ dj w(tl)"2)) で定義される cosine類似度を用いる場合、 丄 S =〈
Figure imgf000015_0001
、 0)
Φ = [丄 S=〈 lP '!P)m!s]¾)E U!PS
Z1S -I〈 {
Figure imgf000015_0002
} !P3!PS
Z1S =〈(^(卩 !P3HS) / (ZSll)^ fP U!P3HS) (ZSH)^ !Pョ II s / ( (卩 fP U !Pョ π s =
Figure imgf000015_0003
ν≡η z ) =>
(
(zM M fpョ II
Figure imgf000015_0004
= (fp '!p => is
( ( fP U !Pョ S ) =〈( ( fPョ S )
°<5 ½3 ^5 ^^ Z1S =〈(^(卩 !P3HS) / ( ( fP U!P3HS)
IS二く (fP '!P)™s
-■mi
(!ps-ョ A) < (!PS3HA)Jd V Φ≠ [丄 S =< lP'!P !s]¾)A u!Ps
{(!ps-ョ
HA)Jd < (!psョ卩 A) V Z1S -I〈 (ZSll)^ !Pョ S) I ( ( IPsョ卩: ) } !pョ !ps
TC8.90/.00Zdf/X3d ει. 08ム而800 OAV (∑ ti e di Π dk w(tl)"2) / (∑tledi w(tl)"2)>= ST"2
カ成立し、
また、
(∑ tie sdi w(tl)"2) I (∑tledi w(tl)"2) > 1- ST"2
であるから、 2つを足して
((∑ ti e di ΓΊ dk w(tl)"2) + (Ztlesdi w(tl)"2)) / (∑tledi w(tl)"2) > 1
((∑ ti e di ΓΊ dk w(tl)"2) + (Ztlesdi w(tl)"2))> (∑tledi w(tl)"2) となる。
ここで、
sdi(1dk= φ
であるから、
(∑ ti e (di ΓΊ dk) U sdi w(tl)"2)〉(∑ tl e di w(tl)"2)
となるが、
(di门 dk) U sdi di
であるから成立せず矛盾する。
したがって、
sdi = sdiedi { (Ztlesdi w(tl)"2) / (∑tledi w(tl)"2) } > 1- ST"2
で定義されるならば、
sdin Vdk[sim(di,dk) >= ST]≠ φ
が成立する。
上記は、 sdiにどの単語から選んで!/、つたとしても成立するので定理 1-2は成立する。 2.文書を文字の集合と考える場合
記号の定義:
データベースに含まれる文書集合: D = {di| 0<=K=|D|}
データベースに含まれる文字集合: T = {tl| 0く =1く =|τ|}
diに含まれる文字の異なり数: |di|
diに含まれる文字集合: di = {ti| o<=K=|di|} ^獺 ¾奪魔 0)·φ:?! P¾(fp'!P)s!p— I!P9、^
(!ps-ョ A) < (!PS3HA)Jd V Φ≠ [丄 S =< lP'!P !s]¾)A u!Ps
{(!ps-ョ卩 A
)Jd <
Figure imgf000017_0001
V ((丄 S- /丄 S) ΐ〈 (!P)¾ I } !Pョ !ps = ips
((fP)¾ + (!P)¾) I ((fP'!P)S!P"l!P3 - (fp)¾ + (ip)bj)
Figure imgf000017_0002
≠fPSU!Ps ^ O)丄 S =〈 (fP '!P)™s
Figure imgf000017_0003
、翻 0)
{ (!PS—ョ A) <
Figure imgf000017_0004
V Φ≠ [丄 S =〈 lP'!P u!s PA U!PS } !PS!PS
Figure imgf000017_0005
# ( : ^齑軍 i
(H d :¾蘭 ¾ i
(H'!P)bJ:凝回¾ 1 ¾¾!P
l£8L90/L00ZdT/13d 91- 08ム而800 OAV diと djの編集距離とは、 diから dj又は djから diに変換するために必要となる最小の揷 入又は削除の回数を意味し、距離が小さ!/、ほど 2つの文書は似て!/、ることを意味する
証明:
まず、
sim(di, dj) ?= ST
ならば
(∑ tie di ΓΊ dj fq(di,tl)) I fq(di)〉= ST I (2- ST)
が成立することを証明する。
edit— dis(di,dj) >= fq(di) + fq(dj) - 2 x (∑tle di门 dj min(fq(di,tl), fq(dj,tl)》
であるから、
STく sim(di,dj)
= (fq(di) + fq(dj) - edit— dis(di,dj)) I (fq(di) + fq(dj))
く = 2 x (∑tle di n dj min(fq(di,tl), fq(dj,tl))) / (fq(di) + fq(dj)) また、
fq(dj)〉= ( Z tle di n dj min(fq(di,tl), fq(dj,tl)》
であるから
STく = 2 x (∑ tie di ΓΊ dj min(fq(di,tl), fq(dj,tl》) / (fq(di) + (∑ tie di ΓΊ dj min(fq(di,tl), f q(dj,tl)))) したがって、
( Z tle di n dj min(fq(di,tl), fq(dj,tl))) / fq(di)〉= ST / (2- ST)
ここで、
fq(di,tl) >= min(fq(di,tl), fq(dj,tl))
であるから
(∑ tie di ΓΊ dj fq(di,tl)) I fq(di)〉= ST I (2- ST)
次に、 sdiedi { (Ztlesdi fq(di,tl)) I fq(di) } > 1 - (ST / (2_ST》 }
で定義されるならば、
sdinョ dk[sim(di, dk)〉=ST]= φ
であると仮定する。
sim(di,dk) >= ST
であるから、上記より、
∑tledi门 dk fq(di,tl) I fq(di)〉= ST / (2- ST)
カ成立し、
また、
sdiedi { (Ztlesdi fq(di,tl)) I fq(di) } > 1 - (ST / (2_ST》 }
であるから、
(∑ tie di门 dk fq(di,tl》 I fq(di) + (∑ tie sdi fq(di,tl》 / fq(di) > 1
(Ztledindk fq(di,tl)) + (ZtlEsdi fq(di,tl)) > fq(di)
となる。
ここで、
sdi(1dk= φ
であるから、
(∑ tle(di ΓΊ dk) U sdi fq(di,tl)) > fq(di)
となるが、
(di门 dk) U sdi di
であるから成立せず矛盾する。
したがって、
sdi = sdiedi { (Ztlesdi fq(di,tl)) I fq(di) } > 1- (ST / (2_ST》 }
で定義されるならば、
sdin Vdk[sim(di,dk) >= ST]≠ φ
が成立する。
上記は、 sdiにどの文字力も選んで!/、つたとしても成立するので定理 2-2は成立する。 次に、本発明を実施するための最良の形態について図面を参照して詳細に説明 する。
[0049] 尚、本実施の形態の説明において、情報照合の代表的なものである文書照合シス テムを例にして説明する。また、本実施の形態では、文書を単語の集合として极うか 、あるいは、文字の集合として扱うかにより同一文書照合システムの構成が異なるた め、第 1の実施の形態では、文書を単語の集合として扱う場合のシステムを、第 2の 実施の形態では、文書を文字の集合として扱う場合のシステムを説明する。
[0050] <第 1の実施の形態〉
本発明の第 1の実施の形態を説明する。
[0051] 第 1の実施の形態に係る同一文書照合システムは、図 4に示される如ぐプログラム 制御により動作するデータ処理装置 1と、情報を記憶する記憶装置 2と、対象データ ベース 3とキーボード等の入力装置 4と出力データベース 5とを含む。
[0052] 対象データベース 3は、いわゆるデータベースであり、複数の文書が記憶されてい る。単一のデータベースであっても、複数のデータベースを仮想的にマージしたデー タベースであってもよい。
[0053] 入力装置 4からは、同一文書照合システムの利用者が類似度閾値を入力する。 2つ の文書対の類似度がこの類似度閾値以上であれば同一文書とみなす。
[0054] データ処理装置 1は、文書解析手段 10と、同一文書候補グループ作成手段 11と、 同一文書グループ作成手段 12とを含む。
[0055] 文書解析手段 10は、対象データベース 3に格納された各文書に含まれる単語群を 抽出して単語群記憶部 20に格納し、さらに、対象データベース 3に出現する全ての 単語に関するすべての文書で共通する優先順位を判定して優先順位記憶部 21に 格納する。尚、本説明では、理解を容易とする為に、優先順位を決定する文書解析 手段 10を設けたが、以前に用いた優先順位を用いる場合には (既に優先順位記憶 部 21に優先順位が格納されている場合には)、文書解析手段 10の優先順位を決定 する機能は不要である。
[0056] 同一文書候補グループ作成手段 11は、単語群記憶部 20に格納された文書に含ま れる単語群の中から、入力装置 4から入力された類似度閾値以上の文書間で少なく とも一つが必ず共通するような種類の単語群を、優先順位記憶部 21に格納された同 一文書照合の対象となるすべての文書で共通する優先順位で選択した後、同一文 書候補グループ記憶部 22を参照して選択したそれぞれの単語を IDとした同一文書 候補グループにその文書を追加する。
[0057] 同一文書グループ作成手段 12は、同一文書候補グループ記憶部 22に格納され た同一の同一文書候補グループに所属する文書対の類似度を、単語群記憶部 20 を参照して計算して、入力装置 4から入力された類似度閾値以上の文書対を同一文 書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合し た文書グループを同一文書グループとして判定し、その結果を対象データベース 3 に格納する。
[0058] 記憶装置 2は、単語群記憶部 20と、優先順位記憶部 21と、同一文書候補グループ 記憶部 22とを含む。記憶装置 2は処理の高速化の都合上、メモリ内に格納すること が望まし!/、が、 HDD等の磁器記憶媒体であっても良レヽ
単語群記憶部 20は、文書とその文書に含まれる単語群との対応関係が格納される
[0059] 優先順位記憶部 21は、単語とその優先順位の対応関係が格納される。
[0060] 同一文書候補グループ記憶部 22は、同一文書候補グループと文書との対応関係 が格納される。
[0061] 出力データベース 5は、文書と同一文書グループとの対応関係が格納される。
[0062] 次に、図 5を参照して、第 1の実施の形態の動作について詳細に説明する。なお、 入力装置 4から入力された類似度閾値は 75%として説明する。
[0063] まず、文書解析手段 10は、対象データベース 3に格納された各文書に含まれる単 語群を抽出して単語群記憶部 20に格納し、さらに、対象データベース 3に出現する 全ての単語に関するすべての文書で共通する優先順位を判定して優先順位記憶部 21に格納する(ステップ Sl)。尚、本説明では、理解を容易とする為に、同一文書グ ループの作成処理の過程にぉレ、て優先順位を決定するステップを設けた力 以前の 同一文書グループの作成処理にお V、て用いた優先順位を用いても良ぐこの場合に は、優先順位を決定するステップは不要である。
[0064] 文書から抽出する単語群は、文書を形態素解析して切り出した単語群とする。切り 出した単語群のうち、特定の品詞、例えば、名詞、形容動詞、形容詞、動詞、未知語 を持つ単語群のみを使用するようにしても良い。例えば、ある文書「情報検索で検索 」の場合は {情報、検索 }が単語群となる。このように、単語の文書内の出現回数は後 の処理では用いないので、 1つの文書に同じ単語が複数出現する場合でもそのうち 1つを単語群としてもよい。
[0065] 尚、形態素解析は、 日本語や中国語のような文書に単語の区切りが存在しない言 語に対して本発明を適用する際に必要となる。一方、英語や韓国語、ドイツ語、フラ ンス語、スペイン語等、文書に単語の区切りが存在する言語に対しては必ずしも必要 ではない。
[0066] 図 6に単語群記憶部 20の格納例を示す。なお、動作を分力、りやすくするために、こ こではそれぞれの単語をアルファベットとして記号化した上で、アルファベット毎に列 を揃えて表記している。
[0067] 単語の優先順位は、優先順位が一意であれば、どのような基準で決定しても本発 明の実施には影響しな!/、。ただし、出現文書数が少なレ、単語に高!、優先順位を与え れば、同一文書候補グループ作成手段 11にお V、て同一文書候補グループに登録 される文書数を少なく抑えられるため、同一文書グループ作成手段 12において類似 度計算の回数を少なくすることが可能である。
[0068] 図 7に優先順位記憶部 21の格納例を示す。ここでは、単語とその出現文書数、優 先順位の対応関係を格納している。単語の優先順位は、単語の出現文書数が小さ いほど高ぐ出現文書数が同じ場合は、文字コードの若い単語、すなわち、アルファ ベット順で若!/、単語ほど優先順位を高くしてレ、る。
[0069] 次に、同一文書候補グループ作成手段 11は、単語群記憶部 20に格納された文書 に含まれる単語群の中から、入力装置 4から入力された類似度閾値以上の文書間で 少なくとも一つが必ず共通するような種類の単語群を、優先順位記憶部 21に格納さ れた同一文書照合の対象となるすべての文書で共通する優先順位で選択した後、 同一文書候補グループ記憶部 22を参照して選択したそれぞれの単語を IDとした同 一文書候補グループにその文書を追加する(ステップ S2)。
[0070] ここで図 8を用いて、ステップ S2の動作の詳細を説明する。 [0071] まず、単語群記憶部 20に格納された先頭の文書 IDを持つ文書を選択する(ステツ プ S20)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよ!/、。 ここでは、説明をわかりやすくするために、文書には文書 1から文書 nの IDが振られて おり、 i番目の文書は文書 iで現し、また、ステップ S20では文書 i=文書 1が選択された として説明する。
[0072] 次に、文書 iに含まれる単語のうち、入力装置 4から入力された類似度閾値以上の 文書間で少なくとも一つが必ず共通するような種類の単語群を、優先順位記憶部 21 に格納された同一文書照合の対象となるすべての文書で共通する優先順位で選択 する(ステップ S21)。ここでは、類似度を定理 1-2の cosine類似度で計算する場合で 説明する。
[0073] 文書 iに含まれる各単語の重み w(tl)はどのように決定しても本発明の実施には影響 しない。例えば、 w(tl)=lのように単語の重み全て同一にする力、、 w(tl)=log2(総文書数 /tlの出現文書数)のように出現文書数が少ないほど重要度が高くなるように設定す ること力 Sできる。ここでは、 w(tl)=lとして説明する。なお、 w(tl)=log2(総文書数/ tlの出 現文書数)で計算する場合は、 tlの出現文書数は、優先順位記憶部 21から得ること が可能である。
[0074] 文書 iから選択する単語群は、定理 1-2に従う。例えば、入力装置 4から入力された 類似度閾値は 75%であるから、図 6の単語群記憶部 20の文書 1から選択する単語 は、定理 1-2に従い、(選択する単語の異なり数) /9〉1 0· 75' 2を満たす最小の 単語の異なり数である 4個を選択すればよい。同様に、文書 2から選択する単語は、 定理 1-2に従い、(選択する単語の異なり数) /5〉1 0· 75' 2を満たす最小の単語 の異なり数である 2個を選択すればよい。同様に、文書 3から選択する単語は、定理 1 -2に従い、(選択する単語の異なり数) /7〉1 0· 75' 2を満たす最小の単語の異 なり数である 4個を選択すればよい。同様に、文書 4から選択する単語は、定理 1-2に 従い、(選択する単語の異なり数) /6〉1 0· 75' 2を満たす最小の単語の異なり 数である 3個を選択すればよい。同様に、文書 5から選択する単語は、定理 1-2に従 い、(選択する単語の異なり数) /7〉1 0· 75' 2を満たす最小の単語の異なり数で ある 4個を選択すればよい。同様に、文書 6から選択する単語は、定理 1-2に従い、( 選択する単語の異なり数) /2〉1 0. 75' 2を満たす最小の単語の異なり数である 1個を選択すればよい。
[0075] 文書 iから選択する単語の順序は、優先順位記憶部 21に格納された優先順位に従 う。文書 1から選択する 4個の単語は、 {A, I, B, C}となる。
[0076] 次に、ステップ S21で選択した単語群の先頭の単語 IDを持つ単語を選択する(ステ ップ S22)。単語を選択する順番は本発明の実施とは無関係であり任意の順番でよ!/、 。ここでは、説明をわ力、りするために、単語には単語 1から単語 mの IDが振られており 、 j番目の単語は単語 jで表し、またステップ S22では単語 j=単語 1から選択されたとし て説明する。
[0077] 次に、同一文書候補グループ記憶部 22に単語 jを IDとした同一文書候補グループ が存在するかを参照する(ステップ S23)。もし存在しない場合は、単語 jを IDとした同 一文書候補グループを新たに作成し、それに文書 iを追加する(ステップ S24)。存在 する場合は、単語 jを IDとした同一文書候補グループに文書 iを追加する(ステップ S2 5)。
[0078] 次に、ステップ S22の単語 IDが j > =m満たすかを判断し(ステップ S26)、満たす場 合はステップ S29へ進む、満たさない場合は、単語 j=単語 {j + 1 }として(ステップ S27) 、ステップ S22へ戻る。
[0079] 次に、ステップ S21の文書 ID力 〉 =nを満たすかを判断し(ステップ S29)、満たす場 合はステップ S3に進み、満たさない場合は、文書 i =文書 {i+ 1 }として (ステップ S28) 、ステップ S21へ戻る。
[0080] 以上、ステップ S2の同一文書候補グループ作成手段 11を説明した。
[0081] 類似度閾値が 75%の場合、同一文書候補グループ作成手段 11は、図 6の単語群 記憶部 20の文書 1から {A, I, B, C}を、文書 2から {G, L, E}を、文書 3から {I, B, C, D}を、文書 4から {G, K, L}を、文書 5から {A, M, B, C}を、文書 6から {K}選 択し、それを同一文書候補グループ記憶部 22に図 9のように格納する。
[0082] 図 5のステップ S3に戻り、同一文書グループ作成手段 12は、同一文書候補グルー プ記憶部 22を参照して同一の同一文書候補グループに所属する文書対の類似度 を単語群記憶部 20を参照して計算して、入力装置 4から入力された類似度閾値以上 の文書対を同一文書グループとする、または、共通する文書を含む類似度閾値以上 の文書対を統合した文書グループを同一文書グループとして判定し、その結果を対 象データベース 3に格納する(ステップ S3)。
[0083] ここで、同一文書グループ作成手段 12の動作 (ステップ S3)について詳細に説明す る。尚、ステップ S3の動作は 2通りの方法があり、まず一つ目を図 10を用いて説明す
[0084] まず、同一文書候補グループ記憶部 22に格納された先頭の単語 IDを持つ単語を 選択する(ステップ S310)。単語を選択する順番は本発明の実施とは無関係であり任 意の順番でよい。ここでは、説明をわかりやすくするために、単語には単語 1から単語 nの IDが振られており、 i番目の単語は単語 iで現し、また、ステップ S310では単語 i = 単語 1が選択されたとして説明する。
[0085] 次に、単語 iを IDとする同一文書候補グループのうち先頭の文書 IDを持つ文書を選 択する(ステップ S311)。文書を選択する順番は本発明の実施とは無関係であり任意 の順番でよい。ここでは、説明をわ力、りやすくするために、単語 iを IDとする同一文書 候補グループの文書には文書 1から文書 mの IDが振られており、 j番目の文書は文書 jで現し、また、ステップ S311では文書 j =文書 1が選択されたとして説明する。
[0086] 次に、単語 iを IDとする同一文書候補グループのうち文書 k =文書 j + 1の文書 IDを 持つ文書を選択する(ステップ S312)。
[0087] 次に、単語群記憶部 20を参照して文書 jと文書 kとの類似度を求め、類似度が入力 装置 4から入力された類似度閾値以上の場合は、同一文書グループとして出力デー タベース 5に登録する(ステップ S313)。類似度の計算式は、ステップ S2の同一文書 候補グループ作成手段 11と同一のものを用いる。例えば、図 9の同一文書候補グノレ ープ記憶部 22の単語 Aを IDとする同一文書グループに登録された文書 1と文書 5の 類似度を単語の重みを w(tl)=lとした定理 2の cosine類似度で計算すると、 cosine (文 書 1 ,文書 5) = 6/^9x^7 = 0. 76となり、類似度閾値は 75%であるから、同一文 書グループとして出力データベース 5に登録する。
[0088] 次に、ステップ S312の文書 IDが k〉 =mを満たすかを判断し(ステップ S314)、満た す場合はステップ S316へ進む、満たさない場合は、文書 k=文書 {k+ 1 }として (ステ ップ S315)、ステップ S312へ戻る。
[0089] 次に、ステップ S311の文書 IDが j > =mを満たすかを判断し(ステップ S316)、満た す場合はステップ S318へ進む、満たさない場合は、文書 j =文書 {j + 1 } (ステップ S31
7)として、ステップ S311へ戻る。
[0090] 次に、ステップ S310の単語 ID力 〉 =nを満たすかを判断し(ステップ S318)、満たす 場合は処理を終了し、満たさない場合は、単語 i =単語 {i+ 1 } (ステップ S319)として
、ステップ S310へ戻る。
[0091] 以上、一つ目のステップ S3の同一文書グループ作成手段 12の動作を説明した。類 似度閾値が 75%の場合、同一文書グループ作成手段 12は、図 9の同一文書候補グ ループ記憶部 22の単語 Aを IDとする同一文書候補グループの {文書 1 ,文書 5}、単 語 Bのグループの {文書 1 ,文書 3} , {文書 1 ,文書 5} , {文書 3,文書 5}、単語 Cのグ ループの {文書 1 ,文書 3} , {文書 1 ,文書 5} , {文書 3,文書 5}、単語 Gのグループ の {文書 2,文書 4}、単語 Iのグループの {文書;!,文書 3}、単語 Kのグループの {文 書 4,文書 6 }、単語 Lのグループの {文書 2,文書 4}と、類似度を計 11回計算し (類 似度の計算結果は図 11を参照のこと)、出力データベース 5に同一文書グループを 図 12のように出力する。
[0092] このように、非特許文献 1の総当りの方法では、図 6の単語群記憶部 20に対して類 似度は 6 X 5/2 = 15回計算する必要がある力 本発明では 11回で同一の結果を 出力できる。ステップ S3の同一文書グループ作成手段 12の説明は、同一の文書対 に対しても何度も類似度計算する単純な方法を採用しているが、既に類似度を求め た文書対を記憶装置 2に保持することで、同一の文書対を 1度だけ計算すれば良い ようにできる。例えば、 {文書;!,文書 5}は、単語 Aのグループと、単語 Bのグループと 、単語 Cのグループとの 3回計算している力 S、いずれかのグループで類似度を計算し ていれば、他のグループで計算する必要はない。この時、ステップ S3の同一文書グ ループ作成手段 12は図 9の同一文書候補グループ記憶部 22に対して類似度は 5 回計算するだけで良い。
[0093] 出力データベース 5への同一文書グループの格納方法は、図 12の(a)、(b)、 (c) が考えられる。 (a)は、類似度閾値以上のそれぞれの文書対を同一文書グループと して格納している。各レコードが一つの同一文書グループを意味する。 (b)は、共通 する文書を含む類似度閾値以上の文書対を統合した文書群を同一文書グループと して格納している。 1列目のフィールドの値が一つの同一文書グループを意味する。
(c)は、ある文書との類似度が閾値以上となる文書群を、その文書に対する同一文 書グループとして格納している。第 1列の文書 IDが、その文書 IDに対する同一文書グ ループを意味する。例えば、文書 1に対する同一文書グループとして文書 3と文書 5 1S 文書 2に対しては文書 4が登録されている。
[0094] 続いて、 2つ目の同一文書グループ作成手段 12の動作(ステップ S3)の詳細につ いて、図 14を用いて説明する。 2つ目の動作を実現するためには、ステップ S2の同一 文書候補グループ作成手段 11にお 、て、各文書と選択した単語群との対応関係を 選択単語記憶部へ出力することが必要である。選択単語記憶部の例を図 13に示す
[0095] まず、選択単語記憶部に格納された先頭の文書 IDを持つ文書を選択する (ステツ プ S320)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよ!/、 。ここでは、説明をわ力、りやすくするために、文書には文書 1から文書 nの IDが振られ ており、 i番目の文書は文書 iで現し、また、ステップ S320では文書 i =文書 1が選択さ れたとして説明する。
[0096] 次に、同一文書候補グループ記憶部 22を参照して、文書 iのそれぞれの選択単語 を IDとする同一文書候補グループの論理和の文書群を求める(ステップ S321)。例え ば、文書 i =文書 1の場合、文書 1の選択単語は、図 13を参照すると {A, B, C, 1}と なっている。それぞれの選択単語を IDとした同一文書候補グループの文書群は、図 9を参照すると単語 Aについては {文書;!,文書 5}、単語 Bについては {文書;!,文書 3,文書 5}、単語 Cについては {文書 1 ,文書 3,文書 5}、単語 Iについては {文書 1 , 文書 3}となっている。これらの論理和の文書群は、 {文書 1 ,文書 3,文書 5}となる。
[0097] 次に、ステップ S321で求めた文書群から文書 jを取り出す(ステップ S322)。文書を取 り出す順番は本発明の実施とは無関係であり任意の順番でよい。
[0098] 次に、 j〉iならば、文書 iと文書 jの類似度を計算し、類似度閾値以上の場合は同一 文書グループとして出力データベース 5に登録する(ステップ S323)。例えば、文書 i =文書 1のとき、ステップ S322では、 {文書 1 ,文書 3,文書 5 }が論理和の単語群とな るが、文書 j =文書 3、文書 j =文書 5のときにのみ類似度を計算することとなる。類似 度の計算式は、ステップ S2の同一文書候補グループ作成手段 1 1と同一のものを用 いるが、この点に関しては、一つ目の同一文書グループ作成手段 12の動作と同様な ので省略する。
[0099] 次に、ステップ S322で求めた論理和の単語群に残りがある場合はステップ S322に 戻り、残りがない場合はステップ S325に進む(ステップ S324)。
[0100] 次に、ステップ S320の文書 IDが i〉 =nを満たすかを判断し(ステップ S325)、満たす 場合は処理を終了し、満たさない場合は、文書 i =文書 {i+ 1 } (ステップ S326)として
、ステップ S320へ戻る。
[0101] 以上、 2つ目のステップ S3の同一文書グループ作成手段 12の動作を説明した。類 似度閾値が 75%の場合、文書 1に対する論理和の単語群は {文書 1 ,文書 3,文書 5 }、文書 2に対する論理和の単語群は {文書 2,文書 4 }、文書 3に対する論理和の単 語群は {文書;!,文書 3,文書 5 }、文書 4に対する論理和の単語群は {文書 2,文書 4 ,文書 6 }、文書 5に対する論理和の単語群は {文書;!,文書 3,文書 5 }、文書 6に対 する論理和の単語群は {文書 4,文書 6 }となり、類似度は、 {文書 1 ,文書 3 }、 {文書 1 ,文書 5 }、 {文書 2,文書 4 }、 {文書 3,文書 5 }、 {文書 4,文書 6 }の計 5回計算し、出 力データベース 5に同一文書グループを図 12のように出力する。
[0102] このように、非特許文献 1の総当りの方法では、図 6の単語群記憶部 20に対して類 似度は 6 X 5/2 = 15回計算する必要がある力 本発明では 5回で同一の結果を出 力できる。
[0103] 以上の如ぐ本発明は、グループ数の指定が事前に必要なぐ照合漏れのない厳 密解で、かつ、グループ数が多くなつても高速に同一文書の照合が可能である。
[0104] 高速である理由は、類似度計算の対象となる文書対を、同一の同一文書候補グノレ ープに所属する文書対に限定するためである。また、照合漏れのない厳密解である 理由は、文書に含まれる単語群の中から類似度閾値以上の文書間で少なくとも一つ が必ず共通するような種類の単語群を選択して文書グループ作成に用いるためであ る。さらに、同一文書グループ数を事前に指定しなくてもよぐ同一文書グループ数 が多くなつても高速な理由は、同一文書グループ数があらかじめ与えられて!/、なくて も同一文書グループを作成することが可能なためである。
更に、単語を選択する際に適用される共通の優先順位を、出現文書数が少ない単 語ほど、優先順位が高くなるように設定すれば、類似度閾値以上にならない文書対 をより多く検索することができる。その結果、同一文書候補グループ作成手段 11によ り、同一文書候補グループに登録される文書数を少なく抑えられるため、同一文書グ ループ作成手段 12において類似度計算の回数を少なくすることが可能となる。 <第 2の実施の形態〉
第 2の実施の形態を説明する。
[0105] 図 15を参照すると、第 2の実施の形態に係る同一文書照合システムは、プログラム 制御により動作するデータ処理装置 1と、情報を記憶する記憶装置 2と、対象データ ベース 3とキーボード等の入力装置 4と出力データベース 5とを含む。
[0106] 対象データベース 3については、第 1の実施の形態と同様である。
[0107] 入力装置 4についても、第 1の実施の形態と同様である。
[0108] データ処理装置 1は、文書解析手段 10と、同一文書候補グループ作成手段 11と、 同一文書グループ作成手段 12を有する。
[0109] 文書解析手段 10は、対象データベース 3に出現する全ての文字に関するすべての 文書で共通する優先順位を判定して優先順位記憶部 21に格納する。尚、本説明で は、第 1の実施の形態と同様に、理解を容易とする為、優先順位を決定する文書解 析手段 10を設けたが、以前に用いた優先順位を用いる場合には (既に優先順位記 憶部 21に優先順位が格納されて!/、る場合には)、文書解析手段 10の優先順位を決 定する機能は不要である。
[0110] 同一文書候補グループ作成手段 11は、対象データベース 3に格納された文書に 含まれる文字群の中から、入力装置 4から入力された類似度閾値以上の文書間で少 なくとも一つが必ず共通するような数の文字群を、優先順位記憶部 21に格納された 同一文書照合の対象となるすべての文書で共通する優先順位で選択した後、同一 文書候補グループ記憶部 22を参照して選択したそれぞれの文字を IDとした同一文 書候補グループにその文書を追加する。 [0111] 同一文書グループ作成手段 11は、同一文書候補グループ記憶部 22に格納され た同一の同一文書候補グループに所属する文書対の類似度を対象データベース 3 を参照して計算して、入力装置 4から入力された類似度閾値以上の文書対を同一文 書グループとする、または、共通する文書を含む類似度閾値以上の文書対を統合し た文書グループを同一文書グループとして判定し、その結果を対象データベース 3 に格納する。
[0112] 記憶装置 2は、優先順位記憶部 21と、同一文書候補グループ記憶部 22とを含む。
記憶装置 2は処理の高速化の都合上、メモリ内に格納することが望ましいが、 HDD 等の磁器記憶媒体であっても良い
優先順位記憶部 21は、第 1の実施の形態と同様である。同一文書候補グループ記 憶部 22は、第 1の実施の形態と同様である。出力データベース 5は、第 1の実施の形 態と同様である。
[0113] 次に、図 16を参照して本発明を実施するための最良の形態の動作について詳細 に説明する。なお、入力装置 4から入力された類似度閾値は 75%として説明する。
[0114] まず、文書解析手段 10は、対象データベース 3に出現する全ての文字に関するす ベての文書で共通する優先順位を判定して優先順位記憶部 21に格納する (ステツ プ Sl)。尚、本説明では、第 1の実施の形態と同様に、理解を容易とする為、同一文 書グループの作成処理の過程において、優先順位を決定したが、以前の同一文書 グループの作成処理において用いた優先順位を用いても良ぐこの場合には、優先 順位を判定するステップは不要である。
[0115] 文字の優先順位は、優先順位が一意であれば、どのような基準で決定しても本発 明の実施には影響しない。ただし、出現文書数が少ない文字に高い優先順位を与え れば、同一文書候補グループ作成手段 11にお V、て同一文書候補グループに登録 される文書数を少なく抑えられるため、同一文書グループ作成手段 12において類似 度計算の回数を少なくすることが可能である。
[0116] 図 7に図 6の対象データベース 3を参照して求めた優先順位記憶部 21の格納例を 示す。ここでは、文字とその出現文書数、優先順位の対応関係を格納している。文字 の優先順位は、文字の出現文書数が小さいほど高ぐ出現文書数が同じ場合は、文 字コードの若い文字、すなわち、アルファベット順で若い文字ほど優先順位を高くし ている。
[0117] 続いて、同一文書候補グループ作成手段 11は、対象データベース 3に格納された 文書に含まれる文字群の中から、入力装置 4から入力された類似度閾値以上の文書 間で少なくとも一つが必ず共通するような数の文字群を、優先順位記憶部 21に格納 された同一文書照合の対象となるすべての文書で共通する優先順位で選択した後、 同一文書候補グループ記憶部 22を参照して選択したそれぞれの文字を IDとした同 一文書候補グループにその文書を追加する(ステップ S2)。
[0118] ここで図 17を用いて、同一文書候補グループ作成手段 11の動作 (ステップ S2)の 詳細を説明する。
[0119] まず、対象データベース 3に格納された先頭の文書 IDを持つ文書を選択する (ステ ップ S20)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよ!/、 。ここでは、説明をわ力、りやすくするために、文書には文書 1から文書 nの IDが振られ ており、 i番目の文書は文書 iで現し、また、ステップ S20では文書 i =文書 1が選択され たとして説明する。
[0120] 次に、文書 iに含まれる文字のうち、入力装置 4から入力された類似度閾値以上の 文書間で少なくとも一つが必ず共通するような数の文字群を、対象データベース 3に 格納された同一文書照合の対象となるすべての文書で共通する優先順位で選択す る (ステップ S21)。ここでは、類似度を定理 2-2の類似度で計算する場合で説明する。
[0121] 文書 iから選択する文字数は、定理 2-2に従う。例えば、入力装置 4から入力された 類似度閾値は 75%であるから、図 6の対象データベース 3の文書 1から選択する文 字は、定理 2-2に従い、(選択する文字数) /9〉1 0. 75/ (2-0. 75)を満たす 最小の選択文字数である 4個を選択すればよい。同様に、文書 2から選択する文字 は、定理 2-2に従い、(選択する文字数) /5〉1 0. 75/ (2-0. 75)を満たす最 小の選択文字数である 3個を選択すればよい。同様に、文書 3から選択する文字は、 定理 2-2に従い、(選択する文字数) /7〉1 0. 75/ (2-0. 75)を満たす最小の 選択文字数である 3個を選択すればよい。同様に、文書 4から選択する文字は、定理 2-2に従い、(選択する文字数) /6〉1 0. 75/ (2-0. 75)を満たす最小の選択 文字数である 3個を選択すればよい。同様に、文書 5から選択する文字は、定理 2-2 に従い、(選択する文字数) /7〉1 0. 75/ (2-0. 75)を満たす最小の選択文 字数である 3個を選択すればよい。同様に、文書 6から選択する文字は、定理 2-2に 従い、(選択する文字数) /2〉1 0. 75/ (2-0. 75)を満たす最小の選択文字 数である 1個を選択すればよい。
[0122] 文書 iから選択する文字の順序は、優先順位記憶部 21に格納された優先順位に従 う。文書 1から選択する 4個の文字は、 {A, I, B, C}となる。
[0123] 次に、ステップ S21で選択した文字群の先頭の文字 IDを持つ文字を選択する (図 17 のステップ S22)。文字を選択する順番は本発明の実施とは無関係であり任意の順番 でよい。ここでは、説明をわ力、りするために、文字には文字 1から文字 mの IDが振られ ており、 j番目の文字は文字 jで表し、またステップ S22では文字 j =文字 1から選択さ れたとして説明する。
[0124] 次に、同一文書候補グループ記憶部 22に文字 jを IDとした同一文書候補グループ が存在するかを参照する(ステップ S23)。もし存在しない場合は、文字 jを IDとした同 一文書候補グループを新たに作成し、それに文書 iを追加する(ステップ S24)。存在 する場合は、文字 jを IDとした同一文書候補グループに文書 iを追加する (図 17のステ ップ S25)。
[0125] 次に、ステップ S22の文字 IDが j > =mを満たすかを判断し(ステップ S26)、満たす 場合はステップ S29へ進む、満たさない場合は、文字 j =文字 {j + 1 } (ステップ S27)と して、ステップ S22へ戻る。
[0126] 次に、ステップ S22の文書 ID力 〉 =nを満たすかを判断し(ステップ S29)、満たす場 合はステップ S3に進み、満たさない場合は、文書 i =文書 {i+ 1 } (ステップ S28)として
、ステップ S21へ戻る。
[0127] 以上、ステップ S2の同一文書候補グループ作成手段 11を説明した。類似度敷居値 が 75%の場合、同一文書候補グループ作成手段 11は、図 6の対象データベース 3 の文書 1から {A, I, B, C}を、文書 2から {G, L, E}を、文書 3から {I, B, C}を、文書 4力、ら {G、 K、 L}を、文書 5から {A、 M、 B}を、文書 6から {K}選択し、それを同一文 書候補グループ記憶部 22に図 18のように格納する。 [0128] 同一文書グループ作成手段 12は、同一文書候補グループ記憶部 22を参照して同 一の同一文書候補グループに所属する文書対の類似度を対象データベース 3を参 照して計算して、入力装置 4から入力された類似度閾値以上の文書対を同一文書グ ループとする、または、共通する文書を含む類似度閾値以上の文書対を統合した文 書グループを同一文書グループとして判定し、その結果を対象データベース 3に格 納する(ステップ S3)。
[0129] ここで、ステップ S3の動作の詳細を説明する。 尚、なおステップ S3の動作は 2通りの 方法があり、まず一つ目を図 19を用いて説明する。
[0130] まず、同一文書候補グループ記憶部 22に格納された先頭の文字 IDを持つ文字を 選択する(ステップ S310)。文字を選択する順番は本発明の実施とは無関係であり任 意の順番でよい。ここでは、説明をわ力、りやすくするために、文字には文字 1から文字 nの IDが振られており、 i番目の文字は文字 iで現し、また、ステップ S310では文字 i = 文字 1が選択されたとして説明する。
[0131] 次に、文字 iを IDとする同一文書候補グループのうち先頭の文書 IDを持つ文書を選 択する(ステップ S311)。文書を選択する順番は本発明の実施とは無関係であり任意 の順番でよい。ここでは、説明をわ力、りやすくするために、文字 iを IDとする同一文書 候補グループの文書には文書 1から文書 mの IDが振られており、 j番目の文書は文書 jで現し、また、ステップ S311では文書 j =文書 1が選択されたとして説明する。
[0132] 次に、文字 iを IDとする同一文書候補グループのうち文書 k =文書 j + 1の文書 IDを 持つ文書を選択する(ステップ S312)。
[0133] 次に、対象データベース 3を参照して文書 jと文書 kの類似度を求め、類似度が入 力装置 4から入力された類似度閾値以上の場合は、同一文書グループとして出力デ ータベース 5に登録する(ステップ S313)。類似度の計算式は、ステップ S2の同一文 書候補グループ作成手段 11と同一のものを用いる。例えば、図 18の同一文書候補 グループ記憶部 22の文字 Aを IDとする同一文書グループに登録された文書 1と文書 5の類似度を定理 2-2の類似度で計算すると、 sim (文書 1 ,文書 5)= (9 + 7— 4) / (9 + 7) =0. 75となり、類似度閾値は 75%であるから、同一文書グループとして出力デ ータベース 5に登録する。 [0134] 次に、ステップ S312の文書 IDが k〉 =mを満たすかを判断し(ステップ S314)、満た す場合はステップ S316へ進む、満たさない場合は、文書 k=文書 {k+ 1 } (ステップ S3
15)として、ステップ S312へ戻る。
[0135] 次に、ステップ S311の文書 IDが j > =mを満たすかを判断し(ステップ S316)、満た す場合はステップ S318へ進む、満たさない場合は、文書 j=文書 {j + 1 } (ステップ S317
)として、ステップ S311へ戻る。
[0136] 次に、ステップ Sの文字 ID力 〉 =nを満たすかを判断し(ステップ S318)、満たす場 合は処理を終了し、満たさない場合は、文字 i =文字 {i+ 1 } (ステップ S319)として、ス テツプ S310へ戻る。
[0137] 以上、一つ目のステップ S3の同一文書グループ作成手段 12の動作を説明した。類 似度敷居値が 75%の場合、同一文書グループ作成手段 12は、図 18の同一文書候 補グループ記憶部 22の文字 Aを IDとする同一文書候補グループの {文書 1 ,文書 5} 、文字 Bのグループの {文書 1 ,文書 3} , {文書 1 ,文書 5} , {文書 3,文書 5}、文字 C のグループの {文書;!,文書 3}、文字 Gのグループの {文書 2,文書 4}、文字 Iのグノレ ープの {文書 1 ,文書 3}、文字 Kのグループの {文書 4,文書 6 }、文字 Lのグループの {文書 2,文書 4}と、類似度を計 9回計算し (類似度の計算結果は図 20を参照のこと) 、出力データベース 5に同一文書グループを図 12のように出力する。
[0138] このように、非特許文献 1の総当りの方法では、図 6の対象データベース 3に対して 類似度は 6 X 5/2 = 15回計算する必要がある力 本発明では 9回で同一の結果を 出力できる。ステップ S2の同一文書グループ作成手段 12の説明は、同一の文書対 に対しても何度も類似度計算する単純な方法を採用しているが、既に類似度を求め た文書対を記憶装置 2に保持することで、同一の文書対を 1度だけ計算すれば良い ようにできる。この時、ステップ S3の同一文書グループ作成手段 12は図 18の同一文 書候補グループ記憶部 22に対して類似度は 5回計算するだけで良い。
[0139] 続いて、ステップ S3の 2つ目の動作を、図 22を用いて詳細に説明する。
[0140] 2つ目の動作を実現するためには、ステップ S2の同一文書候補グループ作成手段
11において、各文書と選択した文字群との対応関係を選択文字記憶部 出力する ことが必要である。選択文字記憶部の例を図 21に示す。 [0141] まず、選択文字記憶部に格納された先頭の文書 IDを持つ文書を選択する (ステツ プ S320)。文書を選択する順番は本発明の実施とは無関係であり任意の順番でよ!/、 。ここでは、説明をわ力、りやすくするために、文書には文字 1から文字 nの IDが振られ ており、 i番目の文字は文字 iで現し、また、ステップ S320では文字 i =文字 1が選択さ れたとして説明する。
[0142] 次に、同一文書候補グループ記憶部 22を参照して、文書 iのそれぞれの選択文字 を IDとする同一文書候補グループの論理和の文書群を求める(ステップ S321)。例え ば、文書 i =文書 1の場合、文書 1の選択文字は、図 21を参照すると {A, B, C, 1}と なっている。それぞれの選択文字を IDとした同一文書候補グループの文書群は、図 18を参照すると文字 Aについては {文書;!,文書 5}、文字 Bについては {文書;!,文 書 3,文書 5}、文字 Cについては {文書;!,文書 3}、文字 Iについては {文書;!,文書 3 }となっている。これらの論理和の文書群は、 {文書 1 ,文書 3,文書 5}となる。
[0143] 次に、ステップ S321で求めた文書群から文書 jを取り出す(ステップ S322)。文書を取 り出す順番は本発明の実施とは無関係であり任意の順番でよい。
[0144] 次に、 j〉iならば、文書 iと文書 jの類似度を計算し、類似度閾値以上の場合は同一 文書グループとして出力データベース 5に登録する(ステップ S323)。例えば、文書 i =文書 1のとき、ステップ S321では、 {文書 1 ,文書 3,文書 5}が論理和の文字群とな るが、文書 j =文書 3、文書 j =文書 5のときにのみ類似度を計算することとなる。類似 度の計算式は、ステップ S2の同一文書候補グループ作成手段 11と同一のものを用 いるが、この点に関しては、一つ目の同一文書グループ作成手段 12の動作と同様な ので省略する。
[0145] 次に、ステップ S321で求めた論理和の文字群に残りがある場合はステップ S322に 戻り、残りがない場合はステップ S325に進む(ステップ S324)。
[0146] 次に、ステップ S320の文書 IDが i〉 =nを満たすかを判断し(ステップ S325)、満たす 場合は処理を終了し、満たさない場合は、文書 i =文書 {i+ 1 } (ステップ S326)として
、ステップ S320へ戻る。
[0147] 以上、 2つ目のステップ S3の同一文書グループ作成手段 12の動作を説明した。類 似度閾値が 75%の場合、文書 1に対する論理和の文字群は {文書 1 ,文書 3,文書 5 }、文書 2に対する論理和の文字群は {文書 2,文書 4}、文書 3に対する論理和の文 字群は {文書 1 ,文書 3,文書 5}、文書 4に対する論理和の文字群は {文書 2,文書 4, 文書 6 }、文書 5に対する論理和の文字群は {文書;!,文書 3,文書 5}、文書 6に対す る論理和の文字群は {文書 4,文書 6 }となり、類似度は、 {文書 1 ,文書 3 }、 {文書 1 , 文書 5}、 {文書 2,文書 4}、 {文書 3,文書 5}、 {文書 4,文書 6 }の計 5回計算し、出力 データベース 5に同一文書グループを図 12のように出力する。
[0148] 以上の如ぐ本発明は、グループ数の指定が事前に必要なぐ照合漏れのない厳 密解で、かつ、グループ数が多くなつても高速に同一文書の照合が可能である。
[0149] 高速である理由は、類似度計算の対象となる文書対を、同一の同一文書候補グノレ ープに所属する文書対に限定するためである。また、照合漏れのない厳密解である 理由は、文書に含まれる文字群の中から類似度閾値以上の文書間で少なくとも一つ が必ず共通するような数の文字群を選択して文書グループ作成に用いるためである 。さらに、同一文書グループ数を事前に指定しなくてもよぐ同一文書グループ数が 多くなつても高速な理由は、同一文書グループ数があらかじめ与えられていなくても 同一文書グループを作成することが可能なためである。
<第 3の実施の形態〉
図 23を参照すると本発明の第 3の実施の形態は、第 1の実施の形態と構成をほぼ 同一とするが、単語群の優先順位をそれぞれ異なる基準で設定する複数の同一文 書候補グループ作成手段 11と、それに対応する複数の同一文書候補グループ記憶 部 22を用いている点、および、同一文書グループ作成手段 12が、複数ある同一文 書候補グループ記憶部 22にすべてにおいていずれかの同一の同一文書候補グノレ ープに所属する文書対の中で、類似度閾値以上の文書対を同一文書グループとす る、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループ を同一文書グループとする点で異なる。
[0150] なお説明を簡潔にするため、図 23では同一文書候補グループ作成手段 11を 2つ にしており、下記の動作の説明でも 2つとして説明するが、必ずしもこれに限ることなく 、 3つ以上の複数であっても良い。
[0151] 次に、図 24を参照して本発明を実施するための最良の形態の動作について詳細 に説明する。なお、入力装置 4から入力された類似度閾値は 85%として説明する。
[0152] まず、ステップ S1は文書解析手段 10の動作であり、第 1の実施の形態のステップ S1 と同様である。例えば、単語群記憶部 20に図 25のような文書 1から文書 10に含まれ る単語群が格納された場合で説明する。この時、単語の優先順位を、単語の出現文 書数が小さいほど高ぐ出現文書数が同じ場合は、文字コードの若い単語、すなわち 、アルファ ット順で若 V、単語ほど優先順位を高く設定すると、優先順位記憶部 21 には図 26のような優先順位で格納される。尚、本説明では、第 1の実施の形態と同 様に、理解を容易とする為、優先順位を決定する文書解析手段 10を設けたが、以前 に用いた優先順位を用いる場合には (既に優先順位記憶部 21に優先順位が格納さ れている場合には)、文書解析手段 10の優先順位を決定する機能は不要であり、優 先順位を決定するステップは不要である。また、本実施の形態では、ステップ S4で述 ベるように、複数の優先順位を用いるが、一部の優先順位のみ新たに決定し、他の 優先順位は新たに決定せずに以前に決定した優先順位を用いると V、つた構成も可 能である。
[0153] 次に、ステップ S2では、一回目の同一文書候補グループ作成手段 11により一回目 の同一文書候補グループを作成する。この動作は、第 1の実施の形態のステップ S2 と同様である。図の単語群記憶部 20に対して図 26の優先順位記憶部の優先順位で 一回目の同一文書候補グループ作成手段 11を行う場合で説明する。類似度閾値が 85%であるので、定理 1-2に従い、各文書から(選択する単語の異なり数) / (文書に 含まれる単語の異なり数)〉 1 0· 85'2を満たす最小の単語の異なり数を選択する 。図 27のようにそれぞれの文書からアンダーラインが引かれた単語を選択し、一回目 の同一文書候補グループ記憶部に図 28のように格納する。この際に、各文書と選択 した単語群との対応関係を一回目の選択単語記憶部へ図 29のように出力しておく。
[0154] 次に、ステップ S4では、一回目の同一文書候補グループ記憶部 22を用いて優先 順位記憶部 21の優先順位を変更する。ステップ S1では、単語の出現文書数が小さ いほど高い優先順位を与えていた力 ステップ S4では、単語の出現文書数が小さぐ かつ、一回目の同一文書候補グループ作成手段 11で多く選ばれなかった単語に高 い優先順位を与える。例えば、その単語の出現文書数と、その単語が一回目の同一 文書候補グループ作成手段 11で選択された文書数の和が小さ 、ほど優先順位を高 くすればよい。図 28の一回目の同一文書候補グループ記憶部を用いて、優先順位 記憶部 21の優先順位を変更した例を図 30に示す。例えば、単語 Aの出現文書数は 3回であるが、一回目の同一文書候補グループ作成手段 11では単語 Aは 3回選択さ れているので、 2つの和の 6をスコアとしている。スコアが同一の場合は、アルファべッ ト順で後の単語ほど優先順位を高く設定している。
[0155] 次に、ステップ S5では、二回目の同一文書候補グループ作成手段 12により二回目 の同一文書候補グループを作成する。この動作は、第 1の実施の形態のステップ S2 と同様である。図 25の単語群記憶部 20に対して図 30の優先順位記憶部の優先順 位で二回目の同一文書候補グループ作成手段を行う場合で説明する。類似度閾値 力 5%であるので、定理 1-2に従い、各文書から(選択する単語の異なり数) / (文書 に含まれる単語の異なり数)〉 1 0· 85'2を満たす最小の単語の異なり数を選択す る。図 31のようにそれぞれの文書からアンダーラインが引かれた単語を選択し、二回 目の同一文書候補グループ記憶部に図 32のように格納する。この際に、各文書と選 択した単語群との対応関係を二回目の選択単語記憶部へ図 33のように出力してお <。
[0156] 次に、ステップ S3では、同一文書グループ作成手段 12が、複数ある同一文書候補 グループ記憶部 22のすべてにおいていずれかの同一の同一文書候補グループに 所属する文書対の中で、類似度閾値以上の文書対を同一文書グループとする、また は、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一 文書グループとして判定し、その結果を対象データベース 3に格納する。
[0157] 同一文書グループ作成手段 12の動作 (ステップ S3)を説明する。
[0158] ステップ S3の動作の詳細を、第 1の実施の形態との違いを中心に図 34を用いて説 明する。
[0159] まず、選択単語記憶部に格納された先頭の文書 IDを持つ文書を選択する (図 34の ステップ S320)。文書 IDのみを使用するので、一回目の選択単語記憶部、または、二 回目の選択単語記憶部のどちらでもよい。文書を選択する順番は本発明の実施とは 無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、文書に は文書 1から文書 nの IDが振られており、 i番目の文書は文書 iで現す。
[0160] 次に、一回目の同一文書候補グループ記憶部 22を参照して、文書 iのそれぞれの 選択単語を IDとする同一文書候補グループの論理和の文書群を求める (図 34のステ ップ S321)。例えば、文書 i=文書 1の場合、文書 1の一回目の選択単語は、図 29を参 照すると {A, L}となっている。それぞれの選択単語を IDとした同一文書候補グルー プの文書群は、図 28を参照すると単語 Aについては {文書;!,文書 4,文書 6 }、単語 Lについては {文書;!,文書 4,文書 7}となっている。これらの論理和の文書群は、 {文 書 1 ,文書 4,文書 6,文書 7}となる。
[0161] 次に、二回目の同一文書候補グループ記憶部 22を参照して、文書 iのそれぞれの 選択単語を IDとする同一文書候補グループの論理和の文書群を求める(図 34のス テツプ S327)。例えば、文書 i=文書 1の場合、文書 1の二回目の選択単語は、図 33を 参照すると {G, L}となっている。それぞれの選択単語を IDとした同一文書候補グノレ ープの文書群は、図 32を参照すると単語 Gについては {文書;!,文書 2,文書 8,文書 9}、単語 Lについては {文書;!,文書 7}となっている。これらの論理和の文書群は、 { 文書 1 ,文書 2,文書 7,文書 8,文書 9}となる。
[0162] 次に、ステップ S321とステップ S327で求めた文書群の論理積の文書群を求める (図
34のステップ S328)。例えば、文書 i=文書 1の場合、ステップ S321では {文書;!,文書 4 ,文書 6,文書 7}、ステップ S327では {文書;!,文書 2,文書 7,文書 8,文書 9}が文書 群として求められたので、その論理積の文書群は {文書;!,文書 7}となる。
[0163] 次にステップ S328で求めた文書群から文書 jを取り出す(図 34のステップ S322)。こ のステップ S322以降は、第 1の実施の形態の図 15の S322以降と同様なので説明は 省略する。
[0164] 以上、第 3の実施の形態の動作を説明した。第 1の実施の形態では、一回目の同一 文書候補グループ作成手段のみを用いるので、図 25の単語群記憶部の例では、図 35のように類似度は 18回計算する必要がある力 本実施の形態では、二回目の同 一文書候補グループ作成手段も合わせて用いるため、類似度計算は 11回に削減で きる。
[0165] なお、本実施の形態では、同一文書候補グループ作成手段 11を二回用いる場合 で説明したが、複数回用いる場合にも容易に一般化できる。 n回目の同一文書候補 グループ作成手段 11を実行する際には、 n-1回目の同一文書候補グループ記憶部 22を用いて優先順位記憶部 21の優先順位を変更すればよ V、。例えば、その単語の 出現文書数と、その単語が n-1回目までの同一文書候補グループ作成手段 11で選 択された文書数の総数の重み付け和が小さ!/、ほど優先順位を高くすればよ!/、。すな わち、 n回目の単語 aのスコア score(a,n)は、
Score(a,n) = p x (aの出現文書数) + q x (n_l回目までに同一文書候補グループ作成 された文書数の総数)
と表すことができ、 Scoreの小さい単語ほど優先順位を高くする。ここで、 pと qは実数の 定数である。同一文書グループ作成手段 12では、ステップ S321,ステップ S327のよう な文書 iのそれぞれの選択単語を IDとする同一文書グループの論理和の文書群を求 める処理を n回行い n個の論理和の文書群を求め、ステップ S328では、 n個の論理和 の文書群の論理積を求めるようにすれば良い。
本発明の効果は、第 1の実施の形態の効果を維持したまま、第 1の実施の形態より も高速に同一文書の照合が可能なことである。その理由は、単語群の優先順位をそ れぞれ異なる基準で設定する複数の同一文書候補グループ作成手段 11とそれに対 応する複数の同一文書候補グループ記憶部 22を用いて、同一文書グループ作成 手段 12が、複数ある同一文書候補グループ記憶部 22のすべてにおいていずれか の同一の同一文書候補グループに所属する文書対に限り類似度を計算するようにし ている力もである。
<第 4の実施の形態〉
図 36を参照すると本発明の第 4の実施の形態は、第 2の実施の形態と構成をほぼ 同一とするが、文字群の優先順位をそれぞれ異なる基準で設定する複数の同一文 書候補グループ作成手段 11と、それに対応する複数の同一文書候補グループ記憶 部 22を用いている点、および、同一文書グループ作成手段 12が、複数ある同一文 書候補グループ記憶部 22にすべてにおいていずれかの同一の同一文書候補グノレ ープに所属する文書対の中で、類似度閾値以上の文書対を同一文書グループとす る、または、共通する文書を含む類似度閾値以上の文書対を統合した文書グループ を同一文書グループとする点で異なる。
[0167] なお説明を簡潔にするため、図 36では同一文書候補グループ作成手段を 2つにし ており、下記の動作の説明でも 2つとして説明する力 S、必ずしもこれに限ることなく、 3 つ以上の複数であっても良い。
[0168] 次に、図 37を参照して本発明を実施するための最良の形態の動作について詳細 に説明する。なお、入力装置 4から入力された類似度閾値は 85%として説明する。
[0169] まず、ステップ S1は文書解析手段 10の動作であり、第 2の実施の形態のステップ S1 と同様である。例えば、対象データベース 3に図 25のような文書 1から文書 10に含ま れる文字群が格納された場合で説明する。この時、文字の優先順位を、文字の出現 文書数が小さいほど高ぐ出現文書数が同じ場合は、文字コードの若い単語、すな わち、アルファベット順で若い文字ほど優先順位を高く設定すると、優先順位記憶部 21には図 26のような優先順位で格納される。尚、本説明では、第 2の実施の形態と 同様に、理解を容易とする為、優先順位を決定する文書解析手段 10を設けたが、以 前に用いた優先順位を用いる場合には (既に優先順位記憶部 21に優先順位が格納 されている場合には) 文書解析手段 10の優先順位を決定する機能は不要であり、 優先順位を決定するステップは不要である。また、本実施の形態では、ステップ S4で 述べるように、複数の優先順位を用いるが、一部の優先順位のみ新たに決定し、他 の優先順位は新たに決定せずに以前に決定した優先順位を用いると V、つた構成も 可能である。
[0170] 次に、ステップ S2では、一回目の同一文書候補グループ作成手段 11により一回目 の同一文書候補グループを作成する。この動作は、第 2の実施の形態のステップ S2 と同様である。図 25の対象データベース 3に対して図 26の優先順位記憶部の優先 順位で一回目の同一文書候補グループ作成手段を行う場合で説明する。類似度閾 値が 85%であるので、定理 2-2に従い、各文書から(選択する文字数) / (文書に含 まれる文字数)〉 0· 85/ (2 - 0. 85)を満たす最小の文字数を選択する。図 27のよ うにそれぞれの文書からアンダーラインが引かれた文字を選択し、一回目の同一文 書候補グループ記憶部に図 28のように格納する。この際に、各文書と選択した文字 群との対応関係を一回目の選択文字記憶部 図 29のように出力しておく。 [0171] 次に、ステップ S4では、一回目の同一文書候補グループ記憶部 22を用いて優先 順位記憶部 21の優先順位を変更する。ステップ S1では、文字の出現文書数が小さ いほど高い優先順位を与えていた力 ステップ S4では、文字の出現文書数が小さぐ かつ、一回目の同一文書候補グループ作成手段 11で多く選ばれな力、つた文字に高 い優先順位を与える。例えば、その文字の出現文書数と、その文字が一回目の同一 文書候補グループ作成手段 11で選択された回数の和が小さ V、ほど優先順位を高く すればよい。図 28の一回目の同一文書候補グループ記憶部を用いて、優先順位記 憶部 21の優先順位を変更した例を図 30に示す。例えば、文字 Aの出現文書数は 3 回であるが、一回目の同一文書候補グループ作成手段 11では文字 Aは 3回選択さ れているので、 2つの和の 6をスコアとしている。スコアが同一の場合は、アルファべッ ト順で後の文字ほど優先順位を高く設定している。
[0172] 次に、ステップ S5では、二回目の同一文書候補グループ作成手段 12により二回目 の同一文書候補グループを作成する。この動作は、第 2の実施の形態のステップ S2 と同様である。図 25の対象データベース 3に対して図 30の優先順位記憶部の優先 順位で二回目の同一文書候補グループ作成手段を行う場合で説明する。類似度閾 値が 85%であるので、定理 2-2に従い、各文書から(選択する文字数) / (文書に含 まれる文字数)〉 0· 85/ (2-0. 85)を満たす最小の単語の文字数を選択する。図 31のようにそれぞれの文書からアンダーラインが引かれた文字を選択し、二回目の 同一文書候補グループ記憶部に図 32のように格納する。この際に、各文書と選択し た文字群との対応関係を二回目の選択文字記憶部 図 33のように出力しておく。
[0173] 次に、ステップ S3では、同一文書グループ作成手段 12が、複数ある同一文書候補 グループ記憶部 22のすべてにおいていずれかの同一の同一文書候補グループに 所属する文書対の中で、類似度閾値以上の文書対を同一文書グループとする、また は、共通する文書を含む類似度閾値以上の文書対を統合した文書グループを同一 文書グループとして判定し、その結果を対象データベース 3に格納する。
[0174] 同一文書グループ作成手段 12 (ステップ S3)の動作を説明する。
ステップ S3の動作の詳細を、第 2の実施の形態との違いを中心に図 38を用いて説 明する。 [0175] まず、選択文字記憶部に格納された先頭の文書 IDを持つ文書を選択する (図 38の ステップ S320)。文書 IDのみを使用するので、一回目の選択文字記憶部、または、二 回目の選択文字記憶部のどちらでもよい。文書を選択する順番は本発明の実施とは 無関係であり任意の順番でよい。ここでは、説明をわかりやすくするために、文書に は文書 1から文書 nの IDが振られており、 i番目の文書は文書 iで現す。
[0176] 次に、一回目の同一文書候補グループ記憶部 22を参照して、文書 iのそれぞれの 選択文字を IDとする同一文書候補グループの論理和の文書群を求める (図 38のステ ップ S321)。例えば、文書 i=文書 1の場合、文書 1の一回目の選択文字は、図 29を参 照すると {A, L}となっている。それぞれの選択文字を IDとした同一文書候補グルー プの文書群は、図 28を参照すると文字 Aについては {文書;!,文書 4,文書 6 }、文字 Lについては {文書;!,文書 4,文書 7}となっている。これらの論理和の文書群は、 {文 書 1 ,文書 4,文書 6,文書 7}となる。
[0177] 次に、二回目の同一文書候補グループ記憶部 22を参照して、文書 iのそれぞれの 選択文字を IDとする同一文書候補グループの論理和の文書群を求める (図 38のステ ップ S327)。例えば、文書 i=文書 1の場合、文書 1の二回目の選択文字は、図 33を参 照すると {G, L}となっている。それぞれの選択文字を IDとした同一文書候補グルー プの文書群は、図 32を参照すると文字 Gについては {文書;!,文書 2,文書 8,文書 9 }、文字 Lについては {文書;!,文書 7}となっている。これらの論理和の文書群は、 {文 書 1 ,文書 2,文書 7,文書 8,文書 9}となる。
[0178] 次に、ステップ S321とステップ S327で求めた文書群の論理積の文書群を求める(図
38のステップ S328)。例えば、文書 i=文書 1の場合、ステップ S321では {文書;!,文書 4 ,文書 6,文書 7}、ステップ S327では {文書;!,文書 2,文書 7,文書 8,文書 9}が文書 群として求められたので、その論理積の文書群は {文書;!,文書 7}となる。
[0179] 次にステップ S328で求めた文書群から文書 jを取り出す(図 38のステップ S322)。こ のステップ S322以降は、第 2の実施の形態の図 23の S322以降と同様なので説明は 省略する。
[0180] 以上、第 4の実施の形態の動作を説明した。第 2の実施の形態では、一回目の同 一文書候補グループ作成手段 11のみを用いるので、図 24の対象データベース 3の 例では、図 35のように類似度は 18回計算する必要がある力 S、本実施の形態では、二 回目の同一文書候補グループ作成手段も合わせて用いるため、類似度計算は 11回 に削減できる。
[0181] なお、本実施の形態では、同一文書候補グループ作成手段 11を二回用いる場合 で説明したが、複数回用いる場合にも容易に一般化できる。 n回目の同一文書候補 グループ作成手段 11を実行する際には、 n— 1回目の同一文書候補グループ記憶 部 22を用いて優先順位記憶部 21の優先順位を変更すればよ V、。例えば、その文字 の出現文書数と、その文字が n— 1回目までの同一文書候補グループ作成手段 11 で選択された文書数の総数の重み付け和が小さ!/、ほど優先順位を高くすればよ!/、。 すなわち、 n回目の文字 aのスコア score(a,n)は、
Score(a,n) = p x (aの出現文書数) + q x (n_l回目までに aが同一文書候補グループ 作成手段で選択された文書数の総数)
と表すことができ、 Scoreの小さい単語ほど優先順位を高くする。ここで、 pと qは実数の 定数である。同一文書グループ作成手段 12では、ステップ S321,ステップ S327のよう な文書 iのそれぞれの選択文字を IDとする同一文書グループの論理和の文書群を求 める処理を n回行い n個の論理和の文書群を求め、ステップ S328では、 n個の論理和 の文書群の論理積を求めるようにすれば良い。
[0182] 本発明の効果は、第 2の実施の形態の効果を維持したまま、第 2の実施の形態より も高速に同一文書の照合が可能なことである。その理由は、文字群の優先順位をそ れぞれ異なる基準で設定する複数の同一文書候補グループ作成手段 11とそれに対 応する複数の同一文書候補グループ記憶部 22を用いて、同一文書グループ作成 手段 12が、複数ある同一文書候補グループ記憶部 22のすべてにおいていずれか の同一の同一文書候補グループに所属する文書対に限り類似度を計算するようにし ている力もである。
[0183] 本出願は、 2006年 9月 14日に出願された日本出願特願 2006— 249429号を基 礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims

請求の範囲
[1] 所定の類似度以上とはならない情報対を検索する検索方法であって、
情報対が少なくとも所定の類似度以上となるために、情報を構成する情報要素が 情報間で共通する割合を求め、
前記割合に基づぐ各情報の情報要素の選択数を決定し、
照合対象となる情報群で共通して適用される情報要素の優先順位に従って、前記 各情報から前記選択数の情報要素を選択し、
選択した情報要素が情報間で全て共通しない情報対を検索する
ことを特徴とする検索方法。
[2] 所定の類似度以上となる情報対の類似度を計算する類似度計算方法であって、 情報対が少なくとも所定の類似度以上となるために、情報を構成する情報要素が 情報間で共通する割合を求め、
前記割合に基づぐ各情報の情報要素の選択数を決定し、
類似度の計算対象となる情報群で共通して適用される情報要素の優先順位に従つ て、前記各情報力 前記選択数の情報要素を選択し、
選択した情報要素が情報間で全て共通しな V、情報対以外の情報対に対して、類 似度の計算を行う
ことを特徴とする類似度計算方法。
[3] 前記情報が文書であり、前記情報要素が前記文書に含まれる単語または文字であ ることを特徴とする請求項 2に記載の類似度計算方法。
[4] 前記優先順位は、出現情報数が少ない情報要素が高い優先順位となるように決定 することを特徴とする請求項 2又は請求項 3に記載の類似度計算方法。
[5] 複数の優先順位毎に、各情報力 前記選択数の情報要素を選択し、
V、ずれかの優先順位に基づ!/、て選択した情報要素が情報間で全て共通しな!/、情 報対以外の情報対に対して類似度の計算を行う
ことを特徴とする請求項 2から請求項 4のいずれかに記載の類似度計算方法。
[6] 所定の類似度以上となる情報対の類似度を計算する類似度計算システムであって 類似度の計算対象となる情報群で共通して適用され、情報を構成する情報要素の 優先順位が格納された優先順位記憶部と、
前記情報の情報対が少なくとも所定の類似度以上となるために、情報間で前記情 報要素が共通する割合を求め、この割合に基づいた各情報の情報要素の選択数を 決定し、前記優先順位に従って、前記各情報から前記選択数の情報要素を選択す る情報要素選択手段と、
選択した情報要素が情報間で全て共通しな V、情報対以外の情報対に対して、類 似度の計算を行う類似度計算手段と
を有することを特徴とする類似度計算システム。
[7] 前記情報が文書であり、前記情報要素が前記文書に含まれる単語または文字であ ることを特徴とする請求項 6に記載の類似度計算システム。
[8] 前記優先順位は、出現情報数が少ない情報要素が高い優先順位となるように決定 することを特徴とする請求項 6又は請求項 7に記載の類似度計算システム。
[9] 前記優先順位記憶部には、異なる複数の優先順位が記憶され、
前記情報要素選択手段は、前記異なる優先順位毎に、前記各情報から前記選択 数の情報要素を選択するように構成され、
前記類似度計算手段は、異なる優先順位毎に類似度の計算を行うように構成され て!/、ることを特徴とする請求項 6から請求項 8の!/、ずれかに記載の類似度計算システ ム。
[10] 与えられた文書間で実質的に同一の文書群をグルーピングする同一文書照合シス テムであって、
単語または文字で識別され、実質的に同一の候補である文書のグループである同 一文書候補グループと、そのグループに属する文書との対応関係が記憶される同一 文書候補グループ記憶部と、
文書間で少なくとも所定の類似度閾値以上となるために、文書間で単語または文 字が共通する割合を求め、この割合に基づいて、文書照合の対象となるすべての文 書間で共通する優先順位で単語または文字を選択し、選択したそれぞれの単語また は文字で識別される同一文書候補グループにその文書を対応付けて前記同一文書 候補グループ記憶部に記憶する同一文書候補グループ作成手段と を有することを特徴とする同一文書照合システム。
前記同一文書候補グループ記憶部に記憶されている同一の同一文書候補グルー プに対応付けられた 2つの異なる文書の対である文書対に対して類似度を計算し、 この類似度が前記類似度閾値以上の文書対を同一文書グループとして登録する同 一文書グループ作成手段を有することを特徴とする請求項 10に記載の同一文書照
[12] 前記同一文書グループ作成手段は、共通する文書を含む同一文書グループを統 合して同一文書グループとするように構成されてレ、ることを特徴とする請求項 11に記 載の同一文書照合システム。
[13] 同一文書候補グループ作成手段が、前記優先順位を、出現文書数が少ない単語 または文字が高い優先順位となるように決定することを特徴とする請求項 10から請求 項 12のいずれかに記載の同一文書照合システム。
[14] 前記同一文書候補グループ作成手段及び前記複数の同一文書候補グループ記 憶部を、異なる優先順位毎に設け、
前記同一文書グループ作成手段が、複数ある同一文書候補グループ記憶部のす ベてにおいていずれかの同一の同一文書候補グループに所属する文書対の中で、 類似度閾値以上の文書対を同一文書グループとするように構成されていることを特 徴とする請求項 10から請求項 13のいずれかに記載の同一文書照合システム。
[15] 前記複数の同一文書候補グループ作成手段が、異なる優先順位を設定する際に n回目の同一文書候補グループ作成手段を実行する際の単語または文字の優先 順位を、その出現文書数とそれが n— 1回目までの同一文書候補グループ作成手段 で選択された文書数の総数の重み付き和が小さい単語又は文字ほど優先順位を高 く設定するように構成されていることを特徴とする請求項 14に記載の同一文書照合 システム。
[16] 前記同一文書候補グループ作成手段が、文書に含まれる単語から類似度閾値以 上の文書間で少なくとも一つが必ず共通するような種類の単語を選択する際に、 単語 tlの重要度を w(tl)とし、
2つの文書 di={tl|0く =1く =|di|}、 dj={tl|0く =1く =|dj|}の類似度 sim(di,dj)が、
sim(di, dj) = (∑ tie di门 dj w(tl)"2) / ( ∑ tie di w(tl)"2) * ∑ t\≡d w(tl)"2)) の cosine類似度で定義される場合、
類似度閾値が ST(0〈=ST〈=1)の時、文書 di(0〈=i〈=n)(nは同一照合の対象となる文書 数)から、
sdie di {( Z tle sdi w(tl)"2) / (∑tle d w(tl)"2) > 1- ST"2}
を満たす単語群 sdiを選択する
ように構成されていることを特徴とする請求項 10から請求項 15のいずれかに記載の 同一文書照合システム。
同一文書候補グループ作成手段が、文書に含まれる文字から類似度閾値以上の 文書間で少なくとも一つが必ず共通するような数の文字群を選択する際に、
2つの文書 di={tl|0く =1く =|di|}、 dj={tl|0く =1く =|dj|}の編集距離を edit_dis(di,dj)とし、 diの文字数を fq(di)、 diにおける tlの出現回数を fq(di,tl)とし、
diと djのの類似度 sim(di,dj)が、
sim(di, dj) = (fq(di) + fq(dj) - edit— dis(di,dj》 / (fq(di) + fq(dj))
で定義される場合、
類似度閾値が ST(0〈=ST〈=1)の時、文書 di(0〈=i〈=n)(nは同一照合の対象となる文書 数)から、
sdie di {( Z tle sdi fq(di,tl)) I fq(di) > 1- (ST / (2— ST))}
を満たす文字群 sdiを選択する
ように構成されていることを特徴とする請求項 10から請求項 15のいずれかに記載の 同一文書照合システム。
所定の類似度以上となる情報対の類似度を計算する類似度計算プログラムであつ て、
情報対が少なくとも所定の類似度以上となるために、情報を構成する情報要素が 情報間で共通する割合を求める処理と、
前記割合に基づぐ各情報の情報要素の選択数を決定する処理と、 類似度の計算対象となる情報群で共通して適用される情報要素の優先順位に従つ て、前記各情報力 前記選択数の情報要素を選択する処理と、
選択した情報要素が情報間で全て共通しな V、情報対以外の情報対に対して、類 似度の計算を行う処理と
を情報処理に実行させることを特徴とする類似度計算プログラム。
与えられた文書間で実質的に同一の文書群をグルーピングする同一文書照合プロ グラムあって、
文書間で少なくとも所定の類似度閾値以上となるために、文書間で単語または文 字が共通する割合を求める処理と、
前記割合に基づいて、文書照合の対象となるすべての文書間で共通する優先順 位で単語または文字を選択する処理と、
前記選択したそれぞれの単語または文字で識別される同一文書候補グループに その文書を対応付けて記憶する処理と
を情報処理に実行させることを特徴とする同一文書照合プログラム。
PCT/JP2007/067831 2006-09-14 2007-09-13 Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci WO2008032780A1 (fr)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US12/310,975 US8606779B2 (en) 2006-09-14 2007-09-13 Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
JP2008534383A JP5115741B2 (ja) 2006-09-14 2007-09-13 検索方法、類似度計算方法、類似度計算及び同一文書照合システムと、そのプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006-249429 2006-09-14
JP2006249429 2006-09-14

Publications (1)

Publication Number Publication Date
WO2008032780A1 true WO2008032780A1 (fr) 2008-03-20

Family

ID=39183834

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2007/067831 WO2008032780A1 (fr) 2006-09-14 2007-09-13 Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d'appariement de mêmes documents et programme de ceux-ci

Country Status (3)

Country Link
US (1) US8606779B2 (ja)
JP (2) JP5115741B2 (ja)
WO (1) WO2008032780A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737751A (zh) * 2019-09-06 2020-01-31 平安科技(深圳)有限公司 基于相似度值的搜索方法、装置、计算机设备和存储介质

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8606779B2 (en) * 2006-09-14 2013-12-10 Nec Corporation Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof
US9081852B2 (en) * 2007-10-05 2015-07-14 Fujitsu Limited Recommending terms to specify ontology space
JPWO2011010434A1 (ja) * 2009-07-23 2012-12-27 日本電気株式会社 情報提示システム及び情報提示方法
US8515972B1 (en) 2010-02-10 2013-08-20 Python 4 Fun, Inc. Finding relevant documents
US8660986B2 (en) * 2010-10-27 2014-02-25 Microsoft Corporation Preserving user intent in merging ordered objects
US9551166B2 (en) * 2011-11-02 2017-01-24 Ford Global Technologies, Llc Electronic interior door release system
US11003567B2 (en) * 2017-12-06 2021-05-11 International Business Machines Corporation Method and apparatus for test modeling
CN111144104B (zh) * 2018-11-02 2023-06-20 中国电信股份有限公司 文本相似度的确定方法、装置和计算机可读存储介质
US10540381B1 (en) 2019-08-09 2020-01-21 Capital One Services, Llc Techniques and components to find new instances of text documents and identify known response templates
CN111241811A (zh) * 2020-01-06 2020-06-05 平安科技(深圳)有限公司 确定搜索词权重的方法、装置、计算机设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04175874A (ja) * 1990-11-07 1992-06-23 Chugoku Nippon Denki Software Kk 推論機能付き検索システム
JPH08272813A (ja) * 1995-03-31 1996-10-18 Canon Inc ファイリング装置
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
JP2003050823A (ja) * 2001-08-03 2003-02-21 Nippon Telegr & Teleph Corp <Ntt> 類似部分系列検出方法および装置、類似部分系列検出プログラムならびにその記録媒体

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6542889B1 (en) * 2000-01-28 2003-04-01 International Business Machines Corporation Methods and apparatus for similarity text search based on conceptual indexing
JP4142881B2 (ja) * 2002-03-07 2008-09-03 富士通株式会社 文書類似度算出装置、クラスタリング装置および文書抽出装置
US7392262B1 (en) * 2004-02-11 2008-06-24 Aol Llc Reliability of duplicate document detection algorithms
US7406479B2 (en) * 2006-02-10 2008-07-29 Microsoft Corporation Primitive operator for similarity joins in data cleaning
US8010534B2 (en) * 2006-08-31 2011-08-30 Orcatec Llc Identifying related objects using quantum clustering
US8606779B2 (en) * 2006-09-14 2013-12-10 Nec Corporation Search method, similarity calculation method, similarity calculation, same document matching system, and program thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04175874A (ja) * 1990-11-07 1992-06-23 Chugoku Nippon Denki Software Kk 推論機能付き検索システム
JPH08272813A (ja) * 1995-03-31 1996-10-18 Canon Inc ファイリング装置
JPH1153387A (ja) * 1997-08-06 1999-02-26 Ibm Japan Ltd 文書の関連付け方法及びそのシステム
JP2003050823A (ja) * 2001-08-03 2003-02-21 Nippon Telegr & Teleph Corp <Ntt> 類似部分系列検出方法および装置、類似部分系列検出プログラムならびにその記録媒体

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KIKUCHI C.: "Nihongo Bunsho-yo Kosoku Zenbun Kensaku no Ichi Shuho", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J75-D-1, no. 9, 25 September 1992 (1992-09-25), pages 836 - 846, XP003021599 *
SAITO H. ET AL.: "Dogisei Hantei Rule o Mochiita Chofuku Recode Shogo System", DAI 68 KAI (HEISEI 18 NEN) ZENKOKU TAIKAI KOEN RONBUNSHU (2) JINKO CHINO TO NINCHI KAGAKU, 7 March 2006 (2006-03-07), pages 2-105 - 2-106 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110737751A (zh) * 2019-09-06 2020-01-31 平安科技(深圳)有限公司 基于相似度值的搜索方法、装置、计算机设备和存储介质
CN110737751B (zh) * 2019-09-06 2023-10-20 平安科技(深圳)有限公司 基于相似度值的搜索方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
US8606779B2 (en) 2013-12-10
JPWO2008032780A1 (ja) 2010-01-28
US20100023505A1 (en) 2010-01-28
JP2012230713A (ja) 2012-11-22
JP5115741B2 (ja) 2013-01-09
JP5605583B2 (ja) 2014-10-15

Similar Documents

Publication Publication Date Title
WO2008032780A1 (fr) Procédé de recherche, procédé de calcul de similarité, calcul de similarité, système d&#39;appariement de mêmes documents et programme de ceux-ci
Bennani-Smires et al. Simple unsupervised keyphrase extraction using sentence embeddings
Oliveira et al. Assessing shallow sentence scoring techniques and combinations for single and multi-document summarization
US8055498B2 (en) Systems and methods for building an electronic dictionary of multi-word names and for performing fuzzy searches in the dictionary
US8386264B2 (en) Speech data retrieval apparatus, speech data retrieval method, speech data retrieval program and computer usable medium having computer readable speech data retrieval program embodied therein
US20130282645A1 (en) System and method for probabilistic name matching
CN107608960B (zh) 一种命名实体链接的方法和装置
Wang et al. DM_NLP at semeval-2018 task 12: A pipeline system for toponym resolution
Halterman Geolocating political events in text
CN113673252A (zh) 一种基于字段语义的数据表自动join推荐方法
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
Umair et al. N-GPETS: Neural Attention Graph-Based Pretrained Statistical Model for Extractive Text Summarization
Koka Automatic keyword detection for text summarization
JP6470249B2 (ja) データクレンジングシステム、データクレンジング方法及びデータクレンジングプログラム
CN115794998A (zh) 一种基于对比学习的专业领域术语挖掘方法
JP5594134B2 (ja) 文字列検索装置,文字列検索方法および文字列検索プログラム
Manalu et al. The Development of Document Similarity Detector by Jaccard Formulation
JP4844737B2 (ja) 代表情報選択方法、代表情報選択システム及びプログラム
Bogers Dutch named entity recognition: Optimizing features, algorithms, and output
JP4915499B2 (ja) 同義語辞書生成システム、同義語辞書生成方法および同義語辞書生成プログラム
CN112949287B (zh) 热词挖掘方法、系统、计算机设备和存储介质
Sierra et al. A case study in authorship attribution: The Mondrigo
Yu et al. Tree-based text-vision bert for video search in baidu video advertising
JPH0869474A (ja) 類似文字列検索装置
Gagnessiry et al. Extraction of political event data from news articles in a cross-context setting

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 07807238

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2008534383

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 12310975

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 07807238

Country of ref document: EP

Kind code of ref document: A1