WO2006027973A1 - 情報検索提供装置および情報検索提供システム - Google Patents

情報検索提供装置および情報検索提供システム Download PDF

Info

Publication number
WO2006027973A1
WO2006027973A1 PCT/JP2005/015770 JP2005015770W WO2006027973A1 WO 2006027973 A1 WO2006027973 A1 WO 2006027973A1 JP 2005015770 W JP2005015770 W JP 2005015770W WO 2006027973 A1 WO2006027973 A1 WO 2006027973A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
reliability
information
evaluated
unit
Prior art date
Application number
PCT/JP2005/015770
Other languages
English (en)
French (fr)
Inventor
Shigeki Uetabira
Mitsugu Uetabira
Original Assignee
Interman Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Interman Corporation filed Critical Interman Corporation
Priority to CN2005800300132A priority Critical patent/CN101014954B/zh
Priority to JP2006535689A priority patent/JP4719684B2/ja
Priority to US10/590,740 priority patent/US8341135B2/en
Publication of WO2006027973A1 publication Critical patent/WO2006027973A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Definitions

  • the present invention relates to an information search providing device and an information search providing system, and particularly provides contents such as texts and images stored on a web page on a network such as the Internet as a search result.
  • the present invention relates to an information search providing device and an information search providing system.
  • Patent Document 1 Japanese Patent Laid-Open No. 2004-29943
  • Patent Document 1 the possibility that a user can find a web page including desired information is high.
  • the content is If the content is unreliable, there is a high possibility of suffering a disadvantage. Therefore, it is necessary to create a new information retrieval service mechanism that reduces such inconvenience.
  • the present invention has been made in view of these problems, and the object thereof is reliable.
  • the present invention is to provide an information search providing device and an information search providing system for realizing a new information search service for selecting content that cannot be trusted.
  • This information search providing device is an information search providing device that obtains a search condition sentence and provides content that matches the search condition sentence as a search result. And a reliability control unit that increases or decreases the reliability of the content to be evaluated according to whether or not the content to be evaluated can be collected by the collection unit.
  • the information search providing apparatus includes a search condition sentence receiving unit that receives a search condition sentence from a user, a search unit that searches for content that matches the received search condition sentence, and the reliability of the searched content And a reliability presenting unit that presents to the user.
  • the system further includes a prediction unit that predicts the reliability of the content to be evaluated based on an element that is included in the content of the evaluation target and that is used to estimate the lifetime of the content, and the reliability presentation unit provides the predicted reliability to the user. May be presented.
  • the reliability control unit may gradually increase the reliability of the content to be evaluated within a period in which the content to be evaluated is continuously collected at a predetermined timing by the collection unit. For example, after the first timing, the content to be evaluated is collected by the collection unit, and thereafter, the content to be evaluated is not collected by the collection unit after the second timing. After that, after the third timing, the collection unit When the content to be evaluated is collected by the above, the increase control unit determines the increase in the reliability of the content to be evaluated at the third timing from the increase in the reliability of the content to be evaluated at the first timing. It may be controlled as low as possible.
  • the information search providing device stores the evaluation target collection history by the collection unit. Accordingly, it may further include a history increase width control unit that controls the increase width of the reliability of the content to be evaluated.
  • a relevance determination unit is further provided for determining whether or not the content to be evaluated and the content with high reliability are related, and the reliability control unit is provided when the relevance determination unit determines that there is a relevance.
  • the increase in the reliability of the content to be evaluated may be controlled to be higher than the increase in the reliability of the content to be evaluated when it is determined that there is no relevance.
  • the relevance determination unit is based on whether or not related information indicating that there is a relevance between content to be evaluated and content with high reliability is included in the content to be evaluated. It may be judged whether there is a relationship between the content to be evaluated and the content with high reliability.
  • the relevance determination unit determines whether the content to be evaluated and the content to be evaluated are reliable based on whether or not the highly reliable content includes related information indicating that there is a relationship between the content and the content to be evaluated. It may be judged whether or not there is a relevance to high-level content.
  • This information search providing device is an information search providing device that obtains a search condition sentence and provides content that matches the search condition sentence as a search result.
  • a degree control unit is an information search providing device that obtains a search condition sentence and provides content that matches the search condition sentence as a search result. The contents of the content to be evaluated, the content of the content to be evaluated, and the same web page power as the web page on which the content is posted.
  • a degree control unit is an information search providing device that obtain
  • the reliability control unit gradually increases the reliability of the evaluation target content within a period in which it is continuously determined at a predetermined timing that the evaluation target content is updated by the update determination unit. Also good.
  • the system further comprises an update analysis unit that refers to the contents of the collected content to be evaluated and analyzes the force / inability of the content that should originally be updated. Depending on the results of the analysis and the results of the analysis by the update analysis unit, the reliability of the content to be evaluated may be increased or decreased.
  • Yet another embodiment of the present invention also relates to an information search providing apparatus.
  • This information search providing device is an information search providing device that acquires a search condition sentence and provides content that matches the search condition sentence as a search result, and a related content acquisition unit that acquires content related to the content to be evaluated. And an element extraction unit that extracts the elements that contribute to the increase or decrease in the reliability of the content to be evaluated by referring to the acquired content, and the reliability of the content to be evaluated by referring to the extracted element. And a reliability control unit for increasing and decreasing.
  • the element extraction unit extracts elements that contribute to the increase or decrease in the reliability of the content to be evaluated for each reliability evaluation point.
  • the reliability control unit evaluates the reliability.
  • the reliability of the content to be evaluated may be increased or decreased by referring to the elements extracted for each viewpoint.
  • the information search providing device contributes to each of the extracted elements to the first group that contributes to the increase in the reliability of the content to be evaluated, or to the decrease in the reliability of the content to be evaluated.
  • the reliability control unit further includes a classification unit for classifying into the second group, and the reliability control unit has a larger number of elements in the first group than the number of elements in the second group classified by the classification unit. Increase your confidence.
  • the information search providing apparatus is an information search providing apparatus that acquires a search condition sentence and provides content that matches the search condition sentence as a search result, and a content acquisition unit that acquires content including a determination target item; Among the acquired contents, the content identification unit that identifies the own content that is the source of information of the item to be judged, and the contents of the identified own content and the contents of the acquired content other than the own content
  • a consistency judgment unit that compares and judges whether or not the items to be judged are consistent
  • a reliability control unit that increases or decreases the reliability of own content and the reliability of other content according to the judgment result .
  • the information search providing device of this aspect is when the reliability of the own content and the reliability of the other content are both high, and the consistency determination unit determines that the determination target item is consistent,
  • the reliability control unit may increase both the reliability of its own content and the reliability of other content.
  • the above-described information search providing device refers to location information indicating the location of a server that publishes a web page, an access unit that accesses the server, and access permission that determines whether the access unit can access the server
  • the access history holding unit that holds the correspondence between the judgment unit, the result of the judgment by the access availability judgment unit and the timing at which the access unit accesses the server, and the access unit first accesses the server by referring to the correspondence.
  • a timing specifying unit that specifies the timing that has become possible, and the reliability control unit may start control of increase / decrease in reliability at the specified timing.
  • Yet another embodiment of the present invention relates to an information search providing system.
  • This information search and provision system collects content posted on a web page on a server that provides a web page via the network, a terminal device connected to the network, and the collected content.
  • An information search providing device that provides the terminal device with content that matches the search condition sentence as a search result, and the information search providing device is an evaluation target posted on a web page.
  • a collection unit that collects the content of the content to be evaluated at a predetermined timing via a network, and a reliability control unit that increases or decreases the reliability of the content to be evaluated according to whether or not the content to be evaluated can be collected by the collection unit .
  • Yet another embodiment of the present invention relates to an information search providing system.
  • This information search and provision system acquires a search condition sentence that matches the search condition sentence by acquiring a search condition sentence and a content providing apparatus that posts the evaluation target content on a web page, a terminal device that accesses the evaluation target content via a network
  • An information search providing device for providing content as a search result, the terminal device having an information transmitting unit for transmitting client information associated with the terminal device, and the information search providing device provides a network for the content to be evaluated.
  • a terminal device accessed via an information receiving unit that directly or indirectly receives transmitted client information, and a reliability increasing / decreasing unit that increases or decreases the reliability of content to be evaluated based on the client information. Have.
  • the information search providing apparatus is an information search providing apparatus that acquires a search condition sentence and provides content that matches the search condition sentence as a search result, and the terminal apparatus that has accessed the content to be evaluated Power It has an information receiving unit that directly or indirectly receives transmitted client information and a reliability increasing / decreasing unit that increases or decreases the reliability of the content to be evaluated based on the client information.
  • Yet another embodiment of the present invention relates to an information search providing system.
  • This information search and provision system acquires a search condition sentence that matches the search condition sentence by acquiring a search condition sentence and a content providing apparatus that posts the evaluation target content on a web page, a terminal device that accesses the evaluation target content via a network
  • An information search providing device for providing content as a search result, the terminal device having an information transmitting unit for transmitting client information associated with the terminal device, and the information search providing device provides a network for the content to be evaluated.
  • Terminal device accessed via the information receiving unit that directly or indirectly receives transmitted client information, and the asset value increase or decrease that increases or decreases the estimated asset value for the content to be evaluated based on the client information Part.
  • Yet another embodiment of the present invention relates to an information search providing apparatus.
  • This information search providing device is an information search providing device that obtains a search condition sentence and provides content that matches the search condition sentence as a search result, and is a terminal device that has accessed the content to be evaluated. And an asset value increase / decrease unit for increasing / decreasing the estimated asset value for the content to be evaluated based on the client information.
  • Yet another embodiment of the present invention relates to an information search providing apparatus.
  • This information search providing device is an information search providing device that obtains a search condition sentence and provides content that matches the search condition sentence as a search result.
  • the information search provision apparatus includes content to be evaluated and evaluation target content posted on a web page.
  • the collection section that collects comparative content other than content at a specific timing via the network, and the content of evaluation items and comparison content, and the status of judgment items related to the provider of the content to be evaluated Whether or not the content subject to evaluation is properly updated by comparing the posting status of the judgment item in the content to be evaluated with the posting status of the judgment item in the comparative content.
  • the update judgment unit to judge, and a signal to increase or decrease the reliability of the content to be evaluated according to the result of the update judgment unit It includes a degree control unit.
  • This information search providing device is an information search providing device that obtains a search condition sentence and provides content that matches the search condition sentence as a search result.
  • the content to be evaluated posted on a web page is transmitted via a network.
  • the collection unit that collects at a predetermined timing, the identity determination unit that determines the identity of the content to be evaluated collected at different timings, and the reliability of the content to be evaluated according to the result of the identity determination And a reliability control unit that increases or decreases the value.
  • This information search providing device is an information search providing device that obtains a search condition sentence and provides content that matches the search condition sentence as a search result.
  • the information search provision apparatus includes content to be evaluated and evaluation target content posted on a web page.
  • a comparison unit that collects comparison content other than content at a predetermined timing via the network, and the evaluation target content is compared with the comparison content that has been collected when the evaluation target content is collected.
  • a uniqueness determination unit that determines the uniqueness of the target content and a reliability control unit that increases or decreases the reliability of the content to be evaluated according to the determination result of the uniqueness.
  • an information search service can be provided with high user convenience.
  • FIG. 1 is a diagram showing a configuration of an information search providing system according to a first embodiment.
  • FIG. 2 is a diagram showing a configuration of a terminal apparatus according to Embodiment 1.
  • FIG. 3 is a diagram showing a configuration of an information search providing apparatus according to Embodiment 1.
  • FIG. 4 is a diagram showing an example of a data structure of a search information file stored in a search information holding unit.
  • FIG. 5 is a diagram showing an example of a data structure of an access history file stored in an access history holding unit.
  • FIG. 6 is a diagram showing a flow of content collection processing according to the first embodiment.
  • FIG. 7 is a diagram showing the relationship between the reliability of the content to be evaluated and the time when it can be continuously collected.
  • FIG. 8 A diagram showing the relationship between content reliability and time when content to be evaluated cannot be collected midway.
  • FIG. 9 is a diagram showing a configuration of an information search providing apparatus according to Embodiment 2.
  • FIG. 10 is a diagram showing a relationship between reliability of content to be evaluated and time.
  • FIG. 11 is a diagram showing a configuration of an information search providing apparatus according to Embodiment 3.
  • Fig. 12 shows the relationship between reliability and time when content to be evaluated is continuously updated, and Fig. 12 (b) shows that content to be evaluated is not updated halfway. It is a figure which shows the relationship between reliability at the time and time.
  • FIG. 13 is a diagram showing a configuration of an information search providing device according to Embodiment 4.
  • FIG. 14 is a diagram showing a configuration of an information search providing apparatus according to Embodiment 5.
  • FIG. 15 is a diagram showing the relationship between content reliability and time when a broken link occurs in the content to be evaluated.
  • ⁇ 16 It is a diagram showing a configuration of an information search providing device according to Embodiment 6.
  • ⁇ 17 A diagram showing a configuration of an information search providing apparatus according to the seventh embodiment.
  • FIG. 18 is a diagram schematically showing the correlation of reliability between self content and other content.
  • FIG. 19 is a diagram showing an example of a search initial screen.
  • FIG. 20 is a diagram showing an example of a search result screen.
  • FIG. 22 is a diagram showing a configuration of a network using terminal device according to the ninth embodiment.
  • FIG. 23 is a diagram showing a configuration of a web server according to the ninth embodiment.
  • FIG. 24 is a diagram showing a configuration of an information search providing apparatus according to Embodiment 9.
  • FIG. 25 is a diagram illustrating an example of a data structure of reception information stored in a reception information holding unit according to Embodiment 9.
  • FIG. 26 is a diagram showing an example of a data structure of a search information file stored in a search information holding unit according to Embodiment 9.
  • FIG. 28 is a diagram showing a configuration of an information search providing apparatus according to Embodiment 10.
  • FIG. 29 is a diagram showing an example of a data structure of a search information file stored in an acquired content information holding unit according to Embodiment 10.
  • FIG. 30 is a diagram showing an example of a data structure of received information stored in a search information holding unit according to Embodiment 10.
  • FIG. 31 shows an exemplary data structure of a search information file stored in an event holding unit according to the tenth embodiment.
  • FIG. 32 is a diagram showing an example of a data structure stored in a request information holding unit according to Embodiment 10.
  • FIG. 33 is a diagram showing a structure of an information search providing apparatus according to Embodiment 11.
  • FIG. 34 is a diagram showing a configuration of an information search providing apparatus according to Embodiment 12.
  • FIG. 35 is a diagram showing an example of a comparison content information file stored in a comparison content holding unit.
  • FIG. 36 shows a structure of an information search providing apparatus according to Embodiment 13.
  • FIG. 37 is a diagram showing an example of a data structure of a search information file stored in a search information holding unit.
  • FIG. 38 is a diagram showing an example of an IP address information table stored in a group information storage unit.
  • FIG. 39 is a diagram showing an example of various reliability tables stored in a location information reliability holding unit.
  • FIG. 40 is a diagram showing an example of various reliability tables stored in the location information reliability holding unit.
  • FIG. 41 is a diagram illustrating an example of various reliability tables stored in a location information reliability holding unit.
  • FIG. 42 is a diagram showing an example of a domain name type table.
  • Information search providing system 10 Information search providing system, 12 Network, 50 Terminal device, 54 Acquisition unit, 100 Information search providing device, 112 Search condition sentence acquisition unit, 114 Search unit, 122 Access section, 124 access enable / disable determination section, 126 timing identification section, 128 collection section, 1 30 reliability control section, 132 history increase width control section, 134 relevance determination section, 136 comparison section, 138 update determination section, 142 Content acquisition unit, 144 element extraction unit, 1 46 classification unit, 147 content acquisition unit, 148 own content identification unit, 150 consistency determination unit, 190 access history holding unit, 200 web server, R1 own content.
  • FIG. 1 shows a configuration of an information search providing system 10 according to the present embodiment.
  • An information search providing system 10 shown in FIG. 1 includes an information search providing device 100, a web server 200, and a network 12.
  • An information search providing device 100, a web server 200, and a terminal device 50 are connected to the network 12.
  • the network 12 according to the present embodiment is a WAN (Wide Area Network).
  • a LAN Local Area Network
  • predetermined data such as TCP / IP (Transmission Control Protocol / Internet Protocol) is used. It may be a communication network that transmits and receives according to a communication standard.
  • the terminal device 50 is a personal computer, a PDA (Personal Digital Assistance), or a mobile phone.
  • the information search providing device 100 and the web server 200 are implemented by a personal computer or the like.
  • the web server 200 publishes the content posted on the web page via the network 12.
  • Content refers to data that can be digitized, such as text data, video data, video data, and audio data.
  • the user accesses the information search providing apparatus 100 using a WWW browser (not shown) installed in the terminal device 50, and performs a search by specifying a search condition sentence.
  • the information search providing device 100 receives content that matches the search condition sentence from a vast amount of information held in a database not shown in FIG. And information associated with the content (hereinafter referred to as “content-associated information”) are extracted, and a list of these is provided to the terminal device 50 as a search result.
  • content-associated information includes web page URL, content size, content update date, content title, and so on. It should be noted that the huge amount of content stored in the database is not shown in FIG.
  • the data is collected regularly or irregularly from the web page by a collection control unit (not shown).
  • FIG. 2 shows a configuration of terminal apparatus 50 according to the present embodiment.
  • the terminal device 50 includes a search condition sentence reception unit 62, a transmission unit 52, an acquisition unit 54, and a display unit 64.
  • the search condition sentence receiving unit 62 obtains data in which user power is input via a keyboard, a mouse, and other external devices, here, the search condition sentence.
  • the search condition sentence can be in keyword-based format, for example, “beef”, “cooking”, “recipe”, or “naturally known as a recipe for cooking using beef”. Also in sentence form! /
  • the transmitting unit 52 transmits the search condition sentence from the user acquired by the search condition sentence receiving unit 62 to the information search providing apparatus 100 via the network 12. At this time, search processing by the information search providing device 100 is performed.
  • the acquisition unit 54 acquires, as a search result, content-associated information that matches the search condition sentence, for example, a list of the sizes and URLs of the content via the network 12. At this time, the reliability of the content is further presented.
  • the display unit 64 shapes the information acquired by the acquisition unit 54 and displays it to the user via a display (not shown). The user may be notified by voice through a speaker (not shown).
  • FIG. 3 shows a configuration of information search providing apparatus 100 according to the present embodiment.
  • the information search providing device 100 searches the content that matches the search condition sentence for which the user power is also specified, and provides the search controller 110 that provides the search result to the terminal device 50, and the content posted on the web page on the web server 200.
  • a collection control unit 120 that collects regularly or irregularly, a search information holding unit 180 that holds the collected content, and an access history holding unit 190 that holds an access history to the web server by the collection control unit 120 .
  • the search control unit 110 includes a search condition sentence acquisition unit 112, a search unit 114, a search result providing unit 116, and a reliability presentation unit 118.
  • the collection control unit 120 includes an access unit 122, an accessibility determination unit 124, a timing specifying unit 126, a collection unit 128, a reliability control unit 130, and a history increase width control unit 132.
  • Each component of the information search providing device 100 is a hardware component.
  • CPU Central Processing Unit
  • memory volatile and non-volatile memory
  • other elements volatile and non-volatile memory
  • information search loaded into the memory as software, Collection function, storage function, and its Powers realized by programs with other functions
  • functional blocks realized by their cooperation are depicted. Therefore, those skilled in the art will understand that these functional blocks can be realized in various forms by hardware only, software only, or a combination thereof.
  • the search condition sentence acquisition unit 112 acquires the search condition sentence from the user transmitted by the transmission unit 52. At this time, if the search condition sentence is in the form of a natural sentence, the search condition sentence acquisition unit 112 may send the search condition sentence once to a keyword extraction unit (not shown). At this time, the keyword extraction unit breaks it down into morphemes, and extracts the keywords such as “beef”, “cooking”, and “recipe” as keywords, mainly in terms of nouns and previous search condition sentences. The unit 112 acquires a combination of these keywords as a new search condition sentence.
  • the search unit 114 from the search information file stored in the search information holding unit 180, content that matches the search condition sentence acquired by the search condition sentence acquisition unit 112, the reliability of the content and the content Search accompanying information.
  • the search unit 114 may perform a search using a so-called index file, which is stored in the search information holding unit 180 and includes a bow arch I word for the content. This can speed up the search process.
  • the search result providing unit 116 provides the terminal device 50 with a list of information obtained by the search as a search result.
  • the reliability presentation unit 118 presents the reliability of the retrieved content, which will be described later, to the terminal device 50. As a result, the user can know how reliable the content is.
  • the access unit 122 accesses the web server 200 with reference to location information indicating the location of the web server 200 included in an access history file in the access history holding unit 190 to be described later, for example, an IP address.
  • the access unit 122 may access the web page by referring to the URL or domain name of the web page.
  • the access unit 122 accesses all IP addresses included in the access history file, including unused IP addresses, once a day, for example, at midnight.
  • the frequency of access by the access unit 122 is not limited to “once a day”, but may be “twice a day” or “once every two days”.
  • the access unit 122 may be accessed irregularly instead of regularly.
  • Accessibility determination unit 124 determines whether or not access unit 122 can access a web page. At this time, when it is determined that the access is impossible, the access permission / non-permission determining unit 124 sets a flag “X” in the current date field in the access history field described later with the IP address. On the other hand, when determining that the access by the access unit 122 is possible, the access permission determination unit 124 sets a flag “O” in the current date column in the access history column to be described later at the IP address.
  • the timing specifying unit 126 refers to the access history file and specifies the timing when the access unit 122 can first access the web page. Specifically, the timing specifying unit 126 sets the date when the past access history has been “X” until it first becomes “ ⁇ ” as the Web page provision start date. When the timing specifying unit 126 determines that the current date corresponds to the web page provision start date, the timing identification unit 126 sets the current date in the web page provision start date column described later. When the web page already exists on the network 12, and the access unit 122 subsequently accesses it, the timing specifying unit 126 may determine that the date when the access was made corresponds to the web page provision start date. .
  • an unused IP address can be identified by making an IP address that is “X” unused for a long period of time.
  • third-party organizations that manage IP addresses can effectively use IP addresses by providing unused IP addresses to information providers who wish to obtain other IP addresses.
  • the access history holding unit 190 holds an access history file including the correspondence between the result of the determination by the access permission determination unit 124 and the timing at which the access unit 122 accesses the web page. It is assumed that the access history file holds all possible IP addresses on the network 12. Of course, some, but not all, IP addresses are retained.
  • the search information holding unit 180 holds a search information file including content collected by the collection unit 128 described later, content-accompanying information, reliability, and the like.
  • the collection unit 128 determines the content to be evaluated that is posted on the web page. Collected once a day here at a fixed timing.
  • the collection unit 128 may collect the content posted on all web pages on the web server.
  • the collection unit 128 When collecting content, the collection unit 128 generates content-accompanying information of the collected content and stores it in the search information holding unit 180. If the meta tag is described in the beginning part of the HTML (Hyper Text Markup Language) sentence in the content, for example, between ⁇ HEAD> to ⁇ ZHEAD>, the collection unit 128 is described in the area surrounded by this meta tag. The instructions may be followed. In other words, the collection unit 128 does not have to collect the information on the page if the necessity of registration in the information search providing device 100 is clearly indicated.
  • the reliability control unit 130 increases or decreases the reliability of the content to be evaluated at a predetermined timing, here once a day, according to whether or not the content to be evaluated can be collected by the collection unit 128. Specifically, when the content to be evaluated can also collect the web page force, the reliability control unit 130 increases the reliability set for the content to be evaluated by a predetermined increment. On the other hand, when the content to be evaluated cannot be collected from the web page cover by the collecting unit 128, the reliability set for the content to be evaluated is reduced. The reliability control unit 130 starts to control increase / decrease in the reliability of the content posted on the web page from the start date of provision of the web page.
  • the reliability control unit 130 gradually increases the reliability of the content to be evaluated within the period in which the content to be evaluated is continuously collected at a predetermined timing by the collection unit 128.
  • the reliability of the content is increased or decreased. This is substantially the reliability of the web page on which the content is posted, the web server that publishes the web page, and the information that operates the web server. It is an agreement to increase or decrease the reliability of the provider.
  • the reliability of other various service providing servers included in the computer system provided by the information provider who operates the web server such as mail servers, FTP (File Transfer Protocol) servers, and -use servers, is increased or decreased. Is substantially agreed to
  • information search providing apparatus 100 by setting a reliability level for content, it is possible to present to the user how much reliability the content has. . As a result, the user can easily know the reliability of the content through the information search service provided by the information search providing apparatus 100. For example, when a company deals with another company, it may want to know the identity of the other party. At this time, the reliability of the web page provided by the company can be known through the search result by the information search providing device 100.
  • the reliability increases as the content is continuously posted on the web page. Therefore, the more reliable the web server 200 provides web pages in the past, the higher the reliability is set. If the web page is, for example, a shopping mall page that provides an Internet shopping service, and the reliability of the content posted on the web page is high, then the user who provided the web page will be able to You can know that you are continuing. On the other hand, if the reliability is low, the web page provider is likely to be a so-called unscrupulous trader who has just begun business or is constantly changing the web page.
  • the user can select the reliable content and the unreliable content based on the reliability and present them to the user. Can select only reliable content from the search results. As a result, users can use the services provided by excellent contractors by selecting highly reliable content. As a result, the information search providing apparatus 100 can realize a search service with high user convenience.
  • the history increase width control unit 132 controls the increase in reliability of the content to be evaluated according to the history of whether or not the content to be evaluated can be collected by the collection unit 128. For example, after “January 1, 2004”, the content to be evaluated is collected by the collection unit 128. After that, after “February 1, 2004”, the content to be evaluated is not collected by the collection unit 128. After that, when the content to be evaluated is collected by the collecting unit 128 after “March 1, 2004”, the history increase control unit 132 sets the content of the evaluation target in “March 1, 2004”. The increase in the reliability of the content is controlled to be lower than the increase in the reliability of the content to be evaluated in “January 1, 2004”.
  • the history increase range control unit 132 may return the increase range of the reliability of the content controlled to be low to the original increase range assumed when the control is not performed to be low if a certain period of time has elapsed. Specifically, the decrease in the increase in “March 1, 2004” may be counted as the current increase in reliability on “March 1, 2005” one year later.
  • the increase in the reliability of the web page when content can be collected continuously from the past is the same as the increase in the reliability of the web page when content cannot be collected midway. It becomes larger than the width, and it is possible to discriminate between the two increases. As a result, the importance of continuing to provide content can be further increased.
  • FIG. 4 shows an example of the data structure of the search information file stored in the search information holding unit 180.
  • the search information file in FIG. 4 includes an IP address field 302, a URL field 304, a content field 306, a web page provision start date field 308, a reliability field 310, and an increase width field 312.
  • the content collected by the collection unit 128 is stored in the content column 306, and the URL that is part of the content-accompanying information is stored in the URL column 304.
  • the IP address column 302 includes the IP address of the web server 200 connected to the network 12.
  • the IP address stored in the IP address field 302 in this figure is in the IPv4 format, but may be in the IPv6 format as another example.
  • the URL field 304 includes information indicating the location of a web page on the network 12, that is, a so-called URL.
  • the content column 306 includes content collected by the collection unit 128, in this figure, text data described in HTML (Hyper Text Markup Language) language.
  • the web page provision start date column 308 includes the date on which the web server 200 started providing the web page.
  • the reliability column 310 includes the reliability of the content posted on the web page.
  • Increase width column 312 includes the increase in reliability.
  • the IP address of the web server 200 is "200.100.100.001", and 11! 3 ⁇ 4 ⁇ of the web page on the web server 200 is "111: 77-17"
  • the e-page provision start date is “January 1, 2004”
  • the current content reliability is “600”
  • the increase in reliability is “5”.
  • the reliability of content posted on a web page with the URL “http: ZZ ⁇ lZ” It shows that it is increased by “5” once a day at a predetermined timing within the period posted in the page.
  • FIG. 5 shows an example of the data structure of the access history file stored in the access history holding unit 190. Components identical to those in FIG. 4 are given the same reference numerals and explanations thereof will be omitted as appropriate.
  • the data table in FIG. 5 includes an IP address column 302 and an access history column 322.
  • the access history column 322 holds information indicating whether or not the access unit 122 can access the web server 200 as an access history. Specifically, if the flag “O” is stored on a specific day, it indicates that the web page was accessible on that day, while if the flag “X” is stored, , Indicating that access to the web page was not possible.
  • the IP address of the web server 200 is “200.
  • the access unit 122 was able to access the web page from“ January 1 ”to the current date“ September 1 ”. That is, it indicates that the web server 200 continuously provides web pages during the period.
  • the second data 326 indicates that the web page was not accessible until “May 31” and that the web page was accessible after “June 1”. .
  • the web page on the web server 200 whose IP address is “200.100.100.002” has been provided on “June 1”.
  • the third data 328 we started providing web pages to Websano 200, which has an IP address of S “200. 100. 100. 003”. Since then, no web page has been provided.
  • FIG. 6 shows the flow of content collection processing according to the present embodiment.
  • the information search providing device 100 performs the following content collection processing once a day for all IP addresses recorded in the access history file.
  • the access unit 122 obtains the IP address of the web server 200 that is the content collection target in the middle of the access history file stored in the access history holding unit 190 (S 10), and accesses the web server 200.
  • the access permission determination unit 124 determines whether or not the access unit 122 can access the web server 200, and when determining that the access is impossible (N in S12), the access history column 322
  • the flag “X” is set in the current date field in (S14).
  • the access permission determination unit 124 determines that the access by the access unit 122 is possible (Y in S12)
  • the flag "O" is displayed in the current date column in the access history column 322 with the IP address. "Is set (S18).
  • the timing specifying unit 126 refers to the access history file and sets the current date in the web page provision start date column 308 when it is determined that the current date corresponds to the web page provision start date (Y in S20).
  • the timing specifying unit 126 determines that the current date does not correspond to the web page provision start date (N in S20)
  • the timing specifying unit 126 skips the operation of setting the current date in the web page provision start date column 308.
  • the collection unit 128 displays the content field 306 in the search information file.
  • the content is stored (S26). At this time, content-associated information is also stored.
  • the history increment control unit 132 refers to the access history file and determines that access by the access unit 122 is impossible on the day before the current date (Y in S28)
  • the increment is decreased by “1” (Y
  • the reliability control unit 130 increases the reliability of the current content by an increment (S32).
  • the reliability control unit 130 refers to the access history file and determines that the access by the access unit 122 is impossible on the day before the current date (N in S28)
  • the reliability control unit 130 The reliability of the content is increased by the increment (S32).
  • the reliability control unit 130 decreases the reliability of the current content (S34). ).
  • the collection control unit 120 displays all IP addresses in the access history file. If there is an IP address for which content collection processing has not been completed (N in S16), content collection processing is performed for that IP address. If completed, the information search providing device 100 ends the content collection process for that day (Y in S16).
  • FIG. 7 shows the relationship between the reliability of the content to be evaluated and the time when the content to be evaluated can be continuously collected.
  • the vertical axis represents content reliability
  • the horizontal axis represents time.
  • Date DO in the figure is the web page provision start date
  • the dates D1 to D4 are the dates after each day after that date.
  • the reliability of the content goes up and down every day, so the actual reliability is expressed as a discrete value, but of course, even if the reliability continuously fluctuates over time, This figure shows this situation.
  • the reliability of the content to be evaluated gradually increases within the period in which the content to be evaluated can be continuously collected by the collection unit 128, that is, within the period after date D1.
  • FIG. 8 shows the relationship between content reliability and time when the content to be evaluated cannot be collected midway.
  • the vertical axis represents content reliability
  • the horizontal axis represents time. Components equivalent to those in FIG. 7 are given the same reference numerals and explanations thereof are omitted as appropriate.
  • the provision of a web page is started on the date DO, and the content posted on the web page can be collected from that date, and the content cannot be collected after the date D2.
  • the following shows how the reliability changes when content can be collected again.
  • the content reliability is gradually increased by the reliability control unit 130 during the period from date DO to date D2 and the period after date D3, which is the period during which content can be collected.
  • the width control unit 132 controls the increase in reliability in the latter period to be smaller than the increase in reliability in the former period.
  • FIG. 9 shows the information verification according to the second embodiment.
  • the structure of the cable providing device 100 is shown. Components equivalent to those in FIG. 3 are given the same reference numerals and explanations thereof will be omitted as appropriate.
  • the information search providing apparatus 100 according to Embodiment 2 is further provided with a relevance determining unit 134 that is a different component from the information search providing apparatus 100 according to Embodiment 1 shown in FIG.
  • the relevance determination unit 134 may include links from the content to be evaluated in the store opening information column, the introduction information column, the partnership information column, and the recommendation information column in the highly reliable content. Judge whether the URL of the web page where the content to be evaluated is posted or the name of the information provider of the web page. At this time, the information is acquired from the search information file by the relevance determination unit 134.
  • the reliability control unit 130 determines the increase in the reliability of the content to be evaluated when the relevance determination unit 134 determines that there is a relevance when it is determined that there is no relevance. Control higher than the increase in reliability of the content to be evaluated. Thereby, for example, the reliability of the content to be evaluated can be differentiated depending on whether or not there is a link to the content to be evaluated in a highly reliable web page.
  • the reliability control unit 130 increases the reliability increase by the number of high-reliability content that matches. It may be increased. For example, if there is a URL that matches the URL of the content to be evaluated in three highly reliable contents, “3” is further added to the current increase in the content to be evaluated. As a result, the more reliable links are made to the content with high reliability, the more the reliability can be increased. [0068] In addition, the reliability control unit 130 includes a plurality of highly reliable contents in the store opening information column, the introduction information column, the tie-up information column, and the recommendation information column in the content, from the content to be evaluated.
  • the link, the URL of the web page where the content to be evaluated, and the name of the information provider of the web page are included.1 If the content is highly reliable, the content to be evaluated is the same as the number of content. You can increase the amount of increase in reliability. For example, if the number of highly reliable contents included is 2, add “2” to the current increase in the content to be evaluated.
  • the reliability control unit 130 indicates the increase in reliability when the above-described link or information is posted, and the reliability increase level when the link or information is not provided. By controlling to a level higher than the increase, the two are differentiated.
  • FIG. 10 shows the relationship between the reliability of the content to be evaluated and time.
  • the vertical axis represents content reliability, and the horizontal axis represents time. Components equivalent to those in FIG. 7 are given the same reference numerals and explanations thereof are omitted as appropriate.
  • the solid line L1 in the figure shows the state of change in the reliability of the content to be evaluated in the case where the link to the content to be evaluated is made in the highly reliable content, while the solid line L2 indicates the date Changes in the reliability of the content to be evaluated when the relevance determination unit 134 determines that the DO is related and there is a link to the content to be evaluated in the content with high reliability after that date. The state of is shown. Since the increase in reliability in the case of solid line L2 is larger than the increase in reliability in the case of solid line L2, solid line 2 exceeds the reliability of solid line L1.
  • FIG. 11 shows the configuration of information search providing apparatus 100 according to Embodiment 3. Components equivalent to those in FIG. 3 are given the same reference numerals and explanations thereof will be omitted as appropriate.
  • the information search providing apparatus 100 according to the third embodiment includes a comparison unit 136 as a new component instead of the history increase control unit 132 of the information search providing apparatus 100 according to the first embodiment shown in FIG. An update determination unit 138 is further provided.
  • the comparison unit 136 compares the content of the content to be evaluated collected by the collection unit 128 and the content of the next content to be evaluated that has the same web page power as the web page on which the content is posted. Compare. At the time of comparison, the comparison unit 136 refers to, for example, the HTML language structure, text characters, images, and programs included in both contents.
  • the comparison unit 136 may include a displacement amount analysis unit (not shown) that analyzes the displacement amount of the HTML language structure, text characters, images, and programs.
  • the comparison unit 136 may compare, for example, a company name, an address, and a telephone number, which are web page specific information. When the company name, address and phone number previously described in the collected content have been changed without any reason in the next collected content, the reliability control unit 130 reduces the reliability of the content.
  • the update determination unit 138 determines whether the content to be evaluated has been updated based on the result of the comparison by the comparison unit 136. At this time, the update determination unit 138 updates the content to be evaluated when, for example, a predetermined number or more of characters are included in the content of the previously collected content and the content of the next collected content. Judge that it was done. If even one character is different, it may be determined that the content has been updated.
  • the update determining unit 138 may determine that the content to be evaluated has been updated. As another example, if an image of a person in the content has not changed from 10 years ago, it may be determined that it has not been updated. As another example, if the text in the diary in the content is interrupted, or if some measure is taken against inappropriate use of the bulletin board, the update judgment unit 138 updates the content to be evaluated. You can judge it as something.
  • the reliability control unit 130 increases or decreases the reliability of the content to be evaluated at a predetermined timing, here once a day, according to the determination result by the update determination unit 138. That is, when the update determination unit 138 determines that the content to be evaluated has been updated, if the content to be evaluated has been updated, the update determination unit 138 determines that the content to be evaluated is updated once a day, Gradually increase the reliability of the content!] On the other hand, when the update determination unit 138 determines that the content to be evaluated has not been updated, if the content to be evaluated has not been updated, the update determination unit 138 determines that the content to be evaluated is once a day within a period of continuous determination. , Gradually reduce the reliability of the content.
  • the reliability is likely to increase as the content posted on the web page is regularly updated.
  • the user can easily know how much reliability the content has. For example, users can shop with peace of mind by using a highly reliable Internet shopping service web page.
  • web page providers may actively make periodic updates to increase the reliability of their content. As a result, the possibility that the web page existing on the network will be updated as a whole increases, and this leads to the activity of the entire Internet.
  • Fig. 12 (a) shows the relationship between reliability and time when the content to be evaluated is continuously updated, and Fig. 12 (b) shows that the content to be evaluated is not updated halfway. It shows the relationship between time confidence and time.
  • the vertical axis represents content reliability, and the horizontal axis represents time. Components equivalent to those in FIG. 7 are given the same reference numerals and explanations thereof are omitted as appropriate.
  • Fig. 12 (a) the content is updated every day after the date DO, so the reliability in the figure gradually increases.
  • Fig. 12 (b) the content is updated every day during the period from date D0 to date D2, but the content is not updated after date D2, and the reliability gradually decreases after that date.
  • FIG. 13 shows a configuration of information search providing apparatus 100 according to the fourth embodiment. Components identical to those in FIG. 11 are given the same reference numerals, and descriptions thereof will be omitted as appropriate.
  • the information search providing apparatus 100 according to the fourth embodiment is further provided with an update analysis unit 140 that is a new component of the information search providing apparatus 100 according to the third embodiment shown in FIG.
  • the update analysis unit 140 refers to the content of the content to be evaluated collected by the collection unit 128, and analyzes the power or inability that the content should originally need to be updated. Specifically, the update analysis unit 140 classifies the content to be evaluated into “groups that need to be updated originally” and “groups that need to be updated originally” or any other group. “A group that needs to be updated” means a group that includes content that provides significant information, such as breaking news, weather, and diary. On the other hand, “groups that do not need to be renewed” refer to groups that contain content that makes sense by not renewing information, such as content that provides politicians' claims and the company's basic management policy.
  • the update analysis unit 140 reads the content as “necessary to update. Classify into a group. On the other hand, if the content contains keywords that are significant without updating, such as “claim” and “basic policy”, the content is classified into “groups that do not need to be updated”. The keywords for classifying the contents into those groups may be registered in the information search and provision apparatus 100 forcibly.
  • the update analysis unit 140 further classifies "groups that need to be updated” into “groups that need periodic updates” and "groups that do not need periodic updates”. It's okay.
  • the update analysis unit 140 analyzes whether the contents classified as “groups that require regular update” are regularly updated.
  • “Groups that need to be regularly updated” include content that includes information about the age of existing people and images of their appearance. Since the age and appearance of existing persons continue to change, information on the age of existing persons and images of their appearance need to be updated regularly from the viewpoint of providing the latest information.
  • Content that publishes an image of the appearance of an existing person Examples include face images of matchmaking photos hosted by marriage counselors, face images of representatives listed in the company profile, and face images of members who belong to some kind of society. It is done.
  • the regular update of the image of an existing person's appearance is particularly useful when actually meeting that person later.
  • the reliability control unit 130 increases or decreases the reliability of the content to be evaluated according to the determination result by the update determination unit 138 and the analysis result by the update analysis unit 140. That is, for the content to be evaluated classified as “groups that need to be updated originally”, the reliability control unit 130 determines the reliability when the update determination unit 138 determines that the content has been updated. Increase and decrease reliability when it is determined that the content has not been updated. On the other hand, for the content subject to evaluation classified as “groups that do not need to be updated”, the reliability control unit 130 determines the reliability when the update determination unit 138 determines that the content has been updated and is obscene. , And the reliability is decreased when it is determined that the content is updated.
  • the content in addition to whether or not the content is updated, the content is updated by using whether or not the content should originally be updated is used as a criterion for increasing or decreasing the reliability. If the content is not something that should not be updated, the reliability can be increased and the content can be rescued.
  • FIG. 14 shows a configuration of information search providing apparatus 100 according to the fifth embodiment. Components identical to those in FIG. 11 are given the same reference numerals, and description thereof will be omitted as appropriate.
  • the information search providing apparatus according to Embodiment 5 is further provided with a broken link determination unit 141 that is a new component in the information search providing apparatus 100 according to Embodiment 3 shown in FIG.
  • the broken link determination unit 141 accesses the linked web page described in the content to be evaluated collected by the collecting unit 128, and whether or not any content is posted on the web page. Determine whether. Specifically, the broken link determination unit 141 performs evaluation.
  • the broken link determination unit 141 may access a link destination to the same web page on the same web server or a link destination to a different web page on the same web server. At this time, the link break determining unit 141 determines that a link break has occurred, for example, when there is no image or video data at the link destination.
  • the reliability control unit 130 controls increase / decrease in the reliability of the content to be evaluated according to the determination result by the broken link determination unit 141. Specifically, if it is determined that the link is broken, the reliability control unit 130 keeps the reliability of the content to be evaluated constant within the period when the link is broken. In this case, the reliability may be reduced. On the other hand, if the content to be evaluated is updated and the broken link is resolved, the reliability of the content is increased.
  • the reliability when there is a broken link in the web page is made lower than the reliability when there is no broken link in the web page, so that they can be discriminated from each other.
  • Links between web pages are an important factor in the development of the Internet, so whether or not there is a broken link can be used as an index for evaluating the reliability of content. Is meaningful.
  • the web page provider may actively correct broken links in order to increase the reliability of the content. As a result, dead links existing on the network are more likely to be corrected as a whole, leading to an improvement in the quality of the entire web page.
  • FIG. 15 shows the relationship between content reliability and time when a link break occurs in the content to be evaluated.
  • the vertical axis represents content reliability
  • the horizontal axis represents time.
  • Figure 7 and Equivalent parts are given the same reference numerals and explanations thereof are omitted as appropriate.
  • the provision of a web page starts on the date DO, and the content posted on the web page is updated once a day after that date, and the link is broken on the content after the date D2.
  • Figure 6 shows how the reliability changes when the broken link is corrected by updating the content.
  • the reliability of the content is held constant by the reliability control unit 130 within the period from the date D2 to the date D3, which is the period in which the link is broken as shown in the figure.
  • FIG. 16 shows the configuration of information search providing apparatus 100 according to Embodiment 6. Components equivalent to those in Fig. 3 are given the same reference numerals and explanations thereof are omitted as appropriate.
  • the information search providing apparatus 100 according to the sixth embodiment includes a related content which is a new component instead of the history increase width control unit 132 of the information search providing apparatus 100 according to the first embodiment shown in FIG.
  • An acquisition unit 142, an element extraction unit 144, and a classification unit 146 are further provided.
  • the related content acquisition unit 142 acquires content related to the content to be evaluated.
  • the search unit 114 performs a search by specifying a search condition sentence included in the content to be evaluated, for example, an “ABC company” sentence, and the related content acquisition unit 142 relates the content that matches the search condition sentence. It may be content (hereinafter referred to as “related content”).
  • the search unit 114 may acquire the related content from the search information holding unit 180, or may acquire the related content using another search engine or a web page.
  • the search condition sentence may be designated by the user via the terminal device 50, or may be periodically generated using a dictionary by a search condition sentence generation unit (not shown) inside the information search providing apparatus 100.
  • the related content may include the content to be evaluated itself.
  • the element extraction unit 144 extracts an element that contributes to an increase or decrease in the reliability of the content to be evaluated, even if the media strength of the acquired content.
  • the elements that contribute to the increase in reliability are keywords such as “new product development”, “patent acquisition”, “new development”, “increased sales and profits”. "Trial”, “Debt”, “Arrest”, “Decrease profit”, etc. Indicates a keyword. All of the keywords that contribute to the increase or decrease of the reliability may be held in a contribution holding unit (not shown).
  • the element extraction unit 14 4 also acquires the keyword for its contribution holding unit, and searches for the content acquired by the related content acquisition unit 142 by specifying these keywords and acquires the matched information. .
  • the classification unit 146 assigns each element extracted by the element extraction unit 144 to the first group that contributes to the increase in the reliability of the content to be evaluated, or the first group that contributes to the decrease in the reliability of the content to be evaluated. Classify into 2 groups.
  • the reliability control unit 130 refers to the elements extracted by the element extraction unit 144 and increases or decreases the reliability of the content to be evaluated. Specifically, when the number of elements in the first group classified by the classification unit 146 is larger than the number of elements in the second group, the reliability control unit 130 increases the reliability of the content to be evaluated. On the other hand, when the number of elements in the second group is larger than the number of elements in the first group, the reliability control unit 130 decreases the reliability of the content to be evaluated.
  • the information search providing apparatus 100 increases or decreases the reliability of the content to be evaluated according to how the content to be evaluated is evaluated from other web pages or content. it can. At this time, the accuracy of the reliability evaluation is increased by taking into consideration the elements that contribute to the decrease in the reliability of the content to be evaluated in addition to the elements that contribute to the increase in the reliability of the content to be evaluated.
  • FIG. 17 shows a configuration of information search providing apparatus 100 according to the seventh embodiment.
  • the same components as those in Fig. 3 are given the same reference numerals and explanations thereof are omitted as appropriate.
  • the information search providing apparatus 100 according to the seventh embodiment includes a content acquisition unit that is a new component instead of the history increase width control unit 132 of the information search providing apparatus 100 according to the first embodiment shown in FIG. 147, own content specifying unit 148 and consistency determining unit 150 are further provided.
  • the content acquisition unit 147 acquires content including a determination target item.
  • Item to be judged The eye is data for which consistency is determined, and may be, for example, an address, a telephone number, a facsimile number, employment-related information, financial-related information, or the like.
  • Recruitment-related information is, for example, the number of people planned to be hired next year, the number of people who have been hired this year, and financial-related information means sales and recurring profit.
  • the data format of the determination target item is not limited, and may be text data, image data, audio data, or video data.
  • the own content specifying unit 148 specifies the own content that is the information generation source of the determination target item among the acquired contents.
  • the judgment material may consist of the following combinations.
  • the self-content specifying unit 148 refers to the URL of the acquired content.
  • the determination target item is a telephone number of a specific company, and the domain name of the company is included in the URL. It is judged whether or not it contains “abc”, and if it is contained, the content is judged to be self-content.
  • the access unit 122 may access a database of a third-party organization that manages the domain name to obtain the domain name of the company.
  • the own content specifying unit 148 refers to the content of the acquired content.
  • the determination target item is a telephone number of a specific company, and the title part in the content, for example, a tag ⁇ If the name of the company is in the area between TITLE> and ⁇ ZTITLE>, it is judged as the content.
  • the self-content identifying unit 148 designates the determination target item as a search condition sentence and selects the content located at the top of the search results obtained from other web pages, search engines, and database capabilities. Judge as own content.
  • the own content specifying unit 148 refers to the Web page provision start date for the acquired content, and determines that the content that is the earliest provision start date is the own content.
  • Consistency determination unit 150 compares the content of its own content specified by its own content specification unit 148 with the content of the acquired content other than its own content, and the consistency of the items to be determined Determine the presence or absence.
  • the reliability control unit 130 increases or decreases the reliability of the own content and the reliability of other content according to the result of the determination by the consistency determination unit 150. That is, the reliability control unit 130 controls the reliability when the reliability of the own content and the reliability of other content are both high and the consistency determination unit 150 determines that the items to be determined are consistent. Unit 130 increases both the reliability of its own content and the reliability of other content. When the reliability of the own content and the reliability of other content are both high and it is determined that there is no consistency, the reliability control unit 130 lowers the reliability of both contents.
  • the information search providing device 100 may include a notifying unit (not shown), and may notify the information provider of the web page on which each content is posted, the correction instruction for the determination target item.
  • the reliability control unit 130 increases the reliability of the other content, but the self-content. Do not increase or decrease the reliability of. Furthermore, when the reliability of the content is high and the reliability of the other content is low, and it is determined that there is no consistency, the reliability control unit 130 can reduce the reliability of the other content. Do not increase or decrease. That is, since other content with low reliability is originally unreliable, the reliability control unit 130 controls the reliability of its own content so that it is not affected by it.
  • Fig. 18 schematically shows the relationship between the content to be judged and the items to be judged.
  • Consistency judgment ⁇ compares its own content R1 with other content R2, or Compare with other content R3 to determine the consistency.
  • the consistency determining unit 150 determines that the own content R1 and the other content R2 are consistent, and determines that the own content R1 and the other content R3 are not consistent.
  • Other content may be content provided by a public or highly public business operator.
  • Public or highly public business operators are business operators operated by, for example, the national government, local governments, or third parties. Since the reliability of the content provided by these operators is generally high, the consistency determination unit 150 matches the content of the content with other content based on the items to be determined, such as the telephone number and address. If it is determined that the content is reliable, the reliability of the content can be increased.
  • the information search providing apparatus 100 notifies the reliability of the content based on the presence / absence of consistency, so that the user may have false or incorrect content. Only reliable content with little content can be used.
  • the Web page provider side may actively correct falsehoods and errors in order to increase the reliability of the content. This increases the likelihood that the entire content is false or mistaken as a whole, and this improves the quality of the entire web page.
  • the information search providing apparatus 100 according to the eighth embodiment includes components that realize the functions according to the first embodiment, the third embodiment, the fifth embodiment, the sixth embodiment, and the seventh embodiment. At this time, the reliability realized by the components according to each embodiment is managed in the reliability column 310 in the search information file as a different reliability. Note that the information search providing apparatus 100 according to the eighth embodiment has a function that realizes the function according to the second embodiment instead of the component that realizes the function according to the first embodiment, and the function according to the third embodiment. A component that realizes the function according to the fourth embodiment may be provided instead of the component that is realized.
  • FIG. 19 shows an example of an initial search screen provided by the information search providing apparatus 100.
  • First search The period screen 400 includes a first input box 402, a second input box 404, a third input box 406, a start button 408, a cancel button 410, and the like that accept search condition sentences.
  • a search condition sentence relating to the company name, representative name, and product name is input.
  • a URL, a telephone number, a facsimile number, and an address are input.
  • the user inputs a search condition sentence when performing a so-called free search.
  • the start button 408 When the start button 408 is pressed after the search condition text is input in at least one box, the input search condition text is transmitted to the information search providing apparatus 100 by the transmission unit 52, and the search process is performed. If the cancel button 410 is pressed during transmission, the information search providing apparatus 100 stops the search process.
  • FIG. 20 shows an example of a search result screen 401 provided by the information search providing apparatus 100.
  • the search result screen 401 displays content that matches the search condition text and various information related to the content, for example, reliability.
  • an area 412 in which the information provider of the web page on which the content is posted is displayed, an area 414 in which the web page provision start date is displayed, and the relationship between the reliability and the time are displayed in a table format.
  • the reliability table 420 includes five first to fifth reliability tables 420a to 420e.
  • the first reliability table 420a is a reliability table related to the continuity of contents according to the first embodiment or the second embodiment
  • the second reliability table 420b is the same as the third embodiment or the fourth embodiment.
  • the reliability table regarding the content update status is the reliability table regarding the link status of the content according to the fifth embodiment
  • the fourth reliability table 420d is the content reliability table according to the sixth embodiment.
  • the fifth reliability table 420e which is a reliability table related to evaluation of other contents, is a reliability table in which the results of the first to fourth reliability tables 420a to 420d are integrated. Point A in the five first to fifth reliability tables 420a to 420e indicates the reliability of the current content.
  • the list area 430 is a first list area 422 in which a list of other web pages evaluated as good for the searched content is stored, and the other is evaluated as not good for the searched content.
  • a second viewing area 424 is provided for storing a list of web pages. Specifically In the content acquired by the related content acquisition unit 142 according to Embodiment 6, content that contributes to increase or decrease in the reliability of the content to be evaluated is displayed. As shown, the first list area 422 contains a list of web pages that contain content that includes keywords that increase the reliability of the searched content, and the second—view area 424 contains the search results. A list of web pages that contain content that includes keywords that reduce the reliability of the content is stored.
  • the reliability rank table 440 includes an item column 442 and a rank column 444. This table displays the reliability controlled as a result of the consistency judgment by the components according to the seventh embodiment.
  • the reliability rank table 440 includes an address, a telephone number, a facsimile number, employment-related information, and the like, which are the above-described determination target items.
  • the information contained in the rank column 444 classifies the reliability of the content into several categories according to its size and presents it in alphabetical form. For example, rank “A” indicates a state where the reliability is high, and “B”, “C”, and “D” are shown in alphabetical order as the reliability decreases in order.
  • the user by presenting the user with the reliability of the content from a plurality of viewpoints, for example, from the viewpoint of the continuity of the content and the update status of the content, the user has contents with various viewpoints.
  • the reliability of the comprehensive evaluation is a summary of the reliability of multiple viewpoints and is excellent in terms of balance, so that users can know more reliable evaluation results regarding content.
  • the reliability of the content is increased or decreased according to whether or not the content to be evaluated can be collected.
  • the reliability of the content can be determined based on the power of being able to collect the content to be evaluated. The degree is increased or decreased.
  • the client information include information related to the access status to the content from the network using terminal device, and information input to the content from the network using terminal device.
  • FIG. 21 shows the configuration of the information search providing system 11 according to the ninth embodiment.
  • the information search providing system 11 according to the ninth embodiment includes a network using terminal device 500 that uses the content in addition to the information search providing system 10 according to the first embodiment shown in FIG.
  • FIG. 22 shows a configuration of network using terminal apparatus 500 according to Embodiment 9.
  • the network using terminal device 500 includes a content acquisition unit 502, a terminal information holding unit 504, and an information transmission unit 506.
  • the content acquisition unit 502 acquires the content provided by the web server 200 via the network 12. Specifically, an acquisition request for content provided by the web server 200 is transmitted from a WWW browser (not shown) installed in the network using terminal device 500. The content transmitted from the web server 200 in response to the content acquisition request is taken into the network terminal device 500 and displayed on the WWW browser. The content acquisition date and time of content acquisition by the content acquisition unit 502, the number of content acquisitions, and the like are stored in the network using terminal device 500 as access status record data such as cookies.
  • the terminal information holding unit 504 holds information related to the network using terminal device 500.
  • Examples of information held by the terminal information holding unit 504 include information such as the date and time of content acquisition that can be acquired from cookies, the number of times of content acquisition, information about the URL that was passed when the content was acquired, and the operating system of the terminal device 500 that uses the network Information related to (hereinafter referred to as OS), browser used in the network using terminal device 500, information relating to the Internet service pronoider (hereinafter referred to as ISP) used by the network using terminal device 500, and the like.
  • OS network Information related to
  • ISP Internet service pronoider
  • the information transmitting unit 506 transmits client information associated with the network using terminal device 500 to the web server 200.
  • client information transmitted by the information transmission unit 506 include the content acquisition date and time, the number of times of content acquisition, information on the OS, information on the ISP, and the like.
  • the information transmitting unit 506 displays the name, product name, Information such as the unit price and number of products to be purchased is transmitted to the web server 200 as client information.
  • FIG. 23 shows a configuration of web server 200 according to Embodiment 9.
  • the web server 200 according to the ninth embodiment includes a content providing unit 202, an access sensing unit 204, an input information receiving unit 206, an information acquiring unit 208, and an information transmitting unit 210.
  • the content providing unit 202 provides content in response to a request from the network using terminal device 500.
  • the content provided by the content providing unit 202 may be content intended for browsing news, blogs, images, videos, etc., or may be content for selling products using the Internet.
  • the content providing unit 202 browses the content or inputs some information to the content in order to realize the transmission of the client information from the information transmission unit 506 described above,
  • a powerful input form such as a text box or a radio button created by a CGI program can be used! /.
  • the access sensing unit 204 uses the network-use terminal device 500 to check that the network-use terminal device 500 has browsed the content and that the network-use terminal device 500 has entered some information for the content. Sense access to content.
  • the input information receiving unit 206 receives input information for the content from the network using terminal device 500. For example, if the content provided by the content providing unit 202 is a web page that sells products using the Internet, the input information receiving unit 206 purchases the name, product name, and purchase name of the product purchaser as input information. Accepts information such as product unit price and quantity.
  • the information acquisition unit 208 acquires the date and time of content acquisition, the number of times of content acquisition, information on the OS, information on the ISP, and the like transmitted from the information transmission unit 506 of the network using terminal device 500.
  • Information transmitting section 210 transmits the acquired client information to information search providing apparatus 100.
  • FIG. 24 shows the configuration of information search providing apparatus 100 according to Embodiment 9. Regarding the information search providing apparatus 100 shown in FIG. 24, the same components as those in FIG. Information search providing apparatus 100 according to Embodiment 9 includes received information holding section 510, analysis condition holding section 520, in addition to the components of information search providing apparatus 100 according to Embodiment 1 shown in FIG. Is further provided.
  • the collection control unit 120 includes an information receiving unit 530, an information reception end determining unit 531, an information analyzing unit 532, a client determining unit 534, a regular customer usage control unit 535, It further includes a transaction evaluation unit 536, a transaction evaluation update unit 537, an asset value calculation unit 538, and an asset value update unit 539.
  • Information receiving section 530 receives information transmitted from information transmitting section 210 of web server 200 and stores it in received information holding section 510. When access is continuously performed from the network using terminal device 500, it is received as client information in a series of accesses.
  • FIG. 25 shows an example of the data structure of reception information stored in reception information holding section 510.
  • the same components as those in FIG. 4 are given the same reference numerals, and description thereof will be omitted as appropriate.
  • the network-use terminal device 500 accesses the content, the network-use terminal device 500 uses content browsing software such as a browser accessed via the network 12.
  • the reception information holding unit 510 holds client information related to the access history from the network using terminal device 500 received by the information receiving unit 530 and client information related to data input from the network using terminal device 500.
  • the client information related to the access history includes the access date and time 550 when the network using terminal device 500 accesses the content, the access source IP address 552 assigned to the network using terminal device 500, and the network using terminal device 500 Yes Destination URL 554, OS information 556 used in network terminal device 500, etc.
  • the client information related to the input data includes the purchase price 568, the product name 560, and the user name 562 entered by the network-use terminal device 500 in the product purchase form installed in the content or automatically entered. Etc. [0133]
  • the information reception end determination unit 531 determines whether or not the reception of information is continued, and determines when a series of accesses has ended. For example, whether or not the information is continuously received is determined based on whether or not the information reception interval from the same network using terminal device 500 is within a predetermined time.
  • the information analysis unit 532 analyzes the information held in the reception information holding unit 510 based on the analysis conditions that affect the reliability held in the analysis condition holding unit 520.
  • the reliability control unit 130 increases or decreases the reliability held in the search information holding unit 180 based on the analysis result.
  • the analysis conditions are preferably stored in advance in the analysis condition holding unit 520, but may be updated as necessary.
  • the reliability control unit 130 increases the reliability more greatly than the access from a different network using terminal device 500.
  • Examples of factors that increase the reliability of the content when the network-use terminal device 500 browses the content include increases in access from the network-use terminal device 500 to the content, reliability And access to the content from the network terminal device 500 using the OS with high reliability.
  • examples of decreasing the reliability include a decrease in access to the content from the network device 500, access via a site with low reliability, and network usage using an OS with low reliability.
  • the terminal device 500 can access the content.
  • the reliability of the site the information held in the search information holding unit 180 is referred to.
  • the network-use terminal device 500 uses the content for shopping. And the same network using terminal device 500 uses the content for multiple shopping. Using the content for shopping can be considered as proof that the network terminal device 500 trusts and uses the content. Therefore, as the number of network-use terminal devices 500 for shopping increases, the reliability of the content can be increased or decreased. In addition, when the same network using terminal device 500 uses the content for multiple purchases, it is determined that the content is a regular customer, and the more regular customer, the higher the reliability of the content. Also good.
  • the network using terminal device 500 uses the content for shopping, it can be determined that the access is more reliable by the user if the payment is made with a credit card. Therefore, it is determined whether or not the power of shopping using a credit card is based on client information related to the input data, and the more network-use terminal devices 500 that execute shopping using the credit card, the more the content. The reliability of may be increased.
  • the use of a credit card is an example that the identity of the user who uses the network-use terminal device 500 can be identified. If the user's identity can be identified, the credit card can be used. Is limited! /.
  • the client determination unit 534 matches the user of the content held in the reception information holding unit 510 with one of the latest user names 562 held in the reception information holding unit 510. Check for power.
  • FIG. 26 shows an exemplary data structure of a search information file stored in the search information holding unit 180.
  • search information holding unit 180 of the present embodiment the same components as those in FIG.
  • search information holding unit 180 of the present embodiment further has cumulative purchase price 570, cumulative product characteristic evaluation 572, regular customer usage 574, and asset value 576.
  • the regular customer usage control unit 535 increases the usage of the regular customer held in the search information holding unit 180.
  • the search information holding unit 180 For example, in the content of (http: ZZ ⁇ l), if the information that “Taro Yamazaki purchased a product called A101 for 29600 yen” is stored in the received information holding unit 510, the search information holding unit 180 The cumulative purchase price of the corresponding content (http: ZZ ⁇ l) is "29600 yen" for "250000 yen” and "279600 yen”.
  • the product “A101” is a food that does not depend on fashion, and has received a rating of “5”, which is the highest rank in a five-level evaluation, the cumulative product characteristic evaluation is “5” in “6”. Joined to become “11”. Furthermore, if “Taro Yamazaki” in the past (http: ZZ ⁇ l) has a purchase history of “3” times, the regular customer usage rate will be “20” plus “3” to “23” .
  • Transaction evaluation unit 536 obtains the latest purchase amount 568 and product name 560 held in reception information holding unit 510.
  • the transaction evaluation unit 536 obtains the settlement amount and the transaction details of the content by acquiring the settlement amount and the product information input by shopping.
  • the reliability control unit 130 may increase or decrease the reliability based on the settlement scale of the content and the transaction details.
  • the transaction evaluation unit 536 may evaluate the product name based on product characteristics such as fashion and product type. In this case, it is preferable to prepare standards for product characteristic evaluation in advance.
  • the reliability control unit 130 greatly increases the reliability when the amount of payments made per month for the content is more than a certain amount, handles products that are not influenced by the trend, and there are many regular customers. Well, ...
  • Transaction evaluation update unit 537 updates cumulative purchase price 570 and cumulative product characteristic evaluation 572 held in search information holding unit 180 in accordance with the processing of transaction evaluation unit 536.
  • the asset value calculation unit 538 acquires the latest purchase amount 568 and the product name 560 held in the reception information holding unit 510, and stores a sales management system (not shown) in which data related to the content is stored. ) Or accounting system (not shown) to obtain the purchase price of the product and calculate the profit in the transaction. Considering the value of this profit aggregated over a specific period, the usage of regular customers, and the characteristics of the product, forecast future revenue and calculate the asset value of the content.
  • the asset value update unit 539 updates the asset value held in the search information holding unit 180 based on the asset value calculated by the asset value calculation unit 538.
  • FIG. 27 shows the flow of reliability increase / decrease processing according to the present embodiment.
  • the information search providing device 100 is in a standby state for receiving information transmitted from the web server 200.
  • the information receiving unit 530 receives the client information (S110)
  • the received client information is stored in the received information holding unit 510 (S120).
  • the processing may be shifted to the information analysis step (S140) on condition that the client information is first received from the network using terminal device 500 and a certain amount of time has passed.
  • information reception end determination unit 531 continues to receive no information (if it is determined that S130, information analysis unit 532 performs information analysis (S140).
  • Information analysis unit 532 Is analyzed (“Y” in S140), the reliability control unit 130 performs the reliability increase / decrease process (S150), and the process ends, while the information analysis unit 532 If it is analyzed that “the reliability is not affected” (N in S140), the process ends.
  • the reliability can be controlled by the information held by the network using terminal device 500 that uses the content. Furthermore, by collecting payment information between the network using terminal device 500 and the content, the asset value of the content can be calculated.
  • Various contents are operated on the network, especially on the Internet, regardless of whether they are corporations or individuals. Among them, there are many useful contents.
  • there has not yet been established a method for evaluating existing land and buildings in a real space where the history of content management is shallow. Calculating the asset value of content Along with calculations, transfer and inheritance of content owned by individuals, succession and transfer of content owned by corporations, mergers and absorption of corporations that possess useful contents, and other investments and loans to the corporations. It can be expected that it will serve as the basis for the distribution, renewal, and structure of the content that will not only be useful.
  • the client information of the network using terminal device 500 is transmitted to the information search providing device 100 via the web server 200, but the client information of the network using terminal device 500 is used. May be directly transmitted to the information search providing apparatus 100.
  • the client information of the network using terminal device 500 may be transmitted to the information search providing device 100 via an information collecting device operated by a third party.
  • the information search providing device 100 may also serve as the web server 200 that provides the content.
  • the reliability of the content to be evaluated is increased or decreased depending on whether or not the content to be evaluated has been updated.
  • the posting status in the content to be evaluated and the content for comparison are respectively acquired, and the posting status of the judgment item in the content to be evaluated is compared with the above-described comparison. It is determined whether or not the content to be evaluated is properly determined by comparing the posting status of the determination item in the content for use.
  • the judgment items related to the content provider to be evaluated include event information made public by the organizer operating the content to be evaluated.
  • the event information is only posted on the content subject to evaluation managed by the organizer itself, and the content other than the subject subject to evaluation that is not operated by the organizer. Will also be posted.
  • the information source for posting on content other than the subject of evaluation includes content subject to evaluation when the network 12 is used, and press announcements and original interviews when the network 12 is not used.
  • event information is not posted on the content to be evaluated, event information is posted on content other than the evaluation target, or event information is posted on the content to be evaluated. If the content was previously posted on content that is not subject to evaluation, it is determined that the content subject to evaluation has not been updated properly.
  • the event information is made public by the organizer, but the event information may be made public by a third party other than the organizer.
  • the organizer's dishonesty or social misconduct may not be disclosed by the organizer himself, but may be posted on content operated by a third party and disclosed.
  • event information such as the host's fraud is posted on content operated by a third party, appropriate comments or apologies etc. regarding this event information are posted on the content operated by the organizer.
  • the content managed by the organizer is properly updated, it is possible to determine whether or not the content can be spoken.
  • FIG. 28 shows a configuration of information search providing apparatus 100 according to Embodiment 10.
  • the information search providing device 100 according to the tenth embodiment includes an acquired content information holding unit 600, an event holding unit 610, A request information holding unit 630 is further provided.
  • the update determination unit 138 of the present embodiment includes an event extraction unit 640, an event organizer content identification unit 641, an event occurrence control unit 642, a content information source determination unit 650, and an update appropriateness determination unit 660.
  • the content information source determination unit 650 includes an event generation request unit 651, an event generation reception unit 652, an event monitoring unit 653, and a content information source control unit 654.
  • FIG. 29 shows an example of the data structure of the search information file stored in the acquired content information holding unit 600.
  • the content collected by the collection container is held not only in the search information holding unit 180 but also in the acquired content information holding unit 600.
  • the acquired content is stored in the content 603 column, and the URL that is part of the content-associated information is stored in the URL 602 column.
  • FIG. 30 shows an example of the data structure of the reception information stored in the search information holding unit 180.
  • the data structure shown in FIG. 30 has a content organizer 620 and a content information source 622 as data strings in addition to the same configuration as FIG.
  • content organizers refer to companies, individuals, and organizations that manage content.
  • the source of information refers to what events are listed in the content.
  • FIG. 31 shows an example of the data structure of the search information file stored in the event holding unit 610.
  • the search information file shown in Fig. 31 includes event 611, event organizer 612, event organizer's own content posting 613, original interviews that occurred before posting to own content 61, and post content posting It includes the generated web page 615 and the original coverage 616 that occurred after posting in its own content as data strings.
  • posting to event organizer's own content refers to posting an event that the content organizer has created on his / her own content.
  • “Individual coverage that occurred before posting to own content” means that the event that occurred was posted to other content by an original interview before it was posted to your content.
  • “Web page generated after posting to own content” means that the event that occurred has been posted on other content with reference to the posted content since it was posted on its own content.
  • “Individual coverage that occurred after posting on own content” means that the event that occurred was posted on other content by original coverage after it was posted on its own content.
  • FIG. 32 shows an example of the data structure stored in the request information holding unit 630.
  • the search information file shown in FIG. 32 includes an event 631, a content organizer 632 that generates the event, a public date 633, and a public event method 634 as data strings.
  • the event extraction unit 640 prays the accumulated content as needed to extract events. For example, information such as “Product X is newly released from Company A on February 4” is extracted as an event.
  • the event organizer content identification unit 641 refers to the content organizer 620 of FIG. Identify content. If the specified content is “Product X is newly released from Company A on February 4,” it can be seen that Company A is the organizer of the event. If content organizer 620 has company A, it is possible to obtain information about the contents operated by company A. Further, by comparing the URL 602 of the acquired content with the URL column 304, the content organizer of the acquired content can be specified.
  • the solution If the URL of the content to be analyzed (“Product X is newly released from Company A on February 4”) is (htt P: ZZ ⁇ lZa.html), the URL of Company A (http: ZZ ⁇ lZ), the event hosted by Company A was posted on Company A's own content.
  • the URL of the content to be analyzed (“Product X is newly released from Company A on February 4th") is (http: ZZ ⁇ 3Zc.html)
  • the URL of the X organization http: ZZ ⁇ Including 3Z
  • the event hosted by Company A was posted on the content of the X organization.
  • the content ⁇ blue information source 622 the content organizer's content ⁇ blue information source can also be specified. In the case of the above example, the content information source of the X organization comes from “original coverage”.
  • Content information source determination unit 650 is used to determine the value of content information source 622 shown in FIG.
  • the event occurrence requesting unit 651 is an event that is made public by the content organizer (hereinafter referred to as a content organizer that generates an event) held in the search information holding unit without being posted on the web page, or the web Request an event to be posted only on the page and made public. This request shall be agreed in advance with the content organizer that will generate the event.
  • the content organizer that generates the event makes the event public by the requested method and sends the event information to the event generation receiving unit 652.
  • the event generated by Company D the content organizer that generates the event, is a public event (500 people scheduled to be hired) without being posted on the web page.
  • the event occurrence receiving unit 652 receives the generated event information and stores it in the request information holding unit 630. Thereafter, the event monitoring unit 653 monitors whether or not the event held in the request information holding unit 630 is extracted by the event extraction unit 640. If a public event is extracted without posting it on the web page, it can be determined that the content organizer's content information source is based on an original interview. On the other hand, if an event that is posted only on a web page and made public is extracted, it can be determined that the content information source of the content organizer is the web page.
  • the content information source control unit 654 obtains the monitoring information from the event monitoring unit 653 as the search information. Stored in the corresponding content information source 622 in FIG. In addition, for Content Information Source 622, interview the content operator and investigate the values.
  • the event occurrence control unit 642 extracts the event, identifies the event organizer, the content organizer who posted the event, and the content information source, and then stores the data as shown in FIG. 31 to the event holding unit 610. save.
  • the event occurrence control unit 642 if there is the same event in the event holding unit 610, is listed in the event organizer's own content 613, the original event coverage before the inclusion in the own content 614, Increase the number of applicable web page 615 and post-published original coverage after posting on 615 and your own content. If the same event does not exist, record the record as a new event, enter event 611 and event organizer 612, and post 613 on the event organizer's own content, before the posting on the own content Enter the number 1 for any one of 614. In general, events appear to decrease after a certain period of time. Therefore, if an event is extracted after the elapse of a certain period, the first generation force of the event may be controlled to do nothing.
  • the update appropriateness determination unit 660 refers to the event holding unit 610 to determine whether or not the event organizer's own content has been updated appropriately.
  • the method for determining whether or not the content has been properly updated is that the event generated by the content organizer to be evaluated is the content to be evaluated or the other content. It is to observe how it spreads. If this is realized, content operators will try to update information in a timely manner, which in turn contributes to improving the reliability of content.
  • the event requested to event generation request unit 651 is a single force.
  • Event generation request unit 651 is not included in the web page, but is publicly disclosed, and only posted on the web page. Both public events may be requested at the same time. In this case, it is desirable that the two event types are similar. “Simultaneous period” includes a range of several days or weeks only on the same day.
  • the time from posting an event only on a web page to making it publicly known until it is posted on other content and how to increase the number of other content posting the event over time It can be used as an evaluation standard for how to spread to content. If the information related to the event to be publicized without being posted on the web page is spread to other contents, or similar to this evaluation standard, the publicly known event without being posted on the web page Presume that it was posted on their content promptly after public announcement be able to.
  • FIG. 33 shows a configuration of information search providing apparatus 100 according to the eleventh embodiment. Components equivalent to those in Fig. 3 are given the same reference numerals and explanations thereof are omitted as appropriate.
  • the information search providing apparatus 100 according to the eleventh embodiment further includes an identity determining unit 700 in addition to the configuration of the information search providing apparatus 100 according to the first embodiment shown in FIG.
  • the identity determination unit 700 determines the identity of the content to be evaluated collected at different timings. Specifically, the content to be evaluated is newly collected by the collection unit 128 when determining the identity of the content to be evaluated. The identity determination unit 700 compares the content of the evaluation target content collected in the past stored in the content field 306 of the search information holding unit 180 with the content of the newly collected content of the evaluation target, Judge whether or not the content of the content being evaluated remains the same.
  • the reliability control unit 130 increases the reliability of the content to be evaluated.
  • the reliability control unit 130 may decrease the reliability of the content to be evaluated when the identity determination unit 700 determines that the identity of the content to be evaluated is maintained. As a result, for example, it is possible to distinguish the reliability of the web page from the web page where the content is identical to the web page where the content is identical.
  • the identity determination unit 700 confirms that the content of the evaluation target content collected in the past completely matches the content of the newly collected content of the evaluation target. There is no requirement. For example, in content such as blogs and -youth, new items may be added sequentially to items that have been written in the past. In such a case, the identity determination unit 700 determines that the content to be evaluated collected at the previous timing is the same as part of the content to be evaluated collected at a later timing. It may be judged that the sameness is maintained. According to this, the content of the evaluation target collected at the previous timing is included as part of the evaluation target content collected at the later timing, and the evaluation target content collected at the previous timing is included. Even if identity is maintained, the reliability of the evaluation target is increased.
  • FIG. 34 shows a configuration of information search providing apparatus 100 according to the twelfth embodiment. Components equivalent to those in FIG.
  • information search providing apparatus 100 according to Embodiment 12 includes comparison content registration section 800, comparison content holding section 802, and The uniqueness determination unit 810 is further provided.
  • the comparison content registration unit 800 accepts unique content such as images, moving images, sentences, audio data, and programs as comparison content, and registers it in the comparison content holding unit 802.
  • the comparison content preferably has a copyright.
  • the content registrant and the content are registered. Information on the right holder of the tenth is also registered.
  • FIG. 35 shows an example of the comparison content information file stored in the comparison content holding unit 802.
  • the comparison content information file stores content 804, registration date 805, registrant 806, and authoritative IJ person 807 in association with content ID 803 for identifying the content.
  • the uniqueness determination unit 810 compares the content to be evaluated with the comparison content collected when the content to be evaluated is collected, and determines the uniqueness of the content to be evaluated.
  • the uniqueness determination unit 810 refers to the comparison content holding unit 802 and checks whether the content to be evaluated has already been registered. If the content to be evaluated is not registered in the comparison content holding unit 802, it is determined that the content to be evaluated is highly unique.
  • the uniqueness determination unit 810 does not change the content to be evaluated to the comparison content holding unit 802 even if the content to be evaluated is registered in the comparison content holding unit 802. If it can be determined that a part of the registered content has been altered, the content to be evaluated may be determined to have low originality. Whether the content to be evaluated is a modification of a part of the content registered in the comparative content holding unit 802 is determined by, for example, the content registered in the comparative content holding unit 802 and the content to be evaluated. The similarity can be digitized based on a predetermined standard, and it can be judged by whether or not the obtained numerical value is greater than or equal to the standard value.
  • the reliability control unit 130 increases the reliability of the content to be evaluated.
  • the reliability control unit 130 may decrease the reliability of the content to be evaluated when the uniqueness determination unit 810 determines that the content to be evaluated is a modification of other content. . Even if the content to be evaluated is a modification of other content, if the right holder of the comparison content holding unit 802 and the provider of the content to be evaluated are the same, the reliability of the content to be evaluated There is no need to lower. According to this, for example, the uniqueness of the content is high, the uniqueness of the web page and the content is low, and the reliability of the web page can be discriminated. [Embodiment 13]
  • the reliability of the content is increased or decreased according to whether or not the content to be evaluated can be collected. It has already been mentioned that the creditworthiness of the content also corresponds to the creditworthiness of other systems of information providers that operate it.
  • the reliability of the location information of the content is obtained according to the reliability of the content. Specific examples of the location information of the content include the URL of the content and the domain name extracted from the URL.
  • the reliability of the IP address is obtained by associating the IP address with the reliability of the content.
  • the reliability of the e-mail address is required by associating the reliability of the e-mail address including the domain name with the reliability of the content.
  • FIG. 36 shows the configuration of information search providing apparatus 100 according to Embodiment 13.
  • information search providing apparatus 100 according to Embodiment 13 includes location information extraction section 1000, reliability conversion section 1100, and group-specific reliability calculation. Unit 1200, group information holding unit 1250, and location information reliability holding unit 1300.
  • the search control unit 110 included in the information search providing apparatus 100 according to Embodiment 13 further includes a search condition sentence analysis unit 1500.
  • Location information extracting section 1000 extracts the domain name portion from the URL held in search information holding section 180 and stores it in search information holding section 180.
  • the location information extraction unit 1000 is “http://www.abc.co.jp/a.html”! URL power and others "abc.co.jp"! Extract the domain name
  • FIG. 37 shows an example of the data structure of the search information file stored in the search information holding unit 180.
  • the search information holding unit 180 of the present embodiment has an extracted domain name 1400 in addition to the configuration shown in FIG.
  • the domain name extracted by the location information extracting unit 1000 is written in the column of the extracted domain name 1400.
  • the reliability conversion unit 1100 is connected to the domain name reliability conversion unit 1110 and the e-mail address trust. Degree conversion unit 1120 and IP address reliability conversion unit 1130.
  • the domain name reliability conversion unit 1110 calculates the reliability of the domain name based on the reliability of the content, and stores it in the location information reliability holding unit 1300.
  • the reliability of the domain name can be calculated directly from the reliability of the content.
  • the reliability of the domain name may be calculated by caring information other than the reliability of the content.
  • the reliability of a domain name can be calculated by taking into account information such as the organization or domain attribute that owns the domain name and unauthorized use of the domain name.
  • the e-mail address reliability conversion unit 1120 calculates the reliability of the domain name included in the e-mail address based on the reliability of the content, and stores it in the location information reliability holding unit 1300.
  • the reliability of the e-mail address matches the reliability of the domain name obtained from the reliability of the content, but it may be calculated taking into account information other than the reliability of the content.
  • the domain name is used for spam mails, etc., and the reliability of an e-mail address can be calculated by taking into account information other than content such as e-mail.
  • the reliability of the domain name may be considered to be the same as the reliability of the IP address assigned to the domain name. Therefore, the IP address reliability conversion unit 1130 calculates the reliability of the domain name based on the reliability of the content, and the calculated reliability is the reliability of the location information reliability as the reliability of the IP address assigned to the domain name. Store in the holding unit 1300.
  • the reliability of the IP address may be calculated by adding information other than the content reliability that matches the reliability of the domain name. For example, it is possible to calculate the reliability of an IP address by scrutinizing information on spam acts by the server to which the IP address is assigned and information on server security vulnerabilities.
  • the group-specific reliability calculation unit 1200 includes a domain name type classification unit 1210, a domain name type reliability calculation unit 1220, an ISP classification unit 1230, and an ISP reliability calculation unit 1240.
  • the domain name type classification unit 1210 further extracts the type domain names such as com and co.jp extracted from the URL name stored in the search information storage unit 180, and stores the search information Store in part 180. As shown in FIG. 37, the search information holding unit 180 of the present embodiment includes The domain name type 1402 is further added as a data string. The domain name type extracted by the domain name type classification unit 1 210 is written in the field of the domain name type 1402
  • the ISP classification unit 1230 refers to the group information holding unit 1250, obtains information on the corresponding ISP from the IP address field 302 stored in the search information holding unit 180, and searches the information holding unit Store in 180.
  • FIG. 38 shows an example of the IP address information table stored in the group key information holding unit 1250.
  • the IP address information table shown in FIG. 38 includes an IP address 1262, a country-specific registry 1264 in charge of each IP address, and an ISP 1266 in charge of each IP address. Note that the IP address stored in the grouping information holding unit 1250 and the information such as the ISP in charge associated therewith can be added or modified as appropriate by a grouping information input unit (not shown).
  • the search information holding unit 180 of the present embodiment further stores the responsible ISP 1404 as a data string.
  • the ISP extracted by the ISP classification unit 1230 is written in the column of the responsible ISP 1404.
  • the search information holding unit 180 may store information such as a registry in charge corresponding to an IP address and a server name.
  • Location information reliability holding unit 1300 is a reliability related to the location of content such as reliability for each domain name and IP address, reliability for each domain name type, reliability for each ISP in charge, etc. Hold.
  • FIG. 39, FIG. 40, and FIG. 41 show examples of various reliability tables stored in location information reliability holding section 1300.
  • Figure 39 shows an example of a reliability table associated with domain names and IP addresses.
  • the reliability table shown in FIG. 39 includes an IP address 1302, an extracted domain name 1304, a domain name reliability 1306, an e-mail address reliability 1308, and an IP address reliability 1310.
  • the domain name reliability 1306, email address reliability 1308, or IP address reliability 1310 corresponding to a specific IP address 1302 or extracted domain name 1304 is extracted. can do.
  • FIG. 40 shows an example of the reliability table associated with the domain name type.
  • the reliability table shown in FIG. 40 includes domain name type 1312 and domain name type reliability 1314.
  • the domain name type reliability 1314 corresponding to the specific domain name type 1312 can be extracted.
  • FIG. 41 shows an example of the reliability table associated with the ISP in charge.
  • the reliability table shown in FIG. 41 includes the ISP 1316 in charge and the ISP reliability 1318.
  • the ISP reliability 13 18 corresponding to the specific ISP 1316 can be extracted.
  • the search condition sentence input to the terminal device 50 by the user is acquired by the search condition sentence acquisition unit 112 of the information search providing apparatus 100.
  • the search condition sentence analysis unit 1500 analyzes whether the acquired search condition sentence includes a domain name, an e-mail address, or an IP address.
  • Whether or not the search condition statement includes a domain name is determined by whether or not the search condition statement satisfies the domain name configuration format. For example, if the search condition sentence satisfies the following conditions, it is determined that the search condition sentence includes the domain name.
  • the partial character string on the right side of the first period, including the right force, must match the top-level domain such as “com” r ne tj “jp”.
  • the partial character string between the second period counting right force and the first period counting right force must match the second level domain such as ⁇ ac '' ⁇ co '' .
  • Whether or not the search condition sentence includes an e-mail address is determined by whether or not the search condition sentence satisfies the configuration format of the e-mail address. For example, if the search condition statement is “x@y.zj (x is a string of characters or numbers, y.z is a domain name that meets the above conditions), the search condition statement includes an email address. To be judged.
  • whether or not the search condition statement includes an IP address is determined by whether or not the search condition statement satisfies the configuration format of the IP address. For example, if the search condition sentence falls within the range of “0.0.0.0 to 255.255.255.255”, it is determined that the search condition sentence includes an IP address.
  • the search condition sentence analysis unit 1500 determines that the search condition sentence includes a domain name
  • the search part 114 refers to the search information file stored in the search information holding part 180, and Search the extracted domain name 1400 for information that matches the domain name in the search condition statement.
  • the search result providing unit 116 provides a list of information obtained by the search to the terminal device 50 as a search result.
  • reliability presentation section 118 provides terminal device 50 with domain name reliability 1306 corresponding to extracted domain name 1304 with reference to FIG.
  • the search unit 114 refers to the search information file stored in the search information holding unit 180. Then, information that matches the domain name included in the e-mail address of the search condition sentence is searched from the extracted domain name 1400.
  • the search result providing unit 116 provides the terminal device 50 with a list of information obtained by the search as a search result.
  • reliability providing section 118 provides terminal device 50 with e-mail address reliability 1308 corresponding to extracted domain name 1304.
  • the search condition sentence analysis unit 1500 determines that the search condition sentence includes an IP address
  • the search unit 114 refers to the search information file stored in the search information holding unit 180, and Search the IP address field 302 for information that matches the IP address of the search condition statement.
  • the search result providing unit 116 provides a list of information obtained by the search to the terminal device 50 as a search result.
  • reliability presentation section 118 provides terminal device 50 with IP address reliability 1310 corresponding to IP address 1302 with reference to FIG.
  • the search condition sentence analysis unit 1500 determines whether the acquired search condition sentence includes a domain name type or an ISP name. You may analyze.
  • the groupy information holding unit 1250 stores a domain name type table as shown in FIG.
  • the domain name type table shown in FIG. 42 includes the purpose of use or operation 1270 corresponding to the domain name type 1268 and the country 1272 to which the domain type is assigned.
  • whether or not the search condition sentence includes the ISP is determined by referring to the reliability table shown in FIG. 41 and based on whether or not the search condition sentence corresponds to one of the responsible ISPs 1316.
  • the search condition sentence analysis unit 1500 determines that the search condition sentence includes the domain name type
  • the search part 114 stores the search information file stored in the search information holding part 180. And search for information that matches the domain name type in the search condition statement from the domain name type 1402.
  • the search result providing unit 116 provides a list of information obtained by the search to the terminal device 50 as a search result.
  • the reliability presentation unit 118 provides the terminal device 50 with the domain name type reliability 1314 corresponding to the domain name type 1312 with reference to FIG.
  • the search condition sentence analysis unit 1500 determines that the search condition sentence includes ISP
  • the search part 114 refers to the search information file stored in the search information holding part 180. Search for information that matches the ISP in the search condition sentence from the responsible ISP 1404.
  • the search result providing unit 116 provides a list of information obtained by the search to the terminal device 50 as a search result.
  • the reliability presentation unit 118 provides the terminal device 50 with the ISP reliability 1318 corresponding to the responsible ISP 1316 with reference to FIG.
  • the reliability of the e-mail address is calculated by calculating the reliability of the IP address and domain name corresponding to the content. You can find the reliability of your ISP, registry, and country type for each country. In this way, not only the content but also the domain name related to the content It is also expected that the reliability of content etc. will be improved by improving the reliability of content for domain operators. Specifically, ISPs do not allocate IP addresses to malicious vendors, and appropriate policies are implemented to manage IP addresses throughout the country.
  • the power of providing the reliability of the domain name, email address or IP address based on the reliability of the provided content, the power of providing the reliability of the domain name, email address or IP address. At least one of the domain name, email address or IP address is provided. Any combination of configurations including one confidence level is possible.
  • the information search providing apparatus 100 exists as one apparatus.
  • the information search providing apparatus 100 may be realized by cooperation of two servers.
  • the search control unit 110 in FIG. 3 may be provided on the search server side, and other functional blocks may be placed on the collection server side.
  • the configuration of FIG. 3 can be divided into other parts and distributed to the search server side and the collection server side. The distribution should be determined in consideration of factors such as the convenience of server administrator management, the load balance between the two servers, and the amount of traffic between the two.
  • the information search providing apparatus 100 according to the eighth embodiment includes the constituent elements of the information search providing apparatus 100 according to the first embodiment, the third embodiment, the fifth embodiment, the sixth embodiment, and the seventh embodiment.
  • the combination is not limited to this.
  • a device including the components of the information search providing apparatus 100 according to Embodiment 1 and the components of the information search providing apparatus 100 according to Embodiment 2 may be used as the new information search providing apparatus 100.
  • the reliability of the content is increased or decreased depending on whether or not the content to be evaluated has been updated.
  • the information search providing device 100 analyzes the content of the content. If the analysis unit includes an item that increases the reliability of the content to be evaluated, the reliability may be increased!] . Hereinafter, an example of the item will be shown.
  • This analysis unit shall have a timer for acquiring time information and a source analysis unit for analyzing the source of the program.
  • the information search providing apparatus 100 includes content with high reliability among the search results.
  • a presentation restriction unit that only allows the user to present may be provided. There are some malicious web pages on the Internet, and by not letting users present low-reliability content in the first place, access to low-reliability web pages for all users can be reduced.
  • the content acquisition is performed by simultaneously controlling the reliability of the self-content and the other content related to each other according to the determination target item, for example, whether or not the employment-related information is consistent.
  • Judgment of content acquired by part 147 There are a lot of contents that list the target items! You can increase the reliability of your contents as much as possible. For example, when the judgment target item is recruitment-related information and “new graduate recruitment”, the reliability control unit 130 increases the reliability of the content as the content including the “new graduate recruitment” increases.
  • the information search providing apparatus 100 may further include a prediction unit that predicts the reliability of future content.
  • the prediction unit predicts the reliability of the content to be evaluated based on an element used to estimate the lifetime of the content included in the content to be evaluated. For example, if the content information provider is an individual, the element that contributes to the estimation of the lifetime of the content corresponds to the age of the individual, whereas if it is a company, it corresponds to the growth rate of the company. In the former example, if the individual's age is “30 years”, the reliability of the content up to “80 years”, which is the normal lifespan of a normal person, that is, 50 years from now is predicted.
  • the reliability of the content after 50 years may be predicted under the condition that the increase in the current reliability is maintained.
  • the reliability presentation unit 118 presents the predicted reliability to the user. As a result, the user can know the reliability of the future content, not only by knowing the past changes in the reliability, but if the reliability further increases, the user can use the content more safely. it can.
  • the ability to control the increase or decrease in reliability according to whether or not the collection unit 128 can collect content when the collection unit 128 does not collect content, the information search providing device A confirmation unit newly provided in 100 may confirm whether or not content is collected for the items to be confirmed. An example of items to be confirmed is shown below. Keywords included in server relocation information and server failure information are preliminarily held in a confirmation target item holding unit (not shown).
  • server failure information such as “Web server out of order” in the content
  • the accessibility determination unit 124 sets a flag “O” in the access history column 322 of the content to be evaluated within the period when the information is posted in the content.
  • the confirmation unit accesses the database of a third party that manages the domain name, and the domain name of the web server that posts the content to be evaluated.
  • the status of the information provider providing the web server may be ascertained using as a key. As a result, when an information provider who has no reason to blame for the information provider cannot provide the content, the reliability of the content cannot be reduced! /, And the content can be remedied.
  • the information search providing apparatus 100 has the ability to show a list of content and content reliability as a search result to the user.
  • the user uses the information, for example, When the user goes to an actual store or buys and sells via Internet shopping, the information search providing device 100 obtains an evaluation value regarding the reliability of the content from the user, and the current reliability of the content is obtained. To reflect .
  • the information search providing apparatus 100 according to Embodiments 1 to 8 is newly provided with an evaluation value acquisition unit.
  • the evaluation value acquisition unit acquires an evaluation value related to the reliability of the user-powered content. Via the evaluation value acquisition unit, the evaluation value expressed by 10-level evaluation from “1-5” to “5” is obtained from the lowest to the highest regarding the reliability of user-powered content, and reliability control is performed. The unit 130 adds the evaluation value to the reliability of the current content. As a result, an evaluation of the content from the user when using the content can be taken in, and an information search service that can present more accurate reliability can be realized.
  • the presence or absence of relevance is determined based on whether or not the highly reliable content includes related information indicating that there is a relevance between the content and the content to be evaluated.
  • related information indicating that there is a relationship between the content to be evaluated and the content with high reliability is included in the content to be evaluated.
  • Whether or not there is a relevance is determined based on whether or not the error is detected.
  • the relevancy determination unit 134 determines whether or not the relevant content, for example, a link from the content to be evaluated to a highly reliable content is included in the content to be evaluated.
  • the reliability control unit 130 determines the increase in the reliability of the content to be evaluated when the relevance determination unit 134 determines that there is a relevance when it is determined that there is no relevance. Control higher than the increase in reliability of the content to be evaluated. Thereby, for example, it is possible to discriminate between a case where there is a link to a web page with high reliability in the content to be evaluated and a case where there is no link to a web page with high reliability.
  • the reliability control unit 130 increases the amount of increase in reliability by the number of matches if there is a match for multiple URLs with high reliability among the content to be evaluated! You may let them. For example, if there are three matches, add “3” to the current increase in the content to be evaluated. As a result, the more reliable the content to be evaluated and the more linked to the content, the greater the increase in reliability.
  • Embodiment 2 and Modification 9 it was determined whether or not the content to be evaluated has a high degree of reliability and whether or not there is a relationship between the content, but as another modification, the content to be evaluated and the low reliability are Determine if there is any relevance to the content.
  • the method for determining the presence / absence of relevance by the relevance determining unit 134 in this modification is the same as the method for determining the presence / absence of relevance in the second embodiment and the ninth modification.
  • the relevance determination unit 134 determines whether the content to be evaluated is based on whether or not the content with low reliability includes related information indicating that there is a relevance between the content and the content to be evaluated. Determine whether the content is related to content with low reliability.
  • the relevance determination unit 134 determines whether the content to be evaluated and the content with low reliability are included in the content to be evaluated. Based on whether or not related information indicating that there is a relationship between them is included, the content to be evaluated and the reliability are low, and whether or not there is a relationship with the content may be judged! /.
  • the reliability control unit 130 does not reflect the result of the determination of relevance by the relevance determination unit 134 in the increase or decrease in the increase in the reliability of the content to be evaluated. . This is because it is more meaningful to ignore the existence of related information such as links that are likely to have unreliable information for content with low reliability. In the latter case, the reliability control unit 130 determines that the degree of increase in the reliability of the content to be evaluated when the relevance determination unit 134 determines that the relevance is relevant is determined to be irrelevant. Control is made lower than the increase in the reliability of the content to be evaluated.
  • the content to be evaluated includes links to low-reliability content that includes content that is contrary to public order and morals, such as sexual content or violent content, and a low-reliability web site. You can discriminate from the case where there is no link to the page.
  • the reliability of a single viewpoint power evaluation target content is increased or decreased.
  • the reliability of a plurality of viewpoint power evaluation target contents is increased or decreased.
  • the element extraction unit 144 extracts elements that contribute to the increase or decrease in the reliability of the content to be evaluated for each viewpoint of the reliability evaluation. Specifically, if the reliability evaluation viewpoint is “recruitment”, for example, the element extraction unit 144 relates to “recruitment” from the content acquired by the related content acquisition unit 142. Extract elements that contribute to an increase or decrease in the reliability of the content being evaluated.
  • a keyword related to "adoption” may be held in a viewpoint holding unit (not shown).
  • keywords related to “recruitment” include “recruitment actual number of people” and “recruitment expected number of people”.
  • the element extraction unit 144 searches and matches the content acquired by the related content acquisition unit 142 by specifying the keyword held in the viewpoint holding unit and the keyword held in the contribution holding unit. Information obtained. Specifically, the element extraction unit 144 can extract elements that contribute to an increase in the reliability of the viewpoint power of “recruitment” by searching for “adopted number of employees” and “increased calorie” as AND conditions.
  • the reliability control unit 130 increases or decreases the reliability of the content to be evaluated with reference to the elements extracted for each reliability evaluation viewpoint. For example, if the content to be evaluated is provided by “ABC company” and the acquired content states that “the number of hires at ABC company increased,” “recruitment” From the viewpoint of “increase”, elements that are “increased” are extracted by the element extraction unit 144, and the elements are classified into the first group by the classification unit 146. At this time, the reliability control unit 130 also increases the reliability of the content to be evaluated with the viewpoint power of the reliability evaluation of “adoption”. The reliability control unit 130 sets the reliability for each viewpoint, and increases or decreases each reliability for each viewpoint based on the results extracted for each viewpoint of the reliability evaluation by the element extraction unit 144. May be. At this time, the reliability control unit 130 may add the reliability obtained for each viewpoint to obtain the reliability of the content to be evaluated. According to this modification, the reliability of the content to be evaluated can be evaluated from various viewpoints, and the accuracy of the reliability is increased.
  • an information search service can be provided with high user convenience.

Abstract

 信頼のおけるコンテンツと信頼のおけないコンテンツとを選別する新たな情報検索サービスの仕組み作りが必要である。  検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供する情報検索提供装置100であって、ウェブページに掲載される評価対象のコンテンツをネットワークを介して所定のタイミングで収集する収集部128と、収集部128による評価対象のコンテンツの収集の可否に応じて、評価対象のコンテンツの信頼度を増減せしめる信頼度制御部130と、を備える。これにより、評価対象のコンテンツの収集の可否に応じて当該コンテンツを信頼度の側面から評価することができ、その結果、信頼のおけるコンテンツと信頼のおけないコンテンツとを選別でき、ユーザ利便性の高い情報検索サービスを提供できる。

Description

明 細 書
情報検索提供装置および情報検索提供システム
技術分野
[0001] この発明は情報検索提供装置および情報検索提供システムに係るものであり、特 にインターネットなどのネットワーク上のウェブページに掲載される、文章、画像ゃプ ログラムなどのコンテンツを検索結果として提供する情報検索提供装置および情報 検索提供システムに関する。
背景技術
[0002] 近年、インターネットの利用が進むにつれ、その主要なアプリケーションである WW W (World Wide Web)のユーザが激増し、電子化された情報の流通が非常に活発に なってきた。それに伴い、情報量の爆発的な増大によってユーザが真に欲する情報 を取り出すことが困難になるという問題が生じてきた。このような問題を軽減するため に、インターネットなどのネットワーク上において様々な検索エンジンが登場してきた
[0003] 過去にユーザが検索を実行し、どのウェブページで目的の情報を見出されたかを 推定し、その推定結果から検索キーワードおよびウェブページの URL (Uniform Reso urce Locator )にポイントを付与し、このポイントの大きい順に、後の検索におけるコン テンッの検索結果としての提示順序を決定する技術が開示されている。
特許文献 1:特開 2004— 29943号公報
発明の開示
発明が解決しょうとする課題
[0004] 確かに、特許文献 1によれば、所望の情報が含まれるウェブページがユーザにより 見出される可能性は高くなる力 ユーザがウェブページに掲載されているコンテンツ を利用したとき、そのコンテンツが信頼のおけないコンテンツであれば、不利益を被る 可能性が高い。そのため、そのような不都合を軽減する新たな情報検索サービスの 仕組み作りが必要である。
[0005] 本発明はこうした課題に鑑みてなされたものであり、その目的は信頼のおけるコン テンッと信頼のおけないコンテンツとを選別する新たな情報検索サービスを実現する 情報検索提供装置および情報検索提供システムの提供にある。
課題を解決するための手段
[0006] 本発明のある態様は、情報検索提供装置に関する。この情報検索提供装置は、検 索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供する 情報検索提供装置であって、ウェブページに掲載される評価対象のコンテンツをネッ トワークを介して所定のタイミングで収集する収集部と、収集部による評価対象のコン テンッの収集の可否に応じて、評価対象のコンテンツの信頼度を増減せしめる信頼 度制御部と、を備える。
[0007] この態様によれば、評価対象のコンテンツの収集の可否に応じて当該コンテンツを 信頼度の側面力も評価することができ、その結果、信頼のおけるコンテンツと信頼の おけな!/、コンテンツとを選別でき、ユーザ利便性の高!、情報検索サービスを実現で きる。
[0008] この態様の情報検索提供装置は、ユーザから検索条件文を受け付ける検索条件 文受付部と、受け付けた検索条件文に合致したコンテンツを検索する検索部と、検 索されたコンテンツの信頼度をユーザに提示する信頼度提示部と、をさらに備えても ょ ヽ。評価対象のコンテンッに含まれる当該コンテンッの存続期間の推測に供する 要素に基づいて、評価対象のコンテンツの信頼度を予測する予測部をさらに備え、 信頼度提示部は予測された信頼度をユーザに提示してもよい。
[0009] 信頼度制御部は、収集部により評価対象のコンテンツが所定のタイミングで連続し て収集される期間内において、評価対象のコンテンツの信頼度を徐々に増加せしめ てもよい。例えば、第 1のタイミング以降、収集部により評価対象のコンテンツが収集 され、その後、第 2のタイミング以降、収集部により評価対象のコンテンツが収集され ず、さらにその後、第 3のタイミング以降、収集部により評価対象のコンテンツが収集 されたとき、増加幅制御部は、第 3のタイミングにおける評価対象のコンテンツの信頼 度の増加幅を、第 1のタイミングにおける評価対象のコンテンツの信頼度の増加幅よ りも低く制御してもよい。
[0010] この態様の情報検索提供装置は、収集部による評価対象の収集の可否の履歴に 応じて当該評価対象のコンテンツの信頼度の増加幅を制御する履歴増加幅制御部 をさらに備えてもよい。評価対象のコンテンツと信頼度の高いコンテンツとの関連性 の有無を判断する関連性判断部をさらに備え、信頼度制御部は、関連性判断部によ り関連性があると判断されたときにおける評価対象のコンテンツの信頼度の増加幅を 、関連性がないと判断されたときにおける評価対象のコンテンツの信頼度の増加幅よ りも高く制御してもよい。
[0011] 関連性判断部は、評価対象のコンテンツと信頼度の高いコンテンツとの間に関連 性があることを示す関連情報が、評価対象のコンテンツ内に含まれるか否かに基づ いて、評価対象のコンテンツと信頼度の高いコンテンツとの関連性の有無を判断して もよい。関連性判断部は、信頼度の高いコンテンツ内に、当該コンテンツと評価対象 のコンテンツとの間に関連性があることを示す関連情報が含まれる力否かに基づい て、評価対象のコンテンツと信頼度の高いコンテンツとの関連性の有無を判断しても よい。
[0012] 本発明の別の態様も、情報検索提供装置に関する。この情報検索提供装置は、検 索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供する 情報検索提供装置であって、ウェブページに掲載される評価対象のコンテンツをネッ トワークを介して所定のタイミングで収集する収集部と、収集された評価対象のコンテ ンッの内容と、当該コンテンツを掲載するウェブページと同一のウェブページ力 次 に収集される評価対象のコンテンツの内容とを比較する比較部と、比較の結果に基 づ 、て評価対象のコンテンツが更新された力否かを判断する更新判断部と、判断の 結果に応じて評価対象のコンテンツの信頼度を増減せしめる信頼度制御部と、を備 える。
[0013] 信頼度制御部は、更新判断部により評価対象のコンテンツが更新されていると所定 のタイミングで連続して判断される期間内において、評価対象のコンテンツの信頼度 を徐々に増加せしめてもよい。収集された評価対象のコンテンツの内容を参照し当 該コンテンツが本来更新を必要とするべきものである力否力を分析する更新分析部 をさらに備え、信頼度制御部は、更新判断部による判断の結果および更新分析部に よる分析の結果に応じて、評価対象のコンテンツの信頼度を増減せしめてもょ 、。 [0014] 本発明のさらに別の態様も、情報検索提供装置に関する。この情報検索提供装置 は、検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提 供する情報検索提供装置であって、評価対象のコンテンツに関連するコンテンツを 取得する関連コンテンツ取得部と、取得されたコンテンツを参照し評価対象のコンテ ンッの信頼度の増加あるいは減少に貢献する要素を抽出する要素抽出部と、抽出さ れた要素を参照して評価対象のコンテンツの信頼度を増減せしめる信頼度制御部と 、を備える。
[0015] 要素抽出部は、信頼度の評価の観点ごとに、評価対象のコンテンツの信頼度の増 加あるいは減少に貢献する要素を抽出するものであり、信頼度制御部は、信頼度の 評価の観点ごとに抽出された要素を参照して、評価対象のコンテンツの信頼度を増 減せしめてもよい。
[0016] この態様の情報検索提供装置は、抽出された要素それぞれを、評価対象のコンテ ンッの信頼度の増加に貢献する第 1グループ、あるいは評価対象のコンテンツの信 頼度の減少に貢献する第 2グループに分類する分類部をさらに備え、信頼度制御部 は、分類部により分類された第 1グループ内の要素数が第 2グループ内の要素数より も多 、とき、評価対象のコンテンツの信頼度を増加せしめてもょ 、。
[0017] 本発明のさらに別の態様も、情報検索提供装置に関する。この情報検索提供装置 は、検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提 供する情報検索提供装置であって、判断対象項目を含むコンテンツを取得するコン テンッ取得部と、取得されたコンテンツのうち判断対象項目の情報発生源となる自コ ンテンッを特定するコンテンツ特定部と、特定された自コンテンツの内容と取得され たコンテンツのうち自コンテンツ以外の他コンテンツの内容とを比較し、判断対象項 目の整合性の有無を判断する整合性判断部と、判断の結果に応じて自コンテンツの 信頼度と他コンテンツの信頼度とを増減せしめる信頼度制御部と、を備える。
[0018] この態様の情報検索提供装置は、自コンテンツの信頼度と他コンテンツの信頼度と がともに高いときであって、整合性判断部により判断対象項目について整合性有りと 判断されたとき、信頼度制御部は自コンテンツの信頼度と他コンテンツの信頼度とを ともに増加せしめてもよい。 [0019] 上述の情報検索提供装置は、ウェブページを公開するサーバの所在を示す所在 情報を参照して当該サーバにアクセスするアクセス部と、アクセス部によるサーバへ のアクセスの可否を判断するアクセス可否判断部と、アクセス可否判断部による判断 の結果とアクセス部によりサーバにアクセスしたタイミングとの対応関係を保持するァ クセス履歴保持部と、対応関係を参照しアクセス部によるサーバへのアクセスが最初 に可能になったタイミングを特定するタイミング特定部と、をさらに備え、信頼度制御 部は特定されたタイミングにて信頼度の増減の制御を開始してもよい。
[0020] 本発明のさらに別の態様は、情報検索提供システムに関する。この情報検索提供 システムは、ネットワーク上に接続される端末装置と、ネットワークを介してウェブべ一 ジを提供するサーバと、当該サーバ上のウェブページに掲載されるコンテンツを収集 し、収集されたコンテンッのうち検索条件文に合致したコンテンッを検索結果として端 末装置に提供する情報検索提供装置と、を含む情報検索提供システムであって、情 報検索提供装置は、ウェブページに掲載される評価対象のコンテンツをネットワーク を介して所定のタイミングで収集する収集部と、収集部による評価対象のコンテンツ の収集の可否に応じて、評価対象のコンテンツの信頼度を増減せしめる信頼度制御 部と、を備える。
[0021] 本発明のさらに別の態様は、情報検索提供システムに関する。この情報検索提供 システムは、評価対象のコンテンツをウェブページに掲載するコンテンツ提供装置と 、ネットワークを介して評価対象のコンテンツにアクセスする端末装置と、検索条件文 を取得し当該検索条件文に合致したコンテンツを検索結果として提供する情報検索 提供装置と、を備え、端末装置は、端末装置に付随するクライアント情報を発信する 情報発信部を有し、情報検索提供装置は、評価対象のコンテンツにネットワークを介 してアクセスした端末装置力 発信されたクライアント情報を直接的または間接的に 受信する情報受信部と、クライアント情報に基づいて、評価対象のコンテンツの信頼 度を増減せしめる信頼度増減部と、を有する。
[0022] 本発明のさらに別の態様は、情報検索提供装置に関する。この情報検索提供装置 は、検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提 供する情報検索提供装置であって、評価対象のコンテンツにアクセスした端末装置 力 発信されたクライアント情報を直接的または間接的に受信する情報受信部と、ク ライアント情報に基づいて、評価対象のコンテンツの信頼度を増減せしめる信頼度増 減部と、を有する。
[0023] 本発明のさらに別の態様は、情報検索提供システムに関する。この情報検索提供 システムは、評価対象のコンテンツをウェブページに掲載するコンテンツ提供装置と 、ネットワークを介して評価対象のコンテンツにアクセスする端末装置と、検索条件文 を取得し当該検索条件文に合致したコンテンツを検索結果として提供する情報検索 提供装置と、を備え、端末装置は、端末装置に付随するクライアント情報を発信する 情報発信部を有し、情報検索提供装置は、評価対象のコンテンツにネットワークを介 してアクセスした端末装置力 発信されたクライアント情報を直接的または間接的に 受信する情報受信部と、クライアント情報に基づいて、評価対象のコンテンツに対し て見積もられる資産価値を増減せしめる資産価値増減部と、を有する。
[0024] 本発明のさらに別の態様は、情報検索提供装置に関する。この情報検索提供装置 は、検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提 供する情報検索提供装置であって、評価対象のコンテンツにアクセスした端末装置 力 発信されたクライアント情報を直接的または間接的に受信する情報受信部と、ク ライアント情報に基づいて、評価対象のコンテンツに対して見積もられる資産価値を 増減せしめる資産価値増減部と、を有する。
[0025] 本発明のさらに別の態様は、情報検索提供装置に関する。この情報検索提供装置 は、検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提 供する情報検索提供装置であって、ウェブページに掲載される評価対象のコンテン ッおよび評価対象のコンテンツ以外の比較用コンテンツをネットワークを介して所定 のタイミングで収集する収集部と、評価対象のコンテンツおよび比較用コンテンツ〖こ っ ヽて、評価対象のコンテンツの提供者に関連する判定項目の掲載状況をそれぞ れ取得し、評価対象のコンテンツにおける判定項目の掲載状況と比較用コンテンツ における判定項目の掲載状況とを比較することにより、評価対象のコンテンツが適切 に更新されて ヽるか否かを判断する更新判断部と、更新判断部の結果に応じて評価 対象のコンテンツの信頼度を増減せしめる信頼度制御部と、を備える。 [0026] 本発明のさらに別の態様は、情報検索提供装置に関する。この情報検索提供装置 は、検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提 供する情報検索提供装置であって、ウェブページに掲載される評価対象のコンテン ッをネットワークを介して所定のタイミングで収集する収集部と、異なるタイミングで収 集された評価対象のコンテンツの同一性を判断する同一性判断部と、同一性の判断 結果に応じて、評価対象のコンテンツの信頼度を増減せしめる信頼度制御部と、備 える。
[0027] 本発明のさらに別の態様は、情報検索提供装置に関する。この情報検索提供装置 は、検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提 供する情報検索提供装置であって、ウェブページに掲載される評価対象のコンテン ッおよび評価対象のコンテンツ以外の比較用コンテンツをネットワークを介して所定 のタイミングで収集する収集部と、評価対象のコンテンツと、評価対象のコンテンツが 収集された時点で収集済みの比較用コンテンツとを比較して、評価対象のコンテンツ の独自性を判断する独自性判断部と、独自性の判断結果に応じて、評価対象のコン テンッの信頼度を増減せしめる信頼度制御部と、を備える。
発明の効果
[0028] 本発明によれば、ユーザ利便性の高 、情報検索サービスを提供できる。
図面の簡単な説明
[0029] [図 1]実施の形態 1に係る情報検索提供システムの構成を示す図である。
[図 2]実施の形態 1に係る端末装置の構成を示す図である。
[図 3]実施の形態 1に係る情報検索提供装置の構成を示す図である。
[図 4]検索情報保持部に格納される検索情報ファイルのデータ構造の一例を示す図 である。
[図 5]アクセス履歴保持部に格納されたアクセス履歴ファイルのデータ構造の一例を 示す図である。
[図 6]実施の形態 1に係るコンテンツ収集処理の流れを示す図である。
[図 7]継続的に収集可能である場合の評価対象のコンテンツの信頼度と時間との関 係を示す図である。 [図 8]評価対象のコンテンツが途中、収集不可能となった場合のコンテンツの信頼度 と時間との関係を示す図である。
圆 9]実施の形態 2に係る情報検索提供装置の構成を示す図である。
[図 10]評価対象のコンテンツの信頼度と時間との関係を示す図である。
圆 11]実施の形態 3に係る情報検索提供装置の構成を示す図である。
[図 12]図 12 (a)は、評価対象のコンテンツが連続して更新されるときの信頼度と時間 との関係を示し、図 12 (b)は、評価対象のコンテンツが途中更新されなくなったときの 信頼度と時間との関係を示す図である。
圆 13]実施の形態 4に係る情報検索提供装置の構成を示す図である。
圆 14]実施の形態 5に係る情報検索提供装置の構成を示す図である。
[図 15]評価対象のコンテンッに途中、リンク切れが生じた場合のコンテンツの信頼度 と時間との関係を示す図である。
圆 16]実施の形態 6に係る情報検索提供装置の構成を示す図である。
圆 17]実施の形態 7に係る情報検索提供装置の構成を示す図である。
[図 18]自己コンテンツと他者コンテンツとの信頼度の相関関係を模式的に示す図で ある。
[図 19]検索初期画面の一例を示す図である。
[図 20]検索結果画面の一例を示す図である。
圆 21]実施の形態 9に係る情報検索提供システムの構成を示す図である。
圆 22]実施の形態 9に係るネットワーク利用端末装置の構成を示す図である。
[図 23]実施の形態 9に係るウェブサーバの構成を示す図である。
圆 24]実施の形態 9に係る情報検索提供装置の構成を示す図である。
圆 25]実施の形態 9に係る受信情報保持部に格納された受信情報のデータ構造の 一例を示す図である。
圆 26]実施の形態 9に係る検索情報保持部に格納された検索情報ファイルのデータ 構造の一例を示す図である。
圆 27]実施の形態 9に係る受信した情報による信頼度増減処理の流れを示すフロー チャートである。 [図 28]実施の形態 10に係る情報検索提供装置の構成を示す図である。
[図 29]実施の形態 10に係る取得コンテンツ情報保持部に格納された検索情報フアイ ルのデータ構造の一例を示す図である。
[図 30]実施の形態 10に係る検索情報保持部に格納された受信情報のデータ構造の 一例を示す図である。
[図 31]実施の形態 10に係るイベント保持部に格納された検索情報ファイルのデータ 構造の一例を示す図である。
[図 32]実施の形態 10に係る依頼情報保持部に格納されたデータ構造の一例を示す 図である。
[図 33]実施の形態 11に係る情報検索提供装置の構成を示す図である。
[図 34]実施の形態 12に係る情報検索提供装置の構成を示す図である。
[図 35]比較用コンテンツ保持部に格納された比較用コンテンツ情報ファイルの一例を 示す図である。
[図 36]実施の形態 13に係る情報検索提供装置の構成を示す図である。
[図 37]検索情報保持部に格納された検索情報ファイルのデータ構造の一例を示す 図である。
[図 38]グループィ匕情報保持部に格納された IPアドレス情報テーブルの一例を示す 図である。
[図 39]所在情報信頼度保持部に格納された各種信頼度テーブルの一例を示す図で ある。
圆 40]所在情報信頼度保持部に格納された各種信頼度テーブルの一例を示す図で ある。
圆 41]所在情報信頼度保持部に格納された各種信頼度テーブルの一例を示す図で ある。
[図 42]ドメイン名種別テーブルの一例を示す図である。
符号の説明
10 情報検索提供システム、 12 ネットワーク、 50 端末装置、 54 取得部、 100 情報検索提供装置、 112 検索条件文取得部、 114 検索部、 122 ァク セス部、 124 アクセス可否判断部、 126 タイミング特定部、 128 収集部、 1 30 信頼度制御部、 132 履歴増加幅制御部、 134 関連性判断部、 136 比 較部、 138 更新判断部、 142 関連コンテンツ取得部、 144 要素抽出部、 1 46 分類部、 147 コンテンツ取得部、 148 自コンテンツ特定部、 150 整合 性判断部、 190 アクセス履歴保持部、 200 ウェブサーバ、 R1 自コンテンツ。 発明を実施するための最良の形態
[0031] (実施の形態 1)
図 1は、本実施の形態に係る情報検索提供システム 10の構成を示す。図 1に示す 情報検索提供システム 10は、情報検索提供装置 100と、ウェブサーバ 200と、ネット ワーク 12とを備える。ネットワーク 12には、情報検索提供装置 100と、ウェブサーバ 2 00と、端末装置 50とが接続されている。本実施の形態に係るネットワーク 12は WAN (Wide Area Network)であるが、別の例として、例えば LAN (Local Area Network)、 あるいは所定のデータを TCP/IP (Transmission Control Protocol/Internet Protocol )等の通信規格に準じて送受信する通信網であってよい。端末装置 50は、パーソナ ルコンピュータ、 PDA (Personal Digital Assistance)、あるいは携帯電話であり、一方 、情報検索提供装置 100やウェブサーバ 200はパーソナルコンピュータなどで実装 される。ウェブサーバ 200はウェブページに掲載したコンテンツをネットワーク 12を介 して公開する。コンテンツとはテキストデータ、映像データ、動画データ、音声データ など電子化可能なデータを指す。
[0032] ユーザは、端末装置 50に搭載される図示しない WWWブラウザを用いて情報検索 提供装置 100にアクセスし、検索条件文を指定して検索を行う。情報検索提供装置 1 00は、その検索条件文による検索実行指示を受けて、図 1では図示しないデータべ ースに保持されている膨大な量の情報の中から、検索条件文に合致したコンテンツと 当該コンテンツに付随する情報 (以下、「コンテンツ付随情報」という)とを抽出し、そ れらを一覧化したものを検索結果として端末装置 50に提供する。このとき、さらにコン テンッの信頼度が提示される。コンテンツ付随情報はウェブページの URL、コンテン ッのサイズ、コンテンツの更新日付、コンテンツの表題などを含む。なお、データべ一 スに保持されている膨大な量のコンテンツは、情報検索提供装置 100内の図 1では 図示しない収集制御部によりウェブページから定期的あるいは不定期に収集される。
[0033] 図 2は、本実施の形態に係る端末装置 50の構成を示す。端末装置 50は、検索条 件文受付部 62と、送信部 52と、取得部 54と、表示部 64とを備える。検索条件文受 付部 62は、キーボード、マウス、その他の外部機器を介してユーザ力も入力されたデ ータ、ここでは検索条件文を取得する。検索条件文は、例えば「牛肉」、「料理」、「レ シピ」のようなキーワード単位の形式でもよ 、し、「牛肉を使った料理のレシピが知りた V、」と 、うように自然文の形式でもよ!/、。
[0034] 送信部 52は検索条件文受付部 62により取得されたユーザからの検索条件文をネ ットワーク 12を介して情報検索提供装置 100に送信する。このとき、情報検索提供装 置 100による検索処理が行われる。取得部 54は、検索結果として、検索条件文に合 致したコンテンッゃコンテンッ付随情報、例えば当該コンテンッのサイズや URLの一 覧をネットワーク 12を介して取得する。このとき、さらに、コンテンツの信頼度が提示さ れる。表示部 64は取得部 54により取得された情報を整形し、図示しないディスプレイ を介してユーザに表示する。なお、図示しないスピーカを介して音声によりユーザに 通知してもよい。
[0035] 図 3は、本実施の形態に係る情報検索提供装置 100の構成を示す。情報検索提供 装置 100は、ユーザ力も指定された検索条件文に合致したコンテンツを検索し検索 結果として端末装置 50に提供する検索制御部 110と、ウェブサーバ 200上のウェブ ページに掲載されるコンテンツを定期的あるいは不定期に収集する収集制御部 120 と、収集されたコンテンツを保持する検索情報保持部 180と、収集制御部 120による ウェブサーバへのアクセス履歴を保持するアクセス履歴保持部 190とを備える。検索 制御部 110は、検索条件文取得部 112と、検索部 114と、検索結果提供部 116と、 信頼度提示部 118とを備える。収集制御部 120は、アクセス部 122と、アクセス可否 判断部 124と、タイミング特定部 126と、収集部 128と、信頼度制御部 130と、履歴増 加幅制御部 132とを備える。
[0036] 情報検索提供装置 100の各構成要素は、ハードウェアコンポーネントでいえば、任 意のコンピュータの CPU (Central Processing Unit )、メモリ、その他の素子、および ソフトウェアとしてメモリにロードされた情報検索、収集機能、記憶機能、およびその 他機能のあるプログラムなどによって実現される力 ここではそれらの連携によって実 現される機能ブロックを描いている。したがって、これらの機能ブロックがハードウェア のみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現で きることは、当業者には理解されるところである。
[0037] 検索条件文取得部 112は送信部 52により送信されたユーザからの検索条件文を 取得する。このとき、検索条件文が自然文の形式であれば、検索条件文取得部 112 はその検索条件文を一度、図示しないキーワード抽出部に送ってもよい。このとき、 キーワード抽出部は、形態素へ分解し、主に名詞、先の検索条件文の例で言えば、 「牛肉」、「料理」、「レシピ」などをキーワードとして抽出し、検索条件文取得部 112は 、それらキーワードを組み合わせたものを新たな検索条件文として取得する。
[0038] 検索部 114は、検索情報保持部 180に格納されている検索情報ファイルから、検 索条件文取得部 112で取得された検索条件文に合致したコンテンッ、当該コンテン ッの信頼度やコンテンツ付随情報を検索する。このとき、検索部 114は、検索情報保 持部 180に格納されて 、るコンテンッに対する索弓 I語を含むファイル、いわゆるイン デックスファイルを利用して検索を行ってもよい。これにより検索処理の高速化を実現 できる。検索結果提供部 116は、検索により得られた情報を一覧化したものを検索結 果として端末装置 50に提供する。このとき、信頼度提示部 118は検索されたコンテン ッの後述する信頼度を端末装置 50に提示する。これにより、ユーザはコンテンツがど の程度の信頼度を有するかを知ることができる。
[0039] アクセス部 122は、後述するアクセス履歴保持部 190内のアクセス履歴ファイルに 含まれるウェブサーバ 200の所在を示す所在情報、例えば IPアドレスを参照して、ゥ エブサーバ 200にアクセスする。別の例として、アクセス部 122はウェブページの UR Lやドメイン名を参照して、当該ウェブページにアクセスしてもよい。本実施の形態に 係るアクセス部 122は、アクセス履歴ファイルに含まれる、未使用の IPアドレスを含む すべての IPアドレスに対し、一日に一回、例えば午前 0時に順番にアクセスするもの とする。なお、アクセス部 122によるアクセスの頻度は「一日に一回」に限定されるもの ではなぐ「一日に二回」でも「二日に一回」でもよい。アクセス部 122は定期的ではな く不定期にアクセスしてもよい。 [0040] アクセス可否判断部 124は、アクセス部 122によるウェブページへのアクセスの可 否を判断する。このとき、アクセス可否判断部 124は、アクセスが不可能であつたと判 断したとき、当該 IPアドレスでかつ後述のアクセス履歴欄内の現在の日付の欄にフラ グ「X」を設定する。一方、アクセス可否判断部 124は、アクセス部 122によるアクセス が可能であつたと判断したとき、当該 IPアドレスでかつ後述のアクセス履歴欄内の現 在の日付の欄にフラグ「〇」を設定する。
[0041] タイミング特定部 126はアクセス履歴ファイルを参照しアクセス部 122によるウェブ ページへのアクセスが最初に可能になったタイミングを特定する。具体的には、タイミ ング特定部 126は、過去のアクセス履歴が今まで「X」であった力 最初に「〇」にな つた日をウェブページの提供開始日とする。タイミング特定部 126は現在の日付がゥ エブページの提供開始日に相当すると判断したとき、後述のウェブページ提供開始 日欄に現在の日付を設定する。すでにウェブページがネットワーク 12上に存在し、以 後にアクセス部 122によるアクセスがあつたとき、タイミング特定部 126はアクセスがあ つたときの日付をウェブページの提供開始日に相当すると判断してもよい。
[0042] ところで、近年、インターネットに接続されるサーバの増加に伴い、 IPアドレスの枯 渴化が問題になっている。本実施の形態によれば、長期間「X」である IPアドレスを 未使用とすることで、未使用の IPアドレスを特定できる。その結果、 IPアドレスを管理 する第三者機関などが、その未使用の IPアドレスを他の IPアドレスの取得を望む情 報提供者に提供することで、効果的に IPアドレスを活用できる。
[0043] アクセス履歴保持部 190は、アクセス可否判断部 124による判断の結果とアクセス 部 122によりウェブページにアクセスしたタイミングとの対応関係を含むアクセス履歴 ファイルを保持する。アクセス履歴ファイルには、ネットワーク 12上に存在する可能な 限りすベての IPアドレスが保持されているものとする。もちろん、すべてではなく一部 の IPアドレスが保持されて 、てもよ 、。検索情報保持部 180は後述する収集部 128 により収集されたコンテンツ、コンテンツ付随情報、信頼度などを含む検索情報フアイ ルを保持する。
[0044] 収集部 128は、アクセス可否判断部 124によりウェブページへのアクセスが可能で あつたと判断されたとき、そのウェブページに掲載される評価対象のコンテンツを所 定のタイミングで、ここでは一日に一回収集する。なお、アクセス部 122により IPァドレ スゃドメイン名を利用したアクセスがあつたときは、収集部 128は、ウェブサーバ上の すべてのウェブページが掲載するコンテンツを収集してもよ 、。コンテンツ収集の際、 収集部 128は収集されたコンテンッのコンテンッ付随情報を生成し、検索情報保持 部 180に格納する。収集部 128は、コンテンツ内の HTML (Hyper Text Markup Lan guage)文の先頭箇所、例えばく HEAD >〜く ZHEAD >間にメタタグが記載され ていれば、このメタタグで囲まれる領域内に記述された指示内容に従ってもよい。す なわち、情報検索提供装置 100への登録の不要が明示されていれば収集部 128は 当該ページの情報を収集しなくてもよい。
[0045] 信頼度制御部 130は収集部 128による評価対象のコンテンッの収集の可否に応じ て、評価対象のコンテンツの信頼度を所定のタイミングで、ここでは一日に一回増減 せしめる。具体的には、信頼度制御部 130は、評価対象のコンテンツをウェブページ 力も収集できたとき、当該評価対象のコンテンツに設定された信頼度を所定の増加 幅分だけ増力 tlさせる。一方、収集部 128により評価対象のコンテンツをウェブページ カゝら収集できなカゝつたとき、当該評価対象のコンテンツに設定された信頼度を減少さ せる。なお、信頼度制御部 130はウェブページの提供開始日から、そのウェブページ に掲載されるコンテンツの信頼度の増減の制御を開始する。
[0046] さらに、信頼度制御部 130は、収集部 128により評価対象のコンテンツが所定のタ イミングで連続して収集される期間内において、評価対象のコンテンツの信頼度を徐 々に増加させる。なお、本実施の形態では、コンテンツの信頼度を増減させているが 、これは実質的にコンテンツを掲載するウェブページの信頼度、当該ウェブページを 公開するウェブサーバや当該ウェブサーバを運営する情報提供者の信頼度を増減さ せることと同意である。さらに、当該ウェブサーバを運営する情報提供者が提供する コンピュータシステムに含まれる、他の各種サービス提供サーバ、例えば、メールサ ーバゃ FTP (File Transfer Protocol )サーバや-ユースサーバなどの信頼度を増減 させることと実質的に同意である。
[0047] 本実施の形態に係る情報検索提供装置 100によれば、コンテンツに信頼度を設定 することで、そのコンテンツがどの程度の信頼度を有するのかをユーザに提示できる 。その結果、ユーザは、情報検索提供装置 100が提供する情報検索サービスを通じ て、コンテンツの信頼度を手軽に知ることができる。例えば、ある会社が他の企業と取 引するとき、相手の素性を知りたいときがある。このとき、その企業が提供するウェブ ページの信頼度を情報検索提供装置 100による検索結果を通じて知ることができる
。海外企業と取引するとき、国内企業と比較して相手の素性が分力もない場合が多 いため、特に有意義である。さらに、企業の信用を調査する調査機関への取引先の 信用調査依頼を省くことができるため、手間やコストを削減できる。
[0048] 本実施の形態に係る情報検索提供装置 100によれば、ウェブページに連続してコ ンテンッを掲載しているほど信頼度を上昇させていく。そのため、ウェブサーバ 200 が昔力も安定してウェブページを提供していればいるほど、信頼度が高く設定されよ うになる。ウェブページが、例えばインターネットショッピングサービスを提供するショッ ビングモールのページであり、そのウェブページに掲載されるコンテンツの信頼度が 高ければ、ユーザはウェブページを提供する提供者が以前力 安定して商売を続け ていることを知ることができる。逆にその信頼度が低ければ、ウェブページの提供者 は商売を開始して間もないか、ウェブページを転々とするいわゆる悪徳業者である可 能性が高い。
[0049] 本実施の形態に係る情報検索提供装置 100によれば、信頼のおけるコンテンツと 信頼のおけな 、コンテンツとを信頼度をもとに選別してユーザに提示することで、ュ 一ザは検索結果の中から信頼度の高いコンテンツのみを選択できる。これにより、ュ 一ザは信頼度の高いコンテンツを選択することで、優良業者力 提供されるサービス を利用できる。その結果、情報検索提供装置 100はユーザ利便性の高い検索サー ビスを実現できる。
[0050] 履歴増加幅制御部 132は、収集部 128による評価対象のコンテンツの収集の可否 の履歴に応じて当該評価対象のコンテンツの信頼度の増加幅を制御する。例えば、 「2004年 1月 1日」以降、収集部 128により評価対象のコンテンツが収集され、その 後、「2004年 2月 1日」以降、収集部 128により評価対象のコンテンツが収集されず、 さらにその後、「2004年 3月 1日」以降、収集部 128により評価対象のコンテンツが収 集されたとき、履歴増加幅制御部 132は、「2004年 3月 1日」における評価対象のコ ンテンッの信頼度の増加幅を、「2004年 1月 1日」における評価対象のコンテンツの 信頼度の増加幅よりも低く制御する。なお、履歴増加幅制御部 132は、一定期間が 経過すれば、低く制御したコンテンツの信頼度の増加幅を、低く制御しないときに想 定されるもとの増加幅に戻してもよい。具体的には、「2004年 3月 1日」での増加幅の 減少分を、 1年後の「2005年 3月 1日」に、現在の信頼度の増加幅にカ卩えてもよい。
[0051] これにより、昔から «続してコンテンツが収集可能であったときのウェブページの信 頼度の増加幅は、途中、コンテンツが収集不可能となったときのウェブページ信頼度 の増加幅よりも大きくなり、両者の増加幅を差別ィ匕することができる。その結果、コン テンッを継続して提供することの重要性をさらに高めることができる。
[0052] 図 4は、検索情報保持部 180に格納される検索情報ファイルのデータ構造の一例 を示す。図 4における検索情報ファイルは、 IPアドレス欄 302と、 URL欄 304と、コン テンッ欄 306と、ウェブページ提供開始日欄 308と、信頼度欄 310と、増加幅欄 312 とを含む。収集部 128により収集されたコンテンツはコンテンツ欄 306に、コンテンツ 付随情報の一部の情報である URLは URL欄 304に格納される。
[0053] IPアドレス欄 302は、ネットワーク 12に接続されるウェブサーバ 200の IPアドレスを 含む。本図の IPアドレス欄 302に格納されて!、る IPアドレスは IPv4形式であるが別 の例として IPv6形式であってもよい。 URL欄 304はネットワーク 12上におけるウェブ ページの所在を示す情報、いわゆる URLを備える。コンテンツ欄 306には、収集部 1 28により収集されたコンテンツ、本図では、 HTML (Hyper Text Markup Language) 言語で記述されたテキストデータを含む。ウェブページ提供開始日欄 308はウェブサ ーバ 200がウェブページの提供を開始した日を含む。信頼度欄 310は、ウェブべ一 ジに掲載されるコンテンツの信頼度を含む。増加幅欄 312は信頼度の増加幅を含む
[0054] 例えば、データ 314について言えば、ウェブサーバ 200の IPアドレスが「200. 100 . 100. 001」、ゥェブサーバ200上のゥェブぺージの11!¾^が「111 : 77〜17」、ゥ エブページの提供開始日は「2004年 1月 1日」、現在のコンテンツの信頼度は「600」 で、信頼度の増加幅は「5」であることを示す。すなわち、 URLが「http : ZZ〜lZ」 であるウェブページに掲載されるコンテンツの信頼度は、コンテンツがそのウェブべ ージ内に掲載される期間内において、所定のタイミングで、ここでは一日に一回「5」 ずつ増加されることを示す。
[0055] 図 5は、アクセス履歴保持部 190に格納されたアクセス履歴ファイルのデータ構造 の一例を示す。図 4と同等の構成には同じ符号を与え適宜説明を略す。図 5におけ るデータ表は、 IPアドレス欄 302とアクセス履歴欄 322を含む。アクセス履歴欄 322 は、アクセス部 122によりウェブサーバ 200にアクセスできたか否かを示す情報をァク セス履歴として保持する。具体的には、特定の日にフラグ「〇」が格納されていれば、 当該日はウェブページへのアクセスが可能であったことを示し、一方、フラグ「 X」が 格納されて ヽれば、ウェブページへのアクセスが不可能であったことを示す。
[0056] 本図では便宜のため、「1月 2日」から「5月 1日」までの期間、「5月 5日」から「5月 30 日」までの期間、および「6月 3日」から「8月 31日」までの期間についてのアクセス履 歴の表示を省略している力 それぞれの期間内におけるアクセス履歴は、それぞれ の期間の開始日の前日におけるフラグの値をそのまま保持するものとする。なお、本 図では「2004年 1月 1日」から現在の日付である「2004年 9月 1日」までのアクセス履 歴を示して!/、るが、もちろん、アクセス履歴欄 322は「2003年 12月 31日」以前のァク セス履歴を備えてもよい。
[0057] 例えば、第 1データ 324について言えば、ウェブサーバ 200の IPアドレスが「200.
100. 100. 001」であり、「1月 1日」から現在の日付である「9月 1日」まで、アクセス 部 122によるウェブページへのアクセスが可能であったことを示している。すなわち、 ウェブサーバ 200はその期間中、継続的にウェブページを提供して 、ることを示す。 一方、第 2データ 326について言えば、「5月 31日」までウェブページへのアクセスが 不可能で、「6月 1日」以降、ウェブページへのアクセスが可能であったことを示してい る。すなわち、 IPアドレスが「200. 100. 100. 002」であるウェブサーバ 200上のゥ エブページが「6月 1日」に提供開始されたことを示す。さらに、第 3データ 328によれ ば、、 IPアドレス力 S「200. 100. 100. 003」であるウェブサーノ 200ίま「5月 3曰」にゥ エブページの提供を開始したが、「5月 4日」以降は、ウェブページを提供していない 。なお、信頼度の増減制御の開始日は、例えば第 2データ 326について言えば、「6 月 1日」である。 [0058] 図 6は、本実施の形態に係るコンテンツ収集処理の流れを示す。情報検索提供装 置 100は、アクセス履歴ファイルに記録されているすべての IPアドレスについて、一 日に一回、以下のコンテンツ収集処理を行う。アクセス部 122は、アクセス履歴保持 部 190に格納されているアクセス履歴ファイルの中力もコンテンツ収集対象のウェブ サーバ 200の IPアドレスを取得し(S 10)、ウェブサーバ 200にアクセスする。アクセス 可否判断部 124は、アクセス部 122によるウェブサーバ 200へのアクセスの可否を判 断し、アクセスが不可能であつたと判断したとき(S12の N)、当該 IPアドレスでかつァ クセス履歴欄 322内の現在の日付の欄にフラグ「 X」を設定する(S14)。
[0059] アクセス可否判断部 124は、アクセス部 122によるアクセスが可能であつたと判断し たとき(S12の Y)、当該 IPアドレスでかつアクセス履歴欄 322内の現在の日付の欄に フラグ「〇」を設定する(S18)。タイミング特定部 126はアクセス履歴ファイルを参照し 、現在の日付がウェブページの提供開始日に相当すると判断したとき(S20の Y)、ゥ エブページ提供開始日欄 308に現在の日付を設定する。タイミング特定部 126は現 在の日付がウェブページの提供開始日に相当しないと判断したとき(S20の N)、ゥェ ブページ提供開始日欄 308に現在の日付を設定する動作をスキップする。
[0060] 収集部 128により当該 IPアドレスのウェブサーバ上のウェブページに掲載されるコ ンテンッの収集が可能であったとき(S24の Y)、収集部 128は検索情報ファイル内の コンテンツ欄 306にコンテンツを格納する(S26)。このとき、コンテンツ付随情報も格 納する。履歴増加幅制御部 132はアクセス履歴ファイルを参照し、現在の日付の前 日にアクセス部 122によるアクセスが不可能であつたと判断したとき(S28の Y)、増加 幅を「1」減少させ (S30)、信頼度制御部 130は現在のコンテンツの信頼度を増加幅 分だけ増カロさせる(S32)。履歴増加幅制御部 132は、アクセス履歴ファイルを参照し 、現在の日付の前日にアクセス部 122によるアクセスが不可能でな力つたと判断した とき(S28の N)、信頼度制御部 130は現在のコンテンツの信頼度を増加幅分だけ増 加させる(S32)。
[0061] 収集部 128により当該 IPアドレスのウェブページに掲載されるコンテンツの収集が 不可能であったとき(S24の N)、信頼度制御部 130は現在のコンテンツの信頼度を 減少させる(S34)。収集制御部 120は、アクセス履歴ファイル中のすべての IPァドレ スに対しコンテンツ収集処理が終了した力否かを判断し、コンテンツ収集処理が終了 していない IPアドレスがあれば(S 16の N)、その IPアドレスについて、コンテンツ収集 処理を実施する。終了していれば、情報検索提供装置 100はその日のコンテンツ収 集処理を終了する(S16の Y)。
[0062] 図 7は、評価対象のコンテンツが継続的に収集可能である場合の評価対象のコン テンッの信頼度と時間との関係を示す。縦軸はコンテンツの信頼度、横軸は時間を 示す。図中の日付 DOはウェブページの提供開始日であり、当該日以降の日を一日 経過するごとの日付を日付 D1〜D4と示す。本実施の形態では、一日経過するごと にコンテンツの信頼度が上下するため、実際の信頼度は離散値として表現されるが、 当然ながら時間の経過とともに連続的に信頼度が変動するとしてもよぐ本図ではそ の様子を示す。図示のごとぐ収集部 128により継続して評価対象のコンテンツが収 集できる期間内、すなわち日付 D1以降の期間内において、評価対象のコンテンツ の信頼度が徐々に増加している。
[0063] 図 8は、評価対象のコンテンツが途中、収集不可能となった場合のコンテンツの信 頼度と時間との関係を示す。縦軸はコンテンツの信頼度、横軸は時間を示す。図 7と 同等のものには同じ符号を与え適宜説明を略す。本図では、日付 DOにウェブべ一 ジの提供が開始され、当該日以降そのウェブページに掲載されるコンテンツの収集 が可能であり、日付 D2以降コンテンツの収集が不可能になるが、日付 D3以降再度 コンテンッの収集が可能になるときの信頼度の変化の様子を示す。コンテンッの収集 可能な期間である、 日付 DOから日付 D2までの期間および日付 D3以降の期間内に おいて、信頼度制御部 130によりコンテンツの信頼度は徐々に増加されているが、履 歴増加幅制御部 132により後者の期間内における信頼度の増加幅は前者の期間内 における信頼度の増加幅よりも小さく制御されている。
[0064] (実施の形態 2)
実施の形態 1では評価対象のコンテンツの収集が可能であった力否かに応じて当 該コンテンツの信頼度を増減させた力 実施の形態 2では収集の可否の結果に加え 、評価対象のコンテンツと信頼度の高いコンテンツとの関連性の有無の結果を評価 対象のコンテンツの信頼度の増減に反映させる。図 9は、実施の形態 2に係る情報検 索提供装置 100の構成を示す。図 3と同等の構成には同じ符号を与え適宜説明を略 す。実施の形態 2に係る情報検索提供装置 100には、図 3に示した実施の形態 1に 係る情報検索提供装置 100と異なる構成要素である関連性判断部 134がさらに設け られる。
[0065] 関連性判断部 134は、信頼度の高いコンテンツ内に、当該コンテンツと評価対象の コンテンツとの間に関連性があることを示す関連情報が含まれるか否かに基づいて、 評価対象のコンテンツと信頼度の高いコンテンツとの関連性の有無を判断する。この とき、例えば、関連性判断部 134は、信頼度の高いコンテンツ内に、当該関連情報、 例えば信頼度の高いコンテンツ力も評価対象のコンテンツへのリンクが含まれている 力どうか判断する。具体的には、関連性判断部 134は、信頼度の高いコンテンツに 含まれるタグく A HREF = "〜">内の「〜」に、評価対象のコンテンツの URLが含 まれているかどうか判断する。他の例で言えば、関連性判断部 134は、信頼度の高 いコンテンツ内の出店情報欄、紹介情報欄、提携情報欄や推薦情報欄内などに、評 価対象のコンテンツからのリンク、評価対象のコンテンツを掲載するウェブページの U RLやそのウェブページの情報提供者の名称があるカゝ否かを判断する。このとき、そ れらの情報は関連性判断部 134により検索情報ファイルから取得される。
[0066] 信頼度制御部 130は、関連性判断部 134により関連性があると判断されたときにお ける評価対象のコンテンツの信頼度の増加幅を、関連性がないと判断されたときにお ける評価対象のコンテンツの信頼度の増加幅よりも高く制御する。これにより、例えば 、信頼度の高いウェブページ内に評価対象のコンテンツへのリンクがある場合とない 場合とで、評価対象のコンテンツの信頼度を差別化できる。
[0067] 信頼度制御部 130は、複数の信頼度の高いコンテンツにわたって、評価対象のコ ンテンッの URLと合致する URLがあれば合致する信頼度の高いコンテンツの数だ け信頼度の増加幅を増加させてもよい。例えば、三つの信頼度の高いコンテンツ内 に、評価対象のコンテンツの URLと合致する URLがあれば、評価対象のコンテンツ の現在の増加幅にさらに「3」を加算する。これにより、より多くの信頼度の高いコンテ ンッ内に、信頼度の高いコンテンツ力 評価対象のコンテンツへのリンクが張られれ ば張られるほど、信頼度の増加幅を大きくすることができる。 [0068] また、信頼度制御部 130は、複数の信頼度の高いコンテンツにわたって、当該コン テンッ内の出店情報欄、紹介情報欄、提携情報欄や推薦情報欄内に、評価対象の コンテンツからのリンク、評価対象のコンテンツを掲載するウェブページの URLやそ のウェブページの情報提供者の名称が含まれて 1、れば、含まれる信頼度の高!、コン テンッの数だけ評価対象のコンテンツの信頼度の増加幅を増加させてもよ 、。例え ば、含まれる信頼度の高いコンテンツの数が二つであれば、評価対象のコンテンツ の現在の増加幅にさらに「2」を加算する。
[0069] 信頼度の高!、コンテンツの情報提供者は、評価対象のコンテンツの情報提供者か ら見て第三者であるため、通常、評価対象のコンテンツの情報提供者はその信頼度 の高いコンテンツの内容を勝手に変更することはできない。よって、信頼度の高いコ ンテンッ内に、信頼度の高いコンテンツ力も評価対象のコンテンツへのリンクや評価 対象のコンテンツを紹介する等の情報が掲載されて ヽれば、その事実は尊重される べきである。上述のごとぐ本実施の形態に係る信頼度制御部 130は、上述のリンク や情報が掲載されて ヽる場合における信頼度の増加幅を、それらが掲載されて 、な い場合における信頼度の増加幅よりも高く制御することで、両者の差別化を図ってい る。
[0070] 図 10は、評価対象のコンテンツの信頼度と時間との関係を示す。縦軸はコンテンツ の信頼度、横軸は時間を示す。図 7と同等のものには同じ符号を与え適宜説明を略 す。図中実線 L1は、信頼度の高いコンテンツ内に評価対象のコンテンツへのリンク が張られて 、な 、場合の評価対象のコンテンツの信頼度の変化の様子を示し、一方 、実線 L2は、 日付 DOに関連性判断部 134により関連性があると判断され、当該日以 降信頼度の高いコンテンツ内に評価対象のコンテンツへのリンクが張られている場合 の評価対象のコンテンツの信頼度の変化の様子を示す。実線 L2の場合における信 頼度の増加幅は、実線 L2の場合における信頼度の増加幅よりも大きいため、実線し 2は実線 L1の信頼度を上回る。
[0071] (実施の形態 3)
実施の形態 1では評価対象のコンテンッの収集可否に応じて当該コンテンッの信 頼度を増減させた力 実施の形態 3では当該コンテンツが更新されている力否かに 応じて当該コンテンツの信頼度を増減させる。図 11は、実施の形態 3に係る情報検 索提供装置 100の構成を示す。図 3と同等の構成には同じ符号を与え適宜説明を略 す。実施の形態 3に係る情報検索提供装置 100には、図 3に示した実施の形態 1に 係る情報検索提供装置 100の履歴増加幅制御部 132のかわりに、新たな構成要素 である比較部 136および更新判断部 138がさらに設けられる。
[0072] 比較部 136は、収集部 128により収集された評価対象のコンテンツの内容と、当該 コンテンツを掲載するウェブページと同一のウェブページ力 収集される次の評価対 象のコンテンツの内容とを比較する。比較の際、比較部 136は、例えば、両者のコン テンッに含まれる HTML言語構造、テキスト文字、画像やプログラムを参照する。比 較部 136は内部に、 HTML言語構造、テキスト文字、画像やプログラムの変位量を 解析する図示しない変位量解析部を備えてもよい。比較部 136は、ウェブページ固 有の情報である、例えば、企業名、住所や電話番号について比較してもよい。前回 収集されたコンテンツに記載されて ヽた企業名、住所や電話番号が次に収集された コンテンツにおいて理由無く変更されていたとき、信頼度制御部 130によりコンテンツ の信頼度は減少される。
[0073] 更新判断部 138は、比較部 136による比較の結果に基づいて評価対象のコンテン ッが更新されたカゝ否かを判断する。このとき、更新判断部 138は、前回収集したコン テンッの内容と次に収集されたコンテンツの内容とに含まれる、例えば文字が所定数 以上、相違があつたときに、評価対象のコンテンツが更新されたと判断する。なお、 1 文字でも相違した場合に当該コンテンツが更新されたと判断してもよい。
[0074] 別の例として HTML言語構造を挙げれば、前回収集した評価対象のコンテンツ内 の特定の場所に位置して 、たタグが別のタグに置き換わって 、たり、新たなタグが追 加挿入されたりしたとき、更新判断部 138は、評価対象のコンテンツに更新があった ものと判断してもよい。さらに別の例として画像を挙げれば、コンテンツ内の人物の写 真が 10年前と変わっていない場合、更新されていないものと判断してもよい。さらに 別の例として、コンテンツ内の日記に記載する文章が途切れた場合や、掲示板の不 適切な使用に対し何らかの対策を行って 、な 、場合、更新判断部 138は評価対象 のコンテンツが更新されて 、な 、ものと判断してもよ 、。 [0075] 信頼度制御部 130は、更新判断部 138による判断の結果に応じて評価対象のコン テンッの信頼度を所定のタイミングで、ここでは一日に一回、増減させる。すなわち、 更新判断部 138により評価対象のコンテンツの更新があつたと判断されたとき、評価 対象のコンテンツが更新されていると、一日に一回、連続して判断される期間内にお いて、当該コンテンツの信頼度を徐々に増力!]させる。一方、更新判断部 138により評 価対象のコンテンツの更新がな 、と判断されたとき、評価対象のコンテンツが更新さ れていないと、一日に一回、連続して判断される期間内において、当該コンテンツの 信頼度を徐々に減少させる。
[0076] 本実施の形態に係る情報検索提供装置 100によれば、ウェブページに掲載される コンテンツが定期的に更新されるほど信頼度が上がる可能性が高い。そのコンテンツ の信頼度をユーザに提示することで、ユーザはそのコンテンツがどの程度の信頼度 を有するかを簡単に知ることができる。例えば、ユーザは、信頼度の高い、インターネ ットによるショッピングサービスのウェブページを利用することで、安心してショッピング できる。一方、ウェブページ提供者側は自身のコンテンツの信頼度を高めようと、定 期的な更新を積極的に行うことがありうる。これにより、ネットワーク上に存在するゥ ブページが全体的により更新される可能性が高くなり、ひいてはインターネット全体の 活性ィ匕にもつながる。
[0077] 図 12 (a)は、評価対象のコンテンツが連続して更新されるときの信頼度と時間との 関係を示し、図 12 (b)は、評価対象のコンテンツが途中更新されなくなったときの信 頼度と時間との関係を示す。縦軸はコンテンツの信頼度、横軸は時間を示す。図 7と 同等のものには同じ符号を与え適宜説明を略す。図 12 (a)では、日付 DO以降コンテ ンッが毎日更新されるため、図中の信頼度は徐々に増加している。一方、図 12 (b) では、日付 D0〜日付 D2の期間内ではコンテンツが毎日更新されるが、 日付 D2以 降コンテンツが更新されなくなり、当該日以降、信頼度は徐々に減少している。
[0078] (実施の形態 4)
実施の形態 3では評価対象のコンテンツが更新されているか否かに応じて当該コン テンッの信頼度を増減させたが、実施の形態 4では当該コンテンッの更新有無の結 果に加え、当該コンテンツが本来更新を必要とするべきものであるか否かの分析結 果を評価対象のコンテンツの信頼度の増減に反映させる。図 13は、本実施の形態 4 に係る情報検索提供装置 100の構成を示す。図 11と同等の構成には同じ符号を与 え適宜説明を略す。実施の形態 4に係る情報検索提供装置 100には、図 11に示し た実施の形態 3に係る情報検索提供装置 100に新たな構成要素である更新分析部 140がさらに設けられる。
[0079] 更新分析部 140は、収集部 128により収集された評価対象のコンテンツの内容を 参照し、当該コンテンツが本来更新を必要とするべきものである力否力を分析する。 具体的には、更新分析部 140は評価対象のコンテンツを「本来更新の必要のあるグ ループ」と「本来更新の必要のな 、グループ」の!、ずれかのグループに分類する。「 本来更新の必要のあるグループ」とは、情報を高い頻度で更新することで有意となる コンテンツ、例えば、ニュース速報、天気、日記を提供するコンテンツを含むグループ をいう。一方、「本来更新の必要のないグループ」とは、情報を更新しないことで有意 となるコンテンツ、例えば、政治家の主張、会社の基本的運営方針を提供するコンテ ンッを含むグループを 、う。
[0080] 具体的には、更新分析部 140はコンテンツの中に「ニュース」や「天気」など頻度の 高い更新で有意になるキーワードが含まれていれば、そのコンテンツを「本来更新の 必要のあるグループ」に分類する。一方、コンテンツの中に「主張」や「基本方針」など 更新なしで有意となるキーワードが含まれていれば、そのコンテンツを「本来更新の 必要のないグループ」に分類する。コンテンツをそれらグループに分類するためのキ 一ワードは、あら力じめ情報検索提供装置 100内に登録されて 、てもよ 、。
[0081] 更新分析部 140は、「本来更新の必要のあるグループ」を、「定期的な更新が必要 であるグループ」と、「定期的な更新が必要でな 、グループ」とにさらに分類してもよ い。更新分析部 140は、「定期的な更新が必要であるグループ」に分類されるコンテ ンッが定期的に更新されているかを分析する。「定期的な更新が必要であるグルー プ」には、現存する人物の年齢に関する情報、容姿の画像などを掲載するコンテンツ が含まれる。現存する人物の年齢、容姿などは変化し続けるので、最新の情報を提 供するという観点から、現存する人物の年齢に関する情報、容姿の画像などは、定期 的に更新されている必要がある。現存する人物の容姿の画像を掲載するコンテンツ の例としては、結婚相談所などが主催しているお見合い写真の顔の画像、会社案内 に掲載される代表者の顔の画像、何らかの会に属している会員の顔の画像などが挙 げられる。現存する人物の容姿の画像が定期的に更新されていることは、後で実際 にその人物と会う場合に特に有用である。
[0082] 信頼度制御部 130は、更新判断部 138による判断の結果および更新分析部 140 による分析の結果に応じて、評価対象のコンテンツの信頼度を増減させる。すなわち 、「本来更新の必要のあるグループ」に分類された評価対象のコンテンツについては 、信頼度制御部 130は、更新判断部 138によりコンテンツが更新されていると判断さ れたときに信頼度を増加させ、コンテンツが更新されていないと判断されたときに信 頼度を減少させる。一方、「本来更新の必要のないグループ」に分類された評価対象 のコンテンツについては、信頼度制御部 130は、更新判断部 138によりコンテンツが 更新されて ヽな ヽと判断されたときに信頼度を増加させ、コンテンツが更新されて 、 ると判断されたときに信頼度を減少させる。
[0083] 本実施の形態によれば、コンテンツの更新有無に加え、コンテンツが本来更新を必 要とするべきものである力否かを信頼度の増減の判断材料にすることで、コンテンツ が更新されなくてもそのコンテンツが本来更新すべきものではないものであれば信頼 度を増加させることができ、当該コンテンツを救済できる。
[0084] (実施の形態 5)
実施の形態 3では評価対象のコンテンツが更新されているか否かに応じて当該コン テンッの信頼度を増減させた力 実施の形態 5では当該コンテンツが更新されて 、る 力どうかを調べるとき、当該コンテンツ内にリンク切れが生じているか否かを調べる。 図 14は、実施の形態 5に係る情報検索提供装置 100の構成を示す。図 11と同等の 構成には同じ符号を与え適宜説明を略す。実施の形態 5に係る情報検索提供装置 には図 11に示した実施の形態 3に係る情報検索提供装置 100に新たな構成要素で あるリンク切れ判断部 141がさらに設けられる。
[0085] リンク切れ判断部 141は収集部 128により収集された評価対象のコンテンツ内に記 述されたリンク先のウェブページにアクセスし、当該ウェブページに何らかのコンテン ッが掲載されているカゝ否かを判断する。具体的には、リンク切れ判断部 141は、評価 対象のコンテンツに含まれるタグく A HREF = "〜">内の「〜」を参照して他のゥェ ブサーバのウェブページにアクセスする。上記のタグが複数あれば複数のウェブべ ージにアクセスする。このとき、例えば「移動しました」や「FILE NOT FOUNDJな どの文字を発見したとき、リンク切れが生じていると判断する。一方、ウェブページに 何らかのコンテンツ、例えば上記の文字以外を含むコンテンツが掲載されていれば、 リンク切れが生じて 、な 、と判断する。
[0086] もちろん、リンク切れ判断部 141は、同一ウェブサーバ上の同一ウェブページへのリ ンク先や同一ウェブサーバ上の異なるウェブページへのリンク先にアクセスしてもよい 。このとき、リンク切れ判断部 141は、例えば、リンク先に画像や映像データが存在し ないとき、リンク切れが生じていると判断する。
[0087] 信頼度制御部 130はリンク切れ判断部 141による判断の結果に応じて、評価対象 のコンテンツの信頼度の増減を制御する。具体的には、信頼度制御部 130はリンク 切れが生じていると判断されれば、リンク切れが生じている期間内において、評価対 象のコンテンツの信頼度を一定に保つ。なお、この場合、信頼度を減少させてもよい 。一方、評価対象のコンテンツが更新されリンク切れが解消すればコンテンツの信頼 度を増加させる。
[0088] 本実施の形態によれば、ウェブページ内にリンク切れがあるときの信頼度をウェブ ページ内にリンク切れがないときの信頼度よりも低くすることで、両者を差別ィ匕できる 。ウェブページとウェブページとをつなぐリンクは、インターネットが発展した理由の重 要な要素の一つであるため、リンク切れが有るか否かをコンテンツの信頼度を評価す る際の指標にするのは有意義である。リンク切れに基づいた信頼度をユーザに提示 することで、ユーザはリンク切れのない信頼度の高いコンテンツのみを利用できる。一 方、ウェブページ提供者側はコンテンツの信頼度を高めようと、リンク切れの修正を積 極的に行うことがありうる。これにより、ネットワーク上に存在するデッドリンクが全体的 に見てより修正される可能性が高くなり、ひいてはウェブページ全体の品質の向上に もつながる。
[0089] 図 15は、評価対象のコンテンツに、途中リンク切れが生じた場合のコンテンツの信 頼度と時間との関係を示す。縦軸はコンテンツの信頼度、横軸は時間を示す。図 7と 同等のものには同じ符号を与え適宜説明を略す。本図では、日付 DOにウェブべ一 ジの提供が開始され、当該日以降そのウェブページに掲載されるコンテンツがー日 に一回更新され、日付 D2以降コンテンツにリンク切れが生じるが、日付 D3に、コンテ ンッの更新によりリンク切れが修正されたときの信頼度の変化の様子を示す。図示の ごとぐリンク切れが生じている期間である、日付 D2から日付 D3までの期間内におい て、信頼度制御部 130によりコンテンツの信頼度が一定に保持されている。
[0090] (実施の形態 6)
実施の形態 1ではコンテンツの収集が可能であつたか否かに応じて評価対象のコ ンテンッの信頼度を増減させたが、実施の形態 6では評価対象のコンテンツの信頼 度の増加あるいは減少に貢献する要素に応じてコンテンツの信頼度を増減させる。 図 16は、実施の形態 6に係る情報検索提供装置 100の構成を示す。図 3と同等の構 成には同じ符号を与え適宜説明を略す。実施の形態 6に係る情報検索提供装置 10 0には、図 3に示した実施の形態 1に係る情報検索提供装置 100の履歴増加幅制御 部 132のかわりに、新たな構成要素である関連コンテンツ取得部 142、要素抽出部 1 44および分類部 146がさらに設けられる。
[0091] 関連コンテンツ取得部 142は評価対象のコンテンツに関連するコンテンツを取得す る。例えば、検索部 114が、評価対象のコンテンツに含まれる検索条件文、例えば「 ABC会社」文を指定して検索を行い、関連コンテンツ取得部 142は、その検索条件 文に合致したコンテンツを関連するコンテンツ (以下、「関連コンテンツ」という)として もよい。このとき、検索部 114は検索情報保持部 180から関連コンテンツを取得して もよいし、他の検索エンジンやウェブページを利用して関連コンテンツを取得してもよ い。検索条件文は、端末装置 50を介してユーザから指定されてもよいし、情報検索 提供装置 100内部の図示しない検索条件文生成部により辞書を用いて定期的に生 成されてもよい。なお、関連コンテンツは評価対象のコンテンツ自身を含んでもよい。
[0092] 要素抽出部 144は取得されたコンテンツの中力も評価対象のコンテンツの信頼度 の増加あるいは減少に貢献する要素を抽出する。例えば、信頼度の増加に貢献する 要素とは「新商品開発」、「特許取得」、「新規展開」、「増収増益」、などのキーワード を示し、信頼度の減少に貢献する要素とは「裁判」、「負債」、「逮捕」、「減益」などの キーワードを示す。信頼度の増加あるいは減少に貢献するキーワードのすべては、 あら力じめ図示しない貢献保持部に保持されていてもよい。このとき、要素抽出部 14 4は、その貢献保持部力もキーワードを取得し、関連コンテンツ取得部 142により取 得されたコンテンツに対して、これらのキーワードを指定して検索し合致した情報を取 得する。
[0093] 分類部 146は要素抽出部 144により抽出された要素それぞれを、評価対象のコン テンッの信頼度の増加に貢献する第 1グループ、あるいは評価対象のコンテンツの 信頼度の減少に貢献する第 2グループに分類する。
[0094] 信頼度制御部 130は要素抽出部 144により抽出された要素を参照して評価対象の コンテンツの信頼度を増減させる。具体的には、信頼度制御部 130は、分類部 146 により分類された第 1グループ内の要素数が第 2グループ内の要素数よりも多いとき 、評価対象のコンテンツの信頼度を増加させる。一方、信頼度制御部 130は、第 2グ ループ内の要素数が第 1グループ内の要素数よりも多いとき、評価対象のコンテンツ の信頼度を減少させる。
[0095] 本実施の形態によれば、情報検索提供装置 100は、評価対象のコンテンツが他の ウェブページやコンテンツからどのように評価されているかに応じて評価対象のコン テンッの信頼度を増減できる。このとき、評価対象のコンテンツの信頼度の上昇に貢 献する要素だけでなぐ評価対象のコンテンツの信頼度の下降に貢献する要素をも 考慮することで、信頼度の評価の精度が高まる。
[0096] (実施の形態 7)
実施の形態 1〜6では評価対象のコンテンッの信頼度を単独で増減させたが、実 施の形態 7ではお互いに関連するコンテンツの信頼度を同時に制御する。図 17は、 実施の形態 7に係る情報検索提供装置 100の構成を示す。図 3と同等の構成には同 じ符号を与え適宜説明を略す。実施の形態 7に係る情報検索提供装置 100には、図 3に示した実施の形態 1に係る情報検索提供装置 100の履歴増加幅制御部 132の かわりに、新たな構成要素であるコンテンツ取得部 147、 自コンテンツ特定部 148お よび整合性判断部 150がさらに設けられる。
[0097] コンテンツ取得部 147は、判断対象項目を含むコンテンツを取得する。判断対象項 目とは、整合性の判断対象のデータであり、例えば住所、電話番号やファクシミリ番 号、他に採用関連情報や財務関連情報などであってもよい。採用関連情報とは、例 えば、来年の採用予定人数や今年の採用実績人数、財務関連情報とは、売上高や 経常利益額などを指す。なお、判断対象項目のデータ形式は問わず、テキストデー タ、画像データ、音声データや映像データであってもよい。自コンテンツ特定部 148 は、取得されたコンテンツのうち判断対象項目の情報発生源となる自コンテンツを特 定する。以下、自コンテンツを特定する際の判断材料の一例を示す。もちろん、判断 材料は以下の組み合わせで構成されてもょ 、。
(1)コンテンツの URLを参照して特定する。
(2)コンテンツの内容を参照して特定する。
(3)他のウェブページ、検索エンジンやデータベース力 得られる検索結果を参照し て特定する。
(4)コンテンツに張られているリンクの総数で特定する。
(5)コンテンツの提供開始日で特定する。
[0098] (1)の場合、自コンテンツ特定部 148は、取得されたコンテンツの URLを参照し、 例えば、判断対象項目が特定の企業の電話番号であり、 URL内にその企業のドメイ ン名「abc」を含んでいる力否かを判断し、それを含んでいればそのコンテンツを自コ ンテンッであると判断する。このとき、アクセス部 122はドメイン名を管理する第三者 機関のデータベースにアクセスして、その企業のドメイン名を取得してもよ 、。
[0099] (2)の場合、自コンテンツ特定部 148は取得されたコンテンツの内容を参照し、例 えば、判断対象項目が特定の企業の電話番号であり、コンテンツ内のタイトル部分、 例えば、タグく TITLE>〜< ZTITLE>に囲まれた領域に企業の名称があれば、 自コンテンツであると判断する。
[0100] (3)の場合、自コンテンツ特定部 148は、判断対象項目を検索条件文と指定して他 のウェブページ、検索エンジンやデータベース力 得られる検索結果のうち最上位に 位置するコンテンツを自コンテンツと判断する。(4)の場合、自コンテンツ特定部 148 は、コンテンツ内のタグく A HREF="〜">を参照し、他のコンテンツから張られるリ ンクの数が一番多!、コンテンツを自コンテンツであると判断する。 [0101] (5)の場合、自コンテンツ特定部 148は取得されたコンテンツに関するウェブべ一 ジの提供開始日を参照し、最先の提供開始日であるコンテンツを自コンテンツである と判断する。
[0102] 整合性判断部 150は、自コンテンツ特定部 148により特定された自コンテンツの内 容と取得されたコンテンツのうち自コンテンツ以外の他コンテンツの内容とを比較し、 判断対象項目の整合性の有無を判断する。
[0103] 信頼度制御部 130は、整合性判断部 150による判断の結果に応じて自コンテンツ の信頼度と他コンテンツの信頼度を増減させる。すなわち、信頼度制御部 130は、自 コンテンツの信頼度および他コンテンツの信頼度がともに高いときであって、整合性 判断部 150により判断対象項目について整合性有りと判断されたとき、信頼度制御 部 130は自コンテンツの信頼度および他コンテンツの信頼度をともに増加させる。自 コンテンツの信頼度および他コンテンツの信頼度がともに高いときであって、整合性 無しと判断されたとき、信頼度制御部 130は両方のコンテンツの信頼度を下げる。こ のとき、情報検索提供装置 100は図示しない通知部を備え、それぞれのコンテンツを 掲載するウェブページの情報提供者に判断対象項目の是正の指示を通知してもよ い。
[0104] 自コンテンツの信頼度が高く他コンテンツの信頼度が低いときであって、整合性有 りと判断されたとき、信頼度制御部 130は他コンテンツの信頼度を上げるが、自コン テンッの信頼度については増減させない。さらに、自コンテンツの信頼度が高く他コ ンテンッの信頼度が低いときであって、整合性無しと判断されたとき、信頼度制御部 130は他コンテンツの信頼度を下げる力 自コンテンツの信頼度については増減さ せない。すなわち、信頼度が低い他コンテンツはそもそも信頼のおけない内容である ため、信頼度制御部 130はそれに左右されることがないよう自コンテンツの信頼度を 制御するのである。
[0105] 図 18は、自コンテンツと他コンテンツとの判断対象項目に関する関係を模式的に 示す。自コンテンツおは判断対象項目である「情報 X=鹿児島県」、他コンテンツ R2 は「情報 X=鹿児島県」、他コンテンツ R3は「情報 X=沖縛県」を含む。整合性判断 咅 は、自コンテンツ R1と他コンテンツ R2とを it較し、あるいは自コンテンツ R1と 他コンテンツ R3とを比較し、整合性の有無を判断する。本図の場合、整合性判断部 150により自コンテンツ R1と他者コンテンツ R2については整合性有りと判断され、自 コンテンツ R1と他コンテンツ R3については整合性無しと判断される。
[0106] 他コンテンツは公のあるいは公共性の高い事業者により提供されるコンテンツであ つてもよい。公のあるいは公共性の高い事業者とは、例えば国、地方公共団体や第 三者機関により運営される事業者を指す。それらの事業者により提供されるコンテン ッの信頼度は一般的に高いため、整合性判断部 150は、判断対象項目、例えば電 話番号や住所にっ 、て、自コンテンツと他コンテンツとの整合性が有ると判断すれば 、自コンテンツの信頼度を増加させることができる。
[0107] 一般的にコンテンツの中には虚偽や誤りの内容を含んだものもある。そのため、情 報提供者が発信する内容について他のコンテンッゃウェブページに掲載されて!、る 内容との整合性の有無を判断することは有意義である。本実施の形態に係る情報検 索提供装置 100により、整合性の有無に基づ!/、たコンテンッの信頼度を通知される ことで、ユーザはそのコンテンツが虚偽や誤りの内容を含む可能性の少ない、信頼度 の高いコンテンツのみを利用できる。一方、ウェブページ提供者側はコンテンツの信 頼度を高めようと、虚偽や誤りの修正を積極的に行うことがありうる。これにより、コンテ ンッ全体の虚偽や誤りが全体的に見てより修正される可能性が高くなり、これによりゥ エブページ全体の品質の向上にもつながる。
[0108] (実施の形態 8)
実施の形態 8に係る情報検索提供装置 100は、実施の形態 1、実施の形態 3、実施 の形態 5、実施の形態 6および実施の形態 7に係る機能を実現する構成要素を備え る。このとき、それぞれの実施の形態に係る構成要素で実現される信頼度は、それぞ れ異なる信頼度として検索情報ファイル内の信頼度欄 310に管理される。なお、実施 の形態 8に係る情報検索提供装置 100は、実施の形態 1に係る機能を実現する構成 要素にかえて実施の形態 2に係る機能を実現する構成要素、実施の形態 3に機能を 実現する構成要素にかえて実施の形態 4に係る機能を実現する構成要素を備えても よい。
[0109] 図 19は、情報検索提供装置 100が提供する検索初期画面の一例を示す。検索初 期画面 400は、検索条件文を受け付ける第 1入力ボックス 402と第 2入力ボックス 40 4と第 3入力ボックス 406、開始ボタン 408、およびキャンセルボタン 410などで構成さ れる。第 1入力ボックス 402には、会社名や代表者名や商品名に関する検索条件文 が入力され、第 2入力ボックス 404には URLや電話番号やファクシミリ番号や住所が 入力され、第 3入力ボックス 406には、いわゆるフリー検索を行う際の検索条件文が ユーザにより入力される。少なくとも一つのボックスに検索条件文が入力された後、開 始ボタン 408が押下されたとき、入力された検索条件文が送信部 52により情報検索 提供装置 100に送信され、検索処理が行われる。送信中にキャンセルボタン 410が 押下されれば、情報検索提供装置 100は検索処理を停止する。
[0110] 図 20は、情報検索提供装置 100が提供する検索結果画面 401の一例を示す。検 索結果画面 401には、検索条件文に合致したコンテンッと当該コンテンッに関連す る各種情報、例えば信頼度が表示される。検索結果画面 401は、コンテンツを掲載 するウェブページの情報提供者が表示される領域 412、ウェブページの提供開始日 が表示される領域 414、信頼度と時間との関係が表形式で表示される信頼度表 420 、表示されたコンテンツに対する評価内容が記載されている他コンテンツの一覧を示 す一覧領域 430、および特定の項目における信頼度をアルファベット形式で表示さ れる信頼度ランク表 440等で構成される。
[0111] 信頼度表 420は 5つの第 1〜第 5信頼度表 420a〜420eを備える。ここで、第 1信 頼度表 420aは実施の形態 1あるいは実施の形態 2に係るコンテンツの連続性に関 する信頼度表、第 2信頼度表 420bは実施の形態 3あるいは実施の形態 4に係るコン テンッの更新状況に関する信頼度表、第 3信頼度表 420cは実施の形態 5に係るコン テンッのリンク先状況に関する信頼度表、第 4信頼度表 420dは実施の形態 6に係る コンテンツの他コンテンツ力もの評価に関する信頼度表、第 5信頼度表 420eはそれ ら第 1〜第 4信頼度表 420a〜420dの結果を総合ィ匕した信頼度表である。 5つの第 1 〜第 5信頼度表 420a〜420e中の点 Aは現在のコンテンツの信頼度を示す。
[0112] 一覧領域 430は、検索されたコンテンツに対し良好と評価している他ウェブページ の一覧が格納される第 1一覧領域 422と検索されたコンテンツに対し良好でないと評 価している他ウェブページの一覧が格納される第 2—覧領域 424を備える。具体的に は、実施の形態 6に係る関連コンテンツ取得部 142により取得されたコンテンツのうち 、評価対象のコンテンツの信頼度の増減に貢献するコンテンツが表示されている。図 示のごとぐ第 1一覧領域 422には検索されたコンテンツの信頼度を増加させるキー ワードを含むコンテンツを掲載するウェブページの一覧が格納され、第 2—覧領域 42 4には検索されたコンテンツの信頼度を減少させるキーワードを含むコンテンツを掲 載するウェブページの一覧が格納されて 、る。
[0113] 信頼度ランク表 440は、項目欄 442およびランク欄 444を含む。この表は、実施の 形態 7に係る構成要素による整合性判断の結果として制御される信頼度が表示され たものである。この信頼度ランク表 440は、前述の判断対象項目である住所、電話番 号、ファクシミリ番号や採用関連情報などを含む。ランク欄 444に含まれる情報は、コ ンテンッの信頼度をその大きさに応じていくつかのカテゴリに分類し、それをアルファ ベット形式で示したものである。例えば、ランク「A」は信頼度が高い状態を示し、以下 順番に信頼度が低くなるにつれ、アルファベット順に「B」、「C」、「D」のように示す。
[0114] 本実施の形態によれば、複数の観点、例えばコンテンツの連続性やコンテンツの更 新状況の観点におけるコンテンツの信頼度をユーザに提示することで、ユーザは様 々な観点力ものコンテンツの信頼度を知ることができる。特に総合評価の信頼度は、 複数の観点力 の信頼度をまとめたものであり、バランス面において優れており、ュ 一ザはコンテンツに関するより信頼性の高い評価結果を知ることができる。
[0115] (実施の形態 9)
実施の形態 1では、評価対象のコンテンツの収集が可能であった力否かに応じて 当該コンテンツの信頼度が増減される。実施の形態 9では、評価対象のコンテンツの 収集が可能であった力否力にカ卩え、当該コンテンツへネットワークを通じてアクセスす るネットワーク利用端末装置に付随するクライアント情報に基づいて、当該コンテンツ の信頼度が増減される。クライアント情報としては、前記ネットワーク利用端末装置か ら当該コンテンツへのアクセス状況に関する情報、前記ネットワーク利用端末装置か ら当該コンテンツに入力された情報が挙げられる。
[0116] 図 21は、実施の形態 9に係る情報検索提供システム 11の構成を示す。実施の形 態 9に係る情報検索提供システム 11に関して、図 1と同等の構成には同じ符号を与 え適宜説明を略す。実施の形態 9に係る情報検索提供システム 11は、図 3に示した 実施の形態 1に係る情報検索提供システム 10に加えて当該コンテンッを利用するネ ットワーク利用端末装置 500を有する。
[0117] 図 22は、実施の形態 9に係るネットワーク利用端末装置 500の構成を示す。ネット ワーク利用端末装置 500は、コンテンツ取得部 502と、端末情報保持部 504と、情報 発信部 506と、を備える。
[0118] コンテンツ取得部 502は、ネットワーク 12を介してウェブサーバ 200が提供するコン テンッを取得する。具体的には、ネットワーク利用端末装置 500に搭載される図示し ない WWWブラウザからウェブサーバ 200が提供するコンテンツの取得要求が送信 される。当該コンテンツ取得要求に応じてウェブサーバ 200から送信されたコンテン ッがネットワーク利用端末装置 500に取り込まれ、 WWWブラウザ上に表示される。コ ンテンッ取得部 502によるコンテンツの取得日時、コンテンツの取得回数等は、例え ば cookieなどのアクセス状況記録データとしてネットワーク利用端末装置 500に保存 される。
[0119] 端末情報保持部 504は、ネットワーク利用端末装置 500に関する情報を保持する。
端末情報保持部 504が保持する情報例としては、 cookieから取得可能なコンテンツ 取得日時、コンテンツ取得回数などの情報、コンテンツを取得した際に経由した UR Lに関する情報、ネットワーク利用端末装置 500のオペレーティングシステム(以下、 OSという)に関する情報、ネットワーク利用端末装置 500で使用されているブラウザ、 ネットワーク利用端末装置 500が利用して 、るインターネットサービスプロノイダー( 以下、 ISPという)に関する情報などが挙げられる。
[0120] 情報発信部 506は、ネットワーク利用端末装置 500に付随するクライアント情報をゥ エブサーバ 200に送信する。情報発信部 506が送信するクライアント情報の具体例 は、上述したコンテンツ取得日時、コンテンツ取得回数、 OSに関する情報、 ISPに関 する情報などである。また、後述するように、コンテンツ提供部 202が提供するコンテ ンッが、インターネットを利用して商品の販売を行う内容である場合には、情報発信 部 506は、商品購入者の氏名、商品名、購入する商品の単価および個数などの情 報をクライアント情報として、ウェブサーバ 200に送信する。 [0121] 図 23は、実施の形態 9に係るウェブサーバ 200の構成を示す。実施の形態 9に係 るウェブサーバ 200はコンテンツ提供部 202と、アクセス感知部 204と、入力情報受 付部 206と、情報取得部 208、情報発信部 210と、を備える。
[0122] コンテンツ提供部 202は、ネットワーク利用端末装置 500からの要求に応じてコンテ ンッを提供する。コンテンツ提供部 202が提供するコンテンツは、ニュース、ブログ、 画像、動画などの閲覧を目的とする内容であってもよぐインターネットを利用して商 品の販売を行う内容であってもよい。コンテンツ提供部 202は、上述した情報発信部 506からのクライアント情報の発信を実現するために、ネットワーク利用端末装置 500 が当該コンテンッを閲覧したときや、当該コンテンッに対して何らかの情報を入力し たときに、ウェブサーバ 200に情報を受け渡しするような命令プログラム (ジャバスクリ ブトなどで記述)を埋め込んだコンテンツを提供することが好適である。
[0123] 当該コンテンツに対して何らかの情報を入力する場合には、例えば、 CGIプログラム などによって作成されたテキストボックスやラジ才ボタンなど力もなる入力フォームを 用!/、ることができる。
[0124] アクセス感知部 204は、ネットワーク利用端末装置 500が当該コンテンツを閲覧した こと、ネットワーク利用端末装置 500から当該コンテンツに対して何らかの情報が入 力されたことなどのネットワーク利用端末装置 500による当該コンテンツへのアクセス を感知する。
[0125] 入力情報受付部 206は、ネットワーク利用端末装置 500からの当該コンテンツに対 する入力情報を受け付ける。例えば、コンテンツ提供部 202が提供するコンテンツが インターネットを利用して商品の販売を行うウェブページである場合には、入力情報 受付部 206は入力情報として、商品購入者の氏名、商品名、購入する商品の単価お よび個数などの情報を受け付ける。
[0126] 情報取得部 208は、ネットワーク利用端末装置 500の情報発信部 506から発信さ れたコンテンツ取得日時、コンテンツ取得回数、 OSに関する情報、 ISPに関する情 報などを取得する。
[0127] 情報発信部 210は、取得したクライアント情報を情報検索提供装置 100に向けて送 信する。 [0128] 図 24は、実施の形態 9に係る情報検索提供装置 100の構成を示す。図 24に示す 情報検索提供装置 100に関して、図 3と同等の構成には同じ符号を与え適宜説明を 略す。実施の形態 9に係る情報検索提供装置 100は、図 3に示した実施の形態 1に 係る情報検索提供装置 100の構成要素に加えて、受信情報保持部 510と、解析条 件保持部 520とをさらに備える。また、実施の形態 9に係る収集制御部 120は、情報 受信部 530と、情報受信終了判断部 531と、情報解析部 532と、クライアント判定部 5 34と、常連顧客利用度制御部 535と、取引評価部 536と、取引評価更新部 537と、 資産価値算出部 538と、資産価値更新部 539とをさらに有する。
[0129] 情報受信部 530は、ウェブサーバ 200の情報発信部 210から送信された情報を受 信し、受信情報保持部 510に格納する。ネットワーク利用端末装置 500からのァクセ スが継続して行われて 、る場合には、一連のアクセスにおけるクライアント情報として 受信される。
[0130] 図 25は、受信情報保持部 510に格納された受信情報のデータ構造の一例を示す 。図 25において、図 4と同等の構成には同じ符号を与え適宜説明を略す。当該コン テンッにネットワーク利用端末装置 500がアクセスする場合、ネットワーク利用端末装 置 500は、ネットワーク 12を経由してアクセスするブラウザなどのコンテンツ閲覧用ソ フトウェアを用いる。受信情報保持部 510は、情報受信部 530が受信したネットヮー ク利用端末装置 500からのアクセス履歴に関連するクライアント情報、およびネットヮ ーク利用端末装置 500から入力されたデータに関連するクライアント情報を保持する
[0131] アクセス履歴に関連するクライアント情報としては、ネットワーク利用端末装置 500 が当該コンテンツにアクセスしたアクセス日時 550、ネットワーク利用端末装置 500に 割り当てられたアクセス元 IPアドレス 552、ネットワーク利用端末装置 500が保持する 経由先 URL554、ネットワーク利用端末装置 500で使用されている OS情報 556など が挙げられる。
[0132] 入力データに関連するクライアント情報としては、ネットワーク利用端末装置 500が 当該コンテンツに設置された商品購入用のフォームに入力、もしくは自動入力された 購入金額 568、商品名 560、利用者氏名 562などが挙げられる。 [0133] 図 24の構成の説明に戻り、情報受信終了判断部 531は、情報の受信が継続して いる力否かを判断し、一連のアクセスがいつ終了したかを判断する。例えば、情報の 受信が継続して 、る力否かは、同一のネットワーク利用端末装置 500からの情報の 受信間隔が所定の時間内である力否かにより判断される。
[0134] 情報解析部 532は、解析条件保持部 520に保持されている信頼度に影響を与える 解析条件に基づいて、受信情報保持部 510に保持された情報を解析する。信頼度 制御部 130は、その解析結果により検索情報保持部 180に保持されている信頼度を 増減させる。前記解析条件は、あらかじめ解析条件保持部 520に保存されていること が好ましいが、必要に応じて適宜更新してもよい。
[0135] 例えば、解析条件保持部 520に「同一のネットワーク利用端末装置 500からのァク セスであれば初めてのアクセスより信頼度を高くする」 t 、う条件が設定してある場合 には、情報解析部 532は、受信情報保持部 510に保持されている過去の受信情報 を参照し、同一のネットワーク利用端末装置 500からのアクセス力否かを解析する。 信頼度制御部 130は、同一のネットワーク利用端末装置 500からのアクセスであれば 、異なるネットワーク利用端末装置 500からのアクセスに比べて、信頼度をより大きく 増加させる。
[0136] ネットワーク利用端末装置 500が当該コンテンツを閲覧したときに、当該コンテンツ の信頼度を増カロさせる要因の例としては、ネットワーク利用端末装置 500から当該コ ンテンッへのアクセスの増加や、信頼度の高いサイトを経てのアクセス、信頼度が高 い OSを使用しているネットワーク利用端末装置 500から当該コンテンツへのアクセス などが挙げられる。逆に、信頼度を減少させる例としては、ネットワーク利用端末装置 500から当該コンテンツへのアクセスの減少や、信頼度の低いサイトを経てのァクセ ス、信頼度が低い OSを使用しているネットワーク利用端末装置 500から当該コンテ ンッへのアクセスなどが挙げられる。サイトの信頼度については、検索情報保持部 18 0に保持されている情報を参照する。この他、ネットワーク利用端末装置 500で使用 されているブラウザやプログラムの種類、更新バージョン、脆弱性に対する対策の有 無、他のサイトに危害を与える可能性の有無、ネットワーク利用端末装置 500が利用 して 、る ISPの信頼度などに基づ 、て当該コンテンッの信頼度を増減させてもよ!、。 [0137] ネットワーク利用端末装置 500が当該コンテンツに対して何らかの情報を入力した ときに、当該コンテンツの信頼度を増カロさせる要因の例としては、ネットワーク利用端 末装置 500が当該コンテンツを買い物で利用することや、同じネットワーク利用端末 装置 500が当該コンテンツを複数回の買い物で利用することが挙げられる。買い物 で当該コンテンツを利用するということは、ネットワーク利用端末装置 500が、当該コ ンテンッを信用し利用して 、ることの証であると考えても差し支えな 、。よって買い物 をするネットワーク利用端末装置 500が多ければ多いほど、当該コンテンツの信頼度 を増減させることもできる。また、同じネットワーク利用端末装置 500が当該コンテンツ を複数回の買い物で利用する場合は、当該コンテンツの常連であると判断し、この常 連が多ければ多いほど当該コンテンツの信頼度が高くなると考えてもよい。
[0138] なお、ネットワーク利用端末装置 500が当該コンテンツを買い物で利用する場合に 、決済をクレジットカードで行う場合には、より信頼度の高いユーザ力ものアクセスで あると判断することができる。そこで、入力データに関連するクライアント情報に基づ いてクレジットカードを利用する買い物である力否かを判定し、クレジットカードを利用 する買い物を実行するネットワーク利用端末装置 500が多ければ多いほど当該コン テンッの信頼度を高くしてもよい。クレジットカードが使用されていることは、ネットヮー ク利用端末装置 500を使用するユーザの身元が特定可能であることの一例であり、 ユーザの身元が特定可能な方法であれば、クレジットカードの使用には限られな!/、。
[0139] クライアント判定部 534は、受信情報保持部 510に保持されている当該コンテンツ の利用者が、受信情報保持部 510に保持された最新の利用者氏名 562のいずれか と一致して 、る力否かの確認を行う。
[0140] 図 26は、検索情報保持部 180に格納された検索情報ファイルのデータ構造の一 例を示す。本実施の形態の検索情報保持部 180に関し、図 4と同等の構成には同じ 符号を与え適宜説明を略す。本実施の形態の検索情報保持部 180は、図 4に示した 構成に加えて、累計購入金額 570、累計商品特性評価 572、常連顧客利用度 574 、および資産価値 576をさらに有する。
[0141] 常連顧客利用度制御部 535は、クライアント判定部 534により一致が確認された場 合に、検索情報保持部 180に保持された常連顧客利用度を増カロさせる。 [0142] 例えば、(http:ZZ〜l)のコンテンツにて「山崎太郎が A101という商品を 29600 円で購入した」という情報が受信情報保持部 510に格納されている場合、検索情報 保持部 180の該当するコンテンツ (http:ZZ〜l)の累計購入金額は、「250000円 」に「29600円」力カロわり「279600円」となる。また、「A101」という商品は流行によら ない食品であるとして 5段階評価の最高ランクである「5」の評価を受けているとすると 、累計商品特性評価は、「6」に「5」が加わり「11」となる。さらに、過去「山崎太郎」が( http:ZZ〜l)のコンテンツにて「3」回購入履歴があると、常連顧客利用度は、「20 」に「3」が加わり、「23」となる。
[0143] 取引評価部 536は、受信情報保持部 510に保持された最新の購入金額 568と、商 品名 560とを取得する。取引評価部 536は、買い物で入力された決済金額や商品情 報を取得することにより、当該コンテンツでの決済規模や、取引内容を求める。信頼 度制御部 130は、当該コンテンツでの決済規模や、取引内容に基づいて信頼度を 増減させてもよい。また、取引評価部 536は、商品名について流行性、商品の種別 などの商品特性に基づいて評価を行ってもよい。この場合、商品特性評価のための 基準は事前に準備しておくことが好ましい。
[0144] 例えば、当該コンテンツで 1ヶ月に行われる決済の金額が一定金額以上あり、流行 に左右されない商品を取り扱い、常連顧客が多い場合に、信頼度制御部 130は信 頼度を大きく増加させてもょ 、。
[0145] 取引評価更新部 537は、取引評価部 536の処理に従って、検索情報保持部 180 に保持された累計購入金額 570および累計商品特性評価 572を更新する。
[0146] このように、当該コンテンツにおける決済に関する情報を収集することにより、当該 コンテンッの取引や、当該コンテンツの持つ資産価値を算出することができる。
[0147] 資産価値算出部 538は、受信情報保持部 510に保持された最新の購入金額 568 および商品名 560を取得するとともに、当該コンテンツと関連するデータが格納され た販売管理システム(図示せず)や経理システム(図示せず)から商品の仕入れ額を 取得し、取引における利益を算出する。この利益を特定の期間で集計した値、常連 顧客の利用度、および商品の特性を考慮し、将来的な収益を予測し、当該コンテン ッの資産価値を算出する。 [0148] 資産価値更新部 539は、資産価値算出部 538によって算出された資産価値に基 づいて、検索情報保持部 180に保持された資産価値を更新する。
[0149] 例えば、(http : ZZ〜l)のコンテンツ資産価値を求める場合に、 1年間の利益額 が「1億円」、常連顧客利用度が「20」、累計商品特性評価が「6」であれば、常連顧 客利用度と累計商品特性評価により「3」年間はこの利益が続くと予測する。これによ り、当該コンテンツの資産価値が「3億円」と算出される。なお、常連顧客利用度と累 計商品特性評価による利益算定期間算出のための基準は事前に準備しておくことが 望ましい。
[0150] 図 27は、本実施の形態に係る信頼度増減処理の流れを示す。まず、情報検索提 供装置 100は、ウェブサーバ 200から発信される情報を受信する待ち受け状態にあ る。情報受信部 530がクライアント情報を受信する(S110)と、受信されたクライアント 情報は、受信情報保持部 510に格納される(S120)。
[0151] 情報受信終了判断 (S130)により、 «続して情報の受信がある場合には(S 130の Y)、受信したクライアント情報を格納し続ける。ただし、最初にネットワーク利用端末 装置 500からクライアント情報を受信して力も一定時間が経過したことを条件として、 情報解析ステップ(S 140)に移行してもよい。
[0152] 一方、情報受信終了判断部 531により、 «続して情報の受信がない(S 130の と 判断されると、情報解析部 532により情報解析 (S140)が行われる。情報解析部 532 により「信頼度が増減する」と解析された場合には (S140の Y)、信頼度制御部 130 により信頼度増減処理 (S150)が行われ、処理は終了する。一方、情報解析部 532 により「信頼度に影響がない」と解析されると(S140の N)、処理が終了する。
[0153] 本実施の形態によれば、コンテンツを利用するネットワーク利用端末装置 500の持 つ情報により、信頼度の制御が可能になる。さらに、ネットワーク利用端末装置 500と 当該コンテンツ間の決済情報などを収集することにより、コンテンツの持つ資産価値 が演算可能となる。ネットワーク、特にインターネット上では法人、個人を問わず様々 なコンテンツが運営されており、その中には有益なコンテンツも数多く存在している。 しかしながら、コンテンツ運営の歴史は浅ぐ実空間では存在する土地や建物を評価 するような方法は未だに確立されていない。コンテンツの資産価値算出は信頼度の 算出と並び、個人で所有するコンテンツの譲渡や相続、法人で所有するコンテンツの 継承や譲渡、または有益なコンテンツを所有する法人の合併や吸収、その他、前記 法人に対する投資や融資など力スムーズに行われるために役立つだけではなぐコ ンテンッの流通と 、う新し 、仕組みの基礎となることも期待できる。
[0154] なお、実施の形態 9では、ネットワーク利用端末装置 500のクライアント情報がゥェ ブサーバ 200を経由して情報検索提供装置 100に伝達されて 、るが、ネットワーク利 用端末装置 500のクライアント情報が、情報検索提供装置 100に直接的に伝達され てもよい。また、ネットワーク利用端末装置 500のクライアント情報は、第三者が運営 する情報収集装置を経由して、情報検索提供装置 100に伝達されてもよい。この他 、情報検索提供装置 100がコンテンツを提供するウェブサーバ 200を兼ねてもょ 、。
[0155] (実施の形態 10)
実施の形態 3では、評価対象のコンテンツが更新されたか否かに応じて、評価対象 のコンテンツの信頼度が増減された。実施の形態 10では、評価対象のコンテンツ提 供者に関連する判定項目について、評価対象のコンテンツおよび比較用コンテンツ における掲載状況をそれぞれ取得し、評価対象のコンテンツにおける判定項目の掲 載状況と前記比較用コンテンツにおける判定項目の掲載状況とを比較することにより 、評価対象のコンテンツが適切に判定されているか否かが判断される。評価対象のコ ンテンッ提供者に関連する判定項目は、具体的には、評価対象のコンテンツを運営 する主催者が自ら公知にしたイベント情報などである。
[0156] 一般的に、何らかのイベントが公知にされた場合、そのイベント情報は、主催者自 身が運営する評価対象のコンテンツに掲載されるだけでなぐ主催者が運営しない 評価対象以外のコンテンツにも掲載される。評価対象以外のコンテンツに掲載される 場合の情報源として、ネットワーク 12を介する場合には、評価対象のコンテンツ、ネッ トワーク 12を介さない場合には、プレス発表、独自取材などが挙げられる。ここでは、 評価対象のコンテンツにイベント情報が掲載されていないにも拘わらず、評価対象以 外のコンテンツにイベント情報が掲載されて ヽる場合や、評価対象のコンテンツにィ ベント情報が掲載される以前に評価対象以外のコンテンツに掲載された場合に、評 価対象のコンテンツが適正に更新されていないと判断される。 [0157] 本実施の形態では、イベント情報は主催者によって公知にされる力 これに限られ ず、イベント情報は主催者以外の第三者によって公知にされたものでもよい。例えば 、主催者の不正や社会的悪事などは主催者自らが公知にせず、第三者が運営する コンテンツにおいて掲載され、公知にされる場合がある。このような場合には、第三者 が運営するコンテンツに主催者の不正などのイベント情報が掲載されたときに、主催 者が運営するコンテンツにこのイベント情報についての適切なコメントまたは謝罪など が掲載されて 、るか否かに応じて、主催者が運営するコンテンツが適正に更新され て!ヽる力否かを判断することができる。
[0158] 図 28は、実施の形態 10に係る情報検索提供装置 100の構成を示す。図 28に関し て、図 11と同等の構成には同じ符号を与え適宜説明を略す。実施の形態 10に係る 情報検索提供装置 100には、図 11に示した実施の形態 3に係る情報検索提供装置 100の構成に加えて、取得コンテンツ情報保持部 600と、イベント保持部 610と、依 頼情報保持部 630とをさらに備える。また、本実施の形態の更新判断部 138は、ィべ ント抽出部 640と、イベント主催者コンテンツ特定部 641と、イベント発生制御部 642 と、コンテンツ情報源判断部 650と、更新適正判断部 660とをさらに有する。コンテン ッ情報源判断部 650は、イベント発生依頼部 651と、イベント発生受信部 652と、ィ ベント監視部 653と、コンテンツ情報源制御部 654を含む。
[0159] 図 29は、取得コンテンツ情報保持部 600に格納された検索情報ファイルのデータ 構造の一例を示す。図 29における検索情報ファイルは IPアドレス 601と、 URL602 と、 =3ンテンッ 603と、 =3ンテンッ取得日 604とをデータ歹 IJとして含む。収集咅 に より収集されたコンテンツは検索情報保持部 180に保持されるだけでなぐ取得コン テンッ情報保持部 600にも保持される。取得されたコンテンツはコンテンツ 603の欄 に、コンテンツ付随情報の一部である URLは URL602の欄に格納される。
[0160] 図 30は、検索情報保持部 180に格納された受信情報のデータ構造の一例を示す 。実施の形態 10の検索情報保持部 180に関して、図 4と同等の構成には、同じ符号 を与え適宜説明を略す。図 30に記載のデータ構造は、図 4と同じ構成に加えて、コ ンテンッ主催者 620およびコンテンツ情報源 622をさらにデータ列として有する。ここ で、コンテンツ主催者とはコンテンツを運営する会社や個人、団体などを指す。コンテ ンッ情報源とはコンテンツに掲載されるイベントが何を参照して掲載されているのか を指す。
[0161] 図 31は、イベント保持部 610に格納された検索情報ファイルのデータ構造の一例 を示す。図 31に示す検索情報ファイルはイベント 611と、イベント主催者 612と、ィべ ント主催者自コンテンツへの掲載 613と、自コンテンツへの掲載以前発生独自取材 6 14と、自コンテンツへの掲載以降発生ウェブページ 615と、自コンテンツへの掲載以 降発生独自取材 616とをデータ列として含む。
[0162] ここで、 「イベント主催者自コンテンツへの掲載」とは、コンテンツ主催者が自ら発生 させたイベントを自己のコンテンツに掲載することを旨す。「自コンテンツへの掲載以 前発生独自取材」とは、発生したイベントが自己のコンテンツに掲載される以前に、 独自取材などにより他のコンテンツに掲載されたことを旨す。「自コンテンツへの掲載 以降発生ウェブページ」とは、発生したイベントが自己のコンテンツに掲載された以降 に、その掲載されたコンテンツを参照して他のコンテンツに掲載されたことを指す。「 自コンテンツへの掲載以降発生独自取材」とは、発生したイベントが自己のコンテン ッに掲載された以降に、独自取材などにより他のコンテンツに掲載されたことを指す。
[0163] 図 32は、依頼情報保持部 630に格納されたデータ構造の一例を示す。図 32に示 す検索情報ファイルは、イベント 631と、イベントを発生させるコンテンツ主催者 632と 、公知日 633と、イベントの公知方法 634とをデータ列として含む。
[0164] 図 28の構成の説明に戻り、イベント抽出部 640は、蓄積されたコンテンツを随時解 祈し、イベントの抽出を行う。例えば「2月 4日に商品 Xが A社より新発売」というような 情報が、イベントとして抽出される。
[0165] イベント主催者コンテンツ特定部 641は、イベント抽出部 640がイベントを抽出した 場合に、検索情報保持部 180に格納されている図 30のコンテンツ主催者 620を参 照し、イベント主催者のコンテンツを特定する。特定したコンテンツ中に「2月 4日に商 品 Xが A社より新発売」とあれば、 A社がそのイベントの主催者であることがわかる。コ ンテンッ主催者 620に A社があれば、 A社運営のコンテンツに関する情報を取得す ることができる。また、取得したコンテンツの URL602と、 URL欄 304とを比較するこ とにより、取得したコンテンツのコンテンツ主催者を特定することができる。例えば、解 析するコンテンツ(「2月 4日に商品 Xが A社より新発売」が掲載された)の URLが (htt P: ZZ〜lZa. html)である場合、 A社の URL (http: ZZ〜lZ)を含んで ヽるこ とより、 A社の主催するイベントが、 A社の自コンテンツへ掲載されたことになる。一方 、解析するコンテンツ(「2月 4日に商品 Xが A社より新発売」が掲載された)の URLが (http: ZZ〜3Zc. html)の場合、 X団体の URL (http: ZZ〜3Z)を含んで ヽる ことより、 A社の主催するイベントが、 X団体のコンテンツへ掲載されたことになる。ま た、コンテンツ†青報源 622を参照することにより、コンテンツ主催者のコンテンツの†青 報源についても特定できる。上記例の場合、 X団体のコンテンツ情報源は「独自取材 」によるものとなる。
[0166] コンテンツ情報源判断部 650は、図 30で示されるコンテンツ情報源 622の値を確 定するために用いられる。
[0167] イベント発生依頼部 651は、検索情報保持部に保持されているコンテンツ主催者( 以下イベントを発生させるコンテンツ主催者と呼ぶ)にウェブページに掲載せずに公 知にするイベント、あるいはウェブページのみに掲載し公知にするイベントの発生を 依頼する。この依頼があることは、イベントを発生させるコンテンツ主催者と事前に合 意しておくものとする。イベントを発生させるコンテンツ主催者は、依頼された方法で イベントを公知にし、そのイベント情報をイベント発生受信部 652に向けて発信する。 例えば図 32では、イベントを発生させるコンテンツ主催者である D社が発生させたィ ベントは、ウェブページに掲載せずに公知にするイベント (採用予定人数発表 500人 )であることがわかる。
[0168] イベント発生受信部 652は、前記発生させたイベント情報を受信して依頼情報保持 部 630に保存する。この後、イベント監視部 653は、依頼情報保持部 630に保持され たイベントが、イベント抽出部 640により抽出されるか否かを監視する。ウェブページ に掲載せずに公知にするイベントが抽出された場合、そのコンテンツ主催者のコンテ ンッ情報源は、独自取材によると判断できる。一方ウェブページのみに掲載し公知に するイベントが、抽出された場合、そのコンテンツ主催者のコンテンツ情報源はウェブ ページによると判断できる。
[0169] コンテンツ情報源制御部 654は、イベント監視部 653による監視結果を、検索情報 保持部 180に保持される図 30の対応するコンテンツ情報源 622に格納する。その他 、コンテンツ情報源 622については、コンテンツ運営者などから聞き取り調査し値を 人力してちょい。
[0170] イベント発生制御部 642は、イベントを抽出し、イベント主催者、イベントを掲載した コンテンツ主催者、およびコンテンツ情報源を特定した後に、図 31で示されるような データをイベント保持部 610に保存する。イベント発生制御部 642は、イベント保持 部 610に同一のイベントがあればそのイベントの項目であるイベント主催者自コンテ ンッへの掲載 613、自コンテンツへの掲載以前発生独自取材 614、自コンテンツへ の掲載以降発生ウェブページ 615および自コンテンツへの掲載以降発生独自取材 6 16の中で該当するものの数値を増加させる。同一のイベントがない場合、新規ィベン トとしてレコードを追カ卩し、イベント 611およびイベント主催者 612を入力し、さらにィ ベント主催者自コンテンツへの掲載 613と、自コンテンツへの掲載以前発生独自取 材 614のいずれか該当するものに数値 1を入力する。通常、イベントについてはある 一定期間過ぎれば、出現する回数も減少すると考えられる。よって、イベントの初回 の発生力も一定期間経過後にイベントが抽出された場合には、なにもしないと制御し てもよい。
[0171] 更新適正判断部 660は、イベント保持部 610を参照してイベント主催者の自コンテ ンッが適正に更新されているか否かを判断する。
[0172] 例えば、図 31で示されるイベントが(9Z6、採用予定人数発表、 W社)、イベント主 催者が (W社)の場合、主催者自コンテンツへの掲載が「0」で自コンテンツへの掲載 以前発生独自取材が「10」であると表示されている。これは、他のコンテンツに掲載さ れているのに自コンテンツには掲載されていないと判断する。この場合、適正な更新 を行っていないと判断される。同様に、イベントが(2Z6、 R氏鹿児島来訪、 A社)、ィ ベント主催者が (A社)の場合、主催者自コンテンツへの掲載が「1」で自コンテンツへ の掲載以前発生独自取材が「5」、自コンテンツへの掲載以降発生ウェブページが「6 」、自コンテンツへの掲載以降発生独自取材が「8」であると表示されている。これは、 自コンテンツへ掲載されて 、るものの、それ以前に他のコンテンツに掲載されて 、る ことより、自コンテンツへの掲載が遅れたと判断できる。この場合も適正な更新を行つ ていないと判断する。但し、自コンテンツへの「掲載以前発生独自取材」などの数値 はある一定のしきい値を越えた場合に適正に更新されている力否かの判断を行って もよい。適正に更新されていると判断できる例として、イベントが(2Z4、商品 X新発 売、 A社)、イベント主催者が (A社)の場合である。この場合、自コンテンツへの掲載 以降、他のコンテンツに掲載されている。この場合、適正に更新していると判断する。 このような場合でも自コンテンツへの「掲載以降発生独自取材」力 「0」もしくは極端 に少なければ、独自取材を行うコンテンツに取り上げられるような重要なイベントでな V、と判断できることより、適正な更新力否かにっ 、ては判断しな 、としてもよ 、。
[0173] 本実施の形態において、コンテンツが適正に更新されているか否かを判断する方 法は、評価対象のコンテンツ主催者が発生させるイベントが評価対象コンテンツであ る自コンテンツや他のコンテンツへどのように波及していくかを観測するものである。 これが実現されるとコンテンツを運営する者はタイムリーな情報の更新を心がけるよう になり、ひいてはコンテンッの信頼度向上にも寄与するものとなる。
[0174] なお、本実施の形態では、イベント発生依頼部 651に依頼されるイベントは単独で ある力 イベント発生依頼部 651にウェブページに掲載せずに公知にするイベント、 およびウェブページのみに掲載し公知にするイベントの両方が同時期に依頼されて もよい。この場合、両者のイベントの種類は類似していることが望ましい。なお、「同時 期」には、同日だけでなぐ数日あるいは数週間の範囲が含まれる。
[0175] これによれば、ウェブページのみに掲載し公知にするイベントに関する情報が他の コンテンッへ波及する様子をある種のイベントに関する情報が他のコンテンッへ波及 する様子の基準とし、この基準に基づいてウェブページに掲載せずに公知にするィ ベントに関する情報が他のコンテンツへ波及する様子を評価することができる。
[0176] 例えば、イベントをウェブページのみに掲載し公知にしてから、他のコンテンツに掲 載されるまでの時間および時間経過とともに当該イベントを掲載する他のコンテンツ の数の増加の仕方を他のコンテンツへ波及する様子の評価基準とすることができる。 ウェブページに掲載せずに公知にするイベントに関する情報が他のコンテンツへ波 及する様子がこの評価基準と等し 、か類似して 、る場合には、ウェブページに掲載 せずに公知したイベントが、公知後に速やかに自コンテンツに掲載されたと推定する ことができる。
[0177] また、ウェブページに掲載せずに公知にするイベントが他のコンテンツにおいて 2 番目以降に抽出された場合に、ウェブページに掲載せずに公知にするイベントと種 類が類似し、かつ同時期にウェブページのみに掲載し公知にするイベントが、前記 2 番目以降に抽出された他のコンテンツに掲載されている力、あるいは過去に掲載さ れていた場合には、前記 2番目以降に抽出された他のコンテンツの情報源はウェブ ページに掲載せずに公知にするイベントを最初に掲載した他のコンテンッ、すなわち ウェブページ力もであると推定することができる。一方、ウェブページのみに掲載し公 知にするイベントが、前記 2番目以降に抽出された他のコンテンツに掲載されておら ず、かつ過去にも掲載されていない場合には、前記 2番目以降に抽出された他のコ ンテンッの情報源は独自取材によるものであると推定することができる。
[0178] (実施の形態 11)
実施の形態 1では評価対象のコンテンツの収集が可能であった力否かに応じて当 該コンテンツの信頼度を増減させた力 実施の形態 11では収集の可否の結果にカロ え、異なるタイミングで収集された評価対象のコンテンツの同一性が判断され、この 判断結果に応じて、評価対象のコンテンツの信頼度が増減される。図 33は、実施の 形態 11に係る情報検索提供装置 100の構成を示す。図 3と同等の構成には同じ符 号を与え適宜説明を略す。実施の形態 11に係る情報検索提供装置 100は、図 3〖こ 示した実施の形態 1に係る情報検索提供装置 100の構成に加えて同一性判断部 70 0をさらに備える。
[0179] 同一性判断部 700は、異なるタイミングで収集された評価対象のコンテンツの同一 性を判断する。具体的には、評価対象のコンテンツの同一性判断時において、評価 対象のコンテンツが収集部 128により新たに収集される。同一性判断部 700は、検索 情報保持部 180のコンテンツ欄 306に格納された過去に収集された評価対象のコン テンッの内容と、新たに収集された評価対象のコンテンツの内容とを比較し、評価対 象のコンテンツの同一性が保たれているか否かを判断する。
[0180] 信頼度制御部 130は、同一性判断部 700により評価対象のコンテンツの同一性が 保たれていると判断された場合に、評価対象のコンテンツの信頼度を増カロさせる。一 方、信頼度制御部 130は、同一性判断部 700により評価対象のコンテンツの同一性 が保たれて 、な 、と判断された場合に、評価対象のコンテンツの信頼度を減少させ てもよい。これにより、例えば、コンテンツの同一性が保たれているウェブページとコン テンッの同一性が保たれて 、な 、ウェブページとの信頼度を差別ィ匕することができる
[0181] なお、同一性判断部 700は、過去に収集された評価対象のコンテンツの内容と、新 たに収集された評価対象のコンテンツの内容とが完全に一致していることを同一性の 条件とする必要はない。例えば、ブログや-ユースなどのコンテンツでは、過去に記 載された事項に新たな事項が順次追加される場合がある。このような場合には、同一 性判断部 700は、先のタイミングで収集された評価対象のコンテンツが後のタイミン グで収集された評価対象のコンテンツの一部と同一であると判断された場合にも同 一性が保たれていると判断してもよい。これによれば、先のタイミングで収集された評 価対象のコンテンツ力 後のタイミングで収集された評価対象のコンテンツの一部とし て包含され、かつ先のタイミングで収集された評価対象のコンテンツの同一性が保た れている場合にも、評価対象の信頼度が増加される。
[0182] (実施の形態 12)
実施の形態 1では評価対象のコンテンツの収集が可能であった力否かに応じて当 該コンテンツの信頼度を増減させた力 実施の形態 12では収集の可否の結果にカロ え、収集された評価対象のコンテンツの独自性が判断され、この判断結果に応じて、 評価対象のコンテンツの信頼度が増減される。図 34は、実施の形態 12に係る情報 検索提供装置 100の構成を示す。図 3と同等の構成には同じ符号を与え適宜説明を 略す。実施の形態 12に係る情報検索提供装置 100は、図 3に示した実施の形態 1に 係る情報検索提供装置 100の構成に加えて、比較用コンテンツ登録部 800、比較用 コンテンツ保持部 802、および独自性判断部 810をさらに備える。
[0183] 比較用コンテンツ登録部 800は、比較用コンテンツとして、独自性を有する画像、 動画、文章、音声データ、プログラムなどのコンテンツを受け付け、比較用コンテンツ 保持部 802に登録する。比較用コンテンツは、著作権が発生していることが好ましい 。本実施の形態では、コンテンツが登録される際に、コンテンツの登録者およびコン テンッの権利者の情報も合わせて登録される。
[0184] 図 35は、比較用コンテンツ保持部 802に格納された比較用コンテンツ情報ファイル の一例を示す。比較用コンテンツ情報ファイルは、コンテンツを識別するコンテンツ I D803に対応づけて、コンテンツ 804、登録日 805、登録者 806および権禾 IJ者 807を 格納している。
[0185] 独自性判断部 810は、評価対象のコンテンツと、評価対象のコンテンツが収集され た時点で収集済みの比較用コンテンツとを比較して、評価対象のコンテンツの独自 性を判断する。独自性判断部 810は、比較用コンテンツ保持部 802を参照し、評価 対象のコンテンツが既に登録されているカゝ否かを調べる。評価対象のコンテンツが比 較用コンテンツ保持部 802に登録されていない場合には、評価対象のコンテンツは 独自性が高いと判断される。
[0186] なお、独自性判断部 810は、評価対象のコンテンツが比較用コンテンツ保持部 80 2に登録されて ヽな 、場合であっても、評価対象のコンテンッが比較用コンテンッ保 持部 802に登録されたコンテンツの一部を改変したものと判断できる場合には、評価 対象のコンテンツは独自性が低いと判断してもよい。評価対象のコンテンツが比較用 コンテンツ保持部 802に登録されたコンテンツの一部を改変したものである力否かは 、例えば、評価対象のコンテンツと比較用コンテンツ保持部 802に登録されたコンテ ンッとの類似性を所定の基準に基づ ヽて数値化し、得られた数値が基準値以上であ る力否かにより判定することができる。
[0187] 信頼度制御部 130は、独自性判断部 810により評価対象のコンテンツの独自性が 高いと判断された場合に、評価対象のコンテンツの信頼度を増加させる。一方、信頼 度制御部 130は、独自性判断部 810により評価対象のコンテンツが他のコンテンツ を改変したものであると判断された場合に、評価対象のコンテンツの信頼度を減少さ せてもよい。なお、評価対象のコンテンツが他のコンテンツを改変したものであっても 、比較用コンテンツ保持部 802の権利者と、評価対象のコンテンツの提供者が同じで あれば、評価対象のコンテンツの信頼度を下げる必要はない。これによれば、例えば 、コンテンツの独自性が高 、ウェブページとコンテンツの独自性が低 、ウェブページ との信頼度を差別ィ匕できる。 [0188] (実施の形態 13)
実施の形態 1では、評価対象のコンテンツの収集が可能であった力否かに応じて 当該コンテンツの信頼度が増減される。当該コンテンツの信用度はそれを運営する 情報提供者の他のシステムの信用度にも対応することは既に述べた。実施の形態 1 3では、当該コンテンツの所在情報の信頼度が、当該コンテンツの信頼度に応じて求 められる。当該コンテンツの所在情報の具体例としては、当該コンテンツの URL、さ らに前記 URLカゝら抽出されるドメイン名が挙げられる。その他、ドメイン名に割り振ら れる IPアドレスが固定されている場合には、 IPアドレスと当該コンテンツの信頼度とを 対応させることにより、 IPアドレスの信頼度が求められる。また、ドメイン名を含む電子 メールアドレスの信頼度と、当該コンテンツの信頼度とを対応させることにより、電子メ ールアドレスの信頼度が求められる。個々のドメイン名や IPアドレスの信頼度を求め ることにより、ドメイン名や IPアドレスについて所定の属性により分類されたグループ 毎の信頼度をさらに求めることができる。
[0189] 図 36は、実施の形態 13に係る情報検索提供装置 100の構成を示す。実施の形態 13に係る情報検索提供装置 100に関して、図 3と同等の構成には同じ符号を与え適 宜説明を略す。実施の形態 13に係る情報検索提供装置 100は、実施の形態 1に係 る情報検索提供装置 100の構成に加えて、所在情報抽出部 1000と、信頼度変換部 1100と、グループ別信頼度算出部 1200、グループィ匕情報保持部 1250、所在情報 信頼度保持部 1300とを備える。また、実施の形態 13に係る情報検索提供装置 100 が備える検索制御部 110は、検索条件文解析部 1500をさらに含む。
[0190] 所在情報抽出部 1000は、検索情報保持部 180に保持された URLからドメイン名 部分を抽出し、検索情報保持部 180に格納する。例えば、所在情報抽出部 1000は 、「http: //www.abc.co.jp/a.html」と!、う URL力ら「abc.co.jp」と!、うドメイン名咅 |5 分を抽出する。図 37は、検索情報保持部 180に格納された検索情報ファイルのデー タ構造の一例を示す。本実施の形態の検索情報保持部 180は、図 4に示した構成に 加えて抽出ドメイン名 1400を有する。所在情報抽出部 1000によって抽出されたドメ イン名は、抽出ドメイン名 1400の欄に書き込まれる。
[0191] 信頼度変換部 1100は、ドメイン名信頼度変換部 1110と、電子メールアドレス信頼 度変換部 1120と、 IPアドレス信頼度変換部 1130とを含む。
[0192] ドメイン名信頼度変換部 1110は、コンテンツの信頼度を基にドメイン名の信頼度を 算出し所在情報信頼度保持部 1300に格納する。原則的には、ドメイン名の信頼度 は、コンテンツの信頼度から直接求められる力 コンテンツの信頼度以外の情報をカロ 味してドメイン名の信頼度を算出してもよい。例えば、ドメイン名を所有する団体また はドメインの属性、ドメイン名の不正利用などの情報を加味してドメイン名の信頼度を 算出することができる。
[0193] ドメイン名の信頼度を算出することは、そのドメイン名を含む電子メールアドレスの 信頼度を算出することと同義であると考えてもよい。そこで、電子メールアドレス信頼 度変換部 1120は、コンテンツの信頼度に基づいて電子メールアドレスに含まれるド メイン名の信頼度を算出し、所在情報信頼度保持部 1300に格納する。原則的には 、電子メールアドレスの信頼度は、コンテンツの信頼度から求められたドメイン名の信 頼度と一致するが、コンテンツの信頼度以外の情報を加味して算出してもよい。例え ば、前記ドメイン名がスパムメールなどに利用されて 、るなどのコンテンツ以外の情報 を加味して電子メールアドレスの信頼度を算出することができる。
[0194] また、ドメイン名の信頼度は、そのドメイン名に割り振られた IPアドレスの信頼度と同 義であると考えてよい。そこで、 IPアドレス信頼度変換部 1130は、コンテンツの信頼 度を基にドメイン名の信頼度を算出し、算出された信頼度をそのドメイン名に割り振ら れた IPアドレスの信頼度として所在情報信頼度保持部 1300に格納する。原則的に は、 IPアドレスの信頼度は、ドメイン名の信頼度と一致する力 コンテンツの信頼度以 外の情報を加味してドメイン名の信頼度を算出してもよい。例えば、 IPアドレスが割り 振られたサーバによるスパム行為やサーバのセキュリティ上の脆弱性の情報などをカロ 味して IPアドレスの信頼度を算出することができる。
[0195] グループ別信頼度算出部 1200は、ドメイン名種別分類部 1210と、ドメイン名種別 信頼度算出部 1220と、 ISP分類部 1230と、 ISP信頼度算出部 1240とを含む。
[0196] ドメイン名種別分類部 1210は、検索情報保持部 180に保持された URLカゝら抽出 されたドメイン名カゝら com、 co.jpなどの種別ドメイン名をさらに抽出し、検索情報保持 部 180に格納する。図 37に示すように、本実施の形態の検索情報保持部 180には、 ドメイン名種別 1402がデータ列としてさらに加えられて 、る。ドメイン名種別分類部 1 210によって抽出されたドメイン名種別は、ドメイン名種別 1402の欄に書き込まれる
[0197] ドメイン名種別信頼度算出部 1220は、 com, co.jpなどのドメインの種別毎の信頼 度を算出し、所在情報信頼度保持部 1300に格納する。例えば comドメインのドメイ ン名信頼度 1306力それぞれ 300、 300、 200であれば(300 + 300 + 200) ÷ 3 = 2 67として求めることができる。
[0198] ISP分類部 1230は、グループィ匕情報保持部 1250を参照し、検索情報保持部 180 に格納されて 、る IPアドレス欄 302から対応する ISPに関する情報を取得し、検索情 報保持部 180に格納する。図 38は、グループィ匕情報保持部 1250に格納された IPァ ドレス情報テーブルの一例を示す。図 38に示す IPアドレス情報テーブルは、 IPアド レス 1262と、各 IPアドレスを担当する国別担当レジストリー 1264と、各 IPアドレスを 担当する担当 ISP1266と、を含む。なお、グループ化情報保持部 1250に格納され る IPアドレスおよびこれに付随する担当 ISP等の情報は、グループ化情報入力部(図 示せず)により、適宜追加または修正が可能である。
[0199] ISP分類部 1230が、ある IPアドレスに対応する担当 ISPの情報を取り出す場合に は、図 8に示した IPアドレス情報テーブルを参照して、当該 IPアドレスに対応する担 当 ISPを参照して、検索情報保持部 180に格納する。図 37に示すように、本実施の 形態の検索情報保持部 180には、担当 ISP1404がさらにデータ列としてカ卩えられて いる。 ISP分類部 1230によって抽出された ISPは、担当 ISP1404の欄に書き込まれ る。検索情報保持部 180に、 IPアドレスに対応する担当レジストリー、サーバ名など の情報が格納されてもよい。
[0200] ISP信頼度算出部 1240は、検索情報保持部 180を参照し、 ISP毎の信頼度を算 出し、所在情報信頼度保持部 1300に格納する。例えば A社を ISPとする IPアドレス 信頼度力 sそれぞれ 600、 200、 80であれば、 ISP信頼度は、 (600 + 200 + 80) ÷ 3 = 293として求めることができる。
[0201] 所在情報信頼度保持部 1300は、ドメイン名および IPアドレス毎の信頼度、ドメイン 名種別毎の信頼度、担当 ISP毎の信頼度など、コンテンツの所在に関連する信頼度 を保持する。
[0202] 図 39、図 40、および図 41は、所在情報信頼度保持部 1300に格納された各種信 頼度テーブルの一例を示す。
[0203] 図 39は、ドメイン名および IPアドレスに対応づけられた信頼度テーブルの一例を示 す。図 39に示す信頼度テーブルは、 IPアドレス 1302、抽出ドメイン名 1304、ドメイン 名信頼度 1306、電子メールアドレス信頼度 1308、および IPアドレス信頼度 1310を 含む。図 39に示す信頼度テーブルを参照することにより、特定の IPアドレス 1302ま たは抽出ドメイン名 1304に対応するドメイン名信頼度 1306、電子メールアドレス信 頼度 1308、または IPアドレス信頼度 1310を抽出することができる。
[0204] 図 40は、ドメイン名種別に対応づけられた信頼度テーブルの一例を示す。図 40に 示す信頼度テーブルは、ドメイン名種別 1312およびドメイン名種別信頼度 1314を 含む。図 40に示す信頼度テーブルを参照することにより、特定のドメイン名種別 131 2に対応するドメイン名種別信頼度 1314を抽出することができる。
[0205] 図 41は、担当 ISPに対応づけられた信頼度テーブルの一例を示す。図 41に示す 信頼度テーブルは、担当 ISP1316および ISP信頼度 1318を含む。図 41に示す信 頼度テーブルを参照することにより、特定の担当 ISP 1316に対応する ISP信頼度 13 18を抽出することができる。
[0206] ユーザによって端末装置 50に入力された検索条件文は、情報検索提供装置 100 の検索条件文取得部 112によって取得される。検索条件文解析部 1500は、取得し た検索条件文にドメイン名、電子メールアドレス、または IPアドレスが含まれる力否か を解析する。
[0207] 検索条件文がドメイン名を含むカゝ否かは、検索条件文がドメイン名の構成様式を満 たしている力否かにより判断される。例えば、検索条件文が以下の条件を満たしてい る場合には、検索条件文がドメイン名を含むと判断される。
[0208] <条件 >
(1)文字列がピリオド「-」で区切られて 、ること。
(2)右力も数えて最初のピリオドより右側の部分的な文字列が、「com」 rnetj「jp」など のトップレベルドメインに合致して 、ること。 (3)右力 数えて 2番目のピリオドと、右力 数えて最初のピリオドとの間の部分的な文 字列が、「ac」「co」などの第 2レベルドメインに合致していること。
[0209] 検索条件文が電子メールアドレスを含む力否かは、検索条件文が電子メールァドレ スの構成様式を満たしているか否かにより判断される。例えば、検索条件文が「x@y . zj (xは任意の文字あるいは数字の列、 y. zは上記の条件に合致するドメイン名)で あれば、検索条件文が電子メールアドレスを含むと判断される。
[0210] また、検索条件文が IPアドレスを含む力否かは、検索条件文が IPアドレスの構成様 式を満たしている力否かにより判断される。例えば、検索条件文が「0.0.0.0〜255.255 .255.255」の範囲に当てはまれば、検索条件文が IPアドレスを含むと判断される。
[0211] 検索条件文解析部 1500により、検索条件文にドメイン名が含まれると判断された 場合には、検索部 114は、検索情報保持部 180に格納されている検索情報ファイル を参照し、抽出ドメイン名 1400から検索条件文のドメイン名に合致する情報を検索 する。検索結果提供部 116は、検索で得られた情報を一覧化したものを検索結果と して端末装置 50に提供する。このとき信頼度提示部 118は、図 39を参照して、抽出 ドメイン名 1304に対応するドメイン名信頼度 1306を端末装置 50に提供する。
[0212] 検索条件文解析部 1500により、検索条件文に電子メールアドレスが含まれると判 断された場合には、検索部 114は、検索情報保持部 180に格納されている検索情報 ファイルを参照し、抽出ドメイン名 1400から検索条件文の電子メールアドレスに含ま れるドメイン名に合致する情報を検索する。検索結果提供部 116は、検索で得られた 情報を一覧化したものを検索結果として端末装置 50に提供する。このとき信頼度提 示部 118は、図 39を参照して、抽出ドメイン名 1304に対応する電子メールアドレス 信頼度 1308を端末装置 50に提供する。
[0213] 検索条件文解析部 1500により、検索条件文に IPアドレスが含まれると判断された 場合には、検索部 114は、検索情報保持部 180に格納されている検索情報ファイル を参照し、 IPアドレス欄 302から検索条件文の IPアドレスに合致する情報を検索する 。検索結果提供部 116は、検索で得られた情報を一覧化したものを検索結果として 端末装置 50に提供する。このとき信頼度提示部 118は、図 39を参照して、 IPァドレ ス 1302に対応する IPアドレス信頼度 1310を端末装置 50に提供する。 [0214] また、検索条件文取得部 112によって検索条件文が取得された場合に、検索条件 文解析部 1500は、取得した検索条件文にドメイン名種別、または ISP名が含まれる か否かを解析してもよい。
[0215] 検索条件文がドメイン名種別を含むカゝ否かは、検索条件文がドメイン名の構成様式 を満たしているカゝ否かに加えて、ドメイン名が所定のドメイン名種別に分類可能カゝ否 かにより判断される。この場合、グループィ匕情報保持部 1250が、図 42に示すような ドメイン名種別テーブルを格納することが好適である。図42に示すドメイン名種別テ 一ブルは、ドメイン名種別 1268に対応して、使用あるいは運用の目的 1270、当該ド メイン種別が割り当てられた国 1272を含む。
[0216] また、検索条件文が ISPを含む力否かは、図 41に示す信頼度テーブルを参照し、 検索条件文が担当 ISP1316のいずれかに該当する力否かにより判断される。
[0217] 検索条件文解析部 1500により、検索条件文にドメイン名種別が含まれると判断さ れた場合には、検索部 114は、検索情報保持部 180に格納されている検索情報ファ ィルを参照し、ドメイン名種別 1402から検索条件文のドメイン名種別に合致する情 報を検索する。検索結果提供部 116は、検索で得られた情報を一覧化したものを検 索結果として端末装置 50に提供する。このとき信頼度提示部 118は、図 40を参照し て、ドメイン名種別 1312に対応するドメイン名種別信頼度 1314を端末装置 50に提 供する。
[0218] 一方、検索条件文解析部 1500により、検索条件文に ISPが含まれると判断された 場合には、検索部 114は、検索情報保持部 180に格納されている検索情報ファイル を参照し、担当 ISP1404から検索条件文の ISPに合致する情報を検索する。検索結 果提供部 116は、検索で得られた情報を一覧化したものを検索結果として端末装置 50に提供する。このとき信頼度提示部 118は、図 41を参照して、担当 ISP1316に対 応する ISP信頼度 1318を端末装置 50に提供する。
[0219] 本実施の形態によれば、コンテンツの持つ信頼度を基に、当該コンテンツに対応す る IPアドレスや、ドメイン名の信頼度を算出することにより、電子メールアドレスの信頼 度をはじめ、担当 ISPや、レジストリー、さらに国毎のドメイン種別などの信頼度を求 めることができる。このように、コンテンツのみならず、コンテンツに関連するドメイン名 等の信頼度を数値ィヒすることにより、ドメイン等の運営者に対してコンテンツの信頼度 の改善を促す効果も期待できる。具体的には、 ISPが悪質な業者へ IPアドレスを割り 振ることがな 、ように自制したり、国全体で IPアドレスの管理を行うための適正な政策 実施などが挙げられる。
[0220] 本実施形態では、提供されるコンテンツの信頼度に基づ ヽて、ドメイン名、電子メー ルアドレスまたは IPアドレスの信頼度が提供される力 ドメイン名、電子メールアドレス または IPアドレスのうち少なくとも 1つの信頼度を含むいずれの組み合わせの構成も 可能である。
[0221] 以上、本発明を実施の形態をもとに説明した。実施の形態は例示であり、それらの 各構成要素や各処理プロセスの組み合わせに 、ろ 、ろな変形例が可能なこと、また そうした変形例も本発明の範囲にあることは当業者に理解されるところである。以下、 変形例を挙げる。
[0222] (変形例 1)
実施の形態に係る情報検索提供装置 100は一つの装置として存在されていたが、 変形例の構成として、情報検索提供装置 100を 2つのサーバの協働によって実現し てもよい。一例として、図 3の検索制御部 110を検索用サーバ側に設け、それら以外 の機能ブロックを収集用サーバ側に置いてもよい。当然ながら、図 3の構成をこれ以 外の部分で分割して検索用サーバ側と収集用サーバ側に分配することができる。ど のような分配がよいかについては、サーバ管理者の管理の利便性、 2つのサーバの 負荷バランス、両者の通信量などの要素を考慮して定めることができる。
[0223] (変形例 2)
実施の形態 8に係る情報検索提供装置 100は、実施の形態 1、実施の形態 3、実施 の形態 5、実施の形態 6および実施の形態 7に係る情報検索提供装置 100が有する 構成要素を備えたが、別の変形例の構成として、その組み合わせはこれに限定され ない。例えば、実施の形態 1に係る情報検索提供装置 100の構成要素と実施の形態 2に係る情報検索提供装置 100の構成要素を含む装置を新たな情報検索提供装置 100としてもよい。
[0224] (変形例 3) 実施の形態 3では評価対象のコンテンツが更新されているか否かに応じて当該コン テンッの信頼度を増減させたが、さらに別の変形例として、情報検索提供装置 100 は当該コンテンツの内容を分析する分析部を備え、分析部による分析の結果、評価 対象のコンテンツの信頼度を上昇させる項目を含んでいる場合は、信頼度を評価対 象のコンテンツの信頼度を増力!]させてもよい。以下、当該項目の一例を示す。なお、 この分析部は内部に時間情報を取得するためのタイマやプログラムのソースを解析 するソース解析部を備えるものとする。
(ァ)コンテンツに SSL (Secure Sockets Layer)対策などのセキュリティ対策を行って いるとき
(ィ)コンテンツがクレジット決済を扱っているとき
(ゥ)コンテンツが有料ドメイン名を使用して 、るとき
(ェ)コンテンツが悪質なプログラムを用いて ヽな 、とき
(ォ)コンテンツの利用者およびアクセス数が多 、とき
(力)コンテンツへアクセスした際の応答時間が短いとき
(キ)コンテンツ内の電子メールアドレスに当該コンテンツのウェブページのドメイン名 が含まれているとき
(ク)性的な内容や暴力的な内容など公序良俗に反する内容を含んでいないとき
[0225] (変形例 4)
実施の形態では、検索情報保持部 180に保持されているコンテンツすべてを検索 結果の提示対象としていたが、さらに別の変形例として、情報検索提供装置 100は、 検索結果のうち信頼度の高いコンテンツしかユーザに提示させない提示制限部を備 えてもよい。インターネット上には悪質なウェブページもあり、信頼度が低いコンテン ッをそもそもユーザに提示させないことによって、ユーザ全体における信頼度の低い ウェブページへのアクセスを軽減できる。
[0226] (変形例 5)
実施の形態 7では、判断対象項目、例えば採用関連情報の整合性の有無に応じて 、お互いに関連する自コンテンツと他コンテンツの信頼度を同時に制御した力 さら に別の変形例として、コンテンツ取得部 147により取得されたコンテンツのうち、判断 対象項目を掲載して 、るコンテンツが多!、ほど自コンテンツの信頼度を上げても良 ヽ 。例えば、判断対象項目が採用関連情報であり、「新卒募集」であったとき、信頼度 制御部 130は、その「新卒募集」を含むコンテンツが多いほど、自コンテンツの信頼 度を増加させる。
[0227] (変形例 6)
さらに別の変形例として、実施の形態 1〜8に係る情報検索提供装置 100に将来の コンテンツの信頼度を予測する予測部をさらに設けてもよい。予測部は、評価対象の コンテンツに含まれるコンテンツの存続期間の推測に供する要素に基づいて、評価 対象のコンテンツの信頼度を予測する。コンテンツの存続期間の推測に貢献する要 素とは、例えば、コンテンツの情報提供者が個人であれば、当該個人の年齢に相当 し、一方、企業であれば、会社の成長率に相当する。前者の例でいえば、個人の年 齢が「30歳」であれば、通常の人の寿命である「80歳」まで、すなわち現在から 50年 後のコンテンツの信頼度を予測する。予測の際、現在の信頼度の増加幅を維持する という条件のもとで、 50年後のコンテンツの信頼度を予測してもよい。信頼度提示部 118はその予測された信頼度をユーザに提示する。これにより、ユーザは現在、過去 の信頼度の変化の様子を知るだけでなぐ将来のコンテンツの信頼度を知ることで、 信頼度がさらに増加していれば、より安心してコンテンツを利用することができる。
[0228] (変形例 7)
実施の形態 1では、収集部 128によるコンテンツの収集の可否に応じて信頼度の増 減を制御した力 さらに別の変形例として、収集部 128によりコンテンツが収集されな いとき、情報検索提供装置 100に新たに設けられた確認部が、確認対象項目につい てコンテンツの収集の否に関する確認を行っても良い。以下、確認対象の項目の一 例を示す。サーバ移転情報やサーバ故障情報に含まれるキーワードは、図示しない 確認対象項目保持部にあら力じめ保持されて 、る。
(A)コンテンツ内に「移転しました」などのサーバ移転情報があるか否か
(B)コンテンツ内に「ウェブサーバ故障中」などのサーバ故障情報がある力否か それらサーバ移転情報やサーバ故障情報が評価対象のコンテンツ内に含まれて いるとき、評価対象のコンテンツが収集されなくても、信頼度制御部 130は、評価対 象のコンテンツの信頼度を減少させないよう制御してもよい。また、このとき、アクセス 可否判断部 124は、その情報がコンテンツ内に掲載されている期間内において、評 価対象のコンテンツのアクセス履歴欄 322内にフラグ「〇」を設定する。また、例えば 、評価対象のコンテンツの収集の否が 10日間続いたとき、確認部はドメイン名を管理 する第三者機関のデータベースにアクセスして、評価対象のコンテンツを掲載するゥ エブサーバのドメイン名をキーにして、当該ウェブサーバを提供する情報提供者の状 態を把握してもよい。これにより、情報提供者の責めに期する理由がなぐ情報提供 者がコンテンツを提供できなかったとき、当該コンテンツの信頼度の減少をさせな!/、こ とで、当該コンテンツを救済できる。
[0229] (変形例 8)
実施の形態 1〜8では、情報検索提供装置 100は検索結果としてコンテンツとコン テンッの信頼度の一覧をユーザに示した力 さらに別の変形例として、ユーザが、そ の情報を用いて、例えば実際の店舎 に赴いたり、あるいはインターネットショッピング で売買をしたりしたとき、情報検索提供装置 100はユーザからのそのコンテンツに対 する信頼度に関する評価値を取得し、現在の当該コンテンツの信頼度に反映させる 。本変形例では、実施の形態 1〜8に係る情報検索提供装置 100に、新たに評価値 取得部が設けられる。
[0230] 評価値取得部はユーザ力 のコンテンツに対する信頼度に関する評価値を取得す る。その評価値取得部を介して、ユーザ力 コンテンツの信頼度に関する、低い方か ら高 、方へ「一 5」〜「5」の 10段階評価で表現された評価値を取得し、信頼度制御 部 130はその評価値を現在のコンテンツの信頼度に加算する。これにより、コンテン ッを利用した際のユーザからの当該コンテンツに対する評価を取り込むことができ、 より的確な信頼度を提示できる情報検索サービスを実現できる。
[0231] (変形例 9)
実施の形態 2では、信頼度の高いコンテンツ内に、当該コンテンツと評価対象のコ ンテンッとの間に関連性があることを示す関連情報が含まれる力否かに基づいて関 連性の有無を判断したが、本変形例では、評価対象のコンテンツ内に、評価対象の コンテンツと信頼度の高いコンテンツとの間に関連性があることを示す関連情報が含 まれるカゝ否かに基づいて、関連性の有無を判断する。例えば、関連性判断部 134は 、評価対象のコンテンツ内に、当該関連情報、例えば、評価対象のコンテンツから信 頼度の高いコンテンツへのリンクが含まれているかどうか判断する。具体的には、関 連性判断部 134は、評価対象のコンテンツに含まれるタグく A HREF = "〜">内の 「〜」に、信頼度の高いコンテンツを掲載するウェブページの URLが含まれているか どうか判断する。このとき、信頼度の高いコンテンツを掲載するウェブページの URL は、関連性判断部 134により検索情報保持部 180に保持された検索情報ファイルか ら取得される。
[0232] 信頼度制御部 130は、関連性判断部 134により関連性があると判断されたときにお ける評価対象のコンテンツの信頼度の増加幅を、関連性がないと判断されたときにお ける評価対象のコンテンツの信頼度の増加幅よりも高く制御する。これにより、例えば 、評価対象のコンテンツ内に信頼度の高いウェブページへのリンクがある場合と、信 頼度の高いウェブページへのリンクがない場合とを差別ィ匕できる。信頼度制御部 130 は、評価対象のコンテンツ内に、信頼度の高い複数のコンテンツの URLと合致する ものがあれば合致する数だけ信頼度の増加幅を増力!]させてもよい。例えば、合致す るものが三つあれば、評価対象のコンテンツの現在の増加幅にさらに「3」を加算する 。これにより評価対象のコンテンツに信頼度の高 、コンテンツへのリンクが張られれば 張られるほど、信頼度の増加幅を大きくすることができる。
[0233] (変形例 10)
実施の形態 2および変形例 9では、評価対象のコンテンツと信頼度の高 、コンテン ッとの関連性の有無を判断したが、さらに別の変形例として、評価対象のコンテンツ と信頼度の低 、コンテンツとの関連性の有無を判断する。本変形例における関連性 判断部 134による関連性の有無の判断方法については、実施の形態 2および変形 例 9における関連性の有無の判断方法と同様である。すなわち、関連性判断部 134 は、信頼度の低いコンテンツ内に、当該コンテンツと評価対象のコンテンツとの間に 関連性があることを示す関連情報が含まれるか否かに基づいて、評価対象のコンテ ンッと信頼度の低いコンテンツとの関連性の有無を判断する。さらに、関連性判断部 134は、評価対象のコンテンツ内に、当該コンテンツと信頼度の低いコンテンツとの 間に関連性があることを示す関連情報が含まれるか否かに基づいて、評価対象のコ ンテンッと信頼度の低 、コンテンツとの関連性の有無を判断してもよ!/、。
[0234] 前者の判断の場合、信頼度制御部 130は、関連性判断部 134による関連性の有 無の判断の結果を、評価対象のコンテンツの信頼度の増加幅の増減に反映させな い。信頼度の低いコンテンツは信頼のおけない情報を有する可能性が高ぐリンクな どの関連情報の存在自体を無視した方が有意義であるためである。後者の判断の場 合、信頼度制御部 130は、関連性判断部 134により関連性があると判断されたときに おける評価対象のコンテンツの信頼度の増加幅を、関連性がないと判断されたときに おける評価対象のコンテンツの信頼度の増加幅よりも低く制御する。これにより、例え ば、評価対象のコンテンツ内に、性的な内容や暴力的な内容など公序良俗に反する 内容を含んだ、信頼度の低いコンテンツへのリンクが有る場合と、信頼度の低いゥェ ブページへのリンクがない場合とを差別ィ匕できる。
[0235] (変形例 11)
実施の形態 6では単一の観点力 評価対象のコンテンツの信頼度を増減させたが 、本変形例では、複数の観点力 評価対象のコンテンツの信頼度を増減させる。この とき、要素抽出部 144は、信頼度の評価の観点ごとに、前記評価対象のコンテンツの 信頼度の増加あるいは減少に貢献する要素を抽出する。具体的には、信頼度の評 価の観点が、例えば「採用」であれば、要素抽出部 144は、関連コンテンツ取得部 14 2により取得されたコンテンツの中から、「採用」に関連する、評価対象のコンテンツの 信頼度の増加あるいは減少に貢献する要素を抽出する。
[0236] 信頼度の評価の観点、例えば「採用」に関するキーワードは、あら力じめ図示しない 観点保持部に保持されていてもよい。「採用」に関するキーワードとは例えば、「採用 実績人数」や「採用予定人数」などが挙げられる。このとき、要素抽出部 144は、関連 コンテンツ取得部 142により取得されたコンテンツに対して、観点保持部の保持され たキーワードおよび前述の貢献保持部に保持されたキーワードを指定して検索し合 致した情報を取得する。具体的には、要素抽出部 144は、「採用実績人数」と「増カロ」 を AND条件として検索すれば、「採用」の観点力 信頼度の増加に貢献する要素を 抽出できる。 [0237] 信頼度制御部 130は、信頼度の評価の観点ごとに抽出された要素を参照して、評 価対象のコンテンツの信頼度を増減せしめる。例えば、評価対象のコンテンツが「AB C会社」により提供されるものであり、取得されたコンテンツの中に「ABC会社の採用 人数は増カロした」との記載があれば、「採用」と 、う観点から「増加」 、う要素が要素 抽出部 144により抽出され、その要素は分類部 146により前述の第 1グループに分 類される。このとき、信頼度制御部 130は、「採用」という信頼度の評価の観点力も評 価対象のコンテンツの信頼度を増加せしめる。なお、信頼度制御部 130は、観点ごと に信頼度を設定し、要素抽出部 144による信頼度の評価の観点ごとに抽出された結 果に基づいて、観点ごとにそれぞれの信頼度を増減せしめてもよい。このとき、信頼 度制御部 130は、観点ごとに得られたそれぞれの信頼度を合計して、一つの評価対 象のコンテンツの信頼度としてもよい。本変形例によれば、評価対象のコンテンツの 信頼度を様々な観点力 評価でき、信頼度の精度が高まる。
産業上の利用可能性
[0238] 本発明によれば、ユーザ利便性の高 、情報検索サービスを提供できる。

Claims

請求の範囲
[1] 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置であって、
ウェブページに掲載される評価対象のコンテンツをネットワークを介して所定のタイ ミングで収集する収集部と、
前記収集部による前記評価対象のコンテンツの収集の可否に応じて、前記評価対 象のコンテンツの信頼度を増減せしめる信頼度制御部と、
を備えることを特徴とする情報検索提供装置。
[2] ユーザから検索条件文を取得する検索条件文取得部と、
前記取得した検索条件文に合致したコンテンツを検索する検索部と、
前記検索されたコンテンツの前記信頼度をユーザに提示する信頼度提示部と、 をさらに備えることを特徴とする請求項 1に記載の情報検索提供装置。
[3] 前記評価対象のコンテンッに含まれる当該コンテンッの存続期間の推測に供する 要素に基づいて、前記評価対象のコンテンツの信頼度を予測する予測部をさらに備 え、
前記信頼度提示部は前記予測された信頼度をユーザに提示することを特徴とする 請求項 2に記載の情報検索提供装置。
[4] 前記信頼度制御部は、前記収集部により前記評価対象のコンテンツが所定のタイミ ングで連続して収集される期間内において、前記評価対象のコンテンツの信頼度を 徐々に増加せしめることを特徴とする請求項 1から 3のいずれかに記載の情報検索提 供装置。
[5] 前記収集部による前記評価対象の収集の可否の履歴に応じて当該評価対象のコ ンテンッの信頼度の増加幅を制御する履歴増加幅制御部をさらに備えることを特徴 とする請求項 1から 4のいずれかに記載の情報検索提供装置。
[6] 前記評価対象のコンテンツと信頼度の高 、コンテンツとの関連性の有無を判断す る関連性判断部をさらに備え、
前記信頼度制御部は、前記関連性判断部により関連性があると判断されたときに おける前記評価対象のコンテンツの信頼度の増加幅を、関連性がな!、と判断された ときにおける前記評価対象のコンテンツの信頼度の増加幅よりも高く制御することを 特徴とする請求項 1から 5のいずれかに記載の情報検索提供装置。
[7] 前記関連性判断部は、前記信頼度の高いコンテンツ内に、当該コンテンツと前記 評価対象のコンテンツとの間に関連性があることを示す関連情報が含まれる力否か に基づいて、前記評価対象のコンテンツと前記信頼度の高いコンテンツとの関連性 の有無を判断することを特徴とする請求項 6に記載の情報検索提供装置。
[8] 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置であって、
ウェブページに掲載される評価対象のコンテンツをネットワークを介して所定のタイ ミングで収集する収集部と、
前記収集された評価対象のコンテンツの内容と、当該コンテンツを掲載するウェブ ページと同一のウェブページ力 次に収集される評価対象のコンテンツの内容とを比 較する比較部と、
前記比較の結果に基づいて前記評価対象のコンテンツが更新された力否かを判 断する更新判断部と、
前記判断の結果に応じて前記評価対象のコンテンツの信頼度を増減せしめる信頼 度制御部と、
を備えることを特徴とする情報検索提供装置。
[9] 前記信頼度制御部は、前記更新判断部により前記評価対象のコンテンツが更新さ れて 、ると所定のタイミングで連続して判断される期間内にお 、て、前記評価対象の コンテンツの信頼度を徐々に増加せしめることを特徴とする請求項 8に記載の情報検 索提供装置。
[10] 前記収集された評価対象のコンテンツの内容を参照し当該コンテンツが本来更新 を必要とするべきものである力否力を分析する更新分析部をさらに備え、
前記信頼度制御部は、前記更新判断部による判断の結果および前記更新分析部 による分析の結果に応じて、前記評価対象のコンテンツの信頼度を増減せしめること を特徴とする請求項 8に記載の情報検索提供装置。
[11] 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置であって、
評価対象のコンテンツに関連するコンテンツを取得する関連コンテンツ取得部と、 前記取得されたコンテンツを参照し前記評価対象のコンテンツの信頼度の増加あ るいは減少に貢献する要素を抽出する要素抽出部と、
前記抽出された要素を参照して前記評価対象のコンテンツの信頼度を増減せしめ る信頼度制御部と、
を備えることを特徴とする情報検索提供装置。
[12] 前記要素抽出部は、前記信頼度の評価の観点ごとに、前記評価対象のコンテンツ の信頼度の増加あるいは減少に貢献する要素を抽出するものであり、前記信頼度制 御部は、前記信頼度の評価の観点ごとに抽出された要素を参照して、前記評価対象 のコンテンツの信頼度を増減せしめることを特徴とする請求項 11に記載の情報検索 提供装置。
[13] 前記抽出された要素それぞれを、前記評価対象のコンテンツの信頼度の増加に貢 献する第 1グループ、ある!ヽは前記評価対象のコンテンツの信頼度の減少に貢献す る第 2グループに分類する分類部をさらに備え、
前記信頼度制御部は、前記分類部により分類された前記第 1グループ内の要素数 が前記第 2グループ内の要素数よりも多いとき、前記評価対象のコンテンツの信頼度 を増加せしめることを特徴とする請求項 11または 12に記載の情報検索提供装置。
[14] 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置であって、
判断対象項目を含むコンテンツを取得するコンテンツ取得部と、
前記取得されたコンテンツのうち、前記判断対象項目の情報発生源となる自コンテ ンッを特定する自コンテンツ特定咅と、
前記特定された自コンテンツの内容と、前記取得されたコンテンツのうち前記自コン テンッ以外の他コンテンツの内容とを比較し、前記判断対象項目の整合性の有無を 判断する整合性判断部と、
前記判断の結果に応じて前記自コンテンツの信頼度と前記他コンテンツの信頼度 とを増減せしめる信頼度制御部と、 を備えることを特徴とする情報検索提供装置。
[15] 前記自コンテンツの信頼度と前記他コンテンツの信頼度とがともに高いときであって 、前記整合性判断部により前記判断対象項目について整合性有りと判断されたとき 、前記信頼度制御部は前記自コンテンツの信頼度と前記他コンテンツの信頼度とを ともに増加せしめることを特徴とする請求項 14に記載の情報検索提供装置。
[16] ウェブページを公開するサーバの所在を示す所在情報を参照して当該サーバにァ クセスするアクセス部と、
前記アクセス部による前記サーバへのアクセスの可否を判断するアクセス可否判断 部と、
前記アクセス可否判断部による判断の結果と前記アクセス部により前記サーバにァ クセスしたタイミングとの対応関係を保持するアクセス履歴保持部と、
前記対応関係を参照し前記アクセス部による前記サーバへのアクセスが最初に可 能になったタイミングを特定するタイミング特定部と、
をさらに備え、
前記信頼度制御部は前記特定されたタイミングにて前記信頼度の増減の制御を開 始することを特徴とする請求項 1から 15のいずれかに記載の情報検索提供装置。
[17] ネットワーク上に接続される端末装置と、前記ネットワークを介してウェブページを提 供するサーバと、当該サーバ上のウェブページに掲載されるコンテンツを収集し、前 記収集されたコンテンツのうち検索条件文に合致したコンテンツを検索結果として前 記端末装置に提供する情報検索提供装置と、を含む情報検索提供システムであつ て、
前記情報検索提供装置は、
ウェブページに掲載される評価対象のコンテンツをネットワークを介して所定のタイ ミングで収集する収集部と、
前記収集部による前記評価対象のコンテンツの収集の可否に応じて、前記評価対 象のコンテンツの信頼度を増減せしめる信頼度制御部と、
を備えることを特徴とする情報検索提供システム。
[18] 評価対象のコンテンツをウェブページに掲載するコンテンツ提供装置と、 ネットワークを介して前記評価対象のコンテンツにアクセスする端末装置と、 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置と、
を備え、
前記端末装置は、前記端末装置に付随するクライアント情報を発信する情報発信 部を有し、
前記情報検索提供装置は、前記評価対象のコンテンツに前記ネットワークを介して アクセスした前記端末装置力 発信されたクライアント情報を直接的または間接的に 受信する情報受信部と、
前記クライアント情報に基づ 、て、前記評価対象のコンテンツの信頼度を増減せし める信頼度増減部と、
を有することを特徴とする情報検索提供システム。
[19] 前記情報発信部は、前記評価対象のコンテンツへのアクセスに関連する情報を前 記クライアント情報として発信し、
前記信頼度増減部は、前記端末装置から前記評価対象のコンテンツへのアクセス 状況に応じて、前記評価対象のコンテンツの信頼度を増減せしめることを特徴とする 請求項 18に記載の情報検索提供システム。
[20] 前記情報発信部は、前記端末装置から前記評価対象のコンテンツへ受け渡される 情報を前記クライアント情報として発信し、
前記信頼度増減部は、前記端末装置から前記評価対象のコンテンツへ受け渡され る情報に応じて、前記評価対象のコンテンツの信頼度を増減せしめることを特徴とす る請求項 18に記載の情報検索提供システム。
[21] 前記コンテンツ提供装置は、前記端末装置が前記評価対象のコンテンツにァクセ スした場合に、前記端末装置力 前記評価対象のコンテンツへのアクセスに関する 情報、および Zまたは前記端末装置から前記評価対象のコンテンツへ受け渡される 情報を、前記端末装置力 前記情報検索提供装置に発信させることを特徴とする請 求項 18乃至 20のいずれか 1項に記載の情報検索提供システム。
[22] 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置であって、
評価対象のコンテンツにアクセスした端末装置力 発信されたクライアント情報を直 接的または間接的に受信する情報受信部と、
前記クライアント情報に基づ 、て、前記評価対象のコンテンツの信頼度を増減せし める信頼度増減部と、
を有することを特徴とする情報検索提供装置。
[23] 前記情報受信部は、前記クライアント情報として前記端末装置から前記評価対象 のコンテンツへのアクセス状況に関する情報を受信し、
前記信頼度増減部は、前記アクセス状況に応じて、前記評価対象のコンテンツの 信頼度を増減せしめることを特徴とする請求項 22に記載の情報検索提供装置。
[24] 前記情報受信部は、前記クライアント情報として前記端末装置から前記評価対象 のコンテンツへ受け渡される情報を受信し、
前記信頼度増減部は、前記端末装置から前記評価対象のコンテンツへ受け渡され る情報に応じて、前記評価対象のコンテンツの信頼度を増減せしめることを特徴とす る請求項 22に記載の情報検索提供装置。
[25] 評価対象のコンテンツをウェブページに掲載するコンテンツ提供装置と、
ネットワークを介して前記評価対象のコンテンツにアクセスする端末装置と、 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置と、
を備え、
前記端末装置は、前記端末装置に付随するクライアント情報を発信する情報発信 部を有し、
前記情報検索提供装置は、前記評価対象のコンテンツに前記ネットワークを介して アクセスした前記端末装置力 発信されたクライアント情報を直接的または間接的に 受信する情報受信部と、
前記クライアント情報に基づ ヽて、前記評価対象のコンテンッに対して見積もられる 資産価値を増減せしめる資産価値増減部と、
を有することを特徴とする情報検索提供システム。
[26] 前記情報発信部は、前記評価対象のコンテンツへのアクセスに関連する情報を前 記クライアント情報として発信し、
前記資産価値増減部は、前記端末装置から前記評価対象のコンテンツへのァクセ ス状況に応じて、前記資産価値を増減せしめることを特徴とする請求項 25に記載の 情報検索提供システム。
[27] 前記情報発信部は、前記端末装置から前記評価対象のコンテンツへ受け渡される 情報を前記クライアント情報として発信し、
前記資産価値増減部は、前記端末装置から前記評価対象のコンテンツへ受け渡さ れる情報に応じて、前記資産価値を増減せしめることを特徴とする請求項 25に記載 の情報検索提供システム。
[28] 前記コンテンツ提供装置は、前記端末装置が前記評価対象のコンテンツにァクセ スした場合に、前記端末装置力 前記評価対象のコンテンツへのアクセスに関する 情報、および Zまたは前記端末装置から前記評価対象のコンテンツへ受け渡される 情報を、前記端末装置力 前記情報検索提供装置に発信させることを特徴とする請 求項 25乃至 27のいずれか 1項に記載の情報検索提供システム。
[29] 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置であって、
評価対象のコンテンツにアクセスした端末装置力 発信されたクライアント情報を直 接的または間接的に受信する情報受信部と、
前記クライアント情報に基づ ヽて、前記評価対象のコンテンッに対して見積もられる 資産価値を増減せしめる資産価値増減部と、
を有することを特徴とする情報検索提供装置。
[30] 前記情報受信部は、前記クライアント情報として前記端末装置から前記評価対象 のコンテンツへのアクセス状況に関する情報を受信し、
前記資産価値増減部は、前記端末装置から前記評価対象のコンテンツへのァクセ ス状況に応じて、前記資産価値を増減せしめることを特徴とする請求項 29に記載の 情報検索提供装置。
[31] 前記情報受信部は、前記クライアント情報として前記端末装置から前記評価対象 のコンテンツへ受け渡される情報を受信し、
前記資産価値増減部は、前記端末装置から前記評価対象のコンテンツへ受け渡さ れる情報に応じて、前記資産価値を増減せしめることを特徴とする請求項 29に記載 の情報検索提供装置。
[32] 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置であって、
ウェブページに掲載される評価対象のコンテンツおよび前記評価対象のコンテンツ 以外の比較用コンテンツをネットワークを介して所定のタイミングで収集する収集部と 前記評価対象のコンテンツおよび前記比較用コンテンツにつ 、て、前記評価対象 のコンテンツの提供者に関連する判定項目の掲載状況をそれぞれ取得し、前記評 価対象のコンテンツにおける前記判定項目の掲載状況と前記比較用コンテンツにお ける前記判定項目の掲載状況とを比較することにより、前記評価対象のコンテンツが 適切に更新されているか否かを判断する更新判断部と、
前記更新判断部の結果に応じて前記評価対象のコンテンツの信頼度を増減せし める信頼度制御部と、
を備えることを特徴とする情報検索提供装置。
[33] 前記更新判断部は、前記比較用コンテンツに前記判定項目が掲載された時点で、 前記評価対象のコンテンツに前記判定項目が掲載されて ヽな ヽ場合に、前記評価 対象のコンテンツが適切に更新されていないと判断することを特徴とする請求項 32 に記載の情報検索提供装置。
[34] 前記更新判断部は、前記評価対象のコンテンツに前記判定項目が掲載された後、 前記比較用コンテンツに前記判定項目が掲載された場合に、前記評価対象のコンテ ンッが適切に更新されていると判断することを特徴とする請求項 32に記載の情報検 索提供装置。
[35] 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置であって、
ウェブページに掲載される評価対象のコンテンツをネットワークを介して所定のタイ ミングで収集する収集部と、
異なるタイミングで収集された前記評価対象のコンテンツの同一性を判断する同一 性判断部と、
前記同一性の判断結果に応じて、前記評価対象のコンテンツの信頼度を増減せし める信頼度制御部と、
を備えることを特徴とする情報検索提供装置。
[36] 前記同一性判断部は、先のタイミングで収集された前記評価対象のコンテンツが後 のタイミングで収集された前記評価対象のコンテンツの一部と同一カゝ否かを判断し、 信頼度制御部は、先のタイミングで収集された前記評価対象のコンテンツが後のタ イミングで収集された前記評価対象のコンテンツの一部と同一であると判断された場 合に、前記評価対象のコンテンツの信頼度を増加させることを特徴とする請求項 35 に記載の情報検索提供装置。
[37] 検索条件文を取得し当該検索条件文に合致したコンテンツを検索結果として提供 する情報検索提供装置であって、
ウェブページに掲載される評価対象のコンテンツおよび前記評価対象のコンテンツ 以外の比較用コンテンツをネットワークを介して所定のタイミングで収集する収集部と 前記評価対象のコンテンツと、前記評価対象のコンテンツが収集された時点で収 集済みの前記比較用コンテンツとを比較して、前記評価対象のコンテンツの独自性 を判断する独自性判断部と、
前記独自性の判断結果に応じて、前記評価対象のコンテンツの信頼度を増減せし める信頼度制御部と、
を備えることを特徴とする情報検索提供装置。
[38] 前記独自性判断部は、前記評価対象のコンテンツが収集された時点で前記評価 対象のコンテンツが収集済みの前記比較用コンテンツを改変したものである場合に、 前記評価対象のコンテンツに独自性がな!、と判断し、
前記信頼度制御部は、前記比較用コンテンツを改変したと判断された前記評価対 象のコンテンツの信頼度を減少させることを特徴とする請求項 37に記載の情報検索 提供装置。
[39] 前記評価対象のコンテンツの所在を示す所在情報を特定する特定部と、
前記信頼度制御部によって増減される前記評価対象のコンテンツの信頼度を、前 記所在情報の信頼度に変換する信頼度変換部をさらに備えることを特徴とする請求 項 1乃至 16、請求項 22乃至 24、請求項 32乃至 38のいずれか 1項に記載の報検索 提供装置。
[40] 共通する属性ごとに前記所在情報を複数のグループに分類する所在情報分類部 と、
前記分類されたグループごとに所在情報の信頼度を算出する所在情報グループ 信頼度算出部と、
をさらに備えることを特徴とする請求項 39に記載の情報検索提供装置。
[41] 前記特定部は、前記所在情報としてドメイン名を特定し、
信頼度変換部は、前記評価対象のコンテンツの信頼度を、前記ドメイン名の信頼度 に変換することを特徴とする請求項 39乃至 40のいずれ力 1項に記載の情報検索提 供装置。
[42] 前記特定部は、前記所在情報として IPアドレスを特定し、
信頼度変換部は、前記評価対象のコンテンツの信頼度を、前記 IPアドレスの信頼 度に変換することを特徴とする請求項 39乃至 40のいずれ力 1項に記載の情報検索 提供装置。
[43] 前記信頼度変換部は、得られた前記所在情報の信頼度に基づ!、て、前記所在情 報を含む電子メールアドレスの信頼度をさらに算出することを特徴とする請求項 39乃 至 42の 、ずれか 1項に記載の情報検索提供装置。
PCT/JP2005/015770 2004-09-07 2005-08-30 情報検索提供装置および情報検索提供システム WO2006027973A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN2005800300132A CN101014954B (zh) 2004-09-07 2005-08-30 信息搜索提供装置及信息搜索提供系统
JP2006535689A JP4719684B2 (ja) 2004-09-07 2005-08-30 情報検索提供装置および情報検索提供システム
US10/590,740 US8341135B2 (en) 2004-09-07 2005-08-30 Information search provision apparatus and information search provision system

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004259725 2004-09-07
JP2004-259725 2004-09-07

Publications (1)

Publication Number Publication Date
WO2006027973A1 true WO2006027973A1 (ja) 2006-03-16

Family

ID=36036259

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/015770 WO2006027973A1 (ja) 2004-09-07 2005-08-30 情報検索提供装置および情報検索提供システム

Country Status (4)

Country Link
US (1) US8341135B2 (ja)
JP (1) JP4719684B2 (ja)
CN (1) CN101014954B (ja)
WO (1) WO2006027973A1 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268957A (ja) * 2005-03-24 2006-10-05 Sony Corp 再生装置および再生方法
JP2008027000A (ja) * 2006-07-18 2008-02-07 Ricoh Co Ltd リンク情報管理システム、リンク情報管理方法及びリンク情報管理プログラム
JP2009535686A (ja) * 2006-04-29 2009-10-01 ピーソレノイド オンライン・コンテンツマーケットプレイス・システム及びその運用方法
JP2009301548A (ja) * 2008-06-10 2009-12-24 Intel Corp ウェブサーチ又はハイパーリンクからのマルウェアリダイレクトを防ぐためのウェブページの信頼を決定する技術
JP2010009180A (ja) * 2008-06-25 2010-01-14 Hitachi Information Systems Ltd 不法入国者を幇助する悪質ブローカーの摘発を支援するシステムおよびその方法
JP2010122885A (ja) * 2008-11-19 2010-06-03 Yahoo Japan Corp ホームページ診断装置、ホームページ診断方法及びプログラム
JP2011175525A (ja) * 2010-02-25 2011-09-08 Nec Corp 検索装置
US20120185596A1 (en) * 2011-01-19 2012-07-19 Canon Kabushiki Kaisha Method and system for managing access to a resource
JP2012168984A (ja) * 2000-03-29 2012-09-06 Risk Monster Kk 与信機能を備えた匿名電子商取引システム及び方法
JP2014119861A (ja) * 2012-12-14 2014-06-30 Alpine Electronics Inc 評価提示システムとこれに用いるサーバならびに端末装置および評価提示方法
WO2016075836A1 (ja) * 2014-11-14 2016-05-19 富士通株式会社 データ検証プログラム、データ検証方法及びデータ検証装置
WO2022019150A1 (ja) * 2020-07-21 2022-01-27 ソニーグループ株式会社 情報処理プログラム、情報処理装置および情報処理方法

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
US9912766B2 (en) * 2007-03-23 2018-03-06 Yahoo Holdings, Inc. System and method for identifying a link and generating a link identifier for the link on a webpage
US9430527B2 (en) * 2007-04-12 2016-08-30 Unicom Systems, Inc. Keyword-based content management
US8073803B2 (en) * 2007-07-16 2011-12-06 Yahoo! Inc. Method for matching electronic advertisements to surrounding context based on their advertisement content
JP2009025871A (ja) * 2007-07-17 2009-02-05 Hewlett-Packard Development Co Lp アクセス制限装置およびその方法。
US20090081629A1 (en) * 2007-09-24 2009-03-26 Chad Walter Billmyer System and method for matching students to schools
US8947421B2 (en) * 2007-10-29 2015-02-03 Interman Corporation Method and server computer for generating map images for creating virtual spaces representing the real world
US20090125319A1 (en) * 2007-11-14 2009-05-14 At&T Delaware Intellectual Property, Inc. Systems, methods, and computer program products for allocating credit based upon distribution of electronic content
US8762571B2 (en) * 2008-03-19 2014-06-24 Go Daddy Operating Company, LLC Interactive DNS for non-controlling party
JP5440394B2 (ja) * 2010-05-31 2014-03-12 ソニー株式会社 評価予測装置、評価予測方法、及びプログラム
CN102236719A (zh) * 2011-07-25 2011-11-09 西交利物浦大学 基于网页分类的网页搜索引擎及快速查找方法
JP2013109539A (ja) * 2011-11-21 2013-06-06 Hitachi Consumer Electronics Co Ltd 商品購入装置および商品購入方法
CN102708144B (zh) * 2012-03-20 2015-05-27 华为技术有限公司 信息处理方法及设备
US9652482B2 (en) * 2012-12-31 2017-05-16 Teradata Us, Inc. Data storage management based on indicated storage levels and other criteria for multilevel storage systems
US11354486B2 (en) * 2013-05-13 2022-06-07 International Business Machines Corporation Presenting a link label for multiple hyperlinks
JP5855072B2 (ja) * 2013-10-31 2016-02-09 ヤフー株式会社 融資システム、信用情報生成装置、融資判定装置、融資条件判定方法、信用情報生成プログラム及び融資条件判定プログラム
US20150149433A1 (en) * 2013-11-26 2015-05-28 Resultly, LLC. System, device, and method for searching network data
CN103634117B (zh) * 2013-12-09 2017-04-05 北京奇虎科技有限公司 一种网购安全防护的控制方法及装置
US9633128B2 (en) 2014-03-13 2017-04-25 Go Daddy Operating Company, LLC Lightweight web page generation
US9501211B2 (en) 2014-04-17 2016-11-22 GoDaddy Operating Company, LLC User input processing for allocation of hosting server resources
US9660933B2 (en) 2014-04-17 2017-05-23 Go Daddy Operating Company, LLC Allocating and accessing hosting server resources via continuous resource availability updates
US9137217B1 (en) * 2014-05-16 2015-09-15 Iboss, Inc. Manage encrypted network traffic using DNS responses
US10164933B2 (en) 2014-12-19 2018-12-25 Go Daddy Operating Company, LLC System and method for domain name system restore points
US10659423B2 (en) 2014-12-19 2020-05-19 Go Daddy Operating Company, LLC System and method for modifying a domain name system template
JP6134369B2 (ja) * 2015-10-28 2017-05-24 株式会社オプティム 端末管理システム及び端末管理方法。
US20220084091A1 (en) * 2020-09-17 2022-03-17 Mastercard International Incorporated Continuous learning for seller disambiguation, assessment, and onboarding to electronic marketplaces

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091638A (ja) * 1996-09-17 1998-04-10 Toshiba Corp 検索システム
JP2001134529A (ja) * 1999-11-04 2001-05-18 Ntt Docomo Inc サーバ、情報処理方法及び記録媒体
JP2001318947A (ja) * 2000-05-12 2001-11-16 Nippon Telegr & Teleph Corp <Ntt> 情報統合システムおよび情報統合方法、ならびにそのプログラムを記録した記録媒体
JP2003271610A (ja) * 2002-03-19 2003-09-26 Toshiba Corp 情報収集装置及び情報収集プログラム
JP2003288305A (ja) * 2002-03-28 2003-10-10 Just Syst Corp ガイド情報提供装置、ガイド情報提供方法およびその方法をコンピュータに実行させるプログラム

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5623652A (en) * 1994-07-25 1997-04-22 Apple Computer, Inc. Method and apparatus for searching for information in a network and for controlling the display of searchable information on display devices in the network
US5715443A (en) * 1994-07-25 1998-02-03 Apple Computer, Inc. Method and apparatus for searching for information in a data processing system and for providing scheduled search reports in a summary format
JPH101638A (ja) 1996-06-17 1998-01-06 Sumitomo Chem Co Ltd 遮光性塗料組成物および表面に遮光性薄膜を有する基板を製造する方法
US5920854A (en) * 1996-08-14 1999-07-06 Infoseek Corporation Real-time document collection search engine with phrase indexing
US5974445A (en) * 1997-10-28 1999-10-26 International Business Machines Corporation Web browser which checks availability of hot links
US6041324A (en) * 1997-11-17 2000-03-21 International Business Machines Corporation System and method for identifying valid portion of computer resource identifier
US6163778A (en) * 1998-02-06 2000-12-19 Sun Microsystems, Inc. Probabilistic web link viability marker and web page ratings
US6638314B1 (en) * 1998-06-26 2003-10-28 Microsoft Corporation Method of web crawling utilizing crawl numbers
US6434556B1 (en) * 1999-04-16 2002-08-13 Board Of Trustees Of The University Of Illinois Visualization of Internet search information
US6493702B1 (en) * 1999-05-05 2002-12-10 Xerox Corporation System and method for searching and recommending documents in a collection using share bookmarks
US6269361B1 (en) * 1999-05-28 2001-07-31 Goto.Com System and method for influencing a position on a search result list generated by a computer network search engine
US6547829B1 (en) * 1999-06-30 2003-04-15 Microsoft Corporation Method and system for detecting duplicate documents in web crawls
US6631369B1 (en) * 1999-06-30 2003-10-07 Microsoft Corporation Method and system for incremental web crawling
US6785671B1 (en) * 1999-12-08 2004-08-31 Amazon.Com, Inc. System and method for locating web-based product offerings
US6963867B2 (en) * 1999-12-08 2005-11-08 A9.Com, Inc. Search query processing to provide category-ranked presentation of search results
US6594654B1 (en) * 2000-03-03 2003-07-15 Aly A. Salam Systems and methods for continuously accumulating research information via a computer network
US6643641B1 (en) * 2000-04-27 2003-11-04 Russell Snyder Web search engine with graphic snapshots
US6353448B1 (en) * 2000-05-16 2002-03-05 Ez Online Network, Inc. Graphic user interface display method
JP4606548B2 (ja) 2000-05-25 2011-01-05 富士通株式会社 検索システムのメンテナンス方法及び検索システム
US6567103B1 (en) * 2000-08-02 2003-05-20 Verity, Inc. Graphical search results system and method
US7080073B1 (en) * 2000-08-18 2006-07-18 Firstrain, Inc. Method and apparatus for focused crawling
KR20000072482A (ko) * 2000-09-06 2000-12-05 이재학 이용자의 검색을 용이하게 하는 인터넷 검색 시스템 및 그방법
NO313399B1 (no) * 2000-09-14 2002-09-23 Fast Search & Transfer Asa Fremgangsmate til soking og analyse av informasjon i datanettverk
JP2002157271A (ja) 2000-11-20 2002-05-31 Yozan Inc ブラウザ装置、サーバ装置、記録媒体、検索システムおよび検索方法
US20020099602A1 (en) * 2000-12-04 2002-07-25 Paul Moskowitz Method and system to provide web site schedules
US7685224B2 (en) * 2001-01-11 2010-03-23 Truelocal Inc. Method for providing an attribute bounded network of computers
US20020129062A1 (en) * 2001-03-08 2002-09-12 Wood River Technologies, Inc. Apparatus and method for cataloging data
US20040030741A1 (en) * 2001-04-02 2004-02-12 Wolton Richard Ernest Method and apparatus for search, visual navigation, analysis and retrieval of information from networks with remote notification and content delivery
US6920448B2 (en) * 2001-05-09 2005-07-19 Agilent Technologies, Inc. Domain specific knowledge-based metasearch system and methods of using
US7672894B2 (en) * 2001-07-20 2010-03-02 Shopzilla, Inc. Automated bidding system for use with online auctions
US7076483B2 (en) * 2001-08-27 2006-07-11 Xyleme Sa Ranking nodes in a graph
US7584262B1 (en) * 2002-02-11 2009-09-01 Extreme Networks Method of and system for allocating resources to resource requests based on application of persistence policies
JP2003256317A (ja) 2002-02-28 2003-09-12 Nec Corp リンク集自動メンテナンス方法、サーバ端末、サイト運営者端末及びプログラム
JP2003256466A (ja) * 2002-03-04 2003-09-12 Denso Corp 適応的情報検索システム
KR20030084245A (ko) * 2002-04-26 2003-11-01 문성업 인터넷검색엔진과 연계한 역 탐색기의 구현 방법
JP2004029943A (ja) 2002-06-21 2004-01-29 Recruit Co Ltd 検索支援方法
AU2002953500A0 (en) * 2002-12-20 2003-01-09 Redbank Manor Pty Ltd A system and method of requesting, viewing and acting on search results in a time-saving manner
US7574651B2 (en) * 2003-06-26 2009-08-11 Yahoo! Inc. Value system for dynamic composition of pages
US7725452B1 (en) * 2003-07-03 2010-05-25 Google Inc. Scheduler for search engine crawler
WO2005057358A2 (en) * 2003-12-04 2005-06-23 Perfect Market Technologies, Inc. Search engine that dynamically generates search listings
US20050131872A1 (en) * 2003-12-16 2005-06-16 Microsoft Corporation Query recognizer
US7299222B1 (en) * 2003-12-30 2007-11-20 Aol Llc Enhanced search results
US7310632B2 (en) * 2004-02-12 2007-12-18 Microsoft Corporation Decision-theoretic web-crawling and predicting web-page change
US7251654B2 (en) * 2004-05-15 2007-07-31 International Business Machines Corporation System and method for ranking nodes in a network
US20060015573A1 (en) * 2004-06-30 2006-01-19 Microsoft Corporation System and method for automatic redirection to stored web resources upon access failure
US7437364B1 (en) * 2004-06-30 2008-10-14 Google Inc. System and method of accessing a document efficiently through multi-tier web caching
US20060053076A1 (en) * 2004-09-03 2006-03-09 Gary Kremen Monetizing time-sensitive content on network-connected media

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1091638A (ja) * 1996-09-17 1998-04-10 Toshiba Corp 検索システム
JP2001134529A (ja) * 1999-11-04 2001-05-18 Ntt Docomo Inc サーバ、情報処理方法及び記録媒体
JP2001318947A (ja) * 2000-05-12 2001-11-16 Nippon Telegr & Teleph Corp <Ntt> 情報統合システムおよび情報統合方法、ならびにそのプログラムを記録した記録媒体
JP2003271610A (ja) * 2002-03-19 2003-09-26 Toshiba Corp 情報収集装置及び情報収集プログラム
JP2003288305A (ja) * 2002-03-28 2003-10-10 Just Syst Corp ガイド情報提供装置、ガイド情報提供方法およびその方法をコンピュータに実行させるプログラム

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012168984A (ja) * 2000-03-29 2012-09-06 Risk Monster Kk 与信機能を備えた匿名電子商取引システム及び方法
US8982679B2 (en) 2005-03-24 2015-03-17 Sony Corporation Playlist sharing methods and apparatus
US8107327B2 (en) 2005-03-24 2012-01-31 Sony Corporation Interactive playlist media device
JP2006268957A (ja) * 2005-03-24 2006-10-05 Sony Corp 再生装置および再生方法
US8270263B2 (en) 2005-03-24 2012-09-18 Sony Corporation Playlist sharing methods and apparatus
US8737177B2 (en) 2005-03-24 2014-05-27 Sony Corporation Playlist sharing methods and apparatus
JP2009535686A (ja) * 2006-04-29 2009-10-01 ピーソレノイド オンライン・コンテンツマーケットプレイス・システム及びその運用方法
JP2008027000A (ja) * 2006-07-18 2008-02-07 Ricoh Co Ltd リンク情報管理システム、リンク情報管理方法及びリンク情報管理プログラム
JP2009301548A (ja) * 2008-06-10 2009-12-24 Intel Corp ウェブサーチ又はハイパーリンクからのマルウェアリダイレクトを防ぐためのウェブページの信頼を決定する技術
JP2010009180A (ja) * 2008-06-25 2010-01-14 Hitachi Information Systems Ltd 不法入国者を幇助する悪質ブローカーの摘発を支援するシステムおよびその方法
JP2010122885A (ja) * 2008-11-19 2010-06-03 Yahoo Japan Corp ホームページ診断装置、ホームページ診断方法及びプログラム
JP2011175525A (ja) * 2010-02-25 2011-09-08 Nec Corp 検索装置
US20120185596A1 (en) * 2011-01-19 2012-07-19 Canon Kabushiki Kaisha Method and system for managing access to a resource
US8819232B2 (en) * 2011-01-19 2014-08-26 Canon Kabushiki Kaisha Method and system for managing access to a resource
JP2014119861A (ja) * 2012-12-14 2014-06-30 Alpine Electronics Inc 評価提示システムとこれに用いるサーバならびに端末装置および評価提示方法
WO2016075836A1 (ja) * 2014-11-14 2016-05-19 富士通株式会社 データ検証プログラム、データ検証方法及びデータ検証装置
JPWO2016075836A1 (ja) * 2014-11-14 2017-08-31 富士通株式会社 データ検証プログラム、データ検証方法及びデータ検証装置
US10394920B2 (en) 2014-11-14 2019-08-27 Fujitsu Limited Data verification device
WO2022019150A1 (ja) * 2020-07-21 2022-01-27 ソニーグループ株式会社 情報処理プログラム、情報処理装置および情報処理方法

Also Published As

Publication number Publication date
CN101014954B (zh) 2010-05-05
JP4719684B2 (ja) 2011-07-06
CN101014954A (zh) 2007-08-08
JPWO2006027973A1 (ja) 2008-05-08
US20070208699A1 (en) 2007-09-06
US8341135B2 (en) 2012-12-25

Similar Documents

Publication Publication Date Title
JP4719684B2 (ja) 情報検索提供装置および情報検索提供システム
US11743214B2 (en) System and method for performing follow up based on user interactions
US10447564B2 (en) Systems for and methods of user demographic reporting usable for identifiying users and collecting usage data
US7493655B2 (en) Systems for and methods of placing user identification in the header of data packets usable in user demographic reporting and collecting usage data
US7260837B2 (en) Systems and methods for user identification, user demographic reporting and collecting usage data usage biometrics
US7599929B2 (en) Document use tracking system, method, computer readable medium, and computer data signal
US20160055490A1 (en) Device, system, and method of protecting brand names and domain names
US20080183664A1 (en) Presenting web site analytics associated with search results
US20050223002A1 (en) System and method for rating electronic documents
US20050251399A1 (en) System and method for rating documents comprising an image
US11816232B2 (en) Privacy score
WO2006083118A1 (en) Keyword association advertisement system and method thereof
JP2009193465A (ja) 情報処理装置、情報提供システム、情報処理方法、およびプログラム
US20170337596A1 (en) Systems and methods for generating a business review assessement score via an online website
CA2474815C (en) Systems and methods for user identification, user demographic reporting and collecting usage data
KR100366772B1 (ko) 인터넷을 이용한 지식/정보 제공 서비스 방법
EP2541444A1 (en) A method and a system for analysing traffic on a website including redirection of traffic
US20020165914A1 (en) Computer system, a method and a program for determining a customer type in real time
JP2005284884A (ja) 広告媒体に基づく情報提供方法およびシステム
KR20020042245A (ko) 인터넷이용실태 파악 및 보고 시스템과 그 방법

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): BW GH GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU LV MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10590740

Country of ref document: US

Ref document number: 2007208699

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2006535689

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 200580030013.2

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE

WWP Wipo information: published in national office

Ref document number: 10590740

Country of ref document: US

122 Ep: pct application non-entry in european phase