顺序读文件中,对于每个词xjava基础入门课后题答案,取,然后按照该值存到5000个小文件(记为) 中。这样每个文件大概是200k左右。如果其中的有的文件超过了1M大小,还 可以按照类似的方法继续往下分,知道分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie 树/hash_map等),并取出出现频率最大的100个词(可以用含100个结点的最 小堆),并把100词及相应的频率存入文件,这样又得到了5000个文件。下一 步就是把这5000个文件进行归并(类似与归并排序)的过程了。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/10574.html