摘要:        
1、当当的数据远远比豆瓣的数据丰富,所以图书基础数据应该以当当的为基准,豆瓣的为完善补充。 2、当当每个分类下只能获取前100页数据,100之后的数据无法用技术手段进行抓取。 3、无法抓取到的当当数据,当有需要的时候可以模拟当当的搜索接口,然后从搜索结果中分析对应的图书数据。 4、第一次抓取当当的全    阅读全文
        
            posted @ 2018-08-13 15:42
麦克煎蛋
阅读(235)
评论(0)
推荐(0)
        
            
        
        
摘要:        
为了综合当当和豆瓣的图书详情数据,这里在图书信息从当当抓取成功后,根据isbn信息再从豆瓣获取一次图书详情数据。 相关豆瓣图书的接口地址为: https://developers.douban.com/wiki/?title=book_v2#get_isbn_book 然后将豆瓣与当当的图书详情进行    阅读全文
        
            posted @ 2018-08-13 15:33
麦克煎蛋
阅读(1486)
评论(0)
推荐(0)
        
            
        
        
摘要:        
频繁的爬取网站数据,很容易导致ip被封锁,所以在具体爬取网页的过程中一定要使用代理ip。 代理ip的来源一般就两种: 1、免费代理ip(可自行搜索,一般免费ip的质量不会太高,并且时好时坏,有很多根本无法使用)。 2、付费代理ip(有不少网站提供收费的代理ip,质量高并且访问速度稳定)。 我在这里采    阅读全文
        
            posted @ 2018-08-13 15:26
麦克煎蛋
阅读(257)
评论(0)
推荐(0)
        
            
        
        
摘要:        
详情页面涉及到图书的标题、出版社、作者、摘要等等具体信息,所以是整个网页解析中的难点,也是核心数据部分。 首先找到涉及到的一级节点: 然后找到需要的二级节点: 接下来就可以进行具体解析了,以图片节点为例: 基础信息的节点查找方式如下: 这样基础信息的各个节点基本就找到了,接下来模仿图片节点的解析方式    阅读全文
        
            posted @ 2018-08-13 15:11
麦克煎蛋
阅读(308)
评论(0)
推荐(0)
        
            
        
        
摘要:        
经过综合对比分析(此处省略几千字),最终选定了HtmlUnit作为网页解析的工具。 通过maven来引入HtmlUnit资源包: <groupId>net.sourceforge.htmlunit</groupId> <artifactId>htmlunit</artifactId> <versio    阅读全文
        
            posted @ 2018-08-13 14:55
麦克煎蛋
阅读(664)
评论(0)
推荐(0)
        
            
        
        
摘要:        
一、源代码编译 这里要为仅支持 CPU 的 TensorFlow 构建一个 pip 软件包,需要调用以下命令: $ bazel build --cxxopt="-D_GLIBCXX_USE_CXX11_ABI=0" --config=opt --verbose_failures //tensorfl    阅读全文
        
            posted @ 2018-08-13 11:24
麦克煎蛋
阅读(1170)
评论(0)
推荐(1)
        
            
        
        
摘要:        
源代码树的根目录中包含了一个名为 configure 的 bash 脚本。 $ ./configure 接下来,配置系统会给出各种询问,以确认编译时的配置参数。 一、重要参数解释 Do you wish to build TensorFlow with jemalloc as malloc supp    阅读全文
        
            posted @ 2018-08-13 11:23
麦克煎蛋
阅读(790)
评论(0)
推荐(0)
        
            
        
        
摘要:        
参考: https://blog.csdn.net/yhily2008/article/details/79967118 https://tensorflow.google.cn/install/install_sources https://docs.python-guide.org/starti    阅读全文
        
            posted @ 2018-08-13 11:21
麦克煎蛋
阅读(714)
评论(0)
推荐(1)
        
            
        
        
摘要:        
这里要为仅支持 CPU 的 TensorFlow 构建一个 pip 软件包,需要调用以下命令: $ bazel build --cxxopt="-D_GLIBCXX_USE_CXX11_ABI=0" --config=opt --verbose_failures //tensorflow/tools    阅读全文
        
            posted @ 2018-08-13 11:19
麦克煎蛋
阅读(1859)
评论(0)
推荐(0)
        
            
        
        
摘要:        
源代码树的根目录中包含了一个名为 configure 的 bash 脚本。 $ ./configure 接下来,配置系统会给出各种询问,以确认编译时的配置参数。 一、重要参数解释 Please specify the location of python. [Default is /usr/bin/    阅读全文
        
            posted @ 2018-08-13 11:18
麦克煎蛋
阅读(4630)
评论(0)
推荐(1)
        
            
        
        
摘要:        
参考: https://blog.csdn.net/yhily2008/article/details/79967118 https://tensorflow.google.cn/install/install_sources 代码获取: $ git clone https://github.com    阅读全文
        
            posted @ 2018-08-13 11:14
麦克煎蛋
阅读(2035)
评论(0)
推荐(0)
        
 
                    
                     
                    
                 
                    
                 
 
         
         浙公网安备 33010602011771号
浙公网安备 33010602011771号