Linux下用C语言编写网络爬虫实现数据爬取(linuxc语言网络爬虫)

网络爬虫是指一种程序或脚本,自动抓取互联网网页信息并提取相关数据。Linux下使用C语言编写网络爬虫可以实现高效稳定的网页内容采集。本文将介绍如何通过编程技巧实现网络爬虫,展现其实现数据挖掘的强大功能。

一. 实现一个简单的网络爬虫接口

由于网络爬虫与互联网信息流的迅速变化相关,因此需要使用程序来扫描不断变化的网页,这需要程序员首先实现基本的爬虫接口。

网络爬虫通过发出HTTP请求来获取数据,因此需要用到一个HTTP客户端库,例如“curl”。C语言对于处理HTTP请求以及解析HTML文件非常自然。下面是一个基本的爬虫接口:

“`c

#include

#include

#include

int mn(int argc, char *argv[])

{

CURL *curl_handle;

CURLcode res;

curl_global_init(CURL_GLOBAL_ALL);

curl_handle = curl_easy_init();

if(curl_handle) {

curl_easy_setopt(curl_handle, CURLOPT_URL, “https://www.example.com/”);

curl_easy_setopt(curl_handle, CURLOPT_FOLLOWLOCATION, 1L);

res = curl_easy_perform(curl_handle);

if(res != CURLE_OK)

printf(“curl_easy_perform() fled: %s\n”,

curl_easy_strerror(res));

curl_easy_cleanup(curl_handle);

}

curl_global_cleanup();

return 0;

}

“`

这个程序使用了curl库来执行HTTP客户端请求。此处将获取“https://www.example.com/”网站的主页。程序中还使用了curl_easy_setopt函数来指定选项,如上述的CURLOPT_FOLLOWLOCATION选项,该选项用于指示curl库应该跟踪页面的重定向。程序使用curl_easy_cleanup函数来清理curl_handler并释放资源。

二. 实际数据抓取演示

接下来,介绍如何实际地爬取数据。

1. 获取网页源代码

要获取网页源代码,需要使用curl库,将curl_easy_setopt(CURLOPT_WRITEFUNCTION, write_data)设置为回调函数,例如以下函数:

“`c

static size_t write_data(void *ptr, size_t size, size_t nmemb, void *stream)

{

size_t written = fwrite(ptr, size, nmemb, (FILE *)stream);

return written;

}

“`

将之前的代码结合起来,即得到以下代码:

“`c

#include

#include

#include

static size_t write_data(void *ptr, size_t size, size_t nmemb, void *stream)

{

size_t written = fwrite(ptr, size, nmemb, (FILE *)stream);

return written;

}

int mn(int argc, char *argv[])

{

CURL *curl_handle;

CURLcode res;

FILE *pagefile;

curl_global_init(CURL_GLOBAL_ALL);

curl_handle = curl_easy_init();

if(curl_handle) {

curl_easy_setopt(curl_handle, CURLOPT_URL, “https://www.example.com/”);

curl_easy_setopt(curl_handle, CURLOPT_FOLLOWLOCATION, 1L);

pagefile = fopen(“page.out”, “wb”);

if(pagefile) {

curl_easy_setopt(curl_handle, CURLOPT_WRITEFUNCTION, write_data);

curl_easy_setopt(curl_handle, CURLOPT_WRITEDATA, pagefile);

res = curl_easy_perform(curl_handle);

fclose(pagefile);

}

if(res != CURLE_OK)

printf(“curl_easy_perform() fled: %s\n”,

curl_easy_strerror(res));

curl_easy_cleanup(curl_handle);

}

curl_global_cleanup();

return 0;

}

“`

2. 提取数据

抓取网页源代码之后,就可以使用HTML解析器提取感兴趣的信息。

例如,要提取页面中的所有链接,可以使用libxml2库,例如以下函数:

“`c

#include

static void parse_html_links(const char *filename)

{

xmlDoc *doc = htmlReadFile(filename, NULL, HTML_PARSE_NOBLANKS | HTML_PARSE_NOERROR | HTML_PARSE_NOWARNING);

xmlNode *root_element = xmlDocGetRootElement(doc);

xmlNode *cur_node = NULL;

for (cur_node = root_element; cur_node; cur_node = cur_node->next) {

if (cur_node->type == XML_ELEMENT_NODE && !xmlStrcasecmp(cur_node->name, “a”)) {

xmlAttr *attr = cur_node->properties;

while (attr) {

if (!xmlStrcasecmp(attr->name, “href”)) {

printf(“%s\n”, attr->children->content);

}

attr =attr->next;

}

}

}

xmlFreeDoc(doc);

xmlCleanupParser();

}

“`

3. 结合数据

有了这两个函数,可以将它们结合起来,以爬取数据:

“`c

#include

#include

#include

#include

static size_t write_data(void *ptr, size_t size, size_t nmemb, void *stream)

{

size_t written = fwrite(ptr, size, nmemb, (FILE *)stream);

return written;

}

static void parse_html_links(const char *filename)

{

xmlDoc *doc = htmlReadFile(filename, NULL, HTML_PARSE_NOBLANKS | HTML_PARSE_NOERROR | HTML_PARSE_NOWARNING);

xmlNode *root_element = xmlDocGetRootElement(doc);

xmlNode *cur_node = NULL;

for (cur_node = root_element; cur_node; cur_node = cur_node->next) {

if (cur_node->type == XML_ELEMENT_NODE && !xmlStrcasecmp(cur_node->name, “a”)) {

xmlAttr *attr = cur_node->properties;

while (attr) {

if (!xmlStrcasecmp(attr->name, “href”)) {

printf(“%s\n”, attr->children->content);

}

attr =attr->next;

}

}

}

xmlFreeDoc(doc);

xmlCleanupParser();

}

int mn(int argc, char *argv[])

{

CURL *curl_handle;

CURLcode res;

FILE *pagefile;

curl_global_init(CURL_GLOBAL_ALL);

curl_handle = curl_easy_init();

if(curl_handle) {

curl_easy_setopt(curl_handle, CURLOPT_URL, “https://www.example.com/”);

curl_easy_setopt(curl_handle, CURLOPT_FOLLOWLOCATION, 1L);

pagefile = fopen(“page.out”, “wb”);

if(pagefile) {

curl_easy_setopt(curl_handle, CURLOPT_WRITEFUNCTION, write_data);

curl_easy_setopt(curl_handle, CURLOPT_WRITEDATA, pagefile);

res = curl_easy_perform(curl_handle);

fclose(pagefile);

}

if(res == CURLE_OK)

parse_html_links(“page.out”);

curl_easy_cleanup(curl_handle);

}

curl_global_cleanup();

return 0;

}

“`

以上代码将网页源代码保存到文件中,然后从文件中读取HTML数据,并从HTML数据中提取所有链接。这是网络爬虫中最常见的技术之一。

三. 结语

成都网站建设公司-创新互联,建站经验丰富以策略为先导10多年以来专注数字化网站建设,提供企业网站建设,高端网站设计,响应式网站制作,设计师量身打造品牌风格,热线:028-86922220

怎样学习在linux操作系统下用C语言编程

这篇文章介绍在LINUX下进行C语言编程所需要的基础知识.在这篇文章当中,我们将会学到以下内容:

源程序编译

Makefile的编写

程序库的链接

程序的调试

头文件和系统求助

1.源程序的编译

在Linux下面,如果要编译一个C语言源程序,我们要使用GNU的gcc编译器. 下面我们以一个实例来说明如何使用gcc编译器.

假设我们有下面一个非常简单的源程序(hello.c):

int main(int argc,char **argv)

{

printf(“Hello Linux\n”);

}

要编译这个程序,我们只要在命令行下执行:

gcc -o hello hello.c

gcc 编译器就会为我们生成一个hello的可执行文件.执行./hello就可以看到程序的输出结果了.命令行中

gcc表示我们是用gcc来编译我们的源程序,-o 选项表示我们要求编译器给我们输出的可执行文件名为hello

而hello.c是我们的源程序文件. gcc编译器有许多选项,一般来说我们只要知道其中的几个就够了. -o选项我们已经知道了,表示我们要求输出的可执行文件名.

-c选项表示我们只要求编译器输出目标代码,而不必要输出可执行文件. -g选项表示我们要求编译器在编译的时候团含提供我们以后对程序进行调试的信息. 知道了这三个选项,我们就可以编译我们自己所写的简单的源程序了,如果你想要知道更多的选项,可以查看gcc的帮助文档,那里有着许多对其它选项的详细说明.

2.Makefile的编写

假设我们有下面这样的一个程序,源代码如下:

/* main.c */

#include “mytool1.h”

#include “mytool2.h”

int main(int argc,char **argv)

{

mytool1_print(“hello”);

mytool2_print(“hello”);

}

/* mytool1.h */

#ifndef _MYTOOL_1_H

#define _MYTOOL_1_H

void mytool1_print(char *print_str);

#endif

/* mytool1.c */

#include “mytool1.h”

void mytool1_print(char *print_str)

{

printf(“This is mytool1 print %s\n”,print_str);

}

/* mytool2.h */

#ifndef _MYTOOL_2_H

#define _MYTOOL_2_H

void mytool2_print(char *print_str);

#endif

/* mytool2.c */

#include “mytool2.h”

void mytool2_print(char *print_str)

{

printf(“This is mytool2 print %s\n”,print_str);

}

当然由于这个程序是很短的我们可以这样来编译

gcc -c main.c

gcc -c mytool1.c

gcc -c mytool2.c

gcc -o main main.o mytool1.o mytool2.o

这样的话我们也可以产生main程序,而且也不时很麻烦.但是如果我们考虑一下如果有一天我们修改了其中的一个文件(比如说mytool1.c)

那么我们难道还要重新输入上面的命令?也许你会说,这个很容易解决啊,我写一个SHELL脚本,让她帮我去完成不就可以了.是的对于这个程序来说,是可以

起到作用的.但是当我们把事情想的更复杂一点,如果我们的程序有几百个源程序的时候,难道也要编译器重新一个一个的去编译? 为此,聪明的程序员们想出了一个很好的工具来做这件余纳事情,这就是make.我们只要执行以下make,就可以把上面的问题竖或没解决掉.在我们执行

make之前,我们要先编写一个非常重要的文件.–Makefile.对于上面的那个程序来说,可能的一个Makefile的文件是: # 这是上面那个程序的Makefile文件

main:main.o mytool1.o mytool2.o

gcc -o main main.o mytool1.o mytool2.o

main.o:main.c mytool1.h mytool2.h

gcc -c main.c

mytool1.o:mytool1.c mytool1.h

gcc -c mytool1.c

mytool2.o:mytool2.c mytool2.h

gcc -c mytool2.c

有了这个Makefile文件,不过我们什么时候修改了源程序当中的什么文件,我们只要执行make命令,我们的编译器都只会去编译和我们修改的文件有关的文件,其它的文件她连理都不想去理的.

下面我们学习Makefile是如何编写的.

在Makefile中也#开始的行都是注释行.Makefile中最重要的是描述文件的依赖关系的说明.一般的格式是:

target: components

TAB rule

之一行表示的是依赖关系.第二行是规则.

比如说我们上面的那个Makefile文件的第二行

main:main.o mytool1.o mytool2.o

表示我们的目标(target)main的依赖对象(components)是main.o mytool1.o mytool2.o

当倚赖的对象在目标修改后修改的话,就要去执行规则一行所指定的命令.就象我们的上面那个Makefile第三行所说的一样要执行 gcc -o

main main.o mytool1.o mytool2.o 注意规则一行中的TAB表示那里是一个TAB键 Makefile有三个非常有用的变量.分别是$@,$^,$

int main(int argc,char **argv)

{

double value;

printf(“Value:%f\n”,value);

}

这个程序相当简单,但是当我们用 gcc -o temp temp.c 编译时会出现下面所示的错误.

/tmp/cc33Kydu.o: In function `main’:

/tmp/cc33Kydu.o(.text+0xe): undefined reference to `log’

collect2: ld returned 1 exit status

出现这个错误是因为编译器找不到log的具体实现.虽然我们包括了正确的头文件,但是我们在编译的时候还是要连接确定的库.在Linux下,为了

使用数学函数,我们必须和数学库连接,为此我们要加入 -lm 选项. gcc -o temp temp.c

-lm这样才能够正确的编译.也许有人要问,前面我们用printf函数的时候怎么没有连接库呢?是这样的,对于一些常用的函数的实现,gcc编译器会自

动去连接一些常用库,这样我们就没有必要自己去指定了. 有时候我们在编译程序的时候还要指定库的路径,这个时候我们要用到编译器的

-L选项指定路径.比如说我们有一个库在 /home/hoyt/mylib下,这样我们编译的时候还要加上

-L/home/hoyt/mylib.对于一些标准库来说,我们没有必要指出路径.只要它们在起缺省库的路径下就可以了.系统的缺省库的路径/lib

/usr/lib /usr/local/lib 在这三个路径下面的库,我们可以不指定路径. 还有一个问题,有时候我们使用了某个函数,但是我们不知道库的名字,这个时候怎么办呢?很抱歉,对于这个问题我也不知道答案,我只有一个傻办

法.首先,我到标准库路径下面去找看看有没有和我用的函数相关的库,我就这样找到了线程(thread)函数的库文件(libpthread.a).

当然,如果找不到,只有一个笨方法.比如我要找sin这个函数所在的库. 就只好用 nm -o /lib/*.so|grep

sin>~/sin 命令,然后看~/sin文件,到那里面去找了.

在sin文件当中,我会找到这样的一行libm-2.1.2.so:00009fa0 W sin 这样我就知道了sin在

libm-2.1.2.so库里面,我用 -lm选项就可以了(去掉前面的lib和后面的版本标志,就剩下m了所以是 -lm).

如果你知道怎么找,请赶快告诉我,我回非常感激的.谢谢! 4.程序的调试

我们编写的程序不太可能一次性就会成功的,在我们的程序当中,会出现许许多多我们想不到的错误,这个时候我们就要对我们的程序进行调试了.

最常用的调试软件是gdb.如果你想在图形界面下调试程序,那么你现在可以选择xxgdb.记得要在编译的时候加入

-g选项.关于gdb的使用可以看gdb的帮助文件.由于我没有用过这个软件,所以我也不能够说出如何使用.

不过我不喜欢用gdb.跟踪一个程序是很烦的事情,我一般用在程序当中输出中间变量的值来调试程序的.当然你可以选择自己的办法,没有必要去学别人的.现

在有了许多IDE环境,里面已经自己带了调试器了.你可以选择几个试一试找出自己喜欢的一个用.

5.头文件和系统求助

有时候我们只知道一个函数的大概形式,不记得确切的表达式,或者是不记得着函数在那个头文件进行了说明.这个时候我们可以求助系统.

比如说我们想知道fread这个函数的确切形式,我们只要执行 man fread

系统就会输出着函数的详细解释的.和这个函数所在的头文件说明了. 如果我们要write这个函数的说明,当我们执行man

write时,输出的结果却不是我们所需要的.

因为我们要的是write这个函数的说明,可是出来的却是write这个命令的说明.为了得到write的函数说明我们要用 man 2 write.

2表示我们用的write这个函数是系统调用函数,还有一个我们常用的是3表示函数是C的库函数. 记住不管什么时候,man都是我们的更好助手.

好了,这一章就讲这么多了,有了这些知识我们就可以进入激动人心的Linux下的C程序探险活动.

不积跬步,无以至千里!

Linux下C语言编程基础知识:

1.源程序的编译

在Linux下面,如果要编译一个C语言源程序,我们要使用GNU的gcc编译器. 下面我们以一个实例来说明如何使用gcc编译器.

假设我们有下面一个非常简单的源程序(hello.c):

int main(int argc,char **argv)

{

printf(“Hello Linuxn”);

}

要编译这个程序,我们只要在命令行下执行:

gcc -o hello hello.c

gcc 编译器就会为我们生成一个hello的可执行文件.执行./hello就可以看到程序的输出结果了.命令行中 gcc表示我们是用gcc来编译我们的源程序,-o 选项表示我们要求编译器给我们输出的可执行文件名为hello 而hello.c是我们的源程序文件.

gcc编译器有许多选项,一般来说我们只要知道其中的几个就够了. -o选项我们已经知道了,表示我们要求输出的可执行文件名. -c选项表示我们只要求编译器输出目标代码,而不必要输出可执行文件. -g选项表示我们要求编译器在编译的时候提供我们以后对程序进行调试的信息.

知道了这三个选项,我们就可以编译我们自己所写的简大空单的源程序了,如果你想要知道更多的选项,可以查看gcc的帮助文档,那里有着许多对其它选项的详细说明.

2.Makefile的编写

假设我们有下面这样的一个程序,源代码如下:

/* main.c */

#include “mytool1.h”

#include “mytool2.h”

int main(int argc,char **argv)

{

mytool1_print(“hello”);

mytool2_print(“hello”);

}

/* mytool1.h */

#ifndef _MYTOOL_1_H

#define _MYTOOL_1_H

void mytool1_print(char *print_str);

#endif

/* mytool1.c */

#include “mytool1.h”

void mytool1_print(char *print_str)

{

printf(“This is mytool1 print %sn”,print_str);

}

/* mytool2.h */

#ifndef _MYTOOL_2_H

#define _MYTOOL_2_H

void mytool2_print(char *print_str);

#endif

/* mytool2.c */

#include “mytool2.h”

void mytool2_print(char *print_str)

{

printf(“This is mytool2 print %sn”,print_str);

}

当然由于这个程序是很短的我们可以这样来编译

gcc -c main.c

gcc -c mytool1.c

gcc -c mytool2.c

gcc -o main main.o mytool1.o mytool2.o

这样的话我们也可以产生main程序,而且也不时很麻烦.但是如果我们考虑一下如果有一天我们滚大瞎修改了其中的一个文件(比如说mytool1.c)那么我们难道还要重新输入上面的命令?也许你会说,这个很容易解决啊,我写一个SHELL脚本,让她帮我去完成不就可以了.是的对于这个程序来说,是可以起到作用的.但是当我们把事情想的更复杂一点,如果我们的程序有几百个源程序的时候,难道也要编译器重仿坦新一个一个的去编译?

为此,聪明的程序员们想出了一个很好的工具来做这件事情,这就是make.我们只要执行以下make,就可以把上面的问题解决掉.在我们执行make 之前,我们要先编写一个非常重要的文件.–Makefile.对于上面的那个程序来说,可能的一个Makefile的文件是:

# 这是上面那个程序的Makefile文件

main:main.o mytool1.o mytool2.o

gcc -o main main.o mytool1.o mytool2.o

main.o:main.c mytool1.h mytool2.h

gcc -c main.c

mytool1.o:mytool1.c mytool1.h

gcc -c mytool1.c

mytool2.o:mytool2.c mytool2.h

gcc -c mytool2.c

有了这个Makefile文件,不过我们什么时候修改了源程序当中的什么文件,我们只要执行make命令,我们的编译器都只会去编译和我们修改的文件有关的文件,其它的文件她连理都不想去理的.

下面我们学习Makefile是如何编写的.

在Makefile中也#开始的行都是注释行.Makefile中最重要的是描述文件的依赖关系的说明.一般的格式是:

target: components

TAB rule

之一行表示的是依赖关系.第二行是规则.

比如说我们上面的那个Makefile文件的第二行

main:main.o mytool1.o mytool2.o

表示我们的目标(target)main的依赖对象(components)是main.o mytool1.o mytool2.o 当倚赖的对象在目标修改后修改的话,就要去执行规则一行所指定的命令.就象我们的上面那个Makefile第三行所说的一样要执行 gcc -o main main.o mytool1.o mytool2.o 注意规则一行中的TAB表示那里是一个TAB键

Makefile有三个非常有用的变量.分别是$@,$^,$

int main(int argc,char **argv)

{

double value;

printf(“Valuefn”,value);

}

这个程序相当简单,但是当我们用 gcc -o temp temp.c 编译时会出现下面所示的错误.

/tmp/cc33Kydu.o: In function `main’:

/tmp/cc33Kydu.o(.text+0xe): undefined reference to `log’

collect2: ld returned 1 exit status

出现这个错误是因为编译器找不到log的具体实现.虽然我们包括了正确的头文件,但是我们在编译的时候还是要连接确定的库.在Linux下,为了使用数学函数,我们必须和数学库连接,为此我们要加入 -lm 选项. gcc -o temp temp.c -lm这样才能够正确的编译.也许有人要问,前面我们用printf函数的时候怎么没有连接库呢?是这样的,对于一些常用的函数的实现,gcc编译器会自动去连接一些常用库,这样我们就没有必要自己去指定了. 有时候我们在编译程序的时候还要指定库的路径,这个时候我们要用到编译器的 -L选项指定路径.比如说我们有一个库在 /home/hoyt/mylib下,这样我们编译的时候还要加上 -L/home/hoyt/mylib.对于一些标准库来说,我们没有必要指出路径.只要它们在起缺省库的路径下就可以了.系统的缺省库的路径/lib /usr/lib /usr/local/lib 在这三个路径下面的库,我们可以不指定路径.

还有一个问题,有时候我们使用了某个函数,但是我们不知道库的名字,这个时候怎么办呢?很抱歉,对于这个问题我也不知道答案,我只有一个傻办法.首先,我到标准库路径下面去找看看有没有和我用的函数相关的库,我就这样找到了线程(thread)函数的库文件(libpthread.a). 当然,如果找不到,只有一个笨方法.比如我要找sin这个函数所在的库. 就只好用 nm -o /lib/*.so|grep sin>~/sin 命令,然后看~/sin文件,到那里面去找了. 在sin文件当中,我会找到这样的一行libm-2.1.2.so:00009fa0 W sin 这样我就知道了sin在 libm-2.1.2.so库里面,我用 -lm选项就可以了(去掉前面的lib和后面的版本标志,就剩下m了所以是 -lm). 如果你知道怎么找,请赶快告诉我,我回非常感激的.谢谢!

4.程序的调试

我们编写的程序不太可能一次性就会成功的,在我们的程序当中,会出现许许多多我们想不到的错误,这个时候我们就要对我们的程序进行调试了.

最常用的调试软件是gdb.如果你想在图形界面下调试程序,那么你现在可以选择xxgdb.记得要在编译的时候加入 -g选项.关于gdb的使用可以看gdb的帮助文件.由于我没有用过这个软件,所以我也不能够说出如何使用. 不过我不喜欢用gdb.跟踪一个程序是很烦的事情,我一般用在程序当中输出中间变量的值来调试程序的.当然你可以选择自己的办法,没有必要去学别人的.现在有了许多IDE环境,里面已经自己带了调试器了.你可以选择几个试一试找出自己喜欢的一个用.

5.头文件和系统求助

有时候我们只知道一个函数的大概形式,不记得确切的表达式,或者是不记得着函数在那个头文件进行了说明.这个时候我们可以求助系统.

比如说我们想知道fread这个函数的确切形式,我们只要执行 man fread 系统就会输出着函数的详细解释的.和这个函数所在的头文件说明了. 如果我们要write这个函数的说明,当我们执行man write时,输出的结果却不是我们所需要的. 因为我们要的是write这个函数的说明,可是出来的却是write这个命令的说明.为了得到write的函数说明我们要用 man 2 write. 2表示我们用的write这个函数是系统调用函数,还有一个我们常用的是3表示函数是C的库函数.

记住不管什么时候,man都是我们的更好助手.

linux c语言 网络爬虫的介绍就聊到这里吧,感谢你花时间阅读本站内容,更多关于linux c语言 网络爬虫,Linux下用C语言编写网络爬虫实现数据爬取,怎样学习在linux操作系统下用C语言编程的信息别忘了在本站进行查找喔。

成都网站建设选创新互联(☎:028-86922220),专业从事成都网站制作设计,高端小程序APP定制开发,成都网络营销推广等一站式服务。

当前标题:Linux下用C语言编写网络爬虫实现数据爬取(linuxc语言网络爬虫)
链接分享:http://www.csdahua.cn/qtweb/news6/317006.html

网站建设、网络推广公司-快上网,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等

广告

声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 快上网