如果在C或者C++项目中解析Markdown,可以使用cmark库。
开发环境
Fedora系统可以直接通过
dnf install cmark-devel
来安装cmark的开发库。
安装之后,就可以使用头文件/usr/include/cmark.h 中的函数进行开发,最后在程序中链接-lcmark即可。
为了简化这一操作,也可以使用pkg-config文件。
需要注意的是,在Fedora系统中,cmark的pkgconfig文件名字是libcmark.pc。即,pkg-config命令需要查询libcmark。
如:
~/$ pkg-config --cflags --libs libcmark
-lcmark
使用方法
cmark使用三个主要的数据结构,分别是cmark_parser、cmark_iter与cmark_node。
其中,cmark_parser用来解析,有一系列与解析相关的函数;cmark_iter用来遍历,可以实现在cmark_node节点间切换;而cmark_node是所有数据节点。
在头文件中,使用注释的方式说明了cmark_parser的使用方法。
443  * ## Parsing
444  *
445  * Simple interface:
446  *
447  *     cmark_node *document = cmark_parse_document("Hello *world*", 13,
448  *                                                 CMARK_OPT_DEFAULT);
449  *
450  * Streaming interface:
451  *
452  *     cmark_parser *parser = cmark_parser_new(CMARK_OPT_DEFAULT);
453  *     FILE *fp = fopen("myfile.md", "rb");
454  *     while ((bytes = fread(buffer, 1, sizeof(buffer), fp)) > 0) {
455  *         cmark_parser_feed(parser, buffer, bytes);
456  *         if (bytes < sizeof(buffer)) {
457  *             break;
458  *         }
459  *     }
460  *     document = cmark_parser_finish(parser);
461  *     cmark_parser_free(parser);
462  即可以使用cmark_parse_document解析文本内容,输入参数分别是字符串指针与大小。
也可以使用cmark_parser来解析流式数据,方法为先创建一个cmark_parser,之后使用cmark_parser_feed来喂数据,最后调用cmark_parser_finish来指示解析结束,返回解析出来的cmark_node。
cmark_node
cmark的几个主要数据结构定义,并没有在头文件里,而是使用了typedef的别名。如果只是使用cmark,可以不用关心它们的具体定义,只使用头文件中的操作它们的函数即可。(这种信息隐藏,也是一种故意为之的设计,起到了类似C++中的private作用。)
cmark_node的主要属性,就是它的类型,即cmark_node_type,可以通过:
261 /** Returns the type of 'node', or `CMARK_NODE_NONE` on error.
262  */
263 CMARK_EXPORT cmark_node_type cmark_node_get_type(cmark_node *node);
264 
265 /** Like 'cmark_node_get_type', but returns a string representation
266     of the type, or `"<unknown>"`.
267  */
268 CMARK_EXPORT
269 const char *cmark_node_get_type_string(cmark_node *node);
这两个方法,分别获得cmark_node的类型值,与类型的字符串表示。
cmark_node_type是一个枚举值,定义为:
/** ## Node Structure31  */32 33 typedef enum {34   /* Error status */35   CMARK_NODE_NONE,36 37   /* Block */38   CMARK_NODE_DOCUMENT,39   CMARK_NODE_BLOCK_QUOTE,40   CMARK_NODE_LIST,41   CMARK_NODE_ITEM,42   CMARK_NODE_CODE_BLOCK,43   CMARK_NODE_HTML_BLOCK,44   CMARK_NODE_CUSTOM_BLOCK,45   CMARK_NODE_PARAGRAPH,46   CMARK_NODE_HEADING,47   CMARK_NODE_THEMATIC_BREAK,48 49   CMARK_NODE_FIRST_BLOCK = CMARK_NODE_DOCUMENT,50   CMARK_NODE_LAST_BLOCK = CMARK_NODE_THEMATIC_BREAK,51 52   /* Inline */53   CMARK_NODE_TEXT,54   CMARK_NODE_SOFTBREAK,55   CMARK_NODE_LINEBREAK,56   CMARK_NODE_CODE,57   CMARK_NODE_HTML_INLINE,58   CMARK_NODE_CUSTOM_INLINE,59   CMARK_NODE_EMPH,60   CMARK_NODE_STRONG,61   CMARK_NODE_LINK,62   CMARK_NODE_IMAGE,63 64   CMARK_NODE_FIRST_INLINE = CMARK_NODE_TEXT,65   CMARK_NODE_LAST_INLINE = CMARK_NODE_IMAGE66 } cmark_node_type;
熟悉Markdown的应该很清楚这些类型的意义,不再赘述。
需要注意的是,获取这些node的属性的方法,需要根据不同的类型,才能取得相应的值。
比如如果是一个CMARK_NODE_HEADDING,就可以通过cmark_node_get_heading_level来取得层级。
 /** Returns the heading level of 'node', or 0 if 'node' is not a heading.
283  */
284 CMARK_EXPORT int cmark_node_get_heading_level(cmark_node *node);
通过cmark_node_set_heading_level来设置层级。
290 /** Sets the heading level of 'node', returning 1 on success and 0 on error.
291  */
292 CMARK_EXPORT int cmark_node_set_heading_level(cmark_node *node, int level);
而如果是一个CMARK_NODE_IMAGE或者CMARK_NODE_URL,则可以通过cmark_node_get_title取得图片的标题,或者URL的显示文本。
/** Returns the title of a link or image 'node', or an empty  
353     string if no title is set.  Returns NULL if called on a node  
354     that is not a link or image.  
355  */  
356 CMARK_EXPORT const char *cmark_node_get_title(cmark_node *node);
通过cmark_node_get_url取得实际的链接地址。
341 /** Returns the URL of a link or image 'node', or an empty string
342     if no URL is set.  Returns NULL if called on a node that is
343     not a link or image.
344  */
345 CMARK_EXPORT const char *cmark_node_get_url(cmark_node *node);
346 
渲染
我们除了可以根据cmark_node来做自定义的操作之外,还可以使用cmark库的渲染方法,把Markdown文本渲染成其它文本格式。
比如,渲染成XML:
508 /** Render a 'node' tree as XML.  It is the caller's responsibility  
509  * to free the returned buffer.  
510  */  
511 CMARK_EXPORT  
512 char *cmark_render_xml(cmark_node *root, int options);  
渲染成HTML:
514 /** Render a 'node' tree as an HTML fragment.  It is up to the user  
515  * to add an appropriate header and footer. It is the caller's  
516  * responsibility to free the returned buffer.  
517  */  
518 CMARK_EXPORT  
519 char *cmark_render_html(cmark_node *root, int options);  
渲染成man手册页:
521 /** Render a 'node' tree as a groff man page, without the header.  
522  * It is the caller's responsibility to free the returned buffer.  
523  */  
524 CMARK_EXPORT  
525 char *cmark_render_man(cmark_node *root, int options, int width);  
渲染成commonmark:
527 /** Render a 'node' tree as a commonmark document.  
528  * It is the caller's responsibility to free the returned buffer.  
529  */  
530 CMARK_EXPORT  
531 char *cmark_render_commonmark(cmark_node *root, int options, int width);  
或者渲染成latex:
533 /** Render a 'node' tree as a LaTeX document.  
534  * It is the caller's responsibility to free the returned buffer.  
535  */  
536 CMARK_EXPORT  
537 char *cmark_render_latex(cmark_node *root, int options, int width);
以上这些都是渲染一个节点,即cmark_node,如果只是最简单的把一个Markdown渲染成HTML,还可以不解析,直接使用一个方法:
27 CMARK_EXPORT  
28 char *cmark_markdown_to_html(const char *text, size_t len, int options);
输入参数是一个字符串和长度,输出一个HTML的字符串,编码都是UTF-8。