程序员知识图谱_一个菜鸟程序员该怎样定位自身的价值方向

1. 目前提供开放API的中文知识图谱有哪些

中文知识图谱（Chinese Knowledge Graph）[1] ，最早起源于Google Knowledge Graph。知识图谱本质上是一种语义网络。其结点代表实体（entity）或者概念（concept），边代表实体/概念之间的各种语义关系。中文知识图谱的直接推动力来自于一系列实际应用，包括语义搜索、机器问答、情报检索、电子阅读、在线学习等等。网络[2] 、搜狗以及复旦大学GDM实验室[1] 相继推出了其中文知识图谱。

●允许用户搜索搜索引擎知道的所有事物，人物或者地方，包括地标，名人，城市，球队，建筑，地理特征，电影，天体，艺术作品等等，而且能够显示关于你的查询的实时信息。它是迈向下一代搜索业务关键的第一步，使得搜索智能化，根据用户的意图给出用户想要的结果。

●知识图谱本质上是一种语义网络。其结点代表实体（entity）或者概念（concept），边代表实体/概念之间的各种语义关系。

●知识图谱相对于传统的本体和语义网络而言，实体覆盖率更高，语义关系也更加复杂而全面。

2. 零基础学python应该学习哪些入门知识

关于零基础怎么样能快速学好Python的问题，网络提问和解答的都很多，你可以网络下看看。我觉得从个人自学的角度出发，应从以下几个方面来理解：

1 为什么选择学python？

据统计零基础或非专业的人士学python的比较多，据HackerRank开发者调查报告2018年5月显示（见图），Python排名第一，成为最受欢迎编程语言。Python以优雅、简洁着称，入行门槛低，可以从事linux运维、Python Web网站工程师、Python自动化测试、数据分析、人工智能等职位，薪资待遇呈上涨趋势。

2 入门python需要那些准备？

2.1 心态准备。编程是一门技术，也可说是一门手艺。如同书法、绘画、乐器、雕刻等，技艺纯熟的背后肯定付出了长时间的反复练习。不要相信几周速成，也不能急于求成。编程的世界浩瀚无边，所以请保持一颗敬畏的心态去学习，认真对待写下的每一行代码，甚至每一个字符。收拾好自己的心态，向着编程的世界出发。第一步至关重要，关系到初学者从入门到精通还是从入门到放弃。选一条合适的入门道路，并坚持走下去。

2.2 配置 Python 学习环境。选Python2 还是 Python3？入门时很多人都会纠结。二者只是程序不兼容，思想上并无大差别，语法变动也并不多。选择任何一个入手，都没有大影响。如果你仍然无法抉择，那请选择 Python3，毕竟这是未来的趋势。

编辑器该如何选？同样，推荐 pycharm 社区版，配置简单、功能强大、使用起来省时省心，对初学者友好，并且完全免费！其他编辑器如：notepad++、sublimeText 3、vim 和 Emacs等不推荐了。

操作环境？Python 支持现有所有主流操作平台，不管是 windows 还是 mac 还是 linux，都能很好的运行 Python。并且后两者都默认自带 Python 环境。

2.3 选择自学的书籍。我推荐的书的内容由浅入深，建议按照先后顺序阅读学习：

2.3.1《Python简明教程》。这是一本言简意赅的 Python 入门教程，简单直白，没有废话。就算没有基础，你也可以像读小说一样，花两天时间就可以读完。适合入门快速了解语法。

2.3.2 廖雪峰编写的《Python教程》。廖先生的教程涵盖了 Python 知识的方方面面，内容更加系统，有一定深度，有一定基础之后学习会有更多的收获。

2.4 学会安装包。Python中有很多扩展包，想要安装这些包可以采用两种方法：

2.4.1 使用pip或easy_install。

1)在网上找到的需要的包，下载下来。eg. rsa-3.1.4.tar.gz;

2)解压缩该文件;

3)命令行工具cd切换到所要安装的包的目录，找到setup.py文件，然后输入python setup.py install

2.4.2 不用pip或easy_install,直接打开cmd，敲pip install rsa。

3 提升阶段需要恒心和耐力。

完成入门阶段的基础学习之后，常会陷入一个瓶颈期，通过看教程很难进一步提高编程水平。这时候，需要的是反复练习，大量的练习。可以从书上的例题、作业题开始写，再写小程序片段，然后写完整的项目。我们收集了一些练习题和网站。可根据自己阶段，选择适合的练习去做。建议最好挑选一两个系列重点完成，而不是浅尝辄止。

3.1 多做练习。推荐网站练习：

crossin编程教室实例：相对于编程教室基础练习着重于单一知识点，

编程实例训练对基础知识的融会贯通；

hackerrank：Python 部分难度循序渐进，符合学习曲线

实验楼：提升编程水平从做项目开始；

codewar：社区型编程练习网站，内容由易到难；

leetcode：为编程面试准备，对初学者稍难；

牛客网：提供 BAT 等大厂笔试题目；

codecombat：提供一边游戏一边编程；

projecteuler：纯粹的编程练习网站；

菜鸟教程100例：基于 py2 的基础练习；

3.2 遇到问题多交流。

3.2.1 利用好搜索引擎。

3.2.2 求助于各大网站。推荐

stackoverflow：这是一个程序员的知识库；

v2ex：国内非常不错的编程社区，不仅仅是包含程序，也包含了程序员的生活；

segmentfault：一家以编程问答为主的网站;

CSDN、知乎、简书等

3.2.3 加入相关的QQ、微信群、网络知道。不懂的可以随时请教。

3. 知识图谱有什么用处

“知识图谱的应用涉及到众多行业，尤其是知识密集型行业，目前关注度比较高的领域：医疗、金融、法律、电商、智能家电等。”基于信息、知识和智能形成的闭环，从信息中获取知识，基于知识开发智能应用，智能应用产生新的信息，从新的信息中再获取新的知识，不断迭代，就可以不断产生更加丰富的知识图谱，更加智能的应用。

如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨，那么知识图谱的“绘制”则是在试图“创造”一个能运转的机器人大脑。

“目前，还不能做到让机器理解人的语言。”中国科学院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你一乐的Siri，还是会做诗的小冰，亦或是会“悬丝诊脉”的沃森，它们并不真正明白自己在做什么、为什么这么做。

让机器学会思考，要靠“谱”。这个“谱”被称为知识图谱，意在将人类世界中产生的知识，构建在机器世界中，进而形成能够支撑类脑推理的知识库。

为了在国内构建一个关于知识图谱的全新产学合作模式，知识图谱研讨会日前召开，来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系，建立世界领先的人工智能基础设施的开拓性工作。

技术原理：把文本转化成知识

“对于‘姚明是上海人’这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是‘活’起来的。”孙乐举例说。比如说到“姚明”，人会想到他是前美职篮球员、“小巨人”、中锋等，而“上海”会让人想到东方明珠、繁华都市等含义。但对于机器来说，仅仅说“姚明是上海人”，它不能和人类一样明白其背后的含义。机器理解文本，首先就需要了解背景知识。

那如何将文本转化成知识呢？

“借助信息抽取技术，人们可以从文本中抽取知识，这也正是知识图谱构建的核心技术。”孙乐说，目前比较流行的是使用“三元组”的存储方式。三元组由两个点、一条边构成，点代表实体或者概念，边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边，构成很多关系。例如姚明这个点，可以和上海构成出生地的关系，可以和美职篮构成效力关系，还可以和2.26米构成身高关系。

“如果这些关系足够完善，机器就具备了理解语言的基础。”孙乐说。那么如何让机器拥有这样的“理解力”呢？

“上世纪六十年代，人工智能先驱麻省理工学院的马文·明斯基在一个问答系统项目SIR中，使用了实体间语义关系来表示问句和答案的语义，剑桥语言研究部门的玛格丽特·玛斯特曼在1961年使用Semantic Network来建模世界知识，这些都可被看作是知识图谱的前身。”孙乐说。

随后的Wordnet、中国的知网（Hownet）也进行了人工构建知识库的工作。

“这里包括主观知识，比如社交网站上人们对某个产品的态度是喜欢还是不喜欢；场景知识，比如在某个特定场景中应该怎么做；语言知识，例如各种语言语法；常识知识，例如水、猫、狗，教人认的时候可以直接指着教，却很难让计算机明白。”孙乐解释，从这些初步的分类中就能感受到知识的海量，更别说那些高层次的科学知识了。

构建方式：从手工劳动到自动抽取

“2010年之后，维基网络开始尝试‘众包’的方式，每个人都能够贡献知识。”孙乐说，这让知识图谱的积累速度大大增加，后续网络、互动网络等也采取了类似的知识搜集方式，发动公众使得“积沙”这个环节的时间大大缩短、效率大大增加，无数的知识从四面八方赶来，迅速集聚，只待“成塔”。

面对如此大量的数据，或者说“文本”，知识图谱的构建工作自然不能再手工劳动，“让机器自动抽取结构化的知识，自动生成‘三元组’。”孙乐说，学术界和产业界开发出了不同的构架、体系，能够自动或半自动地从文本中生成机器可识别的知识。

孙乐的演示课件中，有一张生动的图画，一大摞文件纸吃进去，电脑马上转化为“知识”，但事实远没有那么简单。自动抽取结构化数据在不同行业还没有统一的方案。在“网络知识图谱”的介绍中这样写道：对提交至知识图谱的数据转换为遵循Schema的实体对象，并进行统一的数据清洗、对齐、融合、关联等知识计算，完成图谱的构建。“但是大家发现，基于维基网络，结构化半结构化数据挖掘出来的知识图谱还是不够，因此目前所有的工作都集中在研究如何从海量文本中抽取知识。”孙乐说，例如谷歌的Knowledge Vault，以及美国国家标准与技术研究院主办的TAC-KBP评测，也都在推进从文本中抽取知识的技术。

在权威的“知识库自动构建国际评测”中，从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中，中科院软件所—搜狗联合团队获得综合性能指标第3名，事件抽取单项指标第1名的好成绩。

“我国在这一领域可以和国际水平比肩。”孙乐介绍，中科院软件所提出了基于Co-Bootstrapping的实体获取算法，基于多源知识监督的关系抽取算法等，大幅度降低了文本知识抽取工具构建模型的成本，并提升了性能。

终极目标：将人类知识全部结构化

《圣经·旧约》记载，人类联合起来兴建希望能通往天堂的高塔——“巴别塔”，而今，创造AI的人类正在建造这样一座“巴别塔”，帮助人工智能企及人类智能。

自动的做法让知识量开始形成规模，达到了能够支持实际应用的量级。“但是这种转化，还远远未达到人类的知识水平。”孙乐说，何况人类的知识一直在增加、更新，一直在动态变化，理解也应该与时俱进地体现在机器“脑”中。

“因此知识图谱不会是一个静止的状态，而是要形成一个循环，这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning（学无止境）的概念。”孙乐说。

资料显示，目前谷歌知识图谱中记载了超过35亿事实；Freebase中记载了4000多万实体，上万个属性关系，24亿多个事实；网络记录词条数1000万个，网络搜索中应用了联想搜索功能。

“在医学领域、人物关系等特定领域，也有专门的知识图谱。”孙乐介绍，Kinships描述人物之间的亲属关系，104个实体，26种关系，10800个事实；UMLS在医学领域描述了医学概念之间的联系，135个实体，49种关系，6800个事实。

“这是一幅充满美好前景的宏伟蓝图。”孙乐说，知识图谱的最终目标是将人类的知识全部形式化、结构化，并用于构建基于知识的自然语言理解系统。

尽管令业内满意的“真正理解语言的系统”还远未出现，目前的“巴别塔”还只是在基础层面，但相关的应用已经显示出广阔的前景。例如，在网络输入“冷冻电镜”，右竖条的关联将出现“施一公”，输入“撒币”，将直接在搜索项中出现“王思聪”等相关项。其中蕴含着机器对人类意图的理解。

4. 程序员如何才能成为独立开发者

当你有了知识体系之后，遇到和你知识体系对应的场景相关的问题，就可以快速找到相关的知识，系统的分析问题，最终解决问题。

你看，是否拥有知识体系，导致了熟练开发者和普通开发者的一个非常重要的区别：熟练开发者能够独立负责一个模块或子系统的设计和开发工作，拥有分析问题、解决问题的能力和任务分解的能力，可以分配任务给普通开发者。

进阶修炼方向

好啦，从技术水平的角度讲，普通开发者和熟练开发者的区别就在于：普通开发者的知识不成体系，而熟练开发者构建了与某个应用场景相关的知识体系。

这样看来，普通开发者要想进阶，方向就非常明确了：构建自己的知识体系。

那么，怎么构建知识体系呢？先参考我的另一篇文章：构建知识图谱，让自己更值钱。如果后续有机会，我会重构一篇新的文章，再聊聊构建知识体系这个话题。

5. 知识图谱的商业价值有哪些

知识图谱是用节点和关系所组成的图谱，为真实世界的各个场景直观地建模，运用“图”这种基础性、通用性的“语言”，“高保真”地表达这个多姿多彩世界的各种关系，并且非常直观、自然、直接和高效，不需要中间过程的转换和处理。

目前知识图谱产品的客户行业，分类主要集中在：社交网络、人力资源与招聘、金融、保险、零售、广告、物流、通信、IT、制造业、传媒、医疗、电子商务和物流等领域。

相比传统数据存储和计算方式，知识图谱的优势显现在以下几个方面：
（1）关系的表达能力强
传统数据库通常通过表格、字段等方式进行读取，而关系的层级及表达方式多种多样，且基于图论和概率图模型，可以处理复杂多样的关联分析，满足企业各种角色关系的分析和管理需要。
（2）像人类思考一样去做分析
基于知识图谱的交互探索式分析，可以模拟人的思考过程去发现、求证、推理，业务人员自己就可以完成全部过程，不需要专业人员的协助。
（3）知识学习
利用交互式机器学习技术，支持根据推理、纠错、标注等交互动作的学习功能，不断沉淀知识逻辑和模型，提高系统智能性，将知识沉淀在企业内部，降低对经验的依赖。
（4）高速反馈
图式的数据存储方式，相比传统存储方式，数据调取速度更快，图库可计算超过百万潜在的实体的属性分布，可实现秒级返回结果，真正实现人机互动的实时响应，让用户可以做到即时决策。

6. 知识图谱主要是做什么的

知识图谱是以框图的形式按一定的逻辑关系把相关知识点联系起来，一方面看现有知识图谱，更好复习知识内容，另一方面自己画知识图谱，整理自己的知识。

7. 科学知识图谱工具知多少

科学知识图谱工具：Citespace及其升级版
Citespace及其升级版是当前国内外研究人员在自己的研究中使用比较多的科学知识图谱绘制工具。该工具是陈超美博士开发的、供广大用户免费使用的软件工具。该软件易于获取，基于一定的数据集可得到用户想知道的某个方向的知识图谱，而且该知识图谱稳定、可读性良好、信息丰富。

8. 一个菜鸟程序员该怎样定位自身的价值方向

我到底能够解决什么问题？给别人带来什么样的方便？这是每个程序员首先要考虑的问题。这决定了你要在什么样的领域、什么样的公司工作，决定了你做什么产品，也决定了你要选择什么技术。

9. 知识图谱是什么有哪些应用价值

知识图谱 (Knowledge Graph) 是当前的研究热点。自从2012年Google推出自己第一版知识图谱以来，它在学术界和工业界掀起了一股热潮。各大互联网企业在之后的短短一年内纷纷推出了自己的知识图谱产品以作为回应。比如在国内，互联网巨头网络和搜狗分别推出”知心“和”知立方”来改进其搜索质量。那么与这些传统的互联网公司相比，对处于当今风口浪尖上的行业 - 互联网金融，知识图谱可以有哪方面的应用呢？

目录
1. 什么是知识图谱？
2. 知识图谱的表示
3. 知识图谱的存储
4. 应用
5. 挑战
6. 结语

1. 什么是知识图谱？

知识图谱本质上是语义网络，是一种基于图的数据结构，由节点(Point)和边(Edge)组成。在知识图谱里，每个节点表示现实世界中存在的“实体”，每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲，知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识推理

推理能力是人类智能的重要特征，使得我们可以从已有的知识中发现隐含的知识，一般的推理往往需要一些规则的支持【3】。例如“朋友”的“朋友”，可以推理出“朋友”关系，“父亲”的“父亲”可以推理出“祖父”的关系。再比如张三的朋友很多也是李四的朋友，那我们可以推测张三和李四也很有可能是朋友关系。当然，这里会涉及到概率的问题。当信息量特别多的时候，怎么把这些信息（side information）有效地与推理算法结合在一起才是最关键的。常用的推理算法包括基于逻辑（Logic）的推理和基于分布式表示方法（Distributed Representation）的推理。随着深度学习在人工智能领域的地位变得越来越重要，基于分布式表示方法的推理也成为目前研究的热点。如果有兴趣可以参考一下这方面目前的工作进展【4,5,6,7】。

大数据、小样本、构建有效的生态闭环是关键

虽然现在能获取的数据量非常庞大，我们仍然面临着小样本问题，也就是样本数量少。假设我们需要搭建一个基于机器学习的反欺诈评分系统，我们首先需要一些欺诈样本。但实际上，我们能拿到的欺诈样本数量不多，即便有几百万个贷款申请，最后被我们标记为欺诈的样本很可能也就几万个而已。这对机器学习的建模提出了更高的挑战。每一个欺诈样本我们都是以很高昂的“代价”得到的。随着时间的推移，我们必然会收集到更多的样本，但样本的增长空间还是有局限的。这有区别于传统的机器学习系统，比如图像识别，不难拿到好几十万甚至几百万的样本。

在这种小样本条件下，构建有效的生态闭环尤其的重要。所谓的生态闭环，指的是构建有效的自反馈系统使其能够实时地反馈给我们的模型，并使得模型不断地自优化从而提升准确率。为了搭建这种自学习系统，我们不仅要完善已有的数据流系统，而且要深入到各个业务线，并对相应的流程进行优化。这也是整个反欺诈环节必要的过程，我们要知道整个过程都充满着博弈。所以我们需要不断地通过反馈信号来调整我们的策略。

6. 结语

知识图谱在学术界和工业界受到越来越多的关注。除了本文中所提到的应用，知识图谱还可以应用在权限管理，人力资源管理等不同的领域。在后续的文章中会详细地讲到这方面的应用。

参考文献

【1】De Abreu, D., Flores, A., Palma, G., Pestana, V., Pinero, J., Queipo, J., ... & Vidal, M. E. (2013). Choosing Between Graph Databases and RDF Engines for Consuming and Mining Linked Data. In COLD.

【2】User Behavior Tutorial

【3】刘知远知识图谱——机器大脑中的知识库第二章知识图谱——机器大脑中的知识库

【4】Nickel, M., Murphy, K., Tresp, V., & Gabrilovich, E. A Review of Relational Machine Learning for Knowledge Graphs.

【5】Socher, R., Chen, D., Manning, C. D., & Ng, A. (2013). Reasoning with neural tensor networks for knowledge base completion. In Advances in Neural Information Processing Systems (pp. 926-934).

【6】Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J., & Yakhnenko, O. (2013). Translating embeddings for modeling multi-relational data. In Advances in Neural Information Processing Systems (pp. 2787-2795).

【7】Jenatton, R., Roux, N. L., Bordes, A., & Obozinski, G. R. (2012). A latent factor model for highly multi-relational data. In Advances in Neural Information Processing Systems(pp. 3167-3175).

导航:首页 > 程序命令 > 程序员知识图谱

程序员知识图谱

与程序员知识图谱相关的资料