导航:首页 > 配服务器 > 大数据服务器怎么做

大数据服务器怎么做

发布时间：2022-07-20 02:43:40

1. 大数据在医疗行业的运用如何构建大数据服务器以及配置服务器

就我卖过给医院的服务器，设备选择，直接拨打服务器厂家客服，会有专门的客户经理为你选型定制，至于大数据构建，由软件决定，就我见过的，一般统计，医院一段时间内就诊人数，哪一科看病人数最多，什么年龄段，那种病情看病人数多，有些会显示实时人数，比如医护人员有多少人，病床住院有多少人，现在医院进出多少人，及整个医院总人数，

2. 用台式电脑怎么样做个数据服务器

搭建一个ftp服务器，不给普通用户设置删除权限就行了

3. 如何创建一个大数据平台

所谓的大数据平台不是独立存在的，比如网络是依赖搜索引擎获得大数据并开展业务的，阿里是通过电子商务交易获得大数据并开展业务的，腾讯是通过社交获得大数据并开始业务的，所以说大数据平台不是独立存在的，重点是如何搜集和沉淀数据，如何分析数据并挖掘数据的价值。

我可能还不够资格回答这个问题，没有经历过一个公司大数据平台从无到有到复杂的过程。不过说说看法吧，也算是梳理一下想法找找喷。
这是个需求驱动的过程。
曾经听过spotify的分享，印象很深的是，他们分享说，他们的hadoop集群第一次故障是因为，机器放在靠窗的地方，太阳晒了当机了（笑）。从简单的没有机房放在自家窗前的集群到一直到现在复杂的数据平台，这是一个不断演进的过程。
对小公司来说，大概自己找一两台机器架个集群算算，也算是大数据平台了。在初创阶段，数据量会很小，不需要多大的规模。这时候组件选择也很随意，Hadoop一套，任务调度用脚本或者轻量的框架比如luigi之类的，数据分析可能hive还不如导入RMDB快。监控和部署也许都没时间整理，用脚本或者轻量的监控，大约是没有ganglia、nagios，puppet什么的。这个阶段也许算是技术积累，用传统手段还是真大数据平台都是两可的事情，但是为了今后的扩展性，这时候上Hadoop也许是不错的选择。
当进入高速发展期，也许扩容会跟不上计划，不少公司可能会迁移平台到云上，比如AWS阿里云什么的。小规模高速发展的平台，这种方式应该是经济实惠的，省了运维和管理的成本，扩容比较省心。要解决的是选择平台本身提供的服务，计算成本，打通数据出入的通道。整个数据平台本身如果走这条路，可能就已经基本成型了。走这条路的比较有名的应该是netflix。
也有一个阶段，你发现云服务的费用太高，虽然省了你很多事，但是花钱嗖嗖的。几个老板一合计，再玩下去下个月工资发布出来了。然后无奈之下公司开始往私有集群迁移。这时候你大概需要一群靠谱的运维，帮你监管机器，之前两三台机器登录上去看看状态换个磁盘什么的也许就不可能了，你面对的是成百上千台主机，有些关键服务必须保证稳定，有些是数据节点，磁盘三天两头损耗，网络可能被压得不堪重负。你需要一个靠谱的人设计网络布局，设计运维规范，架设监控，值班团队走起7*24小时随时准备出台。然后上面再有平台组真的大数据平台走起。
然后是选型，如果有技术实力，可以直接用社区的一整套，自己管起来，监控部署什么的自己走起。这个阶段部署监控和用户管理什么的都不可能像两三个节点那样人肉搞了，配置管理，部署管理都需要专门的平台和组件；定期Review用户的作业和使用情况，决定是否扩容，清理数据等等。否则等机器和业务进一步增加，团队可能会死的很惨，疲于奔命，每天事故不断，进入恶性循环。
当然有金钱实力的大户可以找Cloudera，Hortonworks，国内可以找华为星环，会省不少事，适合非互联网土豪。当然互联网公司也有用这些东西的，比如Ebay。
接下去你可能需要一些重量的组件帮你做一些事情。
比如你的数据接入，之前可能找个定时脚本或者爬log发包找个服务器接收写入HDFS，现在可能不行了，这些大概没有高性能，没有异常保障，你需要更强壮的解决方案，比如Flume之类的。
你的业务不断壮大，老板需要看的报表越来越多，需要训练的数据也需要清洗，你就需要任务调度，比如oozie或者azkaban之类的，这些系统帮你管理关键任务的调度和监控。
数据分析人员的数据大概可能渐渐从RDBMS搬迁到集群了，因为传统数据库已经完全hold不住了，但他们不会写代码，所以你上马了Hive。然后很多用户用了Hive觉得太慢，你就又上马交互分析系统，比如Presto，Impala或者SparkSQL。
你的数据科学家需要写ML代码，他们跟你说你需要Mahout或者Spark MLLib，于是你也部署了这些。
至此可能数据平台已经是工程师的日常工作场所了，大多数业务都会迁移过来。这时候你可能面临很多不同的问题。
比如各个业务线数据各种数据表多的一塌糊涂，不管是你还是写数据的人大概都不知道数据从哪儿来，接下去到哪儿去。你就自己搞了一套元数据管理的系统。
你分析性能，发现你们的数据都是上百Column，各种复杂的Query，裸存的Text格式即便压缩了也还是慢的要死，于是你主推用户都使用列存，Parquet，ORC之类的。
又或者你发现你们的ETL很长，中间生成好多临时数据，于是你下狠心把pipeline改写成Spark了。
再接下来也许你会想到花时间去维护一个门户，把这些零散的组件都整合到一起，提供统一的用户体验，比如一键就能把数据从数据库chua一下拉到HDFS导入Hive，也能一键就chua一下再搞回去；点几下就能设定一个定时任务，每天跑了给老板自动推送报表；或者点一下就能起一个Storm的topology；或者界面上写几个Query就能查询Hbase的数据。这时候你的数据平台算是成型了。
当然，磕磕碰碰免不了。每天你都有新的问题和挑战，否则你就要失业了不是？
你发现社区不断在解决你遇到过的问题，于是你们架构师每天分出很多时间去看社区的进展，有了什么新工具，有什么公司发布了什么项目解决了什么问题，兴许你就能用上。
上了这些乱七八糟的东西，你以为就安生了？Hadoop平台的一个大特点就是坑多。尤其是新做的功能新起的项目。对于平台组的人，老板如果知道这是天然坑多的平台，那他也许会很高兴，因为跟进社区，帮忙修bug，一起互动其实是很提升公司影响力的实情。当然如果老板不理解，你就自求多福吧，招几个老司机，出了问题能马上带路才是正道。当然团队的技术积累不能不跟上，因为数据平台还是乱世，三天不跟进你就不知道世界是什么样了。任何一个新技术，都是坑啊坑啊修啊修啊才完善的。如果是关键业务换技术，那需要小心再小心，技术主管也要有足够的积累，能够驾驭，知道收益和风险。

4. 如何打造高性能大数据分析平台

1.大数据是什么?
大数据是最近IT界最常用的术语之一。然而对大数据的定义也不尽相同，所有已知的论点例如结构化的和非结构化、大规模的数据等等都不够完整。大数据系统通常被认为具有数据的五个主要特征，通常称为数据的5 Vs。分别是大规模，多样性，高效性、准确性和价值性。
据Gartner称，大规模可以被定义为“在本(地)机数据采集和处理技术能力不足以为用户带来商业价值。当现有的技术能够针对性的进行改造后来处理这种规模的数据就可以说是一个成功的大数据解决方案。
这种大规模的数据没将不仅仅是来自于现有的数据源，同时也会来自于一些新兴的数据源，例如常规(手持、工业)设备，日志，汽车等，当然包括结构化的和非结构化的数据。
据Gartner称，多样性可以定义如下：“高度变异的信息资产，在生产和消费时不进行严格定义的包括多种形式、类型和结构的组合。同时还包括以前的历史数据，由于技术的变革历史数据同样也成为多样性数据之一 “。
高效性可以被定义为来自不同源的数据到达的速度。从各种设备，传感器和其他有组织和无组织的数据流都在不断进入IT系统。由此，实时分析和对于该数据的解释(展示)的能力也应该随之增加。
根据Gartner，高效性可以被定义如下：“高速的数据流I/O(生产和消费)，但主要聚焦在一个数据集内或多个数据集之间的数据生产的速率可变上”。
准确性，或真实性或叫做精度是数据的另一个重要组成方面。要做出正确的商业决策，当务之急是在数据上进行的所有分析必须是正确和准确(精确)的。
大数据系统可以提供巨大的商业价值。像电信，金融，电子商务，社交媒体等，已经认识到他们的数据是一个潜在的巨大的商机。他们可以预测用户行为，并推荐相关产品，提供危险交易预警服务，等等。
与其他IT系统一样，性能是大数据系统获得成功的关键。本文的中心主旨是要说明如何让大数据系统保证其性能。
2.大数据系统应包含的功能模块
大数据系统应该包含的功能模块，首先是能够从多种数据源获取数据的功能，数据的预处理(例如，清洗，验证等)，存储数据，数据处理、数据分析等(例如做预测分析，生成在线使用建议等等)，最后呈现和可视化的总结、汇总结果。
下图描述了大数据系统的这些高层次的组件：

2.1各种各样的数据源

当今的IT生态系统，需要对各种不同种类来源的数据进行分析。这些来源可能是从在线Web应用程序，批量上传或feed，流媒体直播数据，来自工业、手持、家居传感的任何东西等等。
显然从不同数据源获取的数据具有不同的格式、使用不同的协议。例如，在线的Web应用程序可能会使用SOAP / XML格式通过HTTP发送数据，feed可能会来自于CSV文件，其他设备则可能使用MQTT通信协议。
由于这些单独的系统的性能是不在大数据系统的控制范围之内，并且通常这些系统都是外部应用程序，由第三方供应商或团队提供并维护，所以本文将不会在深入到这些系统的性能分析中去。
2.2数据采集
第一步，获取数据。这个过程包括分析，验证，清洗，转换，去重，然后存到适合你们公司的一个持久化设备中(硬盘、存储、云等)。
在下面的章节中，本文将重点介绍一些关于如何获取数据方面的非常重要的技巧。请注意，本文将不讨论各种数据采集技术的优缺点。
2.3存储数据
第二步，一旦数据进入大数据系统，清洗，并转化为所需格式时，这些过程都将在数据存储到一个合适的持久化层中进行。
在下面的章节中，本文将介绍一些存储方面的最佳实践(包括逻辑上和物理上)。在本文结尾也会讨论一部分涉及数据安全方面的问题。
2.4数据处理和分析
第三步，在这一阶段中的一部分干净数据是去规范化的，包括对一些相关的数据集的数据进行一些排序，在规定的时间间隔内进行数据结果归集，执行机器学习算法，预测分析等。
在下面的章节中，本文将针对大数据系统性能优化介绍一些进行数据处理和分析的最佳实践。
2.5数据的可视化和数据展示
最后一个步骤，展示经过各个不同分析算法处理过的数据结果。该步骤包括从预先计算汇总的结果(或其他类似数据集)中的读取和用一种友好界面或者表格(图表等等)的形式展示出来。这样便于对于数据分析结果的理解。
3.数据采集中的性能技巧
数据采集是各种来自不同数据源的数据进入大数据系统的第一步。这个步骤的性能将会直接决定在一个给定的时间段内大数据系统能够处理的数据量的能力。
数据采集过程基于对该系统的个性化需求，但一些常用执行的步骤是 – 解析传入数据，做必要的验证，数据清晰，例如数据去重，转换格式，并将其存储到某种持久层。
涉及数据采集过程的逻辑步骤示如下图所示：

下面是一些性能方面的技巧：

●来自不同数据源的传输应该是异步的。可以使用文件来传输、或者使用面向消息的(MoM)中间件来实现。由于数据异步传输，所以数据采集过程的吞吐量可以大大高于大数据系统的处理能力。异步数据传输同样可以在大数据系统和不同的数据源之间进行解耦。大数据基础架构设计使得其很容易进行动态伸缩，数据采集的峰值流量对于大数据系统来说算是安全的。
●如果数据是直接从一些外部数据库中抽取的，确保拉取数据是使用批量的方式。
●如果数据是从feed file解析，请务必使用合适的解析器。例如，如果从一个XML文件中读取也有不同的解析器像JDOM，SAX，DOM等。类似地，对于CSV，JSON和其它这样的格式，多个解析器和API是可供选择。选择能够符合需求的性能最好的。
●优先使用内置的验证解决方案。大多数解析/验证工作流程的通常运行在服务器环境(ESB /应用服务器)中。大部分的场景基本上都有现成的标准校验工具。在大多数的情况下，这些标准的现成的工具一般来说要比你自己开发的工具性能要好很多。
●类似地，如果数据XML格式的，优先使用XML(XSD)用于验证。
●即使解析器或者校等流程使用自定义的脚本来完成，例如使用java优先还是应该使用内置的函数库或者开发框架。在大多数的情况下通常会比你开发任何自定义代码快得多。
●尽量提前滤掉无效数据，以便后续的处理流程都不用在无效数据上浪费过多的计算能力。
●大多数系统处理无效数据的做法通常是存放在一个专门的表中，请在系统建设之初考虑这部分的数据库存储和其他额外的存储开销。
●如果来自数据源的数据需要清洗，例如去掉一些不需要的信息，尽量保持所有数据源的抽取程序版本一致，确保一次处理的是一个大批量的数据，而不是一条记录一条记录的来处理。一般来说数据清洗需要进行表关联。数据清洗中需要用到的静态数据关联一次，并且一次处理一个很大的批量就能够大幅提高数据处理效率。
●数据去重非常重要这个过程决定了主键的是由哪些字段构成。通常主键都是时间戳或者id等可以追加的类型。一般情况下，每条记录都可能根据主键进行索引来更新，所以最好能够让主键简单一些，以保证在更新的时候检索的性能。
●来自多个源接收的数据可以是不同的格式。有时，需要进行数据移植，使接收到的数据从多种格式转化成一种或一组标准格式。
●和解析过程一样，我们建议使用内置的工具，相比于你自己从零开发的工具性能会提高很多。
●数据移植的过程一般是数据处理过程中最复杂、最紧急、消耗资源最多的一步。因此，确保在这一过程中尽可能多的使用并行计算。
●一旦所有的数据采集的上述活动完成后，转换后的数据通常存储在某些持久层，以便以后分析处理，综述，聚合等使用。
●多种技术解决方案的存在是为了处理这种持久(RDBMS，NoSQL的分布式文件系统，如Hadoop和等)。
●谨慎选择一个能够最大限度的满足需求的解决方案。
4.数据存储中的性能技巧
一旦所有的数据采集步骤完成后，数据将进入持久层。
在本节中将讨论一些与数据数据存储性能相关的技巧包括物理存储优化和逻辑存储结构(数据模型)。这些技巧适用于所有的数据处理过程，无论是一些解析函数生的或最终输出的数据还是预计算的汇总数据等。
●首先选择数据范式。您对数据的建模方式对性能有直接的影响，例如像数据冗余，磁盘存储容量等方面。对于一些简单的文件导入数据库中的场景，你也许需要保持数据原始的格式，对于另外一些场景，如执行一些分析计算聚集等，你可能不需要将数据范式化。
●大多数的大数据系统使用NoSQL数据库替代RDBMS处理数据。
●不同的NoSQL数据库适用不同的场景，一部分在select时性能更好，有些是在插入或者更新性能更好。
●数据库分为行存储和列存储。
●具体的数据库选型依赖于你的具体需求(例如，你的应用程序的数据库读写比)。
●同样每个数据库都会根据不同的配置从而控制这些数据库用于数据库复制备份或者严格保持数据一致性。
●这些设置会直接影响数据库性能。在数据库技术选型前一定要注意。
●压缩率、缓冲池、超时的大小，和缓存的对于不同的NoSQL数据库来说配置都是不同的，同时对数据库性能的影响也是不一样的。
●数据Sharding和分区是这些数据库的另一个非常重要的功能。数据Sharding的方式能够对系统的性能产生巨大的影响，所以在数据Sharding和分区时请谨慎选择。
●并非所有的NoSQL数据库都内置了支持连接，排序，汇总，过滤器，索引等。
●如果有需要还是建议使用内置的类似功能，因为自己开发的还是不灵。
●NoSQLs内置了压缩、编解码器和数据移植工具。如果这些可以满足您的部分需求，那么优先选择使用这些内置的功能。这些工具可以执行各种各样的任务，如格式转换、压缩数据等，使用内置的工具不仅能够带来更好的性能还可以降低网络的使用率。
●许多NoSQL数据库支持多种类型的文件系统。其中包括本地文件系统，分布式文件系统，甚至基于云的存储解决方案。
●如果在交互式需求上有严格的要求，否则还是尽量尝试使用NoSQL本地(内置)文件系统(例如HBase 使用HDFS)。
●这是因为，如果使用一些外部文件系统/格式，则需要对数据进行相应的编解码/数据移植。它将在整个读/写过程中增加原本不必要的冗余处理。
●大数据系统的数据模型一般来说需要根据需求用例来综合设计。与此形成鲜明对比的是RDMBS数据建模技术基本都是设计成为一个通用的模型，用外键和表之间的关系用来描述数据实体与现实世界之间的交互。
●在硬件一级，本地RAID模式也许不太适用。请考虑使用SAN存储。
5.数据处理分析中的性能技巧
数据处理和分析是一个大数据系统的核心。像聚合，预测，聚集，和其它这样的逻辑操作都需要在这一步完成。
本节讨论一些数据处理性能方面的技巧。需要注意的是大数据系统架构有两个组成部分，实时数据流处理和批量数据处理。本节涵盖数据处理的各个方面。
●在细节评估和数据格式和模型后选择适当的数据处理框架。
●其中一些框架适用于批量数据处理，而另外一些适用于实时数据处理。
●同样一些框架使用内存模式，另外一些是基于磁盘io处理模式。
●有些框架擅长高度并行计算，这样能够大大提高数据效率。
●基于内存的框架性能明显优于基于磁盘io的框架，但是同时成本也可想而知。
●概括地说，当务之急是选择一个能够满足需求的框架。否则就有可能既无法满足功能需求也无法满足非功能需求，当然也包括性能需求。
●一些这些框架将数据划分成较小的块。这些小数据块由各个作业独立处理。协调器管理所有这些独立的子作业
●在数据分块是需要当心。
●该数据快越小，就会产生越多的作业，这样就会增加系统初始化作业和清理作业的负担。
●如果数据快太大，数据传输可能需要很长时间才能完成。这也可能导致资源利用不均衡，长时间在一台服务器上运行一个大作业，而其他服务器就会等待。
●不要忘了查看一个任务的作业总数。在必要时调整这个参数。
●最好实时监控数据块的传输。在本机机型io的效率会更高，这么做也会带来一个副作用就是需要将数据块的冗余参数提高(一般hadoop默认是3份)这样又会反作用使得系统性能下降。
●此外，实时数据流需要与批量数据处理的结果进行合并。设计系统时尽量减少对其他作业的影响。
●大多数情况下同一数据集需要经过多次计算。这种情况可能是由于数据抓取等初始步骤就有报错，或者某些业务流程发生变化，值得一提的是旧数据也是如此。设计系统时需要注意这个地方的容错。
●这意味着你可能需要存储原始数据的时间较长，因此需要更多的存储。
●数据结果输出后应该保存成用户期望看到的格式。例如，如果最终的结果是用户要求按照每周的时间序列汇总输出，那么你就要将结果以周为单位进行汇总保存。
●为了达到这个目标，大数据系统的数据库建模就要在满足用例的前提下进行。例如，大数据系统经常会输出一些结构化的数据表，这样在展示输出上就有很大的优势。
●更常见的是，这可能会这将会让用户感觉到性能问题。例如用户只需要上周的数据汇总结果，如果在数据规模较大的时候按照每周来汇总数据，这样就会大大降低数据处理能力。
●一些框架提供了大数据查询懒评价功能。在数据没有在其他地方被使用时效果不错。
●实时监控系统的性能，这样能够帮助你预估作业的完成时间。
6.数据可视化和展示中的性能技巧
精心设计的高性能大数据系统通过对数据的深入分析，能够提供有价值战略指导。这就是可视化的用武之地。良好的可视化帮助用户获取数据的多维度透视视图。
需要注意的是传统的BI和报告工具，或用于构建自定义报表系统无法大规模扩展满足大数据系统的可视化需求。同时，许多COTS可视化工具现已上市。
本文将不会对这些个别工具如何进行调节，而是聚焦在一些通用的技术，帮助您能打造可视化层。
●确保可视化层显示的数据都是从最后的汇总输出表中取得的数据。这些总结表可以根据时间短进行汇总，建议使用分类或者用例进行汇总。这么做可以避免直接从可视化层读取整个原始数据。
●这不仅最大限度地减少数据传输，而且当用户在线查看在报告时还有助于避免性能卡顿问题。
●重分利用大化可视化工具的缓存。缓存可以对可视化层的整体性能产生非常不错的影响。
●物化视图是可以提高性能的另一个重要的技术。
●大部分可视化工具允许通过增加线程数来提高请求响应的速度。如果资源足够、访问量较大那么这是提高系统性能的好办法。
●尽量提前将数据进行预处理，如果一些数据必须在运行时计算请将运行时计算简化到最小。
●可视化工具可以按照各种各样的展示方法对应不同的读取策略。其中一些是离线模式、提取模式或者在线连接模式。每种服务模式都是针对不同场景设计的。
●同样，一些工具可以进行增量数据同步。这最大限度地减少了数据传输，并将整个可视化过程固化下来。
●保持像图形，图表等使用最小的尺寸。
●大多数可视化框架和工具的使用可缩放矢量图形(SVG)。使用SVG复杂的布局可能会产生严重的性能影响。
7.数据安全以及对于性能的影响
像任何IT系统一样安全性要求也对大数据系统的性能有很大的影响。在本节中，我们讨论一下安全对大数据平台性能的影响。
– 首先确保所有的数据源都是经过认证的。即使所有的数据源都是安全的，并且没有针对安全方面的需求，那么你可以灵活设计一个安全模块来配置实现。
– 数据进过一次认证，那么就不要进行二次认证。如果实在需要进行二次认证，那么使用一些类似于token的技术保存下来以便后续继续使用。这将节省数据一遍遍认证的开销。
– 您可能需要支持其他的认证方式，例如基于PKI解决方案或Kerberos。每一个都有不同的性能指标，在最终方案确定前需要将其考虑进去。
– 通常情况下数据压缩后进入大数据处理系统。这么做好处非常明显不细说。
– 针对不同算法的效率、对cpu的使用量你需要进行比较来选出一个传输量、cpu使用量等方面均衡的压缩算法。
– 同样，评估加密逻辑和算法，然后再选择。
– 明智的做法是敏感信息始终进行限制。
– 在审计跟踪表或登录时您可能需要维护记录或类似的访问，更新等不同的活动记录。这可能需要根据不同的监管策略和用户需求个性化的进行设计和修改。
– 注意，这种需求不仅增加了数据处理的复杂度，但会增加存储成本。
– 尽量使用下层提供的安全技术，例如操作系统、数据库等。这些安全解决方案会比你自己设计开发性能要好很多。
8.总结
本文介绍了各种性能方面的技巧，这些技术性的知道可以作为打造大数据分析平台的一般准则。大数据分析平台非常复杂，为了满足这种类型系统的性能需求，需要我们从开始建设的时候进行考量。
本文介绍的技术准则可以用在大数据平台建设的各个不同阶段，包括安全如何影响大数据分析平台的性能。

5. 怎样设计一个良好大数据处理的解决方案

在园子里面虽然待的时间不久，不过也有一年有余了，遇到了问题，第一个想到的就是去园子里面借鉴一些前辈们的经验，以免自己走弯路。渐渐的自己也有了一定的独立处理问题的能力，大神们不要喷我是标题党，标题是疑问，小弟不才，遇到了一些数据同步问题或是解决方案错误的麻烦，需要求助大神们，如果您不是赶时间，帮忙看完这篇文章，留上两句言就可以了，小弟不胜感激。好了，不多扯淡了，赶快说正事。1、项目介绍下图为目前项目的整体框架图，大至如下：这是一个winform系统，采用了.NET Framework3.5和SQL Server2008编写与存储。这是一个某车辆监控管理系统，分为前端采集车辆信息，然后存储到后台数据库服务器上，整个系统的大致流程是：前端采集的图片数据，通过交换机统一接口，将数据传入到负责存储的中心服务软件（以下简称为“服务软件”），然后服务软件将接收到的数据存入到数据库中（数据库为SQLServer2008），客户端通过网络去访问数据库的信息，进行检索等一些操作。这是一个大至流程，上图中有N个分中心，每个点都部署了一样的系统及软件，流程一样，然后将分中心的数据同步到总的服务器上，主要同步的对象是从相机过来的照片（照片是转换为二进制后存储到数据库某表中的）及一些相关数据，实现总点可以查看各个分点的数据信息。2、目前问题由于图片是存储在数据库表中的，由数据量过大，平均一天有20万左右的信息需要存储，峰值每秒达到了15-20条左右的记录，图片压缩后为150KB左右的高清图，服务器为24*365天工作的，所以压力比较大，目前的问题是服务器的磁盘IO出现了瓶颈（服务器采用了500G的硬盘做了磁盘阵列），服务器的连接通讯管道出现了拥堵，写入操作超时。这种情况偶尔会发生。3、个人的解决方案经过研究发现，出现了该情况的最大问题在于服务器的磁盘IO出现了瓶颈，频繁的写操作，导致写入操作超时，于是我们就对证下药，解决磁盘IO的压力，由于之前图片是存储在数据库表中的，在占用了数据库的大量空间的同时又减慢了客户端访问服务器的速度。有些时候不是所有的事情软件都能解决的，我们对硬件进行一个升级，同时改变一下系统的存储策略，把图片单独存储，解决服务器的IO瓶颈，减轻服务器写操作的压力。 4、遇到的问题上图的方案貌似是可以解决问题，但是问题来了，如果更好的把分中心的数据同步到总服务器上（主要指图片服务器），目前图片保存的格式是：年月日文件夹/相机IP文件夹/照片编号.JPG 如何在保证了可以快速的同步图片至总服务器的同时，又可以保证图片数据的完整性，不会在同步过程中出现丢失或其它问题，曾经考虑过利用数据库中记录图片的路径，远程访问图片信息，这样倒省去了同步图片的麻烦，可是效率过低，而且对网络要求过高；另外想到的一种方法就是利用FTP进行图片同步，自己写同步代码，定制同步机制。5、求助求助各位大神们，有遇到过类似问题或是有这方面经验的，可以提一下自己的建议和看法，对于目前遇到的情况，不止是同步，包括这个解决方案的可行性给出一些意见和建议，在你们的不吝指教中，小弟或许会找到一些答案。 1、对上上述的方案，可否有更好的解决方案； 2、对于不同的方案，可否有更好的、详细的解决办法； 3、对于上述方案，关于存储和同步是否有更好的意见和建议；小弟在这里感谢各们园子里面的兄弟姐妹了，希望你们踊跃发言，多一个人多一份力量，看到了就说上两句，留个言吧。小弟在线等留言，感谢了！

6. 大数据服务器配置

你这个数据量还是比较大的，相对的服务器配置要高一点，服务器主要的就是CPU 内存以及硬盘分析数据要求数据读取速度要高的所以也决定了不能用普通的硬盘用SSD或者SAS硬盘好一点服务器可以自己采购，可以用戴尔的或者IBM的具体的看你那边的配置，机器的价格差不多要几万了，后期你那边如果在idc机房托管的话还要一部分钱，具体的情况要看你那边具体情况了详细情况咱们可以再聊一下

7. 搭建大数据平台的具体步骤是什么

1、操作体系的挑选

操作体系一般使用开源版的RedHat、Centos或许Debian作为底层的构建渠道，要根据大数据渠道所要建立的数据剖析东西能够支撑的体系，正确的挑选操作体系的版本。

2、建立Hadoop集群

Hadoop作为一个开发和运行处理大规模数据的软件渠道，实现了在大量的廉价计算机组成的集群中对海量数据进行分布式计算。Hadoop结构中最核心的规划是HDFS和MapRece，HDFS是一个高度容错性的体系，合适布置在廉价的机器上，能够供给高吞吐量的数据访问，适用于那些有着超大数据集的应用程序;MapRece是一套能够从海量的数据中提取数据最终回来成果集的编程模型。在生产实践应用中，Hadoop非常合适应用于大数据存储和大数据的剖析应用，合适服务于几千台到几万台大的服务器的集群运行，支撑PB级别的存储容量。

3、挑选数据接入和预处理东西

面临各种来源的数据，数据接入便是将这些零散的数据整合在一起，归纳起来进行剖析。数据接入首要包括文件日志的接入、数据库日志的接入、关系型数据库的接入和应用程序等的接入，数据接入常用的东西有Flume，Logstash，NDC(网易数据运河体系)，sqoop等。

4、数据存储

除了Hadoop中已广泛应用于数据存储的HDFS，常用的还有分布式、面向列的开源数据库Hbase，HBase是一种key/value体系，布置在HDFS上，与Hadoop一样，HBase的目标首要是依靠横向扩展，通过不断的添加廉价的商用服务器，添加计算和存储才能。同时hadoop的资源管理器Yarn，能够为上层应用供给统一的资源管理和调度，为集群在利用率、资源统一等方面带来巨大的优点。

5、挑选数据挖掘东西

Hive能够将结构化的数据映射为一张数据库表，并供给HQL的查询功能，它是建立在Hadoop之上的数据仓库根底架构，是为了削减MapRece编写工作的批处理体系，它的出现能够让那些通晓SQL技术、可是不熟悉MapRece、编程才能较弱和不擅长Java的用户能够在HDFS大规模数据集上很好的利用SQL言语查询、汇总、剖析数据。

6、数据的可视化以及输出API

关于处理得到的数据能够对接主流的BI体系，比如国外的Tableau、Qlikview、PowrerBI等，国内的SmallBI和新兴的网易有数(可免费试用)等，将成果进行可视化，用于决策剖析;或许回流到线上，支撑线上业务的开展。

8. 如何自建网络数据库服务器

服务器如何选择？服务器的选择大概分为以下几种情况：

一、个人网站或者入门级网站，这类网站由于网站内容和访问量都相对比较低，所以对服务器的要求也较低，选择入门级的服务器即可，而且价格会比较便宜。

二、如果是一般的企业网站，企业的产品数量有限，需要存储的内容也有限的话，一般1核、2G、1M的就够用。

三、如果是做开发游戏、数据分析、在线商城等业务或者有高网络包收发需求的企业，这类网站对访问速度、访问量、存储量、稳定性等的要求都比较高，所以建议考虑计算型服务器。

四、如果有大数据计算与存储分析需求，比如互联网行业、金融行业等，最好选择大数据型的服务器，这种服务器的优势是可以随意升降配置。在具体选择服务器的过程中，有几个重要参数是一定要慎重考虑的：

1、CPU：服务器的CPU代表了主机的运算能力，静态页面对CPU的消耗比较小，动态页面对CPU消耗比较大，所以如果是静态页面一般1核的CPU就够了，如果是动态页面则建议选择2核以上的CPU。

2、内存：服务器内存越大，网站打开速度越快。对有数据库运行需求的中小型网站来说最少选择1G以上内存，因为数据库运行也是比较消耗内存的。

3、硬盘：硬盘需要根据程序体量以及数据库大小来定了，此外系统本身会占用一部分硬盘空间，所以开通以后看到硬盘已经被使用了一部分空间。

4、带宽：如果选择VPS或者云服务器，他们对流量是没限制的，重点要考虑带宽。带宽越大访问网站时速度越快。所以可根据访问量大小及未来的发展规划选择带宽。

5、线路：大陆常用的线路一般是三大运营商的，移动、联通、电信；境外的有香港、美国的。可以根据业务面向用户市场区域选择。

9. java 大数据怎么做

Java是编程语言；
大数据是一个概念，包含的技术较多，比如Hadoop、Spark、Storm等；
学习大数据先要学习Java，Java是基础，而大数据比较核心的两个课程是HADOOP、SPARK。

阅读全文

与大数据服务器怎么做相关的资料

热点内容

自己购买云主服务器推荐发布：2025-05-01 00:25:14 浏览：414

个人所得税java 发布：2025-04-30 23:47:33 浏览：756

多余的服务器滑道还有什么用发布：2025-04-30 23:45:30 浏览：184

pdf劈开合并发布：2025-04-30 23:34:35 浏览：21

不能修改的pdf 发布：2025-04-30 23:03:12 浏览：745

同城公众源码发布：2025-04-30 22:39:30 浏览：481

一个服务器2个端口怎么映射发布：2025-04-30 22:14:23 浏览：288

java字符串ascii码发布：2025-04-30 22:03:39 浏览：69

台湾云服务器怎么租服务器发布：2025-04-30 22:03:38 浏览：468

旅游手机网站源码发布：2025-04-30 21:47:53 浏览：325

android关联表发布：2025-04-30 21:47:07 浏览：938

安卓导航无声音怎么维修发布：2025-04-30 21:31:53 浏览：328

app怎么装视频发布：2025-04-30 21:27:31 浏览：428

安卓系统下的软件怎么移到桌面发布：2025-04-30 20:13:49 浏览：89

windows拷贝到linux 发布：2025-04-30 19:46:59 浏览：765

mdr软件解压和别人不一样发布：2025-04-30 19:25:21 浏览：897

单片机串行通信有什么好处发布：2025-04-30 18:56:55 浏览：333

游戏开发程序员书籍发布：2025-04-30 18:24:06 浏览：855

pdf中图片修改发布：2025-04-30 18:00:06 浏览：281

汇编编译后发布：2025-04-30 17:49:15 浏览：484