Я слышал, что «Двенадцать часов в Чанъане» в последнее время относительно популярны, поэтому я поспешил придумать дораму на выходных. Я полагаю, что многих людей больше интересуют «большие выписки из дела». Цзин Анси сказал, что Чжан Сяоцзин был выбран для «больших выписок из дела».
Увидев это, я подумал, что моя девушка спросит меня: что такое большое дело?
Неожиданно девушка не задала этот вопрос, а сказала: Четырехзначный брат такой красивый~!
большое дело
Искусство написания большого дела не существует в истории, оно было создано Ма Бойонгом, автором «Двенадцати часов в Чанъане».
Изобретателем техники больших ведомостей является Сюй Бинь, директор отделения Цзинъань только восьмого ранга.Благодаря своей превосходной памяти и усердному исследованию ряда техник он разработал набор методов ведения дел. на основе архивных данных, а именно «техники написания основных дел», будь то раскрытие дела и поиск кого-то или даже предсказание будущего, это можно сделать.
В оригинальном произведении «Двенадцать часов Чанъаня» есть два описания техники крупномасштабного письма:
Он был плохим парнем столько лет и раскрыл бесчисленное количество дел.Он знает, что многие вещи не нужно искать в секретах.Правда скрыта в файлах, которые все видят.Это зависит от того, сможете ли вы ее найти - так называемый метод «большого дела». Ли Ми специально собрал группу дееспособных чиновников в отделе Цзинъань для осмотра и осмотра школы, подходящей для решения сложившейся ситуации.
Полагаясь на навыки большого дела и зороастрийской подворной регистрации, он быстро нашел подозрительного человека. Этого человека зовут Лунбо, от Цюци.Он стал горожанином в Пекине после 20 лет Кайюаня.В том же году он присоединился к зороастризму и жил на площади Хуайюань.Он был холост. Записи поклонения показывают, что за последние шесть месяцев его посвящение зороастрийскому храму резко возросло, и за это он получил особую похвалу. Во второй год правления Тяньбао городская регистрация была один раз перестроена, но регистрация домохозяйств Лунбо все еще приходится на 20-й год правления Кайюаня. Старый домашний чиновник прекрасно знал об этом маленьком недостатке. В похозяйственной книге надо четко написать явку, если старая книга не сделана, может быть самозванец.
Фактически, так называемое «большое дело» — это то, что мы сегодня называем большими данными.
Большие данные
Большие данные, большие данные, относятся к сбору данных, содержимое которых не может быть собрано, управляемо и обработано с помощью обычных программных средств в течение определенного периода времени. Большие данные имеют 4 основные характеристики:
Объем данных огромен. Данные Baidu показывают, что его новая навигация по домашней странице должна предоставлять более 1,5 ПБ (1 ПБ = 1024 ТБ) данных каждый день, и если эти данные будут распечатаны, это превысит 500 миллиардов листов бумаги формата А4. Подтверждено, что объем данных всех печатных материалов, произведенных людьми, пока составляет всего 200 петабайт.
Различные типы данных. Текущий тип данных представлен не только в виде текста, но и во многих типах данных, таких как изображения, видео, аудио и информация о географическом местоположении, причем персонализированные данные составляют абсолютное большинство.
Обработка быстрая. Обработка данных следует «правилу одной секунды» для быстрого получения важной информации из различных типов данных.
Плотность значений низкая. Возьмите видео в качестве примера, час видео в процессе непрерывного мониторинга может быть полезными данными только в течение одной или двух секунд.
В настоящее время большие данные — очень популярное слово, но все понимают его по-разному, для разных людей большие данные имеют разное значение.
Для большинства пользователей большие данные — это все виды собираемой информации. Проще говоря, это относится к некоторой личной информации пользователя, такой как имя, номер мобильного телефона, род занятий и т. д. Некоторыми более глубокими уровнями могут быть межличностные отношения пользователя, записи транзакций, записи поведения пользователя и т. д.
Для некоторого технического персонала, занимающегося большими данными, большие данные означают сбор данных, доступ к данным, обработку данных, статистический анализ, интеллектуальный анализ данных и т. д. Целью этого является в основном достижение ценности для бизнеса за счет большого объема данных и прогнозного анализа.
Как и в случае с «большими бланками дел», Сюй Бин в некоторых случаях может использовать записи, чтобы находить людей и предсказывать будущее.Сегодня большие данные имеют широкий спектр применений.
Независимо от того, во всех сферах жизни, когда имеется большой объем данных, посредством управления, обработки, анализа и оптимизации данных из различных источников результаты будут возвращены в вышеупомянутые приложения, что создаст огромные экономические и социальная ценность. Использование больших данных постепенно стало ключевым фактором повышения основной конкурентоспособности, и процесс принятия решений во всех сферах жизни меняется с «управляемого бизнесом» на «управляемый данными». В эпоху больших данных благодаря мониторингу и отслеживанию в режиме реального времени массивных данных о поведении, генерируемых объектами исследования в Интернете, можно проводить добычу и анализ для выявления закономерностей, а также предлагать выводы исследования и контрмеры.
Например:
С помощью больших данных банки могут заранее выявлять риски и сокращать экономические потери.
С помощью больших данных веб-сайты электронной коммерции могут анализировать поведение пользователей и рекомендовать подходящие продукты.
С помощью больших данных больницы могут анализировать и лечить различные сложные заболевания.
Благодаря большим данным в обрабатывающей промышленности продажи можно прогнозировать заранее, а производительность можно динамически регулировать.
С большими данными в системе общественной безопасности можно лучше поддерживать социальную стабильность.
Обработка больших данных
Благодаря фильму и телевизионной драме, а также оригинальному произведению «Двенадцать часов Чанъаня» мы знаем, что существует несколько основных предпосылок для способности судить по делу и предсказывать будущее:
1. Необходимо иметь много пропускников, чтобы подробно фиксировать события, происходившие в разных местах.
2. Сотрудник службы регистрации оформляет информацию, записанную им самим, в карточку дела и передает ее в отделение Цзинган.
3. Подразделение Цзинъань хранит эти записи и бланки в библиотеке документов и бланков.
4. Когда вам нужно узнать о событии или человеке, вам нужно, чтобы все государственные служащие прочитали дело и вместе забронировали для поиска информации.
5. Наконец, по этим данным результаты сортируются и анализируются.
Вышеуказанные ссылки на самом деле являются основными процессами современной обработки больших данных: включая сбор данных, предварительную обработку данных, хранение данных, обработку и анализ данных, отображение/визуализацию данных, применение данных и другие ссылки.
Весь процесс обработки также может быть упрощен до четырех этапов, а именно: сбор и хранение данных, предварительная обработка данных, статистический анализ данных и, наконец, интеллектуальный анализ данных.
В «Двенадцати часах Чанъаня» Сюй Бинь сказал: «Числа на бланках — это средства к существованию и карьера людей, и это будущее династии Тан».
Цифры в этом случае на самом деле относятся к важным данным в больших данных.Качество данных. Качество данных проходит через весь процесс обработки больших данных, и каждое звено обработки данных будет влиять на качество больших данных.
Здесь, для процессов обработки больших данных, упомянутых выше, мы кратко представим некоторые из наиболее важных процессов.
Сбор и хранение данных
Сбор данных относится к использованию нескольких баз данных для получения данных от клиентов, и пользователи могут выполнять простые запросы и обработку через эти базы данных. Например, компании электронной коммерции используют традиционные реляционные базы данных, такие как MySQL и Oracle, для хранения данных о каждой транзакции. Кроме того, для сбора данных часто используются базы данных NoSQL, такие как Redis и MongoDB.
предварительная обработка данных
Хотя на стороне сбора будет много баз данных, если вы хотите эффективно анализировать эти массивные данные, вам следует импортировать данные из внешнего интерфейса в централизованную крупномасштабную распределенную базу данных или кластер распределенного хранилища, и вы можете импортировать их на основа Проведите простую очистку и предварительную обработку.
Статистический анализ данных
Статистика и анализ в основном используют распределенные базы данных или распределенные вычислительные кластеры для выполнения общего анализа и классификации массивных данных, хранящихся в них, для удовлетворения наиболее распространенных потребностей в анализе.
сбор данных
В отличие от предыдущего процесса статистики и анализа, интеллектуальный анализ данных, как правило, не имеет заранее заданных тем.Он в основном выполняет расчеты на основе различных алгоритмов на основе существующих данных, чтобы достичь эффекта прогнозирования, чтобы достичь некоторых целей. для расширенного анализа данных.
Технология, связанная с обработкой больших данных
Система технологии больших данных огромна и сложна.Основная технология включает в себя сбор данных, предварительную обработку данных, распределенное хранение, базу данных NoSQL, хранилище данных, машинное обучение, параллельные вычисления, визуализацию и другие технические категории и различные технические уровни.
Хранилище файлов: Hadoop HDFS, Tachyon, KFS
Автономные вычисления: Hadoop MapReduce, Spark
Потоковое вещание, вычисления в реальном времени: Storm, Spark Streaming, S4, Heron
K-V, база данных NOSQL: HBase, Redis, MongoDB
Управление ресурсами: YARN, Mesos
Сбор логов: Flume, Scribe, Logstash, Kibana
Система обмена сообщениями: Kafka, StormMQ, ZeroMQ, RabbitMQ
Анализ запросов: Hive, Impala, Pig, Presto, Phoenix, SparkSQL, Drill, Flink, Kylin, Druid
Распределенный сервис координации: Zookeeper
Управление кластером и мониторинг: Ambari, Ganglia, Nagios, Cloudera Manager
Интеллектуальный анализ данных, машинное обучение: Mahout, Spark MLLib
Синхронизация данных: планирование задач Sqoop: Oozie
Вышеупомянутые инструменты представляют собой некоторые фреймворковые технологии, связанные с большими данными.Видно, что каждый тип имеет множество технологий, которые могут быть реализованы.Поэтому при выборе технологии вам необходимо выбрать наиболее подходящую в соответствии с вашей реальной бизнес-ситуацией. .рамка.