rulinux.net - Все о GNU/Linux и не только - Новости - OpenSource - Представлен первый стабильный релиз СУБД SciDB

Представлен первый стабильный релиз СУБД SciDB

Объявлено о выходе SciDB 11.06, первого стабильного релиза проекта по созданию свободной СУБД для использования в области обработки научных данных, полученных в результате экспериментов и наблюдений. В качестве примеров областей, в которых может использоваться СУБД, называется хранение и анализ наблюдений в оптической и радио астрономии, сейсмологии, генетике, океанографии, геологии, климатических и экологических наблюдений. Кроме научного применения SciDB может использоваться для обработки статистики работы различных сенсоров в нефтедобывающей отрасли и медицинских учреждениях, выполнения финансовой аналитики. СУБД спроектирована для анализа огромных массивов данных (тысячи петабайт) и изначально поддерживает кластеризацию, масштабируясь от одного сервера до десятков тысяч узлов. Код SciDB распространяется в рамках лицензии GPLv3.

Примечательно, что инициатором проекта SciDB выступил Майкл Стоунбрейкер, создатель СУБД Ingres, VoltDB и PostgreSQL, а в разработку были вовлечены российские научные учреждения, такие как НИИСИ РАН и ГАИШ МГУ (сотрудники данных организаций давно участвуют в разработке СУБД PostgreSQL). SciDB непохожа на классические СУБД и в ущерб поддержке некоторых привычных возможностей оптимизирована для обработки и анализа "сырых" данных, которые интенсивно читаются, но почти не изменяются. СУБД не рассчитана на обработку транзакций в реальном времени (OLTP), не поддерживает ACID (атомарность, непротиворечивость, изоляция, долговечность) и журналирование, обеспечивая транзакции лишь на минимальном уровне.

Возможности SciDB сосредоточены вокруг сложной аналитики, для которой стандартная реляционная модель оказывается неэффективной - хранилище оптимизировано для единовременной записи мало структурированных данных и их последующего интенсивного чтения. Вместо добавления отдельных строк, применяется подход загрузки сразу больших порций данных. Хранение данных организовано в виде многомерных вложенных массивов, для обработки которых вместо SQL задействованы языки AQL (Array Query Language) и AFL (Array Functional Language).

AQL напоминает SQL, но предназначен для формирования запросов к многомерным массивам, вместо множеств, т.е. позволяющий учитывать соседние позиции элементов при помощи оператора REGRID, выполняющего действия сходные с MapReduce. Для обработки данных внутри СУБД подготовлен язык AFL, которые позволяет создавать встраиваемые процедуры. Пример обработки данных подробно описан в данной статье.

Важной особенностью SciDB является наличие поддержки версионного контроля данных и учета всех операций над ними, что позволяет отследить все манипуляции, выполняемые над данными, и при необходимости в точности повторить аналитический запрос (над тем же набором данных в состоянии на момент прошлого запроса) или выполнить его в измененном виде (откорректировать алгоритм). Подобный подход, в сочетании с гибкими средствами обмена данными (экспорт не только данных, но и истории операций над ними), позволяет сторонним исследователям на своих локальных системах повторять эксперименты других групп. Аналитические дополнения к SciDB можно разрабатывать на языках, подобных C++ и Python. Присутствуют готовые модули для интеграции с такими вычислительными пакетами, как R, Matlab и IDL, позволяя использовать уже существующие алгоритмы обработки данных.

http://www.scidb.org/news/20110615.php

тотальная копипаста с Opennet.ru

>>> Подробнее

Id(*) (2011-06-25 12:35:20)

Подтверждено: Bod(*) (2011-06-25 18:12:30)

[Ответить на это сообщение]

Ответ на: Представлен первый стабильный релиз СУБД SciDB от Id 2011-06-25 12:35:20

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

Хоть и опенсорс а для скачки прямых линков на нет, надо регится на форуме

исходники https://p4-releases-11-06.s3.amazonaws.com/scidb-11.06.0.2877.tgz

RPM Redhat 5.4 https://p4-releases-11-06.s3.amazonaws.com/scidb-Release-11.06.0.2877-RedHat-5.4-x86_64.rpm

UBuntu https://p4-releases-11-06.s3.amazonaws.com/scidb-Release-11.06.0.2877-Ubuntu-10.04.1-amd64.deb

доки http://trac.scidb.org/wiki/LatestRelease

Id(*)(2011-06-25 12:59:10)

Mozilla/5.0 (X11; U; Linux i686; ru; rv:1.9.1.17) Gecko/20110302 Iceweasel/3.5.17 (like Firefox/3.5.17)

[Ответить на это сообщение]

Ответ на: Re: Представлен первый стабильный релиз СУБД SciDB от Id 2011-06-25 12:59:10

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

> хранилище оптимизировано для единовременной записи мало структурированных данных и их последующего интенсивного чтения.

Чота сходу не придумать зачем бы оно мне было нужно.

anonymous(*)(2011-06-25 13:12:42)

[Ответить на это сообщение]

Ответ на: Re: Представлен первый стабильный релиз СУБД SciDB от anonymous 2011-06-25 13:12:42

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

Ну наприимер собрать дома кластер и загонять в него всевозможные формы порнографии, а потом статистически доказать что обьем груди у актрис с 60х годво до 2011 постепенно растет, с построением научно обоснованного тренда.

И что лучше всего, мы всем Л-НГ сможем очень просто проверить твою выборку и анализ.

Id(*)(2011-06-25 14:59:12)

Mozilla/5.0 (X11; U; Linux i686; ru; rv:1.9.1.17) Gecko/20110302 Iceweasel/3.5.17 (like Firefox/3.5.17)

[Ответить на это сообщение]

Ответ на: Re: Представлен первый стабильный релиз СУБД SciDB от Id 2011-06-25 14:59:12

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

Я думаю погодовой срез по размерам сисьек всех порноактрис за 50 лет боместится в один блок обычной базы данных.

anonymous(*)(2011-06-25 15:09:25)

[Ответить на это сообщение]

Ответ на: Re: Представлен первый стабильный релиз СУБД SciDB от anonymous 2011-06-25 15:09:25

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

Ну перво наперво, можно добавить все виды ХХХ-графии, в том числе так любимое Туксоедом японское ой

Во вторых, данные эти после записи не изменяются, а если есть доступ активно читаются, для чего оптимизирована данная база (по типу данных кстати тоже).

Ну и версионность и другие плюшки, которых нет в "обычной базе данных"

Id(*)(2011-06-25 15:19:48)

Mozilla/5.0 (X11; U; Linux i686; ru; rv:1.9.1.17) Gecko/20110302 Iceweasel/3.5.17 (like Firefox/3.5.17)

[Ответить на это сообщение]

Ответ на: Re: Представлен первый стабильный релиз СУБД SciDB от Id 2011-06-25 15:19:48

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

> активно читаются, для чего оптимизирована данная база (по типу данных кстати тоже).
Это решается кешированием. Неужели до сих пор есть базы без кеширования данных?

> Ну и версионность и другие плюшки, которых нет в "обычной базе данных"
Мне кажется, что эта "версионность" обязательно должна выходить боком для производительности, если они не имели в виду консистентное чтение, конечно.

anonymous(*)(2011-06-25 15:33:42)

[Ответить на это сообщение]

Ответ на: Re: Представлен первый стабильный релиз СУБД SciDB от anonymous 2011-06-25 15:33:42

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

Мало у кого есть хотя бы терабайт памяти для нормального размещения кэша.

Про консистентное чтение, транзакции итп ХЗ доков пока не читал, в описании сказано, что по минимуму сделано.

И остается странны вопрос, модераторов овер9000, а новости никто не прувит :(

Id(*)(2011-06-25 15:51:22)

Mozilla/5.0 (X11; U; Linux i686; ru; rv:1.9.1.17) Gecko/20110302 Iceweasel/3.5.17 (like Firefox/3.5.17)

[Ответить на это сообщение]

Ответ на: Re: Представлен первый стабильный релиз СУБД SciDB от Id 2011-06-25 15:51:22

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

> Мало у кого есть хотя бы терабайт памяти для нормального размещения кэша.
А кто сказал что для "нормального" размещения кеша нужно именно один терабайт? Зависит от задачи. Нормально приложения работают с объёмами данных намного меньшими чем лежит в БД. Те данные, что востребованы чаще - задерживаются в кеше, те что не влияют на среднюю температуру по палате - вытесняются. В принципе в этом и суть БД - оптимизация доступа к данным. А закачивать гигантский блоб в память и работать с ним там - для этого большого ума не надо.

anonymous(*)(2011-06-25 16:11:40)

[Ответить на это сообщение]

Ответ на: Re: Представлен первый стабильный релиз СУБД SciDB от anonymous 2011-06-25 13:12:42

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

Сказано же -- для обработки сырых данных. Типа 10 минут работы ускорителя и вот тебе терабайт данных. А потом эти данные ещё и как-то подогнать надо, распределение построить. Т.е. и получается, что реляционная модель тут как корове седло, и запись должна быть одноразовая, но быстрая (поэтому транзакции тоже не особо нужны, поскольку данные никто в здравом уме модифицировать в дальнейшем не будет). Зато индексы нужны, для быстрого поиска зачений в базе

anonymous(*)(2011-06-26 11:07:50)

Mozilla/5.0 (X11; U; Linux i686; ru-RU; rv:1.8.1.4) Gecko/20070601 SeaMonkey/1.1.2

[Ответить на это сообщение]

Ответ на: Re: Представлен первый стабильный релиз СУБД SciDB от anonymous 2011-06-26 11:07:50

Скрыть

Re: Представлен первый стабильный релиз СУБД SciDB

Если данные никто модифицировать не будет - то и версионность какбэ не нужна. Загружать огромные массивы в память и там работать с ними - и БД собственно не нужна. Из твоего текста получается что единственное чем SciDB похоже на БД - это использование индексов, что не делает её автоматически системой управления базами данных.

anonymous(*)(2011-06-26 13:13:41)

[Ответить на это сообщение]

anonymous@RULINUX.NET~#	Last login: 2026-08-01 02:21:05
Регистрация Вход	Новости \| Разметка \| Пользователи \| Галерея \| Форум \| Статьи \| Неподтвержденное \| Трекер \| Правила форума \| F.A.Q. \| Ссылки \| Поиск

Этот тред читают 1 пользователь:
Анонимных: 1 Зарегистрированных: 0